Seguici sui social

Intelligenza Artificiale

Med-Gemini: trasformare l’intelligenza artificiale medica con modelli multimodali di nuova generazione

mm

Pubblicato il

 on

Negli ultimi anni l’intelligenza artificiale (AI) ha fatto scalpore nel campo medico. Sta migliorando l'accuratezza della diagnostica per immagini mediche, aiutando a creare trattamenti personalizzati attraverso l'analisi dei dati genomici e accelerando la scoperta di farmaci esaminando i dati biologici. Tuttavia, nonostante questi impressionanti progressi, la maggior parte delle applicazioni di intelligenza artificiale oggi sono limitate a compiti specifici che utilizzano un solo tipo di dati, come una TAC o informazioni genetiche. Questo approccio a modalità unica è molto diverso dal modo in cui lavorano i medici, che integrano dati provenienti da varie fonti per diagnosticare condizioni, prevedere risultati e creare piani di trattamento completi.

Per supportare realmente medici, ricercatori e pazienti in attività quali la generazione di referti radiologici, l’analisi di immagini mediche e la previsione di malattie dai dati genomici, l’intelligenza artificiale deve gestire diverse attività mediche ragionando su dati multimodali complessi, inclusi testo, immagini, video e documenti elettronici. cartelle cliniche (EHR). Tuttavia, costruendo questi IA medica multimodale è stato impegnativo a causa della capacità limitata dell’intelligenza artificiale di gestire diversi tipi di dati e della scarsità di set di dati biomedici completi.

La necessità di un’intelligenza artificiale medica multimodale

L’assistenza sanitaria è una complessa rete di fonti di dati interconnesse, dalle immagini mediche alle informazioni genetiche, che gli operatori sanitari utilizzano per comprendere e curare i pazienti. Tuttavia, i sistemi di intelligenza artificiale tradizionali spesso si concentrano su singole attività con singoli tipi di dati, limitando la loro capacità di fornire una panoramica completa delle condizioni di un paziente. Questi sistemi di intelligenza artificiale unimodali richiedono grandi quantità di dati etichettati, che possono essere costosi da ottenere, forniscono una portata limitata di capacità e affrontano sfide per integrare informazioni provenienti da diverse fonti.

IA multimodale può superare le sfide dei sistemi di IA medica esistenti fornendo una prospettiva olistica che combina informazioni provenienti da diverse fonti, offrendo una comprensione più accurata e completa della salute di un paziente. Questo approccio integrato migliora l'accuratezza diagnostica identificando modelli e correlazioni che potrebbero sfuggire durante l'analisi indipendente di ciascuna modalità. Inoltre, l’intelligenza artificiale multimodale promuove l’integrazione dei dati, consentendo agli operatori sanitari di accedere a una visione unificata delle informazioni sui pazienti, che favorisce la collaborazione e un processo decisionale ben informato. La sua adattabilità e flessibilità gli consentono di apprendere da vari tipi di dati, adattarsi a nuove sfide ed evolversi con i progressi della medicina.

Presentazione di Med-Gemini

I recenti progressi nei grandi modelli di IA multimodale hanno innescato un movimento nello sviluppo di sofisticati sistemi di IA medica. A guidare questo movimento sono Google e DeepMind, che hanno introdotto il loro modello avanzato, Med-Gemelli. Questo modello di IA medica multimodale ha dimostrato prestazioni eccezionali in tutti i settori 14 parametri di riferimento del settore, superando concorrenti come GPT-4 di OpenAI. Med-Gemini è costruito su Gemini famiglia di modelli multimodali di grandi dimensioni (LMM) di Google DeepMind, progettato per comprendere e generare contenuti in vari formati tra cui testo, audio, immagini e video. A differenza dei tradizionali modelli multimodali, Gemini vanta caratteristiche uniche Mix di esperti (MoE) architettura, con specialistica modelli di trasformatori abile nel gestire segmenti di dati o attività specifiche. In campo medico, ciò significa che Gemini può coinvolgere dinamicamente l'esperto più adatto in base al tipo di dati in arrivo, che si tratti di un'immagine radiologica, di una sequenza genetica, dell'anamnesi del paziente o di note cliniche. Questa configurazione rispecchia l'approccio multidisciplinare utilizzato dai medici, migliorando la capacità del modello di apprendere ed elaborare le informazioni in modo efficiente.

Messa a punto di Gemini per l’intelligenza artificiale medica multimodale

Per creare Med-Gemini, i ricercatori Gemelli ben sintonizzati su set di dati medici anonimizzati. Ciò consente a Med-Gemini di ereditare le capacità native di Gemini, tra cui la conversazione linguistica, il ragionamento con dati multimodali e la gestione di contesti più lunghi per compiti medici. I ricercatori hanno addestrato tre versioni personalizzate del codificatore di visione Gemini per modalità 2D, modalità 3D e genomica. È come formare specialisti in diversi campi medici. La formazione ha portato allo sviluppo di tre varianti specifiche di Med-Gemini: Med-Gemini-2D, Med-Gemini-3D e Med-Gemini-Polygenic.

  • Med-Gemini-2D

Med-Gemini-2D è addestrato per gestire immagini mediche convenzionali come radiografie del torace, sezioni TC, patch patologici e immagini della fotocamera. Questo modello eccelle in attività come la classificazione, la risposta visiva alle domande e la generazione di testo. Ad esempio, data una radiografia del torace e l'istruzione "La radiografia ha mostrato segni che potrebbero indicare un carcinoma (un'indicazione di escrescenze cancerose)?", Med-Gemini-2D può fornire una risposta precisa. I ricercatori hanno rivelato che il modello perfezionato di Med-Gemini-2D ha migliorato la generazione di report abilitati all’intelligenza artificiale per le radiografie del torace dall’1% al 12%, producendo report “equivalenti o migliori” di quelli dei radiologi.

  • Med-Gemini-3D

Ampliando le capacità di Med-Gemini-2D, Med-Gemini-3D è addestrato per interpretare dati medici 3D come scansioni TC e MRI. Queste scansioni forniscono una visione completa delle strutture anatomiche, che richiedono un livello di comprensione più profondo e tecniche analitiche più avanzate. La capacità di analizzare scansioni 3D con istruzioni testuali segna un passo avanti significativo nella diagnostica per immagini mediche. Le valutazioni hanno dimostrato che più della metà dei report generati da Med-Gemini-3D portavano alle stesse raccomandazioni terapeutiche formulate dai radiologi.

  • Med-Gemelli-Poligenico

A differenza delle altre varianti Med-Gemini che si concentrano sull'imaging medico, Med-Gemini-Polygenic è progettata per prevedere malattie e risultati sulla salute dai dati genomici. I ricercatori affermano che Med-Gemini-Polygenic è il primo modello nel suo genere ad analizzare i dati genomici utilizzando istruzioni testuali. Gli esperimenti mostrano che il modello supera i precedenti punteggi poligenici lineari nel prevedere otto esiti di salute, tra cui depressione, ictus e glaucoma. Sorprendentemente, dimostra anche capacità “zero-shot”, prevedendo ulteriori risultati sanitari senza una formazione esplicita. Questo progresso è cruciale per la diagnosi di malattie come la malattia coronarica, la BPCO e il diabete di tipo 2.

Costruire fiducia e garantire la trasparenza

Oltre ai notevoli progressi nella gestione dei dati medici multimodali, le capacità interattive di Med-Gemini hanno il potenziale per affrontare questo problema sfide fondamentali nell’adozione dell’IA in campo medico, come la natura “scatola nera” dell’IA e le preoccupazioni sulla sostituzione del lavoro. A differenza dei tipici sistemi di intelligenza artificiale che operano end-to-end e spesso fungono da strumenti sostitutivi, Med-Gemini funziona come uno strumento di assistenza per gli operatori sanitari. Migliorando le proprie capacità di analisi, Med-Gemini allevia i timori di spostamento del lavoro. La sua capacità di fornire spiegazioni dettagliate delle sue analisi e raccomandazioni migliora la trasparenza, consentendo ai medici di comprendere e verificare le decisioni sull’IA. Questa trasparenza crea fiducia tra gli operatori sanitari. Inoltre, Med-Gemini supporta la supervisione umana, garantendo che le informazioni generate dall’intelligenza artificiale siano riviste e convalidate da esperti, promuovendo un ambiente collaborativo in cui l’intelligenza artificiale e i professionisti medici lavorano insieme per migliorare la cura dei pazienti.

Il percorso verso l'applicazione nel mondo reale

Sebbene Med-Gemini mostri notevoli progressi, è ancora in fase di ricerca e richiede una validazione medica approfondita prima dell’applicazione nel mondo reale. Studi clinici rigorosi e test approfonditi sono essenziali per garantire l'affidabilità, la sicurezza e l'efficacia del modello in diversi contesti clinici. I ricercatori devono convalidare le prestazioni di Med-Gemini in varie condizioni mediche e dati demografici dei pazienti per garantirne la robustezza e la generalizzabilità. Saranno necessarie le approvazioni normative delle autorità sanitarie per garantire il rispetto degli standard medici e delle linee guida etiche. Gli sforzi di collaborazione tra sviluppatori di intelligenza artificiale, professionisti medici e organismi di regolamentazione saranno cruciali per perfezionare Med-Gemini, affrontare eventuali limitazioni e creare fiducia nella sua utilità clinica.

Conclusione

Med-Gemini rappresenta un passo avanti significativo nell’intelligenza artificiale medica integrando dati multimodali, come testo, immagini e informazioni genomiche, per fornire diagnosi complete e raccomandazioni terapeutiche. A differenza dei tradizionali modelli di intelligenza artificiale limitati a singole attività e tipologie di dati, l’architettura avanzata di Med-Gemini rispecchia l’approccio multidisciplinare degli operatori sanitari, migliorando l’accuratezza diagnostica e favorendo la collaborazione. Nonostante il suo potenziale promettente, Med-Gemini richiede una convalida rigorosa e l’approvazione normativa prima dell’applicazione nel mondo reale. Il suo sviluppo segnala un futuro in cui l’intelligenza artificiale assiste gli operatori sanitari, migliorando la cura dei pazienti attraverso un’analisi dei dati sofisticata e integrata.

Il dottor Tehseen Zia è professore associato di ruolo presso l'Università COMSATS di Islamabad e ha conseguito un dottorato di ricerca in intelligenza artificiale presso l'Università della Tecnologia di Vienna, in Austria. Specializzato in Intelligenza Artificiale, Machine Learning, Data Science e Computer Vision, ha dato contributi significativi con pubblicazioni su rinomate riviste scientifiche. Il dottor Tehseen ha anche guidato vari progetti industriali in qualità di ricercatore principale e ha lavorato come consulente in materia di intelligenza artificiale.