Connecteu-vos amb nosaltres

Intel·ligència Artificial

Med-Gemini: transformació de la IA mèdica amb models multimodals de nova generació

mm

publicat

 on

La intel·ligència artificial (IA) ha estat fent onades en l'àmbit mèdic durant els últims anys. Millora la precisió del diagnòstic d'imatges mèdiques, ajuda a crear tractaments personalitzats mitjançant l'anàlisi de dades genòmiques i accelera el descobriment de fàrmacs mitjançant l'examen de dades biològiques. No obstant això, malgrat aquests avenços impressionants, la majoria de les aplicacions d'IA actuals es limiten a tasques específiques utilitzant només un tipus de dades, com ara una tomografia computada o informació genètica. Aquest enfocament d'una sola modalitat és força diferent de com treballen els metges, integrant dades de diverses fonts per diagnosticar condicions, predir els resultats i crear plans de tractament integrals.

Per donar suport realment als metges, investigadors i pacients en tasques com la generació d'informes de radiologia, l'anàlisi d'imatges mèdiques i la predicció de malalties a partir de dades genòmiques, la IA ha de gestionar diverses tasques mèdiques raonant sobre dades multimodals complexes, com ara text, imatges, vídeos i electrònica. registres sanitaris (EHR). No obstant això, la construcció d'aquests IA mèdica multimodal Els sistemes han estat un repte a causa de la capacitat limitada de l'IA per gestionar diversos tipus de dades i l'escassetat de conjunts de dades biomèdiques complets.

La necessitat d'una IA mèdica multimodal

L'assistència sanitària és una xarxa complexa de fonts de dades interconnectades, des d'imatges mèdiques fins a informació genètica, que els professionals de la salut utilitzen per comprendre i tractar els pacients. Tanmateix, els sistemes tradicionals d'IA sovint se centren en tasques individuals amb tipus de dades únics, limitant la seva capacitat de proporcionar una visió general completa de l'estat d'un pacient. Aquests sistemes d'IA unimodals requereixen grans quantitats de dades etiquetades, que poden ser costoses d'obtenir, proporcionant un abast limitat de capacitats i s'enfronten a reptes per integrar informació de diferents fonts.

IA multimodal pot superar els reptes dels sistemes d'IA mèdica existents proporcionant una perspectiva holística que combina informació de fonts diverses, oferint una comprensió més precisa i completa de la salut d'un pacient. Aquest enfocament integrat millora la precisió del diagnòstic mitjançant la identificació de patrons i correlacions que es poden perdre en analitzar cada modalitat de manera independent. A més, la IA multimodal promou la integració de dades, permetent als professionals sanitaris accedir a una visió unificada de la informació del pacient, que fomenta la col·laboració i la presa de decisions ben informada. La seva adaptabilitat i flexibilitat l'equipen per aprendre de diversos tipus de dades, adaptar-se als nous reptes i evolucionar amb els avenços mèdics.

Presentació de Med-Gemini

Els avenços recents en grans models d'IA multimodal han provocat un moviment en el desenvolupament de sistemes d'IA mèdica sofisticats. Al capdavant d'aquest moviment hi ha Google i DeepMind, que han presentat el seu model avançat, Med-Gemini. Aquest model d'IA mèdica multimodal ha demostrat un rendiment excepcional 14 punts de referència del sector, superant competidors com GPT-4 d'OpenAI. Med-Gemini està construït sobre el Bessons família de grans models multimodals (LMM) de Google DeepMind, dissenyat per entendre i generar contingut en diversos formats, com ara text, àudio, imatges i vídeo. A diferència dels models multimodals tradicionals, Gemini compta amb un únic Mescla d'experts (MoE) arquitectura, amb especialitzats models de transformadors capacitat per gestionar segments o tasques de dades específiques. En l'àmbit mèdic, això significa que Gemini pot implicar de manera dinàmica l'expert més adequat en funció del tipus de dades entrants, ja sigui una imatge de radiologia, una seqüència genètica, una història del pacient o notes clíniques. Aquesta configuració reflecteix l'enfocament multidisciplinari que utilitzen els metges, millorant la capacitat del model per aprendre i processar la informació de manera eficient.

Afinació Gemini per a la IA mèdica multimodal

Per crear Med-Gemini, investigadors Bessons afinats en conjunts de dades mèdiques anònims. Això permet que Med-Gemini hereti les capacitats natives de Gemini, com ara la conversa lingüística, el raonament amb dades multimodals i la gestió de contextos més llargs per a tasques mèdiques. Els investigadors han entrenat tres versions personalitzades del codificador de visió Gemini per a modalitats 2D, modalitats 3D i genòmica. És com formar especialistes en diferents camps mèdics. La formació ha donat lloc al desenvolupament de tres variants específiques de Med-Gemini: Med-Gemini-2D, Med-Gemini-3D i Med-Gemini-Polygenic.

  • Med-Gemini-2D

Med-Gemini-2D està entrenat per manejar imatges mèdiques convencionals, com ara radiografies de tòrax, talls de TC, pegats de patologia i imatges de càmera. Aquest model destaca en tasques com la classificació, la resposta visual de preguntes i la generació de text. Per exemple, donada una radiografia de tòrax i la instrucció "La radiografia va mostrar algun signe que pugui indicar carcinoma (uns indicis de creixements cancerosos)?", Med-Gemini-2D pot proporcionar una resposta precisa. Els investigadors van revelar que el model refinat de Med-Gemini-2D va millorar entre un 1% i un 12% la generació d'informes habilitats per IA per als raigs X del tòrax, produint informes "equivalents o millors" que els dels radiòlegs.

  • Med-Gemini-3D

Ampliant les capacitats de Med-Gemini-2D, Med-Gemini-3D està entrenat per interpretar dades mèdiques en 3D com ara TC i ressonància magnètica. Aquestes exploracions proporcionen una visió completa de les estructures anatòmiques, que requereixen un nivell més profund de comprensió i tècniques analítiques més avançades. La capacitat d'analitzar escanejos 3D amb instruccions textuals marca un salt important en el diagnòstic d'imatges mèdiques. Les avaluacions van mostrar que més de la meitat dels informes generats per Med-Gemini-3D van donar lloc a les mateixes recomanacions d'atenció que les realitzades pels radiòlegs.

  • Med-Gemini-poligènic

A diferència de les altres variants de Med-Gemini que se centren en la imatge mèdica, Med-Gemini-Polygenic està dissenyat per predir malalties i resultats de salut a partir de dades genòmiques. Els investigadors afirmen que Med-Gemini-Polygenic és el primer model d'aquest tipus que analitza dades genòmiques mitjançant instruccions de text. Els experiments mostren que el model supera les puntuacions poligèniques lineals anteriors en predir vuit resultats de salut, inclosos la depressió, l'ictus i el glaucoma. Sorprenentment, també demostra capacitats de zero-shot, predint resultats de salut addicionals sense formació explícita. Aquest avenç és crucial per al diagnòstic de malalties com la malaltia de l'artèria coronària, la MPOC i la diabetis tipus 2.

Generar confiança i garantir la transparència

A més dels seus notables avenços en el maneig de dades mèdiques multimodals, les capacitats interactives de Med-Gemini tenen el potencial d'abordar reptes fonamentals en l'adopció de la IA en l'àmbit mèdic, com ara la naturalesa de caixa negra de la IA i les preocupacions sobre la substitució de llocs de treball. A diferència dels sistemes d'IA típics que funcionen d'extrem a extrem i sovint serveixen com a eines de substitució, Med-Gemini funciona com una eina d'assistència per als professionals de la salut. Mitjançant la millora de les seves capacitats d'anàlisi, Med-Gemini alleuja les pors del desplaçament laboral. La seva capacitat per proporcionar explicacions detallades de les seves anàlisis i recomanacions millora la transparència, permetent als metges entendre i verificar les decisions d'IA. Aquesta transparència genera confiança entre els professionals sanitaris. A més, Med-Gemini dóna suport a la supervisió humana, assegurant que els experts revisen i validin els coneixements generats per la IA, fomentant un entorn de col·laboració on la IA i els professionals mèdics treballen junts per millorar l'atenció al pacient.

El camí cap a l'aplicació del món real

Tot i que Med-Gemini mostra avenços notables, encara es troba en la fase d'investigació i requereix una validació mèdica exhaustiva abans de l'aplicació al món real. Els assaigs clínics rigorosos i les proves exhaustives són essencials per garantir la fiabilitat, la seguretat i l'eficàcia del model en diversos entorns clínics. Els investigadors han de validar el rendiment de Med-Gemini en diverses condicions mèdiques i dades demogràfiques dels pacients per garantir la seva robustesa i generalització. Les aprovacions normatives de les autoritats sanitàries seran necessàries per garantir el compliment de les normes mèdiques i les directrius ètiques. Els esforços de col·laboració entre desenvolupadors d'IA, professionals mèdics i organismes reguladors seran crucials per perfeccionar Med-Gemini, abordar qualsevol limitació i generar confiança en la seva utilitat clínica.

La línia de base

Med-Gemini representa un salt significatiu en la IA mèdica en integrar dades multimodals, com ara text, imatges i informació genòmica, per proporcionar diagnòstics i recomanacions de tractament integrals. A diferència dels models tradicionals d'IA limitats a tasques i tipus de dades individuals, l'arquitectura avançada de Med-Gemini reflecteix l'enfocament multidisciplinari dels professionals de la salut, millorant la precisió del diagnòstic i fomentant la col·laboració. Malgrat el seu potencial prometedor, Med-Gemini requereix una validació rigorosa i una aprovació reguladora abans de l'aplicació al món real. El seu desenvolupament assenyala un futur on la intel·ligència artificial ajuda els professionals de la salut, millorant l'atenció al pacient mitjançant una anàlisi de dades sofisticada i integrada.

El Dr. Tehseen Zia és professor associat titular a la Universitat COMSATS d'Islamabad i té un doctorat en IA per la Universitat Tecnològica de Viena, Àustria. Especialitzat en intel·ligència artificial, aprenentatge automàtic, ciència de dades i visió per computador, ha fet contribucions importants amb publicacions en revistes científiques de renom. El Dr. Tehseen també ha dirigit diversos projectes industrials com a investigador principal i ha estat consultor d'IA.