Suivez nous sur

Intelligence artificielle

Med-Gemini : Transformer l'IA médicale avec des modèles multimodaux de nouvelle génération

mm

Publié le

 on

L’intelligence artificielle (IA) fait des vagues dans le domaine médical depuis quelques années. Cela améliore la précision des diagnostics d'images médicales, aide à créer des traitements personnalisés grâce à l'analyse des données génomiques et accélère la découverte de médicaments en examinant les données biologiques. Pourtant, malgré ces progrès impressionnants, la plupart des applications d’IA se limitent aujourd’hui à des tâches spécifiques utilisant un seul type de données, comme un scanner ou des informations génétiques. Cette approche à modalité unique est très différente de la façon dont les médecins travaillent, intégrant des données provenant de diverses sources pour diagnostiquer des affections, prédire les résultats et créer des plans de traitement complets.

Pour véritablement soutenir les cliniciens, les chercheurs et les patients dans des tâches telles que la génération de rapports de radiologie, l'analyse d'images médicales et la prédiction de maladies à partir de données génomiques, l'IA doit gérer diverses tâches médicales en raisonnant sur des données multimodales complexes, notamment du texte, des images, des vidéos et des données électroniques. dossiers de santé (DSE). Cependant, construire ces IA médicale multimodale Les systèmes ont été difficiles en raison de la capacité limitée de l’IA à gérer divers types de données et de la rareté d’ensembles de données biomédicales complets.

Le besoin d’une IA médicale multimodale

Les soins de santé sont un réseau complexe de sources de données interconnectées, allant des images médicales aux informations génétiques, que les professionnels de santé utilisent pour comprendre et traiter les patients. Cependant, les systèmes d'IA traditionnels se concentrent souvent sur des tâches uniques avec des types de données uniques, ce qui limite leur capacité à fournir un aperçu complet de l'état d'un patient. Ces systèmes d’IA unimodaux nécessitent de grandes quantités de données étiquetées, dont l’obtention peut être coûteuse, offrant une portée limitée de capacités, et sont confrontés à des défis pour intégrer des informations provenant de différentes sources.

IA multimodale peut surmonter les défis des systèmes d'IA médicale existants en fournissant une perspective holistique combinant des informations provenant de diverses sources, offrant ainsi une compréhension plus précise et plus complète de la santé d'un patient. Cette approche intégrée améliore la précision du diagnostic en identifiant les modèles et les corrélations qui pourraient manquer lors de l'analyse indépendante de chaque modalité. De plus, l’IA multimodale favorise l’intégration des données, permettant aux professionnels de santé d’accéder à une vue unifiée des informations sur les patients, ce qui favorise la collaboration et une prise de décision éclairée. Son adaptabilité et sa flexibilité lui permettent d'apprendre de différents types de données, de s'adapter aux nouveaux défis et d'évoluer avec les progrès médicaux.

Présentation de Med-Gemini

Les progrès récents dans les grands modèles d’IA multimodaux ont déclenché un mouvement dans le développement de systèmes d’IA médicale sophistiqués. À la tête de ce mouvement se trouvent Google et DeepMind, qui ont introduit leur modèle avancé, Med-Gémeaux. Ce modèle d’IA médicale multimodale a démontré des performances exceptionnelles à travers 14 références sectorielles, surpassant des concurrents comme GPT-4 d'OpenAI. Med-Gemini est construit sur le GEMINI Famille de grands modèles multimodaux (LMM) de Google DeepMind, conçu pour comprendre et générer du contenu dans divers formats, notamment du texte, de l'audio, des images et de la vidéo. Contrairement aux modèles multimodaux traditionnels, Gemini possède un Mélange d'experts (MoE) architecture, avec des spécialistes modèles de transformateur compétent pour gérer des segments de données ou des tâches spécifiques. Dans le domaine médical, cela signifie que Gemini peut engager de manière dynamique l'expert le plus approprié en fonction du type de données entrantes, qu'il s'agisse d'une image radiologique, d'une séquence génétique, des antécédents du patient ou de notes cliniques. Cette configuration reflète l'approche multidisciplinaire utilisée par les cliniciens, améliorant la capacité du modèle à apprendre et à traiter efficacement les informations.

Affiner Gemini pour l’IA médicale multimodale

Pour créer Med-Gemini, des chercheurs Gémeaux affinés sur des ensembles de données médicales anonymisées. Cela permet à Med-Gemini d'hériter des capacités natives de Gemini, notamment la conversation linguistique, le raisonnement avec des données multimodales et la gestion de contextes plus longs pour les tâches médicales. Les chercheurs ont formé trois versions personnalisées de l'encodeur de vision Gemini pour les modalités 2D, les modalités 3D et la génomique. C’est comme former des spécialistes dans différents domaines médicaux. La formation a conduit au développement de trois variantes spécifiques de Med-Gemini : Med-Gemini-2D, Med-Gemini-3D et Med-Gemini-Polygenic.

  • Med-Gémeaux-2D

Med-Gemini-2D est formé pour traiter des images médicales conventionnelles telles que des radiographies pulmonaires, des coupes tomodensitométriques, des patchs pathologiques et des images de caméra. Ce modèle excelle dans des tâches telles que la classification, la réponse visuelle aux questions et la génération de texte. Par exemple, à partir d’une radiographie pulmonaire et de l’instruction « La radiographie a-t-elle montré des signes pouvant indiquer un carcinome (indications de tumeurs cancéreuses) ? », Med-Gemini-2D peut fournir une réponse précise. Les chercheurs ont révélé que le modèle raffiné de Med-Gemini-2D a amélioré la génération de rapports de radiographie pulmonaire grâce à l'IA de 1 à 12 %, produisant des rapports « équivalents ou meilleurs » que ceux des radiologues.

  • Med-Gémeaux-3D

En développant les capacités de Med-Gemini-2D, Med-Gemini-3D est formé pour interpréter des données médicales 3D telles que les tomodensitométries et les IRM. Ces analyses fournissent une vue complète des structures anatomiques, nécessitant un niveau de compréhension plus approfondi et des techniques analytiques plus avancées. La possibilité d’analyser des scans 3D avec des instructions textuelles marque une avancée significative dans le diagnostic des images médicales. Les évaluations ont montré que plus de la moitié des rapports générés par Med-Gemini-3D conduisaient aux mêmes recommandations de soins que celles formulées par les radiologues.

  • Med-Gemini-Polygénique

Contrairement aux autres variantes de Med-Gemini axées sur l'imagerie médicale, Med-Gemini-Polygenic est conçu pour prédire les maladies et les résultats sur la santé à partir de données génomiques. Les chercheurs affirment que Med-Gemini-Polygenic est le premier modèle du genre à analyser les données génomiques à l’aide d’instructions textuelles. Les expériences montrent que le modèle surpasse les scores polygéniques linéaires précédents dans la prédiction de huit problèmes de santé, notamment la dépression, les accidents vasculaires cérébraux et le glaucome. Remarquablement, il démontre également des capacités de tir nul, prédisant des résultats de santé supplémentaires sans formation explicite. Cette avancée est cruciale pour diagnostiquer des maladies telles que la maladie coronarienne, la BPCO et le diabète de type 2.

Bâtir la confiance et garantir la transparence

En plus de ses avancées remarquables dans le traitement des données médicales multimodales, les capacités interactives de Med-Gemini ont le potentiel de répondre aux défis fondamentaux dans l’adoption de l’IA dans le domaine médical, comme la nature de boîte noire de l’IA et les préoccupations concernant le remplacement des emplois. Contrairement aux systèmes d’IA classiques qui fonctionnent de bout en bout et servent souvent d’outils de remplacement, Med-Gemini fonctionne comme un outil d’assistance pour les professionnels de la santé. En améliorant ses capacités d'analyse, Med-Gemini atténue les craintes de suppression d'emploi. Sa capacité à fournir des explications détaillées sur ses analyses et recommandations améliore la transparence, permettant aux médecins de comprendre et de vérifier les décisions de l’IA. Cette transparence renforce la confiance entre les professionnels de santé. De plus, Med-Gemini soutient la surveillance humaine, en garantissant que les informations générées par l'IA sont examinées et validées par des experts, favorisant ainsi un environnement collaboratif dans lequel l'IA et les professionnels de la santé travaillent ensemble pour améliorer les soins aux patients.

Le chemin vers une application dans le monde réel

Bien que Med-Gemini présente des progrès remarquables, il est encore en phase de recherche et nécessite une validation médicale approfondie avant une application dans le monde réel. Des essais cliniques rigoureux et des tests approfondis sont essentiels pour garantir la fiabilité, la sécurité et l'efficacité du modèle dans divers contextes cliniques. Les chercheurs doivent valider les performances de Med-Gemini dans diverses conditions médicales et données démographiques des patients pour garantir sa robustesse et sa généralisabilité. Les approbations réglementaires des autorités sanitaires seront nécessaires pour garantir le respect des normes médicales et des directives éthiques. Les efforts de collaboration entre les développeurs d’IA, les professionnels de la santé et les organismes de réglementation seront cruciaux pour affiner Med-Gemini, remédier à toutes les limites et renforcer la confiance dans son utilité clinique.

Conclusion

Med-Gemini représente une avancée significative dans l'IA médicale en intégrant des données multimodales, telles que du texte, des images et des informations génomiques, pour fournir des diagnostics complets et des recommandations de traitement. Contrairement aux modèles d'IA traditionnels limités à des tâches et à des types de données uniques, l'architecture avancée de Med-Gemini reflète l'approche multidisciplinaire des professionnels de la santé, améliorant la précision du diagnostic et favorisant la collaboration. Malgré son potentiel prometteur, Med-Gemini nécessite une validation et une approbation réglementaire rigoureuses avant son application dans le monde réel. Son développement annonce un avenir dans lequel l’IA assistera les professionnels de la santé, en améliorant les soins aux patients grâce à une analyse de données sophistiquée et intégrée.

Le Dr Tehseen Zia est professeur agrégé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en IA de l'Université de technologie de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté d'importantes contributions avec des publications dans des revues scientifiques réputées. Le Dr Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi à titre de consultant en IA.