人工智能

Med-Gemini：利用下一代多模式模型改变医疗人工智能

发布时间

2星期前

2024 年 6 月 10 日

过去几年，人工智能（AI）在医疗领域掀起了波澜。它提高了医学图像诊断的准确性，通过基因组数据分析帮助创建个性化治疗，并通过检查生物数据加快药物发现。然而，尽管取得了这些令人印象深刻的进步，当今大多数人工智能应用仍仅限于仅使用一种数据类型的特定任务，例如 CT 扫描或遗传信息。这种单一模式的方法与医生的工作方式截然不同，医生整合各种来源的数据来诊断病情、预测结果并制定全面的治疗计划。

为了真正支持临床医生、研究人员和患者完成生成放射学报告、分析医学图像和根据基因组数据预测疾病等任务，人工智能需要通过推理复杂的多模态数据（包括文本、图像、视频和电子数据）来处理各种医疗任务。健康记录（EHR）。然而，构建这些多模态医疗人工智能由于人工智能管理不同数据类型的能力有限以及综合生物医学数据集的稀缺，系统一直面临着挑战。

对多模式医疗人工智能的需求

医疗保健是一个由相互关联的数据源组成的复杂网络，从医学图像到遗传信息，医疗保健专业人员用它来了解和治疗患者。然而，传统的人工智能系统通常专注于具有单一数据类型的单一任务，这限制了它们全面概述患者病情的能力。这些单模态人工智能系统需要大量的标记数据，获取这些数据的成本可能很高，提供的功能范围有限，并且面临着整合来自不同来源的见解的挑战。

多模式人工智能可以通过提供结合不同来源信息的整体视角来克服现有医疗人工智能系统的挑战，从而更准确、更全面地了解患者的健康状况。这种集成方法通过识别独立分析每种模态时可能会错过的模式和相关性来提高诊断准确性。此外，多模式人工智能促进数据集成，使医疗保健专业人员能够访问患者信息的统一视图，从而促进协作和明智的决策。它的适应性和灵活性使其能够从各种数据类型中学习，适应新的挑战，并随着医疗进步而发展。

介绍 Med-Gemini

大型多模式人工智能模型的最新进展引发了复杂医疗人工智能系统开发的运动。领导这一运动的是 Google 和 DeepMind，他们推出了他们的先进模型，地中海双子座。这种多模式医疗人工智能模型在各个领域都表现出了卓越的性能 14项行业标杆，超越竞争对手，如 OpenAI的GPT-4。 Med-Gemini 建立在双子座的家庭大型多模式模型 (LMM) 来自 Google DeepMind，旨在理解和生成各种格式的内容，包括文本、音频、图像和视频。与传统的多式联运模式不同，Gemini 拥有独特的混合专家 (MoE) 建筑学，有专门的变压器型号擅长处理特定的数据段或任务。在医疗领域，这意味着 Gemini 可以根据传入的数据类型（无论是放射图像、基因序列、患者病史还是临床记录）动态地聘请最合适的专家。这种设置反映了临床医生使用的多学科方法，增强了模型有效学习和处理信息的能力。

为多模式医疗 AI 微调 Gemini

为了创建 Med-Gemini，研究人员精调的双子座匿名医疗数据集。这使得 Med-Gemini 能够继承 Gemini 的原生功能，包括语言对话、多模态数据推理以及管理医疗任务的较长上下文。研究人员针对 2D 模态、3D 模态和基因组学训练了 Gemini 视觉编码器的三个定制版本。这就像培训不同医学领域的专家。培训导致了三种特定 Med-Gemini 变体的开发：Med-Gemini-2D、Med-Gemini-3D 和 Med-Gemini-Polygenic。

Med-Gemini-2D

Med-Gemini-2D 经过训练可以处理传统的医学图像，例如胸部 X 光片、CT 切片、病理斑片和相机图片。该模型在分类、视觉问答和文本生成等任务中表现出色。例如，根据胸部 X 光检查和说明“X 光检查是否显示任何可能表明癌症的迹象（癌性生长的迹象）？”，Med-Gemini-2D 可以提供精确的答案。研究人员透露，Med-Gemini-2D 的改进模型将人工智能支持的胸部 X 光报告生成提高了 1% 至 12%，生成的报告“相当于或更好”于放射科医生的报告。

Med-Gemini-3D

Med-Gemini-2D 扩展了 Med-Gemini-3D 的功能，经过训练可以解释 3D 医疗数据，例如 CT 和 MRI 扫描。这些扫描提供了解剖结构的全面视图，需要更深入的理解和更先进的分析技术。使用文本指令分析 3D 扫描的能力标志着医学图像诊断的重大飞跃。评估显示，Med-Gemini-3D 生成的报告中有一半以上得出了与放射科医生提出的相同的护理建议。

中双子多基因

与其他专注于医学成像的 Med-Gemini 变体不同，Med-Gemini-Polygenic 旨在根据基因组数据预测疾病和健康结果。研究人员声称，Med-Gemini-Polygenic 是同类中第一个使用文本指令分析基因组数据的模型。实验表明，该模型在预测八种健康结果（包括抑郁症、中风和青光眼）方面优于之前的线性多基因评分。值得注意的是，它还展示了零样本能力，无需明确的训练即可预测额外的健康结果。这一进步对于诊断冠状动脉疾病、慢性阻塞性肺病和 2 型糖尿病等疾病至关重要。

建立信任并确保透明度

除了在处理多模式医疗数据方面取得的显着进步之外，Med-Gemini 的交互功能还有潜力解决以下问题：根本挑战人工智能在医疗领域的应用，例如人工智能的黑匣子性质和对工作替代的担忧。与端到端运行且通常充当替代工具的典型人工智能系统不同，Med-Gemini 充当医疗保健专业人员的辅助工具。通过增强分析能力，Med-Gemini 减轻了人们对工作被取代的担忧。它能够对其分析和建议提供详细解释，从而提高了透明度，使医生能够理解和验证人工智能决策。这种透明度在医疗保健专业人员之间建立了信任。此外，Med-Gemini 支持人类监督，确保人工智能生成的见解得到专家的审查和验证，从而营造一个协作环境，让人工智能和医疗专业人员共同努力改善患者护理。

实际应用之路

虽然 Med-Gemini 展示了显着的进步，但它仍处于研究阶段，需要在实际应用之前进行彻底的医学验证。严格的临床试验和广泛的测试对于确保模型在不同临床环境中的可靠性、安全性和有效性至关重要。研究人员必须验证 Med-Gemini 在各种医疗条件和患者人口统计数据中的表现，以确保其稳健性和普遍性。为了保证遵守医疗标准和道德准则，需要获得卫生当局的监管批准。人工智能开发人员、医疗专业人员和监管机构之间的合作对于完善 Med-Gemini、解决任何限制并建立对其临床实用性的信心至关重要。

底线

Med-Gemini 通过集成文本、图像和基因组信息等多模态数据来提供全面的诊断和治疗建议，代表了医疗人工智能的重大飞跃。与仅限于单一任务和数据类型的传统人工智能模型不同，Med-Gemini 的先进架构反映了医疗保健专业人员的多学科方法，提高了诊断准确性并促进了协作。尽管潜力巨大，Med-Gemini 在实际应用之前仍需要严格的验证和监管批准。它的发展预示着人工智能将协助医疗保健专业人员，通过复杂的集成数据分析改善患者护理的未来。