인공 지능

Med-Gemini: 차세대 멀티모달 모델을 통한 의료 AI 혁신

게재

2 주 전

２０２３년 ６월 ２８일

인공지능(AI)은 지난 몇 년 동안 의료 분야에 큰 파장을 일으키고 있습니다. 의료 영상 진단의 정확성을 높이고, 게놈 데이터 분석을 통해 맞춤형 치료법을 개발하는 데 도움을 주며, 생물학적 데이터를 검사하여 약물 발견 속도를 높이고 있습니다. 그러나 이러한 인상적인 발전에도 불구하고 오늘날 대부분의 AI 애플리케이션은 CT 스캔이나 유전 정보와 같은 한 가지 유형의 데이터만 사용하는 특정 작업으로 제한됩니다. 이러한 단일 방식 접근법은 다양한 소스의 데이터를 통합하여 상태를 진단하고 결과를 예측하며 포괄적인 치료 계획을 수립하는 의사의 업무 방식과는 상당히 다릅니다.

방사선 보고서 생성, 의료 이미지 분석, 게놈 데이터로부터 질병 예측과 같은 작업에서 임상의, 연구원 및 환자를 진정으로 지원하려면 AI는 텍스트, 이미지, 비디오 및 전자를 포함한 복잡한 다중 모드 데이터를 추론하여 다양한 의료 작업을 처리해야 합니다. 건강 기록(EHR). 그러나 이러한 건물을 짓는 다중 모드 의료 AI 다양한 데이터 유형을 관리할 수 있는 AI의 제한된 용량과 포괄적인 생물의학 데이터 세트의 부족으로 인해 시스템은 어려운 과제였습니다.

멀티모달 의료 AI의 필요성

의료는 의료 이미지부터 유전 정보까지 의료 전문가가 환자를 이해하고 치료하는 데 사용하는 상호 연결된 데이터 소스의 복잡한 웹입니다. 그러나 기존 AI 시스템은 단일 데이터 유형을 사용하는 단일 작업에 집중하는 경우가 많아 환자 상태에 대한 포괄적인 개요를 제공하는 능력이 제한됩니다. 이러한 단일 모드 AI 시스템에는 방대한 양의 레이블이 지정된 데이터가 필요합니다. 이는 획득하는 데 비용이 많이 들고 제한된 범위의 기능을 제공하며 다양한 소스의 통찰력을 통합하는 데 어려움을 겪을 수 있습니다.

다중 모드 AI 다양한 소스의 정보를 결합하는 전체적인 관점을 제공하고 환자의 건강에 대한 보다 정확하고 완전한 이해를 제공함으로써 기존 의료 AI 시스템의 과제를 극복할 수 있습니다. 이 통합 접근 방식은 각 양식을 독립적으로 분석할 때 놓칠 수 있는 패턴과 상관 관계를 식별하여 진단 정확도를 향상시킵니다. 또한, 다중 모드 AI는 데이터 통합을 촉진하여 의료 전문가가 환자 정보에 대한 통합된 보기에 액세스할 수 있도록 하여 협업과 정보에 입각한 의사 결정을 촉진합니다. 적응성과 유연성을 통해 다양한 데이터 유형으로부터 학습하고, 새로운 과제에 적응하고, 의료 발전과 함께 발전할 수 있습니다.

Med-Gemini 소개

최근 대규모 멀티모달 AI 모델의 발전으로 정교한 의료 AI 시스템 개발에 움직임이 촉발되었습니다. 이러한 움직임을 주도하는 것은 고급 모델을 도입한 Google과 DeepMind입니다. 메드-제미니. 이 다중 모드 의료 AI 모델은 다양한 분야에서 탁월한 성능을 보여주었습니다. 14가지 업계 벤치마크, 같은 경쟁사를 능가 OpenAI의 GPT-4. Med-Gemini는 다음을 기반으로 구축되었습니다. 쌍둥이 자리 가족 LMM(대형 다중 모드 모델) 텍스트, 오디오, 이미지, 비디오 등 다양한 형식의 콘텐츠를 이해하고 생성하도록 설계된 Google DeepMind의 제품입니다. 전통적인 다중 모드 모델과 달리 Gemini는 독특한 전문가 혼합(MoE) 전문화된 건축, 변압기 모델 특정 데이터 세그먼트나 작업을 처리하는 데 능숙합니다. 의료 분야에서 이는 Gemini가 방사선 이미지, 유전자 서열, 환자 이력 또는 임상 기록 등 수신되는 데이터 유형을 기반으로 가장 적합한 전문가를 동적으로 참여시킬 수 있음을 의미합니다. 이 설정은 임상의가 사용하는 다학문적 접근 방식을 반영하여 정보를 효율적으로 학습하고 처리하는 모델의 능력을 향상시킵니다.

멀티모달 의료 AI를 위한 미세 조정 Gemini

Med-Gemini를 만들기 위해 연구원들은 잘 조정된 쌍둥이자리 익명화된 의료 데이터세트에 관한 것입니다. 이를 통해 Med-Gemini는 언어 대화, 다중 모드 데이터 추론, 의료 작업을 위한 더 긴 컨텍스트 관리 등 Gemini의 기본 기능을 상속받을 수 있습니다. 연구원들은 2D 양식, 3D 양식 및 유전체학을 위한 세 가지 맞춤형 버전의 Gemini 비전 인코더를 교육했습니다. 이는 다양한 의료 분야의 전문가를 양성하는 것과 같습니다. 훈련을 통해 Med-Gemini-2D, Med-Gemini-3D 및 Med-Gemini-Polygenic의 세 가지 특정 Med-Gemini 변종 개발이 이루어졌습니다.

메드-제미니-2D

Med-Gemini-2D는 흉부 엑스레이, CT 슬라이스, 병리학 패치 및 카메라 사진과 같은 기존 의료 이미지를 처리하도록 훈련되었습니다. 이 모델은 분류, 시각적 질문 답변, 텍스트 생성과 같은 작업에 탁월합니다. 예를 들어, 흉부 X선 촬영과 "X선에서 암종(암 성장의 징후)을 나타낼 수 있는 징후가 나타났습니까?"라는 지시가 주어지면 Med-Gemini-2D는 정확한 답변을 제공할 수 있습니다. 연구원들은 Med-Gemini-2D의 개선된 모델이 흉부 엑스레이에 대한 AI 지원 보고서 생성을 1%~12% 향상시켜 방사선 전문의의 보고서보다 "동등하거나 더 나은" 보고서를 생성한다고 밝혔습니다.

메드-제미니-3D

Med-Gemini-2D의 기능을 확장한 Med-Gemini-3D는 CT 및 MRI 스캔과 같은 3D 의료 데이터를 해석하도록 훈련되었습니다. 이러한 스캔은 해부학적 구조에 대한 포괄적인 보기를 제공하므로 더 깊은 수준의 이해와 고급 분석 기술이 필요합니다. 텍스트 지침으로 3D 스캔을 분석하는 기능은 의료 영상 진단 분야에서 큰 도약을 의미합니다. 평가 결과, Med-Gemini-3D가 생성한 보고서의 절반 이상이 방사선 전문의가 작성한 것과 동일한 치료 권장사항을 제시한 것으로 나타났습니다.

Med-Gemini-Polygenic

의료 영상에 초점을 맞춘 다른 Med-Gemini 변종과 달리 Med-Gemini-Polygenic은 게놈 데이터를 통해 질병 및 건강 결과를 예측하도록 설계되었습니다. 연구원들은 Med-Gemini-Polygenic이 텍스트 지침을 사용하여 게놈 데이터를 분석하는 최초의 모델이라고 주장합니다. 실험에 따르면 이 모델은 우울증, 뇌졸중, 녹내장 등 2가지 건강 결과를 예측하는 데 있어 이전의 선형 다유전성 점수보다 우수한 것으로 나타났습니다. 놀랍게도 이는 명시적인 훈련 없이 추가적인 건강 결과를 예측하는 제로샷 기능도 보여줍니다. 이러한 발전은 관상동맥질환, COPD, 제XNUMX형 당뇨병과 같은 질병을 진단하는 데 매우 중요합니다.

신뢰 구축 및 투명성 보장

다중 모드 의료 데이터 처리 분야의 놀라운 발전 외에도 Med-Gemini의 대화형 기능은 다음과 같은 잠재력을 가지고 있습니다. 근본적인 도전 AI의 블랙박스 특성, 일자리 대체에 대한 우려 등 의료 분야의 AI 도입에 대한 우려가 커지고 있습니다. 엔드투엔드(end-to-end)로 작동하고 종종 대체 도구 역할을 하는 일반적인 AI 시스템과 달리 Med-Gemini는 의료 전문가를 위한 보조 도구 역할을 합니다. 분석 기능을 강화함으로써 Med-Gemini는 일자리 대체에 대한 두려움을 완화합니다. 분석 및 권장 사항에 대한 자세한 설명을 제공하는 기능은 투명성을 높여 의사가 AI 결정을 이해하고 확인할 수 있도록 합니다. 이러한 투명성은 의료 전문가들 사이에 신뢰를 구축합니다. 또한 Med-Gemini는 인간의 감독을 지원하여 AI에서 생성된 통찰력을 전문가가 검토 및 검증하고 AI와 의료 전문가가 협력하여 환자 치료를 개선하는 협업 환경을 조성합니다.

실제 적용을 향한 길

Med-Gemini는 놀라운 발전을 보여주지만 아직 연구 단계에 있으며 실제 적용에 앞서 철저한 의학적 검증이 필요합니다. 다양한 임상 환경에서 모델의 신뢰성, 안전성 및 효율성을 보장하려면 엄격한 임상 시험과 광범위한 테스트가 필수적입니다. 연구자들은 Med-Gemini의 견고성과 일반화 가능성을 보장하기 위해 다양한 의학적 상태와 환자 인구통계 전반에 걸쳐 Med-Gemini의 성능을 검증해야 합니다. 의료 표준 및 윤리 지침 준수를 보장하려면 보건 당국의 규제 승인이 필요합니다. AI 개발자, 의료 전문가 및 규제 기관 간의 협력 노력은 Med-Gemini를 개선하고 한계를 해결하며 임상 유용성에 대한 자신감을 구축하는 데 중요합니다.

히프 라인

Med-Gemini는 텍스트, 이미지, 게놈 정보 등의 다중 모드 데이터를 통합하여 포괄적인 진단 및 치료 권장 사항을 제공함으로써 의료 AI의 획기적인 도약을 나타냅니다. 단일 작업 및 데이터 유형으로 제한되는 기존 AI 모델과 달리 Med-Gemini의 고급 아키텍처는 의료 전문가의 다학문적 접근 방식을 반영하여 진단 정확도를 높이고 협업을 촉진합니다. 유망한 잠재력에도 불구하고 Med-Gemini는 실제 적용에 앞서 엄격한 검증과 규제 승인이 필요합니다. 이 개발은 AI가 의료 전문가를 지원하고 정교하고 통합된 데이터 분석을 통해 환자 치료를 개선하는 미래를 예고합니다.

다음 위로

Apple WWDC: 획기적인 업데이트를 통해 AI 및 공간 컴퓨팅의 성능 발휘

놓치지 마세요.

오늘 Apple WWDC 컨퍼런스에서 AI가 중심 무대를 차지할 예정

테신 지아 박사

Tehseen Zia 박사는 COMSATS University Islamabad의 종신 부교수이며 오스트리아 Vienna University of Technology에서 AI 박사 학위를 취득했습니다. 인공 지능, 기계 학습, 데이터 과학 및 컴퓨터 비전을 전문으로 하는 그는 평판이 좋은 과학 저널에 출판물을 발표하며 상당한 공헌을 했습니다. Tehseen 박사는 수석 연구원으로서 다양한 산업 프로젝트를 이끌었고 AI 컨설턴트로도 활동했습니다.