AIの現状と医療分野での展望

はじめに — GPT-4が医師国家試験に「合格」した意味

2023年3月、OpenAIのGPT-4が米国医師国家試験（USMLE）で**合格ライン（60%）を大幅に超える86.7%**のスコアを達成しました。日本の医師国家試験でも合格水準の正答率を示す研究結果が報告されています。

しかし、「試験に合格できる」ことと「医師として診療できる」ことは全く異なります。GPT-4は聴診器を持つことも、患者の表情を読むことも、手術を行うこともできません。AIの現状を正確に把握することで、「何に使えて何に使えないか」の判断ができるようになります。

Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education

ChatGPTが米国医師国家試験（USMLE）で合格水準を達成した研究

論文PLOS Digital HealthKung TH, Cheatham M, Medenilla A et al.

三大能力の最前線

1. 自然言語処理（NLP）— 言葉を理解し、生成する

Case Study/ 米国

Med-PaLM 2 — 医学質問応答で専門医レベルに到達

背景: Google/DeepMindが開発した医療特化LLM「Med-PaLM 2」は、医療質問応答ベンチマーク（MedQA、PubMedQA等）で専門医レベルのスコアを達成。

性能: MedQAベンチマーク（USMLE形式の医学問題）で**86.5%**の正答率。人間の専門医の平均（87.0%）とほぼ同等。

臨床活用の可能性:

診療録の要約・構造化
医学文献の検索・要約
患者説明文書のドラフト作成
臨床意思決定支援

限界: 最新の論文やガイドラインは学習データに含まれない可能性。ハルシネーションのリスクは依然として存在。臨床判断の代替ではなく補助ツール。

医療現場での実用例:

用途	具体例	注意点
診療録作成支援	音声入力からSOAP形式のカルテを自動生成	必ず医師が確認・修正
文献レビュー	PubMedの論文を自動要約	ハルシネーションチェック必須
患者説明	検査結果の平易な説明文を生成	患者個別の状況への配慮が必要
紹介状作成	患者情報から紹介状のドラフトを生成	個人情報の取り扱いに注意

2. 画像認識 — 医療画像AIの実用化

Case Study/ 日本

日本の医療画像AI — 承認から保険適用まで

日本の承認済みAI医療機器（主要例）:

製品名	対象	承認年	クラス	特記事項
EndoBRAIN	大腸ポリープ鑑別	2018	III	精度98%、2024年保険加点60点
EIRL	脳動脈瘤検出	2019	II	感度68.2%→77.2%、47都道府県導入
nodoca	インフルエンザ診断支援	2022	III	初のAI「新医療機器」、5万人以上に使用

2024年の転換点: 診療報酬改定でEndoBRAIN-EYE使用時のAI加算（60点）が新設。AI医療機器の経済的評価が本格化し、「AIを使うことが経済的にも合理的」な時代に。

3. 予測分析 — データから未来を予測する

予測対象	使用データ	臨床的価値
敗血症の早期検出	バイタルサイン、検査値の時系列変化	発症6-12時間前に警告
再入院リスク	入退院記録、合併症、社会的要因	高リスク患者への重点介入
薬剤副作用	処方歴、検査値、遺伝情報	重篤な副作用の事前回避
ICU死亡率	APACHE II等のスコア + 連続モニタリングデータ	リソース配分の最適化

生成AIの医療応用 — 可能性と課題

ChatGPT/Claude の医療現場での活用

生成AIの医療応用 — 「使える場面」と「危険な場面」

比較的安全に使える場面（出力の検証が容易）:

診療録のドラフト作成（元データと照合可能）
英語論文の翻訳・要約（原文と比較可能）
患者説明文書のわかりやすい表現への変換（医師が内容を確認）
勉強会・スライド資料の構成案作成

慎重さが必要な場面（出力の検証が困難）:

診断の提案（ハルシネーションのリスク）
薬剤の用量・投与間隔の提案（致命的な誤りの可能性）
エビデンスの引用（存在しない論文を生成する可能性）
未知の症例に対する判断（訓練データの範囲外）

→ 判断基準: 「AIの出力を独立に検証できるか？」。検証可能なら活用、検証困難なら参考程度に留める。

今後の展望 — 短期・中期・長期

短期（1-3年）: マルチモーダルAIと統合

Case Study/ 国際

GPT-4V / Gemini — マルチモーダルAIの医療応用

マルチモーダルAIとは: テキスト、画像、音声など複数のデータ形式を同時に処理できるAI。GPT-4VやGoogle Geminiがこれに該当。

医療での可能性:

画像（X線/CT）+ テキスト（問診票）を同時に入力して診断支援
病理画像とカルテ情報を統合した総合的な判定
患者の音声から感情や症状の変化を検出

課題: マルチモーダルAIはまだ研究段階であり、医療機器としての承認事例はない。精度の検証と安全性の担保が今後の課題。

中期（3-5年）: 個別化医療とAI

ゲノム情報 + AI: 患者のゲノム情報に基づく個別化された治療選択
リアルワールドデータ + AI: 電子カルテ・レセプトデータからの新たなエビデンス創出
AI手術支援の高度化: Da Vinciに続くAI統合型手術支援システムの進化

長期（5-10年以上）: 創薬とAGIへの道

AlphaFold2の後継: タンパク質構造予測を超えた、分子間相互作用予測による創薬革命
基盤モデルの医療特化: 汎用LLMから医療専用の大規模モデルへの進化
規制の国際調和: EU AI Act、FDA規制、日本の薬機法の国際的な調和

まとめ

AIの現状は「特定タスクでは人間を超える精度、しかし臨床環境の複雑さには未対応」の段階です。GPT-4の医師国家試験合格やMed-PaLM 2の専門医レベルの質問応答は印象的ですが、実臨床での活用は画像診断AI（EIRL、EndoBRAIN、nodoca）が先行しています。2024年の診療報酬AI加算は、AIが「研究から実臨床へ」移行する重要な転換点です。生成AIの医療応用は「検証可能な場面で活用、検証困難な場面では参考程度」が現時点での原則です。

次のレッスンでは、AIの社会的影響と倫理を学びます。

明日のアクション

自施設で導入済みまたは検討中のAI医療機器について、「PMDA承認番号」「対象疾患」「検証データの患者集団」「感度/特異度」の4項目を整理してみましょう。また、生成AI（ChatGPT/Claude）を業務で使用している場合、「検証可能な用途」と「検証困難な用途」に分類し、リスク管理のルールを検討してみてください。