AIの現状と医療分野での展望
はじめに — GPT-4が医師国家試験に「合格」した意味
2023年3月、OpenAIのGPT-4が米国医師国家試験(USMLE)で**合格ライン(60%)を大幅に超える86.7%**のスコアを達成しました。日本の医師国家試験でも合格水準の正答率を示す研究結果が報告されています。
しかし、「試験に合格できる」ことと「医師として診療できる」ことは全く異なります。GPT-4は聴診器を持つことも、患者の表情を読むことも、手術を行うこともできません。AIの現状を正確に把握することで、「何に使えて何に使えないか」の判断ができるようになります。
ChatGPTが米国医師国家試験(USMLE)で合格水準を達成した研究
三大能力の最前線
1. 自然言語処理(NLP)— 言葉を理解し、生成する
Med-PaLM 2 — 医学質問応答で専門医レベルに到達
背景: Google/DeepMindが開発した医療特化LLM「Med-PaLM 2」は、医療質問応答ベンチマーク(MedQA、PubMedQA等)で専門医レベルのスコアを達成。
性能: MedQAベンチマーク(USMLE形式の医学問題)で**86.5%**の正答率。人間の専門医の平均(87.0%)とほぼ同等。
臨床活用の可能性:
- 診療録の要約・構造化
- 医学文献の検索・要約
- 患者説明文書のドラフト作成
- 臨床意思決定支援
限界: 最新の論文やガイドラインは学習データに含まれない可能性。ハルシネーションのリスクは依然として存在。臨床判断の代替ではなく補助ツール。
医療現場での実用例:
| 用途 | 具体例 | 注意点 |
|---|---|---|
| 診療録作成支援 | 音声入力からSOAP形式のカルテを自動生成 | 必ず医師が確認・修正 |
| 文献レビュー | PubMedの論文を自動要約 | ハルシネーションチェック必須 |
| 患者説明 | 検査結果の平易な説明文を生成 | 患者個別の状況への配慮が必要 |
| 紹介状作成 | 患者情報から紹介状のドラフトを生成 | 個人情報の取り扱いに注意 |
2. 画像認識 — 医療画像AIの実用化
日本の医療画像AI — 承認から保険適用まで
日本の承認済みAI医療機器(主要例):
| 製品名 | 対象 | 承認年 | クラス | 特記事項 |
|---|---|---|---|---|
| EndoBRAIN | 大腸ポリープ鑑別 | 2018 | III | 精度98%、2024年保険加点60点 |
| EIRL | 脳動脈瘤検出 | 2019 | II | 感度68.2%→77.2%、47都道府県導入 |
| nodoca | インフルエンザ診断支援 | 2022 | III | 初のAI「新医療機器」、5万人以上に使用 |
2024年の転換点: 診療報酬改定でEndoBRAIN-EYE使用時のAI加算(60点)が新設。AI医療機器の経済的評価が本格化し、「AIを使うことが経済的にも合理的」な時代に。
3. 予測分析 — データから未来を予測する
| 予測対象 | 使用データ | 臨床的価値 |
|---|---|---|
| 敗血症の早期検出 | バイタルサイン、検査値の時系列変化 | 発症6-12時間前に警告 |
| 再入院リスク | 入退院記録、合併症、社会的要因 | 高リスク患者への重点介入 |
| 薬剤副作用 | 処方歴、検査値、遺伝情報 | 重篤な副作用の事前回避 |
| ICU死亡率 | APACHE II等のスコア + 連続モニタリングデータ | リソース配分の最適化 |
生成AIの医療応用 — 可能性と課題
ChatGPT/Claude の医療現場での活用
生成AIの医療応用 — 「使える場面」と「危険な場面」
比較的安全に使える場面(出力の検証が容易):
- 診療録のドラフト作成(元データと照合可能)
- 英語論文の翻訳・要約(原文と比較可能)
- 患者説明文書のわかりやすい表現への変換(医師が内容を確認)
- 勉強会・スライド資料の構成案作成
慎重さが必要な場面(出力の検証が困難):
- 診断の提案(ハルシネーションのリスク)
- 薬剤の用量・投与間隔の提案(致命的な誤りの可能性)
- エビデンスの引用(存在しない論文を生成する可能性)
- 未知の症例に対する判断(訓練データの範囲外)
→ 判断基準: 「AIの出力を独立に検証できるか?」。検証可能なら活用、検証困難なら参考程度に留める。
今後の展望 — 短期・中期・長期
短期(1-3年): マルチモーダルAIと統合
GPT-4V / Gemini — マルチモーダルAIの医療応用
マルチモーダルAIとは: テキスト、画像、音声など複数のデータ形式を同時に処理できるAI。GPT-4VやGoogle Geminiがこれに該当。
医療での可能性:
- 画像(X線/CT)+ テキスト(問診票)を同時に入力して診断支援
- 病理画像とカルテ情報を統合した総合的な判定
- 患者の音声から感情や症状の変化を検出
課題: マルチモーダルAIはまだ研究段階であり、医療機器としての承認事例はない。精度の検証と安全性の担保が今後の課題。
中期(3-5年): 個別化医療とAI
- ゲノム情報 + AI: 患者のゲノム情報に基づく個別化された治療選択
- リアルワールドデータ + AI: 電子カルテ・レセプトデータからの新たなエビデンス創出
- AI手術支援の高度化: Da Vinciに続くAI統合型手術支援システムの進化
長期(5-10年以上): 創薬とAGIへの道
- AlphaFold2の後継: タンパク質構造予測を超えた、分子間相互作用予測による創薬革命
- 基盤モデルの医療特化: 汎用LLMから医療専用の大規模モデルへの進化
- 規制の国際調和: EU AI Act、FDA規制、日本の薬機法の国際的な調和
まとめ
AIの現状は「特定タスクでは人間を超える精度、しかし臨床環境の複雑さには未対応」の段階です。GPT-4の医師国家試験合格やMed-PaLM 2の専門医レベルの質問応答は印象的ですが、実臨床での活用は画像診断AI(EIRL、EndoBRAIN、nodoca)が先行しています。2024年の診療報酬AI加算は、AIが「研究から実臨床へ」移行する重要な転換点です。生成AIの医療応用は「検証可能な場面で活用、検証困難な場面では参考程度」が現時点での原則です。
次のレッスンでは、AIの社会的影響と倫理を学びます。
明日のアクション
自施設で導入済みまたは検討中のAI医療機器について、「PMDA承認番号」「対象疾患」「検証データの患者集団」「感度/特異度」の4項目を整理してみましょう。また、生成AI(ChatGPT/Claude)を業務で使用している場合、「検証可能な用途」と「検証困難な用途」に分類し、リスク管理のルールを検討してみてください。