AIは「もっともらしい次の単語を統計的に選び続けている」機械である。この本質を理解することが、医療での正しい活用の第一歩となる。
AIは「理解」していない — この事実から始める
ChatGPTに小児の症例を入力すると、整然とした鑑別診断リストが返ってくる。まるで経験豊富な医師が「考え」、「判断し」、「答えている」かのように見える。
しかし、ここで立ち止まってほしい。
AIは病態生理を「理解」していない。疾患のメカニズムを「知って」いるわけでもない。
やっていることは驚くほど単純だ――「次に来るべき単語を、確率的に選んでいる」。ただそれだけなのである。
膨大なテキストデータから学んだ統計パターンに基づいて、一語ずつ「もっともらしい」単語を選び続ける。
このプロセスに「理解」や「思考」は存在しない。あるのは「もっともらしさ」の確率計算だけである。
この事実は、AIを医療で使ううえで最も重要な前提である。
「次の単語予測」を体感する
あなたがカルテに「患児は38.5度の発熱と」まで打ち込んだとする。
次に来る言葉として何を思い浮かべるだろうか。「咳嗽」「嘔吐」「発疹」「機嫌不良」――あなたの脳は、何百もの症例の記憶から「もっともらしい次の言葉」を瞬時に候補として浮かべる。
LLMが行っていることは原理的にこれと同じだが、決定的な違いが一つある。
あなたの判断は実際の患児を診察した「身体化された経験」に基づく。一方、LLMの判断はテキストの統計パターン――「記号の並びの確率」に基づく。
だからこそ、LLMの出力は「もっともらしい」が「正しい」とは限らない。
技術用語を理解する
トークンはLLMがテキストを処理する最小単位で、英語では約1単語が1トークンに対応する。しかし日本語では1文字が1〜2トークンを消費するため、同じ内容でも英語の約2倍のコストがかかる。
パラメータはモデル内部の「重み」の数で、GPT-4は推定1.7兆個を持つ。ただし数が多ければ高性能とは限らない。
自己回帰生成はLLMが文章を紡ぐプロセスそのもので、1トークンを生成してはそれを入力に加え、次のトークンを生成する繰り返しである。
長文になるほど初期の情報の影響が薄れ、一貫性が崩れるリスクが高まる。退院サマリーの末尾で冒頭の情報と矛盾が生じることがあるのは、この構造の帰結である。
Attention機構 — 臨床推論との類比
2017年、Google研究チームの論文「Attention Is All You Need」で提案されたTransformerアーキテクチャと、その中核のAttention機構が、現在のすべての主要LLMの基盤となっている。
Attention機構とは「文中のどの言葉がどの言葉と関連するかを動的に計算する仕組み」である。
臨床推論に重ねると直感的に理解できる。
「3歳男児、5日間の発熱、両側眼球結膜充血、イチゴ舌、四肢末端の浮腫」という症例提示を聞いたとき、あなたの脳は:
- 「5日間の発熱」と「眼球結膜充血」を結びつけて川崎病を想起
- 「イチゴ舌」から猩紅熱も鑑別に
- 「四肢末端の浮腫」で川崎病の確信度が上がる
- 「3歳」から年齢的に典型的と判断
LLMのAttention機構も、各トークン間の関連度(Attentionスコア)を計算し、関連度の高い情報に「注意」を集中させて出力を生成する。
TransformerはさらにMulti-Head Attentionを備え、複数の異なる「視点」で同時に文脈を解析する。
これは、カンファレンスで小児循環器医、感染症医、皮膚科医がそれぞれ異なる角度から同じ症例を分析し統合するプロセスに相当する。
ただし決定的な違い
臨床医のAttentionは病態生理の理解と身体化された経験に裏打ちされている。
LLMのAttentionはテキスト上の統計的相関にすぎない。
「発熱」と「イチゴ舌」が学習データ中で「川崎病」と頻繁に共起していたから結びつけるのであって、血管炎のメカニズムを「理解」しているわけではない。
主要モデルの特徴 — 万能の「最強」は存在しない
2025〜2026年時点で、主要モデルはそれぞれ異なる設計思想と強みを持つ。
主要LLMの比較
| モデル | 特徴 | 強み |
|---|---|---|
| GPT-4o | マルチモーダル | テキスト・画像・音声統合処理 |
| GPT-o3 | 推論特化 | 複雑な臨床推論 |
| Claude | 長文対応 | 200Kトークン、安全性重視 |
| Gemini 2.0 | 超長文対応 | 100万〜200万トークン、大量文献処理 |
| DeepSeek-R1 | オープンソース | コスト効率、院内運用可能 |
| Llama 3.1 | オープンソース | カスタムモデル構築 |
重要なのは「単一の最強モデル」が存在しないことである。
- 日常的な文書作成にはGPT-4oやClaude Sonnetが効率的
- 複雑な推論にはGPT-o3やClaude Opusが適する
- 大量文献処理にはGemini
- データの外部送信が不可な環境ではDeepSeek-R1やLlama
目的に応じた使い分けが不可欠である。
Temperature — 「創造性のダイヤル」を使いこなす
AIの出力を制御するうえで最も実用的なパラメータがTemperatureである。
次のトークンを選ぶ際の確率分布の鋭さを調整し、0.0から1.0以上の範囲で設定する。
ダイヤルのメタファー
Temperature 0.0 - ダイヤルを「確定的」に振り切った状態
- 最も確率の高いトークンが常に選ばれる
- 同じ入力に対して何度実行しても同じ出力
- 用途: 薬剤量計算、ガイドライン引用
Temperature 0.5〜0.7 - 適度な多様性
- バランスの取れた出力
- 用途: 患者説明文、教育資料
Temperature 0.8〜1.0 - 創造的な出力
- 多様な候補が生成される
- 用途: ブレインストーミング、鑑別の網羅性チェック
1.0超え - ランダムすぎる
- 医療での使用は推奨されない
実践的アプローチ
まずTemperature 0.0で基本的な鑑別リストを取得し、次に0.7程度で「見落とし」を追加チェックする二段階アプローチが有効である。
Temperature 0.0では教科書的な主要疾患が安定して出力される一方、0.8では出現頻度の低い候補が含まれることがある。
安定性と網羅性の両立を図る実践的な手法である。
コンテキストウィンドウと「Lost in the Middle」
コンテキストウィンドウはLLMが一度に処理できるテキスト量の上限である。
- GPT-4o: 128Kトークン(日本語約6〜8万字)
- Claude: 200K
- Gemini 2.0: 100万〜200万トークン
しかし、大量の情報を一括投入すれば最適な回答が得られるとは限らない。
「Lost in the Middle」問題
2024年のLiuらの研究で、LLMが長いテキストの中間部分に配置された情報を見落とす傾向が実証された。
結果はU字型カーブを描く:
- 冒頭と末尾の情報: 90〜100%の精度
- 中間部分: 60〜70%に低下
対策
- 重要な情報は冒頭か末尾に配置する
- 大量のテキストを一括処理せず複数回に分ける
論文レビューや複数カルテの要約など、長文処理の場面ではこの問題を常に意識すべきである。
Lost in the Middle 問題
長い文脈の「中間部」に置かれた情報は見落とされやすい。重要な情報はプロンプトの冒頭か末尾に配置すること。
知識カットオフとRAG
LLMの「知識」は学習データの収集終了時点で固定される。これが知識カットオフであり、それ以降の情報は持っていない。
厄介なのは、LLMが「知らない」と答える代わりに「もっともらしい回答」を生成してしまう点である。
古い情報を最新と混同したり、存在しない論文を引用したりすることがある。
RAG(検索拡張生成)
この解決策がRAGである。
質問に対してまず外部データベース(PubMed、UpToDateなど)を検索し、取得した最新情報をプロンプトに組み込んでLLMに回答させる。
Perplexityなどの検索統合型AIがこの仕組みを実装している。
ハルシネーション — 「もっともらしい嘘」はバグではなく特性
「次の単語予測」の原理を理解すれば、ハルシネーションがバグではなく構造的特性であることがわかる。
LLMは「正しさ」ではなく「もっともらしさ」で出力を選ぶ。だから学習データに正解がない質問にも沈黙せず、「もっともらしい回答」を生成する。
医療で特に危険なパターン
- 存在しない論文の引用 - 著者名・雑誌名まで「もっともらしい」
- 古いガイドラインの最新との混同
- 用量の微妙な誤り
- 頻度の低い疾患に関する不正確な記述
基本姿勢
だからこそ、AIの出力に対する基本姿勢は一貫している。
「研修医の下書き」として扱うこと。
指導医であるあなたが必ず確認し、修正し、承認する。AIの出力はあなたの専門的判断というフィルターを通して初めて臨床的価値を持つ。
まとめ
- LLMは「次の単語予測」の機械 - 「考えて」いるのではなく、統計パターンから「もっともらしい次のトークン」を選び続けている
- Attention機構は臨床推論に似ている - ただしLLMの「注意」はテキスト上の統計的相関であり、病態生理の理解ではない
- 万能の「最強モデル」は存在しない - タスクに応じた使い分けが不可欠
- Temperatureとコンテキストウィンドウの理解が重要 - Temperature 0.0は確定的、0.8以上は創造的。長文中間部の「Lost in the Middle」に要注意
- ハルシネーションは構造的特性 - AIの出力は「研修医の下書き」として常に検証すべき
この章のポイント
- LLMは「思考」していない——統計的に「もっともらしい次のトークン」を選び続けているだけ
- Attention機構は臨床推論に似ているが、病態生理の理解ではなくテキスト上の統計的相関に過ぎない
- 万能の最強モデルは存在しない——タスクに応じた使い分けが不可欠
- Temperatureを使い分けることで、確定的な出力と創造的な出力を制御できる
- ハルシネーションはバグではなく構造的特性——AIの出力は常に「研修医の下書き」として検証すべき
参考文献
- Vaswani, A. et al. (2017). "Attention Is All You Need." NeurIPS 2017.
- Liu, N. F. et al. (2024). "Lost in the Middle: How Language Models Use Long Contexts." TACL.
- OpenAI. "GPT-4o System Card."
- Anthropic. "Claude Model Card."
- DeepSeek. (2025). "DeepSeek-R1."