統計学とは何か
統計学とは、データを収集、整理、分析、解釈するための学問です。医療においては研究データの分析から診断精度の評価、治療効果の判定、疫学調査まで、あらゆる場面で統計が使われています。
医療における統計の役割を整理すると、次のようになります。
- 研究データの分析 — 臨床試験の結果を数値で評価する
- 診断の精度評価 — 検査の感度・特異度を定量化する
- 治療効果の評価 — 新薬や新治療法の有効性を検証する
- 疫学研究 — 疾患の発生率やリスク因子を明らかにする
記述統計と推測統計
統計学は大きく2つの領域に分かれます。
記述統計はデータの特徴を要約・記述する手法です。平均値、中央値、最頻値、標準偏差、分散の計算やグラフ・表での可視化がこれにあたります。「手元のデータを正確に把握する」ことが目的です。
推測統計はサンプル(標本)から母集団全体について推測する手法です。仮説検定、信頼区間、回帰分析などが含まれます。「限られたデータから全体像を推し量る」ことが目的です。
記述統計 vs 推測統計
記述統計は「今あるデータを正確にまとめる」技術、推測統計は「限られたデータから全体を推測する」技術です。臨床研究の論文では、まず記述統計で対象者の特性を示し(Table 1)、次に推測統計で仮説を検証する、という構成が一般的です。
データの種類
医療データを適切に分析するには、扱うデータの種類を正しく見分けることが出発点になります。
量的データ(連続データ)
数値で測定でき、四則演算が意味を持つデータです。
- 年齢、体重、身長
- 収縮期血圧、HbA1c、体温
- 各種検査値(eGFR、CRPなど)
量的データには平均値や標準偏差を計算でき、連続的な値をとります。
質的データ(カテゴリカルデータ)
カテゴリに分類されるデータです。さらに2つに分かれます。
- 名義尺度 — 順序がないカテゴリ(性別、血液型、診断名)
- 順序尺度 — 順序があるカテゴリ(重症度スケール、TNM分類のステージ、痛みのNRS)
データの種類が統計手法を決める
「どの統計手法を使うか」は、データの種類で大きく変わります。量的データにはt検定や相関分析、質的データにはカイ二乗検定やFisherの正確検定を使います。論文を読む際にも「このデータの種類に対して適切な手法が使われているか」を確認する習慣をつけましょう。
基本統計量
中心傾向の指標
データの「中心はどこか」を示す指標です。
平均値(Mean) はすべての値の合計を個数で割った値です。最も直感的な指標ですが、外れ値の影響を受けやすいという弱点があります。たとえば、10人の入院日数が 3, 4, 4, 5, 5, 5, 6, 6, 7, 50 の場合、平均は9.5日になりますが、中央値は5日です。外れ値1つで実態とかけ離れた値になります。
中央値(Median) はデータを小さい順に並べたとき中央に位置する値です。外れ値に対してロバスト(頑健)な指標であり、入院日数や医療費など右に裾が長い分布で特に有用です。
最頻値(Mode) は最も頻繁に出現する値です。カテゴリカルデータの代表値として使われます。
ばらつきの指標
データの「散らばり具合」を示す指標です。
標準偏差(Standard Deviation: SD) はデータが平均からどの程度散らばっているかを示します。値が小さいほどデータが平均付近に集中し、大きいほど散らばっています。
分散(Variance) は標準偏差の2乗です。数学的な計算では分散を使うことが多いですが、解釈のしやすさでは標準偏差が優れています(単位がデータと同じため)。
SD(標準偏差)とSE(標準誤差)を混同しない
論文でよく見る「SD」と「SE(Standard Error)」は別物です。SDはデータのばらつきを表し、SEは推定値の精度を表します。SEはSD÷√nで計算されるため、サンプルサイズが大きくなるほど小さくなります。グラフのエラーバーがSDなのかSEなのかで、見た目の印象が大きく変わるので注意してください。
分布
正規分布
統計学で最も重要な分布の一つです。左右対称の釣鐘型(ベルカーブ)をしており、平均と標準偏差の2つのパラメータで完全に特徴づけられます。多くの統計手法は正規分布を前提としているため、正規分布かどうかの確認(正規性の検定)は分析の第一歩になります。
医療での例として、健常者集団の身長・体重の分布、多くの検査値の基準範囲(平均±2SD)などがあります。
その他の重要な分布
二項分布 は「成功か失敗か」の2つの結果がある試行を繰り返す場合に使います。治療の奏効・非奏効、合併症の有無など、医療では頻出する分布です。
ポアソン分布 はまれな事象の発生回数を扱います。副作用の発生件数、感染症のアウトブレイク、特定期間内の救急搬送数などの分析に用いられます。
医療研究での統計の役割
統計はデータ分析の段階だけでなく、研究デザインの時点から関与します。
研究デザイン段階 では、サンプルサイズの計算、対照群の設定、ランダム化の方法などを決定します。ここで統計的な設計が甘いと、どれだけ丁寧にデータを集めても結論が出せなくなります。
データ分析段階 では、記述統計で対象者の特性を要約し、推測統計で仮説を検証し、結果を解釈します。
結果の報告段階 では、使用した統計手法、p値、信頼区間、効果量などを正確に報告します。CONSORT声明やSTROBE声明など、研究デザインに応じた報告ガイドラインがあります。
まとめ
- 統計学は医療研究のあらゆる段階で不可欠な基盤技術
- 記述統計(データの要約)と推測統計(母集団の推測)の2つの柱がある
- データは量的データと質的データに分かれ、種類によって適用する手法が異なる
- 基本統計量(平均・中央値・標準偏差など)でデータの特徴を把握する
- 正規分布をはじめとする確率分布の理解が統計手法の基礎となる
明日のアクション
手元にある臨床データや公開データセット(例:UCI Machine Learning RepositoryのHeart Diseaseデータセット)を使い、量的データと質的データを分類したうえで、量的データの平均値・中央値・標準偏差を計算してみましょう。ExcelやPython(pandas)で df.describe() を実行するだけでも基本統計量が一覧で得られます。