誤分類バイアスについて | 医療統計とStataプログラミングの部屋

今回は疫学に関する内容で、Stataは直接的には関係ありません．しかし最近つくづく思うのは、疫学の知識をもって統計やプログラミングを実践しなければ結局のところ臨床研究として一番重要な部分は抜けてしまう、ということです．Discussionを充実させるためにも疫学の知識は最低限身につけなければ、と必要性を実感しています.

今回の内容は、誤分類バイアスについてです．Rothmanによれば、疫学研究における誤差には大きく分けて

偶然誤差（random error）
系統誤差（systematic error）

の2種類があり、研究をデザインするときに研究者はこれらの誤差を減らす努力をしています．研究のサイズを増やしていくと検出力が増す、というのはこのうちの偶然誤差の影響を少なくしているにすぎず、系統誤差（バイアス）は厳然と存在しています．したがって研究の規模と関係なくバイアスを減らすための思考が必要になります．

本によって分類は異なりますが、Rothmanでは、バイアスには以下の3つにわけることが有用であるとしています．

選択バイアス（selection bias）
情報バイアス（information bias）または誤分類バイアス（misclassification bias）
交絡（confounding）

今回はこのうちの情報バイアス（誤分類バイアス）について説明します．（個人的には誤分類バイアスという用語のほうがわかりやすいので、以下こちらで統一させていただきます．）

1．誤分類バイアスの分類
2．非差異的誤分類について
3．差異的誤分類について
4．検査特性（感度・特異度）が変化してしまうバイアスについて
- １）確証バイアス
- ２）不完全Gold standardバイアス
5．まとめ

1．誤分類バイアスの分類

誤分類バイアスには「差異的(differential)」な場合と「非差異的(non-differential)」な場合に分けられます．後者は他の変数と無関係な誤分類です.

Non-differential misclassification（非差異的誤分類）：アウトカムあるいは曝露因子の、偏りなくランダムに誤分類されること.
Differential misclassification（差異的誤分類）： アウトカムまたは曝露因子が、ほかの因子と関連してアンバランスに誤分類されること.

Rothmanによれば、

差異的誤分類では、効果を過小評価することも過大評価することもある.　これに対して、すべての疫学研究が多かれ少なかれ影響を受けている、より広くみられる誤分類が非差異的誤分類である．非差異的誤分類では、曝露ないし疾病（もしくはその両方）が誤分類されるが、誤分類の仕方が他の変数の状態によらない．（中略）非差異的誤分類は、差異的誤分類と比べてバイアスの方向性の予測が立てやすい．二値的な曝露の誤分類が疾病に関して非差異的であると、効果の推定値は「希釈」され、実際の効果よりもゼロ、すなわち効果なしに近づく．もともと効果がなければ曝露の非差異的誤分類は効果の推定にバイアスを与えない．
「ロスマンの疫学　科学的思考への誘い(第2版)」より

2．非差異的誤分類について

はじめに非差異的誤分類について説明しますが、前述のように、二値的な曝露の誤分類が疾病に関して非差異的であると、効果の推定値は「効果なし」に近づくのですが、具体的にシミュレーションしてみるとよりわかりやすいです．

以下の図では、曝露因子とアウトカムのクロス表を図で示しています．必ずしも□の大きさが人数を表すわけではないので注意してください．

これだけではわかりませんが、具体的な数字をあてはめてみましょう．心筋梗塞に対して高脂肪食の摂取がリスクになるか、という検討を行っているイメージをしてください．真の関係ではオッズ比が5.0ですが、アウトカムが20%ずつなし→ありに、あるいは曝露因子が20%ずつなし→ありに誤分類されたときのオッズ比の変化を示しています．

いずれも真の値よりも小さくなっているのがわかるでしょうか？また、以下のように逆にあり→なしに誤分類される場合にも同様に真の値よりも低下します．

いかがでしょうか。つまり、誤分類が存在する可能性について論じるときに、それがアウトカムとは関係なしにランダムに発生しているだろう、ということができれば、差を縮める方向へのバイアスがかかっている（bias toward the null）ことを主張できます．これはLimitationを書くうえで重要な考え方になると思います．

3．差異的誤分類について

次に差異的誤分類について述べたいと思います．こちらはバイアスのかかる方向がケースバイケースです．しかし代表的には「思い出しバイアス」と「不十分な盲検化」を想起できれば覚えやすいと思います．

Case-control研究で症例群に対して曝露因子の有無を過去に遡って思い出してもらうとします．このような状況では、現時点でアウトカムを発症している人のほうがより深く思い出したり、あるいはグレーゾーンを「あり」と自己判断したりするなどして誤分類が生じ得ます.

今度はアウトカムが曝露因子ごとに異なる割合で誤分類されてしまう状況です．これは新薬Aの介入研究をやっているときに、新薬Aだとちょっと形が違っていてプラセボと比べていい、などという状況を思い浮かべてみましょう．自覚症状の改善をアウトカムにしているので、新薬飲んでいる人のほうが効果を実感しやすい可能性があり、効果が過大評価されてしまいます．

差異的誤分類では研究デザインの段階でいかに制御できるか、ということが非常に重要な因子になることがわかりますね.

4．検査特性（感度・特異度）が変化してしまうバイアスについて

一般的によく信じられていることとして、検査の感度や特異度というのはいかなる集団においても変わらない、ということがありますが、これは正しいでしょうか？確かに、検査後の確率というのは、感度や特異度を固定して、変動する事前確率から計算を行います(以前の記事).

しかし、その感度や特異度を計算するもととなった研究のデザインがいかなるものであったか、というのがとても重要である、ということはあまり認識されていないように思います．

ここで、代表的な情報バイアスである、「確証バイアス」と「不完全Gold standardバイアス」について紹介したいと思います．参考文献はお勧めです.

１）確証バイアス

これは僕がPennsylvania大学に留学していたときに受けた講義で初めてその存在を知ったのですが(‼)、一度話を聞いただけではすっきりせず、何度も頭を悩ませてようやく理解しました.

脳出血を検出するために「頭痛」が有用であるか、ということを検討する研究があったとします．このとき、脳出血は頭部CTで確定診断するとします．

これを現実世界に適用すると、そもそも頭が痛くないと頭のCT撮らないことが多いですよね．なので、下の図の網掛けのところが実質的にはほとんど含まれない状況で感度や特異度を計算することになります．結果的には感度が高く、特異度が低い、という誤った結果が得られることになります．

Patients with positive index tests are more likely to get the gold standard, and only patients who get the gold standard are included in the study.
-> インデックステストの結果が陽性だった人のほうがGold standardのテストを受けやすい。Gold standardの結果がある人しか感度特異度を調べる研究には参加しない。
ACADEMIC EMERGENCY MEDICINE 2013; 20:1194–1206

同様のことが、肺動脈血栓塞栓症にVQ scanが有用かどうか、という研究において指摘されています(JAMA 1990).

２）不完全Gold standardバイアス

あまりよい日本語訳が当てられず、変なネーミングになってすみません.

これは感染症の診断にPCR検査が有用であるか、を検証する論文です．しかし感染症の診断は培養を以って行うとなかなか難しいものがあります．培養偽陰性がありうるからです．培養で診断を確定した研究を基にしてしまうと、誤って感度が高くなり、特異度が下がります．

5．まとめ

今回は誤分類バイアスについて解説しました．差異的、非差異的誤分類の違い、バイアスの向きについて理解をすれば論文執筆の強力な武器になることと思います．それと、検査特性は元となった研究がどんなものなのかをしっかり把握することが重要です．もとの研究デザインに限界があるならばどんな限界があり、どのようなバイアスが潜んでいる可能性があるかをよく検討することが重要であると思います．

ちょっと難解ではありますが、このロスマンの疫学はオススメです．一通りの解析はやれるようになった！と思っている方の中にも疫学の知識が部分的に抜け落ちている部分があるかもしれませんので、これで確認されてはいかがでしょうか？

リンク