サイトアイコン 残る桜も 散る桜ー膵臓がん完治の記録

二重盲検法のマジック

ふたたび『看取り先生の遺言 がんで安らかな最期を迎えるために』からの話題です。抗がん剤が効くか効かないかは、二重盲検法によって臨床試験を実施して、それがエビデンス(科学的根拠)となるのですが、そこには統計的な誤解=マジックが潜んでいます。岡部先生は次のような例を挙げています。

百人の母集団(被験者)に薬を投与したら六人に脳卒中が起きたが、薬を投与しなかった群は九人だったとする。これだと明らかに統計学的に差が出ない誤差範囲になってしまう。そこで母集団を五千にしてやり直すと、三百対四百五十になって、統計学的に有意差があったとなる。

比率は同じなのだから、ほとんど詐欺も同然なのだが、わずかな差でも母集団が多いと有意差がついてしまうのが統計のマジックなのである。
UFTという、昔はよく使われた抗がん剤があるが、これなど千とか五千というものすごい母集団で有意差をつけていた。私もUFTのトライアル(治験)に参加したが、当時は効くはずがないといわれていたのに、いきなり二重盲検で効くとなったのである。あのとき、効くはずがないものでも、これだけ数を集めると効くことになるんだと、ビックリした記憶がある。

二重盲検法で母集団が大きいのは、あまり有効ではなからであって、逆に少ない母集団で有意差があるという結果が出たら、その薬は効果が信頼できるということです。がんの痛みにモルヒネが効くか効かないかという、二重盲検法による臨床試験がなぜないかというと、必ず効くからです。必ず効くものに二重盲検法で治験をするバカはいません。

このブログでも何度も書いているように、二重盲検法による統計的手法は、「ごくわずかの差しかないときに、相手を説得するための道具」なのです。これをあたかも「科学的に効くことが証明されている(エビデンスがある)」かのように言う医者が多いから、患者も「先生がそれほど言うのなら、やってみようか」となるのです。有意差があることと、その薬が役立つかどうかは全く別の問題なのですが、それを知らせない(知らない)医者も悪いが、だまされる患者も悪い。

同じ地域の同じ年齢の男性20,000人を、10,000人の二つの群にランダムに分けて、その身長を測ったとします。そして身長の平均値を求めます。平均値には本質的には差がないはずですから、理想的には平均値は同じになるはずですが、ほとんどの場合一致しません。仮にその差が1センチあったとします。これはランダムに分けたのだが、そこにブレがあったということです。

それぞれの群からランダムに10人をサンプルとして平均身長を計算した場合、有意差があるとはならないでしょう。(実際に計算したわけではないが、たぶんそうなるだろうということで)

しかしサンプル数を増やして、ばかばかしいですが、元の母集団よりも1人だけ少ない9999人とすればどうでしょうか。わずか1センチの平均値の差ですが、有意差があるとなるはずです。

統計における検定は、「サンプルから想定される母集団の比較」ですから、サンプルが増えて母集団の推定精度が高まれば高まるほど、二つのサンプル群の差が小さくとも、『有意差』があるという結果が得られやすいのです。

抗がん剤による生存期間の延長にわずかの差しかなくても、治験に参加する患者を増やせば「有意差がある」という結果が出やすいわけです。

問題はその「有意差」がどのような意味を持っているかでしょう。平均身長が1センチ違うことにどれほどの意味があるのか。タルセバを投与して生存期間中央値が10日伸びることが”私”にとって大事なことなのかどうかということです。

抗がん剤は効く人もいれば効かない人もいる。誰に効くかはやってみなければわからない、と岡部先生はいいますが、私に言わせれば、「やってみてもわからない」のです。抗がん剤を投与した”私”と、投与しなかった”私”を比較することなどできないからです。

上の図は、タルセバの膵がんに対する海外の臨床試験結果です。治験参加者数(サンプル数)が書かれていませんが、485人です。これを1/2に分けて実施しています。サンプル数を500程度にすれば、この程度の違いでも「有意差がある」となってしまうのです。

という統計のマジックを知っていれば、”有意差があれば効く抗がん剤”だという単純思考の落とし穴に入らずにすみます。また、「有意差がある」ことと、その薬が役立つかどうかは別の問題であり、生活の質(QOL)を含めた”あなたの価値観”で判断すべきである、というあたりまえの結論が得られるでしょう。

モバイルバージョンを終了