propensity score matching を用いた 治療効果分 …...propensity score matching を用いた...
TRANSCRIPT
Propensity score matchingを用いた治療効果分析:五苓散を例として
康永 秀生東京大学大学院医学系研究科 公共健康医学専攻
臨床疫学・経済学分野 教授
1
片山先生,紹介をありがとうございます。原先生,本日はお招きをいただき,どうもありがとう
ございます。きょうはこのような会にお招きいた
だき,脳神経外科の先生方にお会いでき,たいへ
んうれしく,光栄に思います。
本日はまず propensity score matching(傾向スコ
アマッチング)という統計手法の解説をさせていた
だきます。少し退屈な話になるかもしれませんが,
できるだけわかりやすいように心がけたいと思い
ます。その手法を使って五苓散の効果について分析したので,簡単に話をさせていただきます。
医薬品や医療技術の効果を判定する上で,ラン
ダム化比較試験(RCT)は,最も内的妥当性が高い
手法であり,ゴールドスタンダードといわれます。
例えば新薬の治験や研究者主導臨床試験等は,
RCTを行うことが基本となっていることは,皆さ
んもご存じのとおりです。しかしながら,RCTを
いつも行うことができるとは限りません。倫理的な問題,費用の問題等で,RCTを実施できないこ
との方がむしろ多いと言えます。
近年の動向として,実臨床のデータを多施設か
ら収集した大規模データを用いた観察研究が,海外でも国内でも次第に隆盛しつつあります。いろ
いろな学会で各領域のデータベースを構築してい
ます。われわれの研究班では,全国の DPC病院か
ら DPCデータを収集して巨大なデータベースを構築しています。そのような大規模データを利用し
て,日常臨床のクリニカル・クエスチョンに答えう
る研究を行うことが,近年重要視されています。
こうした研究は,RCTなどの介入研究を補完する
という役割もあります。もちろん RCTがゴールド
スタンダードであることに変わりはありません。
RCTが実施できない場合の代替手段として,大規模データを用いた観察研究は,RCTに準じる分析結果を提供できることがあります。
臨床研究というと臨床試験が主流であると考え
られがちですが,そうではありません。実際に行われている臨床研究の 90%は観察研究です。本日の先生方のご発表でも大変詳細なケース・シリー
ズ・スタディーが多数ありましたが,それはすべて
観察研究です。これから私が発表する研究も観察研究です。
医薬品や医療技術の効果を観察研究によって推計する場合,交絡(confounding)という大きな問題に直面します。変数 Xは患者の背景や施設の要因,
Zは治療 Aまたは Bの選択,Yは治療効果を示し
ます(Fig.1)。Yは Zの影響だけでなく,Xの影響も受けます。さらに Xは Zにも影響を与えます。
例えば,治療 Aが手術,治療 Bが保存的治療であ
ると仮定します。治療 Aまたは Bの選択(Z)は,
治療効果(Y)に影響します。Xのひとつである年齢は,Yに直接影響をするかもしれません。また年齢は Zにも影響します。例えば,高齢者の患者に手術は控えられるかもしれません。
いま,治療の真の効果(Zから Yに行く矢印の効果)を見るには,Xから Zに向かう矢印の影響を除外する必要があります。Xから Zに向かう矢印の
影響を,特に適応交絡(confounding by indication)
指 定 演 題Journal of Neurosurgery and Kampo Medicine
脳神経外科と漢方 2016;2:1–4
第24回日本脳神経外科漢方医学会 学術集会2015年11月14日(土)
【講演記録】
康永 秀生
と言います。適応交絡の影響を除外する最もよい
方法が,ランダム化です。ランダム化比較試験で
は,治療 Aまたは治療 Bの選択をくじ引きで決め
るわけです。治療の選択は,患者の背景や施設の
要因から完全に独立しています。つまり,Xから Zに向かう矢印の影響は無いと考えられます。とこ
ろが,観察研究ではそうはいかないわけです。交絡の影響は最も深刻なバイアスであり,これを見逃してしまうとゆがんだ結論が導かれます。時に
は黒を白と言い換えるくらいに大きなバイアスに
なることがあります。
交絡の影響を制御する方法として,一般的には
回帰分析が用いられます。ロジスティック回帰分析,Cox回帰分析など,おなじみの統計手法です。
しかし,回帰分析では交絡を十分に制御できず,
その影響が残ることがあります。それを残余交絡といいます。交絡の影響をよりよく制御する方法として,propensity score analysis(傾向スコア分析)が近年臨床領域で多用されています。PubMedを 用 い て core clinical journals に 絞 り 込 ん で
“propensity score analysis”というキーワードを検索すると,論文数が急激に増加していることがわ
かります(Fig.2)。それ以外に,まだ一般的ではありませんが,操
作変数法という比較的新しい手法があります。今回の研究で操作変数法も用いていますが,本日は
時間がないので,propensity score analysisに絞っ
てお話をさせていただきます。
臨床研究で propensity score analysisを使う嚆矢となった金字塔的論文が,The Journal of theAmerican Medical Associationに 1996 年に発表さ
れた右心カテーテル(スワンガンツカテーテル)に
関する論文です(JAMA1996; 276: 889-897)。かつて,ICUにおける重症患者の全身管理を目
的として,右心カテーテルを用いたモニタリング
が多用されていました。しかしこの方法は合併症も少なくありません。そのため,右心カテーテル
を用いたモニタリングが生命予後の改善にどれく
らい効果があるのかは不明でした。それを明らか
にするために,本研究グループは当初,RCTを計画しようとしますが,うまくいきませんでした。
現場の医師の協力が得られなかったからです。
ICUの医師たちは当時,日常的に右心カテーテル
を使っていたので,「なぜ今さら RCTをやる必要があるのか?」という反対意見が多かったそうです。
そこで研究グループは,propensity score matchingを用いた観察研究を行ったわけです。その結果,
右心カテーテルによるモニタリングはかえって生命予後の悪化と関連していることが明らかになっ
たのです。これは観察研究に基づく結果なので,
最終結論にはなりません。そこでいろいろな議論,
紆余曲折があって,とうとう RCTが実施されるこ
とになりました。RCTの結果は,propensity scorematchingによる観察研究の結果とほぼ同様であっ
たということです。一連の結果は,実際に臨床現場のプラクティスを変え,右心カテーテルの適応もかなり限定されるようになりました。
それでは,propensity score matching を実際に
行う手順について説明いたします。Propensityscoreは,二つの治療の選択肢がある場合,個々の
2
Fig.2 Core clinical journalに掲載された propensityscore analysis関連論文数
Fig.1 適応交絡
脳神経外科と漢方 2016;2
患者が,一方の治療に割り当てられる確率を表し
ます。その確率を,患者の背景や施設要因を用い
て推計します。具体的には,Xを独立変数,Zを従属変数(治療群=1,対照群=0)とするロジス
ティック回帰分析を実施します。Propensity scoreは確率ですから必ず 0~1 の範囲に入ります。
その後,治療群と対照群の間でマッチングをし
ます(Fig.3)。治療群と対照群の中で propensityscoreが最も近いペアを 1 対ずつ選んでいきます。
これを最近傍マッチング(nearest neighbor match-ing)といいます。
マッチングの相手がいない患者は対象から外れ
ることになります。このためマッチング後には対象症例数が減少してしまうことに注意が必要です。
Propensity score matching の強みは,両群間の
背景因子の分布が均質化され,擬似的なランダム
化ができるという点です。ただし,propensityscore matchingにも限界があるので注意が必要で
す。Propensity scoreの計算には実際に計測されて
いる変数だけが用いられます。もし,計測されて
いない交絡因子(unmeasured confounders)が存在する場合,その影響を除外することはできません。
また,群間で propensity scoreの分布がオーバー
ラップしている症例だけを 1:1 でマッチングする
ため,オーバーラップが少ない場合,対象症例数が激減して,検定力が落ちてしまうこともありま
す。
それでは,propensity score matching を用いた
具体的な研究例を示します。慢性硬膜下血腫に対する穿頭血腫除去術後に五苓散を使用した場合,
再手術率を低減させることができるかどうか,に
ついて DPCデータベースを用いて検証しました。
五苓散については皆さん既にご存じかと思いま
す。私は漢方の専門家ではなく,脳神経外科の専門家ではなく,疫学・統計の専門家なので,五苓散の説明はスキップさせていただきます。
DPCデータベースは,全国の 1,000 施設以上の
DPC病院から収集した DPCデータです。本研究では,2010 年 7 月~2013 年 3 月に慢性硬膜下血腫に対する穿頭血腫除去術を行った患者約 36,000 人の DPCデータを調べました。アウトカム指標とし
て,DPCデータの中には,血腫の再発の有無に関する記録はありません。血腫の再発は,時々刻々と変化する血腫を CTで測った大きさなど,詳細なデータが必要です。DPCデータベースは症例数が多いのは強みですが,CTの検査結果などの細か
いデータはありません。そこで,DPCデータから,
穿頭血腫除去術の再手術のレコードを拾いました。
再手術を行った場合,その診療報酬請求の履歴が
残るため,確実にそのデータを拾うことができま
す。また,入院中に使用した薬剤の履歴もあり,
五苓散の使用状況もわかります。
穿頭血腫除去術を行った患者のうち,術後早期から五苓散を使用した群は 3,889 人,非使用群は
32,000 人いました。全体として約 10%の患者に五苓散が使われていました。Propensity score(すなわ
ち,個々の患者に五苓散が使われる確率)を求める
ためのロジスティック回帰の独立変数に,多くの
変数を投入しております(あまり交絡になっていな
い変数は投入する必要がないという見解もありま
3
Fig.3 最近傍マッチング
康永 秀生
すし,できるだけ多くの変数を投入した方がよい
という見解もあり,統計学上,議論が分かれてい
るところです)。
最近傍マッチングによる propensity score match-ingの結果,各群から 3,879 人ずつ抽出されました。
Standardized differenceは両群間の背景因子の標準化された差を表し,10 を超えると有意な差があ
ると言えます。Propensity score matchingの結果,
両群間の standardized differenceはすべて 10 未満となり,群間の背景因子は均質化されました。
マッチング前の分布をみると,大学病院のほう
が五苓散をよく使っています。また,年度が新し
くなるに従って五苓散の使用者は増えています。
施設によって五苓散をよく使う施設,あまり使わ
ない施設があることがわかりました。マッチング
の結果,これらの背景要因はすべて両群間で均等な分布になりました。
五苓散使用群は再手術率が 4.8%,非使用群は再手術率が 6.2%,リスク差は−1.4%でした。すなわ
ち,五苓散を使用することによって再手術率を
1.4%下げることができます。−1.4 の 95%信頼区間
は−2.4~−0.38 です。Number needed to treat,す
なわち再手術 1 例を回避するために,何例に五苓散を投与しなければいけないのか。これはリスク
差の逆数で求められ,72 人でありました。入院医療費は,五苓散使用群では 64.3 万円,非使用群で
は 67.1 万円となり,前者の方が有意に低い値を示しました。
なお,操作変数法による分析でもほぼ同じ結果が得られました。異なる二つの方法を使ってほぼ
同一の結果が得られているので,頑健(robust)な結果であると言えるわけです。
本研究結果から,慢性硬膜下血腫に対する穿頭血腫除去術後に五苓散を使用した場合,再手術率は低減し,入院医療費も低下することが示唆され
ます。RCTではないので,これが最終結論という
わけではありません。しかし,大規模データを用いて propensity score analysisにより分析した結果であり,RCTに準じる結果が得られたのでないか
と考えられます。
私の話は以上です。どうもありがとうございま
した。
4