ロジスティック回帰による推測と多値データへの拡張)
東京理科大学工学部経営工学科
浜田知久馬
1
内容
ロジスティックモデル
最尤法による推定の原理
最尤法による検定の原理
比例オッズモデル
一般化ロジットモデル
2
ロジスティック曲線とオッズ
イベント発現確率p
1-p1
p1
1-p2
p2x
pp
ppodds
xxp
10
10
10
1log
1
)exp(1)exp(
ββ
ββββ
+=⎟⎟⎠
⎞⎜⎜⎝
⎛−
−=
+++
=
-∞ +∞X1 X2 3
例と一般化
4
薬剤
-
薬剤
+計
イベント
+5 10 15
イベント
-
95 90 185
計 100 100 200
薬剤
-
薬剤
+計
イベント
+a c n-・
イベント
-
b d n+・
計 n・- n・+ n
説明変数が1つの場合
x=0:drug- x=1:drug+
5
説明変数が1つの場合
x=0:drug- x=1:drug+
6
説明変数が1つの場合
7
likelihood(尤度)
尤度(L)=モデルの下でデータが得られる確率
最尤法:β0、β1の値を動かしてLが最も大きくなるようにする方法
MLE:Maximum Likelihood Estimator
薬剤
-
薬剤
+
イベント
+5 10
イベント
-95 90
8
西遊記ひたすら西を目指す.
9
最尤法ひたすら尤度山の頂上を目指す.
10
11
尤度曲面尤度
0β 1β
(-2.94,0.75)
12
対数尤度曲面対数尤度
0β 1β
(-2.94,0.75)
13
絨毯爆撃
0β 1β
尤度
14
尤度山の頂上にいるのは?
15
山の頂上では傾きは0
∧
β
16
(-2.94,0.75)
0β 1β
対数尤度
薬剤
-
薬剤
+
イベント
+a c
イベント
-b d
対数尤度とスコア関数
17
薬剤
-
薬剤
+
イベント
+5 10
イベント
-95 90
対数尤度とスコア関数
18
薬剤
-
薬剤
+
イベント+ a c
イベント- b d
最尤推定量
19
薬剤
-
薬剤
+
イベント
+5 10
イベント
-95 90
説明変数が1つの場合の最尤推定量
粗オッズ比に一致20
ロジスティック回帰のプログラムdata data;do drug=0 to 1;
do y=0,1;input w @@;
do i=1 to w;output;end;end;end;cards;95 5 90 10;proc logistic descending;model y=drug;
薬剤
-
薬剤
+
イベント
+5 10
イベント
-95 90
21
ロジスティック回帰の出力
Analysis of Maximum Likelihood Estimates
Parameter DF Estimate StandardError
WaldChi-Square
Pr > ChiSq
Intercept 1 -2.9444 0.4588 41.1812 <.0001
drug 1 0.7472 0.5671 1.7359 0.1877
∧
0β∧
1β
6.4160.6952.111drug
95% WaldConfidence Limits
Point Estimate
Effect
Odds Ratio Estimates
22
帰無仮説の表現
23
[MedStat:002877] Raoのスコア検定をどのように計算するのでしょうか?
ロジスティック回帰分析で係数の決定には最尤推定法を用います。Raoのスコア検定を使おうと考えていますが,どう算出 したらよいかわからず悩んでおります.
24
[MedStat:002878]浜田
Raoのスコア検定は説明変数が1つのときは帰無仮説の下でのUとその分散Vを 計算して, U**2/Vを カイ2乗分布と比べることで行うことができます。 しかし,説明変数が複数ある場合は行列演算が必要になりますので手計算は困難です。 SASのPROCLOGISTIC等の統計ソフトウエアを利用することを お勧めします。
25
[MedStat:002879]
プログラムを作成するスキルがあるため、SASを使わなくても行列計算を 手元でさせることはできます。残念ながらスコア検定の知識をはじめ統 計的な素養が不足して行き詰っているところです。 大学ではSASを使える環境ではあるものの、センターに行かないと使えず SASを使わないでスコア検定を行うことを希望します。
26
[MedStat:002881]大橋先生
医療関係の研究者が統計計算で時間を費やす必要は ないと思うのですがね。
統計家からの協力を得て、もっと生産的な仕事を された方が世のためです。
27
[MedStat:002886]
正直先週までRaoのスコア検定というものを全く知りませんでした。 尤度比検定とWald統計量を使おうと思っていたのですが、最尤推 定値が定まらず どうしようかと思案しているときに、研究室の方からスコア検定を教えていただきました。
最尤推 定値が求まらないのにどうして検定できるのだろうか?
28
尤度山の頂点から帰無仮説の離れ具合を測るには?
β0
∧
β
(3)地図で位置を
確認する
(1)高度を
測ってみる.
(2)傾斜角度を測ってみる.
Wald検定尤度比検定 スコア検定 29
30
三蔵法師が尤度山の最高天竺にいる.弟子たちは
どれくらい離れているか.
尤度比検定 孫悟空
31
觔斗雲でひとっ飛び,如意棒で山の高さを測る.
H0: β=0
Wald検定 猪八戒
33
地図を頼りにひたすら掘り進み距離を測る.
H0: β=0
尤度原理に基づく3種類の検定
尤度比検定,Wald検定,スコア検定
例 H0: β=0 の検定
1)尤度比検定
山の高さの違い
2)スコア検定
β= 0における傾きが0に近いか
3) Wald検定
最尤推定量からの隔たり
34
35
3種類の検定の模式図
尤度比
Wald
スコア
1β
薬剤
-
薬剤
+
イベント
+5 10
イベント
-95 90
セル度数が10倍になると
361β
薬剤
-
薬剤
+
イベント
+50 100
イベント
-950 900
セル度数がk倍になると
37
↓
β0
∧
β
H1H0 母数空間
0β
1β
0: 10 =βH
38
+− =ππ:0H
−π
1
+π
10
39
101, H
∧∧
ββ
00,0 H
∧
β0β
1β
401β0β
薬剤
-
薬剤
+
イベント+ a cイベント- b d
尤度比検定
41
薬剤
-
薬剤
+
イベント+ a cイベント- b d
Wald検定
42
431β0β
薬剤
-
薬剤
+
イベント
+a c
イベント
-b d
帰無仮説の下でのU
44薬剤+群における観測イベント数と期待イベント数の差
薬剤
-
薬剤
+
イベント+ a c
イベント- b d
スコア検定
45
46
FREQプロシジャの出力薬剤
-
薬剤
+
イベント
+5 10
イベント
-95 90
統計量 自由度 値 p 値
χ 2 乗値 1 1.8018 0.1795
尤度比χ 2 乗値 1 1.8341 0.1756
連続性補正χ 2 乗値 1 1.1532 0.2829
Mantel-Haenszel のχ 2 乗値 1 1.7928 0.1806
φ係数 0.0949
一致係数 0.0945
Cramer の V 統計量 0.0949
LOGISTICの3種類の検定の出力
9095イベント
-
105イベント
+
薬剤
+薬剤
-
Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr > ChiSq
Likelihood Ratio 1.8341 1 0.1756
Score 1.8018 1 0.1795
Wald 1.7359 1 0.1877
47
LOGISTICのSTRATA文
V.9からSTRATA文が追加層,マッチングを行った場合の条件付の推測
(条件付ロジスティック回帰)PHREGのDISCRETEオプションによる解析と等価
EXACT文と組み合わせて正確な解析も可能
48
ロジスティックモデルの多値データへの拡張
・名義尺度
一般化ロジットモデル
(generalized logit model)・順序尺度
比例オッズモデル(累積オッズモデル)(cumulative logit model)
49
一般化ロジットモデル
50
一般化ロジットモデル
51
比例オッズモデル
52
53
比例オッズモデル
比例オッズモデル
54
比例オッズモデル
55
ワニの体長と餌の選択
data gator;input length choice $ @@;cards; 1.24 I 1.30 I 1.30 I 1.32 F 1.32 F 1.40 F 1.42 I 1.42 F1.45 I 1.45 O 1.47 I 1.47 F 1.50 I 1.52 I 1.55 I 1.60 I 1.63 I 1.65 O 1.65 I 1.65 F 1.65 F 1.68 F 1.70 I 1.73 O 1.78 I 1.78 I 1.78 O 1.80 I 1.80 F 1.85 F 1.88 I 1.93 I1.98 I 2.03 F 2.03 F 2.16 F 2.26 F 2.31 F 2.31 F 2.36 F2.36 F 2.39 F 2.41 F 2.44 F 2.46 F 2.56 O 2.67 F 2.72 I2.79 F 2.84 F 3.25 O 3.28 O 3.33 F 3.56 F 3.58 F 3.66 F3.68 O 3.71 F 3.89 F;
56
一般化ロジットモデル
proc logistic;
model choice = length / L=GLOGIT;
output out=out p=p;
proc gplot;
plot p*length=_level_;
symbol1 i=spline c=red w=3;
symbol2 i=spline c=green w=3;
symbol3 i=spline c=blue w=3;
57
一般化ロジットモデルType 3 Analysis of Effects
WaldEffect DF Chi-Square Pr > ChiSqlength 2 8.9360 0.0115
Analysis of Maximum Likelihood Estimates
Standard WaldParameter choice Estimate Error Chi-Square Pr > ChiSqIntercept F 1.6177 1.3073 1.5314 0.2159Intercept I 5.6974 1.7938 10.0881 0.0015length F -0.1101 0.5171 0.0453 0.8314length I -2.4654 0.8997 7.5101 0.0061
F I O
58
59
比例オッズモデルdata gator;set gator;if choice='I' then y=1;if choice='F' then y=2;if choice='O' then y=3;proc logistic;model y= length/l=logit;output out=out p=p;proc gplot;plot p*length=_level_;symbol1 i=spline c=red w=3;symbol2 i=spline c=green w=3;symbol3 i=spline c=blue w=3;run;
60
比例オッズモデル
Score Test for the Proportional Odds Assumption
Chi-Square DF Pr > ChiSq4.9162 1 0.0266
Analysis of Maximum Likelihood EstimatesStandard Wald
Parameter DF Estimate Error Chi-Square Pr > ChiSqIntercept 1 1 1.8868 0.8247 5.2345 0.0221Intercept 2 1 4.8765 1.0929 19.9098 <.0001length 1 -1.2420 0.3953 9.8698 0.0017
61
62
Insect
Fish
Others
63
比例オッズ性の検定
H0: β=0
Wald
尤度比
スコアまとめ
∧
β 64
スコア検定の利点
・Wald,尤度比検定はMLEが求まらないとできない.・ MLEを求めるためには反復計算が必要・スコア検定はH0の下でのUがわかれば計算可能
・多くのモデルについての計算が必要な総当り法では,スコア検定が行われる.
・単純な問題については,よく知られた検定に一致
・スコア検定では収束しない場合でも,H0の検定が可能
65
次のうちスコア検定に相当するのはどれでしょう.
1)Z検定(分散既知のt検定)2)Pearsonのカイ2乗検定3)McNemar検定4)Cochran-Armitage検定5)Mantel-Haenzel検定6)ログランク検定
66
[MedStat:002887]浜田
スコア検定は確かに 最尤推定値が求まらなくても 帰無仮説が検定できるのが 利点です. しかし最尤推定値が求まらないのは モデルが破綻しているということですし 帰無仮説の検定だけでは推測としては不十分です. 根本的に最尤推定値が求まらない原因(0セルがある等)を追究しとく 必要があるかと思います. やはり統計の専門家に相談した方がよいと思います.
67
参考文献Derr, R.E.(2000) Performing exact logistic regression with the SAS System. SUGI'2000
Proceedings, Paper 254Gail, M.H., Lubin, J.H., and Rubinstein, L.V. (1981) Likelihood Calculations for Matched Case-
Control Studies and Survival Studies with Tied Death Times. Biometrika, 68, 703-07. Hirji, K.F., Mehta, C.R., and Patel, N.R. (1987) Computing Distributions for Exact Logistic
Regression. Journal of the American Statistical Association, 82, 1110 - 1117. Hosmer, D.W, Jr. and Lemeshow, S. (2000), Applied Logistic Regression, Second Edition, New
York: John Wiley & Sons, Inc.Mehta, C.R., Patel, N. and Senchaudhuri, P. (1992), Exact Stratified Linear Rank Tests for
Ordered Categorical and Binary Data. Journal of Computational and Graphical Statistics, 1, 21 - 40.
Mehta, C.R., Patel, N. and Senchaudhuri, P. (2000) Efficient Monte Carlo Methods for Conditional Logistic Regression. Journal of the American Statistical Association, 95, 99 -108.
Truett,J., Cornfield, J. and Kannel, W.(1967) A Multivariate Analysis of the Risk of Coronary Heart Disease in Framingham. J.Chron.Dis. 20, 511-524
浜田知久馬(1994)SASによる条件付きロジスティック回帰. 日本SASユーザー会94論文集,527-540浜田知久馬(2000)LOGISTICのV. 8の機能拡張. 日本SASユーザー会2000論文集,13-38浜田知久馬(2001)SAS V. 8における正確な推測とシミュレーションによる近似法. 日本SASユーザー会2001論文集,165-187
68