wilson score intervalを使った信頼区間の応用
TRANSCRIPT
Wilson score interval を使った信頼区間の応用株式会社 VOYAGE GROUP
中野智文言語と統計 2017
背景•二項分布•ベルヌーイ試行による分布•ベルヌーイ試行の例:コインを投げた後の表裏
•二項分布の例: n回コインを投げて表がな何回出るか
•その応用•コーパス中の語彙の頻度•Web広告のクリックの頻度
応用:コーパス語彙の頻度•専門英語における特徴語を抽出 •特徴語のスコア•MIスコア、 tスコア、対数尤度など
•上記のスコアの性質:•一般的なコーパスでは低頻度(低出現率)の語彙が専門的なコーパスで相対的に高出現率で出現するものが特徴的と判断される。
応用における問題点•先の特徴スコアにおいて、低頻度であるので、 1 回出現の有無により大きな影響がある。•例:•一般コーパスと比べ専門コーパスの出現率が 10 倍だった•一般コーパス( 10 億語)中 100 語のものが、専門コーパス( 100 万語)中、
1 語出現。
検定による解決•例•tスコア、尤度比検定
•性質•独立性検定なので、独立でない可能性が高ければ高いほど(語彙の頻度が大きいほど)スコアが高い
•結果•つまらない語彙 (the, if, be 動詞など ) ばかりが上位となる
信頼区間で考えたい
信頼区間とは•ある信頼水準(例 :95 %)で母平均がその区間にある。•区間の小さい端点を信頼下限、大きい端点を信頼上限とよぶ
二項分布の信頼区間
▼ 信頼上限信頼下限▼出現確率
信頼区間を使った応用•専門コーパスの出現率の信頼下限/一般コーパスの出現率の信頼上限•有意に x 倍出現している
専門コーパスの出現率
一般コーパスの出現率
0
信頼区間を使った応用•オーバーラップしている場合は有意な違いがないとして扱わない
専門コーパスの出現率
一般コーパスの出現率
0
信頼区間を使った応用•専門コーパスの出現率の信頼上限/一般コーパスの出現率の信頼下限•有意に x倍出現している(負の場合)
一般コーパスの出現率
専門コーパスの出現率
0
信頼区間を求める方法 ( 二種類 )•Wald 法•Wilson score interaval (score 法 )
Wald 法•標本平均と標本分散から信頼区間を求めている•標本平均:標本の平均•標本分散:標本平均からの分散
•母平均から求まる分散から正しい信頼区間は求まるので、標本分散から求めた信頼区間は不正確(信頼できない)
Wald 法のいいわけ•中心極限定理により…•コーパスのサイズが大きくなると、標本平均と標本分散は母平均と分散に近づく•ただし二項分布の場合は母平均が 0.5に近いとき•我々が扱うのは母平均が 0 に近い時
標本平均 0 、標本分散 0•信頼区間は 0±0 です!•信頼区間がないということは、 0 %以外ありえないということですが、これは正しい信頼区間ですか? ( 正しくないですよね )•すなわち標本数が100万だったとしても中心極限定理は適用できません
Wilson (score) の考え方•ある母平均を仮定したとき、標本平均が起こりうる信頼区間を偏差(母平均による分散の二乗根)と正規分布の z を使って表す。•母平均と実際の標本平均との差が上記信頼区間からはみ出るかどうか
イメージ▼ 標本平均
▲ 母平均(仮説)
実際の標本平均が含まれておらず、仮説はNG !
凡例:▼ :標本平均▲ :母平均(仮説)⇔:標本平均の信頼区間
イメージ▼ 標本平均
▲ 母平均(仮説)
実際の標本平均が含まれており、仮説は OK !
凡例:▼ :標本平均▲ :母平均(仮説)⇔:標本平均の信頼区間
イメージ▼ 標本平均
▲ 母平均(仮説)
実際の標本平均が含まれており、仮説は OK !
凡例:▼ :標本平均▲ :母平均(仮説)⇔:標本平均の信頼区間
イメージ▼ 標本平均
▲ 母平均(仮説)
実際の標本平均が含まれており、仮説は OK !
凡例:▼ :標本平均▲ :母平均(仮説)⇔:標本平均の信頼区間
イメージ▼ 標本平均
▲ 母平均(仮説)
実際の標本平均が含まれており、仮説は OK !
凡例:▼ :標本平均▲ :母平均(仮説)⇔:標本平均の信頼区間
イメージ▼ 標本平均
▲ 母平均(仮説)
実際の標本平均が含まれておらず、仮説は NG!
凡例:▼ :標本平均▲ :母平均(仮説)⇔:標本平均の信頼区間
•両端がぎりぎりのときの母平均 ( 仮説 )を見れば良い。•次の2つが一致する母平均 ( 仮説 ) を求める•母平均 ( 仮説 ) と本当の標本平均との差の二乗•母平均 ( 仮説 ) と標本平均の信頼区間の両端との差の二乗
以上まとめると•母平均と標本平均の信頼区間の差:•母平均と標本平均との差 :•二乗が一致するとき :
Wilson score interval•標本分散を使っている Wald 法に比べ正確。•境界値のみを計算しているので、(累積)密度関数が必要なく、二乗根と四則演算が出来れば計算ができる。• SQL などで実行可能。
特徴語の例を Wilson で計算• 10 億で、 100 語• (8.22e-8, 1.22e-7)
• 100 万で、 1 語• (1.77e-7, 5.66e-6)
• 1.77e-7/1.22e-7=1.45 倍• 10 倍と比べると
10 倍にしてみる• 10 億で、 1,000 語• (9.40e-7,1.06e-6)
• 100 万で、 10 語• (5.43e-6,1.84e-5)
• 5.43e-6/1.06e-6=5.11 倍
100 倍にしてみる• 10 億で、 10,000 語• (9.80e-6,1.02e-5)
• 100 万で、 100 語• (8.22e-5,0.000122)
• 8.22e-5/1.02e-5=8.06 倍•徐々に 10 倍に近づいてきた
まとめ•頻度(出現率)が低い応用が多々ある•語彙、特に特徴語
•標本分散は信頼区間を求めるのに不正確•標本分散が母平均を使った分散に近づいていない•結果 Wald 法は不正確
•Wilson score interval:•母平均と分散を仮定することで解決•計算も容易
QA• Q1 )信頼区間をどのように応用していくのか• A2 )スライドにあった特徴語を抽出する例あります。また MI スコア内の確率を信頼上限、信頼下限に置き換えて使う。• Q2 ) Exact 法より正しいとあるのですが、そういった文献がありますか?• A2 ) Agresti 1998 など。応用によっては保守的な方がよい場合があったりするので、応用依存にはなると思います。