à x x1 (esl 18statlearn.uos.ac.kr/2019/grad_ml_autumn_19/ch18_fdr.pdf · 2019-11-27 · samii...

14
(X X1 (ESL 18¥) =t YP ˜Yü =t (YP ˜Yü) (X X1 (ESL 18¥) 1 / 14

Upload: others

Post on 18-Mar-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

고차원에서의 유의성 검정(ESL 18장)

박창이

서울시립대학교 통계학과

박창이 (서울시립대학교 통계학과) 고차원에서의 유의성 검정(ESL 18장) 1 / 14

학습 내용

FDR(false discovery rate)

SAM(significance analysis of microarray)

FDR에 대한 베이지안 해석

박창이 (서울시립대학교 통계학과) 고차원에서의 유의성 검정(ESL 18장) 2 / 14

개요 I

고차원 데이터에서 변수들에 대한 유의성 검정:

특정 환자에 대하여 암을 진단하는 분류문제 보다는 정상과 암세포

그룹간에 expression level이 다른 단백질을 찾는데 관심이 있는 경우

이표본 t-검정

tj =x2j − x1j

sej

l = 1: 대조군, l = 2: 처리군

Cl : 그룹 l의 인덱스 집합, Nl : 그룹 l의 표본 수

xlj =∑

i∈Clxij/Nl

sej =σj√

N−11 +N−1

2

, σ2j = 1

N1+N2−2∑2

l=1

∑i∈Cl

(xij − xlj)2

박창이 (서울시립대학교 통계학과) 고차원에서의 유의성 검정(ESL 18장) 3 / 14

개요 II

예를 들어 방사선 치료에 민감한 환자(14명)와 정상인 환자(44명)

그룹간의 총 12,625의 유전자들 중 expression level 이 다른 유전자를

찾는 문제를 고려

Permutation test에 의한 p-value 계산

각 permutation k(= 1, . . . ,K =(5814

))와 유전자 j = 1, . . . ,M(= 12625)

에 대하여 tkj 를 계산

j번째 유전자의 p-value: pj =1K

∑Kk=1 I (|tkj | > |tj |)

K는 매우 큰 수 이므로 가령 K = 10000정도로 랜덤한 permuation에

대하여 계산할 수 있음

모든 유전자들이 유사한 경우(같은 척도에서 측정) 풀링

pj =1

MK

M∑j′=1

K∑k=1

I (|tkj′ | > |tj |)

박창이 (서울시립대학교 통계학과) 고차원에서의 유의성 검정(ESL 18장) 4 / 14

개요 III

다중비교

j = 1, . . . ,M에 대하여 H0j : 유전자 j에 대하여 처리의 효과가 없음 vs

H1j : 유전자 j 에 대하여 처리의 효과가 있음

pj < α이면 H0j를 수준 α에서 기각하는 경우 제1종의 오류의 확률이 α

인데 여러 검정을 동시에 하므로 전체적인 오류율을 조절해야 함

Aj를 H0j가 잘못 기각될 사건이라 하면 P(Aj) = α

FWER(family-wise error rate): 적어도 한번 잘못 기각될 확률

FWER = P(A),A = ∪pj=1Aj

일반적으로 p가 크면 검정들간의 상관에 의해 P(A)� α이 됨

Bonferroni 방법: pj < α/M이면 H0j를 기각

FWER ≤ α이지만 차원 M이 크면 α/M는 너무 작은 값이라 기각이 안됨

박창이 (서울시립대학교 통계학과) 고차원에서의 유의성 검정(ESL 18장) 5 / 14

False Discovery Rate I

FWER 대신 falsely significant한 유전자의 비율에 집중

M개의 가설의 검정 결과

Not reject H0 Reject H0 Total

H0 true U V M0

H0 false T S M1

Total M − R R M

FWER = P(V ≥ 1)

제1종의 오류율: E(V )/M0, 검정력(power): 1− E(T )/M1

FDR = E(V /R)

박창이 (서울시립대학교 통계학과) 고차원에서의 유의성 검정(ESL 18장) 6 / 14

False Discovery Rate II

Benjamini-Hochberg (BH)

검정통계량에 대한 근사나 permutation으로부터 p-value 계산

FDR ≤ M0

M α ≤ α가 항상 성립알고리즘

1. FDR을 α로 고정. p(1) ≤ · · · ≤ p(M): p-value의 순서통계량

2. L = max{j : p(j) < α jM}

3. pj ≤ p(L)인 모든 H0j를 기각

박창이 (서울시립대학교 통계학과) 고차원에서의 유의성 검정(ESL 18장) 7 / 14

False Discovery Rate III

Elements of Statistical Learning (2nd Ed.) c©Hastie, Tibshirani & Friedman 2009 Chap 18

Genes ordered by p−value

p−va

lue

1 5 10 50 100

5*10

^−6

5*10

^−5

5*10

^−4

5*10

^−3

••

• ••

• • •••••

•••••••

••••••••••••••••••

•••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••

••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••

FIGURE 18.19. Microarray example continued.Shown is a plot of the ordered p-values p(j) and the line0.15 · (j/12, 625), for the Benjamini–Hochberg method.The largest j for which the p-value p(j) falls below theline, gives the BH threshold, Here this occurs at j = 11,indicated by the vertical line. Thus the BH method callssignificant the 11 genes (in red) with smallest p-values.

참조선: 0.15 j12625 , L = 11

p(11) = 0.00012이고 대응되는 통계량은 4.101임

BH 방법에 따르면 붉은 색으로 표시된 11 유전자가 유의

박창이 (서울시립대학교 통계학과) 고차원에서의 유의성 검정(ESL 18장) 8 / 14

False Discovery Rate IV

Plug-in 추정법

알고리즘

1. 변수 j = 1, . . . ,M과 permutation k = 1, . . . ,K에 대하여 통계량 tkj 를

계산

2. 절단값 C에 대하여

Robs =M∑j=1

I (|tj | > C), E(V ) =1

K

M∑j=1

K∑k=1

I (|tkj | > C)

3. FDR = E(V )/Robs

α값 대신 절단값을 고정함

박창이 (서울시립대학교 통계학과) 고차원에서의 유의성 검정(ESL 18장) 9 / 14

False Discovery Rate V

예에서 C = 4.101로 하면 Robs = 11이고 |tkj | > C인 갯수는 1518로

평균 1.518이므로 FDR = 1.1518/11 ≈ 14%임. 대략 α = 0.15에

근사함

Plug-in 추정값은 E(V /R) ≈ E(V )/E(R)에 기반하며 일반적으로

FDR은 일치 추정량임

E(V )는 MM0

E(V )의 추정치이므로 M0의 추정치가 주어졌을 때, 더

나은 FDR 추정치는 M0M FDR임

M0에 대한 추정치가 있으면 FDR ≤ M0M α ≤ α관계식을 통해 BH

방법을 향상시킬 수 있음

박창이 (서울시립대학교 통계학과) 고차원에서의 유의성 검정(ESL 18장) 10 / 14

SAM I

SAM

수직축: 순서통계량 t(1) ≤ · · · ≤ t(M)

수평축: 기대 순서통계량 t(1) ≤ · · · ≤ t(M)

tk(j): k번째 permutation에서 j번째 순서 t통계량값

t(j) =1K

∑Kk=1 t

k(j)

y = x ±∆ 직선을 그렸을 때 두 직선에 의해 정의되는 영역을 벗어나는

첫번째 점을 상위 절단값 Chi 라 하고 이를 벗어나는 유전자들은 유의한

것으로 봄. 마찬가지로 왼쪽 아래의 유전자에 대하여 하위 절단값 Clow

를 정의할 수 있음

∆와 FDR을 계산하여 주관적으로 결정

SAM은 모든 유전자들의 통계치들이 한쪽 방향(양 혹은 음)으로

나타나는 경우 절단값 유도할 때에 장점이 있음

박창이 (서울시립대학교 통계학과) 고차원에서의 유의성 검정(ESL 18장) 11 / 14

SAM II

18.7 Feature Assessment and the Multiple-Testing Problem 691

Expected Order Statistics

t−st

atis

tic

−4 −2 0 2 4

−4

−2

02

4

••••

•••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••

•••••••••••••

•••••• •

•••••••••

•• •

Chi

FIGURE 18.20. SAM plot for the radiation sensitivity microarray data. On thevertical axis we have plotted the ordered test statistics, while the horizontal axisshows the expected order statistics of the test statistics from permutations of thedata. Two lines are drawn, parallel to the 45◦ line, ∆ units away from it. Startingat the origin and moving to the right, we find the first place that the genes leavethe band. This defines the upper cut-point Chi and all genes beyond that point arecalled significant (marked in red). Similarly we define a lower cutpoint Clow. Forthe particular value of ∆ = 0.71 in the plot, no genes are called significant in thebottom left.

∆ = 0.71에 대하여 11개의 유전자가 유의하고 Clow = −∞

박창이 (서울시립대학교 통계학과) 고차원에서의 유의성 검정(ESL 18장) 12 / 14

FDR에 대한 베이지안 해석 I

FDR은 P(R = 0) > 0이면 잘 정의되지 않음

positive FDR을 고려

pFDR = E[V

R|R > 0

]베이지안 해석

M개의 동일한 단순 가설에 대하여 검정 하는 경우를 고려

검정통계량 t1, . . . , tM은 iid이고 기각역 Γ

박창이 (서울시립대학교 통계학과) 고차원에서의 유의성 검정(ESL 18장) 13 / 14

FDR에 대한 베이지안 해석 II

Zj = I (H0j is false)라 하면 (tj ,Zj)는 iid이고 적절한 분포 F0와 F1에

대하여

tj |Zj ∼ (1− Zj)F0 + ZjF1

P(Zj = 0) = π0라 하면

tj ∼ π0F0 + (1− π0)F1

pFDR(Γ) = P(Zj = 0|tj ∈ Γ): 검정통계량이 기각역에 들때 귀무가설이

참일 사후확률

t = t0에서의 local FDR: P(Zj = 0|tj = t0)

박창이 (서울시립대학교 통계학과) 고차원에서의 유의성 검정(ESL 18장) 14 / 14