spss inrto training

70
SPSS Statistics 의학 통계분석 건국대학교 병원 MOU 교육 SPSS Korea

Upload: others

Post on 18-Dec-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: SPSS Inrto training

SPSS Statistics 의학 통계분석

건국대학교 병원 MOU 교육

SPSS Korea

Page 2: SPSS Inrto training

Contents

Chapter 5. 생존분석

Chapter 6. ROC 곡선

Chapter 7. 임상 및 진단 관련 의학통계

2 Copyright 2012, SPSS Korea, All right reserved.

Page 3: SPSS Inrto training

5. 생존분석

로지스틱 회귀분석, 생명표, Kaplan-Meier 생존분석, Cox 회귀모형

3 Copyright 2012, SPSS Korea, All right reserved.

Page 4: SPSS Inrto training

로지스틱 회귀분석의 정의

Cox(1970)가 처음 제시

로지스틱 회귀모형(logistic regression model)은 반응변수가 범주형 자료인 이항변수로 구성된 일반화선형모형(generalized linear model)의 특수한 경우로 S형 곡선을 그리는 함수 모형

여러 설명 변수들로부터 두 범주만을 가지는 반응변수를 예측하는데 사용함

로지스틱 회귀모형은 모형구조에 의해 연관성 및 교호작용의 유형을 설명할 수 있으며 모수의 추론을 통해서 반응 값에 대한 설명변수의 영향력을 평가할 수 있음

예측확률을 바탕으로 판별분석과 같은 판별 및 분류분석의 기법으로도 사용할 수 있는데 설명변수들의 동일한 공분산 행렬과 다변량 정규분포를 가정하는 판별분석에 비해 로지스틱 회귀모형은 설명변수에 대한 제약 조건이 적기 때문에, 판별분석의 가정들이 만족되지 못한 경우에 로지스틱 회귀모형을 사용하는 것이 더 좋은 결과를 보여준다고 알려져 있음

로지스틱 회귀분석의 목표

회귀분석과 같이 하나의 종속변수와 한 개 이상의 독립변수 사이의 관계를 표현하기 위해, 가장 잘 적합되고, 모수의 수를 절약한 모형을 찾는 것

5.1 로지스틱 회귀분석 개념 (1)

4 Copyright 2012, SPSS Korea, All right reserved.

Page 5: SPSS Inrto training

로지스틱 회귀분석의 중요성

최근 분류 및 예측에 대한 활용 분야 확대

고객이 향후 어떠한 패턴으로 행동할 것인가에 대하여 예측 또는 분류에 대한 관심도 증가

통계/데이터 마이닝 기법을 사용하여 모델을 생성하나 로지스틱 회귀분석에 대한 활용도가 전분야에 걸쳐 가장 폭넓게 사용되고 있음

로지스틱 회귀분석의 활용

금 융 ▣ 고객 신용도(우량,불량)에 따른 고객 가치 평가(CSS)

통 신 ▣ 이탈/유지 가능성에 따른 고객 스코어 산출

제 조 ▣ 재판매 등의 가능성에 따른 고객 스코어 산출

의 학 ▣ 심질환 유무 예측, 환자-대조군 연구

5.1 로지스틱 회귀분석 개념 (2)

5 Copyright 2012, SPSS Korea, All right reserved.

Page 6: SPSS Inrto training

오 즈 (odds)

오즈 = : 성공확률

오즈는 확률과 관련된 의미로 Pi가 주어졌을 때, 성공 확률이 실패확률에 비해 몇 배 더 높은가의 의미이다.

예를 들어 종속변수의 범주가 ‘1’이 성공이고 ‘0’은 실패인 이분형을 가정할 때, Pi가 0.8이라면, 오즈는 (0.8/(1-0.8))=4가 되고 이것은 성공이 될 확률이 실패가 될 확률보다 4배 높다는 의미이다.

i

i

p

p

1

Logistic Regression

선형식

)1

ln()(p

ppg

•로지스틱 회귀 모형은 종속변수가 이분형일 때 선형회귀모형의 제약을 극복하기 위해 확률에 대한 로짓 변환을 고려하여 분석

•위의 모형식에서 추정된 회귀계수로부터 사후확률에 대한 추정식을 계산

5.1 로지스틱 회귀분석 개념 (3)

: logit (odds에 자연로그를 취한 상태)

ii xxp

p

110

1ln

)exp(1

)exp(

110

110

ii

ii

xx

xxP

6 Copyright 2012, SPSS Korea, All right reserved.

Page 7: SPSS Inrto training

모형에 대한 검정

계수에 대한 검정

F검정

T검정

회귀분석 로지스틱 회귀분석

R2 Cox and Snell R2 또는 Negelkerke R2

카이제곱

Wald 통계량

설명력

모형 계수 전체 테스트

10348.218 7 .000

10348.218 7 .000

10348.218 7 .000

단계

블록

모형

1 단계카이제곱 자유도 유의확률

H0 : 로지스틱 회귀계수들은 모두 0이다. H1 : 적어도 하나의 회귀계수는 0이 아니다.

모형 요약

51223.607 .206 .276단계1

-2 Log 우도Cox와 Snell의 R-제곱

NagelkerkeR-제곱

R-제곱이 높을 수록 독립변수가 종속변수를 설명할 수 있는 비율이 높음

통 계 량

계수에 대한 테스트 계수에 대한 설명력

5.1 로지스틱 회귀분석 개념 (4)

7 Copyright 2012, SPSS Korea, All right reserved.

Page 8: SPSS Inrto training

최적 변수 선택은 종속변수에 대하여 영향력이 큰 독립변수를 찾고, 가능한 한 최소의 변수로 최대의 효과를 보기 위한 방법이다. 일반적으로 SPSS에서는 다음과 같은 방법이 지원된다.

변수 선택 방법 입력 : 모든변수를 모형에 삽입 앞으로:조건 : 스코어통계량의 유의수준을 기준으로 변수의 진입 검정을 수행하고, 조건적 모수 추정값에 따라 우도비 통계량의 확률을 기초로 변수의 제거 검정을 수행하는 단계선택법 앞으로:LR : 스코어 통계량의 유의수준을 기준으로 변수의 진입 검정을 수행하고, 최대 편우도 추정값에 따라 우도비 통계량의 확률을 기초로 변수의 제거 검정을 수행하는 단계 선택법 앞으로:Wald : 스코어 통계량의 유의수준을 기준으로 변수의 진입 검정을 수행하고, Wald 통계량의 확률을 기초로 변수의 제거 검정을 수행하는 단계선택법 뒤로:조건 : 조건적 모수 추정값에 따라 우도비 통계량의 확률을 기초로 변수의 제거 검정을 수행하는 후진제거 선택법 뒤로:LR : 최대 편우도 추정값에 따라 우도비 통계량의 확률을 기초로 변수의 제거 검정을 수행하는 후진제거 선택법 뒤로:Wald : Wald 통계량의 확률을 기초로 변수의 제거 검정을 수행하는 후진제거 선택법

전진 단계 선택법이나 후진단계 제거법이나 통계적인 관점에서 최상의 모형을 산출할 수 있는 알고리즘은 없음 또한 어떤 변수선택 방법을 사용하느냐에 따라 서로 다른 모형을 얻게 됨 따라서 몇몇 가능한 모형을 검사하여 해석의 적절성, 회귀계수의 절약성 등에 근거하여 모형을 고르는 것이 최상의 선택

5.1 로지스틱 회귀분석 개념 (5)

8 Copyright 2012, SPSS Korea, All right reserved.

Page 9: SPSS Inrto training

범주형 변수 정의 대화상자는 범주형 변수를 자동으로 가변수로 변경해주는 역할을 하며, 일반적으로 SPSS에서는 다음과 같은 방법이 지원된다.

대비 설명

대비 설명 표시자 : 대비는 소속범주가 있는지 여부를 나타낸다. 기준범주는 대조행렬에서 ‘0’행으로 표현된다. 단순 : 범주형 공변량의 각 범주는 기준 범주와 비교된다. 차분 : 처음 범주를 제외한 범주형 공변량의 각 범주는 이전 범주의 평균 효과와 비교된다. 이것을 역 Helmert대비라고 한다. Helmert : 마지막 범주를 제외한 범주형 공변량의 각 범주는 후속 범주들의 평균 효과와 비교된다. 반복 : 처음 범주를 제외한 범주형 공변량의 각 범주는 선행하는 범주와 비교된다. 다항 : 직교 다항대비. 범주는 동일한 간격으로 떨어져 있어야 한다. 다항대비는 숫자형 변수에 대해서만 사용할 수 있다. 편차 : 기준 범주를 제외한 범주형 공변량의 각 범주는 전체 효과와 비교된다.

5.1 로지스틱 회귀분석 개념 (6)

9 Copyright 2012, SPSS Korea, All right reserved.

Page 10: SPSS Inrto training

전립선 암환자에 대한 치료는 종양이 림프절(lymph nodes)주변에 퍼졌는지 그렇지 않은지에 따라

다르다. 수술을 하지 않고 기본적인 Data로 LN가 cancer positive인지 negative인지를 예측하시오.

(전립선암.sav)

예제

2. SPSS 프로시저 1. 데이터 및 목표 설명

3. SPSS 로지스틱 회귀분석 대화상자 4. SPSS 로지스틱 회귀분석 범주형 변수 정의 대화상자

전립선암.sav

전체 데이터 개수는 총 53개이고, 총 53명에 대한 종양의

림프절 전이 여부를 포함한 다양한 정보를 가지고 있음

목표

수술후 림프절 전이 여부를 종속변수로 나머지 변수를

설명변수로 두고, 림프절까지 전이되었을 확률을 예측하기

위해 로지스틱모형에 적합시켜보자

종속변수 : 수술결과,

공변량 : 나머지 모든

변수 입력

변수 선택방법 :

앞으로:LR 방법을

선택

범주형 공변량에

xray, size, grade

변수를 넣고 대비는

“표시자” 방법 선택

분석자는 1에

관심이 있으므로

0이 default로

두어야 함 따라서

참조범주는

처음으로 셋팅

5.1 로지스틱 회귀분석 - 예제

10 Copyright 2012, SPSS Korea, All right reserved.

Page 11: SPSS Inrto training

5. SPSS 로지스틱 회귀분석 저장 대화상자

6. SPSS 로지스틱 회귀분석 옵션 대화상자

로지스틱 회귀분석 : 옵션 : 표준출력결과

창의 기본 결과 이외에 추가 통계 분석

결과의 출력을 선택하기 위한 창으로

그림과 같이 Hosmer-Lemeshow

적합도와 반복계산정보를 선택, 그리고

얼마나 잘 분류가 되는 지 확인할 수 있는

분류도표 선택

-> 확인을 클릭하여 모형 결과를 살펴보자.

로지스틱 회귀분석 : 저장 :

SPSS 데이터 창에 새

변수로 저장할 값을

선택하는 창으로

예측값에서는 확률을

잔차에서는 표준화를

영향력에서는 Cook의

거리를 선택

5.1 로지스틱 회귀분석 - 예제

11 Copyright 2012, SPSS Korea, All right reserved.

Page 12: SPSS Inrto training

7. 로지스틱 회귀분석 결과 (1/7)

종속변수 코딩 :

수술후 전이여부(종속변수)는 두 범주 (전이되지 않음,

전이됨)이며, SPSS 내부에서 이 범주들을 각각 0과 1로

인식함을 표현한다.

범주형 변수 코딩 :

독립변수 xray, size, grade는 2개의 수준을 갖고 있는

범주형 변수이다. 범주형 변수를 연속형 척도와

동일하게 공변량으로 놓고 모형화하는 것은 적절하지

않으므로 범주형 변수를 대신하는 가변수를 만들어

사용함을 표현함

Xray 1 : 양성

Size 1 : 큼

Grade 1 : 매우심각

반드시 의도한 바에 따른 dummy변수가 생성되었는지

확인이 필요함

케이스 처리 요약 :

전체 53개의 개체 중 결측값은 하나도 없음

5.1 로지스틱 회귀분석 - 예제

12 Copyright 2012, SPSS Korea, All right reserved.

Page 13: SPSS Inrto training

8. 로지스틱 회귀분석 결과 (2/7)

반복계산 정보 :

0단계 모형 적합 결과는 다른 공변량은

모형에 포함시키지 않고 상수항만으로 모형을

적합했을 경우의 결과이다. 적합결과는 -

2log우도(-2LL)값이 70.253이며 추정된

상수항 값은 -0.491, 이 상수항으로 이루어진

모형에 의한 분류 정확도는 62.3%임

(하지만 모두다 전이되지 않을 것으로

예측하고 있음)

5.1 로지스틱 회귀분석 - 예제

13 Copyright 2012, SPSS Korea, All right reserved.

Page 14: SPSS Inrto training

9. 로지스틱 회귀분석 결과 (3/7)

반복계산 정보 :

변수선택방법으로 선택한 앞으로:LR에 의해 총

3단계의 걸쳐서 유의한 변수가 선정되었음

1단계에서 추가된 변수는 xray, 2단계에서는 size,

3단계에서는 acid 변수가 차례로 추가되었고 각

단계별 -2LL값이 출력됨을 확인할 수 있음

age, grade 변수는 모형에서 제거가 되었음을

확인

5.1 로지스틱 회귀분석 - 예제

14 Copyright 2012, SPSS Korea, All right reserved.

Page 15: SPSS Inrto training

10. 로지스틱 회귀분석 결과 (4/7) 모형계수 전체 테스트 :

모형에 해당하는 카이제곱 값 : 각 단계별로 고려된

모형과 상수항만 포함된 모형간의 -2LL값의 차이

즉 3단계에서 고려된 모형의 -2LL값은 47.212이고

상수항만 포함하는 모형의 -2LL값은 70.252 이므로 두

값의 차이인 23.040 (70.252 - 47.212)이 카이제곱

통계량 값임

귀무가설 : 공변량의 계수들이 0이다.

대립가설 : 공변량의 계수들이 적어도 하나는 0이

아니다.

3단계에서 모형의 결과는 유의수준 0.05하에서

귀무가설을 기각하므로 적어도 하나 이상의 회귀계수

값은 0이 아니다라고 판단

블록의 카이제곱 값 : 모형에서 연속된 두 블록 간의 -

2LL값의 차이 (블록을 따로 지정하지 않았으므로

모형의 결과값과 동일)

단계의 카이제곱 값 : 두 단계간의 -2LL값의 차이

따라서 마지막 단계에 추가된 공변량의 계수가 0이라는

귀무가설을 검증하는 것임

3단계 스텝의 카이제곱 통계량은 2단계-2LL값과

3단계-2LL값의 차이 50.569-47.212=3.357(반올림에서

차이가 발생함)

최종모형에 선택된 변수라 하더라도 변수의

유의성부분에 있어 acid의 유의확률값이 0.067으로

유의하지 않게 나옴을 확인할 수 있음

5.1 로지스틱 회귀분석 - 예제

15 Copyright 2012, SPSS Korea, All right reserved.

Page 16: SPSS Inrto training

11. 로지스틱 회귀분석 결과 (5/7) 모형요약 :

일반적으로 회귀모형에서는 추정된 모형이 자료를 얼마나

잘 설명하는지를 평가하는 기준으로 결정계수를 사용함

로지스틱 회귀모형에서도 회귀모형의 결정계수와 유사한

Cox와 Snell의 R-제곱과 Nagelkerke R-제곱에 의해

모형의 설명력을 진단할 수 있음

일반적으로 회귀모형의 결정계수에 비해 로지스틱

회귀모형에서 제공하는 결정계수는 대체적으로 작은 값을

갖고 최대값이 1을 가지지 못함. 따라서

로지스틱회귀분석에서의 결정계수는 회귀모형처럼 모형

평가에서 중요한 부분을 차지하지 않음

3단계 모형의 Nagelkerke R-제곱은 .480으로 전체 반응

변수의 변동 중 48%를 모형이 설명하고 있다고 해석할 수

있음

Hosmer-Lemeshow 검정 :

Hosmer-Lemeshow 검정은 적합도 검정법의 하나로

추정된 로지스틱 모형이 적합하면 근사적으로 카이제곱

분포를 따르게 된다.

귀무가설 : 추정된 모형이 잘 적합

대립가설 : 추정된 모형이 잘 적합하지 않음

3단계의 유의수준 0.05하에서 유의확률 값이

유의수준보다 훨씬 크므로 추정된 모형이 잘

적합되었다고 할 수 있으나, 유의확률 값을 보면

3단계에서 유의확률 값이 떨어진 것으로 확인, 이는 acid

변수를 추가함으로 인해 모형의 적합도가 약간

떨어졌다고 판단됨

5.1 로지스틱 회귀분석 - 예제

16 Copyright 2012, SPSS Korea, All right reserved.

Page 17: SPSS Inrto training

12. 로지스틱 회귀분석 결과 (6/7) 공변량의 계수값 유의성 판단 :

3단계의 모든 공변량을 고려했을 경우 유의수준

0.05하에서 acid를 제외한 모든 변수가 통계적으로

유의함

또한 공변량의 계수가 0이라는 통계적인 유의성

외에 종속변수에 미치는 영향의 정도를 승산비를

통해 파악할 수 있다. 승산비 (Exp(B))가 1보다

작다는 것은 공변량이 종속변수에 감소방향으로

영향을 미치고 1보다 크다는 것은 증가방향으로

영향을 미침을 의미

acid, xray와 size공변량의 승산비는 1보다 크기

때문에 증가방향으로 영향을 줌

acid 공변량의 승산비는 10.492이므로 이는 acid가

한단계 증가할 경우 전립선 종양이 양성으로 판정될

odds가 약 10.492배가 됨을 의미함

xray에서 양성일 경우 수술 후 전립선 종양이

양성으로 판정될 odds 가 약 8.85배가 됨을

의미하며, size공변량의 odds는 9.589이므로 size

공변량의 값이 1단위 증가하면 종양으로 전이할

가능성이 약 9.589배가 됨을 의미함

방정식에 포함된 변수 :

추정된 계수(B)와 표준오차(S.E), 승산비(Exp(B))등을 보여줌

종양의 림프절 전이 여부에 대한 추정된 회귀식은 다음과 같음

이 추정식을 통하여 계산되는 림프절의 종양이 양성으로 판정될 확률은 )261.2180.2351.2184.4(1

1)1(

sizexrayacidenodalivnP

5.1 로지스틱 회귀분석 - 예제

sizexrayacidyp

yp261.2180.2351.2184.4

)0(

)1(ln

17 Copyright 2012, SPSS Korea, All right reserved.

Page 18: SPSS Inrto training

13. 로지스틱 회귀분석 결과 (7/7)

분류표와 분류도표(estimated probability의 histogram) : 예측값과 실제 값을 비교하여 얼마나 잘 예측되는 것인가를 확인. 2단계의 모형을 보면 77.4%의 정확도를 보이나 최종 모형으로 선택된 3단계 모형은 75.5%로 정확도가 약간 떨어졌음을 확인할 수 있음 그렇다면 어느 모형을 선택해야 하는가? 연구에서 꼭 확인해야 할 변수라면? <- 선택은 분석자의 판단! 분류도표에서 0으로 표현된거는 LN negative이고 1은 LN positive이다. 두 집단을 완전히 구분하는 완벽한 모델을 만들었다면 positive일 경우 0.5오른쪽에 분포해야 되고 반대일 경우 왼쪽에 분포하여 완벽하게 나뉘어야 함

5.1 로지스틱 회귀분석 - 예제

18 Copyright 2012, SPSS Korea, All right reserved.

Page 19: SPSS Inrto training

14. Influential observation(1/3)

변수계산 :

$CASENUM 함수를 이용하게 되면 각 케이스별

index변수를 생성할 수 있다.

15. Influential observation(2/3)

도표작성기 :

갤러리에서 산점도를 선택하고 X축에는 변수계산을

통해 생성된 index변수를 Y축에는 ZRE_1변수를 넣고

실행하고, Y축에 COO_1을 입력한 산점도 역시

나타내어본다.

5.1 로지스틱 회귀분석 - 예제

19 Copyright 2012, SPSS Korea, All right reserved.

Page 20: SPSS Inrto training

16. Influential observation(3/3)

표준화 잔차 도표 :

정규화된 잔차 (표준화 잔차) : 잔차를 각각의 표준편차로

나누어 표준화한 것으로 이상치 판정의 중요한 기준이 됨

눈에 띄게 차이가 나는 케이스는 존재하지 않으나 23번과

26번의 케이스가 다소 높게 나타남을 확인할 수 있음

Cook의 거리 도표 :

잔차도표를 발전시킨 것으로 영향력이 큰 관측치를 색출하여

검토하기 위한 도표 중에 하나임

24번째 데이터는 다른 케이스에 비해 영향력이 매우 높음을

확인

그외 14번째, 23번째, 26번째, 37번째 케이스가 다른 케이스에

비해 영향력이 있음을 알 수 있음. 23번째, 26번째 케이스는 두

도표 모두 큰 값을 갖고 있으므로 주의깊게 관찰하여야 함

5.1 로지스틱 회귀분석 - 예제

20 Copyright 2012, SPSS Korea, All right reserved.

Page 21: SPSS Inrto training

생존분석은 연구자가 관심 있는 사건(사망)이 발생할 때까지의 수명 자료에 대하여 시간에 따른 생존율을 분석하는

통계적 방법으로, 사건의 발생 여부에 대해 중도절단된 자료(censored data)가 포함되어 있다는 특징을 가지고

있으며 의학영역에서 주로 쓰이는 통계적 방법이다.

기본 이론

수명 자료는 시간과 사건 변수로 구성된다.

- 시간 : 개체(환자)에 대하여 관측된 시간(>0)

- 사건 : 관측 시간에서 발생한 사건으로 사망, 고장(death, failure) 또는 중도절단(censoring)

중도 절단이란 사망 또는 고장 이외의 이유에 의하여 관측이 종료되는 경우를 통칭하며 다음과 같은

여러가지 요인들이 있다.

- 환자가 타 지역으로 이주하여 추적이 불가능 한 경우 (loss to follow up)

- 개체(환자)가 생존하고 있는 도중 연구가 종료된 경우 (termination of the study)

- 사건과 무관한 이유로 환자(개체)의 사망 (death from unrelated cause)

<- event로 처리하는 경우가 많은데 꼭 censored data로 처리해야 한다.

예) 이식된 신장의 survival rate를 보려고 하는데 연구대상환자가

연구기간 동안 심근경색에 의해 사망한 case

sol) patient survival : event (사망)

이식된 신장의 생존율 (graft survival) : censored

- 환자가 치료를 거부하거나 경제적인 이유로 치료를 포기 (drop out)

5.2 생존분석

연구 시작 연구 종료

환자1

환자2

환자3

환자4

X

O

O

X

X : complete data

O : censored data

21 Copyright 2012, SPSS Korea, All right reserved.

Page 22: SPSS Inrto training

Survival Time에 대한 자료를 몇 개의 구간(interval)로 나눈 다음 각 구간에서의 관찰된 사망자(event)로부터 구간

사망확률과 구간생존확률을 구하고 이를 통해 일정 기간까지의 구간 생존확률의 누적치인 누적생존확률을 구하여

계산하는 방법이다.

특징

비모수적인 방법으로 가장 보편적인 분석기법임

알반적으로 한 군의 표본의 수가 50을 넘어야 사용하기 적당함,

즉 최소 2군을 비교할 때에는 N이 합해서 100을 넘어야 함

다음과 같은 경우 생명표법이 유용함

1. 생존기간이 비교적 짧은 경우

2. 연구기간의 설정이 명확할 경우

3. 관측대상의 수가 비교적 많을 경우

출력값 계산식

- 위험 노출 수(number exposed to risk) : ri = 구간진입 개체 수 – 중도퇴출 수 / 2

- 종료 비율(proportion terminating) : qi = 사건종료 수 / ri

- 생존 비율(proportion surviving) : pi = 1 – qi

- 구간 끝 누적생존비율 (cumulative proportion surviving at end of interval) : Pi = Pi-1 × pi

- 확률밀도(probability density) : fi = (Pi – Pi-1) /hi

- 위험률(hazard rate) : λi = fi / ½ (Pi – Pi-1)

5.2.1 생명표

22 Copyright 2012, SPSS Korea, All right reserved.

Page 23: SPSS Inrto training

예제

2. SPSS 프로시저 – 생존확률 생명표 1. 데이터 설명

3. SPSS 대화상자 4. SPSS 옵션 대화상자

전체 1207개의 케이스 -> 생명표 적용

번호 (유방암 환자의 번호), 연령, 종양크기 (cm)

임파결절 (양성 액과 임파결절의 수), 조직 등급(4 : 결측값)

에스트로, 프로게스 (0 : 음성, 1 : 양성, 2 : 알수없음)

종양범주 (0 :0cm, 1 :<=2cm, 2 :2-5cm, 3 :>5cm)

결절유무 (임파결절의 유무 0 :없음, 1 :있음), 시간(개월)

상태 (0 :중도절단, 1 :사망)

5.2.1 생명표 - 예제

유방암 자료를 이용하여 유방암의 생존율에 영향을 주는 변수에 따른 각각의 생존율표를 작성하고

생존율이 각군마다 통계학적으로 유의한 차이가 나는지에 대한 논문을 작성하시오.

(Breast cancer survival.sav)

생명표 : default

생존확률 : Survival (의료보고서 도표로 생존확률도표만으로

충분하다고 판단됨)

로그생존함수 : log survival

위험함수 : hazard

밀도 : density

1-생존함수 : one minus survival,

사망함수

대응별 : 각 요인별 차이검정 시행

23 Copyright 2012, SPSS Korea, All right reserved.

Page 24: SPSS Inrto training

5. 생명표 결과 (1)

5.2.1 생명표 - 예제

구간시작시간(Interval Start Time) : 1년(12개월)

단위로 사망 단위 결과를 출력해주고 있음

구간 입력수(Number Entering this Interval) :

처음 분석시 종양 크기가 2cm이하인 826명을

확인할 수 있음, 매년 감소하는 인원이 확인됨

구간 중 취소수 (Number withdrawn during

interval) : 이 기간동안 탈락(중도절단) 인원수

위험에 노출된 수 (Number Exposed to Risk) :

구간 입력수 – ½ (구간 중 취소수)

826-79/2 = 786.5

즉, 구간중 취소 사례는 그 구간에서 절반정도

위험에 노출된 것으로 간주함

종료 사건의 수 (Number of Terminal Events) :

12개월로 끊었을 때 발생된 Event(사망) 수

종료 비율 (Proportion Terminating) : 주어진

기간 동안 하나의 Event가 일어날 확률로서

종료사건의 수를 위험에 노출된 수로 나눈 값

생존 비율 (Proportion Surviving) : 1-종료비율

구간 끝의 누적생존 비율 (Cumulative

Proportion Surviving at End) : Interval 마지막

부분에서 Survive할 수 있는 누적확률로서

생존분석의 결과 중 가장 중요한 부분임

구간 끝의 누적생존 비율 (Cumulative Proportion Surviving at End) : Interval

마지막 부분에서 Survive할 수 있는 누적확률로서 생존분석의 결과 중 가장

중요한 부분임

앞의 생존 비율 값과 곱하여져 다음 누적 확률 값이 나오게 됨

암의 크기가 2cm이하의 환자의 경우 누적생존율이 매우 높음을 확인할 수 있음

10년 이상 생존 할 확률이 91.17%임

24 Copyright 2012, SPSS Korea, All right reserved.

Page 25: SPSS Inrto training

5. 생명표 결과 (2)

5.2.1 생명표 - 예제

자료의 생존시간을 처치 방법(trt)에 따라 비교 하는 부분

평균 생존 시간 : 각 요인 수준 별 중간 값(median)을 보여줌

생존 중위 시간이 종양이 작을수록 높음을 확인

생존 함수 플롯: 각 요인 수준 별 누적 생존 비율 대 시간의

그래프를 나타냄 (생존 함수 플롯은 항상 감소하는 패턴을 보임)

위험 함수 플롯: 각 요인 수준 별 위험율 대 시간의 그래프를

나타냄

25 Copyright 2012, SPSS Korea, All right reserved.

Page 26: SPSS Inrto training

5. 생명표 결과 (3)

5.2.1 생명표 - 예제

자료의 생존시간을 처치 방법(trt)에 따라 비교 하는 부분

전체 비교 : Gehan’s Wilcoxon Method에 의해 3군을 비교한

유의확률값을 보여주고 있음

유의확률 P-value(0.000) 가 유의수준 0.05보다 작으므로

유의수준 0.05 하에서 각 종양의 크기 별 생존율에 적어도 하나의

군에서 차이가 나타난다고 결론 내릴 수 있음

대응별 비교 : ANOVA의 사후분석과 비슷한 형태로 표현되며,

차이가 나타나는 요인들 중에서 어느 요인끼리 생존율의 차이가

나는지를 상세하게 언급하고 있음

유의수준 0.05하에서 1군과 2군, 1군과 3군에서는 생존율의

차이가 나타나지만, 2군과 3군의 비교에서는 생존율의 차이가

발생되지 않음

평균 점수 : Gehan’s generalized Wilcoxon 검정은 각 집단에서

각각의 생존시간을 다른 집단의 모든 생존시간과 비교함,

다른집단의 생존시간보다 길면 score를 1을 주고 짧으면 -1,

그리고 같으면 0을 취함

1요인의 경우 평균점수가 1.091, 2요인은 0.470,

3요인은 -11.083으로 가장 낮음을 확인할 수 있음

26 Copyright 2012, SPSS Korea, All right reserved.

Page 27: SPSS Inrto training

표본의 크기가 작을 때 유용한 분석 방법으로 관찰 기간이 짧은 순으로 나열한 뒤 각 사망(재발)이 발생한 시점에서,

바로 생존율을 산출해 나감으로써 누적생존율을 산출하는 방법이다.

Kaplan-Meier 생존분석의 특징

생존 확률의 비모수적인 검정법

알반적으로 한 군의 표본의 수가 50미만인 경우 사용하기 적당함

(표본 수가 매우 많은 자료에는 적합하지 못함)

시간 변수를 구간으로 나눌 필요가 없음 (사건이 일어날 때마다 생존율을 산출함)

누적 생존비율은 실제 사건발생 시점에서만 변경됨

Log-rank 법을 통해 Kaplan-Meier법으로 생성된 생명표를 비교함

5.2.2 Kaplan-Meier 생존분석

Log-Rank법

Log-Rank 법은 관찰 대상 개개인을 관찰 기간 순으로 배열하고 두 치료 군에서 사망이 발생한 시점에서

관찰된 사망자 수와 기대사망자수를 이용하여 계산함

※ 각각의 수식은 SPSS사의 Survival Algorithm 참조 (도움말 -> 알고리즘)

27 Copyright 2012, SPSS Korea, All right reserved.

Page 28: SPSS Inrto training

예제

2. SPSS 프로시저 – 생존확률 Kaplan-Meier생존분석 1. 데이터 설명

3. SPSS 대화상자 4. SPSS 옵션 대화상자

AML survival.sav 전체 23개의 케이스, 3개 필드

화학요법 (급성척수백혈병에 대한 화학요법)

(0: 비실행, 1: 실행)

시간 (생존기간: 주단위)

상태 (0 : 중도절단, 1 : 질병악화)

5.2.2 Kaplan-Meier 생존분석 - 예제

급성 골수구성 백혈병(AML: acute myelocytic leukemia) 환자 23명에서 화학 요법의 시행 유무에 따른

생존율을 비교하시오. (AML Survival.sav)

28 Copyright 2012, SPSS Korea, All right reserved.

Page 29: SPSS Inrto training

5. Kaplan-Meier 결과 (1)

5.2.2 Kaplan-Meier 생존분석 - 예제

케이스 처리요약 : 처리 요인 별 케이스 요약 값을 보여줌

생존표: 생명표법과는 다르게 Kaplan-Meier에서는 실제

사망이나 변화가 일어난 그 시점에 누적 생존 비율을 계산함

누적생존비율 (Cumulative Survival) : 실제 사건 발생 시점에서

변경되는 생존 비율

5주차에 질병악화 처음 발생시 누적생존확률

0.833 <- 1* 10/12

8주차 질병악화 발생시 누적생존확률

0.667 <- 0.833*8/10

중도절단이 발생된 후 23주차 질병악화 발생시 누적 생존확률

0.486 <- 0.583*5/6

중도 절단은 누적 생존 비율에 영향을 주지 않음을 확인

29 Copyright 2012, SPSS Korea, All right reserved.

Page 30: SPSS Inrto training

5. Kaplan-Meier 결과 (2)

5.2.2 Kaplan-Meier 생존분석 - 예제

생존 시간에 대한 평균 및 중위수 : 평균 생존처리 요인 별 케이스

요약 값을 보여줌

Test Statistics for Equality of Survival Distribution for

화학요법: 화학요법을 받은 환자군과 그렇지 않은 환자군의 생존

기간을 비교한 결과임

Log-Rank 와 Breslow 통계량의 유의확률 값 모두 다 유의수준

0.05하에서는 큰 것을 확인할 수 있음

단지 차이가 없다고 기술하면 될 것인가?

Sample의 수가 작기 때문에 확률적 유의성이 적게 나왔을 수도

있다고 판단됨

유의수준 0.1하에서는 Log-Rank 검정값은 유의하게 나타난다고

볼 수 있음

따라서, P-value를 정확하게 기입하고 더 많은 연구 사례를

확보하던지, 95% 신뢰구간에서는 유의한 차이가 나지 않았지만

90% 신뢰구간에서는 유의한 차이가 있었다는 언급을 통해

자신의 연구를 보다 가치있게 해석하는 것이 필요함

단순히 한 연구를 통해 결정적인 지식이 되는 것이 아니라 정보를

위한 하나의 근거를 제시하는 것임을 명심하자.

30 Copyright 2012, SPSS Korea, All right reserved.

Page 31: SPSS Inrto training

다양한 교란변수의 영향을 적절하게 보정하고 예후 인자만에 의한 진정한 효과를 비교하기 위한 비모수적인 생존기법

중에서 가장 대표적인 것으로 1972년 Cox가 제한한 모델이다.

단변량분석 방법인 생명표법 및 Kaplan-Meier 방법의 한계

범주의 수준을 2개 정도로 나누면 정보의 손실이 적지만 3개 이상의 범주로 나누면 정보가 소실될 수 있음

단변량 분석이기에 독립 변수의 개수가 2개 이상이거나, 한 개라고 하더라도 범주형이 아닌 연속형으로

측정된 covariate인 경우에는 모형에 반영할 수 없음

(Dummy variable로 처리 할 수 있으나, Dummy 처리 시 분석 제한이 많고, 해석에 복잡함이 존재함)

교란변수(Confounder) 존재 시 교란변수 효과를 보정해주지 못함

해결방법은 없는가? 다변량 생존분석 모형을 추천합니다.

5.2.3 Cox Regression models (1)

다변량 생존분석 모형 (Multivariate survival analysis models)

생존분석에 흔히 사용되는 모수적 독립변수와 비모수적 독립변수를 동시에 포함해서 모형을 구축하는 경우

사용되는 다변량 분석 모형은 아래와 같습니다.

1) Exponential regression models 2) Weibull distribution models

3) normal linear regression models 4) log-normal linear regression models

5) Cox proportional hazard models

31 Copyright 2012, SPSS Korea, All right reserved.

Page 32: SPSS Inrto training

Cox회귀는 개체들이 각기 다른 수명을 갖는 원인으로 개체가 갖는 제 속성의 차이를 고려하는 모형으로 Cox’s

proportional hazard model이라고 한다.

Cox 비례위험 모형(Cox proportional hazard model) 의 특징

모수적 모형을 찾기가 힘들어 모수적 모형으로는 생존시간에 영향을 미치는 예후인자를 찾아내기 힘들기에, Cox모형을 통해

이를 해결할 수 있음

생존시간 분포에 대한 가정이 없고 Relative hazard를 계산해 주기 때문에 현재 임상적으로 많이 사용되는 방법

Cox모델은 다음과 같은 식으로 표현됨

단, : 예후인자 를 가진 사람의 관찰 시간 에서의 사망력(hazard)

: 예후인자를 모두 가지지 않은 사람의 관찰 시간 에서의 사망력(baseline hazard)

: 예후인자 의 회귀계수

위의 식을 변환하면 이 되고 식의 좌측은 Baseline hazard를 가진(예후인자가 없는) 사람에 대한

예후인자를 가진 사람의 사망력이 되어, 널리 사용되는 상대위험도임

따라서 Cox 모델에서 회귀계수를 추정하면 이 결과로써 그 예후인자의 상대위험도를 계산할 수 있음

위의 식을 일반화 하면, 으로 표현할 수 있고, 이는 상대위험도에 대한 logit 형태에 대한 선형모형

형태로 표현되고 있음을 확인할 수 있음

5.2.3 Cox Regression models (2)

i

)()exp()( 01 txt ii

)(1 t ix

)(0 t t

t

ix

)exp()(/)( 01 ii xtt

pp xxt

t

11

0

1

)(

)(ln

32 Copyright 2012, SPSS Korea, All right reserved.

Page 33: SPSS Inrto training

Cox 비례 위험 모형을 사용하기 위해서는 비례위험 모형의 가정이 전제되어야 한다.

Cox 비례위험 모형(Cox proportional hazard model) 의 가정에 대한 평가

공변량의 수준의 변화에 따르는 상대위험도(relative hazard)는 시간에 관계없이 시간과는 독립적으로

일정하다는 비례위험의 가정

-> 공변량에 따라 Factor로 구분하여 log minus log survival plot으로 확인

그 외 cumulative hazard function(Cox-Snell residual), partial residual(Schoenfeld residual),

Dfbeta 그리고 X’beta를 이용함

5.2.3 Cox Regression models (2)

pp xxt

t

11

0

1

)(

)(ln

33 Copyright 2012, SPSS Korea, All right reserved.

Page 34: SPSS Inrto training

5.2.3 Cox Regression models - 예제

예제

2. SPSS 프로시저 – 생존확률 Cox회귀모형 1. 데이터 설명

번호 (유방암 환자의 번호), 연령, 종양크기 (cm)

임파결절 (양성 액과 임파결절의 수), 조직 등급(4 : 결측값)

에스트로, 프로게스 (0 : 음성, 1 : 양성, 2 : 알수없음)

종양범주 (0 :0cm, 1 :<=2cm, 2 :2-5cm, 3 :>5cm)

결절유무 (임파결절의 유무 0 :없음, 1 :있음), 시간(개월)

상태 (0 :중도절단, 1 :사망)

연령그룹 (1:40대미만, 2:40대, 3:50대, 4:60대, 5:70대이상)

유방암 자료를 이용하여 유방암의 생존율에 영향을 미칠것으로 생각되어지는 종양크기, 임파결절,

프로게스테론 & 에스트로겐 수용체, 조직학적 등급, 연령그룹(코딩) 등이 생존율에 미치는 영향에 대한

상대 위험도를 산출하시오. (Breast cancer survival.sav)

3. SPSS Cox 회귀분석 대화상자 4. SPSS Cox 회귀분석 범주형 변수 정의 대화상자

시간 : 시간,

상태변수 : 상태

공변량 : 종양범주

결절유무

프로게스

에스트로

연령그룹

방법 : 입력

참조범주는

처음으로 셋팅

관심있는 사건과

의미가 동일하게

구성되어지는지

반드시 확인하여야

34 Copyright 2012, SPSS Korea, All right reserved.

Page 35: SPSS Inrto training

5. SPSS Cox 회귀분석 도표 대화상자

7. SPSS Cox 회귀분석 옵션 대화상자

Cox 회귀모형 : 옵션 : 로지스틱

회귀분석에서 다뤘듯이 실제 연구의

해석에 있어 가장 중요한 부분은

모형통계량 exp(B)에 대한

신뢰구간이므로 반드시 이부분을

체크하여야 함

Cox 회귀모형 : 도표 :

생존확률도표,

위험함수도표, 그리고

Proportional Hazards의

가정에 부합되는지 여부를

확인하기 위한 Log minus

Log 도표를 설정할 수 있음

5.2.3 Cox Regression models - 예제

선구분 집단변수 :

각 요인 별 도표를 확인할

수 있음

6. SPSS Cox 회귀분석 저장 대화상자

Cox 회귀모형 : 저장 :

데이터 보기 창에 저장되는 값들을 표현, 가정들을 검증하기

위해 체크

35 Copyright 2012, SPSS Korea, All right reserved.

Page 36: SPSS Inrto training

8. Cox 회귀분석 결과 (1/3)

범주형 변수 코딩 :

반드시 의도한 바에 따른 dummy변수가 생성되었는지

확인이 필요함

사망과 관련된 케이스 이므로 상태가 좋지 못한 방향이

높은 수의 코딩값을 가질 수 있게 방향을 잘 지정해

주어야 함

코딩하여 새롭게 만든 연령그룹의 범주 빈도를 보면

1그룹을 제외한 나머지 그룹은 비슷한 인원으로

구성되어 잘 나뉘어 지고 있음을 확인할 수 있음

케이스 처리 요약 :

전체 1207개의 개체 중 50명이 사망하였으며, 329명은

결측 케이스로 처리됨

5.2.3 Cox Regression models - 예제

36 Copyright 2012, SPSS Korea, All right reserved.

Page 37: SPSS Inrto training

9. Cox 회귀분석 결과 (2/3)

모형 계수에 대한 전체 검정 :

-log 우도 값을 통해 Cox 모형의 Goodness

of Fit (모형적합성검정)을 확인할 수 있음

총 3가지로 구성

1) -2 log likelihood

2) Overall(score)

3) 공변량을 투입하기 전과 후의 Chi-Square

변화량

세가지 결과 모두 P-value = 0.000 이므로

모집단의 회귀계수는 적어도 하나는 0이

아니라고 결론내릴 수 있음

5.2.3 Cox Regression models - 예제

방정식의 변수 :

Cox regression의 coefficient에 대한 정보를

확인할 수 있음

각 변수의 유의확률을 통해 유의성검정을

시행할 수 있으며, 프로게스, 에스트로,

연령그룹변수는 유의하지 않게 나타남을

확인할 수 있음

회귀계수가 양수이면 hazard가 증가하는

것이고 음수이면 감소하는 것을 의미함

결론적으로 종양범주와 결절 유무가 유방암

사망에 가장 중요한 공변량임을 보여주고

있음

37 Copyright 2012, SPSS Korea, All right reserved.

Page 38: SPSS Inrto training

10. Cox 회귀분석 결과 (3/3)

모형 추정식:

추정된 계수(B)와 표준오차(S.E), 승산비(Exp(B))등을 보여줌

유방암 생존율에 대한 추정된 회귀식은 다음과 같음

Wald 추정량은 모형에서 변수가 얼마나 공헌하는지에 대한

중요성을 나타냄

5.2.3 Cox Regression models - 예제

)913.0)2(109.1)1(763.0exp()()( 01 결절유무종양범주종양범주 tt

생존곡선:

모형에 투입된 모든 공변량의 영향을 고려한 생존

곡선을 보여줌

38 Copyright 2012, SPSS Korea, All right reserved.

Page 39: SPSS Inrto training

11. Partial residuals: proportionality 검정

산점도 :

x축에 시간 y축에 살펴보고자 하는 변수의 partial

residual 을 입력

12. Partial residuals: proportionality 검정결과

산점도 결과 :

0을 기준으로 비교적 균등하게 분포되어 있는 것을 알 수

있음

이런경우 공변량 결절유무 변수는 비례모형의 가정에 맞다고

판단됨

5.2.3 Cox Regression models - 예제

39 Copyright 2012, SPSS Korea, All right reserved.

Page 40: SPSS Inrto training

6. ROC 곡선

40 Copyright 2012, SPSS Korea, All right reserved.

Page 41: SPSS Inrto training

ROC 곡선

ROC Curve란 Receiver Operation Characteristic Curve를 의미하며 주로 의학 및 역학에서 많이 사용하는 방법이다.

ROC Curve란 검사한 수치의 민감도(Sensitivity)와 1-특이도(Specificity)로 그려지는 Curve를 의미한다.

검사 방법의 유용성 또는 환자가 아닌 일반 집단에 집단 검진을 하거나, 또는 확진을 내릴 수 없는 상황에서 사용하는

검사법의 기준치(Cut-off Value)를 결정하려고 할 때 사용하는 방법이다.

교차표 확진 결과

질병 有 질병 無

검사

양 성 A B

음 성 C D

합 계 A+C B+D

민감도(Sensitivity)는 어떤 검사를 시행하였을 경우,

이 검사가 질병 有인 사람 중에서 몇 %를 정말

있다고 할 수 있는가에 대한 수치

☞ A / (A+C)

특이도(Specificity)는 반대로 이 검사가 질병 無인

사람 중에서 몇 %를 정말 없다고 할 수 있는가에

대한 수치 ☞ D / (B+D)

6. ROC 곡선 (1)

41 Copyright 2012, SPSS Korea, All right reserved.

Page 42: SPSS Inrto training

예시

대변 검사로 간디스토마 충란 검사를 하면 더 확실하겠지만, 간디스토마 피부 반응

검사를 먼저 실시하여 일정 수준 이상인 자만 검사를 시행하는 경우

집단 검진에서 혈액 종양 표시자를 검사하여 일정 수준 이상인자에게만 CT 검사 등을

시행하는 경우

출산 후 기형 유무에 대해 사전 검사에서 기준치를 어떻게 정할지 등을 확인하는 경우

전제조건

반드시 확진 결과 (Confirm Diagnosis)가 필요하다.

검사 방법의 결과값이 반드시 연속 변수일 필요는 없으나, 비연속 변수일 경우 최소 4개 이상의 순위(Ordinal) 변수는 되어야

Curve가 그려질 수 있다. 이상적으로는 7개 이상일 경우, Curve 모양이 이상적이다.

결과 해석

일반적으로 Curve 하단 면적이 1이면 완벽한 진단 검사이고, 기준이 0.5인 경우

적합하지 않은 검사임을 의미한다. 그 외에, 0.9<AUC<1인 경우 매우 정확한 검사,

0.7<AUC<=0.9인 경우 비교적 정확한 검사 등으로 분류될 수 있다.

6. ROC 곡선 (2)

42 Copyright 2012, SPSS Korea, All right reserved.

Page 43: SPSS Inrto training

유방암 진단을 위해 어떤 수치(Ratio Scale)로 측정되는 2가지 검사를 실시 및 최종의 확진 방법을 동원하여 암 유무를

진단한 결과를 기준으로 ROC Curve를 작성하여라. (ROCCurve.SAV) 예제

2. SPSS 프로시저 1. 데이터 설명

3. SPSS 대화상자 4. SPSS 옵션 대화상자

ROCCurve.SAV

전체 100개의 케이스, 3개 필드

확인진단 (0 : 정상, 1 : 질병)

검사1, 검사2 (연속형 필드)

6. ROC 곡선 (3)

43 Copyright 2012, SPSS Korea, All right reserved.

Page 44: SPSS Inrto training

5. ROC Curve 결과 (1)

① 케이스 처리 요약

최종 진단 결과의 케이스 요약 값이 출력된다.

Positive(질병 ☞ 앞의 옵션 단계에서 질병 데이터를 ‘1’로

설정)인 데이터는 55개의 케이스이고, Negative(정상)인

데이터는 45개이다.

② ROC 곡선

민감도(Sensitivity)와 특이도(Specificity)를 기준으로 0부터

1까지의 값을 갖는 좌측 세로의 민감도와 가로의 1-

특이도가 계산되어 좌표에 Curve 형태로 그려진다.

곡선이 좌측 상단에 위치할수록 유용한 검사 방법이다.

여기서는 파란 곡선의 검사_1이 녹색 곡선의 검사_2에

비해 더 유용한 검사 방법임을 알 수 있다.

6. ROC 곡선 (4)

44 Copyright 2012, SPSS Korea, All right reserved.

Page 45: SPSS Inrto training

5. ROC Curve 결과 (2)

③ 곡선 아래 영역 (Area under the Curve)

검사_1과 검사_2의 영역이 각각 0.947과 0.679로

출력됩니다. 기준 면적인 0.5를 기준으로 0.5보다 낮게

나온다면 검사로써 거의 가치가 없다고 볼 수 있다.

④ 곡선의 좌표 (Coordinates of the Curve)

검사_1과 검사_2 각각의 민감도(Sensitivity)와 1-

특이도(Specificity) 값을 모두 출력함으로써 이상적인

포인트를 선정하여 검사_1에서의 진단 기준치로 정한다.

검사_1의 경우, Cut off value는 109.45 부분으로 이 때의

민감도가 90.9%, 특이도 값은 91.9% (100-8.9)이므로

민감도와 특이도가 가장 높은 109.45를 이 검사의 Cut off

value로 설정하면 된다. 즉, 검사된 값이 109.45보다

미만이면 ‘정상’이라 판정하고, 그 이상이면 ‘이상’이라

판단하여 정밀 추가 검사를 실시한다.

6. ROC 곡선 (5)

45 Copyright 2012, SPSS Korea, All right reserved.

Page 46: SPSS Inrto training

7. 임상 및 진단 관련 의학 통계

46 Copyright 2012, SPSS Korea, All right reserved.

Page 47: SPSS Inrto training

Copyright 2012, SPSS Korea, All right reserved. 47

7.1 Korea Plus Medical Module 소개 (1)

Korea Plus Medical Module은 SPSS Korea에서 임상 및 의학 분야에서 많이 사용되는 기법들을 자체 개발하여 만든 모듈이다.

분석 기법

Bartlett Test

- 시험 데이터가 정규성을 가지는 경우, Bartlett Test를 이용한 분산 동질성 검정을 통해 ANOVA 등 분석 결과의 신뢰성을 확보할

수 있다.

Dixon’s Test

- 소수의 데이터에서 이상치 검정을 손쉽게 수행할 수 있으며, 90%, 95%, 99% 유의수준에 따라 이상치 여부를 한 번에 파악할

수 있다.

Cochran-Armitage Trend Test

- 단순 동질성/동일성 검정을 하는 카이제곱(Chi-Square) 검정법과는 달리, 순서형 데이터가 고려된 범주형 검정 기법으로, 의학

/ 약학 실험 등의 자료에서 많이 활용되는 기법이다.

Poly-K Test

- 생존분석의 일종으로, 병변 발생시간에 비해 부검시간이 빠른 경우 실험에 부분 투입된 것으로 간주하는 분석 기법이다.

Peto’s Test

- 일반적인 생존분석 방법을 기본으로 정해진 구간에 따라 질병 발생률을 분석하는 기법이다.

Page 48: SPSS Inrto training

Copyright 2012, SPSS Korea, All right reserved. 48

7.1 Korea Plus Medical Module 소개 (2)

Diagnostic and Agreement Statistics

- 질병을 예측하고 진단하기 위해 검사를 시행하였을 때 그 검사가 얼마나 정확한지 다양한 척도로 평가하는 기법이다.

Chow’s Test

- 선형회귀모형에서 구조적 변화 여부를 검정하기 위한 기법으로 절편상의 변화, 기울기의 변화 여부를 판단하는 기법이다.

Page’s Trend Test

- n개의 종속 표본에 대한 검정 기법으로 실험대상을 반복 측정하는 실험 설계나, 여러 개의 대응 집단의 실험 설계에서

처지효과 사이에 Trend가 있는지 순서를 고려하여 검정하는 기법이다.

Rank ANCOVA

- 독립변수가 종속변수에 미치는 영향을 알아보기 위해 직접 통제하기 어려운 외생변수(잠재변수)를 제거한 후 실시하는 공분산

분석의 하나로 정규성 가정이 만족하지 않을 때 사용하는 비모수적 기법이다.

Korea Plus Medical Module은 SPSS Korea에서 임상 및 의학 분야에서 많이 사용되는 기법들을 자체 개발하여 만든 모듈이다.

분석 기법

Page 49: SPSS Inrto training

Copyright 2012, SPSS Korea, All right reserved. 49

7.2 Diagnostic and Agreement Statistics (1)

기본 정의

질병을 예측하고 진단하기 위해 검사를 시행하였을 때 그

검사가 얼마나 정확한지 평가하는데 이용되는 척도이다.

질병의 유무에 대한 진단 및 예측 방법의 정확성을 평가하는

다수의 통계적 지표를 제시한다.

교차 분류표

☞ 행 : 진단 또는 예측(있음/없음), 열 : 실제 질병(있음/없음)

Page 50: SPSS Inrto training

Copyright 2012, SPSS Korea, All right reserved. 50

7.2 Diagnostic and Agreement Statistics (2)

50

민감도(Sensitivity)

– 질병이 존재할 때 검사방법으로 양성(질병이 존재)이 나올 확률로 질병이 있는 환자를 질병이 있다고 진단할 수 있는 능력으로,

진단적 검사의 초기 단계, 검사의 목적이 질병을 발견하는 경우 주로 사용되며 다음과 같은 식으로 계산된다.

민감도 =

특이도(Specificity)

– 질병이 존재하지 않을 때 검사방법으로 음성(질병이 존재하지 않음)이 나올 확률로 질병이 없는 환자를 질병이 없다고 진단할 수

있는 능력으로, 다음과 같은 식으로 계산된다.

특이도 =

우연검사의 민감도(Sensitivity of a random test)

FNTP

TP

TNFP

TN

우연검사의 특이도 (Specificity of a random test)

Total

FPTPranSE

Total

FPTPranSP

1

각종 지수

Page 51: SPSS Inrto training

Copyright 2012, SPSS Korea, All right reserved. 51

7.2 Diagnostic and Agreement Statistics (3)

51

정분류율(Correct classification rate)

– 검사결과가 음성이 나올 때 질병이 없고 검사결과가 양성이 나올 때 질병이 있을 확률 즉, 검사결과와 실제 질병 유무가 같을

확률로 다음과 같은 식으로 계산된다.

정분류율 =

오분류율(Incorrect classification rate)

– 검사결과가 음성이 나올 때 질병이 있고 검사결과가 양성이 나올 때 질병이 없을 확률 즉, 검사결과와 실제 질병 유무가 다를

확률로 다음과 같은 식으로 계산된다.

오분류율 =

우연검사의 정분류(Efficiency of a random test)

– P(Prevalence) : 실제 질환 비율 ((TP+FN)/Total)

– Q(Test level) : 양성 진단 비율 ((TP+FP)/Total)

각종 지수

Total

TNTP

)1(*)1(* QPQPranEff

Total

FNFP

Page 52: SPSS Inrto training

Copyright 2012, SPSS Korea, All right reserved. 52

7.2 Diagnostic and Agreement Statistics (4)

52

Youden’s J Index

– 연속형 측정값을 통한 진단 검정 시 cut-off point 결정하는데 사용되는

지수이며 다음과 같은 식으로 계산된다.

Youden’s J = 민감도 + 특이도 – 1

– Youden’s J 값의 최대치는 1, 최소치는 0이며 최대치 즉, 민감도와

특이도 모두 1이 되는 경우에는 이 검정은 완벽하다고 할 수있다.

– 연속형 측정값들의 Cut-off 에 대한 Youden’s J 값이 최대가 될 때의 cut-

off point가 최적 기준이라 할 수 있다.

각종 지수

민감도

1 – 특이도 0 1

1

Youden’s J

ROC curve

Page 53: SPSS Inrto training

Copyright 2012, SPSS Korea, All right reserved. 53

7.2 Diagnostic and Agreement Statistics (5)

53

양성예측도(Predictive value of positive test)

– 검사방법으로 양성으로 나왔을 때 질병이 존재할 확률로 다음과 같은 식으로 계산된다.

양성예측도 =

– 양성예측도가 0.9라는 의미는 이 검사가 양성으로 나오면 정밀 검사 결과가 그 질병으로 나올 확률이 90%라는 의미하며, 질병의

Screening Test의 능력을 평가하는데 유용하다.

음성예측도(Predictive value of negative test)

– 검사방법으로 음성으로 나왔을 때 병이 존재하지 않을 확률로 다음과 같은 식으로 계산된다.

음성예측도 =

– 음성예측도가 0.9라는 의미는 이 검사가 음성으로 나오면 정밀 검사가 그 질병이 존재하지 않을 확률이 90%라는 의미이며,

모집단에서 유병률이 높은 질환을 평가할 때 중요한 척도가 된다.

각종 지수

FPTP

TP

FNTN

TN

Page 54: SPSS Inrto training

Copyright 2012, SPSS Korea, All right reserved. 54

7.2 Diagnostic and Agreement Statistics (6)

54

각종 지수

실제질환비율

양성진단비율

양성우연검사의 예측값(predicted value of a positive random test)

음성우연검사의 예측값(predicted value of a negative random test)

위양성율(false positive rate)

위음성율(false negative rate)

교차비 (odds ratio)

Haldane 교차비

Total

FNTP

Total

FPTP

특이도

1TNFP

FP

민감도

1FNTP

FN

FNFP

TNTPTNFPFNTP

*

*)/)(/(

))5.0/()5.0((

))5.0/()5.0((

TNFP

FNTP

실제질환비율1

실제질환비율

Page 55: SPSS Inrto training

Copyright 2012, SPSS Korea, All right reserved. 55

7.2 Diagnostic and Agreement Statistics (7)

55

각종 지수

카파(Kappa) 통계량

양성일치도(Positive agreement)

음성일치도(Negative agreement)

Byrt 편향지수(Bias Index)

Byrt 분포비대칭지수(Prevalence Asymmetry Index)

편향수정 카파(Bias Adjusted Kappa)

)*2(

*2

FNFPTP

TP

)1/()( 기회일치도기회일치도관찰일치도

Total

TNTP )( 관찰일치도

) ,)(1)(1( 양성진단비율실제질환비율기회일치도

)*2(

*2

FNFPTP

TN

Total

FPFN )(

Total

TPTN )(

2

22

2

22

))()(())()((25.01

))()(())()((25.0

Total

TNFNTNFPFPTPFNTP

Total

TNFNTNFPFPTPFNTP관찰일치도

Page 56: SPSS Inrto training

Copyright 2012, SPSS Korea, All right reserved. 56

7.2 Diagnostic and Agreement Statistics (8)

56

각종 지수

분포 및 편향수정 카파 (prevalence and bias adjusted kappa)

민감도의 품질지수 (quality index of sensitivity)

특이도의 품질지수 (quality index of specificity)

)()1( 22 편향지수분포비대칭지수 kappakappa

)1/()( 양성진단비율양성진단비율민감도

양성진단비율양성진단비율특이도 /))1((

Page 57: SPSS Inrto training

4. 교차표 출력

Copyright 2012, SPSS Korea, All right reserved. 57

1. 데이터 : tuberculosis.sav 2. 교차표 작성

Xray : x선 판정

(positive, negative)

Tuberculosis : 결핵유무

(positive, negative)

7.2 Diagnostic and Agreement Statistics (9)

다음은 흉부X-ray 정보를 이용한 결핵진단 자료이다. 다음 자료를 이용하여 다양한 통계량을 추출하여라.

(tuberculosis.SAV) 예제

3. 교차표 작성 – SPSS 대화상자

Page 58: SPSS Inrto training

8. 평점자 간 일치도 통계량 / 기타 지수 및 검정 옵션 대화상자

Copyright 2012, SPSS Korea, All right reserved. 58

5. Diagnostic & Agreement Statistics 프로시저 6. Diagnostic & Agreement Statistics 대화상자

7.2 Diagnostic and Agreement Statistics (10)

7. 진단 검정 통계량 옵션 대화상자

Page 59: SPSS Inrto training

59

9. 결과 출력 – 진단 검정 통계량

Copyright 2012, SPSS Korea, All right reserved.

7.2 Diagnostic and Agreement Statistics (11)

민감도 : 실제로 질병이 있는 대상에서, 검사를 통해 양성으로

진단하는 가능성 ☞ 22 / 30 = 0.733

특이도 : 실제로 질병이 없는 대상에서, 검사를 통해 음성으로

진단하는 가능성 ☞ 1739 / 1790 = 0.972

정분류율 : 검사 결과가 정확하게 나올 가능성 즉, 질병이 있을 때

검사 결과가 ‘양성’으로 나오거나 질병이 없을 때 검사 결과가

‘음성’으로 나오는 경우 ☞ (22 + 1739) / 1820 = 0.968

Youdend의 J지수 : 연속형 변수의 진단 검정 Cut-off를 결정하는 데

사용되는 지수 ☞ (0.733 + 0.972) – 1 = 0.705

10. 결과 출력 – 일치도 통계량 및 기타 통계량

카파통계량 : 일치도 통계량을 나타내는 대표적인 통계량으로, 그

진단 결과가 얼마나 일치하는지를 측정하며 1에 가까울수록

완벽하게 일치함을 나타낸다.

Dice 지수 : 대상물 간의 비교하고자 하는 두 대상을 표현하고 있는

속성간의 일치 정도를 측정하는 연관계수 중 하나이다.

Page 60: SPSS Inrto training

Copyright 2012, SPSS Korea, All right reserved. 60

기본 정의

– Cochran-Armitage Trend Test는 Armitage(1955)와 Cochran(1954)이 개발한 범주형 검정 방법의 하나로, 2 x I 교차표 형태로

되어진 자료에서 사용하는 검정법으로, 일반적인 카이제곱 검정의 경우 방향성(순서형)을 전혀 고려하지 않고, 단순

동일성/동질성 검정을 하는데 반해 Cochran-Armitage Trend Test는 일정한 순서와 방향성이 고려된 검정법이다.

– 용량 수준에 따라서 병변 발생률의 증가 추세를 검정하는 기법으로 이 때 조심할 것은 증가추세는 단순선형, 즉

일차 직선 형태로 증가하느냐를 보는 것이므로 증가형태가 선형이 아닌 경우 찾아내지 못할 수 있다.

– I개의 집단 간에 병변 발생률을 비교하게 되면 I×2 교차표 분석을 하게 되는데 이 때, I개의 집단이 용량 수준(dose level)에

의해 결정된 경우에는 단순한 비교보다는 용량 수준과 발생률 사이의 관계에 관심이 있다.

– 의학 실험 / 약학 실험 / 동물 생태 실험 등의 자료에서 많이 활용되는 기법이다.

7.3 Cochran-Armitage Trend Test (1)

Page 61: SPSS Inrto training

Copyright 2012, SPSS Korea, All right reserved. 61

Cochran-Armitage Trend Test 자료 구조

① 를 번째 용량수준이라고 하고 개의 level은

② 를 번째 용량수준에서 실험을 하는 동물의 수

③ 를 번째 용량 수준에서 실험할 동물의 부검에서 나타난 병변 동물의 수

④ 는 로서 번째 용량수준에서의 병변 발생률

) ,,2 ,1( Iidi I Iddd 21i

in i

iy i

ipi

i

n

yi

Dose Level 실험 투입 동물 수 병변 발생 수 병변 발생 률

In

n

n

2

1

Id

d

d

2

1

Iy

y

y

2

1

Ip

p

p

2

1

7.3 Cochran-Armitage Trend Test (2)

Page 62: SPSS Inrto training

Copyright 2012, SPSS Korea, All right reserved. 62

가설 설정

7.3 Cochran-Armitage Trend Test (3)

– 귀무가설 : 용량 수준에 따라서 병변 발생률이 변하지 않는다.

– 대립가설 : 용량 수준에 따라서 병변 발생률이 증가한다.

i

i

ii

ii

iiii

CAn

yp

n

nnpq

npyZ , N(0,1) ~

2

2

검정 통계량

– 두 변수간 선형 관계를 알아보기 위해서는 단순 선형 회귀 모형을 적용하지만 이 경우에는 각 용량 수준에 투입된 실험 동물의

수가 다를 수 있기 때문에 일반적으로 알려진 최소제곱법이 아닌 가중 최소제곱법을 적용한다.

– Agresti(2002)는 2×I 교차표에서, I가 순서형 데이터인 경우 CA Test의 검정통계량은 LLA(Linear-by-Linear Association - 선형 대

선형결합)의 검정통계량과 거의 동일하다. 단, LLA 검정통계량의 경우 상관계수의 제곱값에 (전체 데이터수-1)을 곱하여

검정통계량을 계산하지만, Cochran-Armitage Trend Test의 경우 (전체 데이터수)를 곱하여 계산한다.

– 즉, LLA 검정통계량에 (전체 데이터수)/(전체 데이터수 -1)을 곱해주면 Cochran-Armitage Trend Test 검정 통계량이 계산된다.

Page 63: SPSS Inrto training

Copyright 2012, SPSS Korea, All right reserved. 63

예제

7.3 Cochran-Armitage Trend Test (4)

– 아래의 표는 행 범주가 약(drug) 용량의 low(1), middle(2), high(3) 수준이고, 열 범주가 그에 따른 의학적 변화인 호전(1),

비호전(2)으로 나타낸 자료이다. Cochran-Armitage Trend Test를 통해서, 투약 강도에 따른 의학적 치료 변화가 있는지 검정을

수행한다.

① 위의 표에서 보면, Very Little 용량 수준을 투여한 12명의 환자 중에서 Improved인 사람이 1명, Not Improved인 사람이

11명으로 해당 용량 수준에서 Improved인 사람의 비율은 약 0.08 정도임을 알 수 있다.

② 비율 정보를 보면, 용량 수준을 높일수록 의학적 변화가 호전됨을 알 수 있다. (0.08 →0.39) Cochran-Armitage Trend Test는

실제로 이 부분이 통계적으로 유의한지 확인해 보는 것이다.

③ 전체 데이터 수(N)는 196개이다.

용량 수준(dose) 의학적 변화(response) 비율

Improved Not Improved (=Improved /

(Improved + Not Improved))

Very Little 1 11 0.08

Little 13 53 0.2

Moderate 16 42 0.28

Large 15 27 0.36

Very Large 7 11 0.39

Sum 52 144

Page 64: SPSS Inrto training

64

1. 데이터 구조

5개의 범주를 가지는 투약 강도(dose) 변수와 2개의 범주를

가지는 반응(response) 변수 사이의 선형 증가 추세를 검정한다.

count는 각 행과 열로 교차된 셀에 따른 빈도를 나타낸다.

Copyright 2012, SPSS Korea, All right reserved.

7.3 Cochran-Armitage Trend Test (5)

투약 강도에 따른 호전 변화 데이터를 기준으로 Cochran-Armitage Trend Test를 수행하여라.

(CA Trend Test.SAV)

예제

2. 프로시저

[KoreaPlus] → [Medical Analysis] → [Cochran-Armitage

Trend Test]

Page 65: SPSS Inrto training

65

3. Cochran-Armitage Trend Test 주 대화상자

행(K개 범주) : 순서형 구조를 가진 dose 변수를 지정한다.

열(2개 범주) : 상태 변수인 response 변수를 지정한다.

가중케이스 : 단일 케이스들이 각 행과 열에 따른 관측값의

수를 의미하는 데이터 구조일 경우, 가중케이스에 해당 빈도

변수를 지정한다.

각 해당 변수를 지정하고 ‘확인’을 클릭한다.

4. 출력 결과

Cochran-Armitage 검정통계량 값은 6.67이며, 유의확률은

0.01로 유의수준 0.05 하에서 귀무가설을 기각하여 투약

강도가 강해지면 점점 증상이 호전된다.

Pearson 카이제곱 검정 결과, 유의확률은 0.142로 유의수준

0.05하에서 귀무가설을 채택하여 투약 강도에 따른 의학적

반응 정도는 차이가 없음을 알 수 있다.

※ 비교 !!

Copyright 2012, SPSS Korea, All right reserved.

7.3 Cochran-Armitage Trend Test (6)

Page 66: SPSS Inrto training

66 Copyright 2012, SPSS Korea, All right reserved.

7.4 Rank ANCOVA (Quade’s) Test (1)

Rank ANCOVA Test 정의

– 순위 공분산분석(Rank Analysis Of Covariance)은 공변량을 고려하여 k개의 처리 간 차이가 통계적으로 유의한지 검정하는

비모수적 분석 기법이다.

입력 데이터의 형태 비모수적 분석법 모수적 분석법

2개의

수치형

변수간의

상관관계

두 변수 모두 순위 변수일 경우 스피어만 순위 상관계수

피어슨 상관계수

한 변수는 수치형

다른 한 변수는 이산적 이분형 Point-Biserial 상관계수

한 변수는 수치형

다른 한 변수는 연속적 이분형 Biserial 상관계수

2개의 범주형 변수간의 상관관계 카이제곱 검정 없음

2 수준 집단의 평균 비교 Mann-Whitney U-test T검정

3 수준 이상 집단의 평균 비교 Kruskal-Wallis H-test ANOVA

잠재변수에 영향을 받는 종속변수의 집단간 평균 비교 Rank ANCOVA(Quade’s Test) ANCOVA

입력 데이터 형태에 따른 모수적 / 비모수적 분석표

가설 수립

– 귀무가설 (H0) : 특정변수를 통제함에 따라 독립변수(인자)에 따라 종속변수(특성값)는 같다.

– 대립가설 (H1) : 특정변수를 통제함에 따라 독립변수에 따라 종속변수는 적어도 하나는 다르다.

Page 67: SPSS Inrto training

67 Copyright 2012, SPSS Korea, All right reserved.

7.4 Rank ANCOVA (Quade’s) Test (2)

Rank ANCOVA Test 절차

– k개의 처리를 비교하기 위해 각 처리당 독립적인 크기 nj (j = 1, … ,k)의 반응 자료를 획득하여 반응값 자료 전체를 yij (i = 1,

… ,k) 로 표시한다. 처리 j내 반복 처리 i의 개체

– Rank ANCOVA Test의 절차는 다음과 같다. 이 때, xij는 개체 (i,j)의 공변량을 의미한다.

① 반응값 자료 {yij}를 순위화한다. 그 결과를 {rij}로 표시한다.

② 공변량값 자료 {xij}를 순위화한다. 그 결과를 {cij}로 표시한다.

③ r(=rij) 을 c(=cij) 에 회귀시켜 잔차 z(=zij) 를 구한다.

④ 잔차 자료 {zij}에 대하여 일원분산분석을 적용하여 k 개 처리의 중심 간 차이가 유의한지를 검정한다.

– Rank ANCOVA Test는 공변량이 2개 이상인 경우로도 확장 가능하다.

Page 68: SPSS Inrto training

68 Copyright 2012, SPSS Korea, All right reserved.

7.4 Rank ANCOVA (Quade’s) Test (3)

초음파 소견에 따른 정상 및 지방간으로 분류한 23,762명의 대상자를 기준으로 연령과 콜레스테롤 수치를 각각

조사하였다. 지방간 유무 판정에 따라 실제 콜레스테롤의 유의성 검정을 실행해보자. (콜레스테롤.SAV) 예제

2. SPSS 프로시저 1. 데이터 설명

3. SPSS 대화상자

콜레스테롤.SAV

전체 23,762개의 케이스, 3개 필드

연령 (연속형 필드)

콜레스테롤 (연속형 필드)

초음파소견 (2개의 범주형 필드, 정상/지방간)

Page 69: SPSS Inrto training

69

4. 출력 결과

Copyright 2012, SPSS Korea, All right reserved.

연령 효과를 제거하고 지방간이 있는 환자와 그렇지 않은

환자의 콜레스테롤 수치를 비교하여 본 결과 초음파 소견의

유의확률이 0.000 < 0.05이므로 콜레스테롤 수치에 유의한

차이가 있다고 할 수 있다.

정상 그룹과 지방간 그룹의 콜레스테롤 수치의 Rank 평균을

보면 지방간이 더 높음을 확인할 수 있다.

7.4 Rank ANCOVA (Quade’s) Test (4)

Page 70: SPSS Inrto training

Q & A

70 Copyright 2012, SPSS Korea, All right reserved.