main result

19
P - LD| U˜t RDt'\ tY ˜ : L, 2ü( : Table2 main result @˜- YP tY)XYP X, ·YP ü March 11, 2014 @˜- RDt'\ tY ˜ : L,

Upload: jinseob-kim

Post on 01-Jul-2015

113 views

Category:

Data & Analytics


1 download

DESCRIPTION

Main result

TRANSCRIPT

Page 1: Main result

흐름개요꼭 알아야 확률통계이론

실습

R을 이용한 보건학 통계분석 : 단변량,다변량분석

2주차 : Table2 및 main result

김진섭

서울대학교 보건대학원 예방의학교실 전임의, 유전체역학교실 박사과정

March 11, 2014

김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석

Page 2: Main result

흐름개요꼭 알아야 확률통계이론

실습

목차

1 흐름개요

2 꼭 알아야 확률통계이론

Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법

분석결과에서 눈여겨 볼 수치

3 실습

김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석

Page 3: Main result

흐름개요꼭 알아야 확률통계이론

실습

생각의 단순화

Y가 연속형?

1 진짜 연속 VS 가짜연속(Count data)

2 연속: 정규분포!!!!!! → 일반 회귀분석3 Count: 발생 수, 자녀 수 etc.. : 포아송, 감마, 음이항등..(생략)

Y가 범주형?

1 2범주 VS 3범주이상

2 2범주 : 로지스틱

3 3범주이상 : 프로빗 등..(생략)

김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석

Page 4: Main result

흐름개요꼭 알아야 확률통계이론

실습

단변량 VS 다변량

단변량(univariate) VS 다변량(multivariate)

1 Association 얼마나 있느냐

1 다른 것의 효과를 보정한 후에도 Association이 있는가?

김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석

Page 5: Main result

흐름개요꼭 알아야 확률통계이론

실습

Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치

객관적 VS 주관적 확률

주사위를 던져 1이 나올 확률

1 객관적: 확률은 정확한 숫자로 존재하고 그것을 추정한다.

2 주관적: 알수 없다, 믿음을 계속 업데이트할 수 밖에..

주사위를 던져 1이 나올 확률에 대한 접근법

1 객관적: 계속 던져봐서 추정해보니 확률은 1/6인 듯 하다.

2 주관적: 1/6일 것 같은데, 계속 던져보니 1/6이 맞는 것같네..

김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석

Page 6: Main result

흐름개요꼭 알아야 확률통계이론

실습

Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치

Homo bayesianis

Figure : Fun example of bayesian

김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석

Page 7: Main result

흐름개요꼭 알아야 확률통계이론

실습

Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치

Frequentist의 논쟁법

상대방: 신약이랑 기존 약이랑 혈압강하효과가 차이가 없는 것같은데..나: 뭐? 신약이랑 기존 약이랑 차이가 0이라고?? 차이가 0이라고 치자. 그러면 어쩌구저쩌구.. 이 데이터의 상황이 나올가능성이 거의 없는데(5%미만인데)? 그니까 넌 틀렸어.

1 차이가 0이라고 말한 사람은 없다. 가상의적을 난타.

2 상대방의 주장을 최대한 좁게 해석하여 반박.

3 얍삽하다.

김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석

Page 8: Main result

흐름개요꼭 알아야 확률통계이론

실습

Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치

Bayesian의 논쟁법

상대방: 신약이랑 기존 약이랑 혈압강하효과가 차이가 없는 것같은데.. N(0, 1)분포를 따르지 않을까?나: 차이가 N(0, 1)을 따른다고 가정하자. 가정에 따르면 이데이터의 상황이 주어졌을 때, 차이의 조건부확률을계산해보니 N(5, 1.2)를 따르는데?

1 사전믿음에 대한 분포를 가정: Prior

2 데이터가 주는 정보: Likelihood

3 믿음과 데이터의 정보를 종합 : Posterior- 이걸로 해석.

김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석

Page 9: Main result

흐름개요꼭 알아야 확률통계이론

실습

Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치

Probability랑 차이점.

가능도

Figure : Likelihood김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석

Page 10: Main result

흐름개요꼭 알아야 확률통계이론

실습

Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치

Maximum likelihood estimator(MLE)

최대가능도추정량: ε1, · · · , εn이 서로 독립이라하자.

1 각각의 가능도 함수를 구한다.

2 가능도를 전부 곱하면 전체 사건의 가능도 (독립이니까)

3 가능도를 최대로 하는 β를 구한다.

김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석

Page 11: Main result

흐름개요꼭 알아야 확률통계이론

실습

Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치

같은 통계분석들

성별에 따른 혈압차이

1 T-test와 ANOVA, simple regression은 같은 통계분석이다.

혈압과 나이와의 관계

1 correlation과 simple regression은 같은 분석.

김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석

Page 12: Main result

흐름개요꼭 알아야 확률통계이론

실습

Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치

Least Square(최소제곱법)

제곱합을 최소로: y 정규성에 대한 가정 필요없다.

Figure : Least square method

김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석

Page 13: Main result

흐름개요꼭 알아야 확률통계이론

실습

Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치

MLE: 최대가능도추정량

데이터가 일어날 가능성을 최대로: y또는 ε 분포가정필요.

김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석

Page 14: Main result

흐름개요꼭 알아야 확률통계이론

실습

Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치

Why know?

1 Multilevel 분석의 이해를 위해.

2 OLS → GLS → GEE : semi-parametric

3 MLE → LMM → GLMM : parametric

김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석

Page 15: Main result

흐름개요꼭 알아야 확률통계이론

실습

Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치

LRT? Ward? score?

Likelihood Ratio Test VS Ward test VS score test

1 통계적 유의성 판단하는 방법들.

2 가능도비교 VS 베타값비교 VS 기울기비교/

김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석

Page 16: Main result

흐름개요꼭 알아야 확률통계이론

실습

Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치

비교

Figure : Comparion

김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석

Page 17: Main result

흐름개요꼭 알아야 확률통계이론

실습

Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치

AIC

우리가 구한 모형의 가능도를 L이라 하면.

1 AIC = −2× log(L) + 2× k

2 k: 설명변수의 갯수(성별, 나이, 연봉...)

3 작을수록 좋은 모형!!!

가능도가 큰 모형을 고르겠지만.. 설명변수 너무 많으면페널티!!!

김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석

Page 18: Main result

흐름개요꼭 알아야 확률통계이론

실습

1 Main table에 단변량분석결과 같이 볼 수 있도록..

2 epicalc 패키지가 이것을 가능하게 해준다.

3 Week2.R ㄱㄱ.

김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석

Page 19: Main result

흐름개요꼭 알아야 확률통계이론

실습

END

Email : [email protected]: (02)880-2473H.P: 010-9192-5385

김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석