main result
DESCRIPTION
Main resultTRANSCRIPT
흐름개요꼭 알아야 확률통계이론
실습
R을 이용한 보건학 통계분석 : 단변량,다변량분석
2주차 : Table2 및 main result
김진섭
서울대학교 보건대학원 예방의학교실 전임의, 유전체역학교실 박사과정
March 11, 2014
김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석
흐름개요꼭 알아야 확률통계이론
실습
목차
1 흐름개요
2 꼭 알아야 확률통계이론
Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법
분석결과에서 눈여겨 볼 수치
3 실습
김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석
흐름개요꼭 알아야 확률통계이론
실습
생각의 단순화
Y가 연속형?
1 진짜 연속 VS 가짜연속(Count data)
2 연속: 정규분포!!!!!! → 일반 회귀분석3 Count: 발생 수, 자녀 수 etc.. : 포아송, 감마, 음이항등..(생략)
Y가 범주형?
1 2범주 VS 3범주이상
2 2범주 : 로지스틱
3 3범주이상 : 프로빗 등..(생략)
김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석
흐름개요꼭 알아야 확률통계이론
실습
단변량 VS 다변량
단변량(univariate) VS 다변량(multivariate)
1 Association 얼마나 있느냐
1 다른 것의 효과를 보정한 후에도 Association이 있는가?
김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석
흐름개요꼭 알아야 확률통계이론
실습
Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치
객관적 VS 주관적 확률
주사위를 던져 1이 나올 확률
1 객관적: 확률은 정확한 숫자로 존재하고 그것을 추정한다.
2 주관적: 알수 없다, 믿음을 계속 업데이트할 수 밖에..
주사위를 던져 1이 나올 확률에 대한 접근법
1 객관적: 계속 던져봐서 추정해보니 확률은 1/6인 듯 하다.
2 주관적: 1/6일 것 같은데, 계속 던져보니 1/6이 맞는 것같네..
김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석
흐름개요꼭 알아야 확률통계이론
실습
Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치
Homo bayesianis
Figure : Fun example of bayesian
김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석
흐름개요꼭 알아야 확률통계이론
실습
Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치
Frequentist의 논쟁법
상대방: 신약이랑 기존 약이랑 혈압강하효과가 차이가 없는 것같은데..나: 뭐? 신약이랑 기존 약이랑 차이가 0이라고?? 차이가 0이라고 치자. 그러면 어쩌구저쩌구.. 이 데이터의 상황이 나올가능성이 거의 없는데(5%미만인데)? 그니까 넌 틀렸어.
1 차이가 0이라고 말한 사람은 없다. 가상의적을 난타.
2 상대방의 주장을 최대한 좁게 해석하여 반박.
3 얍삽하다.
김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석
흐름개요꼭 알아야 확률통계이론
실습
Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치
Bayesian의 논쟁법
상대방: 신약이랑 기존 약이랑 혈압강하효과가 차이가 없는 것같은데.. N(0, 1)분포를 따르지 않을까?나: 차이가 N(0, 1)을 따른다고 가정하자. 가정에 따르면 이데이터의 상황이 주어졌을 때, 차이의 조건부확률을계산해보니 N(5, 1.2)를 따르는데?
1 사전믿음에 대한 분포를 가정: Prior
2 데이터가 주는 정보: Likelihood
3 믿음과 데이터의 정보를 종합 : Posterior- 이걸로 해석.
김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석
흐름개요꼭 알아야 확률통계이론
실습
Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치
Probability랑 차이점.
가능도
Figure : Likelihood김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석
흐름개요꼭 알아야 확률통계이론
실습
Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치
Maximum likelihood estimator(MLE)
최대가능도추정량: ε1, · · · , εn이 서로 독립이라하자.
1 각각의 가능도 함수를 구한다.
2 가능도를 전부 곱하면 전체 사건의 가능도 (독립이니까)
3 가능도를 최대로 하는 β를 구한다.
김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석
흐름개요꼭 알아야 확률통계이론
실습
Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치
같은 통계분석들
성별에 따른 혈압차이
1 T-test와 ANOVA, simple regression은 같은 통계분석이다.
혈압과 나이와의 관계
1 correlation과 simple regression은 같은 분석.
김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석
흐름개요꼭 알아야 확률통계이론
실습
Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치
Least Square(최소제곱법)
제곱합을 최소로: y 정규성에 대한 가정 필요없다.
Figure : Least square method
김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석
흐름개요꼭 알아야 확률통계이론
실습
Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치
MLE: 최대가능도추정량
데이터가 일어날 가능성을 최대로: y또는 ε 분포가정필요.
김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석
흐름개요꼭 알아야 확률통계이론
실습
Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치
Why know?
1 Multilevel 분석의 이해를 위해.
2 OLS → GLS → GEE : semi-parametric
3 MLE → LMM → GLMM : parametric
김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석
흐름개요꼭 알아야 확률통계이론
실습
Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치
LRT? Ward? score?
Likelihood Ratio Test VS Ward test VS score test
1 통계적 유의성 판단하는 방법들.
2 가능도비교 VS 베타값비교 VS 기울기비교/
김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석
흐름개요꼭 알아야 확률통계이론
실습
Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치
비교
Figure : Comparion
김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석
흐름개요꼭 알아야 확률통계이론
실습
Frequentist VS BayesianLikelihood회귀분석의 두가지 추정법분석결과에서 눈여겨 볼 수치
AIC
우리가 구한 모형의 가능도를 L이라 하면.
1 AIC = −2× log(L) + 2× k
2 k: 설명변수의 갯수(성별, 나이, 연봉...)
3 작을수록 좋은 모형!!!
가능도가 큰 모형을 고르겠지만.. 설명변수 너무 많으면페널티!!!
김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석
흐름개요꼭 알아야 확률통계이론
실습
1 Main table에 단변량분석결과 같이 볼 수 있도록..
2 epicalc 패키지가 이것을 가능하게 해준다.
3 Week2.R ㄱㄱ.
김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석
흐름개요꼭 알아야 확률통계이론
실습
END
Email : [email protected]: (02)880-2473H.P: 010-9192-5385
김진섭 R을 이용한 보건학 통계분석 : 단변량, 다변량분석