유전통계학의 오늘과 내일(고려대학교 특강)
DESCRIPTION
2009년 11월 19일 고려대학교 특강 자료TRANSCRIPT
유전통계학의 오늘과 내일
양 우성StaGen Co., Ltd
유전통계분석사업부
“Genetics is the science of
heredity and variation in living organisms.”
Wikipedia (http://en.wikipedia.org/wiki/Genetics)
염색체와 유전체 정보
4
DOE Human Genome Project (http://genomics.energy.gov)
Text
National Human Genome Research Institute
centromere
telomere
telomere
James Watson and Francis Crick (1953)
http://en.wikipedia.org/wiki/Central_dogma_of_molecular_biology
Central Dogma
Genome = Gene + Ome
Genome = Whole DNA
Genome = Whole DNA
Human Genome Project
1990 년 휴먼게놈프로젝트 시작
2000 년 DNA 염기서열 중 97% 해독
2003 년 99.99% 정확도의 인간유전체지도 완성
Database : GenBank
(http://www.ncbi.nlm.nih.gov/Genbank/)
세포분열과 유전정보의 계승
체세포 분열Mitosis
http://www.biology.iupui.edu/biocourses/N100/2k4ch8mitosisnotes.html
생식세포 분열 Meiosis- 1st stage
http://www.biology.iupui.edu/biocourses/n100/2k4ch9meiosisnotes.html
생식세포 분열 Meiosis- 2nd stage
( 유전자좌 )( 우성 대립형질 )
( 열성 대립형질 )
( 유전자형 )
http://biology200.gsu.edu/houghton/2107%20%2709/lecture15.html
교차와 재조합Crossover & Recombination
재조합 비율Recombination fraction
재조합 O재조합 X
1
1-θ 재조합비율: θ
or or
생식체 (gamete) 생식체 (gamete)
상동염색체
0 5.0
2 loci 사이의 거리가 가까우면 재조합비율은 0 에 가까워짐
2 loci 사이의 거리가 멀면 재조합비율은 0.5 에 가까워짐
재조합비율과 거리Recombination fraction & Distance
1(1 2) (1 1)2
1 2
L1 L2 L3
재조합비율과 거리Recombination fraction & Distance
유전적 거리 (Genetic distance)
정의 : 2 개의 유전자좌 사이의 교차횟수의 기대치
단위 : M (morgan)
1M 은 “ 1 회의 생식세포분열에서 1 회의 교차가 일어나는 거리”
사람의 전 염색체에 대한 유전적 거리
남성 : 약 28M, 여성 : 약 43M
물리적 거리 (Physical distance)정의 : 염기배열의 수
단위 : bp (base pair)
사람의 전 유전체에 대한 물리적 거리 : 3x109 bp
재조합비율 (θ) 과 유전적 거리 (x) 의 관계
x 1
2log(1 2)
1
21 exp( 2x)
Haldane’s map function
0 2 4 6 8 10
0.0
0.1
0.2
0.3
0.4
0.5
Haldane's map function
number of crossover
reco
mb
ina
tion
fra
ctio
n
유전통계학의 역사
생물계측학파(다양성 , 연속형자료)
멘델학파(유전 , 이산형자료)
Galton, Pearson,Weldon Bateson, Johannsen
Modern synthesis
Fisher, Wright
다윈의 진화론( Darwin,1859 ) 멘델의 법칙( Mendel, 1865 )
평균신장
부모의 평균키
자식
의 키
Francis Galton (1822 ~1911)
E( 자식의 키 ) = a × 부모의 평균키 + b
Karl Pearson (1857 ~1936)
• 피어슨의 상관계수• 피어슨의 Chi-square 검정• 적률 & 적률생성함수• 분포함수 & 확률밀도함수
• Biometrika, Ann Hum Gene 의 창간인
Gregor Johann Mendel (1822 ~1884)
Laws of inheritance,1866
1900 년 de Vries, Correns, Tschermak 멘델법칙의 재발견
K. Pearson
Weldon
BatesonGenetics(1905)
JohannsenGene (1909)
생물계측학파 멘델학파
다양성은 연속형 생물계측학은 실험결과와 불일치
Battle Round 1
K. Pearson R.A. Fisher
멘델의 법칙은 참이다 !증명없는 법칙은 없다 !
Battle Round 2
1. 다윈의 진화론2. 멘델의 유전계승법칙3. 돌연변이( mutation )4. 개체간의 다양성( variation ) : 생물계측학
Modern synthesis
• 우도( likelihood )의 개념 , 최우법에 의한 추정 검정의 이론을 완성 → Linkage analysis
• 가설검정 이론 도입• 랜덤화의 중요성 강조• 피셔의 exact 검정• 실험계획법
R.A Fisher (1890~1962)
Additive polygene model
이산과 연속의 문제를 통합
The correlation between relatives on the supposition of Mendelian inheritance. Trans. Roy. Soc, Edinb, 1918
Neyman-Pearson’s lemmaAlternative hypothesisThe most powerful testConfidence interval
Only null hypothesisFiducial interval
Battle Round 3
E. Pearson
J. Neyman
R.A. Fisher
잘못된 유전학
우생학( eugenics )
유전적으로 뒤떨어진 개인을 배제- Galton , K. Pearson, R.A Fisher- Adolf Hitler (1931)
“ 유전적 결함이 있는 자손 억제를 위한 법”
Lysenko 주의
스탈린 시대유전적으로는 모두 평등하며 , 노력에 의해 형질은 변화
유전계승법칙
Variation
유전체의 0.1% 가
개인의 차이를 결정
다형성의 종류Polymorphism
• SNP (Single-nucleotide polymorphism)
• STRP (short tandem repeat polymorphism, Microsatellite)
• VNTR(variable number of tandem repeat)
• Insertion / Deletion
SNP
… . AT T C C G ATATATAT … .
… . AT T C C G ATATATATATATAT … . STRP
STRP : 2~5 염기의 반복
VNTR : 6~ 염기의 반복
STRP 와 VNTR
deletion
… . A T T C C G G T A C T A C T … .
… . A T T C C G G G T A C T A C T … .
insertion
삽입과 삭제Insertion/Deletion
( 유전자좌 )( 우성 대립형질 )
( 열성 대립형질 )
( 유전자형 )
게놈 관련 연구의 대상물
유전형질( trait )유전자형으로 인해 발생하는 결과의 공간
병의 발병유무 검사치
발병 비발병 2.1 6.4 9.7
질적형질( qualitative trait ) 양적형질( quantitative trait )
표현형( phenotype )
분리의 법칙 우열의 법칙 독립의 법칙
연쇄의 법칙
유전자형A/a A a
B b
A or a B or b
A or a
멘델의 법칙
A a
B b
질적표현형(qualitative phenotype)
유전 계승의 법칙 = 멘델의 법칙
+ 연쇄의 법칙
우열의 법칙Mendel's law of dominance (1st law)
AA
P(D=+|Aa)=q+Aa
P(D=+|AA)=q+AA
P(D=+|aa)=q+aa
Aa
aa
질적표현형( qualitative phenotype )
양적표현형( quantitative phenotype )
AA or Aa aa
XAA~N(μ1,σ12)
XAa~N(μ1,σ12)
Xaa~N(μ2,σ22)
유전계승양식mode of inheritance
대립형질 A 에 대해 우성
AAAa
aa
대립형질 A 에 대해 열성
AA Aaaa
유전자형
AA aaAa
유전자형( genotype )
열성( recessive )우성( dominant )
침투율penetrance
완전침투 불완전침투
AA
발병
Aa aa
비발병 발병 비발병
AA Aa aa
10%
90%
50%
50%10%
90%
100% 100% 100%
분리의 법칙 Mendel‘s law of segregation (2nd law)
유전자형A/a
A or a
P(A)=P(a)=1/2
독립의 법칙Mendel's law of independent assortment (3rd law)
유전자형A/a B/b
AB, Ab, aB, ab
A a
B b
A or a
B or b
4
1)()()(,
4
1)()()(
,4
1)()()(,
4
1)()()(
bPaPabPBPaPaBP
bPAPAbPBPAPABP
연쇄 ( 독립 법칙의 예외 )linkage
)()|(
,4
1)()()(
APBAP
BPAPABP
재조합 비율recombination fraction
연사와 재조합
2
1
)1(2
1
)1(2
1
2
1
유전자좌 1
유전자좌 2
돌연변이 Mutation
젬라인 돌연변이 (Germline mutation)• 정의 : 다음 세대에 전달되는 변화를 일으키는 돌연변이
• 발생장소 : 생식체 ( 정자 , 난자 ), 수정란 , 생식기생성 이전의 배아세포
• 선천성 질환의 원인 , 진화와 관련
체세포 돌연변이 (Somatic mutation)• 정의 : 젬라인 세포 이외의 세포에서 일어나는 유전자의 변화
• 다음 세대에 전달되지 않음
• 발암과정과 밀접한 관계
다운 증후군Down’s syndrome
Trisomy 21
산모연령
American Family Physician: Aug 15, 2000
집단과 유전적 다형성
분석대상 집단
가계정보를 가진 집단 가계정보가 없는 집단
통원환자 PMS
가계정보가 있는 집단
가계의 상세한 정보를 알 수 있다면연쇄분석 (linkage analysis) 에 의해 정확한 분석이 가능
Marker locus
연쇄분석 (linkage analysis)
거리 ( 재조합비율 ) 을 추정
질환관련 유전자좌Marker locus
관측 유전자좌의 유전자형과 표현형
가계정보
질환관련 유전자좌는 2 개의 대립형질 A, N 을 가지고 , 대립형질A 에 대해 완전 우성 , 완전침투율을 가짐
.0)/|1(
,1)/|1()/|1(
NNDP
NADPAADP
가정
모수적 연쇄분석Parametric linkage analysis
재조합 비율 (θ)= 0.5 재조합 비율 (θ) < 0.5
귀무가설 대립가설
2
1
2
1 11
2
1
2
1 11
2
1
2
1 11
2
1
2
1 11
귀무가설의 우도
2
1)1( 1
2
1)1( 1
개체 1 의 diplotype 형: A-X/T-N 의 경우
2
1)1( 1
2
1 1
대립가설의 우도
2
1 1
2
1)1( 1
2
1)1( 1
2
1)1( 1
개체 1 의 diplotype 형: A-N/T-X 의 경우
3375.0-422.0log
21
)25.01(25.0log
21
)ˆ1(ˆ21
log
10
2
3
108
36
10
대립가설의 최대우도귀무가설의 우도
10logLOD
LOD(log of odds) Score
D16S499
D16S501
D16S3056
D16S410
#118
#238
D16S3041
D16S3036
#123
D16S773
D16S3046
D16S772
D16S3045
D16S412
D16S3113
D16S401
D16S3133
Map distance (cM)
LO
D s
core
D16S417
ac002302a4
ac002299a3
ac002299a4
D16S420
UMOD
D16S537
連鎖解析による Familial Juvenile Hyperuricemic Nephropathy (FJHN) 疾患関連座位の探索 ( 鎌谷直之 数学セミナー 517, 40, 2004)
66
Case-control study
Case group Control group
시간경과
수집
연구
방향
Cohort study
시간경과
수집
연구
방향
Intervention study
시간경과
임의화
개입
처리 A 처리 B
가계정보가 없는 집단
발병
비발병
TT+TA
AA
연관성의 강도 ( 코호트 연구 )
TT+TA
AA
+ +
유전자형 TT+TA 군의 침투율 유전자형 AA 군의 침투율
상대위험률 (relative risk)
발병
비발병
TT+TA
AA
Control group
Case group
Odds
Odds
오즈비(Odds ratio)
연관성의 강도 (Case-Control 연구 )
침투율은 알 수 없음
발병 비발병 합계
TT + TA
AA
계
상대위험률
오즈비
연관성 검정Test of association
Pearson’s chi-square testor
Fisher’s exact test
Hardy-Weinberg 평형법칙Law of Hardy-Weinberg Equilibrium
세대별 대립형질의 빈도 (p) 는일정
세대 t+1
세대 t=
=
random mating
)1()(
)(
paf
pAf
Hardy-Weinberg 평형법칙Law of Hardy-Weinberg Equilibrium
유전자형합계
AA Aa aa
41 38 21 100
Allele합계
A a
120 80 200
Allele합계
A a
0.6 0.4 1
유전자형합계
AA Aa aa
0.41 0.38
0.21
1
2
2
)1()(
)1(2)(
)(
paaf
ppAaf
pAAf
if then
HWE 법칙이 성립하지 않는 이유
Random Mating 가정의 불성립
근친혼
선택결혼 (assortative mating)
집단의 구조화
데이터의 이상 (Typing miss)
( 1 )우성 ( 2 )열성 ( 3 )유전자형
(4) Risk allele 의 수
유전계승양식의 가정
(5) allele 의 수
경향성 검정Cochran-Armigate test for trend
Balding (2006), Nat. Rev. Genet
양적형질의 경향성 검정
회귀분석
AA=0, Aa=1, aa=2 으로할 때 , 회귀계수가 0 인지 아닌지를 검정
비모수 검정
양적표현형에 정규분포를 가정
순위상관
Kendall’s tauSpearman 의 순위상관계수선형순위상관계수 등
대립형질 a 의 갯수
Balding (2006), Nat. Rev. Genet
Haplotype 과 연쇄불균형
haplotype and diplotype
A
C
T
G
G
T
A
C
T
G
G
T
Diplotype configuration아버지 유래의 haplotype : C-T-A어머니 유래의 haplotype : G-T-G
관측 유전자형C/G-T/T-A/G
SNP 에서 Haplotype 으로
n 명 2n 개의 haplotyp
e
연쇄불균형linkage disequilibrium
B b 계A
a
계 1
BAqp bAqp
Baqp baqp
Bq bqap
Ap제1
유전자좌
제 2 유전자좌
B b 계A
a
계 1
Dqp BA Dqp bA
Dqp Ba Dqp ba
Bq bqap
Ap
연쇄 균형 상태 연쇄 불균형 상태
제 2 유전자좌
제1 유전자좌
연쇄불균형계수 DCoefficient of linkage disequilibrium
DhhhhDqpDqp
DqpDqpaBAbabAB
baBa
bABA
연쇄불균형계수 D’
)1'0(
),min(),min(:'
D
qpqpDD baBA
)()()( YPXPYXPqphD AAAA
B b 계
A 0.6
0 0.6
a 0 0.4
0.4
계 0.6
0.4
1
B b 계
A 0.3
0.3
0.6
a 0 0.4
0.4
계 0.3
0.7
1
B b 계
A 0.18
0.42
0.6
a 0.12
0.28
0.4
계 0.3 0.7 1
절대 연쇄 불균형 완전 연쇄 불균형 연쇄 균형
절대 연쇄 불균형・완전 연쇄 불균형absolute LD & complete LD
연쇄 불균형 계수 r2
Haplotype 빈도의 상관계수
1st locus
2nd locus
A a
B
bB b 계
A hAB hAb pA
a haB hab pa
계 qB qb 1
제 1
유전자좌
제 2 유전자좌
각각의 대립형질을 등간격으로 좌표축에 나타내어 빈도의 상관계수를 계산
freq
Linkage Disequilibrium map (LD map)
B b 계
A 0.6
0 0.6
a 0 0.4
0.4
계 0.6
0.4
1
B b 계
A 0.3
0.3
0.6
a 0 0.4
0.4
계 0.3
0.7
1
B b 계
A 0.18
0.42
0.6
a 0.12
0.28
0.4
계 0.3 0.7 1
Absolute LD Complete LD Linkage equilibrium
연쇄 불균형 계수 D’ 과 r2
D’=1 D’=1 D’=0
r2=1 r2=0.28 r2=0
20 40 60 80 100
0.2
0.4
0.6
0.8
1
generation
D’
θ=0.05
θ=0.01
θ=0.001
]0[][
][]1[][][]1[
)1(
)1(
DD
DDDDDtt
ttttt
LD 와 세대경과와의 관계
Genome wide association study
게놈와이드 연관분석(Genome-Wide Association Study, GWAS)
형질과 관련있는 유전자를 광범위하게 탐색
1,000만 SNP 의 리스트 작성
30~100만 SNP chip
( Invader, Illumina, Affymetrix )
Common Disease Common Variant 가설
“ 빈도가 높은 질환이 유전과 관계있다고 한다면 가계가
다르다 하더라도 질환의 원인이 되는 돌연변이는 공통”
직접연관과 간접연관Direct association & Indirect association
Kruglyak (2008), Nat. Rev. Genet
Manhattan Plot
집단의 구조화Population structure
Balding (2006), Nat. Rev. Genet
EIGENSTRAT주성분분석을 이용한 집단의 구조화 탐색
1. 유전자형 데이터
2.대립형질의 갯수
3.각 SNP별로 표준화
)MAF1(MAF2
MAF2
x
Binom(2,MAF)
각 개체는 한세대 위로 부터 minor allele 가 MAF 의 확률로 전달됨
유전계승법칙의 도입
EIGENSTRAT 의 예
HapMap데이터의 일본인과 중국인
다중검정 문제The multiple testing problem
Balding (2006), Nat. Rev. Genet
게놈연구를 위한 연구디자인
“… 789 publications reporting on 802 different polymorphismsin 277 genes .”
…
“We systematically meta-analyzed 127 polymorphisms across69 different putative Alzheimer disease risk genes.”
나머지는 ??
Replication( 반복검증 )
반복검증을 위한 3 대 요소
연구의 디자인 데이터의 품질관리 유전통계분석
Cohort studysample sizeRR=3alpha =0.05power=0.8
연구디자인 ( 검정력과 샘플사이즈 )
Sample size (#case=#control)
Pow
er
100
2 단계 연관분석2 Stage association study
연구전체의 유의수준:1×10-7
유의수준:0.01
Case Control
100100
GWAS
Case Control
??
후보유전자 연관분석
유의수준:1.38×10-08
2nd stage 의 샘플사이즈
Po
we
r
다형 데이터의 품질관리
개체의 Call Rate ( > 0.99 )
SNP 의 Call Rate ( > 0.99 )
HWE 적합성 검정 ( p > 1e-5 )
Minor Allele Frequency ( > 0.01 )
집단의 구조화 탐색
그밖의 분석기법
가계정보를 이용한 연관분석
Transmission Disequilibrium Test (TDT)
Ott et al. (1992) Hum Hered, 42, 337-346.Spielman et al. (1993) Am J Hum Genet, 52, 506-516.
A/T A/T
A/A
전달되지 않은 대립형질
A T 합계
전달된 대립형질 A a b a+b
T c d c+d
합계 a+c b+d
2n
)1(~ 2
2
dfcb
cb
로지스틱 회귀분석logistic regression
ROC curve
메타분석meta analysis
동양인
서양인
CDKAL1 rs7754840
대응분석Correspondence analysis
생존분석Survival analysis
복잡한 형질의 유전complex trait
발현발현
발현
3p4 3q25 12q28
YgEGgXj
ii
n
jii
j
ii
111
Additive polygene model
유전체 연구의 응용
개별화 의료Personalized medicine
유전 카운셀링Genetic counseling
?
Statistical Genetics Analysis Division