Topics covered
. 集団遺伝
. Coalescent理論
. シミュレーション
目的
ゲノム多様性データ(塩基配列などの遺伝的変異データ)を用いて
. その生物の歴史
. 遺伝的変異の量やパターンを説明するメカニズム
を解析する
進化プロセス
遺伝的変異
始まりは突然変異
遺伝的変異
始まりは突然変異
伝達
変異は親から子へと伝えられる
伝達
変異は親から子へと伝えられる
集団の遺伝
1個
3個
突然変異の誕生
1世代目
2世代目
突然変異の固定
集団中の頻度
現在
集団の遺伝
突然変異の誕生
集団中の頻度
現在
集団の遺伝
突然変異の消失
集団中の頻度
現在
突然変異の誕生
集団の遺伝
頻度
時間
集団の遺伝
時間
頻度
集団の遺伝
頻度
時間
集団の遺伝学
. 変異は集団中の一個体に生じたもの
. 変異のうち多くのものは伝達の過程で失われる
. ごく少数は集団全体に広まる
. ゲノム多様性(遺伝的変異)とは失われておらず、かつ集団全体に広まりきってもいない変異のこと
集団中の頻度
現在
観察可能なデータ
ほとんどの進化的プロセスは観察できない
時間
頻度
0
1
現在
観察可能なデータ
現時点での遺伝的多様性は取得可能
時間
頻度
0
1
現在
観察可能なデータ
集団内に広まった変異も取得可能
時間
頻度
0
1
現在
集団内変異と集団間変異
種間比較で観察可能な遺伝的変異頻度
0
1
固定した変異
時間
頻度
0
1
種 A
種 B
集団内変異と集団間変異
時間
頻度
0
1
固定した変異
種間変異
種内変異
時間頻度
0
1
共通祖先
種A 種B現在
多型状態にある変異
現在
進化モデルの利用
遺伝的多様性は. 突然変異. 伝達. 集団への広がりというプロセスにより形成される
観察できる状態は. 現在の種内変異の状態(種内変異). 種内に広まった結果(種間比較)に限られる
過程をモデル化し、検定や推定を行なう
集団遺伝で使われるモデル
集団内変異と集団間変異
. 突然変異
. 組換え
. ドリフト- 集団の大きさの変化- 集団構造- 集団の分岐
. 自然選択
Wright-Fisherモデル
(2n) (n) (2n) (n)
Gene pool Gene pool
t世代目 t+ 1世代目
標準中立モデル
標準中立モデルとは
. 集団サイズ一定(N diploid individuals, 2N chromosomes)
. 集団構造なし
. 自然選択の影響なし (s = 0)
という条件のWright-Fisher集団
(n)
Gene pool
2N
1/2N
1/2N
1/2N
2N
同じ親由来で同じ遺伝子: 12N
· (1− u)2
違う親由来で同じ遺伝子:(
1− 12N
)
· ft−1 · (1− u)2
Fixation index
ft =
[
1
2N+
(
1−1
2N
)
ft−1
]
(1− u)2
Fixation index
ft =
[
1
2N+
(
1−1
2N
)
ft−1
]
(1− u)2
平衡状態を仮定する。ft−1 = ft = F とおいてF について解くと
F =1
1 + 4Nu
あるいはH = 1− F =
4Nu
1 + 4Nu
Lines of descent
Lines of descent
遺伝的多様性は祖先関係と突然変異で決まる
第1世代 第2世代 第3世代 第4世代 第5世代 第6世代第0世代
Lines of descent
第1世代 第2世代 第3世代 第4世代 第5世代 第6世代第0世代
ある遺伝子を祖先に持つ子孫は. Driftによって増減. 突然変異によって新たな lines of descentを形成
Lines of descent
第0世代 第1世代 第2世代 第3世代 第4世代 第5世代
Pr(IBD) =1− e−(1−4Nu)t
1 + 4Nu
Coalescent理論
Coalescentとは
サンプル間の祖先関係を記述する確率理論
coalescentの対象が遺伝子系図 (gene genealogy)
Coalescentの仮定
. サンプル数 ≪ 集団の大きさ
. 変異の状態は残せる子孫の数とは関係がない(中立)
Coalescent: シンプルなケース n = 2
Pr(共通の親から由来した場合)
1/2N
Coalescent: シンプルなケース n = 2
Pr(共通の親から由来した場合)
1/2N
Gene pool
W-F集団(親世代)
W-F集団(子世代)
Coalescent: シンプルなケース n = 2
Pr(別々の親から受け継いだ場合)
(2N − 1)/2N = 1− 1/2N
Coalescent: シンプルなケース n = 2
Prob(t世代前に共通の親を持つ)は. 現在から t− 1世代の間、共通の親を持たない確率. 現在から t世代目に共通の親を持つ確率の積で求められる
f(t) =1
2N
(
1−1
2N
)t−1
≈1
2Ne−
1
2Nt
CoalescentとW-F集団
W-F 集団の親世代Gene pool
子世代
共通祖先までたどり着く時間
ランダムに選ばれた一組の配列が共通祖先までたどり着く時間の期待値は 2N 世代
E 2 = 2N
E(T2) =
∫ ∞
0t×
1
2Ne−
1
2Ntdt
= 2N
平均変異量 π
ランダムに選ばれた一組の配列間の変異量の平均はθ = 4Nu
E 2 = 2N
E(K) =∞∑
k
[
k ×
∫ ∞
0Pr(K = k|t)× f(t)dt
]
= u× 2× 2N
= 4Nu
単純なCoalescent (n) → (n− 1)
tn世代前に coalescentがおこり祖先の数が nから n− 1に減少する確率は
fn(tn) =
(
n2
)
2N
(
1−
(
n2
)
2N
)tn−1
≈
(n2
)
2Ne−
(n2)2N
tn
平均 coalescent time
2 → 1: E(T2) = 2N3 → 2: E(T3) = 2N/3
n → n− 1: E(Tn) = 2N/n(n−1)2
Coalescent理論Coalescent理論を用いると. 共通祖先までの時間. 遺伝子系図の全長を求めることができる
! 2
! 3
! 4
T5
T6
TMRCA
{6}
{5}
{4}
{3}
{2}
{1}
TMRCA =n∑
i=2
Ti
Ttotal =n∑
i=2
iTi
変異サイト数、S
系図上の変異数 Sは、 単位時間あたりの突然変異率uと枝の長さによって決まる
遺伝子系図上の変異サイトの数は
P (S = s) =
∫ ∞
0
P (S = s|t) · fTtotal(t)dt
で求められる。ここで
P (S = s|t) =(ut)s
s!e−ut.
ただし uは突然変異率/領域/世代
変異サイト数
平均変異サイト数は遺伝子系図の全長と変異率の積
u× Ttotal
で求められる
T2
T3
T4
T5
T6
TMRCA
S = u×n∑
i=2
iTi = 4Nun−1∑
i=1
1/i = θn−1∑
i=1
1
i
E(S) and V (S)
変異サイト数の平均および分散は
E(S) = θ
n−1∑
i=1
1
i
V (S) = θn−1∑
i=1
1
i+ θ2
n−1∑
i=1
1
i2
で与えられる。
変異サイト数、S
遺伝子系図上に s個の変異サイトが存在する確率
P (S = s) =
∫ ∞
0
P (S = s|t) · fTtotal(t)dt
変異サイト数、S
遺伝子系図上に s個の変異サイトが存在する確率
Pr(S = s) =
∫ ∞
0
Pr(S = s|t) · f(t) dt
↑
Pr(coalescent at t | population model)
Polymorphism data
as a function of genealogy
塩基配列データと遺伝的変異
✓ ✏配列 1 ... a t t g t a t c t g a c g a t t ...
配列 2 ... a t c g t a a c t g a c g a c t ...
配列 3 ... a t c g t a a c t g a c g a c t ...
配列 4 ... a t c g t a t c t g a c g a c t ...
✒ ✑
塩基配列データと遺伝的変異
✓ ✏配列 1 ... a t t g t a t c t g a c g a t t ...
配列 2 ... a t c g t a a c t g a c g a c t ...
配列 3 ... a t c g t a a c t g a c g a c t ...
配列 4 ... a t c g t a t c t g a c g a c t ...
⇑ ⇑ ⇑
✒ ✑
塩基配列データと遺伝的変異
✓ ✏配列 1 ... a t t g t a t c t g a c g a t t ...
配列 2 ... a t c g t a a c t g a c g a c t ...
配列 3 ... a t c g t a a c t g a c g a c t ...
配列 4 ... a t c g t a t c t g a c g a c t ...
⇑ ⇑ ⇑
✒ ✑
. サンプルは独立ではない
. それぞれの配列は共通祖先で結びついている
遺伝子系図と配列データ
遺伝子系図と配列データ
塩基配列データと遺伝的変異
✓ ✏配列 1 ... a t t g t a t c t g a c g a t t ...
配列 2 ... a t c g t a a c t g a c g a c t ...
配列 3 ... a t c g t a a c t g a c g a c t ...
配列 4 ... a t c g t a t c t g a c g a c t ...
✒ ✑
配列データと遺伝子系図
. 遺伝的多様性データは遺伝子系図に突然変異が加わったもの
. 塩基配列データは遺伝子系図に制約される
. 遺伝子系図そのものを直接観察することはできない
Genealogy
as a function of population history
標準中立モデルの下での genealogy
{3}
{2}
{1}
fn(t) =
(
n2
)
2Ne−
(n2)2N
t
集団サイズが変化した時の genealogy
{3}
{2}
{1}
fn(t) = e−(n2)2N1
t1 ×
(
n2
)
2N2
e−(n2)2N2
(t−t1)
集団サイズが変化した時の genealogy
{3}
{2}
{1}
fn(t) =
(
n
2
)
2N(t)
(
1−
(
n
2
)
2N(0)
)(
1−
(
n
2
)
2N(1)
)
· · ·
(
1−
(
n
2
)
2N(t− 1)
)
=
(
n
2
)
2N(t)e−
∑ (n2)2N(i)
集団構造がある場合の genealogy
{1, 2}
{2, 1}
{1, 1}
{0, 2}
{0, 1}
起こりうる一つ前のイベントは
. 集団 1 における coalescent:
(
n12
)
2N1
. 集団 2 における coalescent:
(
n22
)
2N2
. 集団 1 から 2 への migration: n1m12
. 集団 2 から 1 への migration: n2m21
集団構造がある場合の genealogy
{1, 2}
{2, 1}
{1, 1}
{0, 2}
{0, 1}
fn(t) =n∑
i=0
pi,n−i(t− 1)
((
i
2
)
2N1
+
(
n−i
2
)
2N2
)
ただし pi,n−i(t)は t世代前に集団1に i、集団2に n− iの lineageが存在する確率
Structured coalescent
構造が存在する集団において、起こりうる一つ前のイベントは
. 集団 iにおける coalescent:(ki2)
ci
. 集団 iから jへのmigration: kiMij
2
のいずれかである。
一つ前の(何らかの)イベントに遡るまでの時間は
λ =∑
i
(
(
ki2
)
ci+∑
i 6=j
kiMij
2
)
,
をパラメータに持つ指数分布に従う。
Mij = 2Nmij、時間の単位は t/2N。
Structured coalescent
一つ前の(何らかの)イベントが集団 iにおける coalescentである確率は
(ki2
)
/ci
λ.
集団 iから jへの移住である確率は
kiMij/2
λ.
Structured coalescent
集団に構造が存在する時もcoalescent理論で表現することが出来る。
Past
Present
2N x c1 2N x c2
m12
m21
MRCA
k1 = 3 k2 = 1
{1, 4}{4, 1}{5, 0} {3, 2} {2, 3} {0, 5}
{0, 4}{3, 1}{4, 0} {2, 2} {1, 3}
{2, 1}{3, 0} {1, 2} {0, 3}
{1, 1}{2, 0} {0, 2}
{1, 0} {0, 1}MRCA
Initial state
標準中立モデル
現在
過去
集団サイズの増加
現在
過去
集団構造
自然選択と遺伝子系図
positive selection
Hudson (1990)
ターゲット遺伝子の増加
現在
過去
組換え
組換え
組換え
組換え組換えがあると、共通祖先までたどり着くプロセス
が染色体上の場所ごとに異なる
{4}
{3}
{2}
{1}
{4}
{3}
{2}
{1}
{4}
{3}
{2}
{1}
組換えがある時の genealogy(中立の場合)
positive selectionを受けた領域周辺
balancing selectionを受けた領域周辺
遺伝子系図と自然選択
. 自然選択の影響のもと、特徴的な遺伝子系図が形成される
. 遺伝子系図は、集団サイズの増加など他の進化モデル化で生じる遺伝子系図と見分けがつかない
. 自然選択の影響はターゲットとなっている領域周辺に限られる。それに対し、集団サイズの増加はゲノム全体に影響を及ぼす。
遺伝子系図と進化
. それぞれの進化モデルの下で、特徴的な遺伝子系図が形成される
. ただし同一のモデルでも、遺伝子系図の大きさやパターンにはばらつきが大きい
. 遺伝子系図のパターンは集団史の影響を受けて形成されたもの
. 遺伝子系図には確率的な変動が大きい
統計量
統計量
遺伝的変異の量を測る統計量として、θwや πが用いられている
θw =S
n−1∑
i=1
1i
π =
∑
i<j dij(
n2
)
ただしS は変異サイトの数dij は配列 i と j の間で観察される相違塩基数
統計量の計算✓ ✏配列 1 a a t c g t a t c t g a c g a g t配列 2 a a t c g t a t c t g a c g a g t配列 3 a a t t g t a t c t g a c g a g t配列 4 a a t c g t a a c t g a c g a c t配列 5 a a t c g t a a c t g a c g a c t配列 6 a a t c g t a a c t g a c g a g t
✒ ✑
θw =3
∑5i=1 1/i
= 1.3
π =0 + 1 + 2 + 2 + · · ·
6!4!×2!
= 1.5
遺伝子系図と統計量
!"
!#!$
遺伝子系図と統計量
!"
!#!$
θw = (1+ 1+ 1)/∑
1/i = 1.31
π =1× 5+ 2× 4+ 3× 3
(
62
)
= 1.47
検定統計量 Tajima’s D検定統計量
DTajima =π − θw
√
V ar[π − θw]
を用いる
標準中立モデルの下ではE(π) = E(θw)
DTajima = 0
実際の進化モデルが標準中立モデルと異なる場合遺伝子系図がひずむ→ E(π) 6= E(θw)
DTajima 6= 0
標準中立モデルの統計量の分布
現在
過去
Distibution of π and θw
π (blue) and θw (red)
0 10 20 30 40 50 60
0.00
0.02
0.04
0.06
0.08
0.10
Distibution of DTajima
DTajima
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
集団サイズが増加した時の統計量の分布
現在
過去
Distibution of π and θw
π (blue) and θw (red)
0 10 20 30 40 50 60
0.00
0.05
0.10
0.15
Distibution of DTajima
DTajima
−3 −2 −1 0 1 2 3
0.0
0.2
0.4
0.6
0.8
1.0
集団構造がある時の統計量の分布
Distibution of π and θw
π (blue) and θw (red)
0 10 20 30 40 50 60
0.00
0.02
0.04
0.06
0.08
0.10
Distibution of DTajima
DTajima
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
統計量
. 変異量は進化を反映する
. 適当な統計量を用いることで進化プロセスに関する知見を得ることができる
Simulation
ms: the de facto standard simulator
http://home.uchicago.edu/rhudson1/source/mksamples.html
ms: the de facto standard simulator
ms: the de facto standard simulator
ms: コンパイル
✓ ✏[msdir]$ gcc -o ms ms.c streec.c rand1t.c -lm
✒ ✑
ms: 使い方
✓ ✏[msdir]$ ./ms sample size replication -t 4N0u
✒ ✑
-r 組換え: -r 4N0r n sites
-I 分集団構造: -I npop n1 n2 . . .. . .
など、様々な進化モデルを指定することができる
ms: 実行
✓ ✏[msdir]$ ./ms 5 2 -t 2
20496 27011 59243
//
segsites: 3
positions: 0.1257 0.1742 0.4927
011
010
100
010
010
//
segsites: 4
positions: 0.2063 0.2470 0.3092 0.8022
1001
0110
0110
0110
1001
✒ ✑
sample stats: 統計量の計算
✓ ✏[msdir]$ gcc -o sample stats sample stats.c tajd.c -lm
✒ ✑
sample stats: 実行
✓ ✏[msdir]$ ./ms 5 2 -t 2 | ./sample stats
pi: 1.200000 ss: 3 D: -1.048493 thetaH: 1.800000 H: -0.600000
pi: 2.400000 ss: 4 D: 1.640699 thetaH: 2.600000 H: -0.200000
✒ ✑
mbs
http://www.sendou.soken.ac.jp/esb/innan/InnanLab
まとめ
. 変異データは遺伝子系図を反映する遺伝子系図は進化モデルを反映する
. 集団遺伝の理論を用いると、変異データと進化モデルを結びつけることができる
. 様々なモデル下で Coalescentを用いたシミュレーションを利用すると、変異を定量的に理解することができる
If you have any comments or questions,please e-mail me at
kmteshima @ kyudai.jp