Download - 集団遺伝学の基礎 - 九州大学（KYUSHU …seibutsu.biology.kyushu-u.ac.jp/~kteshima/Information/...2015/12/16 · 集団の遺伝学. 変異は集団中の一個体に生じたもの

第 2回ゲノム多様性解析ワークショップ

集団遺伝学の基礎2015年 12月 16日

総合研究大学院大学　葉山キャンパス　共通棟講義室

手島康介[email protected]

九州大学

Topics covered

. 集団遺伝

. Coalescent理論

. シミュレーション

目的

ゲノム多様性データ（塩基配列などの遺伝的変異データ）を用いて

. その生物の歴史

. 遺伝的変異の量やパターンを説明するメカニズム

を解析する

進化プロセス

遺伝的変異

始まりは突然変異

伝達

変異は親から子へと伝えられる

集団の遺伝

1個

3個

突然変異の誕生

1世代目

2世代目

突然変異の固定

集団中の頻度

現在

集団の遺伝


集団中の頻度

現在

集団の遺伝

突然変異の消失

集団中の頻度

現在


集団の遺伝

頻度

時間

集団の遺伝

時間

頻度

集団の遺伝

頻度

時間

集団の遺伝学

. 変異は集団中の一個体に生じたもの

. 変異のうち多くのものは伝達の過程で失われる

. ごく少数は集団全体に広まる

. ゲノム多様性（遺伝的変異）とは失われておらず、かつ集団全体に広まりきってもいない変異のこと

集団中の頻度

現在

観察可能なデータ

ほとんどの進化的プロセスは観察できない

時間

頻度

0

1

現在


現時点での遺伝的多様性は取得可能

時間

頻度

0

1

現在


集団内に広まった変異も取得可能

時間

頻度

0

1

現在

集団内変異と集団間変異

種間比較で観察可能な遺伝的変異頻度

0

1

固定した変異

時間

頻度

0

1

種 A

種 B


時間

頻度

0

1

固定した変異

種間変異

種内変異

時間頻度

0

1

共通祖先

種A 種B現在

多型状態にある変異

現在

進化モデルの利用

遺伝的多様性は. 突然変異. 伝達. 集団への広がりというプロセスにより形成される

観察できる状態は. 現在の種内変異の状態（種内変異）. 種内に広まった結果（種間比較）に限られる

過程をモデル化し、検定や推定を行なう

集団遺伝で使われるモデル


. 突然変異

. 組換え

. ドリフト- 集団の大きさの変化- 集団構造- 集団の分岐

. 自然選択

Wright-Fisherモデル

(2n) (n) (2n) (n)

Gene pool Gene pool

t世代目 t+ 1世代目

標準中立モデル

標準中立モデルとは

. 集団サイズ一定(N diploid individuals, 2N chromosomes)

. 集団構造なし

. 自然選択の影響なし (s = 0)

という条件のWright-Fisher集団

(n)

Gene pool

2N

1/2N

1/2N

1/2N

2N

同じ親由来で同じ遺伝子: 12N

· (1− u)2

違う親由来で同じ遺伝子:(

1− 12N

)

· ft−1 · (1− u)2

Fixation index

ft =

[

1

2N+

(

1−1

2N

)

ft−1

]

(1− u)2

Fixation index

ft =

[

1

2N+

(

1−1

2N

)

ft−1

]

(1− u)2

平衡状態を仮定する。ft−1 = ft = F とおいてF について解くと

F =1

1 + 4Nu

あるいはH = 1− F =

4Nu

1 + 4Nu

Lines of descent

Lines of descent

遺伝的多様性は祖先関係と突然変異で決まる

第1世代第2世代第3世代第4世代第5世代第6世代第0世代

Lines of descent

第1世代第2世代第3世代第4世代第5世代第6世代第0世代

ある遺伝子を祖先に持つ子孫は. Driftによって増減. 突然変異によって新たな lines of descentを形成

Lines of descent

第0世代第1世代第2世代第3世代第4世代第5世代

Pr(IBD) =1− e−(1−4Nu)t

1 + 4Nu

Coalescent理論

Coalescentとは

サンプル間の祖先関係を記述する確率理論

coalescentの対象が遺伝子系図 (gene genealogy)

Coalescentの仮定

. サンプル数 ≪ 集団の大きさ

. 変異の状態は残せる子孫の数とは関係がない（中立）

Coalescent: シンプルなケース n = 2

Pr(共通の親から由来した場合)

1/2N


Pr(共通の親から由来した場合)

1/2N

Gene pool

W-F集団（親世代）

W-F集団（子世代）


Pr(別々の親から受け継いだ場合)

(2N − 1)/2N = 1− 1/2N


Prob(t世代前に共通の親を持つ)は. 現在から t− 1世代の間、共通の親を持たない確率. 現在から t世代目に共通の親を持つ確率の積で求められる

f(t) =1

2N

(

1−1

2N

)t−1

≈1

2Ne−

1

2Nt

CoalescentとW-F集団

W-F 集団の親世代Gene pool

子世代

共通祖先までたどり着く時間

ランダムに選ばれた一組の配列が共通祖先までたどり着く時間の期待値は 2N 世代

E 2 = 2N

E(T2) =

∫ ∞

0t×

1

2Ne−

1

2Ntdt

= 2N

平均変異量 π

ランダムに選ばれた一組の配列間の変異量の平均はθ = 4Nu

E 2 = 2N

E(K) =∞∑

k

[

k ×

∫ ∞

0Pr(K = k|t)× f(t)dt

]

= u× 2× 2N

= 4Nu

単純なCoalescent (n) → (n− 1)

tn世代前に coalescentがおこり祖先の数が nから n− 1に減少する確率は

fn(tn) =

(

n2

)

2N

(

1−

(

n2

)

2N

)tn−1

≈

(n2

)

2Ne−

(n2)2N

tn

平均 coalescent time

2 → 1: E(T2) = 2N3 → 2: E(T3) = 2N/3

n → n− 1: E(Tn) = 2N/n(n−1)2

Coalescent理論Coalescent理論を用いると. 共通祖先までの時間. 遺伝子系図の全長を求めることができる

! 2

! 3

! 4

T5

T6

TMRCA

{6}

{5}

{4}

{3}

{2}

{1}

TMRCA =n∑

i=2

Ti

Ttotal =n∑

i=2

iTi

変異サイト数、S

系図上の変異数 Sは、単位時間あたりの突然変異率uと枝の長さによって決まる

遺伝子系図上の変異サイトの数は

P (S = s) =

∫ ∞

0

P (S = s|t) · fTtotal(t)dt

で求められる。ここで

P (S = s|t) =(ut)s

s!e−ut.

ただし uは突然変異率/領域/世代

変異サイト数

平均変異サイト数は遺伝子系図の全長と変異率の積

u× Ttotal

で求められる

T2

T3

T4

T5

T6

TMRCA

S = u×n∑

i=2

iTi = 4Nun−1∑

i=1

1/i = θn−1∑

i=1

1

i

E(S) and V (S)

変異サイト数の平均および分散は

E(S) = θ

n−1∑

i=1

1

i

V (S) = θn−1∑

i=1

1

i+ θ2

n−1∑

i=1

1

i2

で与えられる。


遺伝子系図上に s個の変異サイトが存在する確率

P (S = s) =

∫ ∞

0

P (S = s|t) · fTtotal(t)dt


遺伝子系図上に s個の変異サイトが存在する確率

Pr(S = s) =

∫ ∞

0

Pr(S = s|t) · f(t) dt

↑

Pr(coalescent at t | population model)

Polymorphism data

as a function of genealogy

塩基配列データと遺伝的変異

✓ ✏配列 1 ... a t t g t a t c t g a c g a t t ...

配列 2 ... a t c g t a a c t g a c g a c t ...


配列 4 ... a t c g t a t c t g a c g a c t ...

✒ ✑






⇑ ⇑ ⇑

✒ ✑






⇑ ⇑ ⇑

✒ ✑

. サンプルは独立ではない

. それぞれの配列は共通祖先で結びついている

遺伝子系図と配列データ






✒ ✑

配列データと遺伝子系図

. 遺伝的多様性データは遺伝子系図に突然変異が加わったもの

. 塩基配列データは遺伝子系図に制約される

. 遺伝子系図そのものを直接観察することはできない

Genealogy

as a function of population history

標準中立モデルの下での genealogy

{3}

{2}

{1}

fn(t) =

(

n2

)

2Ne−

(n2)2N

t

集団サイズが変化した時の genealogy

{3}

{2}

{1}

fn(t) = e−(n2)2N1

t1 ×

(

n2

)

2N2

e−(n2)2N2

(t−t1)

集団サイズが変化した時の genealogy

{3}

{2}

{1}

fn(t) =

(

n

2

)

2N(t)

(

1−

(

n

2

)

2N(0)

)(

1−

(

n

2

)

2N(1)

)

· · ·

(

1−

(

n

2

)

2N(t− 1)

)

=

(

n

2

)

2N(t)e−

∑ (n2)2N(i)

集団構造がある場合の genealogy

{1, 2}

{2, 1}

{1, 1}

{0, 2}

{0, 1}

起こりうる一つ前のイベントは

. 集団 1 における coalescent:

(

n12

)

2N1

. 集団 2 における coalescent:

(

n22

)

2N2

. 集団 1 から 2 への migration: n1m12

. 集団 2 から 1 への migration: n2m21

集団構造がある場合の genealogy

{1, 2}

{2, 1}

{1, 1}

{0, 2}

{0, 1}

fn(t) =n∑

i=0

pi,n−i(t− 1)

((

i

2

)

2N1

+

(

n−i

2

)

2N2

)

ただし pi,n−i(t)は t世代前に集団１に i、集団２に n− iの lineageが存在する確率

Structured coalescent

構造が存在する集団において、起こりうる一つ前のイベントは

. 集団 iにおける coalescent:(ki2)

ci

. 集団 iから jへのmigration: kiMij

2

のいずれかである。

一つ前の（何らかの）イベントに遡るまでの時間は

λ =∑

i

(

(

ki2

)

ci+∑

i 6=j

kiMij

2

)

,

をパラメータに持つ指数分布に従う。

Mij = 2Nmij、時間の単位は t/2N。


一つ前の（何らかの）イベントが集団 iにおける coalescentである確率は

(ki2

)

/ci

λ.

集団 iから jへの移住である確率は

kiMij/2

λ.


集団に構造が存在する時もcoalescent理論で表現することが出来る。

Past

Present

2N x c1 2N x c2

m12

m21

MRCA

k1 = 3 k2 = 1

{1, 4}{4, 1}{5, 0} {3, 2} {2, 3} {0, 5}

{0, 4}{3, 1}{4, 0} {2, 2} {1, 3}

{2, 1}{3, 0} {1, 2} {0, 3}

{1, 1}{2, 0} {0, 2}

{1, 0} {0, 1}MRCA

Initial state

標準中立モデル

現在

過去

集団サイズの増加

現在

過去

集団構造

自然選択と遺伝子系図

positive selection

Hudson (1990)

ターゲット遺伝子の増加

現在

過去

組換え

組換え組換えがあると、共通祖先までたどり着くプロセス

が染色体上の場所ごとに異なる

{4}

{3}

{2}

{1}

{4}

{3}

{2}

{1}

{4}

{3}

{2}

{1}

組換えがある時の genealogy(中立の場合)

positive selectionを受けた領域周辺

balancing selectionを受けた領域周辺

遺伝子系図と自然選択

. 自然選択の影響のもと、特徴的な遺伝子系図が形成される

. 遺伝子系図は、集団サイズの増加など他の進化モデル化で生じる遺伝子系図と見分けがつかない

. 自然選択の影響はターゲットとなっている領域周辺に限られる。それに対し、集団サイズの増加はゲノム全体に影響を及ぼす。

遺伝子系図と進化

. それぞれの進化モデルの下で、特徴的な遺伝子系図が形成される

. ただし同一のモデルでも、遺伝子系図の大きさやパターンにはばらつきが大きい

. 遺伝子系図のパターンは集団史の影響を受けて形成されたもの

. 遺伝子系図には確率的な変動が大きい

統計量

統計量

遺伝的変異の量を測る統計量として、θwや πが用いられている

θw =S

n−1∑

i=1

1i

π =

∑

i<j dij(

n2

)

ただしS は変異サイトの数dij は配列 i と j の間で観察される相違塩基数

統計量の計算✓ ✏配列 1 a a t c g t a t c t g a c g a g t配列 2 a a t c g t a t c t g a c g a g t配列 3 a a t t g t a t c t g a c g a g t配列 4 a a t c g t a a c t g a c g a c t配列 5 a a t c g t a a c t g a c g a c t配列 6 a a t c g t a a c t g a c g a g t

✒ ✑

θw =3

∑5i=1 1/i

= 1.3

π =0 + 1 + 2 + 2 + · · ·

6!4!×2!

= 1.5

遺伝子系図と統計量

!"

!#!$

遺伝子系図と統計量

!"

!#!$

θw = (1+ 1+ 1)/∑

1/i = 1.31

π =1× 5+ 2× 4+ 3× 3

(

62

)

= 1.47

検定統計量 Tajima’s D検定統計量

DTajima =π − θw

√

V ar[π − θw]

を用いる

標準中立モデルの下ではE(π) = E(θw)

DTajima = 0

実際の進化モデルが標準中立モデルと異なる場合遺伝子系図がひずむ→ E(π) 6= E(θw)

DTajima 6= 0

標準中立モデルの統計量の分布

現在

過去

Distibution of π and θw

π (blue) and θw (red)

0 10 20 30 40 50 60

0.00

0.02

0.04

0.06

0.08

0.10

Distibution of DTajima

DTajima

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

集団サイズが増加した時の統計量の分布

現在

過去



0 10 20 30 40 50 60

0.00

0.05

0.10

0.15


DTajima

−3 −2 −1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

集団構造がある時の統計量の分布



0 10 20 30 40 50 60

0.00

0.02

0.04

0.06

0.08

0.10


DTajima

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

統計量

. 変異量は進化を反映する

. 適当な統計量を用いることで進化プロセスに関する知見を得ることができる

Simulation

ms: the de facto standard simulator

http://home.uchicago.edu/rhudson1/source/mksamples.html

ms: the de facto standard simulator

ms: コンパイル

✓ ✏[msdir]$ gcc -o ms ms.c streec.c rand1t.c -lm

✒ ✑

ms: 使い方

✓ ✏[msdir]$ ./ms sample size replication -t 4N0u

✒ ✑

-r 組換え: -r 4N0r n sites

-I 分集団構造: -I npop n1 n2 . . .. . .

など、様々な進化モデルを指定することができる

ms: 実行

✓ ✏[msdir]$ ./ms 5 2 -t 2

20496 27011 59243

//

segsites: 3

positions: 0.1257 0.1742 0.4927

011

010

100

010

010

//

segsites: 4

positions: 0.2063 0.2470 0.3092 0.8022

1001

0110

0110

0110

1001

✒ ✑

sample stats: 統計量の計算

✓ ✏[msdir]$ gcc -o sample stats sample stats.c tajd.c -lm

✒ ✑

sample stats: 実行

✓ ✏[msdir]$ ./ms 5 2 -t 2 | ./sample stats

pi: 1.200000 ss: 3 D: -1.048493 thetaH: 1.800000 H: -0.600000

pi: 2.400000 ss: 4 D: 1.640699 thetaH: 2.600000 H: -0.200000

✒ ✑

mbs

http://www.sendou.soken.ac.jp/esb/innan/InnanLab

まとめ

. 変異データは遺伝子系図を反映する遺伝子系図は進化モデルを反映する

. 集団遺伝の理論を用いると、変異データと進化モデルを結びつけることができる

. 様々なモデル下で Coalescentを用いたシミュレーションを利用すると、変異を定量的に理解することができる

If you have any comments or questions,please e-mail me at

kmteshima @ kyudai.jp

Download - 集団遺伝学の基礎 - 九州大学（KYUSHU …seibutsu.biology.kyushu-u.ac.jp/~kteshima/Information/...2015/12/16 · 集団の遺伝学. 変異は集団中の一個体に生じたもの

Top Related