遺伝 統計学における 正単体の活用

69
遺遺遺遺遺遺遺遺遺 遺遺 遺遺遺 KBS 2012/10/09 遺遺 ( 遺 ) 遺遺遺遺遺 遺遺

Upload: luz

Post on 07-Feb-2016

32 views

Category:

Documents


0 download

DESCRIPTION

遺伝 統計学における 正単体の活用. KBS 2012/10/09 京大 ( 医 ) 統計遺伝学 山田 亮. 今日の内容. 正単体とは 正単体の利用例x3 2値型多型が作る組合せアレル ( ハプロタイプ ) 集団 遺伝学・進化学 多次元分割表 代数 統計 木型グラフの次元縮約 グラフ理論. 正単体. 正単体のおもな特徴. N 次元空間に N+1 個の頂点 すべて の頂点は相互に対等 1頂点ベクトルは残りの頂点ベクトルの和と相殺する 角は cos (t) = -1/N. 正単体の利用例x3. 2 値型多型が作る組合せアレル ( ハプロタイプ ) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 遺伝 統計学における 正単体の活用

遺伝統計学における正単体の活用

KBS2012/10/09

京大 ( 医 ) 統計遺伝学山田 亮

Page 2: 遺伝 統計学における 正単体の活用

今日の内容• 正単体とは• 正単体の利用例x3

– 2値型多型が作る組合せアレル ( ハプロタイプ )

• 集団遺伝学・進化学– 多次元分割表

• 代数統計– 木型グラフの次元縮約

• グラフ理論

Page 3: 遺伝 統計学における 正単体の活用

正単体

Page 4: 遺伝 統計学における 正単体の活用

正単体のおもな特徴• N 次元空間に N+1 個の頂点• すべての頂点は相互に対等

– 1頂点ベクトルは残りの頂点ベクトルの和と相殺する

• 角は cos(t) = -1/N

Page 5: 遺伝 統計学における 正単体の活用

正単体の利用例x3• 2値型多型が作る組合せアレル ( ハプロタ

イプ )• 多次元分割表• 木型グラフの次元縮約

Page 6: 遺伝 統計学における 正単体の活用

2値型多型が作る組合せアレル( ハプロタイプ )

• DNA• 塩基• 4種類 A T G C A

T

G

C

Page 7: 遺伝 統計学における 正単体の活用

2値型多型が作る組合せアレル( ハプロタイプ )

• 塩基• 4種類 A T G C• 多型• 1塩基多型 (SNP)• 2種類の塩基

– (T/C),…

Page 8: 遺伝 統計学における 正単体の活用

b

B

a

A

2値型多型が作る組合せアレル( ハプロタイプ )

• 2 SNP が作る組合せアレル(ハプロタイプ)

ABaB

Ab

ab

Page 9: 遺伝 統計学における 正単体の活用

4 ハプロタイプの関係

b

B

a

A

B

b

a

A

Page 10: 遺伝 統計学における 正単体の活用

4 ハプロタイプの関係

b

B

a

A

B

b

a

A

ABaB

Ab

ab

Page 11: 遺伝 統計学における 正単体の活用

4ハプロタイプの関係• 交叉・組換えが起きなければ

– (AB   ab)  だけのまま• (AB,Ab,aB,ab) の4ハプロタイプの相互関係

は完全に対等ではない

Page 12: 遺伝 統計学における 正単体の活用

V1

V2 V3

V1V1

V2

V2

V3V3

V4

V4

E1

E1E1

E2E2

E3E3

E3

E4 E2

E4

E4

E5

E5 E5

E6

E6

E6

AB

aBAb

ab

AB

aBAb

ab

AB

aBAb

ab

Page 13: 遺伝 統計学における 正単体の活用

2SNP 4 ハプロタイプの世界~集団遺伝学~

• 4ハプロタイプの頻度• H=(h(AB),h(Ab),h(aB),h(ab))• H の頻度の状態は四面体上の1

点に対応づけられる• H は進化・人類史において変化

(突然変異・適応・淘汰・組換え)するので、四面体上の動きとして表現される– 頂点:遺伝的多様性がない– 重心:遺伝的に最も多様– 実際の位置 : 相対的な『辺境』

• k 個の SNP: 2k 個の頂点を持つ正単体

AB aBAb

ab

Page 14: 遺伝 統計学における 正単体の活用

たくさんの多型2k 個の頂点を持つ正単体

Page 15: 遺伝 統計学における 正単体の活用
Page 16: 遺伝 統計学における 正単体の活用

正単体の利用例x3• 2値型多型が作る組合せアレル ( ハプロタ

イプ )• 多次元分割表• 木型グラフの次元縮約

Page 17: 遺伝 統計学における 正単体の活用

非負の空間• N 次元デカルト座標の「部分」

– (10,30,25) というデータに (10,30,25) という座標を与える

– (10,30,26) というデータに (10,30,26) という座標を与える

Page 18: 遺伝 統計学における 正単体の活用

カテゴリ• 『全部を併せて、 T 個』という制約

(0,T,0)

(T,0,0)

(0,0,T)

3 次元空間にある頂点数が 3 の正単体

この正単体は2 次元平面上にある

Page 19: 遺伝 統計学における 正単体の活用

自由度のこと• N- カテゴリ → N 次元空間(非負部

分)

• 「 N 個の値の和」という制約を与える• N- カテゴリ → N-1 正単体• N 個の値のベクトル → N-1 次元の点• 次元を1つ落とす

(0,T,0)

(T,0,0)

(0,0,T)

Page 20: 遺伝 統計学における 正単体の活用

(0,1,0)

(1,0,0)

(0,0,1)

x

y

z

x

y

rotation

𝑥=1

√3

1

√3

( 1√3 ,0)

1

Page 21: 遺伝 統計学における 正単体の活用

(0,1,0)

(1,0,0)

(0,0,1)

Parallel to yz-plane

x

y

z

x

y

rotation

𝑥=1

√3

1

√3

( 1√3 ,0)

1

Page 22: 遺伝 統計学における 正単体の活用

正単体とカテゴリ• N カテゴリ• 総数の制約があると• N 次元空間上の N-1 次元亜空間に納まる• 回転すると 1 次元分は定数の N-1 次元空間に N

個の頂点を持つ正単体の頂点座標ベクトルに対応づけられる

rotation

Page 23: 遺伝 統計学における 正単体の活用

分割表• N x M 分割表

– 2 次元分割表– N- カテゴリ– M- カテゴリ

Page 24: 遺伝 統計学における 正単体の活用

N x M 分割表まったく制約がない場合

• N x M 個の値に応じて (v(1),v(2),…,v(NxM))という座標を対応づける

(N x M) x (N x M)

Page 25: 遺伝 統計学における 正単体の活用

N x M 分割表まったく制約がない場合

• N x M 個の値に応じて (v(1),v(2),…,v(NxM))という座標を対応づける

• N カテゴリ・ M カテゴリに制約がないとき( 回転前 ) の正単体頂点座標

< 組み合わせる >

N x NM x M

Page 26: 遺伝 統計学における 正単体の活用

(N x M) x (N x M)

< 組み合わせる >

N x N M x M

Page 27: 遺伝 統計学における 正単体の活用

N x M 分割表• N 次元制約空間 ( 正単体 ) x M 次元制約空

間 ( 正単体 )• 座標の表現

< 組み合わせる > →

< 組み合わせる > →

rotation

rotation

x

y

z

x

y

Page 28: 遺伝 統計学における 正単体の活用

< 組み合わせる > →

< 組み合わせる > →

rotation

rotation

正単体の座標を都合よく決めれば決まる

Page 29: 遺伝 統計学における 正単体の活用

< 組み合わせる > →

< 組み合わせる > →

rotation

rotation

正単体の座標を都合よく決めれば決まる クロネッカー積

Page 30: 遺伝 統計学における 正単体の活用

𝑎 𝑗𝑘=1

√𝑛

{𝑎 𝑗𝑘=0( h𝑤 𝑒𝑛𝑘≦ 𝑗−2)

𝑎 𝑗𝑘=√𝑛− 𝑗+1𝑛− 𝑗+2

( h𝑤 𝑒𝑛𝑘= 𝑗−1)

𝑎 𝑗𝑘=−1

√(𝑛− 𝑗+1 ) (𝑛− 𝑗+2 )( h𝑤 𝑒𝑛𝑘≧ 𝑗)

𝑗>1

𝑗=1

正単体の座標を都合よく決めれば決まる

Page 31: 遺伝 統計学における 正単体の活用

多次元分割表に一般化

Page 32: 遺伝 統計学における 正単体の活用

shape 2×3×42×3𝒓=(23) 𝒓=(234 )shape vector

The number of the cells

R=

R= 24

𝒓=(𝑟 1𝑟 2⋮𝑟𝑘

)

dimension (k=) 2 (k=) 3

R= 6

multi-way table(k-dimensional table)

10 17 13

11 14 12

Page 33: 遺伝 統計学における 正単体の活用

多次元化

𝑋=𝑋𝑘⊗ 𝑋𝑘− 1⊗⋯⋯⊗ 𝑋 1( is the Kronecker product)⊗

X is matrix

クロネッカー積

正単体の座標を都合よく決めれば決まる

Page 34: 遺伝 統計学における 正単体の活用

利用• 複数の遺伝的座位• 複数の表現型• 因子が寄与するモデルの設定

• 解析を幾何学的に取り扱うのが容易になる

Lectures on Algebraic StaticsISBN-13: 978-3764389048

Page 35: 遺伝 統計学における 正単体の活用
Page 36: 遺伝 統計学における 正単体の活用

正単体の利用例x3• 2値型多型が作る組合せアレル ( ハプロタ

イプ )• 多次元分割表• 木型グラフの次元縮約

Page 37: 遺伝 統計学における 正単体の活用

最小全域木を用いた経路型データの線形空間化

Page 38: 遺伝 統計学における 正単体の活用

経路型データ• 例

– 個体の細胞の発生・分化• 分岐木状

– 特に標本量が多い例として• リンパ球の分化

Page 39: 遺伝 統計学における 正単体の活用

経路型データ• 発生・分化の段階に連れて、遺伝子発現パターン

が変化する• マーカーは出現しては、消え、再出現したりす

(1,0,0) -> (1,0,0) -> (1,1,0) -> (1,1,1) -> (0,1,1) -> (0,1,0)

Page 40: 遺伝 統計学における 正単体の活用

経路型データ(1,0,0) -> (1,0,0) -> (1,1,0) -> (1,1,1) -> (0,1,1) -> (0,1,0)

Page 41: 遺伝 統計学における 正単体の活用

フローサイトメトリー(FACS: Fluorescence-activated cell sorting)

http://en.wikipedia.org/wiki/Fluorescence-activated_cell_sorting

11 分子

10 万個の細胞

300 人分発現量測定(蛍光)

特徴付け

割合推定

Page 42: 遺伝 統計学における 正単体の活用

実験室では・・・目で見ながら『選んでいく』

Plasma cell?

CD138C

D27

Page 43: 遺伝 統計学における 正単体の活用

木にしてみよう

Page 44: 遺伝 統計学における 正単体の活用

木にしてみよう• 最小全域木

Page 45: 遺伝 統計学における 正単体の活用

観測点が作る多様体 ( 様 )

最小全域木で代用してみようMinimum spanning tree

全域木 ( すべてのノードが連結であって、『木』の形 )「辺の長さの和が最小」であるもの

Page 46: 遺伝 統計学における 正単体の活用

CD138

CD27

特定の分子の多寡で色をつければ…

Page 47: 遺伝 統計学における 正単体の活用

CD138

CD27

特定の分子の多寡で色をつければ…

(1,0,0) -> (1,0,0) -> (1,1,0) -> (1,1,1) -> (0,1,1) -> (0,1,0)

Page 48: 遺伝 統計学における 正単体の活用

経路型データ• 木になぞらえるのは悪くない

Page 49: 遺伝 統計学における 正単体の活用

経路型データ• 木になぞらえるのは悪くない• 木

– ノード ( 標本 ) の数( N) と– N-1 本のエッジの引き具合と– その長さ

Page 50: 遺伝 統計学における 正単体の活用

経路型データ• 木になぞらえるのは悪くない• 木

– ノード ( 標本 ) の数( N) と– N-1 本のエッジの引き具合と– その長さ

• ずいぶんと情報が少なくできた

Page 51: 遺伝 統計学における 正単体の活用

経路型データ• 木になぞらえるのは悪くない• 木

– ノード ( 標本 ) の数( N) と– N-1 本のエッジの引き具合と– その長さ

• ずいぶんと情報が少なくできた• 少なくした情報で、無理やりに絵にすれば・・・

– グラフ・レイアウト問題• 高次元データの2次元平面への実現方法

Page 52: 遺伝 統計学における 正単体の活用

このカーブは『グラフ・レイアウト』アルゴリズムの産物であって、「木」の情報にはない

Page 53: 遺伝 統計学における 正単体の活用

このカーブは『グラフ・レイアウト』アルゴリズムの産物であって、「木」の情報にはない

木の情報だけを使うと・・・?ノード ( 標本 ) の数( N) とN-1 本のエッジの引き具合とその長さ

Page 54: 遺伝 統計学における 正単体の活用

木• 次元• ノードの位置

木の情報だけを使うと・・・?ノード ( 標本 ) の数( N) とN-1 本のエッジの引き具合とその長さ

Page 55: 遺伝 統計学における 正単体の活用

木の次元数

Page 56: 遺伝 統計学における 正単体の活用

木の次元数

• 辺の数が1 ( 次数が1 ) のノードが加わっても、配置空間の次元は上がらない

Page 57: 遺伝 統計学における 正単体の活用

木の次元数

• 辺の数が2 ( 次数が2 ) のノードが加わっても、配置空間の次元は上がらない

Page 58: 遺伝 統計学における 正単体の活用

木の次元数

• 辺の数が3 ( 次数が3 ) のノードが加わると次元が1上がる

Page 59: 遺伝 統計学における 正単体の活用

木の次元数

• 辺の数がk >=3( 次数が k) のノードが加わると次元が k-2 上がる

Page 60: 遺伝 統計学における 正単体の活用

木の次元数

• 辺の数がk >=3( 次数が k) のノードが加わると次元が k-2 上がる

どれも正単体

Page 61: 遺伝 統計学における 正単体の活用

ノードの座標

• エッジの長さを加味すれば、「木の情報のみ」でノードの座標が確定する

木の情報だけを使うと・・・?ノード ( 標本 ) の数( N) とN-1 本のエッジの引き具合とその長さ

Page 62: 遺伝 統計学における 正単体の活用

ノードの座標

• エッジの長さを加味すれば、「木の情報のみ」でノードの座標が確定する

• その座標は、

木の情報だけを使うと・・・?ノード ( 標本 ) の数( N) とN-1 本のエッジの引き具合とその長さ

Page 63: 遺伝 統計学における 正単体の活用

その座標は、• 『経路』に沿った距離を反映

• よけいな『のたくり』は排除されている

Page 64: 遺伝 統計学における 正単体の活用

その座標は、• 『経路』に沿った距離を反映

• よけいな『のたくり』は排除されている

Page 65: 遺伝 統計学における 正単体の活用

エッジが『生える』角度は「正単体」が決めているから可能な限り『まっすぐ』に伸びている

Page 66: 遺伝 統計学における 正単体の活用

まっすぐになった

Page 67: 遺伝 統計学における 正単体の活用

まっすぐ(線形)なことはやはり、なにかにつけて便利

Page 68: 遺伝 統計学における 正単体の活用

多様体学習の一種• 非線形で次元縮約

Page 69: 遺伝 統計学における 正単体の活用

今日の内容は・・・• 正単体とは• 正単体の利用例x3

– 2値型多型が作る組合せアレル ( ハプロタイプ )

• 集団遺伝学・進化学– 多次元分割表

• 代数統計– 木型グラフの次元縮約

• グラフ理論

経路型のデータ