数理デザイン道場@産総研お台場 「神経系まるごとの観測データ … ·...
TRANSCRIPT
1 The Institute of Statistical Mathematics, Research Organization of Information and Systems 2 JST・CREST 3 Graduate University for Advanced Studies
ベイズ統計学とバイオサイエンスの協働
2013年11月26日 数理デザイン道場@産総研お台場
JST/CREST 「神経系まるごとの観測データに基づく神経回路の動作特性の抽出」
飯野チーム 吉田 亮1,2,3
3
Data Unknown object
nD y y 1, , ii. Estimation
i. Modeling We are given We want to find
統計的推測を行うための三つのプロセス
iii. Prediction
Activity yet unobserved Input chemical structure
| ,p Y G
GY
4
ベイズ統計学-全ての推測は「ベイズの確率反転公式」から
Likelihood function (尤度)
Goodness-of-fit to D of each ω, evaluated
with a mathematical model
p D p D p ~
Posterior distribution(事後分布)
Probability dist. of ω conditioned by D
Likeliness of ω evaluated after we observe D
Prior distribution(事前分布)
Prior knowledge on ω represented to a probability distribution
e.g. smoothness, sparseness, any others
posterior likelihood prior
事前情報(モデル)とデータを組み合わせ、
モデルやデータ単独では決して得ることができない知識を抽出する
ベイズ統計学とコンピュータ・グラフィックス
ACM Transactions on Graphics, 30(2), 2011
柳の木を真上から投影したときの影(2D)を拘束条件として,柳の3Dグラフィックを自動生成する
5
逆問題の解法 - 事前分布と尤度
Prior distribution
柳の立体構造を生成する確率モデル
枝の成長 分岐&刈り込み
Likelihood function
投影した影 = データ(拘束条件)
~ p D
オブジェクトの投影図と拘束条件の適合度を
ガウス分布で測る
6
2
p D D Jexp
Posterior distribution
• 事後分布からサンプリング:
• 拘束条件を満たす「柳」や「都市」を自動設計
7
~ p D p D p
The produced graphic on the city (left) targeted to a whale (right)
A set of young oak trees (top), exhibiting “SIGGRAPH” when viewed from above (bottom)
事後分布から ω をランダムサンプリング
ベイズ統計学でロバストな生化学反応系を自動設計
8
Problem: Design a network system so as to reduce the
fluctuation and to respond to the input signal quickly
Output
Input
0s
1s
x
Signal + Pulse
Noise
unknown
Time series data
(Red line)
Structure? How?
(1) Blockade the fluctuation
(2) Quick response
Starting from the
anchor model
Altered
?
Example: Noising causes asynchronous production
9 Output
Input
x
0s
1s
8s
8
8
s
x xs
2 2 1 s s s
1 1 0s s s + noise
Step function
Noise
Instability of the timing in
the production of X
Fluctuations become larger
as increasing layers
10
0N H ~ ,n n n ny x w w with
,,
, , , ,
,
, ,
r ia i
a i a i r i r i
i i
r iai i i i
a A r Ra a i r r i
sx x
s s
観測モデル
システムモデル – 生化学反応方程式ネットワーク(G)に任意の摂動
時系列データ :ny 状態ベクトル(システムの内部状態を表す非観測量) :nx
i i
i i i j j i jj T j C
s s s s noise
0 s input noise
• 出力変数:
• 仲介変数:
• 入力シグナル:
i
i i i i jj C
s s s noise
シグナル伝達
複合体の形成
状態空間表現 - データとモデルを関連付ける
11
ix
0 s
is
Input
Output
微分方程式のネットワーク構造Gと
パラメータ θ を同時に探索
最終生成物の時系列データを与える (red line)
逆問題の設定
入力シグナルと揺らぎのパターンを与える
13
1 1 d , , , ,N Np D p p D x x p x x x
シミュレーションの出力(black)とデータ(red)
の適合度を測る
シミュレーションに任意の摂動 パルス,ノイズ,システム損傷
デザイン・パラメータ G G ,
事後分布:二つのクライテリアを考慮
データに対する高い再現性
摂動の影響を抑制
ベイズ法で逆問題を解く
14
事後分布から10億個の“システム”をサンプリング (マルコフ連鎖モンテカルロ法)
ロバスト性を有する約4種類の生化学反応システムが見つかった
事後分布から生成したサンプルをカーネルPCAで二次元平面にプロット
15
Output
Input
0s
1s
2s
1 2ss
x
Pulse
Noise
Binding
0 1 2s ss
Binding
Ex. A robust signal transduction system
Three variables on different layers form two complexes
During the two binding processes, the noise
components are canceled out, contributing much
greater reduction of fluctuations
The rapid response of X is due to the involvement of
the input signal itself in the regulator
The search space is very huge, the posterior surface is inherently multimodal
Conventional method would be stacked to locally higher energy states
16 16
As diverse as many events could be detected
with onetime-parallel computation in a
statistically unbiased way
Most simulation trajectories starting from
different initial states would be absorbed to
a higher energy region
Independent parallel computation Multi-task parallel simulation
Repulsions are acted
Big challenge – Multimodality and High-dimensionality
Repulsive Parallel MCMC algorithm
Collaboration to H.Ikebata (GUAS) and A.Doucet (Oxford Univ)
「拡大事後分布(サイズMのレプリカ)」 + 「オブジェクト間の反発作用」
, , ,| |1
1
M
i k hk h
Mi
p p DD
オブジェクト間の類似度の減少関数
3
1
2
シミュレーション軌道を反発
違う領域に向かう作用
反発作用
β=0: バイアスが消える
作業分担:1回の並列シミュレーションで、多様な
オブジェクトを(バイアスなく)サンプリングする
18
データ統合型シミュレーション解析-データ同化
気象・海洋学に由来
様々な逆問題に対する解法
• パラメータの推定 (物理パラメータ,境界条件など)
• 部分観測データからシステム全体の内部状態の推定
• モデルの評価・選択・改変
バイオサイエンスにおける戦略的応用分野の開拓
統計数理研究所のデータ同化研究への取り組み
神経系まるごとの観測データに基づく神経回路の動作特性の解明
JST戦略的創造研究推進事業(CREST) 「生命動態の理解と制御のための基盤技術の創出」
G1 飯野 雄一(東京大学)
トランスジェニック株
4Dデジタルアトラス
勾配認識・学習機構
代表:飯野雄一(東京大学) 期間:H25.10-H31.3
G2 石原 健(九州大学)
4Dイメージング
自発的神経活動
行動決定機構
G3 岩崎 唯史(茨城大学)
神経系のモデリング
シミュレーション
G4 吉田 亮(統計数理研究所)
バイオイメージ・インフォマティクス
データ同化
実験班 モデル開発班
統数研: 徳永旭将 池端久貴 逸見昌之
金沢大学: 広瀬修 川口翔太朗
データ解析班
データの提供 画像解析による定量化 データ同化
感覚・行動系の情報処理
モデル
20
● 121 neurons ― Minimum spanning tree
生きた線虫の神経系のカルシウムイオン・イメージング 4D = 空間3次元+時間1次元 (時空間データ) 約160個のオブジェクト(神経細胞)の自動トラッキング・定量化
Ca2+ imaging data
21
データ同化-データとモデルを結び付ける
302ニューロンの神経回路モデル
(シナプスの配線図は既知)
100-160ニューロンの時系列データ
(部分観測システム)
逆問題を解き、神経系全体の内部状態を復元
*