finding correct protein–protein docking models using proqdock (ismb2016読み会, 大上)

15
Finding correct protein–protein docking models using ProQDock Sankar Basu and Björn Wallner Dev of Bioinformatics, Dept of Physics, Chemistry and Biology, Linköping University, Sweden ISMB2016読み会 PROTEIN INTERACTIONS & MOLECULAR NETWORKS 発表者:大上 雅史 (東京工業大学 情報理工学院 情報工学系 助教) twitter @tonets ProQDockで正しいタンパク質複合体構造予測モデルを探す Bioinformatics, 32, 2016, i262–i270 2016/8/17

Upload: masahito-ohue

Post on 13-Jan-2017

371 views

Category:

Education


2 download

TRANSCRIPT

Page 1: Finding correct protein–protein docking models using ProQDock (ISMB2016読み会, 大上)

Finding correct protein–protein docking models using ProQDock

Sankar Basu and Björn Wallner

Dev of Bioinformatics, Dept of Physics, Chemistry and Biology, Linköping University, Sweden

ISMB2016読み会

PROTEIN INTERACTIONS & MOLECULAR NETWORKS

発表者:大上 雅史 (東京工業大学 情報理工学院 情報工学系 助教)

twitter @tonets

ProQDockで正しいタンパク質複合体構造予測モデルを探す

Bioinformatics, 32, 2016, i262–i270

2016/8/17

Page 2: Finding correct protein–protein docking models using ProQDock (ISMB2016読み会, 大上)

概要

2

何をやった?

技術や手法の肝はどこ?

タンパク質ドッキングで作った複合体モデル構造から,より正しいモデルを選ぶための方法 ProQDock を作った.似たような研究は山ほどあるが,有名なツールであるZRANKに比べて良い精度であることが示されている.

今までの構造選択 ・複合体構造から計算されるエネルギースコア(スコア関数)の値に基づく ・スコア関数の設計が重要 ・Potential Mean Force系のスコアが多かった この研究 ・(Rosettaの)エネルギースコアを含む特徴量からSVMでスコア関数を構築 ・これまでより良い精度を達成した ・学習器の汎化性も独立test setで確認できた

タンパク質ドッキング?

タンパク質の複合体構造を,単体の構造情報(PDBファイル)を使って予測する問題.N体(N量体, N-mer)の問題が考えられるが,特に明言しない限り2体(2量体, dimer)の予測問題を扱う.

Page 3: Finding correct protein–protein docking models using ProQDock (ISMB2016読み会, 大上)

タンパク質ドッキング

3

タンパク質の複合体構造を予測する問題.特に明言しない限りスタートは単体の構造情報(PDBファイル).また,N体(N量体, N-mer)の問題が考えられるが,特に明言しない限り2体(2量体, dimer)の予測問題を扱う.

関連する予測問題 • タンパク質ドッキング=タンパク質複合体構造予測=タンパク質4次構造予測 • タンパク質結合部位予測 ― 結合部位を残基レベルで予測する • タンパク質複合体親和性予測 ― 結合自由エネルギーΔGや結合定数KDを予測する • タンパク質複合体予測 ― 相互作用が知られているタンパク質が,実際に複合体を形成するか

どうかを予測する.グラフマイニングに近い.≠複合体 “構造” 予測 • タンパク質間相互作用予測=タンパク質結合パートナー予測

― タンパク質が相互作用(≒結合)するかどうか予測する • リガンドドッキング=タンパク質-低分子化合物ドッキング ― 相手が低分子 • タンパク質-ペプチド/タンパク質-DNA|RNA / タンパク質-脂質 / タンパク質-糖鎖/ etc.

input output

Page 4: Finding correct protein–protein docking models using ProQDock (ISMB2016読み会, 大上)

単純に攻めると組み合わせ爆発 • 膨大な構造の自由度 • タンパク質全体の構造自由度(並進,回転) • タンパク質(アミノ酸)の主鎖構造の自由度 • 個々のアミノ酸(側鎖)の構造自由度

• 様々な物理化学的効果が伴う評価関数 • ファンデルワールス力,静電相互作用,

疎水性相互作用,水素結合, π-π相互作用,etc.

→ 全部を見て最適化は不可能 • どこから手をつけるか?

基本的な戦略:大枠から攻める 0. どの辺りにくっつくかアタリをつける 1. 大雑把なスコア関数による大まかな探索 2. 詳細なスコア関数によるリスコアリング・モデル選択 3. 主鎖/側鎖構造を変化させて局所探索

基本的なドッキングの戦略

4

※decoy=model =予測された複合体構造

↑この研究はコレ

Page 5: Finding correct protein–protein docking models using ProQDock (ISMB2016読み会, 大上)

ドッキングにおける要素 1. 探索 2. スコア関数 ←この論文の対象

ProQDock • モデル構造のみから計算できる13の特徴量を使って

SVMで予測モデルを構築 • 構造の良さはDockQ scoreという値を用いて評価 • 著者らが考えた評価指標[Bass] • 従来使われているL-RMSD, i-RMSD, Fnat[Méndez2003]を統合

• ZRANK2[Pierce2008]と比較,性能検証

この論文の内容

5

[Basu] Basu S, Wallner B. (in press) DockQ: a quality measure for protein-protein docking models. PLoS ONE. [Pierce2008] Pierce B., Weng Z. (2008) A combination of rescoring and refinement significantly improves protein docking performance. Proteins, 72, 270–279. [Méndez2003] Méndez R. et al. (2003) Assessment of blind predictions of protein–protein interactions: current status of docking methods. Proteins, 52, 51–67.,

Page 6: Finding correct protein–protein docking models using ProQDock (ISMB2016読み会, 大上)

ProQDockのSVMに使った特徴量

[0, 1] [0, 1]

[-1, 1]

[0, 1]

[0, 1]

[0, 1]

[0, 1]

[0, 1]

[0, 1] [-1, 1]

[-1, 1]

[0, 1] [0, 1]

range

6

Rosettaのエネルギー値 [O’Meara2015]は logistic正規化して使う

[O’Meara2015] O’Meara, M.J. et al. (2015) Combined covalent-electrostatic model of hydrogen bonding improves structure prediction with Rosetta. J. Chem. Theory Comput, 11, 609–622.

Page 7: Finding correct protein–protein docking models using ProQDock (ISMB2016読み会, 大上)

データセット

3つのTraining set • 「CAPRI set」 CAPRI(複合体予測の国際コンテスト)で

出題されたターゲット15種類から,CAPRIに提出された計17,777個の予測構造

• 「MOAL set」 Docking Benchmark 4.0[Hwang+2010]の118種類のターゲットからSwarmDock[Torchala+2013]でMoalらが作った56,015個の予測構造[Moal+2013]

• 「CnM set」 CAPRI set + MOAL set.73,792構造.

Independent Test set • 「BM5 set」 Docking Benchmark 5.0[Vreven+2015]で

4.0から追加された55ターゲットから,SwarmDockで作った25,985構造.

[Hwang+2010] Hwang H. et al. (2010) Performance of ZDOCK and ZRANK in CAPRI Rounds 13 - 19. Proteins, 78, 3104–3110. [Torchala+2013] Torchala M. et al. (2013) SwarmDock: a server for flexible protein–protein docking. Bioinformatics, 29, 807–809. [Moal+2013] Moal I.H. et al. (2013) The scoring of poses in protein-protein docking: current capabilities and future directions. BMC Bioinformatics, 14, 286. [Vreven+2015] Vreven T. et al. (2015) Updates to the Integrated Protein-Protein Interaction Benchmarks: Docking Benchmark Version 5 and Affinity Benchmark Version 2. J. Mol. Biol., 427, 3031–3041.

Page 8: Finding correct protein–protein docking models using ProQDock (ISMB2016読み会, 大上)

特徴量を選んだ理由(DockQ値との相関)

8

SVMの予測を特徴量別で比較(CnM set) 13個全て利用

13個全てと ZRANK2利用

0.49 0.50

Page 9: Finding correct protein–protein docking models using ProQDock (ISMB2016読み会, 大上)

DockQ値との相関でProQDockとZRANKを比較

9

Page 10: Finding correct protein–protein docking models using ProQDock (ISMB2016読み会, 大上)

ProQDockのモデル選択力

10

Page 11: Finding correct protein–protein docking models using ProQDock (ISMB2016読み会, 大上)

ProQDockのスコア値の分布

予測構造(まあまあ→結構良い→かなり良い)

正解構造 (共結晶構造)

予測構造のうち 正しくないもの

11

Page 12: Finding correct protein–protein docking models using ProQDock (ISMB2016読み会, 大上)

ProQDockとZRANK2 「ProQDockで当たりZRANK2は外した」 「ZRANK2で当たりProQDockは外した」

読み方: A/E: レセプター電荷だけでレセプター上に静電相互作用をマップ B/F: リガンド電荷だけでレセプター上に静電相互作用をマップ C/G: リガンド電荷だけでリガンド上に静電相互作用をマップ D/H: レセプター電荷だけでリガンド上に静電相互作用をマップ

解釈 「ProQDockは静電相互作用を重要視」

12

Page 13: Finding correct protein–protein docking models using ProQDock (ISMB2016読み会, 大上)

まとめ

タンパク質ドッキングの予測構造から,より正しい構造を選ぶためのツールProQDockを開発した • SVMで13特徴量からスコア関数を構築

• DockQスコアとの相関と,実際のランキングで評価

• ZRANK2と比較して精度向上を達成

• ZRANK2と結果の傾向が異なることが示された →ProQDockZとして統合するより別々に使った方が良い?

データセットや結果はウェブ上で公開されている

ツールはここから

13

http://bioinfo.ifm.liu.se/ProQDock

http://github.com/bjornwallner/ProQDock

Page 14: Finding correct protein–protein docking models using ProQDock (ISMB2016読み会, 大上)

論文からわからなかったこと

計算時間(1モデルあたり何秒かかるのか)

ProQDockとZRANK2の統合方法 (ProQDockZの作り方) • 多分ZRANK2スコアを特徴次元として追加してSVM

予測したモデルの正解評価に用いるDockQの中身 • まだpublishされてない,githubはある

外れたターゲットは,ProQDockの後処理で外したのか,そもそもアタリが入っていなかったのか

Availability and implementation: http://bioinfo.ifm.liu.se/ProQDock にアクセスできない • http://github.com/bjornwallner/ProQDock には

アクセス可

14

Page 15: Finding correct protein–protein docking models using ProQDock (ISMB2016読み会, 大上)

FAQ (大上の感想)

なんでISMBに採択されたの? わからない… 最近のISMBでタンパク質複合体構造の話があんまりなかった.分野的にも予測がやや頭打ちになってきているところに,結構精度が上がったように見える論文が出てきたことが大きいか.

使えそう? わからない… 実際のところ,試してみないとわからないので現状ではなんとも言えない.依存パッケージが結構あってインストールはそんなに簡単ではなさそう.インストールできたら大上のドッキングソフトウェア(MEGADOCK)の結果にも試してみたい.

今後の展望は? ・ProQDockは構造ベースのPPIスクリーニング(結合パートナー予測) にも活用できそう. ・複数の相手を持つ(ハブ)タンパク質に対してどういう結果になるか 見てみたい.天然変性タンパク質の解析の一助になる可能性も(?) ・SVMでスコア関数を構築するのは,低分子化合物とのドッキング (リガンドドッキング)の方が相性が良さそう(?)

15