Finding correct protein–protein docking models using ProQDock
Sankar Basu and Björn Wallner
Dev of Bioinformatics, Dept of Physics, Chemistry and Biology, Linköping University, Sweden
ISMB2016読み会
PROTEIN INTERACTIONS & MOLECULAR NETWORKS
発表者:大上 雅史 (東京工業大学 情報理工学院 情報工学系 助教)
twitter @tonets
ProQDockで正しいタンパク質複合体構造予測モデルを探す
Bioinformatics, 32, 2016, i262–i270
2016/8/17
概要
2
何をやった?
技術や手法の肝はどこ?
タンパク質ドッキングで作った複合体モデル構造から,より正しいモデルを選ぶための方法 ProQDock を作った.似たような研究は山ほどあるが,有名なツールであるZRANKに比べて良い精度であることが示されている.
今までの構造選択 ・複合体構造から計算されるエネルギースコア(スコア関数)の値に基づく ・スコア関数の設計が重要 ・Potential Mean Force系のスコアが多かった この研究 ・(Rosettaの)エネルギースコアを含む特徴量からSVMでスコア関数を構築 ・これまでより良い精度を達成した ・学習器の汎化性も独立test setで確認できた
タンパク質ドッキング?
タンパク質の複合体構造を,単体の構造情報(PDBファイル)を使って予測する問題.N体(N量体, N-mer)の問題が考えられるが,特に明言しない限り2体(2量体, dimer)の予測問題を扱う.
タンパク質ドッキング
3
タンパク質の複合体構造を予測する問題.特に明言しない限りスタートは単体の構造情報(PDBファイル).また,N体(N量体, N-mer)の問題が考えられるが,特に明言しない限り2体(2量体, dimer)の予測問題を扱う.
関連する予測問題 • タンパク質ドッキング=タンパク質複合体構造予測=タンパク質4次構造予測 • タンパク質結合部位予測 ― 結合部位を残基レベルで予測する • タンパク質複合体親和性予測 ― 結合自由エネルギーΔGや結合定数KDを予測する • タンパク質複合体予測 ― 相互作用が知られているタンパク質が,実際に複合体を形成するか
どうかを予測する.グラフマイニングに近い.≠複合体 “構造” 予測 • タンパク質間相互作用予測=タンパク質結合パートナー予測
― タンパク質が相互作用(≒結合)するかどうか予測する • リガンドドッキング=タンパク質-低分子化合物ドッキング ― 相手が低分子 • タンパク質-ペプチド/タンパク質-DNA|RNA / タンパク質-脂質 / タンパク質-糖鎖/ etc.
input output
単純に攻めると組み合わせ爆発 • 膨大な構造の自由度 • タンパク質全体の構造自由度(並進,回転) • タンパク質(アミノ酸)の主鎖構造の自由度 • 個々のアミノ酸(側鎖)の構造自由度
• 様々な物理化学的効果が伴う評価関数 • ファンデルワールス力,静電相互作用,
疎水性相互作用,水素結合, π-π相互作用,etc.
→ 全部を見て最適化は不可能 • どこから手をつけるか?
基本的な戦略:大枠から攻める 0. どの辺りにくっつくかアタリをつける 1. 大雑把なスコア関数による大まかな探索 2. 詳細なスコア関数によるリスコアリング・モデル選択 3. 主鎖/側鎖構造を変化させて局所探索
基本的なドッキングの戦略
4
※decoy=model =予測された複合体構造
↑この研究はコレ
ドッキングにおける要素 1. 探索 2. スコア関数 ←この論文の対象
ProQDock • モデル構造のみから計算できる13の特徴量を使って
SVMで予測モデルを構築 • 構造の良さはDockQ scoreという値を用いて評価 • 著者らが考えた評価指標[Bass] • 従来使われているL-RMSD, i-RMSD, Fnat[Méndez2003]を統合
• ZRANK2[Pierce2008]と比較,性能検証
この論文の内容
5
[Basu] Basu S, Wallner B. (in press) DockQ: a quality measure for protein-protein docking models. PLoS ONE. [Pierce2008] Pierce B., Weng Z. (2008) A combination of rescoring and refinement significantly improves protein docking performance. Proteins, 72, 270–279. [Méndez2003] Méndez R. et al. (2003) Assessment of blind predictions of protein–protein interactions: current status of docking methods. Proteins, 52, 51–67.,
ProQDockのSVMに使った特徴量
[0, 1] [0, 1]
[-1, 1]
[0, 1]
[0, 1]
[0, 1]
[0, 1]
[0, 1]
[0, 1] [-1, 1]
[-1, 1]
[0, 1] [0, 1]
range
6
Rosettaのエネルギー値 [O’Meara2015]は logistic正規化して使う
[O’Meara2015] O’Meara, M.J. et al. (2015) Combined covalent-electrostatic model of hydrogen bonding improves structure prediction with Rosetta. J. Chem. Theory Comput, 11, 609–622.
データセット
3つのTraining set • 「CAPRI set」 CAPRI(複合体予測の国際コンテスト)で
出題されたターゲット15種類から,CAPRIに提出された計17,777個の予測構造
• 「MOAL set」 Docking Benchmark 4.0[Hwang+2010]の118種類のターゲットからSwarmDock[Torchala+2013]でMoalらが作った56,015個の予測構造[Moal+2013]
• 「CnM set」 CAPRI set + MOAL set.73,792構造.
Independent Test set • 「BM5 set」 Docking Benchmark 5.0[Vreven+2015]で
4.0から追加された55ターゲットから,SwarmDockで作った25,985構造.
[Hwang+2010] Hwang H. et al. (2010) Performance of ZDOCK and ZRANK in CAPRI Rounds 13 - 19. Proteins, 78, 3104–3110. [Torchala+2013] Torchala M. et al. (2013) SwarmDock: a server for flexible protein–protein docking. Bioinformatics, 29, 807–809. [Moal+2013] Moal I.H. et al. (2013) The scoring of poses in protein-protein docking: current capabilities and future directions. BMC Bioinformatics, 14, 286. [Vreven+2015] Vreven T. et al. (2015) Updates to the Integrated Protein-Protein Interaction Benchmarks: Docking Benchmark Version 5 and Affinity Benchmark Version 2. J. Mol. Biol., 427, 3031–3041.
特徴量を選んだ理由(DockQ値との相関)
8
SVMの予測を特徴量別で比較(CnM set) 13個全て利用
13個全てと ZRANK2利用
0.49 0.50
DockQ値との相関でProQDockとZRANKを比較
9
ProQDockのモデル選択力
10
ProQDockのスコア値の分布
予測構造(まあまあ→結構良い→かなり良い)
正解構造 (共結晶構造)
予測構造のうち 正しくないもの
11
ProQDockとZRANK2 「ProQDockで当たりZRANK2は外した」 「ZRANK2で当たりProQDockは外した」
読み方: A/E: レセプター電荷だけでレセプター上に静電相互作用をマップ B/F: リガンド電荷だけでレセプター上に静電相互作用をマップ C/G: リガンド電荷だけでリガンド上に静電相互作用をマップ D/H: レセプター電荷だけでリガンド上に静電相互作用をマップ
解釈 「ProQDockは静電相互作用を重要視」
12
まとめ
タンパク質ドッキングの予測構造から,より正しい構造を選ぶためのツールProQDockを開発した • SVMで13特徴量からスコア関数を構築
• DockQスコアとの相関と,実際のランキングで評価
• ZRANK2と比較して精度向上を達成
• ZRANK2と結果の傾向が異なることが示された →ProQDockZとして統合するより別々に使った方が良い?
データセットや結果はウェブ上で公開されている
ツールはここから
13
http://bioinfo.ifm.liu.se/ProQDock
http://github.com/bjornwallner/ProQDock
論文からわからなかったこと
計算時間(1モデルあたり何秒かかるのか)
ProQDockとZRANK2の統合方法 (ProQDockZの作り方) • 多分ZRANK2スコアを特徴次元として追加してSVM
予測したモデルの正解評価に用いるDockQの中身 • まだpublishされてない,githubはある
外れたターゲットは,ProQDockの後処理で外したのか,そもそもアタリが入っていなかったのか
Availability and implementation: http://bioinfo.ifm.liu.se/ProQDock にアクセスできない • http://github.com/bjornwallner/ProQDock には
アクセス可
14
FAQ (大上の感想)
なんでISMBに採択されたの? わからない… 最近のISMBでタンパク質複合体構造の話があんまりなかった.分野的にも予測がやや頭打ちになってきているところに,結構精度が上がったように見える論文が出てきたことが大きいか.
使えそう? わからない… 実際のところ,試してみないとわからないので現状ではなんとも言えない.依存パッケージが結構あってインストールはそんなに簡単ではなさそう.インストールできたら大上のドッキングソフトウェア(MEGADOCK)の結果にも試してみたい.
今後の展望は? ・ProQDockは構造ベースのPPIスクリーニング(結合パートナー予測) にも活用できそう. ・複数の相手を持つ(ハブ)タンパク質に対してどういう結果になるか 見てみたい.天然変性タンパク質の解析の一助になる可能性も(?) ・SVMでスコア関数を構築するのは,低分子化合物とのドッキング (リガンドドッキング)の方が相性が良さそう(?)
15