蛋白質構造データバンク事業と 国際的な展開...
TRANSCRIPT
蛋白質構造データバンク事業と国際的な展開
中村 春木大阪大学蛋白質研究所
PDBj 日本蛋白質構造データバンク
文科省統合データベースプロジェクトシンポジウム東大武田先端知ビル,2009年6月12日
PDB (Protein Data Bank) since 1971: 蛋白質の立体(3次元)構造情報
原子種とその座標、アミノ酸残基、実験手法、実験時の情報、実験観測データ(構造因子)が整理して登録し、Webから無料公開を行う。
X線結晶解析、核磁気共鳴法(NMR)、電子顕微鏡観測
蛋白質立体構造
http://www.wwpdb.org/
Agreement signature
Nature Structure Biology (2003) Vol. 10, No.12
wwPDBにおける国際協力
(Berman, Henrick & Nakamura (2003) Nat. Struct. Biol. 10, 980)
1) データ編集・登録作業を、wwPDBのメンバーで協力しながら実施する。
2) 唯一のデータアーカイブを持ち、米国のRCSB-PDBがアーカイブ・キーパーとして書き込み
権限をもつ。
3) データ・フォーマットや新たな記述法については、各メンバー間内の討議により決定する。(V3.1→V3.2)
4) 各メンバーは、各々独自のデータ・ブラウザ、ビューア、検索ツール、Web サービスを開発することが期待される。
RutgersUniv.
UCSD NIST
PDBjEBI
RCSBBMRB
日本PDBj, 米国RCSB-PDB, 欧州 PDBe-EBI, BMRB(NMRDB)の四極を結んだwwPDBを運営
(Ref: Nucleic Acids Res. (2007) 35, D301-D303)・シングル・データ・アーカイブを構築。 (同時公開の開始)・データ記述法(v3.2)を共同で修正・確立。・データ内容の修正(remediation)を実施。Ligand data (RCSB-PDB), Sequence data (PDBe-EBI), Primary citation (PDBj)・wwPDBAC会議(S. K. Burley議長)を開催。2004年11月Washington DC, 2005年8月Florence,2006年10月東京, 2007年9月Princeton, 2008年9月EBI
2006年10月@東京
2007年9月@Princeton
2008年9月@EBI2008年9月, EBIでのwwPDBAC メンバー
wwPDB FTP Traffic
61,364,573 ファイルが2009年3月の1ヶ月間に世界中のwwPDBメンバーサイトからダウンロードされている(RCSB-PDB, EBI-PDBe, and PDBj)
英語サイト 日本語サイト
中国語サイト ハングル サイト
英語サイト 日本語サイト
中国語サイト ハングル サイト
Protein Data Bank Japan
日本蛋白質構造データバンク
http://www.pdbj.org/
大阪大学蛋白質研究所 にて実施。
(独立行政法人)科学技術振興機構バイオインフォマティクス推進センター(http://www-bird.jst.go.jp/)が2001年から支援
原子種とその座標、アミノ酸残基、実験手法、実験時の情報、実験観測データ(構造因子)を整理して登録。Webから無料公開。
日本蛋白質構造データバンク:PDBj1.国際蛋白質構造データバンク(wwPDB)の創設
(2003年)と協力
2.蛋白質立体構造データベース登録作業(~28%)3.蛋白質構造情報の標準XML記述(PDBML)の開発とその応用
4.蛋白質構造解析実験および蛋白質機能に関する文献・データベース情報の付加
5.蛋白質立体構造に関する新規二次データベースの構築と解析ツールの開発
6.講習会やセミナーの開催
日本蛋白質構造データバンク:PDBj1.国際蛋白質構造データバンク(wwPDB)の創設
(2003年)と協力
2.蛋白質立体構造データベース登録作業(~28%)3.蛋白質構造情報の標準XML記述(PDBML)の開発とその応用
4.蛋白質構造解析実験および蛋白質機能に関する文献・データベース情報の付加
5.蛋白質立体構造に関する新規二次データベースの構築と解析ツールの開発
6.講習会やセミナーの開催
0
2000
4000
6000
8000
1 11 21 31
Yea
rly
regi
stra
tion
num
ber
Yearly wwPDB processed numberYearly PDBj processed number
8000
6000
4000
2000
0
1972 75 80 85 90 95 2000 05 2009year
Total 58,083 data on 10 June, 2009
We process 25-30 % deposited data of the entire world, mainly from Asian and Oceania regions
PDBj におけるデータ処理数の変遷
日本蛋白質構造データバンク:PDBj1.国際蛋白質構造データバンク(wwPDB)の創設
(2003年)と協力
2.蛋白質立体構造データベース登録作業(~28%)3.蛋白質構造情報の標準XML記述(PDBML)の開発とその応用
4.蛋白質構造解析実験および蛋白質機能に関する文献・データベース情報の付加
5.蛋白質立体構造に関する新規二次データベースの構築と解析ツールの開発
6.講習会やセミナーの開催
Get Entry Data from our XML-based browser
Access to http://www.pdbj.org/
PDBID (e.g. 12as) should be input in a box and GO
12as
Summary for each PDBID is displayed.
Graphic viewer: jV version 3.6Access to http://www.pdbj.org/jV/
Development of other Databases and Services
Encyclopedia of Protein Structures, eProtS(Kinjyo, Kudo, & Ito)
Molecular of the Month, MoM(Goodsell & Kudo)Alignment of Sequence and
Structures. MAFFTash(Kato. Toh & Standley)
Homolog protein search,Sequence Navigator(Standley)
Similar fold search,Structure Navigator(Standley & Toh) Protein Folds Browser,
Protein Globe (Kinjo & Standley)
Search for Similar Surface, eF-seek (Kinoshita & Nakamura)
Electron Microscopy Navigator, EM-Navi (Suzuki)
Function Annotation from Folds and Sequences, SeSAW (Standley)
Ligand Binding Site Search,GIRAF (Kinjo)
Development of other Databases and Services
Protein Dynamics Database, ProMode (Wako & Endo)
Protein Molecular Surface Database, eF-site(Kinoshita & Nakamura)
What is required for Databank?・For authors’ benefit (登録者のために)・Good portability (登録のしやすさ)・Rapid deposition (登録が早く便利なこと)
:
・For both authors and users (global community)・Good data quality (データの優れた品質の確保)・Quality of each data can be validated(個々のデータの品質をユーザが判断できる)
・For users’ benefit (ユーザのために)・Good portability (使いやすさ)・Rapid search (検索が早く便利なこと)・Can be customized (カスタマイズできること)
:
データの品質管理・保守について
• 登録時に、各立体構造の品質が厳しく検査・鑑定される。登録者本人と、wwPDBのアノ
テータが、それぞれ検証する。この検証に合格しないと、PDBIDが発行されない。
• 実験情報(X線結晶解析の場合には構造因子、NMRの場合には原子間距離情報) が、2008年2月1日から、登録時に座標と同時に必須の項目となった。
• データ記述のスキーマがバージョン(最新版:v3.2) 毎に正確に定義され、記述についてのvalidation(検証)が常になされて公開される。
1JSQ, 2Z2R
Incorrect structures and validationExample: ABC transporter MsbA and
EmrE multidrug transporterProtein Science16:1013-1016 (2007)
T.A. Jones & G.J. Kleywegt (2007) Experimental Data for Structure Papers Science 317:194-195
R.P. Joosten & G. Vriend (2007) PDB Improvement Starts with Data Deposition. Science 317:195-196
A. Wlodawer (2007) Deposition of Structural Data Redux. Acta Cryst D63:421-423
B.W. Matthews (2007) Five retracted structure reports: Inverted or incorrect? Protein Science 16:1013-1016
M. Crispin, D.I. Stuart & E. Y. Jones (2007). Building meaningful models of glycoproteins. Nature Structural & Molecular Biology 14:354
H.M. Berman, K. Henrick, H. Nakamura & J. Markley (2007). Reply to: Building meaningful models of glycoproteins. Nature Structural & Molecular Biology14:354-355
B. Rupp. (2006) Real-space solution to the problem of full disclosure Nature 444:817
2007 – Commentaries on incorrect structures
Possible reasons• Rushed as a short communication into the prestigious high
impact journal • Ignoring all counter theoretical and spectroscopic evidence• Fewer professional crystallographers• Crystal structures by biologists with limited crystallographic
background• High throughput methods• Solved using black box crystallographic firmware/software• Exploding number of structural papers to review and limited
number of willing referees with crystallographic knowledge• Papers are increasingly refereed by non-crystallographers
who are unaware of many potential pitfalls• Limited supporting information available for the reviewer
データの品質管理・保守について
• 登録時に、各立体構造の品質が厳しく検査・鑑定される。登録者本人と、wwPDBのアノ
テータが、それぞれ検証する。この検証に合格しないと、PDBIDが発行されない。
• 実験情報(X線結晶解析の場合には構造因子、NMRの場合には原子間距離情報) が、2008年2月1日から、登録時に座標と同時に必須の項目となった。
• データ記述のスキーマがバージョン(最新版:v3.2) 毎に正確に定義され、記述についてのvalidation(検証)が常になされて公開される。
データの品質管理・保守について
• 登録時に、各立体構造の品質が厳しく検査・鑑定される。登録者本人と、wwPDBのアノ
テータが、それぞれ検証する。この検証に合格しないと、PDBIDが発行されない。
• 実験情報(X線結晶解析の場合には構造因子、NMRの場合には原子間距離情報) が、2008年2月1日から、登録時に座標と同時に必須の項目となった。
• データ記述のスキーマがバージョン(最新版:v3.2) 毎に正確に定義され、記述についてのvalidation(検証)が常になされて公開される。
データの品質管理・保守について
• 登録時に、各立体構造の品質が厳しく検査・鑑定される。
←構造生物学の専門家集団が必要(最新の測定法に精通している)
• 実験情報が必須の項目。
←膨大な実験結果の情報(手法や測定時のパラメータを含む)をオントロジーで整理しながらDB化するために情報科学の専門家が必要
• データ記述のスキーマの定義とデータ検証
←スキーマ記述やvalidationを行うプログラマ
や情報技術のエンジニアが必要
メンバー
代表: 中村春木
PDBj データベース管理運営グループ:中川敦史, 松浦孝範,五十嵐令子,見学有美子,松浦かんな,井上真由美,陳 旻瑜
ツール・サービス開発グループ:金城 玲, 岩崎憲治,鈴木博文,山下鈴子,工藤高裕,
清水有希子,鎌田知左
NMR データベース (BMRB-PDBj)グループ:藤原敏道, 阿久津秀雄, 小林直宏、中谷英一, 原野陽子
研究開発協力者:Daron M. Standley(阪大免疫フロンティア),木下賢吾 (東大医科研), 藤博幸(九大生防研),輪湖博(早大),伊藤暢聡(東京医歯大)
Report from National Science Board in Sept 2005 from NSFhttp://www.nsf.gov/pubs/2005/nsb0540/
ELIXIR MissionTo construct and operate a sustainable infrastructure
for biological information in Europe, to support life science research and its translation to medicine and the environment, the bio-industries and society.
• Partners: 32 partners, 13 member states• Funding: 4.5 M€ from EU FP7 • Deliverable: Consortium agreement to define the
scope of the infrastructure and how it will be constructed
Head of Elixir Project:Dr. Janet Thornton
http://www.elixir-europe.org/
Goals for ELIXIR• Optimal Data Management
– Coordinated Data Resources with improved access– Integration and interoperability of diverse heterogeneous data– Good Value for Money
• Forge Links to data in other related domains
• A single European voice in international collaborations to influence global decisions and maintain open access to data
• Enhance European competitiveness in bioscience industries
• Address need for Increased Funding & its Coordination
36
Stakeholders• Funders of Infrastructure
– National Government Funding Bodies; EMBL; EU Charities; Industry
• Data Resource Providers – Core Resources– Specialist (Many investigators - distributed)
• Data Providers– Experimentalists
• Tool Providers– Bioinformatics Groups
• Users
Why do we need ELIXIR?
•Data Growth•Global context•Very large user community:
– 3.3 m web hits/day
– 20,000 unique users per day
•Need to preserve data and make accessible to all•Impact on medicine & agriculture•Impact on society & bioindustries•Need for increased funding for biodata resources
Server Storage
0200400600800
100012001400
2006 time now
TB
Europe
USA
Japan
生命科学系データベース統合化の背景 大久保公策 Vol. 52 No. 9 (2007) 1027-1031統合データベースがめざすもの 高木利久 Vol. 52 No. 11 (2007)1388-1389医薬品の統合データベース 金久實 Vol. 52 No. 12 (2007)1486-1491蛋白質構造情報の高度化と統合データベース 中村春木 Vol. 52 No. 14 (2007)1897-
1905ゲノム情報と統合データベース 五條堀孝 Vol. 52 No. 15 (2007) 2006-2011ライフサイエンスにおけるデータベース構築のための人材養成 瀬々潤、池村淑道 Vol.
53 No. 1 (2008) 87-93海外データベースとの連携 舘野義男 Vol. 53 No. 2 (2008)182-189統合データベースプロジェクトのサービスとその利用法 川本祥子、坊農秀雄 Vol. 53 No. 3
(2008)281-287利用者の立場からのコメント 中村桂子、佐藤清、堀田凱樹、中井謙太、田畑哲之、津金
昌一郎、松田秀雄、西川建、白井宏樹、深海薫、Vol. 53 No. 5 (2008) 686-691わが国における疾患データベースの統合化 田中博 Vol. 53 No. 6 (2008) 774-782ゲノムワイド関連解析データベースの開発 小池麻子、西田奈央、徳永勝士 Vol. 53 No.
7 (2008) 882-887「蛋白質核酸酵素」バックナンバーの全文検索サービス公開にあたって 川本祥子 Vol.
53 No. 9 (2008) 1200-1205
共立出版「蛋白質核酸酵素」誌での連載ライフサイエンス分野の統合データベース
For Long-Lived and Sustainable Databases:Roles and Resposibiliteis of
Data ProducersData UsersData ManagersData Scientists
(for both informatics and particularbiology field)
Funding Agencies
Conclusion
(日本の場合にはお金だけでなく人:安定な雇用も)