立教大学化学実験3 smilesを中心とした高度な分子モデリング 2014/7/1
DESCRIPTION
立教大学化学実験3 資料 SMILESを中心とした分子モデリング SMILESから原子たちの三次元座標を求めたり、原子の座標からSMILESを求めたり、SMILESからIUPAC名、IUPAC名からSMILESへの変換、実験値がないときの妥当な分子構造の求め方について(SMILES -> 3次元座標 -> am1 opt -> hf/sto-6g opt -> b3lyp/6-31g* opt)、など。TRANSCRIPT
初めに言葉があった。
言葉は神と共にあった。言葉は神であった。
この言葉は初めに神と共にあった。 すべてのものは、これによってできた。
できたもののうち、一つとしてこれによらないものはなかった。
(ヨハネ福音書 1:1~ 1:3)
名無し、天地の始めには。名有り、万物の母には。
( 老子 一章 )
今日の学習内容• 高度な分子モデリング– SMILES表記について学ぶ
Ex. ビタミン B1 OCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2
– SMILES表記から分子の初期構造を生成する• http://cactus.nci.nih.gov/translate/
– 分子の IUPAC名から分子の初期構造を生成する• http://opsin.ch.cam.ac.uk/
• 化合物の名前を調べる– SMILESから慣用名、 IUPAC名などを調べる– http://www.chemicalize.org/– inputファイルから SMILES表記を調べる– http://www.webqc.org/molecularformatsconverter.php
• 分子の構造式を gif図にする– http://cactus.nci.nih.gov/gifcreator/
分子のモデリングの問題Ieurosine
分子のモデリングの問題tert-butyl N-[(2S,3S,5S)-5-[[4-[(1-benzyltetrazol-5-yl)methoxy]phenyl]methyl]-3-hydroxy-6-[[(1S,2R)-2-hydroxy-2,3-dihydro-1H-inden-1-yl]amino]-6-oxo-1-phenylhexan-2-yl]carbamate
分子のモデリングの問題
•ChemDraw や GaussViewで分子を作るのめんどくさい…•できた分子の名前しら
べるのめんどくさい…
分子のモデリングの問題• 人間は間違うことがある。• GuassView で初期構造を作っても構造最適
化が収束しないことがある。• 計算結果でできた分子の名前を知りたい。• ChemDraw と GaussView で分子モデルつく
るのは二度手間• 類似物質の検索…– Google みたいに検索できないのか ?
分子の表記 : 分子ってなんだろう ?
原子核の 3 次元座標
正確だがわかりづらい
抽象度が高くなると理解・分類しやすくなるが正確さは減る :ex. 立体配座命名法は便利だが最終的には場当たり式
Propionaldehyde
分子の定義に厳密なものは多分無い…
分子の波動関数慣用名IUPAC 命名法構造式
Wikipedia より
分子の表記 : 分子ってなんだろう ?
• 化学的直感 (なんとなく )により「分子」を定義する。– 安定な分子、というのは何 ? 中間体は分子か ?
• 分子の分類 : 分子に名前をつける– 核の三次元座標– 構造式– IUPAC命名法
• 一つの分子に多くの IUPAC名が存在する…– 抽象度を高くすると必ず情報の欠落がおこる
• 「シクロヘキサン」という情報だけでは chair, boatかわからん• Chairと boat-シクロヘキサンの分離は常温では不可能
• 良い分子の表記方法はないか ?– 人間にわかりやすい。– コンピュータ処理しやすい (検索など )– 系統的に分子を記述でき、あまり例外がない。– 最終的にはどこで妥協するかになる。
SMILES 表記 : 分子の名前の付け方
• SMILES 表記• コンパクトで人間にもコンピュータにもわかりやす
い表記としてよく使われる– メタン : “C” – エタノール : “CCO”– ベンゼン : “C1=CC=CC=C1” or “c1ccccc1”– グルコース : “OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@@H](O)1”
SMILES 表記 : 分子の名前の付け方
• Simplified Molecular Input Line Entry System– ASCII文字を使った一次元的な分子の表現方法。 2次元、 3次元
の分子モデルに相互に変換できる。– 立体配座などの指定も可能– 人間でもなんとか読める、コンピュータ処理も可能。– 一つの分子は複数の SMILES表記を持つことがあるが、(ほぼ )一対一対応の Canonical (正準 ) SMLIES表記もある。
• 1980年代に、 Duluthにある USEPA Mid-Continent Ecology Division Laboratory Duluth David Weininger が作った。
• IUPACは SMILESではなく新しく InChIという表記を作った。– International Chemical Identifier : 若干複雑– 実は InChIのお陰で Universal SMILESができて、すごく進歩した (NM O’Boyle)。
分子の SMILES 表記の例http://en.wikipedia.org/wiki/SMILES より
分子 構造 SMILES
窒素分子 N≡N N#N
硫酸銅 Cu2+ SO42- [Cu+2].[O-]S(=O)(=O)[O-]
エナントトキシン CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO
ビタミン B1 OCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2
アフラトキシン B1 O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
SMILESチュートリアル• http://www.daylight.com/meetings/summerschool98/course/dave/smiles-intro.html#TOC– Introduction– Atoms– Bonds– Branching
SMILES: まとめ• SMILES 表記で分子を表現できる。– http://www.daylight.com/meetings/summerschool98/course/dave/smiles-intro.html#TOC
• 一つの分子にいくつもの SMILES 表記があることがある。
エタノール : CCO C(O)C – 正準化すると ( ほぼ ) 一対一対応になる
• SMILES 表記の読み方、書き方の初歩を解説
[課題 1]• 以下の分子の SMILES表記を求めよ
– Methane– Water– Ethanol– Benzene– cyclohexane– nitrobenzene– trans-2-butene– isobutyric acid– 4-heptanoic acid– trans-difluoroethene– L-alanine– D-alanine
ひとやすみ
SMILES から分子を生成するアフラトキシン
O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
SMILES から分子を生成する• SMILES表記をひとつ用意する。• http://cactus.nci.nih.gov/translate/ にアクセス1. SMILESを 1.に入力2. MOLを選択3. 3Dを選択4. Translateボタンを押す5. Click here でセーブ
セーブされないときは名前を付けて保存、拡張子はmolにすること
6. ファイル (ファイル名は毎回若干違う ) ができる
SMILES から分子を生成する
SMILES から分子を生成する• tclcactvs000Sn24D2.mol ( 名前は生成するたびに若干変わる ) を GaussView で開くと… OK!!
[課題 2]
• 20種類のアミノ酸について SMILES から分子構造を一つずつ決定し、 AM1 optを行え。結果のエネルギー値を読み専のものと比較してあっているかどうかチェックせよ (光学異性体を考慮する必要はない )。
• アラニン、グリシンについて B3LYP/6-31G* により構造最適化して、実験値と比較せよam1 opt -> hf/sto-6g opt -> b3lyp/6-31g* opt の順に行え。 Cf. L-alanine http://pubs.acs.org/doi/pdf/10.1021/ja00763a016 and Glycine http://pubs.acs.org/doi/pdf/10.1021/ja00050a041
IUPAC 名から分子のモデル生成• IUPAC 命名法 :国際標準の分子の体系的な
命名法、よく使われる• CONS: 分子が大きくなると大変複雑にな
る 3',6'-dibromo-2,2'',4,4''-tetramethyl-5'-[({[(1s,2r,5s)-5-methyl-2-(propan-2-yl)cyclohexyl]oxy}acetyl)oxy]-1,1':4',1''-terphenyl-2'-yl{[(1r,2s,5r)-5-methyl-2-(propan-2-yl)cyclohexyl]oxy}acetate
• 楽をしたい…• SMILES経由で分子を生成する :OPSIN
http://opsin.ch.cam.ac.uk/
IUPAC 名から分子のモデル生成• OPSIN サイト http://opsin.ch.cam.ac.uk/
IUPAC 名から分子のモデル生成• 1. Window に IUPAC 名を入れて 2. “Submit”ボタンを押す
だけ !• 3',6'-dibromo-2,2'',4,4''-tetramethyl-5'-[({[(1s,2r,5s)-5-methyl-2-(propan-2-yl)cyclohexyl]oxy}acetyl)oxy]-1,1':4',1''-terphenyl-2'-yl{[(1r,2s,5r)-
5-methyl-2-(propan-2-yl)cyclohexyl]oxy}acetate
をいれてみた• 3. SMILES 表記を選択して cactusへ入力
IUPAC 名から分子のモデル生成完成 !
[課題 3]
以下の分子について構造式を示し、 SMILES を求め、 b3lyp/6-31G* opt の計算を行い、エネルギー値をもとめよ。
am1 opt -> hf/sto-6g opt -> b3lyp/6-31g* optせよ• 4-methylpentanal• 4-fluoro-4-methylcyclohexa-2,5-dien-1-one• 2-amino-4-methyl-1H-pyrrole-3-carbonitrile• 4h-cyclopenta[c]thiophen-4-one• 1,3-dimethoxybutane• [(2R)-but-3-en-2-yl]cyclopropane
まとめ :IUPAC 名から分子モデルの生成
• OPSIN ( http://opsin.ch.cam.ac.uk/ ) を使うことで分子の IUPAC 名から SMILES 表記に直せる
• SMILES 表記から分子のモデリングが可能
ひとやすみ
化合物の名前を調べる• SMILES から IUPAC 名を求めたい• 化合物の ( だいたいの ) 構造がわかったと
き、その SMILES 表記を求めたい。– Gaussian のアウトプットファイルから求めら
れないか ?
SMILES から IUPAC 名を求める• SMILES から IUPAC 名を求めたい– http://www.chemicalize.org/–完全ではない : でてこないのもある…
Chemicalize の使い方
1. SMILES( など ) を入力
2. Properties View を押す3.例C(CCC(=O)OC)C(CO)C(=O)O
Chemicalize の使い方
Gaussian の input ファイルから SMILES を求める
• http://www.webqc.org/molecularformatsconverter.php– Gaussianの inputファイルを用意– 一行目に原子の数を数えていれる。– 二行目にはコメントを入れる。– 三行目以降に Xyz座標が出ているところをペースト– Input File type: xyz XYZ cartesian cordinates format– Output file type : smi SMILES format– Convert!– アウトプットファイルからも原理的には可能…
Gaussian の input ファイルから SMILES を求める水分子の例
Gaussian の input ファイルから SMILES を求める
Gaussian の input ファイルから SMILES を求める
MOLECULE IN OUTPUT FORMAT に SMILES がでてくる
[課題 4-1]
以下の SMILES 表記の分子について IUPAC 名を求めよ ( 実際は改行はない ) 。• CN(C)CCOC12CCC(C3C1CCCC3)C4=CC=CC=C24• CC(C)CC(=O)CC(C)C1CCC(=CC1)C(=O)O• CC1=NC2=C(C=C1)C(=CC(=N2)C3=CC=CC=C3)N(CCCl)CCCl
• COC1=C(C=C(C=C1)[C@H](C2=C(C3=C(C=CC=N3)C=C2)O)NC(=O)CC4=CC=CC=C4)OC
[課題 4-2]
読専にある compound1,2,3,4,5 は一体どんな分子か、 SMILES および IUPAC 名、また、あれば慣用名を示せ。
ひとやすみ
分子の構造式を書く• http://cactus.nci.nih.gov/gifcreator/
GIF/PNG-Creator for 2D Plots of Chemical Structuresの使い方
GIF/PNG-Creator for 2D Plots of Chemical Structuresの使い方
1. SMILES を入力2. Submit を入力3. 出てきた画像をWord にコピペ
Tips1. Image Format はPNG のほうがいいいかも。
2. Image Width, Image Height は 320 など大きめにすると綺麗
[課題 5]
20種類のアミノ酸について構造式を書け– http://cactus.nci.nih.gov/gifcreator/– SMILES は課題 2 で求めたはず– できた図を Word に貼り付けよ
今回のまとめ• 分子の SMILES記法がある、そして大変便利、という程
度に、ざっくり学習した。– 細かいところは各自勉強して下さい…
• IUPAC名や分子構造から SMILESを作成する方法を学んだ。逆に SMILESから IUPAC名や分子構造を作る方法を学んだ。– 分子構造の実験値がないときは SMILESから分子の初期構造を
作って、 am1 opt, hf/sto-6g opt, b3lyp/6-31g* optすれば 9割くらいそれらしいのが求まる(cf. http://pubchemqc.riken.jp/ 10万分子で検証済 )。• それ以上は文献調査や実験する、しかない。
– 分子の名前がわからない時は SMILESになおして検索する• 分子の構造式を gif画像にする方法を学んだ。
お疲れ様でした !