생물학 연구를 위한 컴퓨터 활용기술 13강
TRANSCRIPT
![Page 1: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/1.jpg)
Computational Skill for Modern Biology Research
Department of BiologyChungbuk National University
13th Lecture 2015.12.8
Data Mining
![Page 2: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/2.jpg)
Syllabus주 수업내용1 주차 Introduction : Why we need to learn this stuff?
2 주차 Basic of Unix and running BLAST in your PC
3 주차 Unix Command Prompt II and shell scripts
4 주차 Basic of programming (Python programming)
5 주차 Python Scripting II and sequence manipulations
6 주차 Ipython Notebook and Pandas
7 주차 Basic of Next Generation Sequencings and Tutorial
8 주차9 주차 Next Generation Sequencing Analysis I
10 주차 Next Generation Sequencing Analysis II
11 주차 Next Generation Sequencing Analysis III
12 주차 Next Generation Sequencing Analysis IV
13 주차 Structural Predictions
14 주차
![Page 3: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/3.jpg)
‘Parts’
Complex machine..
![Page 4: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/4.jpg)
‘Parts’
Complex machine is consist of various parts
![Page 5: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/5.jpg)
Cell is very complicated ‘machine’
Consisted with biological macromolecules
![Page 6: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/6.jpg)
Like examine its details on structure of parts,
Structure of ‘Parts’
![Page 7: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/7.jpg)
Structure of Biological Components
![Page 8: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/8.jpg)
Understanding structure of Protein (or RNA)
- Understanding the structure of ‘component of Life’ is the first step to understand- Life in molecular levels
• More than 20,000 proteins is encoded in human genome
• Understanding of their structure and its interactions
- Human genome projects determined human DNA sequences
• So we have sequence informations of most human (and other organism) proteins
• So it means we have ‘component list’ for that
• Now we need to know the detailed structural informations for these..
![Page 9: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/9.jpg)
Primary Structure of ProteinsAmino acid sequences of protein = Primary Structure of Proteins
![Page 10: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/10.jpg)
Secondary Structure of proteins
![Page 11: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/11.jpg)
단백질의 3 차 구조 (Tertiary Structure)
![Page 12: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/12.jpg)
단백질의 4 차 구조 (Tertiary Structure)
![Page 13: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/13.jpg)
단백질 서열 -> 구조 -> 기능단백질의 서열은 단백질의 구조를 결정하며
단백질의 구조는 그 기능을 결정한다 .
![Page 14: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/14.jpg)
Determination of Protein Structure by experimental method
X-ray Crystallography NMRNuclear Magnetic Resonance
전자현미경(Electron Microscope)
고해상도 구조 ( 최대 1-2Å)
결정화된 상태의 단백질의 스냅샷단백질을 결정화해야 함단백질 복합체 혹은 거대분자도 가능
중해상도 구조수용액 상태에서의 동적인 단백질 움직임의 앙상블수용액상에서 안정적으로 고농도로 유지가능해야 함20-30kDa 이상의 단백질은 어려움
저해상도 구조거대단백질 복합체를직접 관찰 거대복합체가 아닌경우 어려움
![Page 15: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/15.jpg)
Protein Structure Determination by X-ray Crystallography
![Page 16: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/16.jpg)
Protein Productions
- You need to have enough (5-10mg) pure (at least 95% purity) protein
- Overexpression (Bacteria or Insect Cell or Mammalian Cell) or Natural Source
- Purification
![Page 17: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/17.jpg)
Crystallization
- Concentrate Proteins (at least 5mg/ml)
- Crystallization happens in the boundary of soluble and precipitation
![Page 18: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/18.jpg)
![Page 19: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/19.jpg)
Strong X-ray generated from synchroton is essential
![Page 20: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/20.jpg)
![Page 21: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/21.jpg)
![Page 22: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/22.jpg)
![Page 23: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/23.jpg)
Raw Data : Diffraction images from Protein Crystals
ComputerAnalysis
Calcuration of electron density
~100-300 individual Images
![Page 24: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/24.jpg)
Final Structure and Interpretations
![Page 25: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/25.jpg)
실험적으로 단백질 구조를 푸는 방법을 알아야 하는가 ?
- 대개 그렇지는 않을 가능성이 많음 .
우리가 관심있는 단백질의 구조가 어떻게 생겼는지는 ?
- 알아야 한다http://www.rcsb.org
![Page 26: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/26.jpg)
In old days, you need very expensive workstation-level computerTo visualize Protein Structure..
Not anymore. Cheap PC or even your smartphone can do that.
![Page 27: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/27.jpg)
Protein Visualization Software
Pymol :http://www.pymol.org
![Page 28: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/28.jpg)
단백질을 표시하는 방법저분자 물질의 경우에는
이런 식의 spacefilling model 로 표시해도 되지만…
단백질의 경우에는
??????
좀 더 간단한 표시방법이 필요하다 .
![Page 29: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/29.jpg)
Line
단백질 전체의 표시에는 적절하지 않음
일부분 확대 표시에는 적절
![Page 30: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/30.jpg)
Ribbon
단백질의 전체 윤곽을 표시할 때 좋음
Cartoon
Alpha-Helix
Beta-Sheet
단백질의 2 차구조를 표시할때 좋음
![Page 31: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/31.jpg)
Surface Surface with Charge
![Page 32: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/32.jpg)
DEMO
Pymol, RCSB PDB
![Page 33: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/33.jpg)
Without experiments, we want to know protein structure interested
기존의 단백질 구조를 참조하지 않는 방법Ab initio modeling
기존의 단백질 구조를 참조하는 방법Homology modeling
3 차 구조 예측2 차 구조 / 기타 예측- 2 차 구조 예측- Coiled-Coil 예측- Membrane Topology 예측
GFCHIKAYTRLIMVG…
Anabaena 7120
Anacystis nidulans
Condrus crispus
Desulfovibrio vulgaris
![Page 34: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/34.jpg)
단백질의 2 차 구조 예측
단백질의 1 차 구조 ( 서열 ) 단백질의 2 차 구조 예측
Alpha Helix?Beta-sheet?Loop?
![Page 35: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/35.jpg)
![Page 36: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/36.jpg)
아미노산에 따른 2 차 구조 선호도- These amino acid prefer in alpha helix
Ala, Leu, Met, Glu, Lun, His, Lys, Arg
- These amino acids prefer beta-sheet because of their bulky side chainsTyr, Trp, Phe, Ile, Val, Thr, Cys
- These amino acids tend to break amino acid sequencesGlyProAsp, Asn, Ser
![Page 37: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/37.jpg)
MSA 에 의한 2 차 구조 예측
Alpha Helix
I, i+3, i+4, i+7
혹은 I, i+4, i+7 의 잔기에서의 보존소수성 잔기 및 친수성 잔기가 엇갈리게 존재하는 경우
Beta-Sheet
연속된 보존된 소수성 잔기 : 단백질 내부에 위치한 beta-sheet
I, i+2, i+4 에 보존된 소수성 잔기 : 단백질 표면에 위치한 beta-sheet
![Page 38: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/38.jpg)
MSA 에 의한 2 차 구조 예측Loop/Disordered Region
Usually not well conservedPresence of secondary structure breakers (P, G)
![Page 39: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/39.jpg)
기계학습에 의한 2 차 구조 예측기계학습이란 ?
http://www.crazymind.net/28
![Page 40: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/40.jpg)
Prediction of Secondary Structure based on machine learning
Utilizing MSAs with known secondary structure as training sets, Generate structure prediction models.
![Page 41: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/41.jpg)
Examples of Secondary Structure Predictions
Jpred :http://www.compbio.dundee.ac.uk/www-jpred/index.html
![Page 42: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/42.jpg)
Jpred3
예측하고자 하는 서열을 입력BLAST search in Uniref90( 상동성이 있는 서열을 부르고 이를 이용하여 MSA 를 만듬 )
복수의 알고리즘을 이용하여 2 차구조를 예측하고 이들의 consensus 에 따라 최종결정을 함
일단 단백질 구조 DB 에 해당 단백질이 있는지 확인 .완전히 동일한 단백질이 3 차 구조가 나왔는데 2 차구조를 예측할 필요는 없다 .
![Page 43: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/43.jpg)
http://www.compbio.dundee.ac.uk/www-jpred/results/jp_q1hwsUv/jp_q1hwsUv.results.html
Secondary Structure Prediction
Confidence for predictions
Alpha-Helix Beta-Sheet
![Page 44: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/44.jpg)
![Page 45: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/45.jpg)
Other Predictions
- Coiled-Coil Prediction
![Page 46: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/46.jpg)
Namgoong et al., Nature Struct Mol Biol. 2011
![Page 47: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/47.jpg)
Coiled-Coil 예측
http://toolkit.tuebingen.mpg.de/pcoils
![Page 48: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/48.jpg)
Membrane Spanning Region 예측막단백질
친수성
소수성
![Page 49: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/49.jpg)
친수성
친수성
소수성
Membrane spanning region predictions
* 막을 가로지르는 부분은 상대적으로 소수성을 띈 아미노산이 많을 것이다 .
![Page 50: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/50.jpg)
Hydropathy plot
>sp|P08908|5HT1A_HUMAN 5-hydroxytryptamine receptor 1A OS=Homo sapiens GN=HTR1A PE=1 SV=3MDVLSPGQGNNTTSPPAPFETGGNTTGISDVTVSYQVITSLLLGTLIFCAVLGNACVVAAIALERSLQNVANYLIGSLAVTDLMVSVLVLPMAALYQVLNKWTLGQVTCDLFIALDVLCCTSSILHLCAIALDRYWAITDPIDYVNKRTPRRAAALISLTWLIGFLISIPPMLGWRTPEDRSDPDACTISKDHGYTIYSTFGAFYIPLLLMLVLYGRIFRAARFRIRKTVKKVEKTGADTRHGASPAPQPKKSVNGESGSRNWRLGVESKAGGALCANGAVRQGDDGAALEVIEVHRVGNSKEHLPLPSEAGPTPCAPASFERKNERNAEAKRKMALARERKTVKTLGIIMGTFILCWLPFFIVALVLPFCESSCHMPTLLGAIINWLGYSNSLLNPVIYAYFNKDFQNAFKKIIKCKFCRQ
막단백질의 서열각각의 아미노산이 얼마나소수성인가를 숫자화함
소수성
친수성
1.9,-3.5,4.2,3.8,-0.9,-1.6,-0.4,-3.5,-0.4,-3.5,-3.5,-0.7,-0.7,-0.9,-1.6,-1.6,1.8,-1.6,2.8,-3.5,-0.7,-0.4,-0.4,-3.5,-0.7,-0.7,-0.4,4.5,-0.9,-3.5,4.2,-0.7,4.2,-0.9,-1.3,-3.5,4.2,4.5,-0.7,-0.9,3.8,3.8,3.8,-0.4,-0.7,3.8,4.5,2.8,2.5,1.8,4.2,3.8,-0.4…
서열을 숫자로 변환1.9,-3.5,4.2,3.8,-0.9,-1.6,-0.4,-3.5,-0.4,-3.5,-3.5,-0.7,-0.7,-0.9,-1.6,-1.6,1.8,-1.6,2.8,-3.5,-0.7,-0.4,-0.4,-3.5,-0.7,-0.7,-0.4,4.5,-0.9,-3.5,4.2,-0.7,4.2,-0.9,-1.3,-3.5,4.2,4.5,-0.7,-0.9,3.8,3.8,3.8,-0.4,-0.7,3.8,4.5,2.8,2.5,1.8,4.2,3.8,-0.4…
10 개 값씩 평균값1.9,-3.5,4.2,3.8,-0.9,-1.6,-0.4,-3.5,-0.4,-3.5,-3.5,-0.7,-0.7,-0.9,-1.6,-1.6,1.8,-1.6,2.8,-3.5,-0.7,-0.4,-0.4,-3.5,-0.7,-0.7,-0.4,4.5,-0.9,-3.5,4.2,-0.7,4.2,-0.9,-1.3,-3.5,4.2,4.5,-0.7,-0.9,3.8,3.8,3.8,-0.4,-0.7,3.8,4.5,2.8,2.5,1.8,4.2,3.8,-0.4…
10 개 값씩 평균값
1.9,-3.5,4.2,3.8,-0.9,-1.6,-0.4,-3.5,-0.4,-3.5,-3.5,-0.7,-0.7,-0.9,-1.6,-1.6,1.8,-1.6,2.8,-3.5,-0.7,-0.4,-0.4,-3.5,-0.7,-0.7,-0.4,4.5,-0.9,-3.5,4.2,-0.7,4.2,-0.9,-1.3,-3.5,4.2,4.5,-0.7,-0.9,3.8,3.8,3.8,-0.4,-0.7,3.8,4.5,2.8,2.5,1.8,4.2,3.8,-0.4…
![Page 51: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/51.jpg)
DEMO
JPREDCoilsHydrophathy plot
![Page 52: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/52.jpg)
Referencing previously known protein StructureAb initio modeling
GFCHIKAYTRLIMVG…
Anabaena 7120
Anacystis nidulans
Condrus crispus
Desulfovibrio vulgaris
Predictions of three dimensional structure of Protein
Referencing previously known structureHomology modeling
![Page 53: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/53.jpg)
Ab initio Modeling
Ab initio : “ 처음부터”기존에 실험적으로 알려진 단백질 구조정보를 전혀 참조하지 않고 , 물리화학적인 원리에 근거하여시퀀스로부터 단백질 구조를 예측
Anfinsen’s experiments (1973)
- Urea + mercaptoethanol 처리로 단백질의 입체 구조를 파괴- 회복된 단백질의 입체 구조가 원상복귀될 수 있음- 단백질의 3 차 구조를 결정하는 정보는 모두단백질 서열 안에 있음 !
![Page 54: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/54.jpg)
따라서 단백질의 서열 정보만으로 단백질의 3 차원 구조를 예측 가능 !
Ab initio modeling
단백질은 열역학적으로 가장 안정된 상태따라서 물리 , 화학적 시뮬레이션을 통해서 가장 안정된에너지 상태의 단백질을 찾으면 -> 그게 단백질의 3 차 구조 !
현실은 그리 간단하지 않음Anfinsen 이 사용한 RNaseA 는 워낙 안정된 단백질이라서 그렇고 , 대개의 단백질은 일단 3 차구조가 변성되면 회복되기 힘듬
원래의 단백질보다 더 안정한 aggregate 가존재
![Page 55: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/55.jpg)
Ab initio modeling
따라서 현실적으로 단백질 구조를 정확하게 예측하는데는 사용하기 어려움
기존에 실험적으로 밝혀진 서열이 유사한 단백질의 구조정보를 이용하여 미지의단백질 구조를 모델링
Homology Modeling
Template-Based Modeling
![Page 56: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/56.jpg)
Homology Modeling
단백질의 구조는 서열보다 보존되어 있음
Identity = 4.7%
RMSD=3.99이것을 이용하여 구조가 알려져 있지 ㅇ낳은 단백질의 구조를 유추 !
![Page 57: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/57.jpg)
Steps in Homology Modeling
1. Search sequence database with known protein structure
2. 상동성이 높은 것중 가장 ‘고퀄’ 의 구조를 선택 (Template Selection)
3. 이미 알려진 구조의 서열과 미지의 서열과의 alignment
4. 모델링5. Loop Modeling
6. 모델 평가 (Model Assessments)
- PSI-BLAST- HHpred
![Page 58: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/58.jpg)
Search Protein Struct ure
1. PSI-BLAST using PDB blast db
2. HHpred
Homology Modeling 에는 어느정도의 상동성이 필요한가 ?
~ 대략적으로 30% 정도의 상동성이 필요
![Page 59: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/59.jpg)
가장 서열 상동성이 높은 구조가 최적의 모델링 Template 인가 ?
Template 1: 93% id, 3.5 Å vs Template 2: 90% id, 1.5 Å
Template 선택
가급적 고해상도의 구조를 선택하는 것이 필요
4 Å 2 Å3 Å 1 Å
NMR or X-ray Crystallography?
http://www.cbs.dtu.dk/courses/27614/Lectures/TBlicher_Homology_Modelling.ppt
![Page 60: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/60.jpg)
http://www.cbs.dtu.dk/courses/27614/Lectures/TBlicher_Homology_Modelling.ppt
NMR 구조가 유일한 선택일때는 ..
NMR 구조에는 대개 미세한 차이가 있는 구조들이복수로 존재함 (Ensemble)
단백질 구조에서 변화가 심한 부분은 제거하고 , 고정된 부분만을 선택하는 것이 용이함
![Page 61: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/61.jpg)
Alignment and Modeling
>gi|6513841|gb|AAD01939.2| homeobox protein HOXA7 [Homo sapiens]MSSSYYVNALFSKYTAGTSLFQNAEPTSCSFAPNSQRSGYGAGAGAFASTVPGLYNVNSPLYQSPFASGYGLGADAYGNLPCASYDQNIPGLCSDLAKGACDKTDEGALHGAAEANFRIYPWMRSSGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQVKIWFQNRRMKWKKEHKDEGPTAAAAPEGAVPSAAATAAADKADEEDDDEEEEDEEE
>gi|34398398|gb|AAQ67266.1| antennapedia [Drosophila virilis]MTMSTNNCESMTSYFTNSYMGADMHHGHYPGNGVTDLDAQQMHHYSQNPNQQGNMPYPRFPPYDRMPYYNGQGMDQQQQQHQGYSRPDSPSSQVGGVMPQAQTNGQLVSVAQQQQQTQQQQQAQTQQQQAQQAPLQQQQHPQVTQQVTHPQQQQPVVYASCKLQAAVGGLGMVQEGGSPPLVDQMGGHHMNAQMTLPHHMGHPQAQLGYTDVGVPDVTEVHQNHHNMGMYGQQQTGVPPVVAPPQAMMHPGAGQGPPQMHQGHPGQHTPPSQNPSSQSSGMPSPLYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQIKIWFQNRRMKWKKENKTKGEPGSGGEGDEITPPNSPQ
119 IYPWMRS---SGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 16 :|||||| ...:||||||||||||||||||||||||||||||||||||285 LYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 334
166 ALCLTERQVKIWFQNRRMKWKKEHKDEG 193 ||||||||:||||||||||||||:|.:|335 ALCLTERQIKIWFQNRRMKWKKENKTKG 362
![Page 62: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/62.jpg)
119 IYPWMRS---SGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 16 :|||||| ...:||||||||||||||||||||||||||||||||||||285 LYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 334
166 ALCLTERQVKIWFQNRRMKWKKEHKDEG 193 ||||||||:||||||||||||||:|.:|335 ALCLTERQIKIWFQNRRMKWKKENKTKG 362
?
![Page 63: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/63.jpg)
Homology Modeling Tool
- Swiss-Model
- Modeller
- HHPred
https://salilab.org/modeller/about_modeller.html
http://swissmodel.expasy.org
http://toolkit.tuebingen.mpg.de/hhpred
![Page 64: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/64.jpg)
Swiss-Model
![Page 65: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/65.jpg)
![Page 66: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/66.jpg)
Swiss-Model : Search Template
![Page 67: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/67.jpg)
![Page 68: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/68.jpg)
![Page 69: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/69.jpg)
![Page 70: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/70.jpg)
Transcriptome Analysis
1. Select one of datasets
http://www.genomebiology.com/2015/16/1/148
Fan et al., Single-cell RNA-seq transcriptome analysis of linear and circular RNAs in mouse preimplantation embryos
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3290793/
2. Pauli et al, Systematic identification of long noncoding RNAs expressed during zebrafish embryogenesis
3. Kijin et al, A comprehensive transcriptional portrait of human cancer cell lines
http://www.nature.com/nbt/journal/v33/n3/abs/nbt.3080.html
Select 3-4 defined stages or tissues
http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE32898Data Link
![Page 71: 생물학 연구를 위한 컴퓨터 활용기술 13강](https://reader033.vdocuments.mx/reader033/viewer/2022051705/58a1d85c1a28abb6678b58a9/html5/thumbnails/71.jpg)
2. Using Kallisto, perform quantification of RNA-Seq data of each transcripts
3. Using Sleuth, analyze gene expression and find out differentially expressed gene list
4. Generate ‘HeatMap’ for top 100 (based on p values) differentially expressed genes and Generate ‘ClusterMap’
5. From differentially expressed gene list, find out your genes of interests like this using GO Annotations like this..
- Wnt signlaing related genes, - Transcriptions Factors- Actin Cytoskeleton Related Genes- Pluripotency related genes- Spling reclated genes- Extra,,,,
6. Find out expression levels (TPM) of these genes and filter out based on expression and differential Expressions (E.G. TPM>10 and p value > 1e-10), and generate ClusterMap
7. Using Ensemble Transcript id, Find out ‘Protein Sequence’ of these genes and generateMultifasta and
8. Write short ‘Discusssion’ describing t hat what kind of biological reasoning could be come from these ‘dry experiments’