vvedenie v bioinformatiku_1

95
Введение в биоинформатику. Современное положение. Задачи и методы их решения. Порозов Юрий. [email protected] [email protected]

Upload: bioinformaticsinstitute

Post on 23-Dec-2014

106 views

Category:

Documents


1 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Vvedenie v bioinformatiku_1

Введение в биоинформатикуСовременное положение

Задачи и методы их решения

Порозов Юрий porozovsnsit porozovifccnrit

План курса

bull Введение в биоинформатику цели задачи и методы Основные понятия Аминокислоты протеины и нуклеиновые кислоты Способы

представления информации о последовательностях ndash форматы записи Fasta Genbank PDB и способы визуализации Источники

информации базы данных и Интернет для биоинформатики Протеины пространственное строение функции

bull Молекула ДНК ndash хранилище генетической информации Строение ДНК Упаковка молекулы Комплементарность Гены регуляторные

последовательности сайты связывания Кодирование информации при помощи нуклеотидов Репликация (удвоение молекулы) Анализ

последовательностей Парное выравнивание Алгоритмы выравнивания Множественное выравнивание Применение выравнивания в

биоинформатике примеры

bull Строение белков Первичная структура белка Вторичная структура Третичная и четвертичная структура белка Мотивы и домены α-

структуры β-структуры и их комбинации Функции белков Связь между структурой и функцией белков Главная цепь Боковые цепи

Геометрия главной цепи Конформации белка Конформации боковых цепей Диаграмма Рамачандран и библиотеки ротамеров

bull Предсказание трехмерной структуры белка Фолдинг (сворачивание) белка Парадокс Левенталя Методы определения пространственной

структуры белков X-ray-дифракция Метод ЯМР Потенциальная энергия молекулы Предсказание вторичной структуры Предсказание

третичной структуры AB-initio Моделирование гомологов Threading (распознавание фолда) Структурное выравнивание

bull Биологические базы данных и серверы NCBI и сервисы PDB OCA SRS SRS-3D PredictProtein Swiss-Model ExPASy UniProt Серверы

EMBL ENCODE Инструменты Swiss-PDBviewer VMD Accelrys Discovery Studio Актуальные проблемы требующие решения

аннотация генома поиск генов поиск сайтов репликации у человека Сворачивание белков предсказание структуры белка mdash CASP

предсказание функции и клеточной локализации белков Предсказание подвижности белков и классификация протеинов по принципу

подвижности

bull Моделирование подвижности белков Молекулярная динамика и компьютерная графика Maya VMD Моделирование на основе

геометрии

Биоинформатика - наука занимающаяся анализом экспериментальных данных молекулярной биологии секвенированных последовательностей биополимеров экспериментально определенных пространственных структур биологических макромолекул данных об экспрессии генов и тд Методами биоинформатики являются методы организации информации широко понимаемые компьютерные методы методы вычислительной математики и статистики (МС Гельфанд et al)

Европейский Биоинформационный Институт биоинформатика ndash это применение компьютерных технологий для администрирования и анализа биологических данных

Биоинформатика

Structural Genomics

Pharmaco-Genomics

Functional Genomics

Proteomics

Genomics

Bioinformatics

Задачи биоинформатики

bull Функциональная аннотация биополимеров

bull Структурная аннотация биополимеров

bull Эволюция

bull Геномика и протеомика

Биополимеры

ДНК

РНК

(дезоксирибонуклеиновые и рибонуклеиновые кислоты) ndash

обеспечивающих хранение передачу из поколения в

поколение и реализацию генетической программы развития и

функционирования живых организмов

Протеины (белки)

Последовательность (sequence первичная структура)ndash цепь из мономеров (нуклеотиды или аминокислоты) составляющих ДНК РНК или белок

Последовательности ДНК ndash от 10-20 нуклеотидов (праймеры для ПЦР) до нескольких миллионов (хромосомная ДНК)

Последовательности белков ndash десятки-тысячи аминокислот

Биополимеры ndash ДНК

Аденин Гуанин

ЦитозинТимин

Аденозинфосфат

Пурины

Пиримидины

Биополимеры - ДНК

J Watson и F Crick Фото из архива Photo Researchers inc

Биополимеры - белки

Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы

Последовательность цепь аминокислот составляет белок

Биополимеры - белки

Форматы файлов используемых в биоинформатике

FASTA

gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY

GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2

CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc

PDB ndash Protein Data Bank

HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-

TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE

KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT

JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------

REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-

REMARK 900 CONTAINING GFP

DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)

HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229

HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END

GCG

Способы визуализации

Определение структуры (координат атомов) белка

1) Х-Ray кристаллография

2) Ядерно-магнитный резонанс (NMR)

Эти методы довольно трудоёмки и дороги

3) Предсказание структуры белка

X-ray кристаллография

1 Получение упорядоченных кристаллов белка

2 Определение дифракции x-ray

X-ray кристаллография

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 2: Vvedenie v bioinformatiku_1

План курса

bull Введение в биоинформатику цели задачи и методы Основные понятия Аминокислоты протеины и нуклеиновые кислоты Способы

представления информации о последовательностях ndash форматы записи Fasta Genbank PDB и способы визуализации Источники

информации базы данных и Интернет для биоинформатики Протеины пространственное строение функции

bull Молекула ДНК ndash хранилище генетической информации Строение ДНК Упаковка молекулы Комплементарность Гены регуляторные

последовательности сайты связывания Кодирование информации при помощи нуклеотидов Репликация (удвоение молекулы) Анализ

последовательностей Парное выравнивание Алгоритмы выравнивания Множественное выравнивание Применение выравнивания в

биоинформатике примеры

bull Строение белков Первичная структура белка Вторичная структура Третичная и четвертичная структура белка Мотивы и домены α-

структуры β-структуры и их комбинации Функции белков Связь между структурой и функцией белков Главная цепь Боковые цепи

Геометрия главной цепи Конформации белка Конформации боковых цепей Диаграмма Рамачандран и библиотеки ротамеров

bull Предсказание трехмерной структуры белка Фолдинг (сворачивание) белка Парадокс Левенталя Методы определения пространственной

структуры белков X-ray-дифракция Метод ЯМР Потенциальная энергия молекулы Предсказание вторичной структуры Предсказание

третичной структуры AB-initio Моделирование гомологов Threading (распознавание фолда) Структурное выравнивание

bull Биологические базы данных и серверы NCBI и сервисы PDB OCA SRS SRS-3D PredictProtein Swiss-Model ExPASy UniProt Серверы

EMBL ENCODE Инструменты Swiss-PDBviewer VMD Accelrys Discovery Studio Актуальные проблемы требующие решения

аннотация генома поиск генов поиск сайтов репликации у человека Сворачивание белков предсказание структуры белка mdash CASP

предсказание функции и клеточной локализации белков Предсказание подвижности белков и классификация протеинов по принципу

подвижности

bull Моделирование подвижности белков Молекулярная динамика и компьютерная графика Maya VMD Моделирование на основе

геометрии

Биоинформатика - наука занимающаяся анализом экспериментальных данных молекулярной биологии секвенированных последовательностей биополимеров экспериментально определенных пространственных структур биологических макромолекул данных об экспрессии генов и тд Методами биоинформатики являются методы организации информации широко понимаемые компьютерные методы методы вычислительной математики и статистики (МС Гельфанд et al)

Европейский Биоинформационный Институт биоинформатика ndash это применение компьютерных технологий для администрирования и анализа биологических данных

Биоинформатика

Structural Genomics

Pharmaco-Genomics

Functional Genomics

Proteomics

Genomics

Bioinformatics

Задачи биоинформатики

bull Функциональная аннотация биополимеров

bull Структурная аннотация биополимеров

bull Эволюция

bull Геномика и протеомика

Биополимеры

ДНК

РНК

(дезоксирибонуклеиновые и рибонуклеиновые кислоты) ndash

обеспечивающих хранение передачу из поколения в

поколение и реализацию генетической программы развития и

функционирования живых организмов

Протеины (белки)

Последовательность (sequence первичная структура)ndash цепь из мономеров (нуклеотиды или аминокислоты) составляющих ДНК РНК или белок

Последовательности ДНК ndash от 10-20 нуклеотидов (праймеры для ПЦР) до нескольких миллионов (хромосомная ДНК)

Последовательности белков ndash десятки-тысячи аминокислот

Биополимеры ndash ДНК

Аденин Гуанин

ЦитозинТимин

Аденозинфосфат

Пурины

Пиримидины

Биополимеры - ДНК

J Watson и F Crick Фото из архива Photo Researchers inc

Биополимеры - белки

Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы

Последовательность цепь аминокислот составляет белок

Биополимеры - белки

Форматы файлов используемых в биоинформатике

FASTA

gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY

GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2

CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc

PDB ndash Protein Data Bank

HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-

TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE

KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT

JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------

REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-

REMARK 900 CONTAINING GFP

DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)

HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229

HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END

GCG

Способы визуализации

Определение структуры (координат атомов) белка

1) Х-Ray кристаллография

2) Ядерно-магнитный резонанс (NMR)

Эти методы довольно трудоёмки и дороги

3) Предсказание структуры белка

X-ray кристаллография

1 Получение упорядоченных кристаллов белка

2 Определение дифракции x-ray

X-ray кристаллография

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 3: Vvedenie v bioinformatiku_1

Биоинформатика - наука занимающаяся анализом экспериментальных данных молекулярной биологии секвенированных последовательностей биополимеров экспериментально определенных пространственных структур биологических макромолекул данных об экспрессии генов и тд Методами биоинформатики являются методы организации информации широко понимаемые компьютерные методы методы вычислительной математики и статистики (МС Гельфанд et al)

Европейский Биоинформационный Институт биоинформатика ndash это применение компьютерных технологий для администрирования и анализа биологических данных

Биоинформатика

Structural Genomics

Pharmaco-Genomics

Functional Genomics

Proteomics

Genomics

Bioinformatics

Задачи биоинформатики

bull Функциональная аннотация биополимеров

bull Структурная аннотация биополимеров

bull Эволюция

bull Геномика и протеомика

Биополимеры

ДНК

РНК

(дезоксирибонуклеиновые и рибонуклеиновые кислоты) ndash

обеспечивающих хранение передачу из поколения в

поколение и реализацию генетической программы развития и

функционирования живых организмов

Протеины (белки)

Последовательность (sequence первичная структура)ndash цепь из мономеров (нуклеотиды или аминокислоты) составляющих ДНК РНК или белок

Последовательности ДНК ndash от 10-20 нуклеотидов (праймеры для ПЦР) до нескольких миллионов (хромосомная ДНК)

Последовательности белков ndash десятки-тысячи аминокислот

Биополимеры ndash ДНК

Аденин Гуанин

ЦитозинТимин

Аденозинфосфат

Пурины

Пиримидины

Биополимеры - ДНК

J Watson и F Crick Фото из архива Photo Researchers inc

Биополимеры - белки

Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы

Последовательность цепь аминокислот составляет белок

Биополимеры - белки

Форматы файлов используемых в биоинформатике

FASTA

gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY

GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2

CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc

PDB ndash Protein Data Bank

HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-

TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE

KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT

JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------

REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-

REMARK 900 CONTAINING GFP

DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)

HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229

HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END

GCG

Способы визуализации

Определение структуры (координат атомов) белка

1) Х-Ray кристаллография

2) Ядерно-магнитный резонанс (NMR)

Эти методы довольно трудоёмки и дороги

3) Предсказание структуры белка

X-ray кристаллография

1 Получение упорядоченных кристаллов белка

2 Определение дифракции x-ray

X-ray кристаллография

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 4: Vvedenie v bioinformatiku_1

Биоинформатика

Structural Genomics

Pharmaco-Genomics

Functional Genomics

Proteomics

Genomics

Bioinformatics

Задачи биоинформатики

bull Функциональная аннотация биополимеров

bull Структурная аннотация биополимеров

bull Эволюция

bull Геномика и протеомика

Биополимеры

ДНК

РНК

(дезоксирибонуклеиновые и рибонуклеиновые кислоты) ndash

обеспечивающих хранение передачу из поколения в

поколение и реализацию генетической программы развития и

функционирования живых организмов

Протеины (белки)

Последовательность (sequence первичная структура)ndash цепь из мономеров (нуклеотиды или аминокислоты) составляющих ДНК РНК или белок

Последовательности ДНК ndash от 10-20 нуклеотидов (праймеры для ПЦР) до нескольких миллионов (хромосомная ДНК)

Последовательности белков ndash десятки-тысячи аминокислот

Биополимеры ndash ДНК

Аденин Гуанин

ЦитозинТимин

Аденозинфосфат

Пурины

Пиримидины

Биополимеры - ДНК

J Watson и F Crick Фото из архива Photo Researchers inc

Биополимеры - белки

Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы

Последовательность цепь аминокислот составляет белок

Биополимеры - белки

Форматы файлов используемых в биоинформатике

FASTA

gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY

GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2

CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc

PDB ndash Protein Data Bank

HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-

TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE

KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT

JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------

REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-

REMARK 900 CONTAINING GFP

DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)

HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229

HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END

GCG

Способы визуализации

Определение структуры (координат атомов) белка

1) Х-Ray кристаллография

2) Ядерно-магнитный резонанс (NMR)

Эти методы довольно трудоёмки и дороги

3) Предсказание структуры белка

X-ray кристаллография

1 Получение упорядоченных кристаллов белка

2 Определение дифракции x-ray

X-ray кристаллография

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 5: Vvedenie v bioinformatiku_1

Задачи биоинформатики

bull Функциональная аннотация биополимеров

bull Структурная аннотация биополимеров

bull Эволюция

bull Геномика и протеомика

Биополимеры

ДНК

РНК

(дезоксирибонуклеиновые и рибонуклеиновые кислоты) ndash

обеспечивающих хранение передачу из поколения в

поколение и реализацию генетической программы развития и

функционирования живых организмов

Протеины (белки)

Последовательность (sequence первичная структура)ndash цепь из мономеров (нуклеотиды или аминокислоты) составляющих ДНК РНК или белок

Последовательности ДНК ndash от 10-20 нуклеотидов (праймеры для ПЦР) до нескольких миллионов (хромосомная ДНК)

Последовательности белков ndash десятки-тысячи аминокислот

Биополимеры ndash ДНК

Аденин Гуанин

ЦитозинТимин

Аденозинфосфат

Пурины

Пиримидины

Биополимеры - ДНК

J Watson и F Crick Фото из архива Photo Researchers inc

Биополимеры - белки

Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы

Последовательность цепь аминокислот составляет белок

Биополимеры - белки

Форматы файлов используемых в биоинформатике

FASTA

gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY

GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2

CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc

PDB ndash Protein Data Bank

HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-

TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE

KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT

JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------

REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-

REMARK 900 CONTAINING GFP

DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)

HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229

HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END

GCG

Способы визуализации

Определение структуры (координат атомов) белка

1) Х-Ray кристаллография

2) Ядерно-магнитный резонанс (NMR)

Эти методы довольно трудоёмки и дороги

3) Предсказание структуры белка

X-ray кристаллография

1 Получение упорядоченных кристаллов белка

2 Определение дифракции x-ray

X-ray кристаллография

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 6: Vvedenie v bioinformatiku_1

Биополимеры

ДНК

РНК

(дезоксирибонуклеиновые и рибонуклеиновые кислоты) ndash

обеспечивающих хранение передачу из поколения в

поколение и реализацию генетической программы развития и

функционирования живых организмов

Протеины (белки)

Последовательность (sequence первичная структура)ndash цепь из мономеров (нуклеотиды или аминокислоты) составляющих ДНК РНК или белок

Последовательности ДНК ndash от 10-20 нуклеотидов (праймеры для ПЦР) до нескольких миллионов (хромосомная ДНК)

Последовательности белков ndash десятки-тысячи аминокислот

Биополимеры ndash ДНК

Аденин Гуанин

ЦитозинТимин

Аденозинфосфат

Пурины

Пиримидины

Биополимеры - ДНК

J Watson и F Crick Фото из архива Photo Researchers inc

Биополимеры - белки

Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы

Последовательность цепь аминокислот составляет белок

Биополимеры - белки

Форматы файлов используемых в биоинформатике

FASTA

gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY

GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2

CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc

PDB ndash Protein Data Bank

HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-

TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE

KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT

JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------

REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-

REMARK 900 CONTAINING GFP

DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)

HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229

HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END

GCG

Способы визуализации

Определение структуры (координат атомов) белка

1) Х-Ray кристаллография

2) Ядерно-магнитный резонанс (NMR)

Эти методы довольно трудоёмки и дороги

3) Предсказание структуры белка

X-ray кристаллография

1 Получение упорядоченных кристаллов белка

2 Определение дифракции x-ray

X-ray кристаллография

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 7: Vvedenie v bioinformatiku_1

Последовательность (sequence первичная структура)ndash цепь из мономеров (нуклеотиды или аминокислоты) составляющих ДНК РНК или белок

Последовательности ДНК ndash от 10-20 нуклеотидов (праймеры для ПЦР) до нескольких миллионов (хромосомная ДНК)

Последовательности белков ndash десятки-тысячи аминокислот

Биополимеры ndash ДНК

Аденин Гуанин

ЦитозинТимин

Аденозинфосфат

Пурины

Пиримидины

Биополимеры - ДНК

J Watson и F Crick Фото из архива Photo Researchers inc

Биополимеры - белки

Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы

Последовательность цепь аминокислот составляет белок

Биополимеры - белки

Форматы файлов используемых в биоинформатике

FASTA

gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY

GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2

CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc

PDB ndash Protein Data Bank

HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-

TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE

KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT

JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------

REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-

REMARK 900 CONTAINING GFP

DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)

HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229

HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END

GCG

Способы визуализации

Определение структуры (координат атомов) белка

1) Х-Ray кристаллография

2) Ядерно-магнитный резонанс (NMR)

Эти методы довольно трудоёмки и дороги

3) Предсказание структуры белка

X-ray кристаллография

1 Получение упорядоченных кристаллов белка

2 Определение дифракции x-ray

X-ray кристаллография

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 8: Vvedenie v bioinformatiku_1

Биополимеры ndash ДНК

Аденин Гуанин

ЦитозинТимин

Аденозинфосфат

Пурины

Пиримидины

Биополимеры - ДНК

J Watson и F Crick Фото из архива Photo Researchers inc

Биополимеры - белки

Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы

Последовательность цепь аминокислот составляет белок

Биополимеры - белки

Форматы файлов используемых в биоинформатике

FASTA

gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY

GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2

CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc

PDB ndash Protein Data Bank

HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-

TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE

KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT

JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------

REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-

REMARK 900 CONTAINING GFP

DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)

HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229

HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END

GCG

Способы визуализации

Определение структуры (координат атомов) белка

1) Х-Ray кристаллография

2) Ядерно-магнитный резонанс (NMR)

Эти методы довольно трудоёмки и дороги

3) Предсказание структуры белка

X-ray кристаллография

1 Получение упорядоченных кристаллов белка

2 Определение дифракции x-ray

X-ray кристаллография

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 9: Vvedenie v bioinformatiku_1

Биополимеры - ДНК

J Watson и F Crick Фото из архива Photo Researchers inc

Биополимеры - белки

Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы

Последовательность цепь аминокислот составляет белок

Биополимеры - белки

Форматы файлов используемых в биоинформатике

FASTA

gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY

GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2

CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc

PDB ndash Protein Data Bank

HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-

TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE

KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT

JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------

REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-

REMARK 900 CONTAINING GFP

DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)

HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229

HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END

GCG

Способы визуализации

Определение структуры (координат атомов) белка

1) Х-Ray кристаллография

2) Ядерно-магнитный резонанс (NMR)

Эти методы довольно трудоёмки и дороги

3) Предсказание структуры белка

X-ray кристаллография

1 Получение упорядоченных кристаллов белка

2 Определение дифракции x-ray

X-ray кристаллография

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 10: Vvedenie v bioinformatiku_1

Биополимеры - белки

Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы

Последовательность цепь аминокислот составляет белок

Биополимеры - белки

Форматы файлов используемых в биоинформатике

FASTA

gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY

GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2

CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc

PDB ndash Protein Data Bank

HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-

TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE

KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT

JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------

REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-

REMARK 900 CONTAINING GFP

DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)

HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229

HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END

GCG

Способы визуализации

Определение структуры (координат атомов) белка

1) Х-Ray кристаллография

2) Ядерно-магнитный резонанс (NMR)

Эти методы довольно трудоёмки и дороги

3) Предсказание структуры белка

X-ray кристаллография

1 Получение упорядоченных кристаллов белка

2 Определение дифракции x-ray

X-ray кристаллография

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 11: Vvedenie v bioinformatiku_1

Биополимеры - белки

Форматы файлов используемых в биоинформатике

FASTA

gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY

GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2

CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc

PDB ndash Protein Data Bank

HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-

TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE

KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT

JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------

REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-

REMARK 900 CONTAINING GFP

DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)

HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229

HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END

GCG

Способы визуализации

Определение структуры (координат атомов) белка

1) Х-Ray кристаллография

2) Ядерно-магнитный резонанс (NMR)

Эти методы довольно трудоёмки и дороги

3) Предсказание структуры белка

X-ray кристаллография

1 Получение упорядоченных кристаллов белка

2 Определение дифракции x-ray

X-ray кристаллография

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 12: Vvedenie v bioinformatiku_1

Форматы файлов используемых в биоинформатике

FASTA

gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY

GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2

CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc

PDB ndash Protein Data Bank

HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-

TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE

KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT

JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------

REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-

REMARK 900 CONTAINING GFP

DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)

HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229

HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END

GCG

Способы визуализации

Определение структуры (координат атомов) белка

1) Х-Ray кристаллография

2) Ядерно-магнитный резонанс (NMR)

Эти методы довольно трудоёмки и дороги

3) Предсказание структуры белка

X-ray кристаллография

1 Получение упорядоченных кристаллов белка

2 Определение дифракции x-ray

X-ray кристаллография

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 13: Vvedenie v bioinformatiku_1

GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2

CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc

PDB ndash Protein Data Bank

HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-

TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE

KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT

JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------

REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-

REMARK 900 CONTAINING GFP

DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)

HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229

HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END

GCG

Способы визуализации

Определение структуры (координат атомов) белка

1) Х-Ray кристаллография

2) Ядерно-магнитный резонанс (NMR)

Эти методы довольно трудоёмки и дороги

3) Предсказание структуры белка

X-ray кристаллография

1 Получение упорядоченных кристаллов белка

2 Определение дифракции x-ray

X-ray кристаллография

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 14: Vvedenie v bioinformatiku_1

PDB ndash Protein Data Bank

HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-

TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE

KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT

JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------

REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-

REMARK 900 CONTAINING GFP

DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)

HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229

HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END

GCG

Способы визуализации

Определение структуры (координат атомов) белка

1) Х-Ray кристаллография

2) Ядерно-магнитный резонанс (NMR)

Эти методы довольно трудоёмки и дороги

3) Предсказание структуры белка

X-ray кристаллография

1 Получение упорядоченных кристаллов белка

2 Определение дифракции x-ray

X-ray кристаллография

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 15: Vvedenie v bioinformatiku_1

HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229

HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END

GCG

Способы визуализации

Определение структуры (координат атомов) белка

1) Х-Ray кристаллография

2) Ядерно-магнитный резонанс (NMR)

Эти методы довольно трудоёмки и дороги

3) Предсказание структуры белка

X-ray кристаллография

1 Получение упорядоченных кристаллов белка

2 Определение дифракции x-ray

X-ray кристаллография

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 16: Vvedenie v bioinformatiku_1

GCG

Способы визуализации

Определение структуры (координат атомов) белка

1) Х-Ray кристаллография

2) Ядерно-магнитный резонанс (NMR)

Эти методы довольно трудоёмки и дороги

3) Предсказание структуры белка

X-ray кристаллография

1 Получение упорядоченных кристаллов белка

2 Определение дифракции x-ray

X-ray кристаллография

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 17: Vvedenie v bioinformatiku_1

Способы визуализации

Определение структуры (координат атомов) белка

1) Х-Ray кристаллография

2) Ядерно-магнитный резонанс (NMR)

Эти методы довольно трудоёмки и дороги

3) Предсказание структуры белка

X-ray кристаллография

1 Получение упорядоченных кристаллов белка

2 Определение дифракции x-ray

X-ray кристаллография

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 18: Vvedenie v bioinformatiku_1

X-ray кристаллография

1 Получение упорядоченных кристаллов белка

2 Определение дифракции x-ray

X-ray кристаллография

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 19: Vvedenie v bioinformatiku_1

X-ray кристаллография

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 20: Vvedenie v bioinformatiku_1

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 21: Vvedenie v bioinformatiku_1

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 22: Vvedenie v bioinformatiku_1

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 23: Vvedenie v bioinformatiku_1

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 24: Vvedenie v bioinformatiku_1

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 25: Vvedenie v bioinformatiku_1

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 26: Vvedenie v bioinformatiku_1

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 27: Vvedenie v bioinformatiku_1

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 28: Vvedenie v bioinformatiku_1

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 29: Vvedenie v bioinformatiku_1

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 30: Vvedenie v bioinformatiku_1

EMBL

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 31: Vvedenie v bioinformatiku_1

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 32: Vvedenie v bioinformatiku_1

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 33: Vvedenie v bioinformatiku_1

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 34: Vvedenie v bioinformatiku_1

PDB ndash Protein Data Bank

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 35: Vvedenie v bioinformatiku_1

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 36: Vvedenie v bioinformatiku_1

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 37: Vvedenie v bioinformatiku_1

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 38: Vvedenie v bioinformatiku_1

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 39: Vvedenie v bioinformatiku_1

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 40: Vvedenie v bioinformatiku_1

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 41: Vvedenie v bioinformatiku_1

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 42: Vvedenie v bioinformatiku_1

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 43: Vvedenie v bioinformatiku_1

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Изучение эволюционных связей

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 44: Vvedenie v bioinformatiku_1

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 45: Vvedenie v bioinformatiku_1

Парное выравнивание

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 46: Vvedenie v bioinformatiku_1

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 47: Vvedenie v bioinformatiku_1

Парное выравнивание - похожесть

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 48: Vvedenie v bioinformatiku_1

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 49: Vvedenie v bioinformatiku_1

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 50: Vvedenie v bioinformatiku_1

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 51: Vvedenie v bioinformatiku_1

Парное выравнивание - Scoring

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

||| | | || || |

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 52: Vvedenie v bioinformatiku_1

Парное выравнивание

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 53: Vvedenie v bioinformatiku_1

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 54: Vvedenie v bioinformatiku_1

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 55: Vvedenie v bioinformatiku_1

Парное выравнивание

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 56: Vvedenie v bioinformatiku_1

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 57: Vvedenie v bioinformatiku_1

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 58: Vvedenie v bioinformatiku_1

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 59: Vvedenie v bioinformatiku_1

PAM 1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 60: Vvedenie v bioinformatiku_1

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 61: Vvedenie v bioinformatiku_1

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 62: Vvedenie v bioinformatiku_1

PAM матрицыEvolutionary distance (PAM)

Observed

difference

1 1

11 10

23 20

38 30

56 40

80 50

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 63: Vvedenie v bioinformatiku_1

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 64: Vvedenie v bioinformatiku_1

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 65: Vvedenie v bioinformatiku_1

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

bull PAM250 open=14 extension=2

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 66: Vvedenie v bioinformatiku_1

Параметры по умолчанию

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 67: Vvedenie v bioinformatiku_1

Параметры по умолчанию

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 68: Vvedenie v bioinformatiku_1

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 69: Vvedenie v bioinformatiku_1

Матрицы оценки DNA

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 70: Vvedenie v bioinformatiku_1

Матрицы оценки DNA

bull De-facto transitions происходят чаще

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 71: Vvedenie v bioinformatiku_1

Матрицы оценки DNA

Унифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 72: Vvedenie v bioinformatiku_1

Матрицы оценки DNA

Неунифицированная матрица подстановок нуклеотидов

From

To

A G C T

A 2

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 73: Vvedenie v bioinformatiku_1

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 74: Vvedenie v bioinformatiku_1

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 75: Vvedenie v bioinformatiku_1

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 76: Vvedenie v bioinformatiku_1

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 77: Vvedenie v bioinformatiku_1

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 78: Vvedenie v bioinformatiku_1

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 79: Vvedenie v bioinformatiku_1

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 80: Vvedenie v bioinformatiku_1

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 81: Vvedenie v bioinformatiku_1

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 82: Vvedenie v bioinformatiku_1

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 83: Vvedenie v bioinformatiku_1

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 84: Vvedenie v bioinformatiku_1

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 85: Vvedenie v bioinformatiku_1

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 86: Vvedenie v bioinformatiku_1

GCG

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 87: Vvedenie v bioinformatiku_1

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 88: Vvedenie v bioinformatiku_1

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 89: Vvedenie v bioinformatiku_1

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Average quality based on 100 randomizations 146 +- 70

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 90: Vvedenie v bioinformatiku_1

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 91: Vvedenie v bioinformatiku_1

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 92: Vvedenie v bioinformatiku_1

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 233 Length 135

Ratio 1779 Gaps 3

Percent Similarity 50000 Percent Identity 39063

Average quality based on 100 randomizations 506 +- 73

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95
Page 93: Vvedenie v bioinformatiku_1

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

  • Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit
  • Slide 2
  • Slide 3
  • Биоинформатика
  • Задачи биоинформатики
  • Биополимеры
  • Slide 7
  • Биополимеры ndash ДНК
  • Биополимеры - ДНК
  • Биополимеры - белки
  • Slide 11
  • Форматы файлов используемых в биоинформатике
  • Slide 13
  • Slide 14
  • HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
  • Slide 16
  • Способы визуализации
  • X-ray кристаллография
  • Slide 19
  • ЯМР (NMR)
  • ЯМР
  • Источники информации и базы данных в Интернете
  • Типы баз данных
  • Проблемы
  • Пример GenBank
  • Полные базы данных
  • NCBI (National center for biotechnology information)
  • NCBI - GenBank
  • Slide 29
  • EMBL
  • Swiss prot
  • Организмоориентированные базы
  • Молекулоспецифические базы
  • PDB ndash Protein Data Bank
  • SCOP - Structural Classification Of Proteins
  • NCBI - Entrez
  • NCBI - Entrez
  • SRS (Sequence Retrieval System)
  • SRS
  • Парное выравнивание
  • Гомологи
  • Определение
  • Какие задачи решает парное выравнивание
  • Точечный график
  • Slide 45
  • Парное выравнивание - идентичность
  • Парное выравнивание - похожесть
  • Парное выравнивание ndash вставка промежутков (gaps)
  • Парное выравнивание ndash вставка промежутков
  • Парное выравнивание - подсчёт
  • Парное выравнивание - Scoring
  • Slide 52
  • Система оценки - белки
  • Slide 54
  • Slide 55
  • Матрицы сравнения белков
  • Slide 57
  • PAM матрица
  • Slide 59
  • PAM 1
  • PAM 250
  • Парное выравнивание ndash методы сравнения
  • PAM матрицы
  • BLOSUM Matrices
  • BLOSUM
  • Параметры по умолчанию
  • Slide 67
  • Slide 68
  • Матрицы оценки DNA
  • Slide 70
  • Slide 71
  • Slide 72
  • Slide 73
  • Глобальное выравнивание
  • Динамическое программирование Глобальное выравнивание
  • Recursive Relation
  • Slide 77
  • Slide 78
  • Локальное выравнивание
  • Recursive relations
  • Slide 81
  • Данные
  • Оценка
  • Оценка ndash подход bootstrap
  • Оценка - bootstrap
  • Оценка качества выравнивания
  • Slide 87
  • GCG
  • Пример Gap or Bestfit
  • Gap
  • Gap Output
  • Gap Output
  • Bestfit
  • Bestfit Output
  • Slide 95