vvedenie v bioinformatiku_4

53
Сворачивание белка (folding) “Principles that govern the folding of protein chain” Anfinsen, C. (1973) Science 181, 223-230. “the native conformation is determined by the totality of inter-atomic interactions and hence by the amino acid sequences, in a given environment. (solvent, pH, ionic strength, chemicals,etc)

Upload: bioinformaticsinstitute

Post on 25-Dec-2014

92 views

Category:

Documents


2 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Vvedenie v bioinformatiku_4

Сворачивание белка (folding)

“Principles that govern the folding of protein chain” Anfinsen, C. (1973) Science 181, 223-230.

“the native conformation is determined by the totality of inter-atomic interactions and hence by the amino acid sequences, in a given environment. (solvent, pH, ionic strength, chemicals,etc)

Page 2: Vvedenie v bioinformatiku_4

Проблема сворачивания белка

•Функции белков определяются исключительно их 3D структурой, конформацией

•Вопрос: можно ли предсказать 3D структуру белка, исходя из данной аминокислотной последовательности?

•Ответ: в общем случае – нет!

• Но методы, которые позволяют разрешить частично 3D структуры, бывают полезны.

Page 3: Vvedenie v bioinformatiku_4

Сворачивание – почему это так сложно?• Линейные молекулы белков очень быстро сворачиваются в предопределённые 3D структуры.

• Свойства любого белка определяются его 3D структурой.

• Белки могут денатурировать под воздействием химических веществ или теплоты, но затем они сворачиваются вновь в исходную структуру.

Так почему же так сложно разрешить сворачивание?

• Структура белка может быть определена экспериментально (X-Rays or NMR) но эта процедура не всегда возможна и не всегда даёт хорошие результаты.

• 3D структура последовательности определяется последовательностью допустимых углов поворота, в которой каждый угол «состоит» из 2-х планарных углов.

• Эта проблема может быть решена путём дискретизации (при некоторой потере точности) путём ограничения количества возможных путей достижения каждой из точек (координат атомов).

Page 4: Vvedenie v bioinformatiku_4

Если у вас нет структуры…

Page 5: Vvedenie v bioinformatiku_4

Подходы в предсказании структуры

• Предсказание 1D:– вторичные структуры–доступность для растворителя – трансмембранальные спирали

• Предскание 2D:– контакты между аминокислотами/нитями бета.

• Предсказание 3D:–моделирование гомологов– распознавание фолда (e.g. via threading)– ab initio предсказание (e.g. via молекулярная динамика)

Page 6: Vvedenie v bioinformatiku_4

Задачи

• Сравнение всех известных структур друг с другом

• Классификация и организация всех известных структур

• Поиск общих структурных шаблонов и мотивов

• Определение эволюционных расстояний между структурами белков

• Докинг – изучение взаимодействия между структурами

• Предсказание структур на основе последовательности

• Дизайн новых лекарств

Page 7: Vvedenie v bioinformatiku_4

Зачем?

• Первый шаг к предсказанию третичной структуры

• Один из основных элементов в распознавании фолда (для моделирования далеких в эволюционном плане белков)

Page 8: Vvedenie v bioinformatiku_4

Предсказание вторичной структуры

http://www.new-science-press.com/

Table II of Williams, R.W. et al.: Biochimica et Biophysica Acta 1987, 916:200-204.

Page 9: Vvedenie v bioinformatiku_4

– предсказание для каждой аминокислоты в выбранном окне соседних аминокислот (13-21)

– скоринг, обучение модели и предсказание 2D структуры (маппирование элемента вторичной структуры на окно)

Предсказание вторичной структуры

Page 10: Vvedenie v bioinformatiku_4

Методы

I. Chou-Fasman / GOR метод

II. Модели нейронных сетей

III. Методы «ближайшего соседа»

Page 11: Vvedenie v bioinformatiku_4

Метод Chou-Fasman (1974)

• Разработан Chou & Fasman в 1974 -1978

• База – известные 3D структуры глобулярных белков

– Частоты аминокислот в -спиралях

– Частоты аминокислот в -листах

– Частоты аминокислот в -поворотах

– Правила образования -спиралей и -листов

• Основан на растворимых, глобулярных белках – начальная база 15 белков

Page 12: Vvedenie v bioinformatiku_4

Метод Chou-Fasman (1974)

Page 13: Vvedenie v bioinformatiku_4

Развитие Chou-Fasman

1. Присвоение каждой аминокислоте определенного пула параметров

2. Идентификация a-helix и b-sheet. Удлинение этих областей в обоих направлениях.

3. При перекрытии – сравнение P(H) и P(E) и скоринг.

Page 14: Vvedenie v bioinformatiku_4

1. Вероятности

P(H)=[(#H in helix)/(#H)]/(fraction helix {all})

T S P T A E L M R S T GP(H) 69 77 57 69 142 151 121 145 98 77 69 57P(E) 147 75 55 147 83 37 130 105 93 75 147 75P(turn) 114 143 152 114 66 74 59 60 95 143 114 156

Развитие Chou-Fasman

Page 15: Vvedenie v bioinformatiku_4

Поиск a-спирали

2. Поиск областей, где 4 из 6 аминокислот имеют P(H) >100 (“ ядро a-спирали”)

T S P T A E L M R S T GP(H) 69 77 57 69 142 151 121 145 98 77 69 57

T S P T A E L M R S T GP(H) 69 77 57 69 142 151 121 145 98 77 69 57

Page 16: Vvedenie v bioinformatiku_4

Удлинение ядра a-спирали

3. Расширение области ядра, пока 4 аминокислоты имеют среднее P(H) >100.

T S P T A E L M R S T GP(H) 69 77 57 69 142 151 121 145 98 77 69 57

Page 17: Vvedenie v bioinformatiku_4

Поиск β-листа

4. Поиск областей, где 3 из 5 аминокислот имеют P(E) >100 “ядро β-листа”

5. Удлинение ядра до тех пор, пока 4 соседних аминокислоты имеют среднее P(E) > 100

6. Если score области > 105 и среднее P(E) > среднее P(H), значит эта область - β-лист

Page 18: Vvedenie v bioinformatiku_4

GCG Programs

• PepPlot

– Plot on parallel panels

– -cff option, text output

• PeptideStructure

– text output (Most useful for detail)

• PlotStructure

– two outputs

• squiggles “protein-like”

• parallel panels

Page 19: Vvedenie v bioinformatiku_4

GOR III (Garnier-Osguthorpe-Robson. Gibrat J.F., J.Mol.Biol, 1987)

Page 20: Vvedenie v bioinformatiku_4

Модели нейронных сетей

- Машинное обучение

- Сет структур (e.g. a-спирали, не a-спирали)

- Обучение распознавать шаблоны, структуры в известных белках

Эффективность ~ 70 –75%

Rost B. Sander C. Prediction of Protein Secondary Structure at Better then 70% Accuracy. J.Mol.Biol., 1993, vol. 232. 584-599.NPS@ сервер

Page 21: Vvedenie v bioinformatiku_4

Сервисы и алгоритмы

Page 22: Vvedenie v bioinformatiku_4

Eva

Page 23: Vvedenie v bioinformatiku_4

Предсказание вторичной структуры

Page 24: Vvedenie v bioinformatiku_4

Предсказание вторичной структуры Predict Protein (Mega) - secondary structure ( PHDsec, and PROFsec)

PSI-pred (PSI-BLAST profiles used for prediction; David Jones, Warwick)

PHD - Rost & Sander, EMBL, Germany

ASPSSP server Raghava, INDIA

DSC - King & Sternberg (this server)

PREDATOR - Frischman & Argos (EMBL)

ZPRED server Zvelebil et al., Ludwig, U.K.

nnPredict Cohen et al., UCSF, USA.

BMERC PSA Server Boston University, USA

SSP (Nearest-neighbor) Solovyev and Salamov, Baylor College, USA.

• JPRED Consensus prediction (Cuff & Barton, EBI)

• NPS@

Page 25: Vvedenie v bioinformatiku_4

Предсказание вторичной структуры

Page 26: Vvedenie v bioinformatiku_4

Предсказание вторичной структуры

Page 27: Vvedenie v bioinformatiku_4

Предсказание функции

Еще одна важная задача протеомики — анализ и

предсказание функции белка. Известно, что функция

белка определяется его активными сайтами, поэтому

накопление и систематизация информации об активных

сайтах белков чрезвычайно актуальна. В. Иванисенко,

Д. Григоровичем и С. Пинтусом разработана

компьютерная база данных PDBSite, которая содержит

информацию о более чем 12 тысячах активных сайтов

белков. Источником информации служат хорошо

документированные пространственные структуры

белков.

Page 28: Vvedenie v bioinformatiku_4

• парное выравнивание;

• множественное выравнивание;

• поиск гомологов, threading;

• структурное выравнивание.

Основные методы в биоинформатике:

Page 29: Vvedenie v bioinformatiku_4

CASP

Critical Assessment of Techniques for Protein Structure Prediction

CASP1 (1994) CASP2 CASP3 CASP4 CASP5…..CASP9 (2010)

• Comparative modeling (CM)

• Fold-recognition (FR)

• CAFASP meta-server ver. 3

• New folds (NF)

• Ten most wanted sec. struct. contacts, protein-protein docking, and disordered predictions.

Page 30: Vvedenie v bioinformatiku_4

About CASP: CASP is a blind study/experiment that aims at establishing the current state of the art in protein structure prediction; identifying what progress has been made; and highlighting where future effort may be most productively focused (Every two years).

This blind study is held over an ~8 month time period and ends in a meeting held every two years, in Asilomar, CA, starting from 1994. For the procedure of the experiment, CASP participants are first provided target sequences (around May) via the Protein Structure Prediction Center at Lawrence Livermore National Laboratory. The participants have a few months to determine the template structure, alignment, model structure and evaluate their results.

The sequence targets are categorized by homology and difficulty for predicting their structure. The fairly simple targets have med. sequence homology (>30% seq. identity) are considered comparative modeling (CM) predictions; the med. difficulty targets have med.-to-low sequence homology (~10-30% seq. identity) are considered fold-recognition (FR) predictions; and the difficult targets have low seq. homology and usually require an ab initio methods are considered new folds (NF).

During the prediction time (~May-Oct.), researchers (structural biologist in x-ray or NMR) work on solving the experimental structure of each of the target sequences and they hold back the structure coordinate information from the predictors. By Nov., all participants submit their models (as coordinates) to the Livermore Center and the researchers (who solve the target structure) finalize and post their results. Finally, in Dec., all participants and the CASP organizers meet to evaluate the results of the experiment comparing each model with the experimental structure and discussing the methodologies used.

The goal of CAFASP is to evaluate the performance of fully automatic structure prediction servers available to the community. In contrast to the normal CASP procedure, CAFASP aims to answer the question of how well servers do without any intervention of experts, i.e. how well ANY user using only automated methods can predict protein structure. CAFASP assesses the performance of methods without the user intervention allowed in CASP.

Page 31: Vvedenie v bioinformatiku_4

CASP

CASP отчеты, результаты

Page 32: Vvedenie v bioinformatiku_4

Предсказание сворачивания белка vs предсказание структуры

Престказание процесса фолдинга белка связано с процессом приобретения белком его 3D формы, очертаний – физико-химические принципы.

Предсказание структуры – используются любые статистические, теоретические и эмпирические данные.

4 подхода: Моделирование гомологов (Homology Modeling)

Распознавание фолда (Sequence-Structure Threading (secondary structure prediction)):

• Dynamic programming• Knowledge-based potentials

Предсказание Ab initio Docking and Drug Design

Page 33: Vvedenie v bioinformatiku_4

• Моделирование гомологов (homology modeling)

• Ab initio предсказание

• Распознавание сворачивания “Threading'‘

• Докинг

Техники фолдинга белка

Page 34: Vvedenie v bioinformatiku_4

Сравнительное моделирование гомологов

Для последовательностей с гомологичностью > 25-30% использовать известную PDB структуру как отправной пункт для создания 3D модели структуры неизвестной последовательности.

Нужно использовать координаты основной цепи (N-Cα-C) гомологичной структуры как шаблон для модели

70% и более гомологичности – очень высокое качество модели, даже положения боковых цепей могут быть предсказаны с высокой точностью.

40%-65% - средняя точность предсказания. Могут быть серьёзные ошибки даже в положении основной цепи, особенно в областях петель\изгибов.

Page 35: Vvedenie v bioinformatiku_4

Лекарственные средства, разработанные с использованием неверных представлений о структуре белка, могут быть токсичны или обладать неучтёнными побочными эффектами.

Для эффективности этого метода требуется по меньшей мере 3,000 уникальных, совершенно точно определённых структур. На конец 2001 года имелось только 1,000 уникальных структур среди 16973 в PDB. 2008 год – 53000 структур в PDB, homo sapience ~1500.

Page 36: Vvedenie v bioinformatiku_4

1. Последовательность-цель – первичная структура белка, 3D структуру которого следует определить

2. Шаблон – белок, чья 3D структура ясна

3. Выравнивание последовательностей 1 и 2

Сравнительное моделирование гомологов

Желательно также иметь

Биохимическую и структурную информацию (литература)

Дополнительные последовательности гомологов с известной структурой

Page 37: Vvedenie v bioinformatiku_4

Моделирование гомологов

1. Fragment-based modeling: Выравнивание с целью идентификации структурно-

постоянных областей (SCR): а) области без вставок-делеций и в) области с четко определяемой вторичной структурой. VR – области между SCR. Composer (Sybil), Homology (InsightII)

2. Restraint-based modeling:

получение score-функции путём комбинирования «ограничений» - расстояний между Сα, торсионных углов и т.д. Оценка результатов MD данной score-функцией. Modeller

Page 38: Vvedenie v bioinformatiku_4

Swiss-PDBViewer

Page 39: Vvedenie v bioinformatiku_4

• Моделирование гомологов

• Предсказание Ab initio

• Распознавание сворачивания “Threading'‘

• Докинг

Page 40: Vvedenie v bioinformatiku_4

Предсказание Ab initioПрименяется, когда неизвестны гомологи, нет структуры,

которую можно было бы использовать как шаблон

Есть только одна последовательность. Предсказание 3D основано на «базовых» принципах, таких, как энергетические и статистические законы и правила.

Это – симуляция физических сил и процессов, которые могут привести развёрнутый белок в нативную (стабильную, присутствующую в природе) конформацию на компьютере

Стабильность с точки зрения термодинамики: нативная конформация белка есть его глобальный минимум свободной энергии. Белок должен сворачиваться так самостоятельно.

Page 41: Vvedenie v bioinformatiku_4

Предсказание Ab initio

Электростатические

Ван-Дер-Ваальс

Водородные связи

Энергия торсионных связей

Page 42: Vvedenie v bioinformatiku_4

Предсказание Ab initio - сворачивание

Полный расчёт энергий – очень затратный с точки зрения вычислений процесс.

Поэтому требуется разработка неких эвристических энергетических функций, которые бы надёжно различали «правильную» и «неправильную» структуры и лучше «понимали» бы силы, которые управляют сворачиванием белка.

Page 44: Vvedenie v bioinformatiku_4

Фолдинг. Предсказание Ab initio

Protein Folding: A Perspective from Theory and Experiment

Christopher M. Dobson,* Andrej Sœ ali, and Martin Karplus*

Page 45: Vvedenie v bioinformatiku_4

Предсказание Ab initio

Сравнение расчётной и экспериментальной модели для белка миоглобина и использованием refined potential function. Рассчитанная структура является 3D структурой, полученной в результате 3-х разных расчётов с дальнейшей кластеризацией и выбором структуры с наименьшей энергией. Общее время симуляции на кластере из 16 машин CM-5 massively parallel computer составило 60 часов, в течении которых было генерировано порядка 5 миллионов структур. RMS составляет 6.2 Å.

Page 46: Vvedenie v bioinformatiku_4

Парадокс Левенталя

Время, за которое белок скручивается, (принимает конечное 3D состояние) на много порядков меньше времени перебора всех возможных конфигураций.

Допустим, в белке 100 атомов, каждый из которых принимает 3 положения:

3 100 = 5 × 10 47 конформаций.

Наибыстрейшее движение – 10- 15 с. Перебор всех конформаций займёт 5 × 10 32 с или 1.6 × 10 25 лет (возраст Вселенной ~ 13,75 × 109)

Page 47: Vvedenie v bioinformatiku_4

• Homology Modeling

• Ab initio prediction

• Fold Recognition or “Threading'‘

Page 48: Vvedenie v bioinformatiku_4

Распознавание сворачивания (“Threading”)

Напоминает метод моделирования гомологов, но не требует структур с высокой степенью идентичности.

Интересующая нас последовательность «протягивается» через все возможные позиции основной цепи во всех известных белковых структурах в PDB, и для каждой итерации рассчитывается её свободная энергия.

Структура, которая даст лучший показатель энергии принимается за «шаблон» и дальнейший процесс напоминает моделирование гомологов

Threading не может быть применён для тех белков, для которых в базе PDB нет похожих структур.

Page 49: Vvedenie v bioinformatiku_4

Из «Methods in Molecular Biology, vol 143, Methods and ProtocolMethods and Protocols. Protein Structure Prediction, еdited by David M. Webster»

Profiles-3D scoring function: оценка локального структурного выравнивания (укладки) каждой аминокислоты в последовательно-сти без учета попарного взаимодей-ствия аминокислот+склонность к H/E/L структурам+полярность (solvent exposure)

Распознавание сворачивания (“Threading”)

Page 50: Vvedenie v bioinformatiku_4

Рисунок из R. Lathrop et al, “Analysis and Algorithms for Protein Sequence-Structure Alignment” in Computational Methods in Molecular Biology, Salzberg et al. editors, 1998.

Распознавание сворачивания (“Threading”)

Page 51: Vvedenie v bioinformatiku_4

Fold Recognition – The Fold

PDB

Groups clustered

by a common

resemblance

Genome Sequencing

Homology

Structure Conservation

Calculated Folds

Сколько всего фолдов?

Количество фолдов ~ 4000

БД из 930 фолдов ~ 90% семейств белков

Page 52: Vvedenie v bioinformatiku_4

Fold Recognition – недостатки

Этот метод редко приводит к тому качеству структурного выравнивания, которое предоставляет моделирование гомологов.

Page 53: Vvedenie v bioinformatiku_4

Серверы• PredictProtein Server

• ModBase (a database of three-dimensional protein models calculated by comparative modeling)

3D PSSM & ModBase

3D-PSSM предсказание 3D структуры по последовательности и вероятность этой структуры

ModBase – база данных 3D структур, построенных на основе сравнительного моделирования