Биоинформатика в синтезе генетических...
TRANSCRIPT
![Page 1: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/1.jpg)
1/34
Биоинформатика в синтезе генетических
конструкций
Павел Яковлев
23 июля 2014Летняя школа по биоинформатике 2015
![Page 2: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/2.jpg)
2/34
Направленная эволюция
![Page 3: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/3.jpg)
3/34
Секвенирование: in vitro → in silico
![Page 4: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/4.jpg)
4/34
Дизайн белков
![Page 5: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/5.jpg)
5/34
in silico?−→ in vitro
![Page 6: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/6.jpg)
6/34
Polymerase Cycling Assembly
![Page 7: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/7.jpg)
7/34
Комплементарность
2 водородные связи 3 водородные связи
![Page 8: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/8.jpg)
8/34
Проблемы с PCA I
• Шпильки
![Page 9: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/9.jpg)
9/34
Проблемы с PCA II
• Слабые связи
![Page 10: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/10.jpg)
10/34
Проблемы с PCA III
• Кросс-активность
![Page 11: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/11.jpg)
11/34
Переберем все варианты?
Количество вариантов кодирующих генов:
3100 ≈ 5 × 1047
![Page 12: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/12.jpg)
12/34
План по спасению
• Понять, как сворачиваются нуклеиновые кислоты.
• Понять, когда связи будут рваться, а когда нет.
• На базе полученных знаний построить оценочнуюфункцию для группы олигов.
• Построить алгоритм, итеративно улучшающий имеющийсянабор олигов.
![Page 13: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/13.jpg)
13/34
Как сворачиваются ДНК и РНК?
![Page 14: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/14.jpg)
14/34
Более формально I
Последовательностость РНК:
S ∈ {A,C ,G ,U}∗, с длиной n = |S |.
Структура РНК:
P ⊆ {(i , j)|1 ≤ i ≤ j ≤ n, comp(Si ) = Sj}.
![Page 15: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/15.jpg)
15/34
Более формально II
Будем называть две связи (i , j) и (i ′, j ′) пересекающимися(crossing), если
i < i ′ < j < j ′ или i ′ < i < j < j ′
Структура P является пересекающейся, если содержит хотя быодну пару пересекающихся связей. Прочие структуры будемназывать непересекающимися (non-crossing, nested).
![Page 16: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/16.jpg)
16/34
Более формально III
При поиске структуры требуется определиться со следующимивопросами:
• Какую структуру считать корректной?
• с макисмальным количеством связей;
• с минимальной свободной энергией.
• Какой класс структур мы ищем?
• crossing;
• nested.
• Как мы хотим видеть ответ?
• набор наиболее вероятных структур;
• вероятность образования подструктур.
![Page 17: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/17.jpg)
17/34
Простой выбор
Задача:
IN: Последовательность S
OUT: Одна nested структура P , максимизирующая количествосвязей.
Поиск crossing структур в общем случае – NP-hard.
![Page 18: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/18.jpg)
18/34
Алгоритм Нуссинова I
Введем величину:
Ni ,j = max{|P | | P − структура строкиSi ,j}
В этом случае ответом на нашу задачу станет значение N1,n,которое вы постараемся вычислить методом динамическогопрограммирования.
![Page 19: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/19.jpg)
19/34
Алгоритм Нуссинова II
В случае i = j мы будем иметь строки нулевой длины,соответственно:
Ni ,i = 0
Аналогично, структуру не может образовать строка сотрицательной длиной:
Ni ,j = 0, j < i
Как искать для всех прочих позиций?
• Требуется рассмотреть разлиные варианты образованияструктур между нуклеотидами Si и Sj .
![Page 20: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/20.jpg)
20/34
Алгоритм Нуссинова III
Ni+1,j Ni+1,j−1 + ωi ,j
Ni ,j−1 maxk: i<k<j
Ni ,k + Nk+1,j
![Page 21: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/21.jpg)
21/34
Алгоритм Нуссинова IV
Собираем:
Ni ,j = 0, j ≤ i
Ni ,j = max
S(i + 1, j − 1) + ωi ,j
S(i + 1, j)S(i , j − 1)max
k: i<k<jNi ,k + Nk+1,j
Вариант 3 укладывается в вариант 4, а вариант 2 можноуложить, немного изменив лимиты на k .
![Page 22: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/22.jpg)
22/34
Алгоритм Нуссинова V
Ni ,j = max
{
S(i + 1, j − 1) + ωi ,j
maxk: i≤k<j
Ni ,k + Nk+1,j
G C A C G A C G
0 G
0 0 C
0 0 0 A
0 0 0 0 C
0 0 0 0 0 G
0 0 0 0 0 0 A
0 0 0 0 0 0 0 C
0 0 0 0 0 0 0 0 G
![Page 23: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/23.jpg)
23/34
Алгоритм Нуссинова VI
Ni ,j = max
{
S(i + 1, j − 1) + ωi ,j
maxk: i≤k<j
Ni ,k + Nk+1,j
G C A C G A C G
0 1 G
0 0 0 C
0 0 0 0 A
0 0 0 0 1 C
0 0 0 0 0 0 G
0 0 0 0 0 0 0 A
0 0 0 0 0 0 0 1 C
0 0 0 0 0 0 0 0 G
![Page 24: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/24.jpg)
24/34
Алгоритм Нуссинова VII
( ) . ( ) . ( )
G C A C G A C G
0 1 1 1 2 2 2 3 G
0 0 0 0 1 1 1 2 C
0 0 0 0 1 1 1 2 A
0 0 0 0 1 1 1 2 C
0 0 0 0 0 0 1 1 G
0 0 0 0 0 0 0 1 A
0 0 0 0 0 0 0 1 C
0 0 0 0 0 0 0 0 G
ACGA CGACG
Нахождение структуры: обратный проход от правого верхнегоугла до диагонали.
![Page 25: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/25.jpg)
25/34
Проблемы простого решения
• Максимизация взаимодействующих пар не отвечаетреальности сворачивания.
• Взаимодействия влияют друг на друга, их нельзярассматривать независимо.
• Существуют более и менее вероятные структуры.
• У РНК может быть более одной устойчивой структуры.
![Page 26: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/26.jpg)
26/34
MFE-fonding I
Будем определять структуру исходя из значения свободной
энергии высвобожденной в ходе формированиякомплементарных пар.
Свободная энергия Гиббса – величина, показывающаяизменение энергии в ходе химической реакции. Позволяетпонять, возможно ли принципиально дальнейшее протеканиехимической реакции.
G = U − TS(+PV )
U – внутренняя энергия;T – абсолютная температура;S – энтропия.
![Page 27: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/27.jpg)
27/34
MFE-fonding II
• Будем предсказывать наиболее вероятную конформацию.
• Используем информауию об энергетическом статусеразличных типов петель.
• Свободная энергия – аддитивная величина, а потомуэнергия структуры есть сумма энергий ее петель:
E (S) =∑
L∈S
E (L)
Алгоритм впервые предложен Цукером (Zuker) в 1981 году.
![Page 28: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/28.jpg)
28/34
MFE-fonding III
![Page 29: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/29.jpg)
29/34
К олигонуклеотидам
• Модифицированный алгоритм Цукера.
• Дает одно решение, но численно определяет MFE длязаданной температуры, что позволяет оценивать качествоолигов.
• Простая модификация позволяет использовать его же дляоценки связывания нескольких олигонуклеотидов.
![Page 30: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/30.jpg)
30/34
Genetic algorithm for genetics I
![Page 31: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/31.jpg)
31/34
Genetic algorithm for genetics II
Вариант – улучшай худшего.Алгоритм:
• Сгенерировать большой репертуар вариантов.
• Разбить варианты на олиги и оценить их.
• Выбрать лучший вариант.
• Исходя из трех компонент оценки выбрать область солигами “худшего качества”.
• Методом Монте-Карло просемплирвоать область додостижения лучшего результата.
• Итеративно повторить необходимое количество раз сосменой области улучшения.
![Page 32: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/32.jpg)
32/34
Features
• Работа с рандомизированными вариантами.
• Генерация библиотек.
• Поддержка встраивания в различные плазмиды.
• Поддержка переиспользования олигов и наличияконстантных фрагментов.
• Разбиение на фрагменты для сборки больших конструкций.
• Совместимость выхода с роботизированнымоборудованием синтеза, подготовки и постановки ПЦР.
![Page 33: Биоинформатика в синтезе генетических конструкцийbioinformaticsinstitute.ru/sites/default/files/yakovlev.pdf · 12/34 План по спасению](https://reader036.vdocuments.mx/reader036/viewer/2022071101/5fdade91fe99d912437a0b7f/html5/thumbnails/33.jpg)
33/34
Full-mRNA optimization