Алгоритмы в биоинформатике, осень 2016: Множественные...
TRANSCRIPT
Множественные выравнивания
Профили
Обобщение парного выравнивания
• Выравнивание 2-х последовательностей –двумерная матрица
• 3-х последовательностей – 3-х мерная.
A T _ G C G _A _ C G T _ AA T C A C _ A
• Задача: больше консервативных столбцов, лучшевыравнивание
Глобальное выравнивание 3-хпоследовательностей
начало
конец
3-D архитектура
(i-1,j-1,k-1) (i-1,j,k-1)
(i-1,j-1,k) (i-1,j,k)
(i,j,k-1)
(i,j-1,k-1)
(i,j-1,k) (i,j,k)
Алгоритм
si-1,j-1,k-1 + (vi, wj, uk) Нет гэпов
si-1,j-1,k + (vi, wj, _ )
si-1,j,k-1 + (vi, _, uk)Один гэп
si,j-1,k-1 + (_, wj, uk)
si-1,j,k + (vi, _ , _)
si,j-1,k + (_, wj, _) Два гэпа
si,j,k-1 + (_, _, uk)
• si,j,k = max
• (x, y, z) – запись в трехмерной матрице весов
Время работы алгоритма
• Для 3-х последовательностей длины n,время работы – 7n3; O(n3)
• Для k последовательностей - (2k-1)(nk);O(2knk)
Множественное выравнивание порождаетпарные выравнивания
x: AC-GCGG-Cy: AC-GC-GAGz: GCCGC-GAG
Порождает:
x: ACGCGG-C;
y: ACGC-GAC;
x: AC-GCGG-C;
z: GCCGC-GAG;
y: AC-GCGAG
z: GCCGCGAG
Обратная проблема
Имея 3 субъективных парных варнивания:
x: ACGCGG-C;
y: ACGC-GAC;
x: AC-GCGG-C;
z: GCCGC-GAG;
y: AC-GCGAG
z: GCCGCGAG
Хороший вариант
Плохой вариант
Выравнивание выравниваний
x GGGCACTGCAT
y GGTTACGTC--
z GGGAACTGCAG
w GGACGTACC--
v GGACCT-----
Alignment 1
Alignment 2
Описание выравнивания
GTCTGAGTCAGC
GTC[TA]G[AC] - профиль
G[5X][6X]
x
y
z
w
v
GGGCACTGCAT
GGTTACGTC--
GGGAACTGCAG
GGACGTACC--
GGACCT-----
GGACACAGCAT - консенсус
Частотный профиль – методы вычисления
1. Наивный метод
2. Метод Лапласа
3. Метод Байеса
4. Метод матриц замен
5. Метод общего предка
Множественное выравнивание – жадныйалгоритм
u1= ACGTACGTACGT…
u2 = TTAATTAATTAA…
u3 = ACTACTACTACT…
u1= AC[GT]TAC[GT]TAC[GT]T…
u2 = TTAATTAATTAA…
…k-1
k
…
uk = CCGGCCGGCCGG
uk = CCGGCCGGCCGG…
Время работы алгоритма на k последовательностях длины n – O(n2k2)
Прогрессивное выравниваниеClustalW
• Прогрессивное выравнивание –жадный алгоритм с более «умным»способом выбора пар.
• Три шага
1.) Построить парные выравнивания
2.) Построить дерево-подсказку
3.) Прогрессивное выравнивание подереву-подсказке
Шаг 1: Парные Выравнивания
• Выравнивания пар порождают матрицу
identity
v1 v2 v3 v4
-
.17 -
.87 .28 -
.59 .33 .62 -
v1
v2
v3
v4
(.17 значит идентичны на 17 % )
Шаг 2: Дерево-подсказка
v1
v2
v3
v4
v1 v2 v3 v4
-
.17 -
.87 .28 -
.59 .33 .62 -
v1
v3
v4
v2
Далее вычислить:v1,3 = выравнивание (v1, v3)v1,3,4 = выравнивание ((v1,3),v4)v1,2,3,4 = выравнивание ((v1,3,4),v2)
Шаг 3: Прогрессивное выравнивание
• Выравниванием 2 наиболее близких
последовательности.
• Следуя дереву - подсказке,
довыравниваем следующую
последовательность к имеющемуся
выравниванию
FOS_RAT
FOS_MOUSE
FOS_CHICK
FOSB_MOUSE
FOSB_HUMAN
PEEMSVTS-LDLTGGLPEATTPESEEAFTLPLLNDPEPK-PSLEPVKNISNMELKAEPFD
PEEMSVAS-LDLTGGLPEASTPESEEAFTLPLLNDPEPK-PSLEPVKSISNVELKAEPFD
SEELAAATALDLG----APSPAAAEEAFALPLMTEAPPAVPPKEPSG--SGLELKAEPFD
PGPGPLAEVRDLPG-----STSAKEDGFGWLLPPPPPPP-----------------LPFQ
PGPGPLAEVRDLPG-----SAPAKEDGFSWLLPPPPPPP-----------------LPFQ
. . : ** . :.. *:.* * . * **:
Точки и звезды отображают насколько консервативны столбцы.
Множественные Выравнивания:Взвешивание
• Количество полных совпадений
• Сумма по парам (SP-Score)
• Энтропия
Количество полных совпадений
AAAAAAAATATC
Количество полных совпадений
AAAAAAAATATC
• Хорошо только для очень близких
последовательностей
Сумма по парам (SP-Score)
• Построим парное выравнивание помножественному
• Посчитаем веса всех этих парныхвыравниваний – s(ai, aj)
• Просуммируем: s(a1,…,ak) = Σi,j s (ai, aj)
Энтропия: ПримерЭнтропия столбца:
-( pA logpA + pC logpC + pG logpG + pT logpT)
A A A
A C C
•Столбец 1 = -[1*log(1) + 0*log0 + 0*log0 +0*log0]=0
•Столбец 2 = -[(1/4)*log(1/4) + (3/4)*log(3/4) + 0*log0 + 0*log0]= -[ (1/4)*(-2) + (3/4)*(-.415) ] = +0.811
A C G
A C T
•Столбец 3 = -[(1/4)*log(1/4)+(1/4)*log(1/4)+(1/4)*log(1/4)+(1/4)*log(1/4)] = 4* -[(1/4)*(-2)] = +2.0
•Энтропия выравнивания = 0 + 0.811 + 2.0 = +2.811