ТВ-биология ( Отрывок , взгляд и нечто )
DESCRIPTION
ТВ-биология ( Отрывок , взгляд и нечто ). М.С.Гельфанд 23 января 2009. Экспоненциальный рост объема данных. красный – статьи (PubMed) синий – последовательности (GenBank) зеленый – объем в нуклеотидах (GenBank). - PowerPoint PPT PresentationTRANSCRIPT
ТВ-биология
(Отрывок, взгляд и нечто)
М.С.Гельфанд
23 января 2009
Экспоненциальный рост объема данных
красный – статьи (PubMed)синий – последовательности (GenBank)зеленый – объем в нуклеотидах
(GenBank)
100
1000
10000
100000
1000000
10000000
100000000
1000000000
10000000000
100000000000
1982 1987 1992 1997 2002 2007
из 18 миллионов ссылок, ~675 тыс. отвечают на “bioinformat* OR comput*”16 тыс. “bioinformat*”65 тыс. “bioinformat* OR computat*”
622 полных генома (прокариот)
3 3 6 6 719 25 30
4866
81
142
186
0
20
40
60
80
100
120
140
160
180
200
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Фрагмент генома (0.1% генома E. coli)
Геном бактерии: несколько миллионов нуклеотидов (сотен тысяч у облигатных паразитов и эндосимбионтов)
От 600 до 9 тысяч генов (примерно 90% генома кодирует белки)
Фрагмент генома (0.0001% генома человека)
Геном человека: 3 000 000 000 нуклеотидов
Примерно 25 тысяч генов, < 5% генома кодирует белки
Не только тексты
Другие типы массовых экспериментов:• Транскриптомика
– «выстилающие массивы»: полная карта транскриптов– уровень экспрессии и время жизни мРНК– ДНК-белковые взаимодействия
• Протеомика– концентрации белков– белок-белковые взаимодействия, белковые
комплексы– структуры белков
• Эпигенетика– метилирование ДНК– положение и модификации нуклеосом
• Генетика– летальность мутаций– фенотипы– синтетические летали
Экспрессия (уровень
работы) генов
Цикл развития малярийного плазмодия
Развитие цветка резухи Таля
двойная кластериза-
ция – на генах и на условиях
Графы белок-белковых (структурных, сигнальных и др.) и белок-ДНКовых
(регуляторных) взаимодействий в дрожжах
Цель (локальная): аннотировать гены / белки in silico
• Что?– (биохимическая) функция– клеточная роль
• Когда?– Регуляция
• Экспрессия• Время жизни (мРНК, белка)
• Где?– Локализация
• Внутри/снаружи• Органеллы и компартменты
• Как?– Механизм
• Специфичность, регуляция
Наиболее важные предсказания затем проверяются экспериментально
Биологический ликбезрегуляторные участки ген
ДНК
белок
транскрипция
трансляция
РНК
Translation
Elongation
Polysomes
Распознавание генов
Таблица генетического кода
Поиск генов если известен белок: просто
… или родственный белок: тоже просто
Генетический код: стоп-кодоны
TTT F TCT S TAT Y TGT C
TTC F TCC S TAC Y TGC C
TTA L TCA S TAA stop TGA stop
TTG L TCG S TAG stop TGG W
CTT L CCT P CAT H CGT R
CTC L CCC P CAC H CGC R
CTA L CCA P CAA Q CGA R
CTG L CCG P CAG Q CGG R
ATT I ACT T AAT N AGT S
ATC I ACC T AAC N AGC S
ATA I ACA T AAA K AGA R
ATG M/ start ACG T AAG K AGG R
GTT V GCT A GАT D GGT G
GTC V GCC A GАC D GGC G
GTA V GCA A GАA E GGA G
GTG V GCG A GАG E GGG G
Открытые рамки считывания
Ген должен располагаться внутри области от стоп-кодона до следующего стоп-кодона (в той же фазе)
Сильное перепред-сказание
(Aeropyrum pernix)
Генетический код: синонимы
TTT F TCT S TAT Y TGT C
TTC F TCC S TAC Y TGC C
TTA L TCA S TAA stop TGA stop
TTG L TCG S TAG stop TGG W
CTT L CCT P CAT H CGT R
CTC L CCC P CAC H CGC R
CTA L CCA P CAA Q CGA R
CTG L CCG P CAG Q CGG R
ATT I ACT T AAT N AGT S
ATC I ACC T AAC N AGC S
ATA I ACA T AAA K AGA R
ATG M/ start ACG T AAG K AGG R
GTT V GCT A GАT D GGT G
GTC V GCC A GАC D GGC G
GTA V GCA A GАA E GGA G
GTG V GCG A GАG E GGG G
Codon usage (статистика употребления кодонов)
• частоты кодонов отличаются от частот триплетов в некодирующих областях– различия в частотах аминокислот в белках– различия в частотах синонимичных кодонов
• частоты синонимичных кодонов– специфичны для генома– коррелируют с концентрациями тРНК
GenMark, окно 96 нт
Генетический код: старт-кодоны
TTT F TCT S TAT Y TGT C
TTC F TCC S TAC Y TGC C
TTA L TCA S TAA stop TGA stop
TTG L TCG S TAG stop TGG W
CTT L CCT P CAT H CGT R
CTC L CCC P CAC H CGC R
CTA L CCA P CAA Q CGA R
CTG L CCG P CAG Q CGG R
ATT I ACT T AAT N AGT S
ATC I ACC T AAC N AGC S
ATA I ACA T AAA K AGA R
ATG M/ start ACG T AAG K AGG R
GTT V GCT A GАT D GGT G
GTC V GCC A GАC D GGC G
GTA V GCA A GАA E GGA G
GTG V GCG A GАG E GGG G
Начала генов Bacillus subtilis
dnaN ACATTATCCGTTAGGAGGATAAAAATG
gyrA GTGATACTTCAGGGAGGTTTTTTAATG
serS TCAATAAAAAAAGGAGTGTTTCGCATG
bofA CAAGCGAAGGAGATGAGAAGATTCATG
csfB GCTAACTGTACGGAGGTGGAGAAGATG
xpaC ATAGACACAGGAGTCGATTATCTCATG
metS ACATTCTGATTAGGAGGTTTCAAGATG
gcaD AAAAGGGATATTGGAGGCCAATAAATG
spoVC TATGTGACTAAGGGAGGATTCGCCATG
ftsH GCTTACTGTGGGAGGAGGTAAGGAATG
pabB AAAGAAAATAGAGGAATGATACAAATG
rplJ CAAGAATCTACAGGAGGTGTAACCATG
tufA AAAGCTCTTAAGGAGGATTTTAGAATG
rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG
rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG
rplM AGATCATTTAGGAGGGGAAATTCAATG
Участок связывания рибосом
dnaN ACATTATCCGTTAGGAGGATAAAAATG
gyrA GTGATACTTCAGGGAGGTTTTTTAATG
serS TCAATAAAAAAAGGAGTGTTTCGCATG
bofA CAAGCGAAGGAGATGAGAAGATTCATG
csfB GCTAACTGTACGGAGGTGGAGAAGATG
xpaC ATAGACACAGGAGTCGATTATCTCATG
metS ACATTCTGATTAGGAGGTTTCAAGATG
gcaD AAAAGGGATATTGGAGGCCAATAAATG
spoVC TATGTGACTAAGGGAGGATTCGCCATG
ftsH GCTTACTGTGGGAGGAGGTAAGGAATG
pabB AAAGAAAATAGAGGAATGATACAAATG
rplJ CAAGAATCTACAGGAGGTGTAACCATG
tufA AAAGCTCTTAAGGAGGATTTTAGAATG
rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG
rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG
rplM AGATCATTTAGGAGGGGAAATTCAATG
Сравнительный анализ (один и тот же ген в нескольких геномах)
Sty TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATTStm TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATTSen TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATTEco TTGCCCG--TGCCAGACGGCAGATTATCTCCCTGACCTGGTGGTTGCCCAGGAGGAGGGCCGGAAATAGGTTGTATCATTKpn ----CGG--TGGCGCAGTGCCTGATGGG-CCTCGCCCTGGAGGACGGTCTGGCAT---ATCAGCAAGGGGGTGCGTCATGYpe TTGTTAGAACAGGGGAAAACGGTAAACAGTGTGGCATTAGATGTCGGTTATAGCT-----CCGCCTCTGCTTTTATCGCC * * * * * * * * * * *
Sty AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCTTGGCGGCCAGATTATGGC--ACACTTGTCCGGStm AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGGSen AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGGEco ACGTATCCTTATAC----------CTGAAATCTTCGCAAG--TATGCCTGGCCGCGAGATTATGGC--ACACTTGTCCGGKpn ATTCATCCTTTCGATATCGCGGTGCTGGAACCAGGTGATGAGTATGCCTGGCGGCCAGATTATGGC--ACACTTCCCCAGYpe ATGTTTCAGCAAATAT--------CGGGTACCA-CGCCTGAGCGTTTCCGGCGGGGCAATAGTGGCTTATACTAAGCCCC * ** * * * * *** * ** **** * *** **
Sty TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGCStm TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGCSen TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGCEco TTAACTCTCGT--CTCATACAG------GTAACACAAAC--GTGAAAATCCTTGTTGATGAAAATATGCCTTATGCCCGCKpn TTAACTCTCGTT-CTCAGACAG------GTACTGAACT---GTGAAAATCCTCGTTGATGAAAATATGCCCTATGCCCGTYpe CTGTTTTTCATCTGTATGGCAGTTCGCTGTCGGAGAGTAAAGTGAAAATTCTGGTTGATGAAAATATGCCGTACGCTGAG * * ** * * *** ** * ******** ** ***************** ** ** 123123123123123123123123123123123123123
Гены консервативнее, чем межгенные области (точнее, особенности эволюции другие)
rbsD в E. coli
Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAAAAAAATGAAAAAAGGC
Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG
rbsD в энтеробактериях
Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCSen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCStm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCEco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGCYpe TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGSen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGStm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGEco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTGYpe GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *
rbsD в энтеробактериях: ответ
Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCSen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCStm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCEco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGCYpe TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGSen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGStm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGEco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTGYpe GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *
Мораль
• Комплексный подход: использование многих разнородных соображений, каждое из которых по отдельности – слабое
• Сравнительный подход: одновременный анализ множества геномов (находящихся на различных эволюционных расстояниях друг от друга)
Идеология• Сходство => гомология
(общность происхождения)• Гомология => сходная функция
• Принцип Пирсона:консервативно то, что важно– функциональные мотивы в белках– регуляторные сайты в ДНК– не обязательно последовательности
• структура белка и РНК• расположение генов на хромосоме• ко-экспрессия генов
Метаболические пути
Метаболизм аргинина и пролина
Предсказание функции по сходству с уже известными генами
• Анализ на уровне индивидуальных генов даёт возможность охарактеризовать 50-75% генов в новом (бактериальном) геноме
Но:• ~100 универсально отсутствующих генов (нет ни одного
известного гена для известной функции)• множество функций, для которых неизвестны представители в
больших таксонах• в каждом геноме ~5-10% консервативных генов с неизвестной
функцией• трудно предсказывать специфичность в мультигенных
семействах (некоторые классы ферментов, транспортёры, факторы транскрипции)
• Скучно: нельзя найти что-то принципиально новое
Сравнительная геномика и метаболическая реконструкция
• Метаболическая реконструкция
Идентификация пробелов
• Позиционный анализ
(гены и домены)
• Анализ филогенетического распределения
• Анализ регуляторных сигналов
Отнесение генов к функциональным и метаболическим системам Уточнение специфичности
Функциональный анализ транспортеров
• Предсказание общей функции– гомология– анализ трансмембранных сегментов
• Отнесение к функциональной подсистеме (метаболическому пути)– ко-локализация– ко-регуляция
• Предсказание специфичности– анализ филогенетического профиля
• конечный продукт биосинтетического пути: присутствует в геномах, не имеющих пути (импорт заменяет биосинтез)
• промежуточный продукт биосинтетического пути; может заменять часть пути «выше по течению»
• исходный продукт катаболического или биосинтетического пути: не встречается в геномах, где этот путь отсутствует
Расстояние между генами (реакциями)
«в промежуточных метаболитах»
Функционально-зависимые гены (элементы одного пути) во многих геномах располагаются рядом
«Геномная ассоциация» - мера позиционной кластеризации для пары генов (гены находятся рядом в большом числе геномов)
Больше геномов (более сильные связи) => более значимая корреляция
Метаболический путь синтеза рибофлавина (витамин В2)
ribAribA
ribA ribB
G TP cyclohydrolase II
ribD
ribD
ribG
ribG
P yrim id ine deam inase
3,4-D HB P synthase P yrim id ine reductase
ribHribH R ibo flavin synthase, -cha in
ribEribB
ypaA
R ibo flavin synthase, -chain
GTP
2,5-diam ino-6-hydroxy-4-(5`-phosphoribosylamino)pyrim idine
ribulose-5-phosphate
PENTOSE-PHOSPHATE PATHWAY
PU RINE BIO SYNTHESIS PATHWAY
3,4-dihydroxy-2-butanone-4-phosphate 5-am ino-6-(5`-phosphoribitylam ino)uracil
5-am ino-6-(5`-phosphoribosylamino)uracil
6,7-dimethyl-8-ribityllumazine
Riboflavin
Консервативная последовательность перед генами рибофлавинового пути из очень разных бактерий
1 2 2’ 3 Add. 3’ Variable 4 4’ 5 5’ 1’ =========> ==> <== ===> -><- <=== -> <- ====> <==== ==> <== <========= BS TTGTATCTTCGGGG-CAGGGTGGAAATCCCGACCGGCGGT 21 AGCCCGTGAC-- 8 4 8 -----TGGATTCAGTTTAA-GCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAT BQ AGCATCCTTCGGGG-TCGGGTGAAATTCCCAACCGGCGGT 19 AGTCCGTGAC-- 8 5 8 -----TGGATCTAGTGAAACTCTAGGGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATATG BE TGCATCCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT 20 AGCCCGCGA--- 3 4 3 -----AGGATCCGGTGCGATTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATGCC HD TTTATCCTTCGGGG-CTGGGTGGAAATCCCGACCGGCGGT 19 AGTCCGTGAC-- 10 4 10 ----–TGGACCTGGTGAAAATCCGGGACCGACAGTGAA-AGTCTGGAT-GGGAGAAGGAAACG Bam TGTATCCTTCGGGG-CTGGGTGAAAATCCCGACCGGCGGT 23 AGCCCGTGAC-- 8 4 8 ----–TGGATTCAGTGAAAAGCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAG CA GATGTTCTTCAGGG-ATGGGTGAAATTCCCAATCGGCGGT 2 AGCCCGCAA--- 3 4 3 ------AGATCCGGTTAAACTCCGGGGCCGACAGTTAA-AGTCTGGAT-GAAAGAAGAAATAG DF CTTAATCTTCGGGG-TAGGGTGAAATTCCCAATCGGCGGT 2 AGCCCGCG---- 7 6 7 --------ATTTGGTTAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GGAAGAAGATATTT SA TAATTCTTTCGGGG-CAGGGTGAAATTCCCAACCGGCAGT 6 AGCCTGCGAC-- 11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGTTAA-AGTCTGGAT-GGGAGAAAGAATGT LLX ATAAATCTTCAGGG-CAGGGTGTAATTCCCTACCGGCGGT 2 AGCCCGCGA--- 4 4 4 -----ATGATTCGGTGAAACTCCGAGGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAATA PN AACTATCTTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT 2 AGCCCACGA--- 3 4 3 -----ATGATTTGGTGAAATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAAAA TM AAACGCTCTCGGGG-CAGGGTGGAATTCCCGACCGGCGGT 3 AGCCCGCGAG-- 5 4 5 ----–TTGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAGAGCGTGA DR GACCTCTTTCGGGG-CGGGGCGAAATTCCCCACCGGCGGT 15 AGCCCGCGAA-- 8 12 9 ----–CCGATGCCGCGCAACTCGGCAGCCGACGGTCAC-AGTCCGGAC-GAAAGAAGGAGGAG TQ CACCTCCTTCGGGG-CGGGGTGGAAGTCCCCACCGGCGGT 3 AGCCCGCGAA-- 5 4 5 -----CCGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAAGGAGGGC AO AATAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGCGGT 2 AGTCCGCGA--- 7 7 7 -----AGGAACCGGTGAGATTCCGGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGATGAAA DU TTTAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGTGGT 2 AGTCCGCGA--- 13 4 12 -----AGGAACTAGTGAAATTCTAGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGAGCAGA CAU GAAGACCTTCGGGG-CAAGGTGAAATTCCTGATCGGCGGT 20 AGCCCGCGA--- 3 4 3 -----AGGACCCGGTGTGATTCCGGGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTCGGC FN TAAAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGTGGT 2 AGTCCACG---- 5 4 5 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GGGAGAAGAATTAG TFU ACGCGTGCTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT 3 AGTCCGCGAC-- 8 5 8 -----TGGAACCGGTGAAACTCCGGTACCGACGGTGAA-AGTCCGGAT-GGGAGGTAGTACGTG SX -AGCGCACTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT 3 AGTCCGCGAC-- 8 5 8 -----TTGACCAGGTGAAATTCCTGGACCGACGGTTAA-AGTCCGGAT-GGGAGGCAGTGCGCG BU GTGCGTCTTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT 30 AGCCCGCGAGCG 137 GTCAGCAGATCTGGTGAGAAGCCAGAGCCGACGGTTAG-AGTCCGGAT-GGAAGAAGATGTGC BPS GTGCGTCTTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT 21 AGCCCGCGAGCG 8 4 8 GTCAGCAGATCTGGTCCGATGCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGATGTGC REU TTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT 31 AGCCCGCGAGCG 7 5 7 GTCAGCAGATCTGGTGAGAGGCCAGGGCCGACGGTTAA-AGTCCGGAT-GAAAGAAGATGGGC RSO GTACGTCTTCAGGG-CGGGGTGGAATTCCCCACCGGCGGT 21 AGCCCGCGAGCG 11 3 11 GTCAGCAGATCCGGTGAGATGCCGGGGCCGACGGTCAG-AGTCCGGAT-GGAAGAAGATGTGC EC GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT 17 AGCCCGCGAGCG 8 4 8 GACAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAG-AGTCCGGAT-GGGAGAGAGTAACG TY GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT 67 AGCCCGCGAGCG 8 3 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGGGTAACG KP GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT 20 AGCCCGCGAGCG 8 4 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGAGTAACG HI TCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT 2 AGCCCACGAGCG 26 9 30 GTCAGCAGATTTGGTGAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAAAGAGAATAAAA VK GCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT 14 AGCCCACGAGCG 11 9 11 GTCAGCAGATTTGGTGAGAATCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAGAATAAGC VC CAATATTCTCAGGG-CGGGGCGAAATTCCCCACCGGTGGT 13 AGCCCACGAGCG 5 4 5 GTCAGCAGATCTGGTGAGAAGCCAGGGCCGACGGTTAC-AGTCCGGAT-GAGAGAGAATGACA YP GCTTATTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT 40 AGCCCGCGAGCG 16 6 16 GTCAGCAGACCCGGTGTAATTCCGGGGCCGACGGTTAT-AGTCCGGAT-GGGAGAGAGTAACG AB GCGCATTCTCAGGG-CAGGGTGAAAGTCCCTACCGGTGGT 25 AGCCCACGAGCG 16 4 27 GTCAGCAGATTTGGTGCGAATCCAAAGCCGACAGTGAC-AGTCTGGAT-GAAAGAGAATAAAA BP GTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT 18 AGCCCGCGAGCG 10 4 10 GTCAGCAGACCTGGTGAGATGCCAGGGCCGACGGTCAT-AGTCCGGAT-GAGAGAAGATGTGC AC ACATCGCTTCAGGG-CGGGGCGTAATTCCCCACCGGCGGT 16 AGCCCGCGAGCA 10 3 11 ---CGCAGATCTGGTGTAAATCCAGAGCCGACGGT-AT-AGTCCGGAT-GAAAGAAGACGACG Spu AACAATTCTCAGGG-CGGGGTGAAACTCCCCACCGGCGGT 34 AGCCCGCGAGCG 6 6 6 GTCAGCAGATCTGGTG 52 TCCAGAGCCGACGGT 31 AGTCCGGAT-GGAAGAGAATGTAA PP GTCGGTCTTCAGGG-CGGGGTGTAAGTCCCCACCGGCGGT 13 AGCCCGCGAGCG 7 3 7 GTCAGCAGATCTGGTGCAACTCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGGCGTCA AU GGTTGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT 17 AGCCCGCGAGCG 7 9 7 GTCAGCAGATCCGGTGAGAGGCCGGAGCCGACGGT-AT-AGTCCGGAT-GGAAGAGGACAAGG PU AAACGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT 19 AGCCCGCGAGCG 19 4 18 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAC-AGTCCGGATGAAGAGAGAACGGGA PY TAACGTTCTCAGGG-CGGGGTGCAACTCCCCACCGGCGGT 19 AGCCCGCGAGCG 15 4 16 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAT-AGTCCGGATGAAGAGAGAGCGGGA PA TAACGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT 19 AGCCCGCGAGCG 14 4 13 GTCAGCAGACCCGGTGCGATTCCGGGGCCGACGGTCAT-AGTCCGGATAAAGAGAGAACGGGA MLO TAAAGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT 16 AGCCCGCGAGCG 8 5 8 GTCAGCAGATCCGGTGTGATTCCGGAGCCGACGGTTAG-AGTCCGGAT-GAAAGAGGACGAAA SM AAGCGTTCTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT 34 AGCCCGCGAGCG 8 3 8 GTCAGCAGATCCGGTCGAATTCCGGAGCCGACGGTTAT-AGTCCGGAT-GGAAGAGAGCAAGC BME GCTTGTTCTCGGGG-CGGGGTGAAACTCCCCACCGGCGGT 17 AGCCCGCGAGCG 10 15 10 GTCAGCAGATCCGGTGAGATGCCGGAGCCGACGGTTAA-AGTCCGGAT-GGAAGAGAGCGAAT BS ATCAATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT 18 AGCCCGCGA--- 5 4 5 -----AGGATTCGGTGAGATTCCGGAGCCGACAGT-AC-AGTCTGGAT-GGGAGAAGATGGAG BQ GTCTATCTTCGGGG-CAGGGTGAAAATCCCGACCGGCGGT 27 AGCCCGCGA—-- 3 5 3 -----AGGATTTGGTGTGATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG BE ATTCATCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT 20 AGCCCGCGA--- 3 4 3 -----AGGATCCGGTGCGAGTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGAAG CA AATGATCTTCAGGG-CAGGGTGAAATTCCCTACCGGCGGT 2 AGCCCGCGAG-- 3 4 3 ----TATGATCCGGTTTGATTCCGGAGCCGACAGT-AA-AGTCTGGAT-GAAAGAAGATATAT DF GAAGATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT 2 AGCCCGCG---- 6 4 6 -------GATTTGGTGAGATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAGAGAAGATATTT EF GTTCGTCTTCAGGGGCAGGGTGTAATTCCCGACCGGTGGT 3 AGTCCACGAC-- 5 3 5 ----ATTGAATTGGTGTAATTCCAATACCGACAGT-AT-AGTCTGGAT—-AAAGAAGATAGGG LLX AAATATCTTCAGGG-CACCGTGTAATTCGGGACCGGCGGT 21 ACTCCGCGAT-- 4 4 4 ----–TTGAAGCAGTGAGAATCTGCTAGCGACAGT-AA-AGTCTGGAT-GGAAGAAGATGAAC LO GTTCATCTTCGGGG-CAGGGTGCAATTCCCGACCGGTGGT 3 AGTCCACGAT-- 3 10 3 ----TTGACTCTGGTGTAATTCCAGGACCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGTTG PN AAGAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGCGGT 125 AGTCCGTG---- 3 4 3 -------GATGTGGTGAGATTCCACAACCGACAGT-AT-AGTCTGGAT-GGGAGAAGACGAAA ST AAGTGTCTTCAGGG-CAGGGTGTGATTCCCGACCGGCGGT 14 AGTCCGCG---- 3 4 3 -------GATGTGGTGTAACTCCACAACCGACAGT-AT-AGTCTGGAT-GAGAGAAGACCGGG MN AAGTGTCTTCAGGG-CAGGGTGAGATTCCCGACCGGCGGT 104 AGTCCGCG---- 3 4 3 -------GATGTGGTGAAATTCCACAACCGACAGT-AA-AGTCTGGAT-GGGAGAAGACTGAG SA ATTCATCTTCGGGG-TCGGGTGTAATTCCCAACCGGCAGT 6 AGCCTGCGAC-- 11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG AMI TCACAGTTTCAGGG-CGGGGTGCAATTCCCCACTGGCGGT 14 AGCCCGCGC--- 5 5 5 ------TGATCTGGTGCAAATCCAGAGCCAACGGT-AT-AGTCCGGAT-GGAAGAAACGGAGC DHA ACGAACCTTCGAGG-TAGGGTGAAATTCCCGACCGGCGGT 20 AGCCCGCAAC-- 11 4 11 --CGACTGACTTGGTGAGACTCCAAGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTACAA FN AATAATCTTCGGGG-CAGGGTGAAATTCCCGACCGGTGGT 2 AGTCCACG---- 4 6 4 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GAGAGAAGAAAAGA GLU ---TGTTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT 28 AGCCCGCGAGCG 10 4 10 GTCAGCAGATCCGGTTAAATTCCGGAGCCGACGGTCAT-AGTCCGGAT-GCAAGAGAACC---
Консервативная вторичная структура RFN-элемента
NNNNyYYUC
NNNNrRRAG
NgGGNcCC
rgGGxc
ARRgxuAG
GRCCYG
AcCG
AGCCRGY
GG YRCC
GRYBy CYRVrG N
YGNaA N U U x N
Nx
AGU
UrN A g
Y
variab lestem -loop
additionalstem -loop
3 4
2
1
5
5 ’ 3 ’
u K NRA
xK
*
****
Capitals: invariant (absolutely conserved) positions.
Lower case letters: strongly conserved positions.
Dashes and stars: obligatory and facultative base pairs
N: any nucleotide. X: any nucleotide or deletion
Attenuation of translation
EC AATCCGCTTATTCTCAGGGCGGGGCG --- TCCGGATGGGAGAGAGTAACG 59 ----------CTGCCCTGATTCTGGTAACCATAATTTTAGTGAGGTTTTT-------TACCATGAATCAGACGCTA TY AACCCGCTTATTCTCAGGGCGGGGCG --- TCCGGATGGGAGAGGGTAACG 61 ----------CTGCCCTGATTCTGGTAACCATAATGTTAATGAGGTTTTTT------TACCATGAATCAGACGCTA KP ATCTCGCTTATTCTCAGGGCGGGGCG --- TCCGGATGGGAGAGAGTAACG 61 ----------CTGCCCTGATTCTGGTAACCATAATTTTAATGAGGTTTTTT------TACCATGAATCAGACGCTC HI TTAGCTCGCATTCTCAGGGCAGGGTG --- TCTGGATGAAAGAGAATAAAA 41 ----------CAGCCCTGATTCTGGTATTTAATTGAAATCTCAAAT-TAGGAAAT--TACTATGAATCAGTCAATT VK TATTTGCGCATTCTCAGGGCAGGGTG --- TCTGGATGAAAGAGAATAAGC 76 ----------CAGCCCTGATTCTGGTATCTAAATATCTTTATATTTCAAGGAATT--TACTATGAATCAGTCTATT AB TAGGCGCGCATTCTCAGGGCAGGGTG --- TCTGGATGAAAGAGAATAAAA 54 ----------CCGCCCTGATTCTGGTATAAATTCATCTTATTAAA—AAGGCATT---TACTATGAATCAGTCATTA YP ATGGGGCTTATTCTCAGGGCGGGGTG --- TCCGGATGGGAGAGAGTAACG 194 ----------CCGCCCTGATTCTGGTAATCCATAATTTTTTAATGAGGTTTCT---TTACCATGAATCAGACGCTT VC CACAACAATATTCTCAGGGCGGGGCG --- TCCGGATGAGAGAGAATGACA 83 ----------AAGCCCTGATTCTGGTCATTTTTT--------------GGAGTATT--ACCATGAATCAGTCCTCA Spu CTATCAACAATTCTCAGGGCGGGGTG --- TCCGGATGGAAGAGAATGTAA 145 ----------ACGCCCTGATTCTGGATATTCCCATGTCGTATTTTTGAAGGATATTAA-CCATGAATCAGTCTTTA MLO GACGTTAAAGTTCTCAGGGCGGGGTG --- TCCGGATGAAAGAGGACGAAA 44 -------CGTGCGTCCTGATTCTGGTTCGAAACGGA--------------AGGATGGACCCATGAATCAGCATTCC AC AAGCGACATCGCTTCAGGGCGGGGCG --- TCCGGATGAAAGAAGACGACG 51 ----------CAGTCCTGAAATGTTTAACCGTAATT-------------------TACGAGAGCATTTCATATGTC BP AAGCAGTACGTCTTCAGGGCGGGGTG --- TCCGGATGAGAGAAGATGTGC 62 ----------TAGCCCTGAAACGTTTTTCGCCATTTCCTTTTTT------------GCGAGAGCGTTTCAATGTCC BPS AGTCAGTGCGTCTTCAGGGCGGGGCG --- TCCGGATGAAAGAAGATGTGC 86 ----------GAGCCCTGAAACGTTTTTCGCCCATTCATGTTTC-----------GCGAGGAGCGTTTCACATCATG BU AATCAGTGCGTCTTCAGGGCGGGGTG --- GCCGGATGGAAGAAGATGTGC 99 ----------ATGCCCTGAAACGTTTTTCGCCCAACTTTT--------------GCGATGAGCGTTTCAACTATGT REU CATCGTTACGTCTTCAGGGCGGGGTG --- TCCGGATGAAAGAAGATGGGC 77 ----------ATCCCCTGAAACGCCCATCCATGGAAATCCACGCAC-------------GGAGCGTTTCAATGCTG RSO GCTTGGTACGTCTTCAGGGCGGGGTG --- TCCGGATGGAAGAAGATGTGC 80 ---------CGTGCCCTGGAACGTCTTGTCGCCCATTTCA---------------GCGAGGAGCGTTTCCATGTTG PP GGTCGGTCGGTCTTCAGGGCGGGGTG --- TCCGGATGAAAGAAGGCGTCA 50 ----------TCGCCCCGAGACGTTCATCGATCATTCA------------------CGAGGAGCGTTTCATGTTCA PY GCCGGTAACGTTCTCAGGGCGGGGTG --- CCGGATGAAGAGAGAGCGGGA 91 ----------ATGCCCTGTTTTTTCATTAAATT---------------------AAACAGGAGTCAGAACACGTGC PU CGGCGAAACGTTCTCAGGGCGGGGTG --- CCGGATGAAGAGAGAACGGGA 68 ----------ACGCCCTGTTTTTCACAC--------------------------AAACAGGAGTCAGAACATGCAA PA GGCCGTAACGTTCTCAGGGCGGGGTG --- CCGGATAAAGAGAGAACGGG 53 ---------AAAGCCCTGTTTTTCAC---------------------------GAAACAGGAGTTCGTCATATG-- BME CGCGGGCTTGTTCTCGGGGCGGGGTG --- TCCGGATGGAAGAGAGCGAAT 54 ----------GCGCCCTGATTCTAGTTTCGTG--------------------------AGGAACCTATGAACCAAA CAU AATCCGAAGACCTTCGGGGCAAGGTG --- TCCGGATGGGAGAAGGTCGGC 116 ------CGCGATGCCCCGAAGGTGTG-----------------------------TTCAGGGGTGTCGCGATGAAC TFU GTACACACGCGTGCTCCGGGGTCGGT --- GGATGGGAGGTAGTACGTGGT 58 -------GCCTTACCCCGGAGCCTGACCT-------------------------GGCTAGGGGGAAGGCTTCTCGCATG GLU TGAGTTTTGTTCTCAGGGCGGGGCG --- TCCGGATGCAAGAGAACCG 32 ---------AAGGCCCCGAGGATTACATGCTTTTAAATCCTTTGAAAAGGGGACAAGATCATGAATCCTATAACCG DR GAACCGACCTCTTTCGGGGCGGGGCG --- TCCGGACGAAAGAAGGAGGAG 1 GACGCTCAGCTTGCCCCCCA------------------------------------GCAGGCGGCGTCCGCGTATG SM GTCGCAAGCGTTCTCAGGGCGGGGTG --- TCCGGATGGAAGAGAGCAAGC 45 ATCATTGGAAAAATGCCAACCCTGAAA-------------------GGCTTGAGACCATGACCATACTT TQ TTCGGCACCTCCTTCGGGGCGGGGTG --- TCCGGATGGGAGAAGGAGGGCCACTTGCGC AMI CTTACTCACAGTTTCAGGGCGGGGTG --- TCCGGATGGAAGAAACGGAGCGCCTTATGG
SD-sequestorThe RFN element
Antisequestor
Attenuation of transcription
TerminatorThe RFN element
Antiterminator
Antiterminator
Bam GACAAAAAAATATTGATTGTATCCTTCGGGGCTGGGTG --- TCTGGATGGGAGAAGGATGA 59 ----------GTAAAGCCCCGAATGTGTAA---ACATTCGGGGCTTTTTGACGCCAAAT BS GGACAAATGAATAAAGATTGTATCTTCGGGGCAGGGTG --- TCTGGATGGGAGAAGGATGA 59 ----------CTAAAGCCCCGAATTTTTTA--TAAATTCGGGGCTTTTTTGACGGTAAA BQ CTATAATTTGAGCAAACAGCATCCTTCGGGGTCGGGTG --- TCTGGATGGGAGAAGGATAT 250 -----------CCAAACCCCAAGGATATTAAA--ATCCTTGGGGTTTTTTGTTTTTTTT BE ACATAACGATATAGTGATGCATCCTTCGGGGCAGGGTG --- TCTGGATGGGAGAAGGATGC 155 ------------TGAGCCCCCGGGGACAT--------CCCGGGGGTTTCATTTTTATTG HD AAATTGAATAATTAATTTTTATCCTTCGGGGCTGGGTG --- TCTGGATGGGAGAAGGAAAC 148 -------------ATGCCCCGTGAGAACAAAA-----TCTCTGGGGCTTTTTTGCGCGC CA TAATGGTAATTTAATAGGATGTTCTTCAGGGATGGGTG --- TCTGGATGAAAGAAGAAATA 34 -------------AATCTCCGAAGGATTACC----TTTCTTTGGAGATTTTTTTATTTG DF TAAATATAAATTTAATACTTAATCTTCGGGGTAGGGTG --- TCTGGATGGAAGAAGATATT 63 ------------TAAACCCTGAGTTAATT--------CTCAGGGTTTTTTGTTTAAAAA LLX ACTTTAGCTACAATTGAATAAATCTTCAGGGCAGGGTG --- TCTGGATGAAAGAAGATAAT 127 ----------AAAAGACCCTGAAATTTT------ATTTTAGGGTCTTATTTTTTATTAG PN* ATCATCTGTAATTGAATAACTATCTTCAGGGCAGGGTG --- TCTGGATGAAAGAAGATAAA 81 ----------TGTATGCCTTGAGTAGTCCCC---TATTCAAGGTATATTTTTTTGGAGG PN* ATCATCTGTAATTGAATAACTATCTTCAGGGCAGGGTG --- TCTGGATGAAAGAAGATAAA 19 ------------CGTGCTCTGAAATGATTACTTGTCATTTCAGAGCATTTTTGTTAATC TM AAAACTGAATACAAAAGAAACGCTCTCGGGGCAGGGTG --- TCCGGATGGGAGAGAGCGTG 13 -----------ATGGGACCCGAGA----------------GGGTCCCTTTTCTTTTACA AO ATTTGCAACAATTTTTTAATAATCTTCAGGGCAGGGTG --- TCTGGATGGAAGAAGATGAA 33 --------TTTACAAGCCTTGAGATCGAAAG----ATTTCAAGGCTTTTTTCATCATTA DU AATTTTTTTAATACTATTTTAATCTTCAGGGCAGGGTG --- TCTGGATGGAAGAAGAAGAG 47 --------TGCATAAGCCTTGAGATCTTAG----GATTTCAAGGCTTTTTCATTAGTTA FN TAATCGAATATGTAAAATAAAGTCTTCAGGGCAGGGTG --- TCTGGATGGGAGAAGAATTA 18 ----------ATATTGCTCAGACTTT------------GTTTGAGCATTTTTTTATTAA SA TATAACAATTTCATATATAATTCTTTCGGGGCAGGGTG --- TCTGGATGGGAGAAAGAATG 74 ------TTTTCTCCTTGCATCTTAATT----------GATGTGAGGATTTTTGTTTATA DHA ACTCTTTTTAGATGAATACGAACCTTCGAGGTAGGGTG --- TCCGGATGGGAGAAGGTACA 43 -----------GTTTATGCCTCGAGGAACACCATTTCCTCGAGGCATTTTTGTTCTTTC FN GAAAAATAAATATTAAAAATAATCTTCGGGGCAGGGTG --- TCTGGATGAGAGAAGAAAAG 40 ------------CTTACCCGAATTCTAT------------AATTCGGTTTTTTTATTTT CA AATATAAAAAAATAAAGAATGATCTTCAGGGCAGGGTG --- TCTGGATGAAAGAAGATATA 19 ----------–-TATGCCCTGACGTTTTT---------CGTTGGGGCTTTTTTAATGCT DF AAAATTAAAAAATCAAAGAAGATCTTCGGGGCAGGGTG --- TCTGGATGAGAGAAGATATT 45 ----------ATAAAAACTCGAAGATAGGG----TCTTCGAGTTTTTTGTTTTTCCTAA BS TAATTAAATTTCATATGATCAATCTTCGGGGCAGGGTG --- TCTGGATGGGAGAAGATGGA 103 --AAAGAACCTTTCCGTTTTCGAGTAAGATGTGATCGAAAAGGAGAGAATGAAGTGAAA BQ GGGAAAATAGAATATCGGTCTATCTTCGGGGCAGGGTG --- TCTGGATGGGAGAAGATGGA 54 -------ATTCTCCCTTTGTGTAAA------------ACACAAAGGGTTTTTTCGTTCTATG BE ATAAAAATGTATAAGCGATTCATCTTCGGGGCAGGGTG --- TCTGGATGGGAGAAGATGAA 114 --------GGCAGCCTTCTTCTTGTGAGGATGAATCACGAGAAGGGGAGGAGAACAAGCATG PN GTTTTTTGTTATGATAAAAGAGTCTTCAGGGCAGGGTG --- TCTGGATGGGAGAAGACGAA 137 -–AACTTCTTCTGATTTTATAG------------AAAATTGGAGGAACCTGTTATGACA ST TAAATCTGCTATGCTAGAAGTGTCTTCAGGGCAGGGTG --- TCTGGATGAGAGAAGACCGG 130 ---GGAACTTCTTTCAATTTGAAA-----------AAATTGGAGGAATTTTTTAATGTC MN ATTTTTTGATATGCTATAAGTGTCTTCAGGGCAGGGTG --- TCTGGATGGGAGAAGACTGA 138 ---–GGCCTTCTTTCGATTTGTAA-----------AAATTGGAGGAATTTTTTTATGAA SA AAATTTAATAATGTAAAATTCATCTTCGGGGTCGGGTG --- TCTGGATGGGAGAAGATGGA 17 --------TCCTCCTATTCTTACG--------AGATGAATGGAAGGAGAAAATTGAATATG EF AAAAAATATAATACAAGGTTCGTCTTCAGGGGCAGGGT --- GTCTGGATAAAGAAGATAGG 33 ---CTACTCTATTTTTCCCTGCAGA------------AAAATAGGGTTTTTTTGTATGA LLX TTTTTGTGCTATAATAAAAATATCTTCAGGGCACCGTG --- TCTGGATGGAAGAAGATGAA 66 -–TCAACTTCCTCGAAATTTGAAGAAT-TATTTTCTCATATTTGGAGGTTTTTTTATGT LO ATTGTAAGAAAATATTCGTTCATCTTCGGGGCAGGGTG --- TCTGGATGGGAGAAGATGTTG 79 ---ATGCACAAACTCTCCCTCAACTTTTTTTA--------GTTGAGGTTTTTTATTTGC
RFN: the mechanism of regulation
• Transcription attenuation
• Translation attenuation
YpaA/RibU: транспортёр рибофлавина• 5 предсказанных ТМ-сегментов =>
потенциальный транспортёр
• регуляторный RFN-элемент => ко-регуляция с генами метаболизма рибофлавина => транспорт рибофлавина или предшественника
• S. pyogenes, E. faecalis, Listeria: есть ypaA, нет генов биосинтеза рибофлавина => транспорт рибофлавина
Предсказание: YpaA – рибофлавиновый транспортёр (Gelfand et al., 1999)
Проверка:• генетический анализ
(Кренева и др., 2000)
• биохимический эксперимент (Burgess et al., 2006)
Регуляция транскрипции в прокариотах
Структура ДНК-связывающего домена (cI)
регуляция транскрипции: сайты связывания PurR
codB ACTCATTCATATAAAAAATATATTTCCCCACGAAAACGATTGCTTTTTATCTTCAGATGAATAGAATGCG
purE TTTGCTGATTTCACAGCCACGCAACCGTTTTCCTTGCTCTCTTTCCGTGCTATTCTCTGTGCCCTCTAAA
pyrD CGGGTTGAGTGCAAAGAAGGAGCAAAATCTGCCCTGAAACAGGTTCGGAAAACGTTTGCGTTTTTTTTGC
purT GAGAAATCAACATCAGCAATAAAGACACACGCAAACGTTTTCGTTTATACTGCGCGCGGAATTAATCAGG
cvpA TTGATGCGCGGGAAGGAAATCCCTACGCAAACGTTTTCTTTTTCTGTTAGAATGCGCCCCGAACAGGATG
purC ATCATCCGGCCCTTTTTTCTGATATGATACGCAAACGTGTGCGTCTGCAGGAAAACGCGATTTTAGCGGT
purM AAAAGGTTGTGTAAAGCAGTCTCGCAAACGTTTGCTTTCCCTGTTAGAATTGCGCCGAATTTTATTTTTC
purH AATTGTGATCACCATTGAAAGAGAAAAATTCGCGAGCGTTGCGCAAACGTTTTCGTTACAATGCGGGCGA
purL TTTATTTCCACGCAAACGGTTTCGTCAGCGCATCAGATTCTTTATAATGACGCCCGTTTCCCCCCCTTGG
Невыравненные сайты
codB ACTCATTCATATAAAAAATATATTTCCCCACGAAAACGATTGCTTTTTATCTTCAGATGAATAGAATGCG
purE TTTGCTGATTTCACAGCCACGCAACCGTTTTCCTTGCTCTCTTTCCGTGCTATTCTCTGTGCCCTCTAAA
pyrD CGGGTTGAGTGCAAAGAAGGAGCAAAATCTGCCCTGAAACAGGTTCGGAAAACGTTTGCGTTTTTTTTGC
purT GAGAAATCAACATCAGCAATAAAGACACACGCAAACGTTTTCGTTTATACTGCGCGCGGAATTAATCAGG
cvpA TTGATGCGCGGGAAGGAAATCCCTACGCAAACGTTTTCTTTTTCTGTTAGAATGCGCCCCGAACAGGATG
purC ATCATCCGGCCCTTTTTTCTGATATGATACGCAAACGTGTGCGTCTGCAGGAAAACGCGATTTTAGCGGT
purM AAAAGGTTGTGTAAAGCAGTCTCGCAAACGTTTGCTTTCCCTGTTAGAATTGCGCCGAATTTTATTTTTC
purH AATTGTGATCACCATTGAAAGAGAAAAATTCGCGAGCGTTGCGCAAACGTTTTCGTTACAATGCGGGCGA
purL TTTATTTCCACGCAAACGGTTTCGTCAGCGCATCAGATTCTTTATAATGACGCCCGTTTCCCCCCCTTGG
Выравненные сайты
codB CATTCATATAAAAAATATATTTCCCCACGAAAACGATTGCTTTTTATCTTCAGATGAATAGAATGCG
purE TTTGCTGATTTCACAGCCACGCAACCGTTTTCCTTGCTCTCTTTCCGTGCTATTCTCTGT
pyrD GAGCAAAATCTGCCCTGAAACAGGTTCGGAAAACGTTTGCGTTTTTTTTGC
purT GAAATCAACATCAGCAATAAAGACACACGCAAACGTTTTCGTTTATACTGCGCGCGGAATTAATCAGG
cvpA TTGATGCGCGGGAAGGAAATCCCTACGCAAACGTTTTCTTTTTCTGTTAGAATGCGCCCCGAACAG
purC TCATCCGGCCCTTTTTTCTGATATGATACGCAAACGTGTGCGTCTGCAGGAAAACGCGATTTTAGCGGT
purM AAAAGGTTGTGTAAAGCAGTCTCGCAAACGTTTGCTTTCCCTGTTAGAATTGCGCCGAATTTT
purH ATTGAAAGAGAAAAATTCGCGAGCGTTGCGCAAACGTTTTCGTTACAATGCGGGCGA
purL T TTTATTTCCACGCAAACGGTTTCGTCAGCGCATCAGATTCTTTATAATGAC
consensus ACGCAAACGTTTGCGT
Биотиновый транспортер
BioY
Метаболическая реконструкция тиаминового биосинтеза
= thiN (confirmed)
(Gram-positive bacteria)
(Gram-negative bacteria)
Transport of HMPTransport of HET
yuaJ(=thiT): тиаминовый транспортер
(возможно, H+-зависимый) в фирмикутах
• 6 предсказанных трансмембранных сегментов• Почти всегда регулируется THI-рибопереключателями• Встречается в геномах, в которых отсутствует тиаминовый путь
(Streptococci);• В B. cereus импорт тиамина сопряжен с током протонов (Arch.
Microbiol., 1977)
• Почти всегда регулируются THI-рибопереключателями• Не встречаются в геномах, в которых отсутствует тиаминовый
путь• Всегда встречаются вместе с thiD и thiE• В ряде геномов (Pasteurellacee, Brucella некоторые фирмикуты)
встречаются в отсутствие thiC
thiX-thiY-thiZ и ykoF-ykoE-ykoD-ykoC: предсказанные АТФ-зависимые транспортеры HMP
Co и Ni• ко-локализация (хромосомные
локусы)– транспортеры Ni –
с генами никель-зависимых ферментов
– транспортеры Co – с генами синтеза кобаламина
• ко-регуляция– транспортеры Ni –
фактор транскрипции NikR
– транспортеры Co – рибопереключатель В12
A
A
A
AA
AA
CGd
a
aa
a
a
ktk
h
CC
c
C
C
GG
G
GGG
G
GT
M
Y
K
y
c
c G
g
g G
G
G YG
tg
g
g
gN
RN
N
NN
r
r
r
g
g C
c
c T
C
C G
CC
a
ta N
B 12 box
P 0
5' 3'
P 1
P 4 V S
B I IB I
P 5 P 6
P 2
N
A dd- I
F acultative stem- loop
A dd- I I
The group
Bacillus/Clostridium
Other taxonomic groups
-proteobacteria
base stem
CGh
G
d
yc c
C C
P 3
Пять семейств транспортеров
Новое семейство транспортеров Co и Ni
NikM
CbiMNi2+
Co2+
+ CbiN
+ NikL, NikK
+ NikN
+ NikL
Структура локусов
B12-элемент сайт связывания NikRгены
Структура
cbiO=NikO~bioMcbiQ=NikQ~bioN
Проверка: тест на транспорт ионов
Co Co
Co
Ni
Ni
Ni
Для транспорта достаточно компонент МN (первый пример такого АВС-транспортера)
cbiMNQO
cbiMNQ
cbiMN
cbiM
контроль
Вспомним BioY.Действительно, BioY достаточно; у BioMNY более крутая кинетика
Универ-сальный
«энергети-ческий
комплекс» +
компоненты,
определя-ющие
специфич-ность
Цель (глобальная)
Предсказать свойства организма путем (компьютерного) анализа его генома
(возможно, с использованием дополнительной информации: эпигенетика, белок-белковые взаимодействия и т.п.)
сейчас: метаболическая реконструкция, транспортные системы, ответ на стресс и т.д.
“Понять” эволюцию геномов/организмов
«Неприкладная» биоинформатика
• Молекулярная эволюция– филогения генов– таксономия организмов– горизонтальные переносы и т.п.– положительный и отрицательный
отбор• что сделало нас людьми?• лекарственная устойчивость
– эволюция геномов• Системная биология
– строение геномов– сети взаимодействий
• белок-белковые• регуляция транскрипции• сигнальные пути
Задачи биоинформатики• С проверяемым ответом
– предсказание функции, регуляции, структуры и т.п.:• ставим эксперимент
• С непроверяемым ответом– эволюционные деревья
• но если бы знать все геномы всех (в том числе очень давно умерших) существ, то задача станет тривиальной
• С принципиально непроверяемым ответом (который зависит от операциональных определений)– идентификация повторов, консервативных областей,
островов метилирования и т.п.• (так ли он непроверяем?)
• Без ответа (общеописательные)– статистика геномов (изохоры и т.п.)– описание регуляторных и пр. сетей (hubs, мотивы и т.п.)
«В принципе не проверяемые ответы» (зависящие от
определений)Так ли они непроверяемы?• Повторы
– если иметь все геномы, то можно описывать вставки/замены фрагментов генома и их последующее расхождение
• Консервативные области– если иметь все геномы, то можно просто оценивать локальную
скорость эволюции (но это будет функцией времени)• Статистика ДНК (локальный нуклеотидный состав)
– это следствие локального паттерна замен, так и надо описывать• Микросателлиты
– можно ли «функционально» (а не операционально) определить микросателлит, исходя из динамики вставок/замен/дупликаций?
• CpG-острова– можно ли «функционально» (а не операционально) определить
CpG-остров, исходя из паттерна мутаций, состояния метилирования и т.п.? (тут уже эволюция + эксперимент)
Цель (недостижимая?)
откуда оно все откуда оно все взялось?взялось?
первое приближение – реконструкция генома/свойств LUCA
реально ли заглянуть глубже?реально ли смоделировать? (времена)реально ли смоделировать «по частям»?
Происхождение жизни