rule mining в эпигенетике - jetbrains research · 2016-03-16 · rule mining в...
TRANSCRIPT
Rule mining в эпигенетике
Олег Шпынов
JetBrains Biolabs
11 ноября 2015 г.
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 1 / 34
Эпигенетика
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 2 / 34
Все уже изучено!
ОписаниеСкрытые марковские модели
Genome-wide maps of chromatin state in pluripotent and lineage-committed cells - Mikkelsen, Nature, 2007
Mapping and analysis of chromatin state dynamics in nine human cells - Ernst, Nature, 2011
Integrative annotation of chromatin elements from ENCODE data - Hoffman, Nucleic acids research, 2012
Комбинаторные
Combinatorial epigenetic patterns as quantitative predictors of chromatin biology - Cieslik, BMC genomics,2014
Остальные
Tree Hidden Markov Models, Spectral learning, multiscale, etc.
ДифференцировкаComparative Epigenomic Annotation of Regulatory DNA - S Xiao, Elsevier, Cell, 2012
Transcriptional and Epigenetic Dynamics during Specification of Human Embryonic Stem Cells - Gifford,Cell, 2013
Epigenomic Analysis of Multilineage Differentiation of Human Embryonic Stem Cells - Xie, Cell, 2013
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 3 / 34
Задачи1
Поиск пиковСравнение двух сигналов
ПредикатыH3K4me3@tss[-5000..-2500]H3K4me3@intronsmeth@utr5transcription_cell1<>cell2
1ChIP-Seq: отрезки 200, BS-Seq: поточечно, DMR
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 4 / 34
Предикаты
Признаки генов (размер, кодирует ли протеин, принадлежностьpathway)Признаки последовательности (CpG контекст, частотныехарактеристики, консервативность)Наличие эпигенетической модификации в регуляторном локусе(TSS, Introns)Различие в регуляторном регионеитд
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 5 / 34
Модификации гистонов
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 6 / 34
Регуляторные области
Дистальный промоутер TSS[-5000, -2500] 2
Внутренний промоутер TSS[-200, 200] 3
Промоутер TSS[-2000, 2000] 4
5‘ нетранслируемый регион UTR53‘ нетранслируемый регион UTR3Кодирующая последовательнсть CDSИнтроны IntronsЭкзоны Exons 5
Место окончания транскрипции TES 6
2Transcriptional Regulatory Elements in the Human Genome, 20063Epigenomic Analysis of Multilineage Differentiation of Human Embryonic Stem Cells, 20134Mapping and analysis of chromatin state dynamics in nine human cell types, 20115Comparative Epigenomic Annotation of Regulatory DNA, 20126Epigenomic Analysis of Multilineage Differentiation of Human Embryonic Stem Cells, 2013
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 7 / 34
Допустим, предикаты мы научились считать, что дальше?Байесовские сетиМарковские сетиСмесиRule mining
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 8 / 34
Проблемы?
H3K4me3@tss[-2000..2000]
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 9 / 34
Решение
H3K4me3@tss[-2000..2000] посчитан с фиксированным FDR.Что мы можем сказать про ¬ H3K4me3@tss[-2000..2000]?Ответ: ничего!Rule mining подход позволяет это учесть.
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 10 / 34
Классическое определение
T - набор объектовТранзакция d - подмноженство T
База D - список транзакций di ⊆ T
Ассоциативное правило X → Y .X ⊆ T , Y ⊆ T , X ∩ Y = ∅supp(X ) = #{di |X⊆di}
#{D} = P(X )
conf (X → Y ) = supp(X→Y )supp(X ) = P(X∧Y )
P(X ) = P(Y |X )
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 11 / 34
Пример
H3K27me3@exons,H3K27me3@introns,¬LCP → H3K27me3@tss[−2000..2000]
T - множество предикатов
D = множество всех генов, ген определяет транзакцию di ⊆ T - истинные предикаты
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 12 / 34
Метрики
Определениеconviction(X → Y ) = 1−supp(Y )
1−conf (X→Y ) =P(¬Y )
P(¬Y |X )
BF (X → Y ) = P(X |Y )P(X |¬Y )
LOE (X → Y ) = nsup(X∧Y )−sup(X )sup(Y )sup(X )sup(¬Y )
ИнтерпретацияP(X |¬Y ) ≈ P(¬Y |X ) контрпримерыP(X |Y ) покрытие заключение условиемP(X ) применимость правила
Conviction показывает во сколько раз чаще случается событие ¬Y посравнению с ¬Y |X
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 13 / 34
На самом деле7
7Comparing Rule Measures for Predictive Association Rules http://www.di.uminho.pt/~pja/ps/conviction.pdfОлег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 14 / 34
Рассмотрим 2 сценария8:1 Эксперт толерантен к небольшому проценту ошибок 1 рода
X ∧ ¬Y в итоговом решении. В данном случае отверганиегипотезы откладывается до нахождения критического количестваконтрпримеров.
2 Эксперт отвергает появление слишком много ошибок 1 рода.Отвержение гипотезы должно производиться быстро с ростомколичества контрпримеров.
Метрики ведут себя по-разному:Baeysian Factor и Conviction лидируют во 2 случае.Loe неплохо работает в обоих случаях.Conviction не зависит от размера базы.
8Guillet Hamilton - Quality Measures in Data Mining (2007)
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 15 / 34
0
5
10
15
0.00 0.25 0.50 0.75 1.00
conv
ictio
nDatasize: 10000, max(condition, target): 3000
0
2500
5000
7500
10000
0.00 0.25 0.50 0.75 1.00
bf
0.0e+00
5.0e+06
1.0e+07
1.5e+07
2.0e+07
0.00 0.25 0.50 0.75 1.00
loe
Test cases
perfect_match
type1error
type2error
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 16 / 34
Predicates Rules mining
Обобщим на формулыD - набор геновP - набор атомарных предикатов над D
F - набор формул (без кванторов) над P
Правило X → Y , X ∈ F , Y ∈ F
supp(X ) = #{di |X (di )=true}#{D} = P(X )
conf (X → Y ) = supp(X→Y )supp(X ) = P(X∧Y )
P(X ) = P(Y |X )
ЗадачаДля формулы t ∈ F найти c | ∀c ′ ∈ F metrics(c → t) ≥ metrics(c ′ → t)
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 17 / 34
Пример
H3K27me3@exons ∧ H3K27me3@introns ∧ ¬LCP → H3K27me3@tss[−2000..2000]
Conviction: 12.4
Type1 error: 2
Type2 error: 753
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 18 / 34
Как искать "хорошие" правила?
Support-Confidence методПереборЖадные алгоритмыДинамические алгоритмыИспользовать регуляризациюМожно искать TOP N правил
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 19 / 34
Эксперименты
Поиск правилКак меняются правила в зависимости от условийПоиск правил вида ?→ DIFFERENCE
Поиск правил вида Cell1 ∧ CONDITION → Cell2 ∧ ¬CONDITION
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 20 / 34
ПримерыRule miningMachine learning
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 21 / 34
GSE26320
Mapping and analysis of chromatin state dynamics in nine human celltypes (ChIP-Seq)Genome binding/occupancy profiling by high throughput sequencing10 modifications: CTCF, H3K27ac, H3K27me3, H3K4me1, H3K4me2,H3K4me3, H3K9ac, H4K20me1, H3K36me3 and Whole Cell Extract(WCE)9 cell types: H1, GM12878, K562, HepG2, Huvec, HSMM, NHLF,NHEK, HMECGenome browserhttp://genomebrowser.labs.intellij.net/GSE26320_hg18/
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 22 / 34
Кластеризация
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 23 / 34
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 24 / 34
H3K27ac@tes[0..2000] ∧ H3K36me3@introns ∧ H4K20me1@tse[0..2000]→ H3K36me3@tes[0..2000]
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 25 / 34
Conviction = цвет
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 26 / 34
Rule mining классификаторы
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 27 / 34
Пример
CTCF@introns ∧ H3K4me2@exons ∧ HCP → H3K4me3@introns
Rule mining 0.977Rule mining precision 1AdaBoost 0.985AdaBoost precision 0.731Decision Tree 0.986Decision Tree precision 0.758Random Forest 0.988Random Forest precision 0.827
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 28 / 34
Дерево решений
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 29 / 34
В: Какие правила считать неинтересными?X → Y , X ,Y - сильно коррелированы. О: ввести отсечку покорреляцииX ∨ Y → Z , где X ,Y - сильно коррелированы. О: регуляризация
В: Проблемы?Маленький support итоговых правилНевозможно использовать технику Probes9
В: Почему мы получаем хорошие классификаторы?FP ≈ 0FN « TN
9On Causal and Anticausal Learning, 2012
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 30 / 34
Резюме
Rule mining это –Отличная интерпретируемостьГибкое управление предикатами (NOT)Предикаты для конкретного экспериментаВозможность качественного описания измененийНеплохой классификатор ML
ноГенерирует ОЧЕНЬ много правил, требуется пост обработкаЗависит от выбранной метрикиПочти не применяется10 11
Rule mining is dead. Causal Probabilistic Models!
10Deciphering histone code of transcriptional regulation in malaria parasites by large-scale data mining, 201411Analyzing Large Gene Expression and Methylation Data Profiles Using StatBicRM: Statistical
Biclustering-Based Rule Mining, 2015
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 31 / 34
Материалы
Guillet Hamilton - Quality Measures in Data Mining (2007)Comparing Rule Measures for Predictive Association Ruleshttp://www.di.uminho.pt/~pja/ps/conviction.pdf
Measures overview http://michael.hahsler.net/research/association_rules/measures.html
JetBrains BioLabshttp://beta-research.jetbrains.org/groups/biolabs
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 32 / 34
Спасибо за внимание[email protected]
@oleg_s
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 33 / 34
RM vs ML
Олег Шпынов (JetBrains Biolabs) Rule mining в эпигенетике 11 ноября 2015 г. 34 / 34