bioinformatika: iz statisti čke perspektive

Click here to load reader

Post on 18-Jan-2016

56 views

Category:

Documents

1 download

Embed Size (px)

DESCRIPTION

Bioinformatika: iz statisti čke perspektive. Bojan Basrak PMF-Matematički odjel Sveučilište u Zagrebu. Bioinformatika. Nezgrapna kovanica, nastala 1979. označava znanost koja se bavi primjenom računalnih i statističkih metoda u molekularnoj biologiji Stručnjaci raznih područja sudjeluju u - PowerPoint PPT Presentation

TRANSCRIPT

Bioinformatika: iz statistike perspektiveNezgrapna kovanica, nastala 1979. oznaava znanost koja se bavi primjenom raunalnih i statistikih metoda u molekularnoj biologiji
Strunjaci raznih podruja sudjeluju u
izradi baza podataka (npr. human genome project)
njihovoj analizi, odn. statistikoj i raunalnoj obradi
*
proteini - nizovi u alfabetu od 20 slova - aminokiselina ARNDCEQGHILKMFPSTWYV
*
GCGCATGGATTGAGCGA
TGCGCCATTGATGACCA
*
Formalna definicija je jasna (iako nezgrapna).
Postavlja se pitanje odabira najboljeg alignmenta.
*
zajedniku evoluciju ili što je zanimljivije istu funkciju kod proteinskih nizova
Slino, jako sauvani podnizovi (s malo mutacija) impliciraju
funkcionalno znaajne pozicije
Vjerojatnosni model za nizove
Najjednostavnije je pretpostaviti da su generirani kao neki njd niz iz danog alfabeta, npr.
*
Vjerojatnosni modeli za evoluciju
Vano je znati i koliko su vjerojatne pojedine mutacije (nukleotida ili aminokiselina)
a prirodno je pretpostaviti da vrijedi za stacionarne vjerojatnosti qy
Tipino se modelira Markovljevim procesima, zadanim matricama intenziteta.
*
poravnanjima v,v’ originalnih
Iz Kingmanovog subaditivnog ergodskog teorema poznato je (Chvatal-Sankoff,1975), ako oba niza imaju duljinu n koja konvergira u beskonano
Konstanta nije poznata, ak ni za binarne njd nizove i najjednostavniju funkciju s. Poznato je tek
(longest common subsequence problem)
w1
wn
w1 ‘
wm ‘
*
Chen-Steinovom metodom moe se pokazati da vrijedi aproksimativni zakon razdiobe za optimalno lokalno poravnanje
*
Erdos-Renyiev problem – odrediti distribuciju najduljeg niza uspjeha u Bernoullijevom njd nizu
ekvivalentno je znati (za fiksni alignment!!) koliko je dug najdulji potpuno poravnati podniz. Ako je p vjerojatnost poravnanja, poznato je da
Ima priblino Gumbelovu razdiobu
*
Primjer. Ako pretpostavimo da su DNK nizovi realizacije nizova njd sluajnih varijabli s uniformnom distribucijom i njihova duljina je jednaka n= 100 000, onda, ako je najdulji primjeeni zajedniki niz duljine 10, korištenjem prethodne formule dobivamo da je
p-vrijednost priblino jednaka 0,069,
a ako je najdulji primjeeni zajedniki segment duljine 12, pripadna
p-vrijednost iznosi priblino 0,0045.
*
Nai optimalno lokalno ili globalno poravnanje zahtjevan je algoritamski problem (riješen je dinamikim programiranjem)
Needleman-Wunsch (globalno)
Smith-Waterman (lokalno)
Postoji više naina na koji se penaliziraju gapovi u poravnanju,
biološki relevantnim se smatra i afino penaliziranje gapova.
*
Specificity determining residues
Pretpostavimo da su nam proteini podijeljeni u dvije (funkcionalne) podgrupe, te da nam je dano njihovo višestruko poravnanje
from M.Gelfand:Identification of specificity-determining positions in
protein alignments
Hydropathy index 
npr: …V H L T P E E K…
Sekundarna struktura: poznate su neki pravilni dijelovi:
npr: alpha-helix, beta-sheets
molekula
Evolucijski model za aminokiseline
Kao što smo vidjeli evol. modeli se odreuju preko matrica prijelaznih vjerojatnosti -> da bismo ih uveli koristit emo matrice substitucije
Matrice supstitucije kao što je BLOSUM (Blocks Substitution Matrices - Henikoff and Henikoff, 1992) takoer sadre informacije o vjerojatnosti pojedinih mutacija
*
*
*
*
Trebaju nam vjerojatnosti da pod H0 na mjestu k vidimo ovako ekstremnu statistiku recimo u, tj.
gdje je H0: k nije SDR tj. specificity determining residue (funkcionalno specifina pozicija).
*
Prema poznatoj statistikoj teoriji log-likelihood ratio statistike poput ove koju mi raunamo imaju asimptotski chi-kvadrat razdiobu. (Kod nas uvjeti iza ovakvih teorijski rezultata nisu zadovoljeni)
Mi simulacijama odreujemo priblinu razdiobu za testnu statistiku pod nul-hipotezom
Tako odreujemo pribline p-vrijednosti
*
Stoga pitanje moramo preformulirati:
Koliko je vjerojatno da vidimo ovako male p-vrijednosti ako vrijedi H0: niti jedan k nije SDR?
Tj. elimo znati:
Stoga naše rezultate proglašavamo znaajnim (i odbacujemo H0 ) ako je
Kako su u stvarnosti susjedne pozicije pozitivno korelirane, pa prema tome i testne statistike ovo je vrlo gruba ocjena
Dovest e do konzervativnog testa, male jakosti.
*
Permutation test
*
Sequence Harmony (SH), Heringa, Feenstra, Pirovano, Krab (2007.)
SDPpred, Rakhmaninova et al. (2004.)
*
Usporedba s objavljenim rezultatima u literaturi. Top 10 naših rangiranih pozicija
su ujedno signifikantne ak i uz Bonferroni korekciju na nivou zna. 10%
MI
POTVRENO
SH
SH
SDP
BGA
rank
position
LLR
Yadav
rank
SH
rank
rank
1
212
361.86
Odrediti ih nije jednostavno. Moramo posebno voditi rauna o višestrukom testiranju.
Procedura je implementirana online: compbio.math.hr
Nezavršen projekt: za sada radimo samo sa dvije grupe
*
Esencijalno isti vjerojatnosni model, iskoristili smo u izradi algoritma za klasteriranje neke familije proteina v.
*
Mapiranju tzv QTLova (odn. gena)
Analizi DNA microarrays
Forenzikoj DNA analizi
“Introduction to computational biology” by Waterman
*