bioinformatika uvodno 1
TRANSCRIPT
Bi i f ikBioinformatika2014/2015Uvodno predavanje
1
O predmetuO predmetu
• PredznanjePredznanje– Algoritmi i strukture podataka– Poznavanje C programskog jezika
• Sadržaj– Genomika– Poravnavanje nizova – dinamičko programiranje– Poravnavanje nizova – dinamičko programiranje– Heuristički algoritmi poravnanja– Sufiksna polja i stabla
Filogenetska stabla– Filogenetska stabla– Sastavljanje genoma
2
LiteraturaLiteratura• Predavanjaj• Skripta• Knjige
– D. Gusfield, Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology, CambridgeUniversity Press (1997)
– N.C. Jones, P. J. Pevzner, An Introduction to BioinformaticsAlgorithms, MIT Press (2004)
– R. C. Deonier, S.Tavaré, M.S. Waterman, ComputationalGenome Analysis, Springer (2005)
– J. Pevsner, Bioinformatics and Functional Genomics, 2nd Edition, Wiley-Blackwell (2009)
3
Dodatni materijaliDodatni materijali
• Introduction to Biology - The Secret of LifeIntroduction to Biology The Secret of Life (https://www.edx.org/course/mit/7-00x/introduction-biology-secret-life/1014)00x/introduction biology secret life/1014)
• Rosalind – bioinformatički zadaci(http://rosalind info/problems/locations/)(http://rosalind.info/problems/locations/)
4
Predavači
• Doc dr sc Mile Šikić• Doc.dr.sc. Mile Šikić• Dr.sc. Mirjana Domazet-Lošo,
5
OcjenjivanjeOcjenjivanje• Kontinuirana provjera
Naziv provjere Bodovi PragMI (90 min) 25 0
ZI (90 min) 35 15
Projekt 40 0
• Ispitni rokProjekt* 100 0
Naziv provjere Bodovi PragPismeni ispit 60 15
Projekt 40 0Projekt 40 0
6
ProjektProjekt
• Rad u grupama do 6 studenataRad u grupama do 6 studenata• Upute i prijedlozi na webu
V ći j k t di• Većina projekata se svodi na implementaciju algoritama u različitim
ki j i iprogramskim jezicima• Prezentacija projekta
7
OcjenjivanjeOcjenjivanjeOcjena Minimalan broj bodova
2 503 604 754 755 90
8
UVOD U GENETIKUUVOD U GENETIKU
9
Klasična i moderna genetikag
• Sličnost potomaka i roditelja• Selektivno uzgajanje biljaka i životinja• Mendel – principi nasljeđivanjaMendel principi nasljeđivanja
– Objavio rad 1866Radio različita križanja graška– Radio različita križanja graška
– Slijedećih 35 godina skupio 3 citata Pono o otkri en 1900– Ponovo otkriven 1900.
10
Klasična i moderna genetika
• U 20 st. genetika je postala važan biološki alat
g
g j pkoristeći mutante u cilju razumijevanja procesa. Taj rad uključuje:
Analizu nasljeđivanje u populacijama– Analizu nasljeđivanje u populacijama.– Analiziranje evolucijskih procesa.– Identifikacija gena koji kontroliraju pojedine korake u
procesimaprocesima.– Mapiranje gena.– Utvrđivanje produkata gena.– Analiza molekularnih svojstava gene i regulacije ekspresije
gena.
11
Klasična i moderna genetikag
• Važni doprinosi sredinom i krajem 20. st.:– Određivanje strukture DNA (Wattson & Crick,
1953)– Konstrukcija prve rekombinirane DNA
molekule (Berg, 1972)– Prvo kloniranje rekombinirane DNA molekule
(Boyer & Cohen, 1973)– Metoda lančane reakcije polimerazom (engl -
polymerase chain reaction, PCR) za umnažanje DNA molekula (Mullis 1986)umnažanje DNA molekula (Mullis, 1986)
12
Klasična i moderna genetikag
• Najnovija otkrića - sekvenciranje:Najnovija otkrića sekvenciranje:– Za sve veći broj organizama sekvenca je
određenaodređena– Poznavanje individualnih gena i njihove
regulacije bit će važno za temeljna biološkaregulacije bit će važno za temeljna biološka istraživanja kao i medicinske primjene (medicinska genetika)
• Etička, pravna i socijalna
13
DNA, geni i kromosomig
• Genetički materijalGenetički materijal– DNA – eukarioti i prokarioti
DNA ili RNA virusi– DNA ili RNA - virusi• DNA ima dva lanca tvorenih od nukelotida
k ji t j d š ć d k i ibkoji se sastoje od šećera deoksiriboze, fosfatne grupe i baze (adenin, timin,
i i it i )gvanin i citozin)
14
DNA
Okosnica šećer - fosfat
Parovi dušičnih baza
Pojedina dušična baza
15
DNA smjerDNA smjer
• Imenovanje krajeva DNA molekule prema atomima pugljika u prstenu (šećer).
• Lanci idu u suprotnim smjerovima: 5’ 3’smjerovima: 5 – 3 odnosno 3’ – 5’
• Čitanje DNA uvijek od 5’ j jprema 3’ kraju jednog lanca.
16
DNA, geni i kromosomig• Četiri baze u DNA : A (adenin), G (gvanin),
C ( it i ) i T (ti i )C (citozin) i T (timin).– U RNA U (uracil) zamjenjuje T (timin)– Sekvenca baza određuje genetičku
informacijuG f č– Geni su specifične sekvence nukleotida koje prenose osobine s roditelja na potomstvo
17
DNA, geni i kromosomig
• Genetički materijal u stanicama je organiziran uGenetički materijal u stanicama je organiziran u kromosome– Prokarioti uglavnom imaju jedan cirkularan kromosom.– Eukarioti uglavnom imaju:
• Linearne kromosome u jezgri, pri čemu različite vrste imaju različit broj kromosoma.imaju različit broj kromosoma.
• DNA u organelama (npr. mitohondriji i kloroplasti) koji su obično cirkularne molekule.
18
Centralna dogma – prijenos informacija
Crick FHC (1956). Ideas on protein synthesis. Available at: http://profiles.nlm.nih.gov/SC/B/B/F/T/_/scbbft.pdf (acknowledged by Crick in 1958)
19
Centralna dogma – prijenos informacija
Opći Specijalni Nepoznat
DNA DNA RNA DNA protein DNADNA → DNA RNA → DNA protein → DNA
DNA → RNA RNA → RNA protein → RNAN N N N p ote N
RNA → protein DNA → protein protein → protein
20
Ekspresija gena
T k i ij i t RNA ( i i j DNA)• Transkripcija: sinteza RNA (prepisivanje DNA)– Sinteza mRNA koristeći gene DNA molekule kao
predložak.p ed o a– U jezgri eukariota.
• Translacija sinteza proteina (prevođenje RNA) – Sinteza proteinskoga lanca koristeći genetički kod
mRNA molekule kao uputu.
21
Ribonukleinska kiselina (RNA)( )
• Nalazi se u cijeloj stanici:Nalazi se u cijeloj stanici:– jezgra
mitohondriji– mitohondriji – kloroplast
ribosomi– ribosomi– citoplazma
22
Glavne vrste
• Glasnička RNA (mRNA) <5%Glasnička RNA (mRNA) <5%• Ribosomska RNA (rRNA) do 80%
T t RNA (tRNA) k 15%• Transportna RNA (tRNA) oko 15%• Male RNA molekule u jezgri (snRNA):
imaju ulogu u obradi mRNA u jezgri nakon transkripcije
• Često svu RNA u stanici nazivamo transkriptomomp
23
Transkripcija : Sinteza mRNA (i drugih RNA)(i drugih RNA)
• Koristi enzim RNA polimerazu• Tvori komplementarni lanac mRNA• Počinje na mjestu promotora koji
i li i bli i ( k 20 d 30signalizira blizinu gena (oko 20 do 30 nukleotida)
• Nakon što smo došli do kraja gena postoji• Nakon što smo došli do kraja gena postoji terminirajuća sekvenca koja kaže RNA polimierazi da zaustavi prepisivanje.p p p j
24
Uređivanje mRNAj
• U prokariotima prepisana mRNA ide direktno p p pprema ribosomima u citoplazmi
• U eukariotima svježe prepisana mRNA se nalazi u jezgri i dugačka je oko 5000 nukleotidau jezgri i dugačka je oko 5000 nukleotida
• Kada se ta ista mRNA prevodi u ribosomu dugačka je 1000 nukleotida
• mRNA se uređuje• Dijelovi koji se zdržavaju za ekpresiju gena
nazivaju se eksoni (exons = expressed)nazivaju se eksoni (exons = expressed)• Dijelovi koji se uklanjanju se nazivaju introni.
25
Struktura eukariotskog gena i slijed genske ekspresijegenske ekspresije
26
Genetski kod
• Genetski kod se sastoji od sljeda bazaGenetski kod se sastoji od sljeda baza nađenih uzduž mRNA molekule
• Postoji samo 4 slova za taj kod (A G C i• Postoji samo 4 slova za taj kod (A, G, C i U)K d biti d lj k l k d• Kod mora biti dovoljno kompleksan da predstavlja 20 različitih aminokiselina koje
k i t đ t ise koriste za građu proteina
27
Genetski kodprva bazakodona(5')
druga baza kodona treća baza kodona (3')U C A G
U
Phe Ser Tyr Cys UPhe Ser Tyr Cys CLeu Ser STOP STOP ALeu Ser STOP Trp Gp
C
Leu Pro His Arg ULeu Pro His Arg CLeu Pro Gln Arg AL P Gl A GLeu Pro Gln Arg G
A
Ile Thr Asn Ser UIle Thr Asn Ser CIle Thr Lys Arg AMet Thr Lys Arg G
G
Val Ala Asp Gly UVal Ala Asp Gly CVal Ala Glu Gly AVal Ala Glu Gly AVal Ala Glu Gly G
28
PODACIPODACI
29
Cijena sekvenciranjaj j
30
Utrka u sekvenciranjuUtrka u sekvenciranjuThe Coolest Thing I Saw at CES 2012: Life Technologies Ion Proton Genetic SequencerThe device can sequence an entire human genome in just eight hours.PC Magazine
The $1,000 Human Genome: Are We There Yet?The race for genomes‐in‐a‐day heats up as two companies promise this service by the end of 2012Scientific American
31
Oxford nanoporesOxford nanopores
32
FASTA format podatakap
• Izgovara se kao “fast A”Izgovara se kao fast A• FASTA datoteka se sastoji od nekoliko
blokovablokova• Može postojati i komentar (linije
k t j č ti “ ”) ij tkkomentara moraju početi s “,”) – rijetko se koristi
• Svaki blok ima slijedeću strukturu– Liniju zaglavlja– Jednu ili više linija same sekvence
33
FASTA primjerp j
>FASTA blok primjer 1>FASTA blok primjer 1AGCTAGCT-CATAT
34
FASTA format podatakap• Linija zaglavlja se razlikuje od linija sekvence time što
počinje sa znakom veće od (“>”) u prvom stupcupočinje sa znakom veće od ( > ) u prvom stupcu• Riječ koja slijedi znak “>” je identifikator sekvence, a
ostatak linije je opis (oboje je opcionalno)• Ne smije biti razmaka između “>” i prvoga slova
identifikatora• Preporuča se da sve linije teksta budu kraće od 80• Preporuča se da sve linije teksta budu kraće od 80
znakova. Sekvenca (slijed) završava krajem datoteke ilislijedećom linijom koja počinje s “>”; ovo pokazujepočetak slijedeće sekvence
35
FASTA format podatakap
Simbol* Značenje
A Adenin
C Citozin
G Gvanin
T Timin
N Adenin ili G anin ili Cito in ili TiminN Adenin ili Gvanin ili Citozin ili Timin
- Procijep nepoznate duljine
*Postoje još i slova za kombinacije po dva i tri nukleotida, ali se rjeđe koriste
36
FASTQ format podatakaQ p
• FASTQ format obično koristi 4 linije po sekvenciFASTQ format obično koristi 4 linije po sekvenci– Linija 1 počinje sa ‘@’ znakom, a nakon nje je
identifikator sekvence i opcionalan opis– Linija 2 je sama sekvenca (niz slova)– Linija 3 počinje s ‘+’ znakom, a opcionalno iza njega
može biti isti identifikator sekvence (i bilo koji opis)može biti isti identifikator sekvence (i bilo koji opis) ponovo
– Linija 4 predstavlja vrijednosti kvalitete za sekvencu iz j p j jlinije 2; broj znakova mora biti jednak broju slova u sekvenci
37
Primjer FASTQ zapisaj Q p
@SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT+!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
38
FASTQ format podatakap
• Originalni FASTQ podaci omogućavaju daOriginalni FASTQ podaci omogućavaju dase sekvenca i niz znakova kvalitete prostiru u nekoliko linijaprostiru u nekoliko linija
• Ovo može zakomplicirati “parsanje” podataka: “@” i “+” se također mogupodataka: @ i + se također mogu nalaziti u nizu znakova kvalitete
39
Formati kvalitete
• p – vjerojatnost da je očitana bazap vjerojatnost da je očitana baza netočna
• Sangerov format pQ log10• Sangerov format– Može kodirati rezultat kvalitete od 0 do 93
koristeći ASCII znakove 33 do 126
pQsanger 10log10
koristeći ASCII znakove 33 do 126
40