bioinformatika uvodno 1

40
Bi i f ik Bioinformatika 2014/2015 Uvodno predavanje 1

Upload: buinhan

Post on 30-Jan-2017

238 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Bioinformatika Uvodno 1

Bi i f ikBioinformatika2014/2015Uvodno predavanje

1

Page 2: Bioinformatika Uvodno 1

O predmetuO predmetu

• PredznanjePredznanje– Algoritmi i strukture podataka– Poznavanje C programskog jezika

• Sadržaj– Genomika– Poravnavanje nizova – dinamičko programiranje– Poravnavanje nizova – dinamičko programiranje– Heuristički algoritmi poravnanja– Sufiksna polja i stabla

Filogenetska stabla– Filogenetska stabla– Sastavljanje genoma

2

Page 3: Bioinformatika Uvodno 1

LiteraturaLiteratura• Predavanjaj• Skripta• Knjige

– D. Gusfield, Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology, CambridgeUniversity Press (1997)

– N.C. Jones, P. J. Pevzner, An Introduction to BioinformaticsAlgorithms, MIT Press (2004)

– R. C. Deonier, S.Tavaré, M.S. Waterman, ComputationalGenome Analysis, Springer (2005)

– J. Pevsner, Bioinformatics and Functional Genomics, 2nd Edition, Wiley-Blackwell (2009)

3

Page 4: Bioinformatika Uvodno 1

Dodatni materijaliDodatni materijali

• Introduction to Biology - The Secret of LifeIntroduction to Biology The Secret of Life (https://www.edx.org/course/mit/7-00x/introduction-biology-secret-life/1014)00x/introduction biology secret life/1014)

• Rosalind – bioinformatički zadaci(http://rosalind info/problems/locations/)(http://rosalind.info/problems/locations/)

4

Page 5: Bioinformatika Uvodno 1

Predavači

• Doc dr sc Mile Šikić• Doc.dr.sc. Mile Šikić• Dr.sc. Mirjana Domazet-Lošo,

5

Page 6: Bioinformatika Uvodno 1

OcjenjivanjeOcjenjivanje• Kontinuirana provjera

Naziv provjere Bodovi PragMI (90 min) 25 0

ZI (90 min) 35 15

Projekt 40 0

• Ispitni rokProjekt* 100 0

Naziv provjere Bodovi PragPismeni ispit 60 15

Projekt 40 0Projekt 40 0

6

Page 7: Bioinformatika Uvodno 1

ProjektProjekt

• Rad u grupama do 6 studenataRad u grupama do 6 studenata• Upute i prijedlozi na webu

V ći j k t di• Većina projekata se svodi na implementaciju algoritama u različitim

ki j i iprogramskim jezicima• Prezentacija projekta

7

Page 8: Bioinformatika Uvodno 1

OcjenjivanjeOcjenjivanjeOcjena Minimalan broj bodova

2 503 604 754 755 90

8

Page 9: Bioinformatika Uvodno 1

UVOD U GENETIKUUVOD U GENETIKU

9

Page 10: Bioinformatika Uvodno 1

Klasična i moderna genetikag

• Sličnost potomaka i roditelja• Selektivno uzgajanje biljaka i životinja• Mendel – principi nasljeđivanjaMendel principi nasljeđivanja

– Objavio rad 1866Radio različita križanja graška– Radio različita križanja graška

– Slijedećih 35 godina skupio 3 citata Pono o otkri en 1900– Ponovo otkriven 1900.

10

Page 11: Bioinformatika Uvodno 1

Klasična i moderna genetika

• U 20 st. genetika je postala važan biološki alat

g

g j pkoristeći mutante u cilju razumijevanja procesa. Taj rad uključuje:

Analizu nasljeđivanje u populacijama– Analizu nasljeđivanje u populacijama.– Analiziranje evolucijskih procesa.– Identifikacija gena koji kontroliraju pojedine korake u

procesimaprocesima.– Mapiranje gena.– Utvrđivanje produkata gena.– Analiza molekularnih svojstava gene i regulacije ekspresije

gena.

11

Page 12: Bioinformatika Uvodno 1

Klasična i moderna genetikag

• Važni doprinosi sredinom i krajem 20. st.:– Određivanje strukture DNA (Wattson & Crick,

1953)– Konstrukcija prve rekombinirane DNA

molekule (Berg, 1972)– Prvo kloniranje rekombinirane DNA molekule

(Boyer & Cohen, 1973)– Metoda lančane reakcije polimerazom (engl -

polymerase chain reaction, PCR) za umnažanje DNA molekula (Mullis 1986)umnažanje DNA molekula (Mullis, 1986)

12

Page 13: Bioinformatika Uvodno 1

Klasična i moderna genetikag

• Najnovija otkrića - sekvenciranje:Najnovija otkrića sekvenciranje:– Za sve veći broj organizama sekvenca je

određenaodređena– Poznavanje individualnih gena i njihove

regulacije bit će važno za temeljna biološkaregulacije bit će važno za temeljna biološka istraživanja kao i medicinske primjene (medicinska genetika)

• Etička, pravna i socijalna

13

Page 14: Bioinformatika Uvodno 1

DNA, geni i kromosomig

• Genetički materijalGenetički materijal– DNA – eukarioti i prokarioti

DNA ili RNA virusi– DNA ili RNA - virusi• DNA ima dva lanca tvorenih od nukelotida

k ji t j d š ć d k i ibkoji se sastoje od šećera deoksiriboze, fosfatne grupe i baze (adenin, timin,

i i it i )gvanin i citozin)

14

Page 15: Bioinformatika Uvodno 1

DNA

Okosnica šećer - fosfat

Parovi dušičnih baza

Pojedina dušična baza

15

Page 16: Bioinformatika Uvodno 1

DNA smjerDNA smjer

• Imenovanje krajeva DNA molekule prema atomima pugljika u prstenu (šećer).

• Lanci idu u suprotnim smjerovima: 5’ 3’smjerovima: 5 – 3 odnosno 3’ – 5’

• Čitanje DNA uvijek od 5’ j jprema 3’ kraju jednog lanca.

16

Page 17: Bioinformatika Uvodno 1

DNA, geni i kromosomig• Četiri baze u DNA : A (adenin), G (gvanin),

C ( it i ) i T (ti i )C (citozin) i T (timin).– U RNA U (uracil) zamjenjuje T (timin)– Sekvenca baza određuje genetičku

informacijuG f č– Geni su specifične sekvence nukleotida koje prenose osobine s roditelja na potomstvo

17

Page 18: Bioinformatika Uvodno 1

DNA, geni i kromosomig

• Genetički materijal u stanicama je organiziran uGenetički materijal u stanicama je organiziran u kromosome– Prokarioti uglavnom imaju jedan cirkularan kromosom.– Eukarioti uglavnom imaju:

• Linearne kromosome u jezgri, pri čemu različite vrste imaju različit broj kromosoma.imaju različit broj kromosoma.

• DNA u organelama (npr. mitohondriji i kloroplasti) koji su obično cirkularne molekule.

18

Page 19: Bioinformatika Uvodno 1

Centralna dogma – prijenos informacija

Crick FHC (1956). Ideas on protein synthesis. Available at: http://profiles.nlm.nih.gov/SC/B/B/F/T/_/scbbft.pdf (acknowledged by Crick in 1958)

19

Page 20: Bioinformatika Uvodno 1

Centralna dogma – prijenos informacija

Opći Specijalni Nepoznat

DNA DNA RNA DNA protein DNADNA → DNA RNA → DNA protein → DNA

DNA → RNA RNA → RNA protein → RNAN N N N p ote N

RNA → protein DNA → protein protein → protein

20

Page 21: Bioinformatika Uvodno 1

Ekspresija gena

T k i ij i t RNA ( i i j DNA)• Transkripcija: sinteza RNA (prepisivanje DNA)– Sinteza mRNA koristeći gene DNA molekule kao

predložak.p ed o a– U jezgri eukariota.

• Translacija sinteza proteina (prevođenje RNA) – Sinteza proteinskoga lanca koristeći genetički kod

mRNA molekule kao uputu.

21

Page 22: Bioinformatika Uvodno 1

Ribonukleinska kiselina (RNA)( )

• Nalazi se u cijeloj stanici:Nalazi se u cijeloj stanici:– jezgra

mitohondriji– mitohondriji – kloroplast

ribosomi– ribosomi– citoplazma

22

Page 23: Bioinformatika Uvodno 1

Glavne vrste

• Glasnička RNA (mRNA) <5%Glasnička RNA (mRNA) <5%• Ribosomska RNA (rRNA) do 80%

T t RNA (tRNA) k 15%• Transportna RNA (tRNA) oko 15%• Male RNA molekule u jezgri (snRNA):

imaju ulogu u obradi mRNA u jezgri nakon transkripcije

• Često svu RNA u stanici nazivamo transkriptomomp

23

Page 24: Bioinformatika Uvodno 1

Transkripcija : Sinteza mRNA (i drugih RNA)(i drugih RNA)

• Koristi enzim RNA polimerazu• Tvori komplementarni lanac mRNA• Počinje na mjestu promotora koji

i li i bli i ( k 20 d 30signalizira blizinu gena (oko 20 do 30 nukleotida)

• Nakon što smo došli do kraja gena postoji• Nakon što smo došli do kraja gena postoji terminirajuća sekvenca koja kaže RNA polimierazi da zaustavi prepisivanje.p p p j

24

Page 25: Bioinformatika Uvodno 1

Uređivanje mRNAj

• U prokariotima prepisana mRNA ide direktno p p pprema ribosomima u citoplazmi

• U eukariotima svježe prepisana mRNA se nalazi u jezgri i dugačka je oko 5000 nukleotidau jezgri i dugačka je oko 5000 nukleotida

• Kada se ta ista mRNA prevodi u ribosomu dugačka je 1000 nukleotida

• mRNA se uređuje• Dijelovi koji se zdržavaju za ekpresiju gena

nazivaju se eksoni (exons = expressed)nazivaju se eksoni (exons = expressed)• Dijelovi koji se uklanjanju se nazivaju introni.

25

Page 26: Bioinformatika Uvodno 1

Struktura eukariotskog gena i slijed genske ekspresijegenske ekspresije

26

Page 27: Bioinformatika Uvodno 1

Genetski kod

• Genetski kod se sastoji od sljeda bazaGenetski kod se sastoji od sljeda baza nađenih uzduž mRNA molekule

• Postoji samo 4 slova za taj kod (A G C i• Postoji samo 4 slova za taj kod (A, G, C i U)K d biti d lj k l k d• Kod mora biti dovoljno kompleksan da predstavlja 20 različitih aminokiselina koje

k i t đ t ise koriste za građu proteina

27

Page 28: Bioinformatika Uvodno 1

Genetski kodprva bazakodona(5')

druga baza kodona treća baza kodona (3')U C A G

U

Phe Ser Tyr Cys UPhe Ser Tyr Cys CLeu Ser STOP STOP ALeu Ser STOP Trp Gp

C

Leu Pro His Arg ULeu Pro His Arg CLeu Pro Gln Arg AL P Gl A GLeu Pro Gln Arg G

A

Ile Thr Asn Ser UIle Thr Asn Ser CIle Thr Lys Arg AMet Thr Lys Arg G

G

Val Ala Asp Gly UVal Ala Asp Gly CVal Ala Glu Gly AVal Ala Glu Gly AVal Ala Glu Gly G

28

Page 29: Bioinformatika Uvodno 1

PODACIPODACI

29

Page 30: Bioinformatika Uvodno 1

Cijena sekvenciranjaj j

30

Page 31: Bioinformatika Uvodno 1

Utrka u sekvenciranjuUtrka u sekvenciranjuThe Coolest Thing I Saw at CES 2012: Life Technologies Ion Proton Genetic SequencerThe device can sequence an entire human genome in just eight hours.PC Magazine

The $1,000 Human Genome: Are We There Yet?The race for genomes‐in‐a‐day heats up as two companies promise this service by the end of 2012Scientific American

31

Page 32: Bioinformatika Uvodno 1

Oxford nanoporesOxford nanopores

32

Page 33: Bioinformatika Uvodno 1

FASTA format podatakap

• Izgovara se kao “fast A”Izgovara se kao fast A• FASTA datoteka se sastoji od nekoliko

blokovablokova• Može postojati i komentar (linije

k t j č ti “ ”) ij tkkomentara moraju početi s “,”) – rijetko se koristi

• Svaki blok ima slijedeću strukturu– Liniju zaglavlja– Jednu ili više linija same sekvence

33

Page 34: Bioinformatika Uvodno 1

FASTA primjerp j

>FASTA blok primjer 1>FASTA blok primjer 1AGCTAGCT-CATAT

34

Page 35: Bioinformatika Uvodno 1

FASTA format podatakap• Linija zaglavlja se razlikuje od linija sekvence time što

počinje sa znakom veće od (“>”) u prvom stupcupočinje sa znakom veće od ( > ) u prvom stupcu• Riječ koja slijedi znak “>” je identifikator sekvence, a

ostatak linije je opis (oboje je opcionalno)• Ne smije biti razmaka između “>” i prvoga slova

identifikatora• Preporuča se da sve linije teksta budu kraće od 80• Preporuča se da sve linije teksta budu kraće od 80

znakova. Sekvenca (slijed) završava krajem datoteke ilislijedećom linijom koja počinje s “>”; ovo pokazujepočetak slijedeće sekvence

35

Page 36: Bioinformatika Uvodno 1

FASTA format podatakap

Simbol* Značenje

A Adenin

C Citozin

G Gvanin

T Timin

N Adenin ili G anin ili Cito in ili TiminN Adenin ili Gvanin ili Citozin ili Timin

- Procijep nepoznate duljine

*Postoje još i slova za kombinacije po dva i tri nukleotida, ali se rjeđe koriste

36

Page 37: Bioinformatika Uvodno 1

FASTQ format podatakaQ p

• FASTQ format obično koristi 4 linije po sekvenciFASTQ format obično koristi 4 linije po sekvenci– Linija 1 počinje sa ‘@’ znakom, a nakon nje je

identifikator sekvence i opcionalan opis– Linija 2 je sama sekvenca (niz slova)– Linija 3 počinje s ‘+’ znakom, a opcionalno iza njega

može biti isti identifikator sekvence (i bilo koji opis)može biti isti identifikator sekvence (i bilo koji opis) ponovo

– Linija 4 predstavlja vrijednosti kvalitete za sekvencu iz j p j jlinije 2; broj znakova mora biti jednak broju slova u sekvenci

37

Page 38: Bioinformatika Uvodno 1

Primjer FASTQ zapisaj Q p

@SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT+!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

38

Page 39: Bioinformatika Uvodno 1

FASTQ format podatakap

• Originalni FASTQ podaci omogućavaju daOriginalni FASTQ podaci omogućavaju dase sekvenca i niz znakova kvalitete prostiru u nekoliko linijaprostiru u nekoliko linija

• Ovo može zakomplicirati “parsanje” podataka: “@” i “+” se također mogupodataka: @ i + se također mogu nalaziti u nizu znakova kvalitete

39

Page 40: Bioinformatika Uvodno 1

Formati kvalitete

• p – vjerojatnost da je očitana bazap vjerojatnost da je očitana baza netočna

• Sangerov format pQ log10• Sangerov format– Može kodirati rezultat kvalitete od 0 do 93

koristeći ASCII znakove 33 do 126

pQsanger 10log10

koristeći ASCII znakove 33 do 126

40