primjena distribuiranih sustava u računalnoj biologiji · analiza podataka procesuiranje sirovih...

15
Primjena distribuiranih sustava u računalnoj biologiji Maša Roller Milošević Grupa za bioinformatiku PMF

Upload: others

Post on 24-Jan-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Primjena distribuiranih sustava u računalnoj biologiji · Analiza podataka Procesuiranje sirovih podataka Interpretacija Podrška Istraživanje. Sadržaj predavanja •Računalna

Primjena distribuiranih sustava u računalnoj biologiji

Maša Roller Milošević

Grupa za bioinformatiku

PMF

Page 2: Primjena distribuiranih sustava u računalnoj biologiji · Analiza podataka Procesuiranje sirovih podataka Interpretacija Podrška Istraživanje. Sadržaj predavanja •Računalna

Sadržaj predavanja

• Računalna biologija

• Primjer primjene distribuiranih sustava u računalnoj biologiji

Page 3: Primjena distribuiranih sustava u računalnoj biologiji · Analiza podataka Procesuiranje sirovih podataka Interpretacija Podrška Istraživanje. Sadržaj predavanja •Računalna

Stanica: osnovna jedinica života

• Jezgra = knjižnica

• Kromosomi = police

• Geni = knjige

• Knjiga predstavljaju svu informaciju (DNA) koju svaka stanica u tijelu treba za rast i ispunjene raznih funkcija.

Izvor: On-Line Biology Book

Page 4: Primjena distribuiranih sustava u računalnoj biologiji · Analiza podataka Procesuiranje sirovih podataka Interpretacija Podrška Istraživanje. Sadržaj predavanja •Računalna

Veličina “knjižnica”

Zločin i kazna

Fjodor Dostojevski

1,040,570

Slova

(~ 1 x 106)

Organizam Broj slova

Klamidija 1 x 106

E. coli 4.6 x 106

Kvasac 1.3 x 107

Čovjek 3.3 x 109

Page 5: Primjena distribuiranih sustava u računalnoj biologiji · Analiza podataka Procesuiranje sirovih podataka Interpretacija Podrška Istraživanje. Sadržaj predavanja •Računalna

Izvor: NCBI

0

200

400

600

800

1000

1200

1400

1600

1800

2000

1965 1970 1975 1980 1985 1990 1995

Sekven

ce/1

000

NUKLEOTIDNE SEKVENCE

0

10000

20000

30000

40000

50000

60000

70000

80000

1965 1970 1975 1980 1985 1990 1995

Sekven

ce

PROTEINSKE SEKVENCE

0

5000

10000

15000

20000

25000

30000

35000

1965 1970 1975 1980 1985 1990 1995

Gen

i

MAPIRANI LJUDSKI GENI

0

1000

2000

3000

4000

5000

6000

7000

8000

1965 1970 1975 1980 1985 1990 1995

Str

uktu

re

3D STRUKTURE

SWISS-PROT

GenBank PDB

PKRRSARLSA

Rast bioloških informacija

Page 6: Primjena distribuiranih sustava u računalnoj biologiji · Analiza podataka Procesuiranje sirovih podataka Interpretacija Podrška Istraživanje. Sadržaj predavanja •Računalna

Bioračunarstvo, biomatematika, biostatistika

Upravljanje podatcima

KR

AJN

JI K

OR

ISN

IK

Računalna biologija

Održavanje baza

Analizapodataka

Procesuiranje sirovih podataka

Interpretacija podataka

Podrška

Istraživanje

Page 7: Primjena distribuiranih sustava u računalnoj biologiji · Analiza podataka Procesuiranje sirovih podataka Interpretacija Podrška Istraživanje. Sadržaj predavanja •Računalna

Sadržaj predavanja

• Računalna biologija

• Primjer primjene distribuiranih sustava u računalnoj biologiji:

Mikrobna metagenomika

Page 8: Primjena distribuiranih sustava u računalnoj biologiji · Analiza podataka Procesuiranje sirovih podataka Interpretacija Podrška Istraživanje. Sadržaj predavanja •Računalna

Mikrobne zajednice

Ljudsko probaviloProbavilo miševaMorske

Postrojenje za uklanjanje fosfora

Strvina kitaZemlja

Kiseli sekret iz rudnika

Page 9: Primjena distribuiranih sustava u računalnoj biologiji · Analiza podataka Procesuiranje sirovih podataka Interpretacija Podrška Istraživanje. Sadržaj predavanja •Računalna

Poteškoće u istraživanju mikrobnih zajednica

~ 1% mikroba se može uzgajati u kulturi Mikrobi žive u zajednicama

copyright © 2006 art-in-science.com http://www.nearingzero.net

Page 10: Primjena distribuiranih sustava u računalnoj biologiji · Analiza podataka Procesuiranje sirovih podataka Interpretacija Podrška Istraživanje. Sadržaj predavanja •Računalna

Odgovor: metagenomika

Uzorak iz okoliša Izolirana DNA Sekvenciranje i slaganje fragmenata

Page 11: Primjena distribuiranih sustava u računalnoj biologiji · Analiza podataka Procesuiranje sirovih podataka Interpretacija Podrška Istraživanje. Sadržaj predavanja •Računalna

Slaganje fragmenata

AACCTGACATAGGTTAACTAGGTTAACTATACCTGCCAATGA

CAATGATTGAGCGATAGATAAATCTGTGT

Arachne genome assembler

Memorijski zahtjev = ~ 50 GbDiskovni prostor = ~ 500 Gb

Page 12: Primjena distribuiranih sustava u računalnoj biologiji · Analiza podataka Procesuiranje sirovih podataka Interpretacija Podrška Istraživanje. Sadržaj predavanja •Računalna

Anotacija metagenoma

ATAGAATGATTTTTAAAAGGAATAATTTCGTTAGTTATATTTCCAGGTTTTAAAAAAGACATAGGTAAATCAAAGAAATCTATTAAGCCCCTAAGAATTGATTCAAATGGTAAAAATTCCCCAAATGGAACAAGATTAACCTTTTTATACCCAGATAATTTTTCACTAGACAAGATTGTCAAAGTATTAAAATAATTAATTGATGTAGGAGCTGATTCAGATTGGTAGATACCGGAAATTACATTCAAATTATTCTCTTCAAGCCTCTTCACAAGGTTGTTTCCATATAAGCTCTTTAGAGTGTATGGAAAAGGAGATTCTGGCCAAACAATTAGATCTAATCCTTCTTTCTCTAAACTCAAGCTAATTAATCTATCTTCAATTGATTTCCCATAATCACTTTCAAATTTTTGACGTGGCCCAAATGATGGCTGAACTATTCCAAATTTTAAATGCTCATCGCTTGAATTATGAATGTCTAATTTTGTGGTTAAGGAAGGTATTGCAAATGCAATTATTAATAAAATACTTAAGCCATACTTATATGCTTTTTTTGAACTAAGAGCTGCTGCTGAGACTATTAAATAAAATAATAGCGAGCATCCGATCACACCAATTATTGGTATCAAGAAATCAAGTATCGTATCAAGGAAAATTACTCCTGGTTGCAGCCATGGAAATCCTCCTAAAATAAAAAATCTTGCTGATTCAAGCAATATTAATATTGAAGATAGGATTAGAGCATTTGTAAAGTTAGATATTCTTTTAATGTATACAAATAGCATAATCGGGAGCACAAATATACTTGAAAGTAACAATCCTAGAAAAATTAATGCAGTGACTGATAATGCTATGTTTACATTTCCATGATAGTGAATACTCACTATTAGCCAAAAAGTTCCAGCAAACCAAAGTCCAAATCCCCAAAAGAGAATATGCAACCATTTGTTTTCAGTTGAAGAACTAGTTAGTATCGAGACCAAATATAAATAGGATAATACTAGGATCCACTTTTGATCATAAGGTGCAAAAGCAAGAAACGATAATATTCCAACTAATGCGGTTGTGAGATATCTAATCAGACGTTGGTTTATTAATTGTGATGCCAATCTTTTTAACTTTCCTTTTATCAGCAGCTGTGACAGCTAAAGTCATATTGTTAACTTCAATCCTATCACCAACTTTTGGCAGCAAACCTAATTTATGAATAAATAATCCACCGACAGTTTCTGCGTCAAGATCATCAAACTTTAAGTCAAATTTTTTCTCGAATACATTAATATCTAATCTAGCGTCAGCAATATATTCAGTAGGACTAACTTGAATTAATTCATCAACGTCGCCGGTATCATGTTCATCTTCAATTTCTCCAACTAATTCCTCAAGAACATCCTCGATGGTTATCAAGCCTGATACTGATCCATACTCATCTATAACCACTGCCATATGAGATCTGTCGTTTTTAAATTCTTCAAGCATAGTGTCGGCTTTCTTATTCTCAGGAACTACTTTTATATTTCTTGTTACTTTTTCTAGAGAAATAGGGGTTTTAGAATGCAAAGCGGGTAATATATCTTTAGCCAAAAGCAGGCCCTTAACCTCATTCTTATTTTCGCCCATAACAGGGTACCTTGAGTGCCCAGATTCGATAATTCTATTTATAAATACATCTTGGCTTTCATTTACGTCAACTGTGACCATTTCAACCTTTGGAATCATTATTTCCTTCAAAGTTGTATCTCCAAGCCGTATAGCCTTCTCAGCTATTAATTGGGCTTCTTTATCAATAATATTTGTATTAAGCGCATGCTGTAAGACCTCTGAGACCTCATTTAGAGATTTAGGTTTAAAAGATATTAGATTTTTTAGCTTTTTAAATGCTGTCGACGGAGGTTTTTCTT

Database

~5 GB

~4.5 GB

BLASTt running (1 core opteron 1.8 GHz CPU) = 24 monthst running (8 cores opteron 1.8 GHz CPU) = 3 months

Page 13: Primjena distribuiranih sustava u računalnoj biologiji · Analiza podataka Procesuiranje sirovih podataka Interpretacija Podrška Istraživanje. Sadržaj predavanja •Računalna

Funkcije ovisne o okolišu

Proizvodnja i pretvorba energije

Transport i metabolizam ugljikohidrata

Page 14: Primjena distribuiranih sustava u računalnoj biologiji · Analiza podataka Procesuiranje sirovih podataka Interpretacija Podrška Istraživanje. Sadržaj predavanja •Računalna

Grupa za bioinformatiku

Voditelj:Kristian Vlahoviček

Doktorandi:Rosa KarlićVedran LucićTina KokanSofia PintoMaša Roller Milošević

Financiranje:

Studenti:Vedran FrankePetar GlažarSaša PopićJelena Tica

Sistem administrator:Petar Jager

Page 15: Primjena distribuiranih sustava u računalnoj biologiji · Analiza podataka Procesuiranje sirovih podataka Interpretacija Podrška Istraživanje. Sadržaj predavanja •Računalna

Naš moto