bioinformática introducción, bases de datos biológicas prof. mirko zimic

65
Bioinformática www.geocities.com/mirkozimic/bioinfo Introducción, Bases de datos biológicas Prof. Mirko Zimic

Upload: ana-aguilar-silva

Post on 31-Jan-2016

218 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Bioinformáticawww.geocities.com/mirkozimic/bioinfo

Introducción, Bases de datos biológicas

Prof. Mirko Zimic

Page 2: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

What is Bioinformatics?

• What is Bioinformatics? - Research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, store, organize, archive, analyze, or visualize such data.

• What is Computational Biology? - The development and application of data-analytical and theoretical methods, mathematical modeling and computational simulation techniques to the study of biological, behavioral, and social systems.

(Working Definition of Bioinformatics and Computational Biology - July 17, 2000). http://www.grants2.nih.gov/grants/bistic/CompuBioDef.pdf

Page 3: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

•Molecular BiologyBasic concepts, Genomic and Proteomic structure

•Core BioinformaticsBiological Databases, Sequence Analysis,

Functional Genomics•Advanced Bioinformatics

Molecular Evolution and PhylogenyProtein Structure PredictionThe TranscriptomeThe Proteome

•InformaticsInformation TheoryBasic StatisticsDatabase TechnologiesKnowledge RepresentationBiocomputing

The “Ideal” SyllabusThe “Ideal” Syllabus

Page 4: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Konrad Zuse con la Z1 reconstruída. Zurich

Page 5: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Durante la II Guerra mundial los ingleses construyen en respuesta al codificador Enigma, el Colossus.

Enigma

Page 6: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

En 1944 IBM y la Universidad de Harvard estrenan Mark I, la primera computadora que responde a la moderna definición. Medía.15 metros de largo, 2.40 mts de alto y pesaba 10 toneladas. Utilizaba relays electromecánicos.

Page 7: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Este es uno de los relay que se usaron en la Mark I

Page 8: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Sumaba en menos de un segundo, multiplicaba en cerca de seis, y dividía en cerca de doce.

Page 9: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Costo Efectividad !

La Bioinformática resulta ser una disciplina muy favorable en cuanto a

costo-efectividad.

Page 10: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

On Life ...

“Living things are composed of lifeless molecules” (Albert Lehninger)

La Biología puede reducirse a las leyes Físicas fundamentales?

Page 11: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic
Page 12: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

• La Bioinformática se inicia con el desarrollo de bases de datos biológicas, seguido del desarrollo de herramientas de búsqueda rápida de información…

• Actualmente la Bioinformática busca el desarrollo de algoritmos de predicción basado en la información almacenada en las bases de datos biológicas.

Page 13: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Historical Perspective

Key developments:• Dayhoff, Atlas of Protein Sequence and Structure (1965-1978)

• Genbank/EMBL nucleic-acid sequence databases (1979-1992) • Entrez (early 90’s – date)

• Sequence alignment algorithms: Needleman/Wunsch (1970), Smith/Waterman (1981), FASTA (Pearson/Lipman, 1988), BLAST (Altschul, 1990)

• Genomes (1995 – date)

Page 14: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Collecting Sequence Data

• Genome (DNA-level): Genomic sequencing

Complete picture of genome Generates physical map Includes regulatory and other silent regions

• Transcriptome (RNA-level): Expression-library sequencing

Expressed genes only Splicing / variant forms Can correlate with levels of expression

• Proteome (protein-level): Protein sequencing

Insight into biological function Gives information on protein-protein interactions Post-translational modifications detected

Page 15: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

The exponential growth of molecular sequence databases & cpu power —

Year BasePairs Sequences

1982 680338 606

1983 2274029 2427

1984 3368765 4175

1985 5204420 5700

1986 9615371 9978

1987 15514776 14584

1988 23800000 20579

1989 34762585 28791

1990 49179285 39533

1991 71947426 55627

1992 101008486 78608

1993 157152442 143492

1994 217102462 215273

1995 384939485 555694

1996 651972984 1021211

1997 1160300687 1765847

1998 2008761784 2837897

1999 3841163011 4864570

2000 11101066288 10106023

2001 14396883064 13602262

doubling time ~doubling time ~one yearone year

Page 16: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Databases contain more than just DNA & protein sequences

Page 17: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

The “omics” Series• Genomics

– Gene identification & charaterisation• Transcriptomics

– Expression profiles of mRNA• Proteomics

– functions & interactions of proteins• Structural Genomics

– Large scale structure determination• Cellinomics

– Metabolic Pathways– Cell-cell interactions

• Pharmacogenomics– Genome-based drug design

Page 18: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Structural GenomicsWhat is structural genomics?

• Genomes and folds: – Finding folds in genomes – Structural properties of entire proteomes – Comparing genomes in terms of structure

• Selection of targets for structural genomes – Covering the sequence space with structures – Using structure to understand function – Systematic structure determination for complete genomes – Special targets – Predicting success of structure determination

• Adaptation of proteins to extreme environments • Structural genomics resources on the internet

Page 19: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Functional Genomics

• Development and application of global (genome-wide or system-wide) experimental approaches to assess gene function by making use of the information provided by structural genomics.

Page 20: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Commercial Structural Genomics Initiatives

• IBM (Blue Gene project: 2000)– Computational protein folding

• Geneformatics (1999)– Modeling for identifying active sites

• Prospect Genomics (1999)– Homology modeling

• Protein Pathways (1999)– Phylogenetic profiling, domain analysis, expression

profiling• Structural Bioinformatics Inc (1996)

– Homology modeling, docking

Page 21: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Proyecto Genoma Humano

La secuencia del genoma está casi completa!– aproximadamente 3.5 billones de pares de bases.

Page 22: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Raw Genome Data

Page 23: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Implications for Biomedicine

• Physicians will use genetic information to diagnose and treat disease.– Virtually all medical conditions (other than

trauma) have a genetic component.

• Faster drug development research– Individualized drugs– Gene therapy

• All Biologists will use gene sequence information in their daily work

Page 24: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Bioinformatics Challenges

Lots of new sequences being added- automated sequencers

- Human Genome Project

- EST sequencing

GenBank has over 10 Billion bases and is doubling every year!!

(problem of exponential growth...)

How can computers keep up?

The huge dataset

Page 25: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic
Page 26: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Genome comparisons• Designed for looking at complete bacterial

genomes.

Page 27: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

AT content

Forward translations

Reverse Translations

DNA and aminoacids

Gene finding

Page 28: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Gene finding

Page 29: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Bringing a New Drug to Market

Review and approval by Food & Drug Administration

1 compound approved

Phase III: Confirms effectiveness and monitors adverse reactions from long-term use in 1,000 to5,000 patient volunteers.

Phase II: Assesses effectiveness and looks for side effects in 100 to 500 patient volunteers.

Phase I: Evaluates safety and dosage in 20 to 100 healthy human volunteers.

5 compounds enter clinical trials

Discovery and preclininal testing: Compounds are identified and evaluated in laboratory and animal studies for safety, biological activity, and formulation.

5,000 compounds evaluated

0 2 4 6 8 10 12 14 Years

16

Page 30: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Impact of Structural Genomics on Drug Discovery

Page 31: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Epitopes …

B-cell epitopes Th-cell epitopes

Page 32: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Vaccine developmentIn Post-genomic era: Reverse Vaccinology Approach.

Page 33: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

How a molecule changes during MD

Page 34: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

In Silico Analysis

Gene/Protein Sequence Database

Disease related protein DB

Candidate Epitope DB

VACCINOME

PeptideMultitope vaccines

Epitope prediction

Page 35: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic
Page 36: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Biological Research in 21st Century

“ The new paradigm, now emerging is that all the 'genes' will be known (in the sense of being resident in databases available electronically), and that the starting point of a biological investigation will be theoretical.”

- Walter Gilbert

Page 37: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

II. El papel del Biólogo en la Era de la

Información

Page 38: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

El Internet provee abundante información biologica

Puede resultar abrumador…

- e-mail

- Web

Necesidad de nuevas habilidades = localizar información necesaria de manera eficiente

Page 39: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Computing in the lab - everyday tasks (vs. computational biology)

ordering supplies reference books lab notes literature

searching

Page 40: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Training "computer" scientists

Know the right tool for the job

Get the job done with tools available

Network connection is the lifeline of the scientist

Jobs change, computers change, projects change, scientists need to be adaptable

Page 41: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

The job of the biologist is changing

• As more biological information becomes available …– The biologist will spend more time using

computers– The biologist will spend more time on data

analysis (and less doing lab biochemistry)– Biology will become a more quantitative science

(think how the periodic table and atomic theory affected chemistry)

Page 42: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Implementación de una estación de trabajo para análisis bioinformáico

-Windows vs. Linux

-Software freeware / open source-Bases de datos online, gratuitas-Clusters computacionales

-GRIDS

Page 43: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Un ejemplo …

Cisteíno proteasa de la fasciola hepática: En busca de un péptido

inmunogénico

Page 44: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

VPKSVDWREKGYVTPVKNQGQCGSCWAFSATGALEGQMFRKTGR ISLSEQNLVDCSRPQGNAVPDKIDWRESGYVTEVKDQGNCGSCWAFSTTGTMEGQYM KNERTSISFSEQQLVDCSRPWGN

_____ROJO_________

QGCNGGLMDNAFQYIKENGGLDSEESYPYEATDTSCNY KPEYSVANDTGFVDIPQREKA LMKNGCGGGLMENAYQYLKQF GLETESSYPYTAVGGQCRYNKQLG VAKVTGYYTV QSGSEVEL KN _VIOLETA____ _AMARILLO_______

AVATVGPISVAIDAGHSFQFYKSGIYYEPDCSSKDLDHGVLVVGYGFEG TDSNNNKYW IVKNSWLIGSEGPSAVAVDVESDFMMYRSGIYQSQTCSPLRVNHAVLAVGYGTQGGTD YW IVKNSW_____ _VERDE_____

GPEWGM-GYVKMAKDRNNH CGIATAASYPTVGLSWGERGYIRMV RNRGNMCGIASLASLPMVARFP

Alineamiento: cisteíno proteasas de mamífero Vs. cisteíno

proteasa de Fasciola hepatica.

AA Idénticos AA divergentes

Page 45: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Epítope Discontinuo, formado por porciones distantes de la secuencia.

Denaturación

El epítope se pierde con la denaturación.

Page 46: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Denaturación

El epítope se conserva como tal.

Epítope Continuo, formado por una porción de la secuencia

Page 47: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Modelaje tridimensional por homología. Identidad de secuencia de 56% con quimopapaína (1YAL)

Page 48: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

AA idénticos AA divergentes

Análisis de Superficie: vista de átomos por radio de van der Waals

Page 49: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

TMEGQYMKNERTSISFS

YYTVQSGSEVELKNLIGSE

QSQTCSPLRVN

RYNKQLGVAKV

Selección de secuencias (1)divergentes, (2)accesibles al solvente y (3)contínuas.

Page 50: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Otro ejemplo…

Sensibilidad de la aspartyl proteasa del HIV-1 a los inhibidores más

frecuentes

Page 51: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Representación en “cartoon” de la enzima proteasa de HIV-1

Page 52: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Enzima proteasa de HIV-1 mostrando los elementos de estructura secundaria, flaps y

sitio activo

Page 53: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Enzima proteasa de HIV-1 indicando los residuos consenso de unión inhibidor-enzima

Page 54: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

INDINAVIR

Page 55: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

RITONAVIR

Page 56: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

COMPARACION ENTRE UNA ENZIMA SENSIBLE Y UNA

RESISTENTE A RITONAVIR

Page 57: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Un ejemplo más…

Ordenamiento filogenético y el contenido de GC en tripanosomátidos

Page 58: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Reported %GC variation for each codon position in Trypanosomatids

(Alonso et al,1992)

4 2 4 4 4 6 4 8 5 0 5 2 5 4 5 6 5 8 6 04 0

4 5

5 0

5 5

6 0

6 5

7 0

7 5

8 0

8 5

9 0

C r i t h i d i aL e i s h m a n i a

T . c r u z iT . b r u c e i

1 s t2 n d3 r d

% G Cc o d o np o s i t i o n

% G C t o t a l D N A

Page 59: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Codon usage in Trypanosomatids leucine

0

10

20

30

40

50

60

70

TTA

CTA

TTG

CTT

CTC

CTG

TTA

CTA

TTG

CTT

CTC

CTG

TTA

CTA

TTG

CTT

CTC

CTG

TTA

CTA

TTG

CTT

CTC

CTG

T.brucei T.cruzi Leishmania Critidia

Page 60: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Codon usage in Trypanosomatids serine

0

5

10

15

20

25

30

35

40

AG

T

TCA

TCT

TCC

AG

C

TCG

AG

T

TCA

TCT

TCC

AG

C

TCG

AG

T

TCA

TCT

TCC

AG

C

TCG

AG

T

TCA

TCT

TCC

AG

C

TCG

T.brucei T.cruzi Leishmania Critidia

Page 61: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

Phylogeny of Trypanosomatid lineage (Maslov & Simpson)

Page 62: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

“Hole” formation by DNA replication

Page 63: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

GC content variation in timeRestriction: AA family conservation

and AA conservation

Page 64: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

%GC variation in Trypanosomatid lineage(Nuclear coding DNA)

Page 65: Bioinformática  Introducción, Bases de datos biológicas Prof. Mirko Zimic

GC variation in trypanosomatidae lineage Nuclear DNA

0.00

0.100.20

0.300.40

0.50

0.600.70

0.800.90

1.00

T.b

ruce

i

T.c

ruzi

Le

ishm

ani

a

Cri

thid

ia

% G

C

P1

P2

P3

P3*

P