clase 04 ciencias Ómicas: bioinformÁtica, genÓmica, proteÓmica, trancriptÓmica y metagenÓmica

62
Edgar Fernando Salcedo, M.Sc CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA Fernando Salcedo Biólogo, M.Sc. e-mail: [email protected]

Upload: e-fernando-salcedo-ramirez

Post on 17-Jul-2015

886 views

Category:

Science


2 download

TRANSCRIPT

Page 1: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Edgar Fernando Salcedo, M.Sc

CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA,

TRANCRIPTÓMICA Y METAGENÓMICA

Fernando Salcedo Biólogo, M.Sc.

e-mail: [email protected]

Page 2: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

I. INTRODUCCIÓN A LA BIOINFORMÁTICA

1. Historia de la Bioinformática 2. Definiciones de Bioinformática y Biología Computacional 3. Conocer los conceptos ‘wet lab ’ y ‘dry lab ’: la generación de nuevas hipótesis basadas high-throughput analysis . 4. Conocer la existencia de diferentes sistemas operativos (UNIX/Linux, Mac OS X, Microsoft Windows). 5. Conocer los diferentes formatos de archivos utilizados en Bioinformática y Biología Computacional (.txt, .doc, .xls, .cvs, .xml, pdb, FASTA, GCG, etc), así como los modos/aplicaciones para la interconversión de formatos. 6. Aplicaciones de la bioinformática en la biología molecular y la biotecnología.

E. Fernando Salcedo, M.Sc

Page 3: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

1. Historia de la Bioinformática •  La bioinformática es la disciplina que utiliza una combinación de las tecnologías de

la computación, las ciencias de la información y el conocimiento biológico, para coleccionar, almacenar, relacionar, modelar e interpretar datos biológicos.

Historia de la informática

Historia de la biología molecular

E. Fernando Salcedo, M.Sc

Page 4: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Bioinformática

E. Fernando Salcedo, M.Sc

Page 5: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

2. ¿Bioinformática o Biología Computacional? • Bioinformática: Investigación, desarrollo o aplicación de

herramientas y enfoques computacionales, para expandir el uso de datos biológicos, médicos o de salud; incluyendo la adquisición, almacenamiento, organización, archivo, análisis o visualización de los datos.

• Biología Computacional: El desarrollo y aplicación de métodos de análisis de datos y métodos teóricos, modelación matemática y técnicas de simulación computacional, para el estudio de sistemas biológicos, conductuales y sociales.

E. Fernando Salcedo, M.Sc

Page 6: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

¿Expectativas de la asignatura? E. Fernando Salcedo, M.Sc

Page 7: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

¿Qué NO es Bioinformática? •  Algoritmos Genéticos: Son llamados así porque se inspiran en la evolución

biológica y su base genético-molecular. Estos algoritmos hacen evolucionar una población de individuos sometiéndola a acciones aleatorias semejantes a las que actúan en la evolución biológica (mutaciones y recombinaciones genéticas), así como también a una selección de acuerdo con algún criterio, en función del cual se decide cuáles son los individuos más adaptados, que sobreviven, y cuáles los menos aptos, que son descartados.

•  Redes Neuronales: La clase de problemas que mejor se resuelven con las redes neuronales son los mismos que el ser humano resuelve mejor: Asociación, evaluación, y reconocimiento de patrones. Las redes neuronales son perfectas para problemas que son muy difíciles de calcular pero que no requieren de respuestas perfectas, sólo respuestas rápidas y buenas. Tal y como acontece con el escenario bursátil en el que se quiere saber ¿compro?, ¿vendo?, ¿mantengo?, o en el reconocimiento cuando se desea saber ¿se parece? ¿es el mismo pero tienen una ligera modificación?

•  Un Algoritmo es una serie de pasos organizados que describe el proceso que se debe seguir, para dar solución a un problema específico.

E. Fernando Salcedo, M.Sc

Page 8: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

¿Quién es un Bioinformático? • Utiliza y desarrolla herramientas de software bioinformáticas para analizar los datos de secuencias y estructuras moleculares y así responder preguntas de tipo biológico y/o encontrar nuevo conocimiento.

E. Fernando Salcedo, M.Sc

Page 9: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Competencias de los Bioinformáticos • Conocimientos en biología molecular. • Entendimiento perfecto del dogma central. • Experiencia en paquetes más conocidos de biología molecular.

• Conocimientos de ambientes Linux. • Experiencia en programación con C++, Perl, Phyton, Bash, Ruby, etc.

E. Fernando Salcedo, M.Sc

Page 10: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Capacidad de cómputo E. Fernando Salcedo, M.Sc

Primera generación Segunda generación

Tercera generación Cuarta generación

Page 11: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Súper cómputo Súper Computador Cluster de Computadores

http://linuxitomex.files.wordpress.com/2009/09/botnet.jpg

http://upload.wikimedia.org/wikipedia/commons/3/3d/Us-nasa-columbia.jpg

http://upload.wikimedia.org/wikipedia/commons/1/18/CRAY_T3D_d.jpg

E. Fernando Salcedo, M.Sc

Page 12: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Descifrando el código

http://www.dw.de/image/0,,16879454_303,00.jpg http://img.irtve.es/v/2418968/

http://gdb.martinoticias.org/0DDCBE54-D9C2-47B3-9339-0F5853533A02_mw1024_n_s.jpg

E. Fernando Salcedo, M.Sc

Page 13: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Bioinformática: Omas y Omicas

E. Fernando Salcedo, M.Sc

Page 14: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

E. Fernando Salcedo, M.Sc

Page 15: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Transcriptomica •  Desde la caracterización del

genoma humano, han surgido nuevas vías de investigación sobre el análisis global del material genético.

•  Es evidente que NO todo el genoma es transcrito y traducido finalmente a proteínas

•  Transcriptoma surge para representar todo el mRNA transcrito bajo unas circunstancias, de forma global.

•  Cada organismo tiene infinidad de transcriptomas dependiendo del tipo tisular o las condiciones ambientales que se estudien.

E. Fernando Salcedo, M.Sc

Page 16: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Transcriptoma

E. Fernando Salcedo, M.Sc

Page 17: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Proteoma y Proteomica •  Proteoma: Es el set completo de proteínas y otros productos

génicos producidos por el genoma.

•  Proteómica: Es el estudio de las interacciones entre proteínas, incluyendo diferencias en los distintos estados del desarrollo, tejidos y órganos.

E. Fernando Salcedo, M.Sc

Page 18: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

E. Fernando Salcedo, M.Sc

Page 19: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

¿Para qué es necesaria la bioinformática? •  Para poder abordar el descubrimiento de nuevo conocimiento biológico. •  Lo cual facilita la integración de información y una mejor comprensión de

los sistemas biológicos. •  Establece puentes entre distintas áreas de conocimiento.

E. Fernando Salcedo, M.Sc

Page 20: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

3. “wet lab” y “dry lab” E. Fernando Salcedo, M.Sc

Page 21: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Campos de acción • Medicina • Descubrimiento de drogas • Medicina personalizada • Terapias genética / Prevención • Agricultura • Mejoramiento de Cultivos • Tratamiento plagas y enfermedades • Ecología y Medio Ambiente • Antropología • Investigación forense

E. Fernando Salcedo, M.Sc

Page 22: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Oportunidades en Colombia Específicamente se centran en desarrollar herramientas bioinformáticas para:

•  Fortalecer en el campo agrícola las áreas de estudios genómicos en cultivos de interés estratégico nacional.

• Mejorar en salud humana la capacidad de innovación en sistemas de diagnóstico, el desarrollo de procesos y productos conducentes a la obtención de vacunas para el tratamiento humano en enfermedades de alta incidencia en el país.

•  En los temas de agua y producción limpia, implementar procesos de tratamiento de residuos sólidos, líquidos industriales y domésticos y procesos de biorremediación para el tratamiento de desechos bióticos y xenobióticos.

E. Fernando Salcedo, M.Sc

Page 23: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Oportunidades en Colombia •En biodiversidad y bosques para fortalecer el conocimiento y la innovación sobre los componentes genéticos de la biodiversidad y aportar conocimiento de tipo genético a la conservación de las especies. •En el área de mercados verdes obtener mecanismos para agregar valor de tipo genético y mejorar los procesos de escalamiento y obtención de los mismos. •Fortalecer las técnicas aplicadas al mejoramiento animal que permitan conocer el potencial genético de las razas criollas. •Identificar y estudiar a nivel genético nuestra diversidad marina, así como para usar esta de manera sostenible.

E. Fernando Salcedo, M.Sc

Page 24: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Entorno típico de un proyecto Bioinformático

E. Fernando Salcedo, M.Sc

Page 25: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

“Pipelines” Bioinformáticos

•  “Copiar y pegar” desde una aplicación web a otra anotando manualmente. •  Ventajas : Rápido, fácil acceso a recursos distribuidos. •  Desventajas: Consumo de tiempo, tendencia al error, procedimientos tácitos

que hacen difícil compartir protocolos y resultados •  Conclusión: Sería mejor automatizar el proceso, es decir, un verdadero

Pipeline

E. Fernando Salcedo, M.Sc

Page 26: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

"High Throughput Analysis" (HTA) •  Plataforma de "High Throughput Analysis" (HTA). Es un

sistema, diseñado y creado para el análisis rápido y la caracterización masiva de colecciones de datos.

•  Estos van desde la secuenciación de genomas enteros,

transcriptomas y pequeños RNAs no codificantes a la descripción de las regiones metiladas, la identificación de una proteína, sitios de interacción de ADN y detección de la variación estructural.

• Next generation sequencing.

E. Fernando Salcedo, M.Sc

Page 27: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

4. Sistemas operativos

E. Fernando Salcedo, M.Sc

Page 28: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Windows, Linux y Mac OS X Windows Linux Mac OS X

-  S.O. más popular -  La mayoría de los programas

son compatibles con este S.O.

-  Utilizado principalmente en computadoras personales, existiendo también diferentes versiones para servidores y dispositivos móviles.

-  Tiene ciertas limitaciones por RAM.

-  No ofrece el bloqueo de intrusos.

-  Es costoso, debido a que es necesaria una frecuente atención y monitoreo contra ataques de virus, hackers y errores de código, así como también la instalación y actualización de parches y service packs.

-  Es uno de los paradigmas más prominentes del software libre y del desarrollo del código abierto, su código fuente está disponible públicamente y cualquier persona puede usarlo libremente, estudiarlo, redistribuirlo y modificarlo si tiene conocimientos informáticos.

-  Es un sistema que ha sido desarrollado por programadores de todo el mundo es por ello que es libre y gratuito.

-  Los Hackers y/o creadores de virus rara vez atacan a Software de Linux.

-  Es considerado por muchos expertos el sistema operativo más sencillo de utilizar, más innovador y de estética más cuidada.

-  Este sistema tiene su punto fuerte en la producción y edición de música, fotografías y videos.

-  Muy estable: Los usuarios de Mac presumen de tener un SO sin pantallas azules de error.

-  Blindado: Apple asegura que su sistema está prácticamente libre de la amenaza de los virus.

-  Atractivo: Mac ha destacado siempre por su aspecto gráfico.

E. Fernando Salcedo, M.Sc

Page 29: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

¿Miedo a Linux?

E. Fernando Salcedo, M.Sc

Page 30: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Un Linux amigable…

Lo que muchos imaginan…

La realidad…

E. Fernando Salcedo, M.Sc

Page 31: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

5. Tipos de archivos y archivos de secuencias •  Archivos binarios: •  Comprimidos o empaquetados: .zip, .Z, .gz, .tar •  Ejecutables o compilados: .exe, .com, .bat, .dll, .mdb •  Procesadores de palabras: .doc .txt

•  Archivos ascii: Los archivos ASCII son archivos básicos de texto, donde cada byte contiene un carácter ASCII. Los caracteres siguen el estándar fijado por el Código Estándar Estadounidense para el Intercambio de Información (ASCII).

•  Dentro de los archivos ASCII de uso común por los programas de bioinformática están los siguientes:

•  De secuencias: .seq •  De secuencias múltiples: .aln, .msf (Multiple Sequence Format,

secuencias alineadas), .rsf (Rich Sequence Format, estos archivos pueden incluir una o más secuencias relacionadas o no).

E. Fernando Salcedo, M.Sc

Page 32: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

E. Fernando Salcedo, M.Sc

Page 33: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

FastQ

E. Fernando Salcedo, M.Sc

Page 34: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Formatos de archivos de secuencias •  Todos estos archivos se caracterizan por tener ciertos formatos

distintivos, que hacen posible su reconocimiento por parte de los programas de manipulación y análisis de secuencias como el PHYLIP, el GCG; entre muchos otros.

•  Formato FASTA (*.fas): es uno de los formatos más empleados en la actualidad. Puede incluir una o más secuencias lineales de nucleótidos o aminoácidos no alineadas.

E. Fernando Salcedo, M.Sc

Page 35: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Formatos de archivos de secuencias •  Alineamiento (*.aln): es uno de los muchos formatos para archivos

de secuencias alineadas más utilizados por los programas de análisis de secuencias (MUSCLE o CLUSTAL).

•  Tanto nucleótidos como aminoácidos son representados por el código de una letra; los gaps son indicados con un guión "-" y al final de las secuencias alineadas, puede aparecer una especie de secuencia consenso con signo: "*"

E. Fernando Salcedo, M.Sc

Page 36: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Formatos de archivos de secuencias •  Formato PHYLIP (*.phy): es un formato de secuencias de

nucleótidos y de residuos de aminoácidos que se utiliza frecuentemente como formato de entrada de diferentes programas o paquetes de análisis tales como: PHYLIP (el cual le dio el nombre) y MEGA; entre otros.

Intercalado Secuencial

E. Fernando Salcedo, M.Sc

Page 37: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Formatos de archivos de secuencias •  GCG: Éstos pertenecen a la categoría Archivos de datos. El nombre

completo de este formato de archivo es GCG DNA Sequence File. Se pueden abrir con el programa MEGA.

E. Fernando Salcedo, M.Sc

Page 38: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Formatos de archivos de secuencias •  GenBank: este formato es el utilizado para los reportes de secuencias tanto de

nucleótidos como de aminoácidos (genPept) en el GenBank. Se caracteriza por proporcionar al usuario una información bastante completa sobre la secuencia.

E. Fernando Salcedo, M.Sc

Page 39: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

E. Fernando Salcedo, M.Sc

Page 40: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Formatos de archivos de secuencias •  EMBL: los archivos en este formato son reportes generados por la

base de datos de secuencias de nucleótidos y de proteínas respaldada por el EMBL (European Molecular Biology Laboratory).

E. Fernando Salcedo, M.Sc

Page 41: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

E. Fernando Salcedo, M.Sc

Page 42: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Formatos de archivos de secuencias •  Nexus: Es el formato de archivo utilizado por PAUP, PAML, entre otros

para análisis evolutivos y filogenético. Se caracteriza porque inicia con el Numeral seguido por la palabra NEXUS. En muchos casos es necesario editarlo “manualmente” según el tipo de análisis que se quiera usar.

E. Fernando Salcedo, M.Sc

Page 43: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Formatos de archivos de secuencias •  Formato MEGA (*meg):

E. Fernando Salcedo, M.Sc

Page 44: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Formatos de archivos de secuencias •  Protein Data Bank (PDB): es un repositorio de descripciones experimentales de

las estructuras moleculares de proteínas y ácidos nucleicos resueltos hasta el momento. Cada descripción es un archivo de texto que contiene las coordenadas atómicas de la molécula en cuestión en un formato que se llama PDB. Los datos son generalmente obtenidos mediante cristalografía de rayos X o resonancia magnética nuclear. Es de dominio público y puede ser usada libremente.

E. Fernando Salcedo, M.Sc

Page 45: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

6. Importancia de la bioinformática •  Esta disciplina está siendo aplicada en problemas que implican

evaluar y entender la dispersión y la variación de marcadores genéticos, modelaje molecular, genómica, proteómica, y minería de datos biológicos. Se ha aplicado en medicina forense, antropología, manejo y control de plagas, conservación, desarrollo de vacunas y drogas, mejoramiento genético de animales y plantas, entre otros.

E. Fernando Salcedo, M.Sc

Page 46: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Importancia de la bioinformática • Con las herramientas bioinformáticas podemos obtener

información de: -  Secuencias con palabras clave o información similar a la

secuencia problema. -  La obtención de secuencias de DNA o proteínas similares a la

secuencia problema. -  El alineamiento múltiple de la secuencia problema con otras

similares, y definición de regiones conservadas y variables. -  Ensamblaje de fragmentos de DNA y creación de mapas

genómicos. -  La reconstrucción de la filogenia a partir del alineamiento. -  Genómica comparativa: Estudio de la estructura y función

del genoma entre diferentes especies.

E. Fernando Salcedo, M.Sc

Page 47: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

II. BASES DE DATOS

1. Contenedores de información biológica: bases de datos. 2. Definición, organización y mantenimiento de las bases de datos. 3. Definición de bases de datos primarias. Visión histórica de la creación de las mismas. Funcionamiento de las Bases de datos: índices, campos, métodos de búsqueda. Bases de datos de proteínas. Bases de datos de ADN. Ejemplos de bases de datos primarias: Genbank, EMBL, Swiss-Prot, PDB. 4. Definición de bases de datos secundarias. Construcción de bases de secundarias. El problema de los falsos positivos/negativos. Modelos ocultos de Markov. Ejemplos de bases de Datos secundarias: Pfam, Gene-Ontology, UniProt, PRINTS, ProSIte.. Diseño y mantenimiento de bases de Datos secundarias.

E. Fernando Salcedo, M.Sc

Page 48: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

1. Contenedores de inf. biológica: bases de datos

• Base de Datos: Es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemáticamente para su posterior uso.

Modelos de bases de datos • Un modelo de datos es básicamente una “descripción” de

algo conocido como contenedor de datos, así como de los métodos para almacenar y recuperar información de esos contenedores

E. Fernando Salcedo, M.Sc

Page 49: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Modelos de bases de datos • Bases de datos jerárquicas: En este modelo los datos se

organizan en una forma similar a un árbol (visto al revés), en donde un nodo padre de información puede tener varios hijos. El nodo que no tiene padre es llamado raíz, y a los nodos que no tienen hijos se los conoce como hojas.

E. Fernando Salcedo, M.Sc

Page 50: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Modelos de bases de datos • Bases de datos relacionales: Éste es el modelo utilizado en la

actualidad para modelar problemas reales y administrar datos dinámicamente. El lenguaje más habitual para construir las consultas a bases de datos relacionales es SQL, Structured Query Language.

E. Fernando Salcedo, M.Sc

Page 51: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

¿Por qué las bases de datos?

• Crecimiento exponencial de los datos biológicos. • Datos (secuencias, estructuras 3D, análisis gel 2D, MS

análisis, etc) no son publicados en revistas, pero si en bases de datos.

•  Son usadas en investigación biológica, como lo eran la revistas científicas.

•  Los biólogos dependen de los computadores para almacenar, organizar, buscar, manipular, y recuperar los datos

• Base de todas las herramientas bioinformáticas.

E. Fernando Salcedo, M.Sc

Page 52: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Historia de las bases de datos biológicas

E. Fernando Salcedo, M.Sc

Page 53: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Bases de datos primarias y secundarias •  Bases de datos primarias o bancos de datos: almacenan los datos tal y

como han sido depositados por quienes los han generado, de manera que se pueden analizar repetidamente a medida que van surgiendo nuevas herramientas.

BD de Nucleótidos •  GenBank •  ENA (European Nucleotide Archive) •  DDBJ (DNA Data Bank of Japan) •  NDB (Nucleic acid database) (Estructura tridimensional de ácidos

nucleicos)

BD de proteínas •  SWISS-PROT •  Uniprot-KB •  PDB (Protein Data Bank) (Estructura tridimensional de proteínas)

E. Fernando Salcedo, M.Sc

Page 54: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

E. Fernando Salcedo, M.Sc

https://www.ncbi.nlm.nih.gov/genbank/

Page 55: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

E. Fernando Salcedo, M.Sc

http://www.ebi.ac.uk/ena/

Page 56: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

E. Fernando Salcedo, M.Sc

http://www.ddbj.nig.ac.jp

Page 57: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

E. Fernando Salcedo, M.Sc

http://ndbserver.rutgers.edu

Page 58: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

E. Fernando Salcedo, M.Sc

http://web.expasy.org/docs/swiss-prot_guideline.html

Page 59: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

E. Fernando Salcedo, M.Sc

http://www.rcsb.org/pdb/home/home.do

Page 60: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Bases de datos primarias y secundarias •  Bases de datos secundarias o derivadas: A partir del análisis de la

información depositada en las bases de datos primarias se pueden descubrir nuevas propiedades o establecer nuevas relaciones entre los datos. En muchos casos resulta interesante almacenar todo este "valor añadido" en una nueva base de datos para que otros investigadores puedan acceder directamente a esta información.

BD de proteínas

•  ProSIte •  PRINTS •  Pfam •  UniProt

Otras •  Gene-Ontology •  Refseq (Reference Sequence): BD de nucleótidos mantenida por el NCBI.

E. Fernando Salcedo, M.Sc

Page 61: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Bases de datos especializadas

• Bases de datos compuestas: surgen a partir de la fusión de otras ya existentes (primarias o secundarias). Su gran ventaja es que evitan tener que hacer varias búsquedas.

• Uniprot-KB: es la suma de tres bases de datos primarias de secuencias de proteínas: SWISS-PROT, TrEMBL y PIR

•  InterPro: es la suma de once bases de datos secundarias de secuencias de proteínas.

E. Fernando Salcedo, M.Sc

Page 62: Clase 04 CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA, TRANCRIPTÓMICA Y METAGENÓMICA

Bases de datos especializadas •  Bases de datos específicas: Aquéllas que sólo contienen información

relativa a un organismo concreto o a un tipo de molécula determinado.

•  ZFIN: (pez cebra) •  Flybase: (Drosophila melanogaster) •  Rebase: (información relac. con las enzimas de restricción) •  tRNAdb: (RNA de transferencia) •  Q-bank Bacteria database: contiene secuencias de ADN curadas

(Barcodes) de aproximadamente trescientas cepas bacterianas de relevancia en fitopatología bacteriana.

•  NCIMB Bacteria Database: (National Collections of Industrial, Marine and Food Bacteria).

•  SGD: (Levadura) •  TAIR: (Arabidopsis) •  ENSEML: (Hombre, ratón y otros). •  KEGG: Rutas metabólicas. •  OMIM: Enfermedades genéticas humanas.

E. Fernando Salcedo, M.Sc