clase 04 ciencias Ómicas: bioinformÁtica, genÓmica, proteÓmica, trancriptÓmica y metagenÓmica

Edgar Fernando Salcedo, M.Sc

CIENCIAS ÓMICAS: BIOINFORMÁTICA, GENÓMICA, PROTEÓMICA,

TRANCRIPTÓMICA Y METAGENÓMICA

Fernando Salcedo Biólogo, M.Sc.

e-mail: [email protected]

I. INTRODUCCIÓN A LA BIOINFORMÁTICA

1. Historia de la Bioinformática 2. Definiciones de Bioinformática y Biología Computacional 3. Conocer los conceptos ‘wet lab ’ y ‘dry lab ’: la generación de nuevas hipótesis basadas high-throughput analysis . 4. Conocer la existencia de diferentes sistemas operativos (UNIX/Linux, Mac OS X, Microsoft Windows). 5. Conocer los diferentes formatos de archivos utilizados en Bioinformática y Biología Computacional (.txt, .doc, .xls, .cvs, .xml, pdb, FASTA, GCG, etc), así como los modos/aplicaciones para la interconversión de formatos. 6. Aplicaciones de la bioinformática en la biología molecular y la biotecnología.

E. Fernando Salcedo, M.Sc

1. Historia de la Bioinformática •  La bioinformática es la disciplina que utiliza una combinación de las tecnologías de

la computación, las ciencias de la información y el conocimiento biológico, para coleccionar, almacenar, relacionar, modelar e interpretar datos biológicos.

Historia de la informática

Historia de la biología molecular


Bioinformática


2. ¿Bioinformática o Biología Computacional? • Bioinformática: Investigación, desarrollo o aplicación de

herramientas y enfoques computacionales, para expandir el uso de datos biológicos, médicos o de salud; incluyendo la adquisición, almacenamiento, organización, archivo, análisis o visualización de los datos.

• Biología Computacional: El desarrollo y aplicación de métodos de análisis de datos y métodos teóricos, modelación matemática y técnicas de simulación computacional, para el estudio de sistemas biológicos, conductuales y sociales.


¿Expectativas de la asignatura? E. Fernando Salcedo, M.Sc

¿Qué NO es Bioinformática? •  Algoritmos Genéticos: Son llamados así porque se inspiran en la evolución

biológica y su base genético-molecular. Estos algoritmos hacen evolucionar una población de individuos sometiéndola a acciones aleatorias semejantes a las que actúan en la evolución biológica (mutaciones y recombinaciones genéticas), así como también a una selección de acuerdo con algún criterio, en función del cual se decide cuáles son los individuos más adaptados, que sobreviven, y cuáles los menos aptos, que son descartados.

•  Redes Neuronales: La clase de problemas que mejor se resuelven con las redes neuronales son los mismos que el ser humano resuelve mejor: Asociación, evaluación, y reconocimiento de patrones. Las redes neuronales son perfectas para problemas que son muy difíciles de calcular pero que no requieren de respuestas perfectas, sólo respuestas rápidas y buenas. Tal y como acontece con el escenario bursátil en el que se quiere saber ¿compro?, ¿vendo?, ¿mantengo?, o en el reconocimiento cuando se desea saber ¿se parece? ¿es el mismo pero tienen una ligera modificación?

•  Un Algoritmo es una serie de pasos organizados que describe el proceso que se debe seguir, para dar solución a un problema específico.


¿Quién es un Bioinformático? • Utiliza y desarrolla herramientas de software bioinformáticas para analizar los datos de secuencias y estructuras moleculares y así responder preguntas de tipo biológico y/o encontrar nuevo conocimiento.


Competencias de los Bioinformáticos • Conocimientos en biología molecular. • Entendimiento perfecto del dogma central. • Experiencia en paquetes más conocidos de biología molecular.

• Conocimientos de ambientes Linux. • Experiencia en programación con C++, Perl, Phyton, Bash, Ruby, etc.


Capacidad de cómputo E. Fernando Salcedo, M.Sc

Primera generación Segunda generación

Tercera generación Cuarta generación

Súper cómputo Súper Computador Cluster de Computadores

http://linuxitomex.files.wordpress.com/2009/09/botnet.jpg

http://upload.wikimedia.org/wikipedia/commons/3/3d/Us-nasa-columbia.jpg

http://upload.wikimedia.org/wikipedia/commons/1/18/CRAY_T3D_d.jpg


Descifrando el código

http://www.dw.de/image/0,,16879454_303,00.jpg http://img.irtve.es/v/2418968/

http://gdb.martinoticias.org/0DDCBE54-D9C2-47B3-9339-0F5853533A02_mw1024_n_s.jpg


Bioinformática: Omas y Omicas


Transcriptomica •  Desde la caracterización del

genoma humano, han surgido nuevas vías de investigación sobre el análisis global del material genético.

•  Es evidente que NO todo el genoma es transcrito y traducido finalmente a proteínas

•  Transcriptoma surge para representar todo el mRNA transcrito bajo unas circunstancias, de forma global.

•  Cada organismo tiene infinidad de transcriptomas dependiendo del tipo tisular o las condiciones ambientales que se estudien.


Transcriptoma


Proteoma y Proteomica •  Proteoma: Es el set completo de proteínas y otros productos

génicos producidos por el genoma.

•  Proteómica: Es el estudio de las interacciones entre proteínas, incluyendo diferencias en los distintos estados del desarrollo, tejidos y órganos.


¿Para qué es necesaria la bioinformática? •  Para poder abordar el descubrimiento de nuevo conocimiento biológico. •  Lo cual facilita la integración de información y una mejor comprensión de

los sistemas biológicos. •  Establece puentes entre distintas áreas de conocimiento.


3. “wet lab” y “dry lab” E. Fernando Salcedo, M.Sc

Campos de acción • Medicina • Descubrimiento de drogas • Medicina personalizada • Terapias genética / Prevención • Agricultura • Mejoramiento de Cultivos • Tratamiento plagas y enfermedades • Ecología y Medio Ambiente • Antropología • Investigación forense


Oportunidades en Colombia Específicamente se centran en desarrollar herramientas bioinformáticas para:

•  Fortalecer en el campo agrícola las áreas de estudios genómicos en cultivos de interés estratégico nacional.

• Mejorar en salud humana la capacidad de innovación en sistemas de diagnóstico, el desarrollo de procesos y productos conducentes a la obtención de vacunas para el tratamiento humano en enfermedades de alta incidencia en el país.

•  En los temas de agua y producción limpia, implementar procesos de tratamiento de residuos sólidos, líquidos industriales y domésticos y procesos de biorremediación para el tratamiento de desechos bióticos y xenobióticos.


Oportunidades en Colombia •En biodiversidad y bosques para fortalecer el conocimiento y la innovación sobre los componentes genéticos de la biodiversidad y aportar conocimiento de tipo genético a la conservación de las especies. •En el área de mercados verdes obtener mecanismos para agregar valor de tipo genético y mejorar los procesos de escalamiento y obtención de los mismos. •Fortalecer las técnicas aplicadas al mejoramiento animal que permitan conocer el potencial genético de las razas criollas. •Identificar y estudiar a nivel genético nuestra diversidad marina, así como para usar esta de manera sostenible.


Entorno típico de un proyecto Bioinformático


“Pipelines” Bioinformáticos

•  “Copiar y pegar” desde una aplicación web a otra anotando manualmente. •  Ventajas : Rápido, fácil acceso a recursos distribuidos. •  Desventajas: Consumo de tiempo, tendencia al error, procedimientos tácitos

que hacen difícil compartir protocolos y resultados •  Conclusión: Sería mejor automatizar el proceso, es decir, un verdadero

Pipeline


"High Throughput Analysis" (HTA) •  Plataforma de "High Throughput Analysis" (HTA). Es un

sistema, diseñado y creado para el análisis rápido y la caracterización masiva de colecciones de datos.

•  Estos van desde la secuenciación de genomas enteros,

transcriptomas y pequeños RNAs no codificantes a la descripción de las regiones metiladas, la identificación de una proteína, sitios de interacción de ADN y detección de la variación estructural.

• Next generation sequencing.


4. Sistemas operativos


Windows, Linux y Mac OS X Windows Linux Mac OS X

-  S.O. más popular -  La mayoría de los programas

son compatibles con este S.O.

-  Utilizado principalmente en computadoras personales, existiendo también diferentes versiones para servidores y dispositivos móviles.

-  Tiene ciertas limitaciones por RAM.

-  No ofrece el bloqueo de intrusos.

-  Es costoso, debido a que es necesaria una frecuente atención y monitoreo contra ataques de virus, hackers y errores de código, así como también la instalación y actualización de parches y service packs.

-  Es uno de los paradigmas más prominentes del software libre y del desarrollo del código abierto, su código fuente está disponible públicamente y cualquier persona puede usarlo libremente, estudiarlo, redistribuirlo y modificarlo si tiene conocimientos informáticos.

-  Es un sistema que ha sido desarrollado por programadores de todo el mundo es por ello que es libre y gratuito.

-  Los Hackers y/o creadores de virus rara vez atacan a Software de Linux.

-  Es considerado por muchos expertos el sistema operativo más sencillo de utilizar, más innovador y de estética más cuidada.

-  Este sistema tiene su punto fuerte en la producción y edición de música, fotografías y videos.

-  Muy estable: Los usuarios de Mac presumen de tener un SO sin pantallas azules de error.

-  Blindado: Apple asegura que su sistema está prácticamente libre de la amenaza de los virus.

-  Atractivo: Mac ha destacado siempre por su aspecto gráfico.


¿Miedo a Linux?


Un Linux amigable…

Lo que muchos imaginan…

La realidad…


5. Tipos de archivos y archivos de secuencias •  Archivos binarios: •  Comprimidos o empaquetados: .zip, .Z, .gz, .tar •  Ejecutables o compilados: .exe, .com, .bat, .dll, .mdb •  Procesadores de palabras: .doc .txt

•  Archivos ascii: Los archivos ASCII son archivos básicos de texto, donde cada byte contiene un carácter ASCII. Los caracteres siguen el estándar fijado por el Código Estándar Estadounidense para el Intercambio de Información (ASCII).

•  Dentro de los archivos ASCII de uso común por los programas de bioinformática están los siguientes:

•  De secuencias: .seq •  De secuencias múltiples: .aln, .msf (Multiple Sequence Format,

secuencias alineadas), .rsf (Rich Sequence Format, estos archivos pueden incluir una o más secuencias relacionadas o no).


FastQ


Formatos de archivos de secuencias •  Todos estos archivos se caracterizan por tener ciertos formatos

distintivos, que hacen posible su reconocimiento por parte de los programas de manipulación y análisis de secuencias como el PHYLIP, el GCG; entre muchos otros.

•  Formato FASTA (*.fas): es uno de los formatos más empleados en la actualidad. Puede incluir una o más secuencias lineales de nucleótidos o aminoácidos no alineadas.


Formatos de archivos de secuencias •  Alineamiento (*.aln): es uno de los muchos formatos para archivos

de secuencias alineadas más utilizados por los programas de análisis de secuencias (MUSCLE o CLUSTAL).

•  Tanto nucleótidos como aminoácidos son representados por el código de una letra; los gaps son indicados con un guión "-" y al final de las secuencias alineadas, puede aparecer una especie de secuencia consenso con signo: "*"


Formatos de archivos de secuencias •  Formato PHYLIP (*.phy): es un formato de secuencias de

nucleótidos y de residuos de aminoácidos que se utiliza frecuentemente como formato de entrada de diferentes programas o paquetes de análisis tales como: PHYLIP (el cual le dio el nombre) y MEGA; entre otros.

Intercalado Secuencial


Formatos de archivos de secuencias •  GCG: Éstos pertenecen a la categoría Archivos de datos. El nombre

completo de este formato de archivo es GCG DNA Sequence File. Se pueden abrir con el programa MEGA.


Formatos de archivos de secuencias •  GenBank: este formato es el utilizado para los reportes de secuencias tanto de

nucleótidos como de aminoácidos (genPept) en el GenBank. Se caracteriza por proporcionar al usuario una información bastante completa sobre la secuencia.


Formatos de archivos de secuencias •  EMBL: los archivos en este formato son reportes generados por la

base de datos de secuencias de nucleótidos y de proteínas respaldada por el EMBL (European Molecular Biology Laboratory).


Formatos de archivos de secuencias •  Nexus: Es el formato de archivo utilizado por PAUP, PAML, entre otros

para análisis evolutivos y filogenético. Se caracteriza porque inicia con el Numeral seguido por la palabra NEXUS. En muchos casos es necesario editarlo “manualmente” según el tipo de análisis que se quiera usar.


Formatos de archivos de secuencias •  Formato MEGA (*meg):


Formatos de archivos de secuencias •  Protein Data Bank (PDB): es un repositorio de descripciones experimentales de

las estructuras moleculares de proteínas y ácidos nucleicos resueltos hasta el momento. Cada descripción es un archivo de texto que contiene las coordenadas atómicas de la molécula en cuestión en un formato que se llama PDB. Los datos son generalmente obtenidos mediante cristalografía de rayos X o resonancia magnética nuclear. Es de dominio público y puede ser usada libremente.


6. Importancia de la bioinformática •  Esta disciplina está siendo aplicada en problemas que implican

evaluar y entender la dispersión y la variación de marcadores genéticos, modelaje molecular, genómica, proteómica, y minería de datos biológicos. Se ha aplicado en medicina forense, antropología, manejo y control de plagas, conservación, desarrollo de vacunas y drogas, mejoramiento genético de animales y plantas, entre otros.


Importancia de la bioinformática • Con las herramientas bioinformáticas podemos obtener

información de: -  Secuencias con palabras clave o información similar a la

secuencia problema. -  La obtención de secuencias de DNA o proteínas similares a la

secuencia problema. -  El alineamiento múltiple de la secuencia problema con otras

similares, y definición de regiones conservadas y variables. -  Ensamblaje de fragmentos de DNA y creación de mapas

genómicos. -  La reconstrucción de la filogenia a partir del alineamiento. -  Genómica comparativa: Estudio de la estructura y función

del genoma entre diferentes especies.


II. BASES DE DATOS

1. Contenedores de información biológica: bases de datos. 2. Definición, organización y mantenimiento de las bases de datos. 3. Definición de bases de datos primarias. Visión histórica de la creación de las mismas. Funcionamiento de las Bases de datos: índices, campos, métodos de búsqueda. Bases de datos de proteínas. Bases de datos de ADN. Ejemplos de bases de datos primarias: Genbank, EMBL, Swiss-Prot, PDB. 4. Definición de bases de datos secundarias. Construcción de bases de secundarias. El problema de los falsos positivos/negativos. Modelos ocultos de Markov. Ejemplos de bases de Datos secundarias: Pfam, Gene-Ontology, UniProt, PRINTS, ProSIte.. Diseño y mantenimiento de bases de Datos secundarias.


1. Contenedores de inf. biológica: bases de datos

• Base de Datos: Es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemáticamente para su posterior uso.

Modelos de bases de datos • Un modelo de datos es básicamente una “descripción” de

algo conocido como contenedor de datos, así como de los métodos para almacenar y recuperar información de esos contenedores


Modelos de bases de datos • Bases de datos jerárquicas: En este modelo los datos se

organizan en una forma similar a un árbol (visto al revés), en donde un nodo padre de información puede tener varios hijos. El nodo que no tiene padre es llamado raíz, y a los nodos que no tienen hijos se los conoce como hojas.


Modelos de bases de datos • Bases de datos relacionales: Éste es el modelo utilizado en la

actualidad para modelar problemas reales y administrar datos dinámicamente. El lenguaje más habitual para construir las consultas a bases de datos relacionales es SQL, Structured Query Language.


¿Por qué las bases de datos?

• Crecimiento exponencial de los datos biológicos. • Datos (secuencias, estructuras 3D, análisis gel 2D, MS

análisis, etc) no son publicados en revistas, pero si en bases de datos.

•  Son usadas en investigación biológica, como lo eran la revistas científicas.

•  Los biólogos dependen de los computadores para almacenar, organizar, buscar, manipular, y recuperar los datos

• Base de todas las herramientas bioinformáticas.


Historia de las bases de datos biológicas


Bases de datos primarias y secundarias •  Bases de datos primarias o bancos de datos: almacenan los datos tal y

como han sido depositados por quienes los han generado, de manera que se pueden analizar repetidamente a medida que van surgiendo nuevas herramientas.

BD de Nucleótidos •  GenBank •  ENA (European Nucleotide Archive) •  DDBJ (DNA Data Bank of Japan) •  NDB (Nucleic acid database) (Estructura tridimensional de ácidos

nucleicos)

BD de proteínas •  SWISS-PROT •  Uniprot-KB •  PDB (Protein Data Bank) (Estructura tridimensional de proteínas)



https://www.ncbi.nlm.nih.gov/genbank/


http://www.ebi.ac.uk/ena/


http://www.ddbj.nig.ac.jp


http://ndbserver.rutgers.edu


http://web.expasy.org/docs/swiss-prot_guideline.html


http://www.rcsb.org/pdb/home/home.do

Bases de datos primarias y secundarias •  Bases de datos secundarias o derivadas: A partir del análisis de la

información depositada en las bases de datos primarias se pueden descubrir nuevas propiedades o establecer nuevas relaciones entre los datos. En muchos casos resulta interesante almacenar todo este "valor añadido" en una nueva base de datos para que otros investigadores puedan acceder directamente a esta información.

BD de proteínas

•  ProSIte •  PRINTS •  Pfam •  UniProt

Otras •  Gene-Ontology •  Refseq (Reference Sequence): BD de nucleótidos mantenida por el NCBI.


Bases de datos especializadas

• Bases de datos compuestas: surgen a partir de la fusión de otras ya existentes (primarias o secundarias). Su gran ventaja es que evitan tener que hacer varias búsquedas.

• Uniprot-KB: es la suma de tres bases de datos primarias de secuencias de proteínas: SWISS-PROT, TrEMBL y PIR

•  InterPro: es la suma de once bases de datos secundarias de secuencias de proteínas.


Bases de datos especializadas •  Bases de datos específicas: Aquéllas que sólo contienen información

relativa a un organismo concreto o a un tipo de molécula determinado.

•  ZFIN: (pez cebra) •  Flybase: (Drosophila melanogaster) •  Rebase: (información relac. con las enzimas de restricción) •  tRNAdb: (RNA de transferencia) •  Q-bank Bacteria database: contiene secuencias de ADN curadas

(Barcodes) de aproximadamente trescientas cepas bacterianas de relevancia en fitopatología bacteriana.

•  NCIMB Bacteria Database: (National Collections of Industrial, Marine and Food Bacteria).

•  SGD: (Levadura) •  TAIR: (Arabidopsis) •  ENSEML: (Hombre, ratón y otros). •  KEGG: Rutas metabólicas. •  OMIM: Enfermedades genéticas humanas.


clase 04 ciencias Ómicas: bioinformÁtica, genÓmica, proteÓmica, trancriptÓmica y metagenÓmica

Science