herramientas en bioinformÁtica

55
PRINCIPALES HERRAMIENTAS UTILIZADAS EN BIOINFORMÁ TICA Centro de Estudios Genómicos del Perú CEGENP FELIZ to  ANIVERSARIO Uceda Campos Guillermo. [email protected]  

Upload: guillermo-uc

Post on 18-Oct-2015

51 views

Category:

Documents


1 download

TRANSCRIPT

  • PRINCIPALES HERRAMIENTAS UTILIZADAS EN BIOINFORMTICA

    Centro de Estudios Genmicos del Per CEGENP

    FELIZ 4to ANIVERSARIO

    Uceda Campos Guillermo. [email protected]

  • GENOMA HUMANO

    MANUAL DE LA VIDA

    4 LETRAS DEL ALFABETO

    Y SI IMPRIMIERAMOS EL GENOMA HUMANO?

    Y SI LO LEYERAMOS ?

    SECRETOS

  • Qu es la Bioinformtica?

    La Bioinformtica es un campo interdisciplinario que desarrolla y aplica tecnologas computacionales para estudiar preguntas de las ciencias de la vida.

    Prediccin observacin Antes 1953

    Ahora ATATTGCCGACC

    GGCGCCCGGTAC CTGGCCCATGTC 2012

  • Multidisciplinas

  • GRANDES REVOLUCIONES EN LA BIOLOGA

    REACCION EN CADENA DE LA POLIMERASA

    PROYECTO DE GENOMA HUMANO

    PROYECTO MICROBIOMA HUMANO

    PROYECTO DE LOS 1000 GENOMAS

    ERA POST-GENMICA OMICAS

    1986

    1990

    2007

    2008

  • LA CASCADA DE LAS MICAS

  • la bioinformtica es una poderosa herramienta para gestionar, consultar y analizar la gran cantidad de bases de datos en las ciencias de la vida.

    Como tecnologa

    Como metodologa

    la bioinformtica es un enfoque holstico, un cambio de paradigma en las ciencias de la vida, donde se aborda genomas completos para generar nuevas hiptesis.

    BIOINFORMTICA

  • Con un ser vivo (in vivo) En un entorno artificial (in vitro) En un entorno informtico (in silico)

    TIPOS DE EXPERIMENTACIN BIOLGICA

  • IMPACTO DE LA BIOINFORMTICA EN CIENCIAS

    Nec

    esid

    ades

    en

    Bio

    info

    rmt

    ica

    Se requiere personal con experiencia en Bioinformtica

    Demanda al 2010

    Oferta de especialistas

  • Acumulacin de informacin genmica en la base de datos Genbank

    Nmero de nucletidos en la base de datos de secuencias de EMBL

  • Superior: ENA (European Nucleotide Archive). Centro: DDBJ (DNA Data Bank of Japan). Inferior: GenBank del NCBI (National Center for Biotechnology Information).

    LOS TRES GRANDES BANCOS DE BASES DE DATOS BIOLGICOS.

  • En corto tiempo la Bioinformtica ha logrado imponerse como una gran herramienta, proponiendo nuevas interpretaciones y modificando el dogma de la biologa.

    La Minera de datos es referida a la informacin generada por el ADN, protenas, genomas, mutaciones y polimorfismos.

    La Bioinformtica almacena los datos de genes a travs de la minera de datos para luego observar lo que estos realizan

    MINERA DE DATOS

  • Centros de Bioinformtica en el Mundo Institutos de Bioinformtica en el Mundo

    Centros de Bioinformtica en America del Sur

    Colombia

    Chile

    Brazil

    Carreras profesionales en Bioinformtica INGENIERA EN BIOINFORMTICA (2004). Talca-Chile. LICENCIATURA EN BIOINFORMTICA (2009) Argentina.

    PER: Universidad Particular Cayetano Heredia Farvest CEGENP: Tesis pregrado Trabajos de invest. Cursos de capacit.

    Donde se realiza Bioinformtica?

  • LA TECNOLOGA BIOINFORMTICA INVOLUCRA ...

    Diseo, implementacin e integracin de bases de datos

    Alineacin de secuencias de ADN y protenas

    Prediccin de estructura y dinmica de macromolculas

    Relaciones filogenticas entre organismos

    Ensamblaje de fragmentos de ADN y creacin de mapas genmicos.

    Estudio de todos los genes y protenas de un organismo: Genmica y protemica funcional

  • Buscando informacin

  • NCBI

    Es una parte de la National Library of Medicine (NLM), as como un departamento de National Institutes of Health (NIH) del Gobierno de los Estados Unidos. En este portal la informacin biolgica est disponible al pblico y no se puede patentar esta informacin.

    http://www.ncbi.nlm.nih.gov/

  • NCBI-Facebook

  • PubMed

    Es el portal de acceso libre y gratuito que proporciona la NLM ( National Library of Medicine), desde el que se accede a las citas y resmenes de sitios que ofrecen artculos de libre acceso. Proporciona bsquedas de consultas clnicas, enlaces a artculos relacionados, direcciones de investigadores. PubMed Cental es la biblioteca digital con artculos de libre acceso del U.S. National Institutes of Health (NIH) que contiene literatura biomdica y de ciencias de la salud.

    http://www.ncbi.nlm.nih.gov/pubmed/

  • PubMed/My NCBI

    Desde la pantalla de PubMed, ver la opcin Sign in to NCBI en el recuadro. Haga clic en MY NCBI para inscribirse.

    Para inscribirse en My NCBI, haga clic en el hipervnculo Register for an account. Si ya est registrado, puede ir a Sign into My NCBI.

  • Buscando secuencias y genomas

  • GenBank is the NIH genetic sequence database, an annotated collection of all publicly available DNA sequences

    GenBank is part of the International Nucleotide Sequence Database Collaboration, which comprises the DNA DataBank of Japan (DDBJ), the European Molecular Biology Laboratory (EMBL), and GenBank at NCBI. These three organizations exchange data on a daily basis.

    The complete release notes for the current version of GenBank are available on the NCBI ftp site.

    GENBANK

  • http://www.ncbi.nlm.nih.gov/nuccore/

    NCBI-GENBANK

  • Analizando secuencias

  • El alineamiento de secuencias es una manera de comparar dos o ms secuencias de ADN, ARN o estructuras proteicas primarias con la finalidad de encontrar zonas de similitud y reconocer su variabilidad, las cuales permitirn una gamma de anlisis de las secuencias estudiadas.

    El termino similitud es referido al anlisis cuantitativo de la estructura primaria de secuencias de cidos nucleicos o protenas.

    El termino homologa es una medida cualitativa entre las secuencias, es observable cuando la similitud que estas tienen es atribuible a razones evolutivas.

  • BLAST (Basic Local Alignment Search Tool)

    BLAST es un algoritmo para comparacin de secuencias.

    Existen varias implementaciones de este algoritmo, una

    de las ms conocidas es la realizada por el NCBI, el NCBI-

    BLAST.

    BLAST busca alineamientos de secuencias de alto puntaje

    entre la secuencia problema y las secuencias consultadas.

    La velocidad y la relativamente buena precisin han

    permitido que probablemente sea la herramienta de

    bsqueda ms popular en bioinformtica.

  • Existen diversos tipos de Blast entre ellos tenemos:

    BlastN, el cual busca una secuencia ADN/ARN en la base de datos de nucletidos (ADN/ARN) BlastP, busca una protena en una base de datos de protenas. BlastX, busca nucletidos (ADN) en la base de datos de protenas. TBlastN, busca protenas en el secuencias de ADN.

    http://blast.ncbi.nlm.nih.gov/Blast.cgi

  • Es un servidor que permite hacer alineamientos de protenas y cidos nucleicos, bastante rpido, para calcular alineamientos mltiples.

    En combinacin con herramientas como BLAST, CLUSTAL es muy til para definir familias de protenas y de cidos nucleicos.

    Al igual que BLAST, tambin hay servidores online para la utilizacin de CLUSTALW, sin necesidad de instalar software, pero asimismo tiene ventajas instalarlo localmente, sobre todo para realizar trabajos de alineamiento mltiple a gran escala y tener todo el proceso bajo control.

    CLUSTALW

  • http://www.ebi.ac.uk/Tools/msa/clustalw2/

  • Eco: Escherichia coli, Sbo: Shigella boydii, Sfl: Shigella flexneri; Sdy: Shigella dysenteriea; Bhe: Bartonella henselae

  • http://www.mbio.ncsu.edu/bioedit/bioedit.html

    http://www.megasoftware.net/

  • ANALISIS DE LA SECUENCIA ADN16S DE ESPECIES DE BARTONELLA Y BRUCELLA UTILIZANDO EL SOFTWARE BIOEDIT

  • Construyendo arboles filogenticos

  • La importancia de los alineamientos mltiples radica en que son utilizados para construir rboles filogenticos los cuales representan de forma grfica las similitudes y diferencias entre determinadas secuencias, en microorganismos el gen ms estudiado para realizar filogenia es el ARNr 16S.

    Generalmente las secuencias de los genes y protenas son ms parecidas entre organismos ms cercanos evolutivamente.

    Los organismos que hace ms tiempo se han separado en la evolucin suelen tener ms diferencias en las secuencias de sus respectivos genes, y, por lo tanto, cuando se realiza un anlisis filogentico, aparecen ms alejados entre s.

  • http://evolution.genetics.washington.edu/phylip/software.html

  • Trabajando con estructuras proteicas

  • PDB (Protein Data Bank) es una web donde se almacenan los datos sobre la estructura 3D de macromolculas proteicas en una disolucin.

    La bsqueda en PDB se puede realizar mediante el nombre de la protena o por medio de un cdigo asignado a dicha estructura (ej.: 1REX corresponde a la Lisozima).

    La principal informacin que podemos encontrar en el PDB es: nombre y cdigo de la estructura proteica, descripcin breve indicando el organismo al que pertenece, tcnica experimental utilizada, publicacin, resolucin, nmero y tipos de tomos que contiene, contenido de solvente, simetra cristalogrfica, hlices-, hojas-, residuos que forman el sitio activo, dimensiones de la unidad celular cristalogrfica y coordenadas cartesianas.

    PDB

  • http://www.rcsb.org/pdb/home/home.do

  • Visualizacin estructura 3D. Las biomolculas como las protenas poseen tamaos y

    estructuras tridimensionales (3D) caractersticas que son resultado de su estructura primaria y sus grupos funcionales, el estudio de la estructura 3D de las biomolculas se realiza principalmente por medios fsicos como la Cristalizacin por difraccin de rayos X o Resonancia magntica nuclear (RMN), la cual muchas veces es complementaria a la cristalizacin de rayos X.

    Conocer la estructura 3D de una molcula es til porque nos permite inducir sobre los mecanismos de las reacciones en las que la molcula participa.

  • http://sourceforge.net/projects/pymol/

    PyMOL

    DeepView/Swiss-PdbViewer http://www.brothersoft.com/swiss-pdbviewer-442505.html

  • La prediccin de las estructuras 3D es posible mediante diversos servidores como:

    I-TASSER ONLINE. Protein Structures & Function Prediccions (http://zhanglab.ccmb.med.umich.edu/I-TASSER/) SWISS MODEL Workspace (http://swissmodel.expasy.org/)

    Estos servidores necesitan de la secuencia problema en

    formato FASTA que se quiere enviar a modelar y de una direccin electrnica para el envo de los resultados.

    La prediccin se realiza siguiendo un molde cuya identidad de secuencia es superior al 25%.

    Para la validacin de un modelo debe someterse a evaluacin la cual puede realizarse tambin desde servidores online.

  • Analizando el metabolismo

  • KEGG

    http://www.genome.jp/kegg/

  • BIOCYC

  • APLICACIN WEB ANLISIS Y HERRAMIENTAS DIRECCIN EN INTERNET

    NCBI Bsqueda de genes y protenas www.ncbi.nlm.nih.gov

    ERGO Genmica y protemica www.integratedgenomics.org

    COG Grupo de Genes Ortlogos www.ncbi.nlm.nih.gov/COG/index.html

    SOFTBERRY Alineamientos y predicciones www.softberry.com/berry.phtml

    KEGG Rutas Metablicas www.genome.ad.jp/kegg/kegg2.htm

    BLASTP Similitud www.ncbi.nlm.nih.gov/blastp

    CLUSTAW Alineamientos www.ebi.ac.uk/ClustalW/

    PROTPARAM Parmetros de protena www.expasy.ch/tools/protparam.html

    ORF FINDER Prediccin de ORFs www.ncbi.nlm.nih.gov/gorf

    PROSITE Sitios funcionales de Protenas www.expasy.ch/prosite

    INTERPRO Anlisis de protenas http://www.ebi.ac.uk/Tools/InterProScan/

    PFAM Familias de Protenas www.sanger.ac.uk/cgi-bin/pfam

  • Aplicacin web Anlisis y herramientas Direccin en internet

    FOOTPRINTER Motivos conservados en

    DNA

    http://wingless.cs.washington.edu/htbin-

    post/unrestricted/FootPrinterWeb/FootPrinterInput2.pl

    CONSENSO Motivos consensos de DNA www.bork.embl-heidelberg.de /Alignement/consensus.html

    LOGO CONSENSO Motivos consensos de DNA http://weblogo.berkeley.edu/logo.cgi

    FGENESB Prediccin de operones www.softberry.com/berry.phtml?topic=fgenesb&group=progr

    ams&subgroup=gfindb

    PROMOTOR

    PREDICTION Prediccin del promotor www.fruitfly.org/seq_tools/promoter.html

    BPROM Prediccin del promotor www.softberry.com/berry.phtml?topic=bprom&group=progra

    ms&subgroup=gfindb

    CLC-RNA Workbench Prediccin del terminador www.clcrnaworkbench.com

    MFOLD Estructura 2ria RNA http://bioweb.pasteur.fr/seqanal/interfaces/mfold-simple.html

    PAIRWISE Alinear dos secuencias www.ebi.ac.uk/emboss/align/

    BLAST 2SEQ Alinear dos secuencias www.ncbi.nlm.nih.gov/blast/bl2seq/wblast2.cgi

    MICROBES ONLINE Contexto gentico http://www.microbesonline.org/

  • AGRADECIMIENTOS

    INTEGRANTES DE CENTRO DE ESTUDIOS GENMICOS DEL PER-CEGENP.

    DR. PEDRO CHIMOY EFFIO. MSC. CONSUELO ROJAS IDROGO FACULTAD DE CIENCIAS BIOLGICAS

  • Preguntas?