des génomes aux stèsystèmes - rssf.i2bc.paris-saclay.fr
TRANSCRIPT
D GéDes Génomes aux S tèSystèmes
M1 BIBS
http://rna.igmors.u‐psud.fr/gautheret/cours/
1
V. 2010.3
Logique de l’UELogique de l UE
• Génome
• Transcriptome• Transcriptome
• Protéome
• Interactome
• Modélisation Biologie des Systèmes
2
Contenu Général de l’UEContenu Général de l UE
• Daniel Gautheret 3 seances : Vocabulaire du genome ‐ Les genomes modeles et pourquoi les sequencer ‐ Genomes Procaryotes vs Ecuaryotes ‐Methodes de p q q y ysequencage ‐Méthodes d'etude du transcriptome (sauf les puces) +1 Analyse d'article
• Nancie Reymond 3 séances en salle machine : la technologie des puces pour l'etude du transcriptome Exemple d'analyse Analyse differentielle et classification des resultats
• Olivier Lespinet 2 seances : Methodes d'etude du protéome Genome, Proteome et construction des reseaux d'interactions Construction et comparaison de cartes metaboliques
Al i D i 2 I t d ti h ( h i i ti it l t i• Alain Denise 2 seances : Introduction aux graphes (chemins, associativite, clustering, isomorphisme, distance entre graphes, et detection de motifs).
• "Olivier Martin 1 seance : sur‐representation des sous‐graphes dans les réseaux (calculs de p‐values par permutations/shuffling) "de p values par permutations/shuffling).
• Patrick Amar 3 seances : Les differents types de modeles (booleens, equations differentielles, etc). Quelques aspects de regulation (positive, negative et consequences pour les cycles) Illustrations sur de petits circuits. Reseaux de Petri et application au p y p ppmetabolisme.
• Olivier Martin 1 seance : Techniques de Monte Carlo pour : ‐ l'obtention des graphes de proprietes donnees ‐ l'evolution in silico des reseaux vers des reseaux fonctionnels
d i l i d b d' d l d' i li d' d d'Introduction a la notion de robustesse d'un modele, d'essentialite d'un noeud ou d'une arete.
3
Plan GautheretPlan Gautheret
1. Les génomes modèles2. Les programmes Génome
Cartographie séquençage tags– Cartographie, séquençage, tags
3. Structure et dynamique des génomes4 Les bases de données génomiques4. Les bases de données génomiques
4http://rna.igmors.u‐psud.fr/gautheret/cours/
1: Les génomes‐modèles
5
Pourquoi perdre son temps d d hil ?avec des drosophiles?
"And sometimes these dollars go to projects that have littlego to projects that have little or nothing to do with the public good, things like … fruit fly research in Paris, France.“y
Sarah Palin, 2008
5:6
D’abord, pourquoi des génomes modèles?D abord, pourquoi des génomes modèles?
Vecteur d’expression levure
cDNA humaincDNA humain homologue gène X
+
Levure mutante, déficiente pour gène X
Levure de phénotype sauvage
• Des dizaines de gènes humains sont capables de complémenter des mutations de levure
• => Les fonctions humaines se retrouvent dans des organismes plus simples, plus faciles à reproduire et à observer
M i bi û t t l f ti t t d t t l
5:7
• Mais bien sûr, toutes les fonctions ne se trouvent pas dans toutes les espèces!
Exemple d’intérêt de la « mouche à fruits » Banfi et al. Nature Genetics, 1996
Milliers de transcrits
Gènes causant des ttgtagctactgatcgatcgtagctagc
humains
phénotypes mutants gggcatgcat
acatgcatgctagctgactagctagctagtcgatgc
Recherche de similitudes
gcgatgctagctagtcgatcggactgatcgatcgcagatcg
gcatgctagctagtcgatgctagctgat
66 gènes candidats pour des maladies génétiques ou des
cgtagtg q
fonctions essentielles chez l’homme
• Toutes les connaissances structurales et fonctionnelles acquises chez la drosophile sur ces gènes deviennent applicables.
5:8
Différentes raisons de choisir un modèleDifférentes raisons de choisir un modèle
• Facilité expérimentale• Facilité expérimentale– Grosses cellules, corps transparent, temps de génération court,
taux de reproduction élevép
• Représentant d’une fonction– Différenciation cellulaire, Système immunitaire, Photosynthèse,
symétrie bilatérale…
• Génome dense
• Données accumulées– Mutants, génétique, biochimie…
9
Rappel de phylogénieRappel de phylogénie
WikipediaWikipedia
LUCA
10
Escherichia coliEscherichia coli
• Phylum
– Bactéries gram ‐, protéobactéries
• Modèle pour:
b l– La microbiologie
– Réseaux d’interaction dans la cellule
– Voies métaboliquesVoies métaboliques
– Bactéries pathogènes (certaines souches)
Wikipedia
– Formation de biofilms
• Avantages:
Culture aisée– Culture aisée
– Grande connaissance de la biologie de l’espèce
4.5 Mb
4200 gènes
11
4200 gènes
Bacillus subtilisBacillus subtilis
• Phylum
– Bactéries gram +
• Modèle pour:• Modèle pour:
– Sporulation (différenciation cellulaire élémentaire)
– Flagelles
A t
Wikipedia
• Avantages:
– Grande connaissance de la biologie de l’espèceg p
4.2 Mb
4100 gènes
12
4100 gènes
Sulfolobus acidocaldariusSulfolobus acidocaldarius
• Phylum
– Archaes, Chrenarchaeotes
• Modèle pour:• Modèle pour:
– Biologie des Archées
– Réplication de l’ADN p
• Avantages:Wikipedia
– Systèmes moléculaires proches des eucaryotes mais plus simples
p
p
2.2 Mb
2300 gènes
13
2300 gènes
Saccharomyces cerevisiaeSaccharomyces cerevisiae
• Phylum• Phylum
– Eucaryotes, Fungi, Ascomycetes
• Modèle pourp– Les eucaryotes
– Le cycle cellulaire
Différentiation sexuelle primitive– Différentiation sexuelle primitive
– Fermentation
• Avantages– Temps de génération court
– Transformation facile pour introduire de nouveaux gènes
Wikipedia
nouveaux gènes
– Culture haploide possible: KO13 Mb
6000 gènes
14
6000 gènes
Schizosaccharomyces pombeSchizosaccharomyces pombe
• Phylum
– Eucaryotes, Fungi, Ascomycetes
• Modèle pour
– Génétique, biologie cellulaire et moléculaire
Le cycle cellulaire la chromatine– Le cycle cellulaire, la chromatine
– Certaines maladies humaines
• Avantages 14 Mb
4800 gènes– Phase haploide dominante
15
4800 gènes
Dictyostelium discoidumDictyostelium discoidum
• Phylum• Phylum– Eucaryote/amoebozoa (amibes à
pseudopodes)p p )
• Modèle pour– Différenciation cellulaire (stades
uni‐ et pluricellulaire)
– Chimiotaxie
ApoptoseWikipedia
– Apoptose
• Avantages– Culture facile
34 Mb
Culture facile
16
12500 gènes
Tetrahymena thermophylaTetrahymena thermophyla
Ph l• Phylum– Cilié (protozoaire)
• Modèle pour• Modèle pour– Compartiments cellulaires,
microtubules
– Activités enzymatiques
– Recherche biomédicale
• Avantages– Culture facile en grande quantité
Wikipedia
104 Mb (MAC génome)
17
27000 gènes
Chlamydomonas reinhardtiiChlamydomonas reinhardtii
• Phylum :• Phylum :– Algue verte (chlorophyte) unicellulaire
• Modèle pour– Eucaryotes photosynthétiques, plantes
– Mouvement, réponse à la lumière
– Biologie cellulaire et moléculaire– Biologie cellulaire et moléculaire
• Avantages– Nombreux mutants connus
– Nombreux outils biologiques disponiblesWikipedia
14 Mb
4800 gènes
18
4800 gènes
Arabidopsis thalianaArabidopsis thaliana
Ph l• Phylum– Plantes, Angiosperme, dicotyledone
• Modèle pourp– Biologie végétale, agronomie
• Avantagesll d l l– Petite taille de la plante
– Petit génome pour une plante
– Cycle de développement court (2 mois)
– 40000 graine/planWikipediap
157 Mb
19
26000 gènes
Les métazoaires (animaux pluricellulaires)Les métazoaires (animaux pluricellulaires)
Source: http://tolweb.org
Pluricellularité hétérotrophe, différentiation, formation des tissus animaux
20
Les bilatériensLes bilatériens
Signalisation type
Symétrie bilatérale, gènes Hox,
« humain »
Dehal et al. Science, 298:20025: 21Ernst Haeckel
céphalisation, tube digestif…
Coenorhabditis elegansCoenorhabditis elegans
• Phylum
– Metazoaire, Nématode
• Modèle pour:
– Développement/différenciation
– RNA interférence
0,1mmSource: www.wormatlas.org
RNA interférence
• Avantages:– Pharynx, uterus, oocytes, oviducte, intestin, ovaire et
même un comportement social en 959 cellules.même un comportement social en 959 cellules.
– Descendance: environ 300
– Génome disponible depuis 1999: le premier génome animal complet. p
– Pour chaque gène humain d'intérêt, l'homologue dans C. elegans peut être identifié en quelques minutes. Trouver sa fonction dans le ver est ensuite relativement facile par
100 Mb
14000 gènesK.O. (Knock Out).
22
14000 gènes
Drosophila melanogasterDrosophila melanogaster
• Phylum• Phylum:– Metazoaire, Insecte
• Modèle pour• Modèle pour– Génétique
– Développementpp
– Biochimie
– Biologie cellulaire Wikipedia
• Avantages– Facilité d’élevage
é é i bi– Génétique bien connue
170 Mb
12000 gènes
23
12000 gènes
Ciona intestinalisCiona intestinalis
Ph l• Phylum– Urochordés (chordés primitifs), Tuniciers
• Modèle pourp– Gènes Hox, développement
– Contient la plupart des gènes de signalisation et de développement designalisation et de développement de l’homme
– Origine des chordés/vertébrésWikipedia
• Avantages– Le plus petit génome parmi les chordés
pouvant être manipulés
p
expérimentalement
– Le système experimental le plus simple chez les chordés 160 Mb
24
16000 gènes
Nous sommes des poissons!Nous sommes des poissons!
Les poissons ne forment pas un groupe monophylétique.
Ostéichthyes (un poisson osseux) Poissons cartilagineux
Sarcopterygiens Actinoptérygiens
coelacanthedipneusteTeleostéens
tétrapodes
reptilesmammifères
Majorité des poissons
5: 25
Danio rerioDanio rerio
Ph l• Phylum– Métazoaire, Vertébré,
TéléostéensTéléostéens
• Modèle pour– Evolution des vertébrés Ensembl
– Développement
– Génétique
– Régénération des organes
• AvantagesDé l id d– Développement rapide de l’embryon
– Embryons grands, transparents, 1,5 Gby g presistants
26
47000 gènes
XenopusXenopus
Ph l• Phylum– Métazoaire, Vertébré, Amphibien
• Modèle pour• Modèle pour– Développement des vertébrés
– Processus cellulaires chez les vertébrésProcessus cellulaires chez les vertébrés
• Avantages– Grands oocytes (1mm): facilité
X. laevis, X. tropicalis, Photo of Enrique Amaya
y ( )d’expression d’ARN exogène + suivi embryon, ou utilisation d’extraits cytoplasmiquescytoplasmiques
– Pb avec X. laevis: génome tetraploïde ‐> utilisation de X. tropicalis (diploïde) 1.5 Gb
27
18 000 gènes
Mus musculusMus musculus
• PhylumPhylum– Métazoaire, Mammifère
• Modèle pourp– Maladies humaines, cancers
– Essais pharmaceutiques
• Avantages– Reproduction relativement rapide
Wikipedia
– KO/clones
3 Gb
22000 gènes
28
22000 gènes
Les génomes non modèles mais prioritairesLes génomes non modèles mais prioritaires
• Pathogènes procaryotes• Pathogènes procaryotes– Staphilococcus aureus, Yersinia pestis …
• Pathogènes eucaryotes• Pathogènes eucaryotes– Plasmodium falsciparum, …
• CulturesCultures– Oryza sativa, Zea mays…
• Bétail– Sus scrofa, Bos taurus…
• Biotechnologie– Lactobacillus, Rhyzobium…
• Génomique comparative– Pan troglodytes, Ciona savignyi…
29
Homo sapiensHomo sapiens
• PhylumPhylum– Métazoaire, Mammifère, Primate
• Modèle pourp– Mauvais modèle, mais intéressant
à plus d’un titre
• Inconvénients– Expérimentation impossible sauf
cellules somatiques en culture
Raël
cellules somatiques en culture (Hela..)
– Temps de génération lent
3 Gb
22000 gènes
30
22000 gènes
2. Les programmes Génome2. Les programmes Génome
31
L GéLes programmes Génome
• Préhistoire– Séquençage de Sanger
A l é d’ i é d– Avant le séquençage d’organismes: séquençage de bactériophages.
– Plus grande séquence obtenue avant projets « Génome »: bactériophage 1: 50.000pb
– Comment passer à plusieurs millions de bp?
– Bactérie: 0,5 – 8 Mb– Eucaryote unicellulaire: à partir de 3Mb
Mammifère: 3000 Mb– Mammifère: 3000 Mb
32
Organisme Bp Genes ratio
HIV‐1 10 000 10 1 000
H hil i fl 1 830 000 1703 1 000Haemophilus influenzae 1 830 000 1703 1 000
Escherichia coli 4 600 000 4288 1 000
Methanococcus jannashchii 1 660 000 1738 1 000
Amoeba dubia 670 000 000 000 ~5000? 134 000 000
Amoeba proteus 270 000 000 000 ~5000? 54 000 000
Saccharomyces cerevisiae 13 000 000 5885 2 000
Erysiphe cichoracearum(champignon)
1 500 000 000 ~10 000? 150 000
Coscinodiscus asteromphalus(di t é )
25 000 000 000 ~5000? 5 000 000(diatomée)
Caenorhabditis elegans 100 000 000 ~14 000 7 000
Drosophila melanogaster 170 000 000 ~12 000 14 000
Arabidopsis thaliana 120 000 000 ~26 000 5 000
Lilium formosanum(nénuphar)
36 000 000 000 ~15 000? 2 400 000
?Zea mays 5 000 000 000 ~20 000? 250 000
Allium cepa(oignon)
18 000 000 000 ~20 000? 900 000
P t t thi i
33
Protopterus aethiopicus(dipneuste)
140 000 000 000 ~40 000? 3 500 000
Homo sapiens 3 400 000 000 ~22 000 150 000
Le Programme Génome HumainLe Programme Génome Humain
• Le programme Génome tel que défini par le DOE en 1990• Le programme Génome tel que défini par le DOE en 1990– Carte génétique, résolution 2 à 5 cM (4 à 10 Mb chez l'homme)
– Carte physique résolution 100 kbCarte physique, résolution 100 kb
– A long terme, séquençage du génome humain (après amélioration des techniques)
– Séquençage du génome d'espèces modèles
– Ajouté en 93: identification du plus grand nombre de gènes possible (par séquencage de cDNA)possible (par séquencage de cDNA)
34
Cartographie génétiqueCartographie génétique
• Hybrides d'irradiationOn recherche ce que deviennent des marqueurs: retrouver 2 marqueurs dans le même hybride indique leurmême hybride indique leur proximité. Par exemple, utilisation des marqueurs STS: le marqueur STS s1 est qretrouvé dans les hybrides hi,hj,hk, le marqueur s2 est retrouvé dans les hybrides hl, h t D d éhm, etc. De ces données, on déduit une proximité ou non des marqueurs s1 et s2.Résolution: 1‐2MbRésolution: 1‐2Mb
Carte Généthon 1996
5264 microsatellites résolution 1 6 cM (~3 Mb)5264 microsatellites, résolution 1,6 cM ( 3 Mb)
35
Cartographie PhysiqueCartographie Physique
BUT: rendre disponible toute région voulue d'un génome sous forme d'un fragment d'ADN cloné.d ADN cloné.1. Création d'une banque d'ADN du génome étudié 2. Identifier chaque clone 3. Ordonner/positionner clones sur le chromosome
• Banques Génomiques– Phages, Cosmides: inserts de 15‐20kb: pour petits génomes – YAC (Yeast Artificial Chromosome): inserts de 500kb‐1Mb. Grands génomes. – Une banque génomique humaine se présente sous la forme d'une collection de
plusieurs centaine de microplaques à 96 puits, chacun contenant un clone.
• Ordonnancement des clonesSi l' è d t é éti d l ( l– Si l'on repère un marqueur de carte génétique dans un clone (par exemple par hybridation), ce clone se trouve directement positionné.
– On peut également utiliser le recouvrement entre clones pour les positionner les uns par rapport aux autres.
– On peut aussi utiliser les STS (Sequence Tagged Sites): des séquences quelconques uniques dans le génome. Le fait de retrouver le même STS dans 2 clones indique qu'ils se chevauchent.
36
Notation et Carte CytogénétiqueNotation et Carte Cytogénétique
– Chaque chromosome humain possède un bras court ("p" pour "petit")q p ( p p p )et un bras long ("q" pour "queue"), séparés par un centromère. Les extrémités du chromosome sont appelées télomères.
– Chaque bras chromosomique est divisé en régions ou bandes é é bl à l' d d lcytogénétiques visibles au microscope à l'aide de certaines colorations.
Les bandes sont nommées p1, p2, p3, q1, q2, q3, etc., en allant du centromère vers le télomère. A plus haute résolution, des sous‐bandes apparaissent à l'intérieur des bandes. Les sous‐bandes sont numérotésapparaissent à l intérieur des bandes. Les sous bandes sont numérotés dans le même ordre.
– Par exemple, la localisation du gène CFTR sur la carte cytogénétique est 7q31.2, c'est à dire:
– Chromosome 7, bras q, bande 3, sous‐bande 1, et sous‐sous‐bande 2. Les extrémités du chromosome sont nommées ptel et qtel. La notation 7qtel indique la fin du bras long du chromosome 7.
37
Le séquençage de Sanger (1977)Le séquençage de Sanger (1977)
• Séquençage par terminaison dedideoxynucléotides
• Séquençage par terminaison de chaine– Utilisation de dideoxynucléotides pourUtilisation de dideoxynucléotides pour
interrompre la synthèse à un certain type de base.
4 é ti di tif– 4 réactions + marquage radioactif
• Amélioré en 1987 par l’introduction de marqueurs flurorescents (1 seulede marqueurs flurorescents (1 seule réaction) et l’automatisation.
Wikipedia
38
Séquençage Shotgun
• Principe général– Cosmide ou BAC sous‐cloné en
fragments de petite taille D l él é– Des clones prélevés aléatoirement sont séquencés
– Des séquences contigües sont reconstruites par precouvrement
– Les séquences restantes sont réalisée de façon dirigée. On oit to t de s ite q e cette– On voit tout de suite que cette approche est problématique en présence de longues régions répétées.
39
Shotgun hierarchiqueShotgun hierarchique– Le shotgun hierarchique ou
"clone par clone" implique de générer un jeu de clones de grande taille (100‐200kb) couvrant le génome puis de soumettre au shotgunsoumettre au shotgun uniquement des clones bien choisis.
– Dans le projet de séquençage du génome humain par le consortium international, les BAC à séquencer ont été choisisséquencer ont été choisis en analysant les profils de restriction (fingerprint) de l'équivalent d'une couverture 20X en BAC, combiné à différents marqueurs physiques.
40
Assemblage des clones en contigs
– On doit assembler les clones pour reconstituer le chromosome.
– Ceci commence par un assignement des clones au bon chromosome, àCeci commence par un assignement des clones au bon chromosome, à l'aide des cartes physiques, STS etc. (présence de marqueurs dans le clone et dans le chromosome).
– Puis on recherche des recouvrements dans les séquences des clones LePuis on recherche des recouvrements dans les séquences des clones. Le recouvrement peut comprendre plusieurs séquences initiales avec gaps, donc pas forcément facile (voir figure ci‐dessous).
– L'assemblage final est appelé un "squelette de contigs" (contig scaffold)– L assemblage final est appelé un squelette de contigs (contig scaffold).
41
Shotgun « génome complet »Shotgun génome complet
l h " l " ( h l– le shotgun "genome complet" (whole‐genome shotgun) s'applique normalement aux génomes relativement simples en exploitant au maximum lesrelativement simples, en exploitant au maximum les informations de cartographie et la bioinformatique pour éviter les mésassemblages.
– Employé par la Sté Celera pour le séquençage du génome de la Drosophile, puis du génome humain
Craig Venter42
Expressed Sequence Tags (ESTs)Expressed Sequence Tags (ESTs)
– EST = Séquences partielles d'ADNc clonés et prélevés aléatoirement– EST = Séquences partielles d ADNc clonés et prélevés aléatoirement.
– Idée initiale: • pourquoi vouloir tout séquencer (95% de junk DNA) si ce sont les gènes qui nous intéressent?
• Puis après séquençage génome: pour l’étude des transcrits• Puis après séquençage génome: pour l étude des transcrits
– Grandes applications:Grandes applications:• Cataloguage des gènes
• Formes alternatives des transcrits
• Profils d'expression/Northerns virtuels• Profils d expression/Northerns virtuels
43
Utilisations des ESTUtilisations des EST
• Profils d'expression• Profils d expressionUn test statistique (Test de Fisher) permet de déterminer si les différences de niveaux d'expression sont significatives.
Le mode d'obtention des EST peut introduire des biais dans ces profils (par exLe mode d obtention des EST peut introduire des biais dans ces profils (par ex. banques normalisées: les EST les plus fréquents sont réduits).
Vu le coût associé à la création de banques d'EST utilisables en analyse quantitative, on s’est penché sur d'autres techniques de mesure d'expression q , p q pcomme les puces à ADN. Mais depuis, le séquençage est devenu abordable.
44
Les EST pour déterminer la structure des gènes
Blast d'un contig de 10kb contenant un gène unique contre la banque dbEST. La dernière ligne
b fen bas est un artefact (séquences répétées).
exon
intron1 EST
EST et é iépissage alternatif
Skipped ppexon
Ecueils à la prédiction des transcrits par les ESTEST
Priming interne– Priming interne
– Rétention d’introns => notion de « spliced EST »
Gè h h t– Gènes chevauchants
– Mauvaise couverture 5’( f b f ll l th DNA )• (cf banques full‐length cDNAs)
Les cDNA pleine longueur (full length cDNAs)Les cDNA pleine longueur (full length cDNAs)
Technologies spécifiques:
• Long-distance RT enzymes
• Cap trapping
SAGE (Serial Analysis of Gene Expression)SAGE (Serial Analysis of Gene Expression)
– Génération d'ADNc double‐brin via amorce poly(T) biotinylée. – Digestion des ADNc par enzyme coupant en moyenne tous les 256 bases – Partie 5' des ADNc récupérée par billes magnétiques couplées à une molécule de
streptavidine Sé ti 2 l t t fi ti d' li k à l' t é ité d DNA (li k– Séparation en 2 lots et fixation d'un linker à l'extrémité des cDNA (linkers différents pour les 2 lots)
– Clivage par enzyme d'étiquetage, coupant 20 bases après l'extrémité (la taille du linker est ajustée de façon à conserver un bout d'ADNc de 10 bases)
– Ligation et amplification des fragments deux par deux (ditags) en utilisant les deux linkers comme amorce (assure que tous les fragments sont amplifiés dans la même façon). Les ditags sont séparés du linker puis concaténés– Les ditags sont séparés du linker puis concaténés.
– Les concaténats sont clonés et séquencés.
49
SAGESAGE
• Image tirée du Sage Facility, Pittsburg50
Les nouvelles technologies de séquençage h débihaut‐débit
51
Le pyroséquençageLe pyroséquençage
1. ADN immobilisé (billes)454 LifeSciences/RocheBiotage/Qiagen
2. Synthèse brin complémentaire par ADN polymérase
DNA pol
3. Introduction des dNTP un par un
4. Si bon dNTP: libération PPi,
ATCGTACGGCGATCGA...GCCGCTAGCT...
p
dNTPPPi
ATP sulfurylasesynthèse ATP, et emission de lumière.300 500 t à l f i 400 000
dNTP
ATPlavage
ATP sulfurylase
Luciférase
• 300‐500nt à la fois x 400,000
52Nature Reviews Microbiology
Autres « sequencing by Synthesis »Autres sequencing by SynthesisSolexa/IlluminaSolid
• 50‐75nt à la fois x 100 millions50 75nt à la fois x 100 millions
Phase d’amplification
53
RNA‐SeqRNA Seq
• Transcriptome parTranscriptome par séquençage haut‐débit.
• On parle aussi de « deep sequencing » (Solexa)
• Précédé d’une étape de filtrage pour petits ARN dARN, permet de pêcher les miRNA, piRNA etcpiRNA, etc.
intron
54
intron
Wang et al. Nature Reviews Genetics, 2009
ChIP‐SeqChIP Seq
• ChIP Chromatin• ChIP=Chromatin immunoprecipitation
• Permet d’identifier les• Permet d identifier les sites de liaison de protéines (facteurs de p (transcription, represseurs,
h )enhancers, etc.) sur l’ADN génomique
Wikipedia
55
MetagénomesMetagénomes
F t d’ADN é é lé t i t à• Fragments d’ADN séquencés aléatoirement à partir d’un environnement donné
• Soit fragments ciblés (p. ex. ARNr 16S), soit ADN génomique
• Environnements étudiés:– Océan, intestin humain, drainage minier acide, g
• Applications:– Populations microbiennes (structure variations)Populations microbiennes (structure, variations)
– Découverte et séquençage de microorganismes
– Découverte de gènes/fonctionsDécouverte de gènes/fonctions
56
Vers une utilisation du séquençage pour d itoutes sortes de questions
• Transcriptome (fin des puces à ADN?)
$• Reséquençage, SNP (génome humain à 1000$)
• Détection d’agents infectieux / bioterrorisme
• …
57
Etat des programmes (2009)Etat des programmes (2009)
800 génomes bactériens (50 archae et 750 bactéries)– 800 génomes bactériens (50 archae et 750 bactéries) • 1er génome: haemophilus influenza (1995)
– Génomes eucaryotes:– Génomes eucaryotes: • 15 Levures
• 12 Drosophilesp
• Arabidopsis, riz, mais
• Humain, souris, rat… >20 mammifères
• Vertébrés: Fugu, Tetraodon, poulet, chordés..
• Protistes
Di i d illi d t it ( l i l t ti l )– Dizaines de millions de transcrits (pleine longueur et partiels)
– Dizaines de métagénomes (Sargasses, GOS, gut, etc…)
58
EST data 2009EST data 2009
•Human: >5000 libraries (>600 cancer)
•Mouse: >500 libraries (>30 cancer)
3. Structure et dynamique des génomes3. Structure et dynamique des génomes
L i t d éLes enseignements du séquençage
60
La composition en séquence et ses variationsp q
• La règle de ChargaffLes règles d'appariement expliquent que quelque soit la quantité d'adénine (A)– Les règles d'appariement expliquent que, quelque soit la quantité d'adénine (A) dans l'ADN d'un organisme, la quantité de Thymine (T) est la même. De la même façon, G=C.
– Mais les génomes ne sont pas uniformément constitués de 25%A, 25%T, 25%G,Mais les génomes ne sont pas uniformément constitués de 25%A, 25%T, 25%G, 25%C.
– Il existe de grandes variations d'un génome à l'autre. Par exemple, les génomes d'archaebactéries sont généralement très riches en AT.
61
Contenu en GC et isochores
– Il existe également de grandes variation à l'intérieur d'un génome. Par exemple, les régions transcrites sont souvents plus riches en GC que les régions non‐transcrites.
– Le contenu en GC moyen du génome humain est 41%
– On trouve pourtant des régions de plusieurs centaines de kb avec des contenus en GC de 33% ou 59%, ce qui représente une variation beaucoup plus grande que si la distribution était uniforme.
L i ti t f it 15 f i é i à l i ti tt d i t t " " d– La variation est en fait 15 fois supérieure à la variation attendue, avec une importante "queue" de régions riches en GC.
On a proposé que le génome soit constitué d'une mosaique de régions de composition homogène appelées isochores.
En fait, on ne trouve pas de régions vraimentEn fait, on ne trouve pas de régions vraiment homogènes en composition, mais plutôt de régions plus ou moins riche en GC.
Il existe une forte corrélation entre la richesse en GC et certaines propriétés: densité en gènes contenuGC et certaines propriétés: densité en gènes, contenu en répétitions, etc.
Un tiers du génome contient 50% des gènes (gene‐rich third)
62
Codant et nonCodant et non codant…
Chabalina et al. Genome Biology, 2004 63
Statistiques sur les gènesStatistiques sur les gènes
Gè t• Gènes procaryotes– longueur gène 950 nt. en moyenne (coli)
– Densité en gènes. 95% du génome est transcrit chez E. coli.
Gè i é é 600 é d l– Gènes organisés en opérons. 600 opérons dans le génome de Coli.
64From « Genomes 2 », T.A. Brown
Gènes eucaryotesGènes eucaryotes
– Gène humain moyen: 8,8 introns, 27 kb, 3'UTR:770bp, 5'UTR:300bp, CDS:1340bp, exon moyen: 145 bp (218 bp pour C. elegans).
– Gènes "monstres": dystrophine: 2,4 Mb; Facteur de coagulation VIII: 186 kb, 26 exons; Tinine: CDS de 80780 bp, 178 exons
– Densité: humain: 1 gène tous les 150kb en moyenne; C.elegans: 1gène/5‐6kb (25%); S. Cerevisiae: 1 gène/2kb. From « Genomes 2 », T.A. Brown
R 22000 è d 30kb 0 7Gb d l è d tRemarque: 22000 gènes de 30kb en moyenne = 0,7Gb: donc les gènes codants représentent au moins 1/4 du génome humain (attention: seul 1.5% du génome est codant) 65
Gènes eucaryotes: les intronsGènes eucaryotes: les introns
– intron humain moyen: 3365 bpintron humain moyen: 3365 bp
– Intron de ver moyen: 267bp
– Intron de mouche moyen: 487bp
– S. cerevisiae: 4% des gènes ont des introns, seulement 10 gènes sur 6200 en ont plus d'un10 gènes sur 6200 en ont plus d un.
– H. sapiens: 95% des gènes ont des introns.
66
Relation taille / nb gènesRelation taille / nb gènes
Organisme Bp Genes ratio
Duplication de fragments/
Organisme Bp Genes ratio
Escherichia coli 4 600 000 4288 1 000
Methanococcus jannashchii 1 660 000 1738 1 000
Amoeba dubia 670 000 000 000 ~5000? 134 000 000
gènesAmoeba dubia 670 000 000 000 5000? 134 000 000
Saccharomyces cerevisiae 13 000 000 5885 2 000
Erysiphe cichoracearum(champignon)
1 500 000 000 ~10 000? 150 000
Séquences répétées
Caenorhabditis elegans 100 000 000 ~14 000 7000
Drosophila melanogaster 170 000 000 ~12 000 14 000
Arabidopsis thaliana 120 000 000 ~26 000 5 000
Expansion des introns
Zea mays 5 000 000 000 ~20 000? 250 000
Allium cepa(oignon)
18 000 000 000 ~20 000? 900 000
Homo sapiens 3 400 000 000 ~22 000 150 000 intronsHomo sapiens 3 400 000 000 22 000 150 000
67
Structure des transcritsStructure des transcrits
68
Alternative SplicingAlternative Splicing
3 sex-determining genes in Drosophila:3 sex-determining genes in Drosophila:
69
Alternative splicingAlternative splicing
6000 (5% ith i t )6000 genes (5% with introns)3 cases of AS
18000 genes~10% AS
14000 genes~35% AS
22000
~35% AS
22000 genes Alternative splicing may compensate for relative scarcity of genes in vertebrates>85% AS
70
Alternative polyadenylationAlternative polyadenylation
Pre‐mRNA
Coding sequence
To 5' end
AUUAAAAAUAAA CA GUUGU3' UTR
CA GUUGU
AAAAAAAAA...
RNA l i i
AAAAAAAAA...
mRNA alternative transcripts
Humain: >60% Alt polyadenylationHumain: >60% Alt. polyadenylation
71
Alternative promoters
• Alternative promoters in UDP glucuronyl transferase (Carninci et al. 05)
72
Science, 2005
– 100,000 Full length cDNAs
– + 1M « CAGE » (sortes de SAGE en 5’)
Principaux résultats de « FANTOM3 »Principaux résultats de FANTOM3
– 32000 transcrits non‐codants
– 16000 nouveaux transcripts codants
– 5000 nouvelles protéinesp
– La majorité du génome est transcrit sur les deux brins
– La grande diversité des transcrits dans chaque Unité deLa grande diversité des transcrits dans chaque Unité de Transcription soulève le problème de la précision des puces ADN conventionnelles, dans lesquelles chaque sonde hybride différents transcrits
Utilité des full‐lengths et des CAGEUtilité des full lengths et des CAGE
– Etude des promoteurs (impossible avec les EST)EST)
– Transcription Starts Sites (TSS) alternatifs, exons 5’ alternatifsexons 5 alternatifs
Visualisation des démarrages de transcription d l è 3’ l CAGEdans les gènes et en 3’ par les CAGE
Transcrits et Unités de TranscriptionTranscrits et Unités de Transcription
TU: Transcription Unit mRNAs sharing at– TU: Transcription Unit. mRNAs sharing at least 1 nt and with same location and orientation
– D’après les résultats FANTOM3: >7 transcrits différents par TU
ExempleExemple d’annotation
CAGECAGE + cDNA
Genome Browser
d laboratoiredu laboratoire
Riken
Transcrits chevauchants et antisensTranscrits chevauchants et antisens
Junk DNA: les séquences répétées dans le é h igénome humain
• 5 classes de séquences répétées – Répétition de type transposon (ou interspersed repeats)– copie rétro‐transposées inactives de gènes (protéines ou ARN) (processed pseudogenes)– copie rétro‐transposées inactives de gènes (protéines ou ARN) (processed pseudogenes) – Répétition simples de k‐mères courts, p. ex. (A)n, (CA)n ou (CGG)n – Segments dupliqués: blocs de 10–300 kb copiés d'une région à l'autre – Blocs de séquences répétes en tandems (centromères, télomères, clusters de gènes
ib i )ribosomiques)
• Un ADN pas si "poubelle" que ça qui joue un grand rôle dans la transformation des gènes et l'apparition de nouveaux gènes.
• Il y a des régions pauvres en répétitions (p. ex. région des gènes HOX) et des régions riches (région de 500kb du chr. 11 contenant 89% d'éléments transposables)
• Les répétitions humaines sont relativement anciennes comparées à celles qu'on trouve dans le génome de drosophile Notre génome a des difficultés pour se débarasser desdans le génome de drosophile. Notre génome a des difficultés pour se débarasser des répétitions.
80
Retroposons et pseudogènesRetroposons et pseudogènes
Deux mécanismes proches
From « Genomes 2 », T.A. Brown81
Séquences répétées de type transposonSéquences répétées de type transposon
é é é é d é l d /3 d• Les séquences répétées de type transposon représentent plus de 1/3 du génome des vertébrés
• Génome humain: 45% !!
82
LINES (Long interspersed repeated sequences)LINES (Long interspersed repeated sequences)
– 21% du génome humain (850.000 copies). Le plus commun de ces éléments est L1: 6kb. – Contiennent un promoteur Pol‐II et 2 ORFs. – Après traduction, l'ARN LINE s'assemble avec ses propres protéines et se déplace vers le
noyau où l'ARN est reverse transcrit et s'insère dans le génome au niveau d'une coupure simple brin. La transcription inverse s'interrompt souvent avant terme, créant de nombreux i t t é (l l t f it)inserts tronqués (la plupart en fait)
– La machinerie LINE est responsable également de la retrotranscription des éléments SINE. – Il y a en fait trois familles de LINE dans le génome humain (LINE1, LINE2, LINE3), mais seule L1
est active.
>L1 element| Human L1 interspersed repetitive sequence-full length copy ggcggtggagccaagatgaccgaataggaacagctccagtctatagctcccatcgtgagt gacgcagaagacgggtgatttctgcatttccaactgaggtaccaggttcatctcacaggg
t t t t t t t t taagtgccaggcagtgggtgcaggacagtagtgcagtgcactgtgcatgagccgaagcagg gcgaggcatcacctcacccgggaagcacaaggggtcagggaattccctttcctagtcaaa gaaaagggtgacagatggcacctggaaaatcgggtcactcccgccctaatactgcgctct tccaacaagcttaacaaatggcacaccaggagattatatcccatgcctggctcagagggt cctacgcccatggagcctcgctcattgctagcacagcagtctgaggtcaaactgcaaggt ...
83
SINEs (Short interspersed repeated sequences)SINEs (Short interspersed repeated sequences)
– Contiennent un promoteur pol‐III mais pas d'ORF
– Vivent sur le dos des LINE
13% du génome humain 3 types: Alu MIR et Ther2/MIR3– 13% du génome humain. 3 types: Alu, MIR et Ther2/MIR3.
– (1 500 000 SINEs par génome humain haploide, dont 1 000 000 Alu)
– La plus connue est ALU, la seule SINE active: 290 bp constitué de 2 répétitions en tandem de 130 bp.
– On ne trouve pas ces séquences dans les régions codantes, mais souvent dans l'unité de transcription, soit dans les introns, soit dans les parties non traduites des ARNm.
>ALU | Human ALU interspersed repetitive sequence - consensus A ggccgggcgcggtggctcacgcctgtaatcccagcactttgggaggccgaggcgggcgga tcacctgaggtcaggagttcgagaccagcctggccaacatggtgaaaccccgtctctact aaaaatacaaaaattagccgggcgtggtggcgcgcgcctgtaatcccagctactcgggag gctgaggcaggagaatcgcttgaacccgggaggcggaggttgcagtgagccgagatcgcg
ccactgcactccagcctgggcgacagagcgagactccgtctcaaaaaaaa
84
Autres transposonsAutres transposons
• Retrotransposons à LTR – Long terminal repeats avec tous les éléments de régulation de
transcription
– A l'intérieur: protease, reverse transcriptase, RNAse H et integrase
– L'acquisition du gène env suffit pour en faire un véritable rétrovirusL acquisition du gène env suffit pour en faire un véritable rétrovirus exogène.
T ADN• Transposons ADN – Ressemble aux transposons bactériens
– Flanqué par répétitions inversées a qué pa épét t o s e sées
– Code pour une transposase
– Au moins 7 classes de transposons ADN dans le génome humain
85
Autres séquences répétéesAutres séquences répétées
• Les répétitions simples (Simple Sequence Repeats ‐ SSR) p p ( p q p )– Répétition parfaite ou non d'un fragment de longueur k (k‐mère). – Fragment court (1 à 13b): microsatellite – Fragment long (14 à 500b): minisatellite
Représentent 3% du génome humain 0 5% provenant des répétitions de dinucléotides (85%– Représentent 3% du génome humain, 0,5% provenant des répétitions de dinucléotides (85% AC ou AT).
– Un SSR tous les 2kb en moyenne
• Les duplications de segments – Blocs de 1 à 200kb transférés entre différentes positions du génome (inter ou intra‐
chromosomique) – Exemple sur chromosome 17: 3 copies d'un segment de 200‐kb séparées par environ 5 Mb + 2
copies d'un segment de 24‐kb séparées par 1.5 Mb. – Génome humain: représentent 3,6% du génome (à un niveau > 90% identité). – Arabidopsis: 58% du génome est constitué de segments dupliqués
• Péricentromères et subtelomèresChaque centromère est constitué de zones de duplication interchromosomique– Chaque centromère est constitué de zones de duplication interchromosomique.
– P. ex. le Chromosome 22 contient une region de 1.5 Mb adjacente au centromère constituée à 90% de duplications interchromosomiques (en provenance d'autres chromosomes).
– Ces duplications sont complexes, avec de nombreux évènements, souvent récents, séparés par des répétitions de type minisatellite riches en AT ou en GCpar des répétitions de type minisatellite riches en AT ou en GC.
86
Evolution et variation des génomes
87
Réarrangements chromosomiquesRéarrangements chromosomiques
– Translocations
– Inversions
– Délétions
88
Duplications, apparition des nouveaux gènesDuplications, apparition des nouveaux gènes
D li i• Duplications– Duplication du génome entier ou polyploïdisation (plusieurs cas chez les
eucaryotes, par exemple chez les téleostéens, principale classe de i )poissons)
– Duplication d’un gène ou d’un groupe de gènes (fréquent)– Duplication d’un chromosome ou d’une partie (rare car délétère)– La duplication est suivie le plus fréquemment de la perte de gènes: 90%
des gènes dupliqués à l’origine des vertébrés auraient été perdus depuis.
• Transferts horizontaux– Très important entre génomes procaryotes– Arrive de procaryote à eucaryote
89
Role des éléments transposablesRole des éléments transposables
Par leur capacité à initier des recombinaisons entre– Par leur capacité à initier des recombinaisons entre différentes parties du génome (dû à leurs séquences presque identiques)presque identiques)
– Par la création de nouveaux éléments fonctionnels (exaptation)( p )• Exons
• Enhancers
90
L’apparition des intronsL apparition des introns
(Concerne les introns de type GT AG pas les introns catalytiques– (Concerne les introns de type GT‐AG, pas les introns catalytiques issus du RNA world)
• 2 hypothèses2 hypothèses– « Intron early ». Les introns étaient présents dans l’organisme
ancestral (y compris les bactéries). Ils disparaissent petit à petit.
– « Intron late »: apparition chez les premiers eucaryotes, puis prolifération
– Aucune hypothèse n’est clairement réfutée à ce jourAucune hypothèse n est clairement réfutée à ce jour• Disparition des introns chez les levures
• Augmentation chez les metazoaires
91
La synténieLa synténie
Le séquençage des premiers génomes a révélé que l’ordre des gènes était beaucoup moins conservé que les séquences.
Une région observée chez deux organismes est dite synténique lorsqu'elle n'a pas subi de réarrangement depuis l'ancêtre commun de ces deux organismes.
Humain/souris: environ 150 réarrangements. Régions synténiques de 8,8cM en moyenne.
Chlamidia trachomatis / chlamydophila pneumoniae
92
En quoi nos génomes diffèrent‐ils?En quoi nos génomes diffèrent ils?
• Les individus d’espèces différentes ont des génomes différents par la taille l’ordre et la nature des informationsdifférents par la taille, l ordre et la nature des informations qu’ils contiennent.
• On considère souvent que 2 individus de la même espèceOn considère souvent que 2 individus de la même espèce possèdent le « même » génome.
• En fait, le génome de chaque individu est unique. Chez g q ql’homme le génome diffère de 0.5% entre 2 personnes non apparentées
93
La ressemblance entre génomesg
• Homme A / homme B– 99,5% identique (0,5% différence)
• Homme/chimpanzé– Codant: 98 5% identiqueCodant: 98,5% identique– Non codant: ~97% identique– Quelques duplications/délétions importantes de région de quelques
dizaines de kbdizaines de kb
• Homme/souris – Codant: 90% identique
N d t l j ité t id tité t i t– Non codant: la majorité est sans identité apparente, mais on trouve quand même de nombreux segments semblables (« conservés »)
• Homme/pouletd d– Codant: 80% identique
• Homme/poisson– Codant: 70% identique
94
Les variations du génome dans une l ipopulation
• Très importantes médicalement– Pharmacogénomique: comment chaque patient répond aux drogues
– Marqueurs de susceptibilité aux maladies
• Polymorphismes dans le génome humain• Polymorphismes dans le génome humain – Insertions, délétions, duplications, réarrangements
• rares et peu étudiés
– Microsatellites etc..
– Single Nucleotide Polymorphism (SNP)
95
Single Nucleotide Polymorphism (SNP)
Le polymorphisme le plus commun chez l'homme. Stable Beaucoup n'ont pas d'implications fonctionnelles 1 SNP tous les 100 à 300 nt. 3 200 000 dans le génome. En comparant 2 individus, on trouve un SNP toutes les
/1000/2000 bases.
ApplicationsLes SNP constituent une trace historique pour l'étude de la phylogénie humaine: ils mutent lentement et ont peu de chance de réapparaître de façon récurrente.
à l' i i d ibili é dLes SNP sont à l'origine de susceptibilité ou de résistance à de nombreuses maladies. Cartographie de maladies à caractères complexes (cancers diabète maladies mentales)(cancers, diabète, maladies mentales) Prédiction des réponses aux drogues.
96
HaplotypesHaplotypes
– Haplotypes: combinaison d'allèles tendant à ê bl ( d d kb d
Chromosome 21: Fragment de 106kb contenant 18 blocs
être transmis ensemble (qq dizaines de kb de long)
– Les SNP sont parfaitement adaptés pour identifier les haplotypes
haplotypes
identifier les haplotypes
– Chaque haplotype existe en quelques versions dans la population
– Dans l’exemple ci‐contre une région de 19kb
26 SNP, 19kb
Dans l exemple ci contre une région de 19kb est dominée par 4 haplotypes
– 2 SNP suffisent pour repérer l’haplotype d’un patient
– Evite des reséquençages
The Scientist, mai 2004
populationpopulation
97
Le génome du Dr. VenterVenter
PloS Biology, 2007
Pour la première fois: deux jeux de chromosomes (maternel et paternel) entièrement séquencés. p ) qDifférence de 0,5%
98
Les banques de données génomiques
99
Genbank: La banque d’ADN du NIHGenbank: La banque d ADN du NIH
• Etat Dec 2009 – 110x109 bases
110 106 é– 110x106 séquences
– Genbank double environ tous les 14 mois depuis ses débuts
1982en 1982.
– Nouvelle version tous les 2 mois
100
Divisions de GenbankDivisions de Genbank
– ESTs (Expressed sequence tags): Principale division ed Genbank 18 106Principale division ed Genbank. 18 10sequences, 580 organismes différents
– GSS (Genome Sequence Survey): résultats de séquençages aléatoire de ésu tats de séque çages a éato e deBAC, dans le cadre de projets Génome. Non assemblées, courtes.
– HTGS (High Throughput Genomic Sequences): séquences génomiques en cours d’assemblage. Une fois complètement assemblées, les séquences passent dans les divisionsséquences passent dans les divisions « organisme ».
– Bacteries (BCT), virus (VRL), primates (PRI), rongeurs (ROD) etc: divisions(PRI), rongeurs (ROD) etc: divisions « organismes ».
– SRA: Sequence Read Archive (Séquences Ultra‐haut débit)
– ~20 divisions en tout. Organismes dans Genbank (en 2002)
101
Enregistrement GenbankEnregistrement Genbank
– Chaque enregistrement se voit attribuer un numéro d’accession, stable et unique, et chaque séquence un numéro GI.
– Quand un changement est effectué dans un enregistrement Genbank, le g g ,num. d’accession reste, le GI change.
102
Enregistrement Genbank avec annotationEnregistrement Genbank avec annotationLOCUS L10986 47233 bp DNA linear INV 21-SEP-2004DEFINITION Caenorhabditis elegans cosmid F10E9, complete sequence.ACCESSION L10986VERSION L10986.2 GI:38638818VERSION L10986.2 GI:38638818KEYWORDS HTG.SOURCE Caenorhabditis elegansORGANISM Caenorhabditis elegans
Eukaryota; Metazoa; Nematoda; Chromadorea; Rhabditida;Rhabditoidea; Rhabditidae; Peloderinae; Caenorhabditis.
REFERENCE 1 (bases 1 to 47233)AUTHORS .AUTHORS .CONSRTM WormBase ConsortiumTITLE Genome sequence of the nematode C. elegans: a platform for
investigating biology. The C. elegans Sequencing ConsortiumJOURNAL Science 282 (5396), 2012-2018 (1998)MEDLINE 99069613PUBMED 9851916
FEATURES Location/Qualifiers
BASE COUNT 2598 a 2024 c 1888 g 2449 tORIGIN
1 ttctaaaagt cgaaaaacga gcaatttttg atgctagatt ttttgatttg acgaattttt61 tcagtttttt ttctttaaaa aaggtttttg accccttaaa gttttccttt cccttccaat
121 tttttccttc tttcttatac gacttctcaa gtttcaactc taaaacaaag ctacatgtac181 atttccggta aactttgtgt ctcagaagat ccattttctt tttgttacat ttattcaaga241 ttgaattcca aaatttcagc caatatggac agttgcgaag aggaatgcga tctggaagttFEATURES Location/Qualifiers
source 1..47233/organism="Caenorhabditis elegans"/mol_type="genomic DNA"/strain="Bristol N2"/db_xref="taxon:6239"/chromosome="III"/clone="F10E9"
241 ttgaattcca aaatttcagc caatatggac agttgcgaag aggaatgcga tctggaagtt301 gacagtgacg aagaagatca actttttggt gaaaagtggt gagttcttat tgtggtaacc361 aaagaaatgt cagtggtccg taaacacttg actcccaaat ggtttctcgt aattacctta421 tgcacacttt tcaagtgttt gccgtttgat cttagccaat ttgaaacgtt tagatgttaa481 atggaaaatg ggtaaagttt tttattttat agaaaaaagg tttggaaaaa aatcgagtca541 ctgaatagtt tgaagaacgg aaaaataaaa ctttccaaaa atcataaaac atttagtgtt601 tcgaaaatta tagtgttttt tttgttggta tgttttgaca aaagctaaac catctttatt661 gtagttttgt aaaatgttca caaagatgcg tttttttttc aaatttggca ggctatcttt721 acattcacat ttggataatt caaatttttc ttatcgctaa caaattttcc tatttttcca/
gene 265..26728/gene="mig-10"/locus_tag="F10E9.6"
CDS join(265..338,3266..3515,15194..15317,21507..21602,21727..21887,23171..23335,24302..24472,24524..24608,25012..25827,26284..26430,26478..26728)/gene="mig-10"
gg g781 attattcgtt tttataaagc tttggtagta tgttgtgtct atctttagtg gtcatcagtt
. . .//
/g g/translation="MDSCEEECDLEVDSDEEDQLFGEKCISLLSSLLPLSSSTLLSNA
INLELDEVERPPPLLNVLEEQQFPKVCANIEEENELEADTEEDIAETADDEESKDPVEKTENFEPSVTMDTYDFPDPYPVQIRARPQVPPKPPIDTVRYSMNNIKESADWQLDELLEELEALETQLNSSNGGDQLLLGVSGIPASSSRENVKSISTLPPPPPALSYHQTPQQPQ
. . .QVYTGIGWEKKYKSPTPWCISIKLTALQMKRSQFIKYICAEDEMTFKKWLVALRIAKNGAELLENYERACQIRRETLGPASSMSAASSSTAISEVPHSLSHHQRTPSVASSIQLSSQ Q QHMMNNPTHPLSVNVRNQSPASFSVNSCQQSHPSRTSAKLEIQYDEQPTGTIKRAPLDVLRRVSRASTSSPTIPQEESDSDEEFPAPPPVASVMRMPPPVTPPKPCTPLTSKKAPPPPPKRSDTTKLQSASPMAPAKNDLEAALARRREKMATMEC"
. . .
103
Autres banques nucléotidiquesAutres banques nucléotidiques
• EMBL: Equivalent européen de Genbank. Format différent, contenu presque identique.
• DDBJ: équivalent au Japon
B é i li é C i ll i d é bi• Banques spécialisées Certaines collections de séquences, bien que généralement présentes dans Genbank, sont beaucoup plus utiles lorsqu'elles sont rassemblées dans des banques p q qspécialisées, par ex: – Récepteurs des lymphocytes T (Réarrangements de l'ADN)
– Génomes HIV, etc.
• Banques pour BlastNR nucléique (« Non redundant ») All GenBank+EMBL+DDBJ+PDB– NR nucléique (« Non‐redundant »). All GenBank+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2 HTGS sequences). (n’est plus “non‐redondant”)
DbEST: dbest Database of GenBank+EMBL+DDBJ sequences from EST– DbEST: dbest Database of GenBank+EMBL+DDBJ sequences from EST Divisions
104
Banques protéiquesBanques protéiques
– Swissprot. La mieux annotée des banques protéiques. p q p q2008: 260.000 entrées. • Attention: toutes les protéines connues n'y sont pas!
– TrEMBL: banque de protéine produite automatiquement. 2008: 4.200.000 entrées
– Uniprot=Swissprot+TrEMBL
– Dizaines de Banques spécialisées• Cazy (Carbohydrate Active Enzymes)
• Etc.
Pour Blast– Pour Blast• NR Protéique (Non‐redundent): Banque protéique du NCBI = Traduction de tous les CDS de GenBank + PDB + SwissProt + PIR + PRF ‐ redondances.
105
Ensembl (www.ensembl.org)Ensembl (www.ensembl.org)
– Plusieurs banques en une: • Peptides confirmés
• Transcrits confirmés
• peptides prédits
• Transcrits prédits
• Génome assemblé (golden path)
– + un genome browser
– Méthode de prédiction (système Genewise): Genscan sur contig, puis Blast contre: protéines, mRNA, EST
Génome humain version Sep 2008 (NCBI 36) : Confirmed protein coding– Génome humain version Sep 2008 (NCBI 36) : Confirmed protein‐coding genes: 21649; RNA genes: 4810; Predicted genes (Genscan): 49796; base pairs: 3,25 109.
106
Ensembl Species (2009)Ensembl Species (2009)
107
Ensembl: « contig view »
108
Genome browser UCSC
– http://www.genome.ucsc.edu/
109
EntrezEntrez
110
Les bases de données de transcrits alternatifsLes bases de données de transcrits alternatifs
ASAP• ASAP, AltExtron, ASTDASTD, …
ASAP interface (Lee (et al. 2003)