des génomes aux stèsystèmes - rssf.i2bc.paris-saclay.fr

D GéDes Génomes aux S tèSystèmes

M1 BIBS

http://rna.igmors.u‐psud.fr/gautheret/cours/

1

V. 2010.3

Logique de l’UELogique de l UE

• Génome

• Transcriptome• Transcriptome

• Protéome

• Interactome

• Modélisation Biologie des Systèmes

2

Contenu Général de l’UEContenu Général de l UE

• Daniel Gautheret 3 seances : Vocabulaire du genome ‐ Les genomes modeles et pourquoi les sequencer ‐ Genomes Procaryotes vs Ecuaryotes ‐Methodes de p q q y ysequencage ‐Méthodes d'etude du transcriptome (sauf les puces) +1 Analyse d'article

• Nancie Reymond 3 séances en salle machine : la technologie des puces pour l'etude du transcriptome Exemple d'analyse Analyse differentielle et classification des resultats

• Olivier Lespinet 2 seances : Methodes d'etude du protéome Genome, Proteome et construction des reseaux d'interactions Construction et comparaison de cartes metaboliques

Al i D i 2 I t d ti h ( h i i ti it l t i• Alain Denise 2 seances : Introduction aux graphes (chemins, associativite, clustering, isomorphisme, distance entre graphes, et detection de motifs).

• "Olivier Martin 1 seance : sur‐representation des sous‐graphes dans les réseaux (calculs de p‐values par permutations/shuffling) "de p values par permutations/shuffling).

• Patrick Amar 3 seances : Les differents types de modeles (booleens, equations differentielles, etc). Quelques aspects de regulation (positive, negative et consequences pour les cycles) Illustrations sur de petits circuits. Reseaux de Petri et application au p y p ppmetabolisme.

• Olivier Martin 1 seance : Techniques de Monte Carlo pour : ‐ l'obtention des graphes de proprietes donnees ‐ l'evolution in silico des reseaux vers des reseaux fonctionnels

d i l i d b d' d l d' i li d' d d'Introduction a la notion de robustesse d'un modele, d'essentialite d'un noeud ou d'une arete.

3

Plan GautheretPlan Gautheret

1. Les génomes modèles2. Les programmes Génome

Cartographie séquençage tags– Cartographie, séquençage, tags

3. Structure et dynamique des génomes4 Les bases de données génomiques4. Les bases de données génomiques

4http://rna.igmors.u‐psud.fr/gautheret/cours/

1: Les génomes‐modèles

5

Pourquoi perdre son temps d d hil ?avec des drosophiles?

"And sometimes these dollars go to projects that have littlego to projects that have little or nothing to do with the public good, things like … fruit fly research in Paris, France.“y

Sarah Palin, 2008

5:6

D’abord, pourquoi des génomes modèles?D abord, pourquoi des génomes modèles?

Vecteur d’expression levure

cDNA humaincDNA humain homologue gène X

+

Levure mutante, déficiente pour gène X

Levure de phénotype sauvage

• Des dizaines de gènes humains sont capables de complémenter des mutations de levure

• => Les fonctions humaines se retrouvent dans des organismes plus simples, plus faciles à reproduire et à observer

M i bi û t t l f ti t t d t t l

5:7

• Mais bien sûr, toutes les fonctions ne se trouvent pas dans toutes les espèces!

Exemple d’intérêt de la « mouche à fruits » Banfi et al. Nature Genetics, 1996

Milliers de transcrits

Gènes causant des ttgtagctactgatcgatcgtagctagc

humains

phénotypes mutants gggcatgcat

acatgcatgctagctgactagctagctagtcgatgc

Recherche de similitudes

gcgatgctagctagtcgatcggactgatcgatcgcagatcg

gcatgctagctagtcgatgctagctgat

66 gènes candidats pour des maladies génétiques ou des

cgtagtg q

fonctions essentielles chez l’homme

• Toutes les connaissances structurales et fonctionnelles acquises chez la drosophile sur ces gènes deviennent applicables.

5:8

Différentes raisons de choisir un modèleDifférentes raisons de choisir un modèle

• Facilité expérimentale• Facilité expérimentale– Grosses cellules, corps transparent, temps de génération court,

taux de reproduction élevép

• Représentant d’une fonction– Différenciation cellulaire, Système immunitaire, Photosynthèse,

symétrie bilatérale…

• Génome dense

• Données accumulées– Mutants, génétique, biochimie…

9

Rappel de phylogénieRappel de phylogénie

WikipediaWikipedia

LUCA

10

Escherichia coliEscherichia coli

• Phylum

– Bactéries gram ‐, protéobactéries

• Modèle pour:

b l– La microbiologie

– Réseaux d’interaction dans la cellule

– Voies métaboliquesVoies métaboliques

– Bactéries pathogènes (certaines souches)

Wikipedia

– Formation de biofilms

• Avantages:

Culture aisée– Culture aisée

– Grande connaissance de la biologie de l’espèce

4.5 Mb

4200 gènes

11

4200 gènes

Bacillus subtilisBacillus subtilis

• Phylum

– Bactéries gram +

• Modèle pour:• Modèle pour:

– Sporulation (différenciation cellulaire élémentaire)

– Flagelles

A t

Wikipedia

• Avantages:

– Grande connaissance de la biologie de l’espèceg p

4.2 Mb

4100 gènes

12

4100 gènes

Sulfolobus acidocaldariusSulfolobus acidocaldarius

• Phylum

– Archaes, Chrenarchaeotes

• Modèle pour:• Modèle pour:

– Biologie des Archées

– Réplication de l’ADN p

• Avantages:Wikipedia

– Systèmes moléculaires proches des eucaryotes mais plus simples

p

p

2.2 Mb

2300 gènes

13

2300 gènes

Saccharomyces cerevisiaeSaccharomyces cerevisiae

• Phylum• Phylum

– Eucaryotes, Fungi, Ascomycetes

• Modèle pourp– Les eucaryotes

– Le cycle cellulaire

Différentiation sexuelle primitive– Différentiation sexuelle primitive

– Fermentation

• Avantages– Temps de génération court

– Transformation facile pour introduire de nouveaux gènes

Wikipedia

nouveaux gènes

– Culture haploide possible: KO13 Mb

6000 gènes

14

6000 gènes

Schizosaccharomyces pombeSchizosaccharomyces pombe

• Phylum

– Eucaryotes, Fungi, Ascomycetes

• Modèle pour

– Génétique, biologie cellulaire et moléculaire

Le cycle cellulaire la chromatine– Le cycle cellulaire, la chromatine

– Certaines maladies humaines

• Avantages 14 Mb

4800 gènes– Phase haploide dominante

15

4800 gènes

Dictyostelium discoidumDictyostelium discoidum

• Phylum• Phylum– Eucaryote/amoebozoa (amibes à

pseudopodes)p p )

• Modèle pour– Différenciation cellulaire (stades

uni‐ et pluricellulaire)

– Chimiotaxie

ApoptoseWikipedia

– Apoptose

• Avantages– Culture facile

34 Mb

Culture facile

16

12500 gènes

Tetrahymena thermophylaTetrahymena thermophyla

Ph l• Phylum– Cilié (protozoaire)

• Modèle pour• Modèle pour– Compartiments cellulaires,

microtubules

– Activités enzymatiques

– Recherche biomédicale

• Avantages– Culture facile en grande quantité

Wikipedia

104 Mb (MAC génome)

17

27000 gènes

Chlamydomonas reinhardtiiChlamydomonas reinhardtii

• Phylum :• Phylum :– Algue verte (chlorophyte) unicellulaire

• Modèle pour– Eucaryotes photosynthétiques, plantes

– Mouvement, réponse à la lumière

– Biologie cellulaire et moléculaire– Biologie cellulaire et moléculaire

• Avantages– Nombreux mutants connus

– Nombreux outils biologiques disponiblesWikipedia

14 Mb

4800 gènes

18

4800 gènes

Arabidopsis thalianaArabidopsis thaliana

Ph l• Phylum– Plantes, Angiosperme, dicotyledone

• Modèle pourp– Biologie végétale, agronomie

• Avantagesll d l l– Petite taille de la plante

– Petit génome pour une plante

– Cycle de développement court (2 mois)

– 40000 graine/planWikipediap

157 Mb

19

26000 gènes

Les métazoaires (animaux pluricellulaires)Les métazoaires (animaux pluricellulaires)

Source: http://tolweb.org

Pluricellularité hétérotrophe, différentiation, formation des tissus animaux

20

Les bilatériensLes bilatériens

Signalisation type

Symétrie bilatérale, gènes Hox,

« humain »

Dehal et al. Science, 298:20025: 21Ernst Haeckel

céphalisation, tube digestif…

Coenorhabditis elegansCoenorhabditis elegans

• Phylum

– Metazoaire, Nématode

• Modèle pour:

– Développement/différenciation

– RNA interférence

0,1mmSource: www.wormatlas.org

RNA interférence

• Avantages:– Pharynx, uterus, oocytes, oviducte, intestin, ovaire et

même un comportement social en 959 cellules.même un comportement social en 959 cellules.

– Descendance: environ 300

– Génome disponible depuis 1999: le premier génome animal complet. p

– Pour chaque gène humain d'intérêt, l'homologue dans C. elegans peut être identifié en quelques minutes. Trouver sa fonction dans le ver est ensuite relativement facile par

100 Mb

14000 gènesK.O. (Knock Out).

22

14000 gènes

Drosophila melanogasterDrosophila melanogaster

• Phylum• Phylum:– Metazoaire, Insecte

• Modèle pour• Modèle pour– Génétique

– Développementpp

– Biochimie

– Biologie cellulaire Wikipedia

• Avantages– Facilité d’élevage

é é i bi– Génétique bien connue

170 Mb

12000 gènes

23

12000 gènes

Ciona intestinalisCiona intestinalis

Ph l• Phylum– Urochordés (chordés primitifs), Tuniciers

• Modèle pourp– Gènes Hox, développement

– Contient la plupart des gènes de signalisation et de développement designalisation et de développement de l’homme

– Origine des chordés/vertébrésWikipedia

• Avantages– Le plus petit génome parmi les chordés

pouvant être manipulés

p

expérimentalement

– Le système experimental le plus simple chez les chordés 160 Mb

24

16000 gènes

Nous sommes des poissons!Nous sommes des poissons!

Les poissons ne forment pas un groupe monophylétique.

Ostéichthyes (un poisson osseux) Poissons cartilagineux

Sarcopterygiens Actinoptérygiens

coelacanthedipneusteTeleostéens

tétrapodes

reptilesmammifères

Majorité des poissons

5: 25

Danio rerioDanio rerio

Ph l• Phylum– Métazoaire, Vertébré,

TéléostéensTéléostéens

• Modèle pour– Evolution des vertébrés Ensembl

– Développement

– Génétique

– Régénération des organes

• AvantagesDé l id d– Développement rapide de l’embryon

– Embryons grands, transparents, 1,5 Gby g presistants

26

47000 gènes

XenopusXenopus

Ph l• Phylum– Métazoaire, Vertébré, Amphibien

• Modèle pour• Modèle pour– Développement des vertébrés

– Processus cellulaires chez les vertébrésProcessus cellulaires chez les vertébrés

• Avantages– Grands oocytes (1mm): facilité

X. laevis, X. tropicalis, Photo of Enrique Amaya

y ( )d’expression d’ARN exogène + suivi embryon, ou utilisation d’extraits cytoplasmiquescytoplasmiques

– Pb avec X. laevis: génome tetraploïde ‐> utilisation de X. tropicalis (diploïde) 1.5 Gb

27

18 000 gènes

Mus musculusMus musculus

• PhylumPhylum– Métazoaire, Mammifère

• Modèle pourp– Maladies humaines, cancers

– Essais pharmaceutiques

• Avantages– Reproduction relativement rapide

Wikipedia

– KO/clones

3 Gb

22000 gènes

28

22000 gènes

Les génomes non modèles mais prioritairesLes génomes non modèles mais prioritaires

• Pathogènes procaryotes• Pathogènes procaryotes– Staphilococcus aureus, Yersinia pestis …

• Pathogènes eucaryotes• Pathogènes eucaryotes– Plasmodium falsciparum, …

• CulturesCultures– Oryza sativa, Zea mays…

• Bétail– Sus scrofa, Bos taurus…

• Biotechnologie– Lactobacillus, Rhyzobium…

• Génomique comparative– Pan troglodytes, Ciona savignyi…

29

Homo sapiensHomo sapiens

• PhylumPhylum– Métazoaire, Mammifère, Primate

• Modèle pourp– Mauvais modèle, mais intéressant

à plus d’un titre

• Inconvénients– Expérimentation impossible sauf

cellules somatiques en culture

Raël

cellules somatiques en culture (Hela..)

– Temps de génération lent

3 Gb

22000 gènes

30

22000 gènes

2. Les programmes Génome2. Les programmes Génome

31

L GéLes programmes Génome

• Préhistoire– Séquençage de Sanger

A l é d’ i é d– Avant le séquençage d’organismes: séquençage de bactériophages.

– Plus grande séquence obtenue avant projets « Génome »: bactériophage 1: 50.000pb

– Comment passer à plusieurs millions de bp?

– Bactérie: 0,5 – 8 Mb– Eucaryote unicellulaire: à partir de 3Mb

Mammifère: 3000 Mb– Mammifère: 3000 Mb

32

Organisme Bp Genes ratio

HIV‐1 10 000 10 1 000

H hil i fl 1 830 000 1703 1 000Haemophilus influenzae 1 830 000 1703 1 000

Escherichia coli 4 600 000 4288 1 000

Methanococcus jannashchii 1 660 000 1738 1 000

Amoeba dubia 670 000 000 000 ~5000? 134 000 000

Amoeba proteus 270 000 000 000 ~5000? 54 000 000

Saccharomyces cerevisiae 13 000 000 5885 2 000

Erysiphe cichoracearum(champignon)

1 500 000 000 ~10 000? 150 000

Coscinodiscus asteromphalus(di t é )

25 000 000 000 ~5000? 5 000 000(diatomée)

Caenorhabditis elegans 100 000 000 ~14 000 7 000

Drosophila melanogaster 170 000 000 ~12 000 14 000

Arabidopsis thaliana 120 000 000 ~26 000 5 000

Lilium formosanum(nénuphar)

36 000 000 000 ~15 000? 2 400 000

?Zea mays 5 000 000 000 ~20 000? 250 000

Allium cepa(oignon)

18 000 000 000 ~20 000? 900 000

P t t thi i

33

Protopterus aethiopicus(dipneuste)

140 000 000 000 ~40 000? 3 500 000

Homo sapiens 3 400 000 000 ~22 000 150 000

Le Programme Génome HumainLe Programme Génome Humain

• Le programme Génome tel que défini par le DOE en 1990• Le programme Génome tel que défini par le DOE en 1990– Carte génétique, résolution 2 à 5 cM (4 à 10 Mb chez l'homme)

– Carte physique résolution 100 kbCarte physique, résolution 100 kb

– A long terme, séquençage du génome humain (après amélioration des techniques)

– Séquençage du génome d'espèces modèles

– Ajouté en 93: identification du plus grand nombre de gènes possible (par séquencage de cDNA)possible (par séquencage de cDNA)

34

Cartographie génétiqueCartographie génétique

• Hybrides d'irradiationOn recherche ce que deviennent des marqueurs: retrouver 2 marqueurs dans le même hybride indique leurmême hybride indique leur proximité. Par exemple, utilisation des marqueurs STS: le marqueur STS s1 est qretrouvé dans les hybrides hi,hj,hk, le marqueur s2 est retrouvé dans les hybrides hl, h t D d éhm, etc. De ces données, on déduit une proximité ou non des marqueurs s1 et s2.Résolution: 1‐2MbRésolution: 1‐2Mb

Carte Généthon 1996

5264 microsatellites résolution 1 6 cM (~3 Mb)5264 microsatellites, résolution 1,6 cM ( 3 Mb)

35

Cartographie PhysiqueCartographie Physique

BUT: rendre disponible toute région voulue d'un génome sous forme d'un fragment d'ADN cloné.d ADN cloné.1. Création d'une banque d'ADN du génome étudié 2. Identifier chaque clone 3. Ordonner/positionner clones sur le chromosome

• Banques Génomiques– Phages, Cosmides: inserts de 15‐20kb: pour petits génomes – YAC (Yeast Artificial Chromosome): inserts de 500kb‐1Mb. Grands génomes. – Une banque génomique humaine se présente sous la forme d'une collection de

plusieurs centaine de microplaques à 96 puits, chacun contenant un clone.

• Ordonnancement des clonesSi l' è d t é éti d l ( l– Si l'on repère un marqueur de carte génétique dans un clone (par exemple par hybridation), ce clone se trouve directement positionné.

– On peut également utiliser le recouvrement entre clones pour les positionner les uns par rapport aux autres.

– On peut aussi utiliser les STS (Sequence Tagged Sites): des séquences quelconques uniques dans le génome. Le fait de retrouver le même STS dans 2 clones indique qu'ils se chevauchent.

36

Notation et Carte CytogénétiqueNotation et Carte Cytogénétique

– Chaque chromosome humain possède un bras court ("p" pour "petit")q p ( p p p )et un bras long ("q" pour "queue"), séparés par un centromère. Les extrémités du chromosome sont appelées télomères.

– Chaque bras chromosomique est divisé en régions ou bandes é é bl à l' d d lcytogénétiques visibles au microscope à l'aide de certaines colorations.

Les bandes sont nommées p1, p2, p3, q1, q2, q3, etc., en allant du centromère vers le télomère. A plus haute résolution, des sous‐bandes apparaissent à l'intérieur des bandes. Les sous‐bandes sont numérotésapparaissent à l intérieur des bandes. Les sous bandes sont numérotés dans le même ordre.

– Par exemple, la localisation du gène CFTR sur la carte cytogénétique est 7q31.2, c'est à dire:

– Chromosome 7, bras q, bande 3, sous‐bande 1, et sous‐sous‐bande 2. Les extrémités du chromosome sont nommées ptel et qtel. La notation 7qtel indique la fin du bras long du chromosome 7.

37

Le séquençage de Sanger (1977)Le séquençage de Sanger (1977)

• Séquençage par terminaison dedideoxynucléotides

• Séquençage par terminaison de chaine– Utilisation de dideoxynucléotides pourUtilisation de dideoxynucléotides pour

interrompre la synthèse à un certain type de base.

4 é ti di tif– 4 réactions + marquage radioactif

• Amélioré en 1987 par l’introduction de marqueurs flurorescents (1 seulede marqueurs flurorescents (1 seule réaction) et l’automatisation.

Wikipedia

38

Séquençage Shotgun

• Principe général– Cosmide ou BAC sous‐cloné en

fragments de petite taille D l él é– Des clones prélevés aléatoirement sont séquencés

– Des séquences contigües sont reconstruites par precouvrement

– Les séquences restantes sont réalisée de façon dirigée. On oit to t de s ite q e cette– On voit tout de suite que cette approche est problématique en présence de longues régions répétées.

39

Shotgun hierarchiqueShotgun hierarchique– Le shotgun hierarchique ou

"clone par clone" implique de générer un jeu de clones de grande taille (100‐200kb) couvrant le génome puis de soumettre au shotgunsoumettre au shotgun uniquement des clones bien choisis.

– Dans le projet de séquençage du génome humain par le consortium international, les BAC à séquencer ont été choisisséquencer ont été choisis en analysant les profils de restriction (fingerprint) de l'équivalent d'une couverture 20X en BAC, combiné à différents marqueurs physiques.

40

Assemblage des clones en contigs

– On doit assembler les clones pour reconstituer le chromosome.

– Ceci commence par un assignement des clones au bon chromosome, àCeci commence par un assignement des clones au bon chromosome, à l'aide des cartes physiques, STS etc. (présence de marqueurs dans le clone et dans le chromosome).

– Puis on recherche des recouvrements dans les séquences des clones LePuis on recherche des recouvrements dans les séquences des clones. Le recouvrement peut comprendre plusieurs séquences initiales avec gaps, donc pas forcément facile (voir figure ci‐dessous).

– L'assemblage final est appelé un "squelette de contigs" (contig scaffold)– L assemblage final est appelé un squelette de contigs (contig scaffold).

41

Shotgun « génome complet »Shotgun génome complet

l h " l " ( h l– le shotgun "genome complet" (whole‐genome shotgun) s'applique normalement aux génomes relativement simples en exploitant au maximum lesrelativement simples, en exploitant au maximum les informations de cartographie et la bioinformatique pour éviter les mésassemblages.

– Employé par la Sté Celera pour le séquençage du génome de la Drosophile, puis du génome humain

Craig Venter42

Expressed Sequence Tags (ESTs)Expressed Sequence Tags (ESTs)

– EST = Séquences partielles d'ADNc clonés et prélevés aléatoirement– EST = Séquences partielles d ADNc clonés et prélevés aléatoirement.

– Idée initiale: • pourquoi vouloir tout séquencer (95% de junk DNA) si ce sont les gènes qui nous intéressent?

• Puis après séquençage génome: pour l’étude des transcrits• Puis après séquençage génome: pour l étude des transcrits

– Grandes applications:Grandes applications:• Cataloguage des gènes

• Formes alternatives des transcrits

• Profils d'expression/Northerns virtuels• Profils d expression/Northerns virtuels

43

Utilisations des ESTUtilisations des EST

• Profils d'expression• Profils d expressionUn test statistique (Test de Fisher) permet de déterminer si les différences de niveaux d'expression sont significatives.

Le mode d'obtention des EST peut introduire des biais dans ces profils (par exLe mode d obtention des EST peut introduire des biais dans ces profils (par ex. banques normalisées: les EST les plus fréquents sont réduits).

Vu le coût associé à la création de banques d'EST utilisables en analyse quantitative, on s’est penché sur d'autres techniques de mesure d'expression q , p q pcomme les puces à ADN. Mais depuis, le séquençage est devenu abordable.

44

Les EST pour déterminer la structure des gènes

Blast d'un contig de 10kb contenant un gène unique contre la banque dbEST. La dernière ligne

b fen bas est un artefact (séquences répétées).

exon

intron1 EST

EST et é iépissage alternatif

Skipped ppexon

Ecueils à la prédiction des transcrits par les ESTEST

Priming interne– Priming interne

– Rétention d’introns => notion de « spliced EST »

Gè h h t– Gènes chevauchants

– Mauvaise couverture 5’( f b f ll l th DNA )• (cf banques full‐length cDNAs)

Les cDNA pleine longueur (full length cDNAs)Les cDNA pleine longueur (full length cDNAs)

Technologies spécifiques:

• Long-distance RT enzymes

• Cap trapping

SAGE (Serial Analysis of Gene Expression)SAGE (Serial Analysis of Gene Expression)

– Génération d'ADNc double‐brin via amorce poly(T) biotinylée. – Digestion des ADNc par enzyme coupant en moyenne tous les 256 bases – Partie 5' des ADNc récupérée par billes magnétiques couplées à une molécule de

streptavidine Sé ti 2 l t t fi ti d' li k à l' t é ité d DNA (li k– Séparation en 2 lots et fixation d'un linker à l'extrémité des cDNA (linkers différents pour les 2 lots)

– Clivage par enzyme d'étiquetage, coupant 20 bases après l'extrémité (la taille du linker est ajustée de façon à conserver un bout d'ADNc de 10 bases)

– Ligation et amplification des fragments deux par deux (ditags) en utilisant les deux linkers comme amorce (assure que tous les fragments sont amplifiés dans la même façon). Les ditags sont séparés du linker puis concaténés– Les ditags sont séparés du linker puis concaténés.

– Les concaténats sont clonés et séquencés.

49

SAGESAGE

• Image tirée du Sage Facility, Pittsburg50

Les nouvelles technologies de séquençage h débihaut‐débit

51

Le pyroséquençageLe pyroséquençage

1. ADN immobilisé (billes)454 LifeSciences/RocheBiotage/Qiagen

2. Synthèse brin complémentaire par ADN polymérase

DNA pol

3. Introduction des dNTP un par un

4. Si bon dNTP: libération PPi,

ATCGTACGGCGATCGA...GCCGCTAGCT...

p

dNTPPPi

ATP sulfurylasesynthèse ATP, et emission de lumière.300 500 t à l f i 400 000

dNTP

ATPlavage

ATP sulfurylase

Luciférase

• 300‐500nt à la fois x 400,000

52Nature Reviews Microbiology

Autres « sequencing by Synthesis »Autres sequencing by SynthesisSolexa/IlluminaSolid

• 50‐75nt à la fois x 100 millions50 75nt à la fois x 100 millions

Phase d’amplification

53

RNA‐SeqRNA Seq

• Transcriptome parTranscriptome par séquençage haut‐débit.

• On parle aussi de « deep sequencing » (Solexa)

• Précédé d’une étape de filtrage pour petits ARN dARN, permet de pêcher les miRNA, piRNA etcpiRNA, etc.

intron

54

intron

Wang et al. Nature Reviews Genetics, 2009

ChIP‐SeqChIP Seq

• ChIP Chromatin• ChIP=Chromatin immunoprecipitation

• Permet d’identifier les• Permet d identifier les sites de liaison de protéines (facteurs de p (transcription, represseurs,

h )enhancers, etc.) sur l’ADN génomique

Wikipedia

55

MetagénomesMetagénomes

F t d’ADN é é lé t i t à• Fragments d’ADN séquencés aléatoirement à partir d’un environnement donné

• Soit fragments ciblés (p. ex. ARNr 16S), soit ADN génomique

• Environnements étudiés:– Océan, intestin humain, drainage minier acide, g

• Applications:– Populations microbiennes (structure variations)Populations microbiennes (structure, variations)

– Découverte et séquençage de microorganismes

– Découverte de gènes/fonctionsDécouverte de gènes/fonctions

56

Vers une utilisation du séquençage pour d itoutes sortes de questions

• Transcriptome (fin des puces à ADN?)

$• Reséquençage, SNP (génome humain à 1000$)

• Détection d’agents infectieux / bioterrorisme

• …

57

Etat des programmes (2009)Etat des programmes (2009)

800 génomes bactériens (50 archae et 750 bactéries)– 800 génomes bactériens (50 archae et 750 bactéries) • 1er génome: haemophilus influenza (1995)

– Génomes eucaryotes:– Génomes eucaryotes: • 15 Levures

• 12 Drosophilesp

• Arabidopsis, riz, mais

• Humain, souris, rat… >20 mammifères

• Vertébrés: Fugu, Tetraodon, poulet, chordés..

• Protistes

Di i d illi d t it ( l i l t ti l )– Dizaines de millions de transcrits (pleine longueur et partiels)

– Dizaines de métagénomes (Sargasses, GOS, gut, etc…)

58

EST data 2009EST data 2009

•Human: >5000 libraries (>600 cancer)

•Mouse: >500 libraries (>30 cancer)

3. Structure et dynamique des génomes3. Structure et dynamique des génomes

L i t d éLes enseignements du séquençage

60

La composition en séquence et ses variationsp q

• La règle de ChargaffLes règles d'appariement expliquent que quelque soit la quantité d'adénine (A)– Les règles d'appariement expliquent que, quelque soit la quantité d'adénine (A) dans l'ADN d'un organisme, la quantité de Thymine (T) est la même. De la même façon, G=C.

– Mais les génomes ne sont pas uniformément constitués de 25%A, 25%T, 25%G,Mais les génomes ne sont pas uniformément constitués de 25%A, 25%T, 25%G, 25%C.

– Il existe de grandes variations d'un génome à l'autre. Par exemple, les génomes d'archaebactéries sont généralement très riches en AT.

61

Contenu en GC et isochores

– Il existe également de grandes variation à l'intérieur d'un génome. Par exemple, les régions transcrites sont souvents plus riches en GC que les régions non‐transcrites.

– Le contenu en GC moyen du génome humain est 41%

– On trouve pourtant des régions de plusieurs centaines de kb avec des contenus en GC de 33% ou 59%, ce qui représente une variation beaucoup plus grande que si la distribution était uniforme.

L i ti t f it 15 f i é i à l i ti tt d i t t " " d– La variation est en fait 15 fois supérieure à la variation attendue, avec une importante "queue" de régions riches en GC.

On a proposé que le génome soit constitué d'une mosaique de régions de composition homogène appelées isochores.

En fait, on ne trouve pas de régions vraimentEn fait, on ne trouve pas de régions vraiment homogènes en composition, mais plutôt de régions plus ou moins riche en GC.

Il existe une forte corrélation entre la richesse en GC et certaines propriétés: densité en gènes contenuGC et certaines propriétés: densité en gènes, contenu en répétitions, etc.

Un tiers du génome contient 50% des gènes (gene‐rich third)

62

Codant et nonCodant et non codant…

Chabalina et al. Genome Biology, 2004 63

Statistiques sur les gènesStatistiques sur les gènes

Gè t• Gènes procaryotes– longueur gène 950 nt. en moyenne (coli)

– Densité en gènes. 95% du génome est transcrit chez E. coli.

Gè i é é 600 é d l– Gènes organisés en opérons. 600 opérons dans le génome de Coli.

64From « Genomes 2 », T.A. Brown

Gènes eucaryotesGènes eucaryotes

– Gène humain moyen: 8,8 introns, 27 kb, 3'UTR:770bp, 5'UTR:300bp, CDS:1340bp, exon moyen: 145 bp (218 bp pour C. elegans).

– Gènes "monstres": dystrophine: 2,4 Mb; Facteur de coagulation VIII: 186 kb, 26 exons; Tinine: CDS de 80780 bp, 178 exons

– Densité: humain: 1 gène tous les 150kb en moyenne; C.elegans: 1gène/5‐6kb (25%); S. Cerevisiae: 1 gène/2kb. From « Genomes 2 », T.A. Brown

R 22000 è d 30kb 0 7Gb d l è d tRemarque: 22000 gènes de 30kb en moyenne = 0,7Gb: donc les gènes codants représentent au moins 1/4 du génome humain (attention: seul 1.5% du génome est codant) 65

Gènes eucaryotes: les intronsGènes eucaryotes: les introns

– intron humain moyen: 3365 bpintron humain moyen: 3365 bp

– Intron de ver moyen: 267bp

– Intron de mouche moyen: 487bp

– S. cerevisiae: 4% des gènes ont des introns, seulement 10 gènes sur 6200 en ont plus d'un10 gènes sur 6200 en ont plus d un.

– H. sapiens: 95% des gènes ont des introns.

66

Relation taille / nb gènesRelation taille / nb gènes


Duplication de fragments/


Escherichia coli 4 600 000 4288 1 000

Methanococcus jannashchii 1 660 000 1738 1 000

Amoeba dubia 670 000 000 000 ~5000? 134 000 000

gènesAmoeba dubia 670 000 000 000 5000? 134 000 000

Saccharomyces cerevisiae 13 000 000 5885 2 000

Erysiphe cichoracearum(champignon)

1 500 000 000 ~10 000? 150 000

Séquences répétées

Caenorhabditis elegans 100 000 000 ~14 000 7000

Drosophila melanogaster 170 000 000 ~12 000 14 000

Arabidopsis thaliana 120 000 000 ~26 000 5 000

Expansion des introns

Zea mays 5 000 000 000 ~20 000? 250 000

Allium cepa(oignon)

18 000 000 000 ~20 000? 900 000

Homo sapiens 3 400 000 000 ~22 000 150 000 intronsHomo sapiens 3 400 000 000 22 000 150 000

67

Structure des transcritsStructure des transcrits

68

Alternative SplicingAlternative Splicing

3 sex-determining genes in Drosophila:3 sex-determining genes in Drosophila:

69

Alternative splicingAlternative splicing

6000 (5% ith i t )6000 genes (5% with introns)3 cases of AS

18000 genes~10% AS

14000 genes~35% AS

22000

~35% AS

22000 genes Alternative splicing may compensate for relative scarcity of genes in vertebrates>85% AS

70

Alternative polyadenylationAlternative polyadenylation

Pre‐mRNA

Coding sequence

To 5' end

AUUAAAAAUAAA CA GUUGU3' UTR

CA GUUGU

AAAAAAAAA...

RNA l i i

AAAAAAAAA...

mRNA alternative transcripts

Humain: >60% Alt polyadenylationHumain: >60% Alt. polyadenylation

71

Alternative promoters

• Alternative promoters in UDP glucuronyl transferase (Carninci et al. 05)

72

Science, 2005

– 100,000 Full length cDNAs

– + 1M « CAGE » (sortes de SAGE en 5’)

Principaux résultats de « FANTOM3 »Principaux résultats de FANTOM3

– 32000 transcrits non‐codants

– 16000 nouveaux transcripts codants

– 5000 nouvelles protéinesp

– La majorité du génome est transcrit sur les deux brins

– La grande diversité des transcrits dans chaque Unité deLa grande diversité des transcrits dans chaque Unité de Transcription soulève le problème de la précision des puces ADN conventionnelles, dans lesquelles chaque sonde hybride différents transcrits

Utilité des full‐lengths et des CAGEUtilité des full lengths et des CAGE

– Etude des promoteurs (impossible avec les EST)EST)

– Transcription Starts Sites (TSS) alternatifs, exons 5’ alternatifsexons 5 alternatifs

Visualisation des démarrages de transcription d l è 3’ l CAGEdans les gènes et en 3’ par les CAGE

Transcrits et Unités de TranscriptionTranscrits et Unités de Transcription

TU: Transcription Unit mRNAs sharing at– TU: Transcription Unit. mRNAs sharing at least 1 nt and with same location and orientation

– D’après les résultats FANTOM3: >7 transcrits différents par TU

ExempleExemple d’annotation

CAGECAGE + cDNA

Genome Browser

d laboratoiredu laboratoire

Riken

Transcrits chevauchants et antisensTranscrits chevauchants et antisens

Junk DNA: les séquences répétées dans le é h igénome humain

• 5 classes de séquences répétées – Répétition de type transposon (ou interspersed repeats)– copie rétro‐transposées inactives de gènes (protéines ou ARN) (processed pseudogenes)– copie rétro‐transposées inactives de gènes (protéines ou ARN) (processed pseudogenes) – Répétition simples de k‐mères courts, p. ex. (A)n, (CA)n ou (CGG)n – Segments dupliqués: blocs de 10–300 kb copiés d'une région à l'autre – Blocs de séquences répétes en tandems (centromères, télomères, clusters de gènes

ib i )ribosomiques)

• Un ADN pas si "poubelle" que ça qui joue un grand rôle dans la transformation des gènes et l'apparition de nouveaux gènes.

• Il y a des régions pauvres en répétitions (p. ex. région des gènes HOX) et des régions riches (région de 500kb du chr. 11 contenant 89% d'éléments transposables)

• Les répétitions humaines sont relativement anciennes comparées à celles qu'on trouve dans le génome de drosophile Notre génome a des difficultés pour se débarasser desdans le génome de drosophile. Notre génome a des difficultés pour se débarasser des répétitions.

80

Retroposons et pseudogènesRetroposons et pseudogènes

Deux mécanismes proches

From « Genomes 2 », T.A. Brown81

Séquences répétées de type transposonSéquences répétées de type transposon

é é é é d é l d /3 d• Les séquences répétées de type transposon représentent plus de 1/3 du génome des vertébrés

• Génome humain: 45% !!

82

LINES (Long interspersed repeated sequences)LINES (Long interspersed repeated sequences)

– 21% du génome humain (850.000 copies). Le plus commun de ces éléments est L1: 6kb. – Contiennent un promoteur Pol‐II et 2 ORFs. – Après traduction, l'ARN LINE s'assemble avec ses propres protéines et se déplace vers le

noyau où l'ARN est reverse transcrit et s'insère dans le génome au niveau d'une coupure simple brin. La transcription inverse s'interrompt souvent avant terme, créant de nombreux i t t é (l l t f it)inserts tronqués (la plupart en fait)

– La machinerie LINE est responsable également de la retrotranscription des éléments SINE. – Il y a en fait trois familles de LINE dans le génome humain (LINE1, LINE2, LINE3), mais seule L1

est active.

>L1 element| Human L1 interspersed repetitive sequence-full length copy ggcggtggagccaagatgaccgaataggaacagctccagtctatagctcccatcgtgagt gacgcagaagacgggtgatttctgcatttccaactgaggtaccaggttcatctcacaggg

t t t t t t t t taagtgccaggcagtgggtgcaggacagtagtgcagtgcactgtgcatgagccgaagcagg gcgaggcatcacctcacccgggaagcacaaggggtcagggaattccctttcctagtcaaa gaaaagggtgacagatggcacctggaaaatcgggtcactcccgccctaatactgcgctct tccaacaagcttaacaaatggcacaccaggagattatatcccatgcctggctcagagggt cctacgcccatggagcctcgctcattgctagcacagcagtctgaggtcaaactgcaaggt ...

83

SINEs (Short interspersed repeated sequences)SINEs (Short interspersed repeated sequences)

– Contiennent un promoteur pol‐III mais pas d'ORF

– Vivent sur le dos des LINE

13% du génome humain 3 types: Alu MIR et Ther2/MIR3– 13% du génome humain. 3 types: Alu, MIR et Ther2/MIR3.

– (1 500 000 SINEs par génome humain haploide, dont 1 000 000 Alu)

– La plus connue est ALU, la seule SINE active: 290 bp constitué de 2 répétitions en tandem de 130 bp.

– On ne trouve pas ces séquences dans les régions codantes, mais souvent dans l'unité de transcription, soit dans les introns, soit dans les parties non traduites des ARNm.

>ALU | Human ALU interspersed repetitive sequence - consensus A ggccgggcgcggtggctcacgcctgtaatcccagcactttgggaggccgaggcgggcgga tcacctgaggtcaggagttcgagaccagcctggccaacatggtgaaaccccgtctctact aaaaatacaaaaattagccgggcgtggtggcgcgcgcctgtaatcccagctactcgggag gctgaggcaggagaatcgcttgaacccgggaggcggaggttgcagtgagccgagatcgcg

ccactgcactccagcctgggcgacagagcgagactccgtctcaaaaaaaa

84

Autres transposonsAutres transposons

• Retrotransposons à LTR – Long terminal repeats avec tous les éléments de régulation de

transcription

– A l'intérieur: protease, reverse transcriptase, RNAse H et integrase

– L'acquisition du gène env suffit pour en faire un véritable rétrovirusL acquisition du gène env suffit pour en faire un véritable rétrovirus exogène.

T ADN• Transposons ADN – Ressemble aux transposons bactériens

– Flanqué par répétitions inversées a qué pa épét t o s e sées

– Code pour une transposase

– Au moins 7 classes de transposons ADN dans le génome humain

85

Autres séquences répétéesAutres séquences répétées

• Les répétitions simples (Simple Sequence Repeats ‐ SSR) p p ( p q p )– Répétition parfaite ou non d'un fragment de longueur k (k‐mère). – Fragment court (1 à 13b): microsatellite – Fragment long (14 à 500b): minisatellite

Représentent 3% du génome humain 0 5% provenant des répétitions de dinucléotides (85%– Représentent 3% du génome humain, 0,5% provenant des répétitions de dinucléotides (85% AC ou AT).

– Un SSR tous les 2kb en moyenne

• Les duplications de segments – Blocs de 1 à 200kb transférés entre différentes positions du génome (inter ou intra‐

chromosomique) – Exemple sur chromosome 17: 3 copies d'un segment de 200‐kb séparées par environ 5 Mb + 2

copies d'un segment de 24‐kb séparées par 1.5 Mb. – Génome humain: représentent 3,6% du génome (à un niveau > 90% identité). – Arabidopsis: 58% du génome est constitué de segments dupliqués

• Péricentromères et subtelomèresChaque centromère est constitué de zones de duplication interchromosomique– Chaque centromère est constitué de zones de duplication interchromosomique.

– P. ex. le Chromosome 22 contient une region de 1.5 Mb adjacente au centromère constituée à 90% de duplications interchromosomiques (en provenance d'autres chromosomes).

– Ces duplications sont complexes, avec de nombreux évènements, souvent récents, séparés par des répétitions de type minisatellite riches en AT ou en GCpar des répétitions de type minisatellite riches en AT ou en GC.

86

Evolution et variation des génomes

87

Réarrangements chromosomiquesRéarrangements chromosomiques

– Translocations

– Inversions

– Délétions

88

Duplications, apparition des nouveaux gènesDuplications, apparition des nouveaux gènes

D li i• Duplications– Duplication du génome entier ou polyploïdisation (plusieurs cas chez les

eucaryotes, par exemple chez les téleostéens, principale classe de i )poissons)

– Duplication d’un gène ou d’un groupe de gènes (fréquent)– Duplication d’un chromosome ou d’une partie (rare car délétère)– La duplication est suivie le plus fréquemment de la perte de gènes: 90%

des gènes dupliqués à l’origine des vertébrés auraient été perdus depuis.

• Transferts horizontaux– Très important entre génomes procaryotes– Arrive de procaryote à eucaryote

89

Role des éléments transposablesRole des éléments transposables

Par leur capacité à initier des recombinaisons entre– Par leur capacité à initier des recombinaisons entre différentes parties du génome (dû à leurs séquences presque identiques)presque identiques)

– Par la création de nouveaux éléments fonctionnels (exaptation)( p )• Exons

• Enhancers

90

L’apparition des intronsL apparition des introns

(Concerne les introns de type GT AG pas les introns catalytiques– (Concerne les introns de type GT‐AG, pas les introns catalytiques issus du RNA world)

• 2 hypothèses2 hypothèses– « Intron early ». Les introns étaient présents dans l’organisme

ancestral (y compris les bactéries). Ils disparaissent petit à petit.

– « Intron late »: apparition chez les premiers eucaryotes, puis prolifération

– Aucune hypothèse n’est clairement réfutée à ce jourAucune hypothèse n est clairement réfutée à ce jour• Disparition des introns chez les levures

• Augmentation chez les metazoaires

91

La synténieLa synténie

Le séquençage des premiers génomes a révélé que l’ordre des gènes était beaucoup moins conservé que les séquences.

Une région observée chez deux organismes est dite synténique lorsqu'elle n'a pas subi de réarrangement depuis l'ancêtre commun de ces deux organismes.

Humain/souris: environ 150 réarrangements. Régions synténiques de 8,8cM en moyenne.

Chlamidia trachomatis / chlamydophila pneumoniae

92

En quoi nos génomes diffèrent‐ils?En quoi nos génomes diffèrent ils?

• Les individus d’espèces différentes ont des génomes différents par la taille l’ordre et la nature des informationsdifférents par la taille, l ordre et la nature des informations qu’ils contiennent.

• On considère souvent que 2 individus de la même espèceOn considère souvent que 2 individus de la même espèce possèdent le « même » génome.

• En fait, le génome de chaque individu est unique. Chez g q ql’homme le génome diffère de 0.5% entre 2 personnes non apparentées

93

La ressemblance entre génomesg

• Homme A / homme B– 99,5% identique (0,5% différence)

• Homme/chimpanzé– Codant: 98 5% identiqueCodant: 98,5% identique– Non codant: ~97% identique– Quelques duplications/délétions importantes de région de quelques

dizaines de kbdizaines de kb

• Homme/souris – Codant: 90% identique

N d t l j ité t id tité t i t– Non codant: la majorité est sans identité apparente, mais on trouve quand même de nombreux segments semblables (« conservés »)

• Homme/pouletd d– Codant: 80% identique

• Homme/poisson– Codant: 70% identique

94

Les variations du génome dans une l ipopulation

• Très importantes médicalement– Pharmacogénomique: comment chaque patient répond aux drogues

– Marqueurs de susceptibilité aux maladies

• Polymorphismes dans le génome humain• Polymorphismes dans le génome humain – Insertions, délétions, duplications, réarrangements

• rares et peu étudiés

– Microsatellites etc..

– Single Nucleotide Polymorphism (SNP)

95

Single Nucleotide Polymorphism (SNP)

Le polymorphisme le plus commun chez l'homme. Stable Beaucoup n'ont pas d'implications fonctionnelles 1 SNP tous les 100 à 300 nt. 3 200 000 dans le génome. En comparant 2 individus, on trouve un SNP toutes les

/1000/2000 bases.

ApplicationsLes SNP constituent une trace historique pour l'étude de la phylogénie humaine: ils mutent lentement et ont peu de chance de réapparaître de façon récurrente.

à l' i i d ibili é dLes SNP sont à l'origine de susceptibilité ou de résistance à de nombreuses maladies. Cartographie de maladies à caractères complexes (cancers diabète maladies mentales)(cancers, diabète, maladies mentales) Prédiction des réponses aux drogues.

96

HaplotypesHaplotypes

– Haplotypes: combinaison d'allèles tendant à ê bl ( d d kb d

Chromosome 21: Fragment de 106kb contenant 18 blocs

être transmis ensemble (qq dizaines de kb de long)

– Les SNP sont parfaitement adaptés pour identifier les haplotypes

haplotypes

identifier les haplotypes

– Chaque haplotype existe en quelques versions dans la population

– Dans l’exemple ci‐contre une région de 19kb

26 SNP, 19kb

Dans l exemple ci contre une région de 19kb est dominée par 4 haplotypes

– 2 SNP suffisent pour repérer l’haplotype d’un patient

– Evite des reséquençages

The Scientist, mai 2004

populationpopulation

97

Le génome du Dr. VenterVenter

PloS Biology, 2007

Pour la première fois: deux jeux de chromosomes (maternel et paternel) entièrement séquencés. p ) qDifférence de 0,5%

98

Les banques de données génomiques

99

Genbank: La banque d’ADN du NIHGenbank: La banque d ADN du NIH

• Etat Dec 2009 – 110x109 bases

110 106 é– 110x106 séquences

– Genbank double environ tous les 14 mois depuis ses débuts

1982en 1982.

– Nouvelle version tous les 2 mois

100

Divisions de GenbankDivisions de Genbank

– ESTs (Expressed sequence tags): Principale division ed Genbank 18 106Principale division ed Genbank. 18 10sequences, 580 organismes différents

– GSS (Genome Sequence Survey): résultats de séquençages aléatoire de ésu tats de séque çages a éato e deBAC, dans le cadre de projets Génome. Non assemblées, courtes.

– HTGS (High Throughput Genomic Sequences): séquences génomiques en cours d’assemblage. Une fois complètement assemblées, les séquences passent dans les divisionsséquences passent dans les divisions « organisme ».

– Bacteries (BCT), virus (VRL), primates (PRI), rongeurs (ROD) etc: divisions(PRI), rongeurs (ROD) etc: divisions « organismes ».

– SRA: Sequence Read Archive (Séquences Ultra‐haut débit)

– ~20 divisions en tout. Organismes dans Genbank (en 2002)

101

Enregistrement GenbankEnregistrement Genbank

– Chaque enregistrement se voit attribuer un numéro d’accession, stable et unique, et chaque séquence un numéro GI.

– Quand un changement est effectué dans un enregistrement Genbank, le g g ,num. d’accession reste, le GI change.

102

Enregistrement Genbank avec annotationEnregistrement Genbank avec annotationLOCUS L10986 47233 bp DNA linear INV 21-SEP-2004DEFINITION Caenorhabditis elegans cosmid F10E9, complete sequence.ACCESSION L10986VERSION L10986.2 GI:38638818VERSION L10986.2 GI:38638818KEYWORDS HTG.SOURCE Caenorhabditis elegansORGANISM Caenorhabditis elegans

Eukaryota; Metazoa; Nematoda; Chromadorea; Rhabditida;Rhabditoidea; Rhabditidae; Peloderinae; Caenorhabditis.

REFERENCE 1 (bases 1 to 47233)AUTHORS .AUTHORS .CONSRTM WormBase ConsortiumTITLE Genome sequence of the nematode C. elegans: a platform for

investigating biology. The C. elegans Sequencing ConsortiumJOURNAL Science 282 (5396), 2012-2018 (1998)MEDLINE 99069613PUBMED 9851916

FEATURES Location/Qualifiers

BASE COUNT 2598 a 2024 c 1888 g 2449 tORIGIN

1 ttctaaaagt cgaaaaacga gcaatttttg atgctagatt ttttgatttg acgaattttt61 tcagtttttt ttctttaaaa aaggtttttg accccttaaa gttttccttt cccttccaat

121 tttttccttc tttcttatac gacttctcaa gtttcaactc taaaacaaag ctacatgtac181 atttccggta aactttgtgt ctcagaagat ccattttctt tttgttacat ttattcaaga241 ttgaattcca aaatttcagc caatatggac agttgcgaag aggaatgcga tctggaagttFEATURES Location/Qualifiers

source 1..47233/organism="Caenorhabditis elegans"/mol_type="genomic DNA"/strain="Bristol N2"/db_xref="taxon:6239"/chromosome="III"/clone="F10E9"

241 ttgaattcca aaatttcagc caatatggac agttgcgaag aggaatgcga tctggaagtt301 gacagtgacg aagaagatca actttttggt gaaaagtggt gagttcttat tgtggtaacc361 aaagaaatgt cagtggtccg taaacacttg actcccaaat ggtttctcgt aattacctta421 tgcacacttt tcaagtgttt gccgtttgat cttagccaat ttgaaacgtt tagatgttaa481 atggaaaatg ggtaaagttt tttattttat agaaaaaagg tttggaaaaa aatcgagtca541 ctgaatagtt tgaagaacgg aaaaataaaa ctttccaaaa atcataaaac atttagtgtt601 tcgaaaatta tagtgttttt tttgttggta tgttttgaca aaagctaaac catctttatt661 gtagttttgt aaaatgttca caaagatgcg tttttttttc aaatttggca ggctatcttt721 acattcacat ttggataatt caaatttttc ttatcgctaa caaattttcc tatttttcca/

gene 265..26728/gene="mig-10"/locus_tag="F10E9.6"

CDS join(265..338,3266..3515,15194..15317,21507..21602,21727..21887,23171..23335,24302..24472,24524..24608,25012..25827,26284..26430,26478..26728)/gene="mig-10"

gg g781 attattcgtt tttataaagc tttggtagta tgttgtgtct atctttagtg gtcatcagtt

. . .//

/g g/translation="MDSCEEECDLEVDSDEEDQLFGEKCISLLSSLLPLSSSTLLSNA

INLELDEVERPPPLLNVLEEQQFPKVCANIEEENELEADTEEDIAETADDEESKDPVEKTENFEPSVTMDTYDFPDPYPVQIRARPQVPPKPPIDTVRYSMNNIKESADWQLDELLEELEALETQLNSSNGGDQLLLGVSGIPASSSRENVKSISTLPPPPPALSYHQTPQQPQ

. . .QVYTGIGWEKKYKSPTPWCISIKLTALQMKRSQFIKYICAEDEMTFKKWLVALRIAKNGAELLENYERACQIRRETLGPASSMSAASSSTAISEVPHSLSHHQRTPSVASSIQLSSQ Q QHMMNNPTHPLSVNVRNQSPASFSVNSCQQSHPSRTSAKLEIQYDEQPTGTIKRAPLDVLRRVSRASTSSPTIPQEESDSDEEFPAPPPVASVMRMPPPVTPPKPCTPLTSKKAPPPPPKRSDTTKLQSASPMAPAKNDLEAALARRREKMATMEC"

. . .

103

Autres banques nucléotidiquesAutres banques nucléotidiques

• EMBL: Equivalent européen de Genbank. Format différent, contenu presque identique.

• DDBJ: équivalent au Japon

B é i li é C i ll i d é bi• Banques spécialisées Certaines collections de séquences, bien que généralement présentes dans Genbank, sont beaucoup plus utiles lorsqu'elles sont rassemblées dans des banques p q qspécialisées, par ex: – Récepteurs des lymphocytes T (Réarrangements de l'ADN)

– Génomes HIV, etc.

• Banques pour BlastNR nucléique (« Non redundant ») All GenBank+EMBL+DDBJ+PDB– NR nucléique (« Non‐redundant »). All GenBank+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2 HTGS sequences). (n’est plus “non‐redondant”)

DbEST: dbest Database of GenBank+EMBL+DDBJ sequences from EST– DbEST: dbest Database of GenBank+EMBL+DDBJ sequences from EST Divisions

104

Banques protéiquesBanques protéiques

– Swissprot. La mieux annotée des banques protéiques. p q p q2008: 260.000 entrées. • Attention: toutes les protéines connues n'y sont pas!

– TrEMBL: banque de protéine produite automatiquement. 2008: 4.200.000 entrées

– Uniprot=Swissprot+TrEMBL

– Dizaines de Banques spécialisées• Cazy (Carbohydrate Active Enzymes)

• Etc.

Pour Blast– Pour Blast• NR Protéique (Non‐redundent): Banque protéique du NCBI = Traduction de tous les CDS de GenBank + PDB + SwissProt + PIR + PRF ‐ redondances.

105

Ensembl (www.ensembl.org)Ensembl (www.ensembl.org)

– Plusieurs banques en une: • Peptides confirmés

• Transcrits confirmés

• peptides prédits

• Transcrits prédits

• Génome assemblé (golden path)

– + un genome browser

– Méthode de prédiction (système Genewise): Genscan sur contig, puis Blast contre: protéines, mRNA, EST

Génome humain version Sep 2008 (NCBI 36) : Confirmed protein coding– Génome humain version Sep 2008 (NCBI 36) : Confirmed protein‐coding genes: 21649; RNA genes: 4810; Predicted genes (Genscan): 49796; base pairs: 3,25 109.

106

Ensembl Species (2009)Ensembl Species (2009)

107

Ensembl: « contig view »

108

Genome browser UCSC

– http://www.genome.ucsc.edu/

109

EntrezEntrez

110

Les bases de données de transcrits alternatifsLes bases de données de transcrits alternatifs

ASAP• ASAP, AltExtron, ASTDASTD, …

ASAP interface (Lee (et al. 2003)

des génomes aux stèsystèmes - rssf.i2bc.paris-saclay.fr

Documents