m2 [email protected]...

Génétique Statistique - Cours 2M2

[email protected] préliminaire, ne pas diffuser

2018-2019

V. Perduca Gen Stat - Cours 2 2018-2019 1 / 34

1 Introduction à l’épidémiologie génétique

2 Etapes en épidémiologie génétiqueAgrégation familialeModèles de maladieAnalyse de ségrégationAnalyse de liaisonAnalyse d’association


Epidémiologie génétique

Les objetifs de l’épidémiologie génétique sont d’étudier la composantegénétique des maladies humaines :

I Mettre en évidence l’existence d’une composante génétique et lacaractériser (1 ou plusieurs gènes ? Mode d’action de chacun ?)

I Identifier les gènes et les polymorphismes fonctionnels dans ces gènesI Préciser leurs effets :

I Estimer les risques associés aux différents génotypesI Etudier leurs interactions avec l’environnement ou avec d’autres gènes


Étiologie

Maladie monogénique : la modification (mutation) d’un gène majeur estresponsable à elle seule de l’apparition de la maladie

I En général, maladies rares et graves

I Transmission selon les lois de Mendel. La transmission peut êtrerecessive ou dominante

I Ex. mucoviscidose (freq : 4/10000), myopathie de Duchenne (freq :3/100000), dystrophie musculaire, hémophilie...

Maladie multifactorielle : maladie avec composantes génétiques (etenvironnementales) multiples.

I Le nombre de facteurs impliqués en général n’est pas connu

I Gènes impliqués sont dits de susceptibilité, petits effets individuels

I Maladies communes, ex. maladies cardio-vasculaires, maladiesauto-immunes (asthme, diabète de type I, sclérose en plaques),schizophrénie, cancers


Modèle monogénique général (1)

I On note Y le phénotype (i.e. ce qu’on observe : la maladie).

I On note X le génotype étudié (i.e. la mutation responsable duphénotype dans les maladies monogéniques)

I La pénétrance en génétique est la proportion d’individus quiexpriment le phénotype étudié (i.e. malades) parmi ceux possédant uncertains génotypes (e.g. les mutés) :

f = P(Y = Ddisease |X = Mmutation)


Modèle monogénique général (2)

On a un modèle probabiliste :

I Si tous les porteurs de l’allèle à risque ne sont pas nécessairementatteints :La pénétrance est incomplète

I Si un individu non porteur de l’allèle pathologique peut être atteint :Cas sporadique

I L’allèle peut être fréquent


Maladies multifactorielles et sous-entités mendeliennes (1)

Maladie d’Alzheimer

I Maladie neurodégénérative dont les causes sont multiples.

I La majorité des cas ne sont pas héréditaires, cependant certainesgènes constituent un facteur de risque.

I Le gène ApoE4 est le facteur de risque le plus important de la formesporadique :

I 3 allèles : apoE2, apoE3 et apoE4I apoE3(78%) et apoE4(15%) sont les plus fréquentsI apoE4 est associé à un risque très accru de la maladie.

I environ 0,1% des cas sont des formes génétiques familiales :I transmission autosomique dominanteI maladie due à une mutation dans un de ces 3 gènes :

I gène APP sur le chromosome 21I gène PSEN1 (préséniline1) sur le chromosome 14I gène PSEN2 (préséniline2) sur le chromosome 1.

I apparition précoce des signes (avant 65 ans)


Maladies multifactorielles et sous-entités mendeliennes (2)

Cancer du sein

I 25% des nouveaux cas de cancer chez la femme

I 5 à 10% de cas familiaux dont 3 à 4% dus à des mutations dans lesgènes BRCA1 et BRCA2 (transmission autosomique dominante)

I Leurs ”caractérisations” reposent sur :I concentration familialeI âge plus précoceI formes souvent plus sévères


Etapes de l’Epidémiologie génétique (1)Le processus qui permet de trouver une ou plusieurs composantes génétiquesassociées à une maladie est souvent le fruits d’une succession d’étapes :

I Agrégation Familiale : Mise en évidence d’une concentration familiale

I Analyse de ségrégation : Teste différents modèles génétiques

I Analyse de liaison : Trouver la localisation d’un gène majeur

I Estimation de risque associé au gène majeur

I Fine mapping (cartographie fine) : Localisation d’un gène en utilisant leshaplotypes et les déséquilibre de liaison.

I Analyse d’association : Teste des gènes candidats ou tous les gènes

I Cloning : Determine la séquence moléculaire du gène

I Caractérisation : Décrit les effets du gène


Etapes de l’Epidémiologie génétique (2)

Burton, Key concepts in genetic epidemiology


Contents




Concentration familiale (1)

I On recrute des patients ”au hasard”.

I On considère leurs apparentés.

I La mise en évidence d’un risque plus élevé chez les apparentés d’unmalade que dans la population générale plaide pour l’existence defacteurs génétiques (et/ou environnementaux de type familial).


Concentration familiale (2)

Exemple : diabète de type 1 et schizophrénie en Europe

! ! !"#$%&'()'(&*+'(,((

-./"01+/234"'(

5236#7'4.'('4(+1+87#&"14((

! "#$!%!&!'!(")*! (")&!

9":;8'(+182(7

Concentration familiale (3)Une concentration familiale n’indique pas nécessairement qu’il y a unecomposante génétique ! Il pourrait s’agir d’une composanteenvironnementale spécifique des familles.

Exemple : études de médecine

! ! !"#$%&$%&'($%)*+%&&

,-(./0%+)%&%+&121#0/"*2+&&

! "#"!$!%&'(!!)*+,-!""./!!

3*45#%&12#-&06/11/-%+"(&$6#+&'/0/$%&&

01234,5! "#"!$!%&'%!)*+,-!""./!

64215-! 7$!%&'"!)*+,-!7./!

!Les membres d’une famille partagent plus que leurs gènes... Uneconcentration familiale peut être due à une corrélation pour des facteursd’environnement et/ou génétiques.


Twin studies (études de jumeaux) (1)

I Permet de séparer la corrélation environnementale et la corrélationgénétique.

I jumeaux monozygotes : issus d’un même oeuf, ils partagent le mêmepatrimoine génétique (donc même sexe)

I jumeaux dizygotes : 2 ovules fécondés par 2 spermatozöıdes(génétiquement comme des germains)

I On compare les risques relatifs chez des jumeaux monozygotes et desjumeaux dizygotes.

I Postulat : les MZ et les DZ partagent leur environnement de la mêmefaçon.⇒ Une difference de concentration de la maladie entre les jumeauxMZ et les jumeaux DZ indique que la maladie a une composantegénétique.


Etudes de jumeaux (2)

Taux de concordance = taux de similarité pour une certaine caractéristique(ex : si taux concordance = 80% entre deux jumeaux MZ pour une maladie M ; alors si unjumeau est atteint de M, la probabilité que l’autre le soit est de 80%)

les jumeaux MZ et DZ sont supposés partager leur environnement dans la mêmemesure


Quelques études de jumeaux


Limites des études de jumeaux

I Biais de recrutement en faveur des paires concordantes.

I Nombre de paires disponibles parfois faible.

I Discordances environnementales plus importantes pour les DZ quepour les MZ


Adoption studies

I Les études d’adoption cherche à séparer les effets génétiques deseffets environnementaux (comme les études de jumeaux)

I On compare des individus qui partagent un même environnementmais qui ont des ancêtres différents.

I Inconvénient : échantillons petits, particulièrement pour les maladiesrares.


Contents




Pénétrance et prevalence

I On note Y le phénotype associé au statut de la maladie, par exemple

Y = 1 pour les maladesY = 0 pour les sains

On note X le génotype d’un marquer donnée. Par exemple, pour un marquerbi-allélique, X ∈ {aa,Aa,AA} où A est l’allèle de susceptibilité (ie associé àla maladie)

I La pénétrance d’une malade est la loi conditionnelle de la maladie sachant legénotype⇒ fonctions de pénétrances :

faa = P(Y = 1|X = aa)fAa = P(Y = 1|X = Aa)fAA = P(Y = 1|X = AA)

I La prevalence est la fréquence de la maladie dans la population, ie laprobabilité d’être malade : f = P(Y = 1)

I Un modèle génétique est une loi de probabilité pour les génotypes :P(X = aa), P(X = Aa), P(X = AA)


Risques relatifs, ORs

I On a f = faaP(X = aa) + fAaP(X = Aa) + fAAP(X = AA)I Si l’allèle de susceptibilité est rare, on a P(X = aa) ' 1 et donc

f ' faaI Les risques relatifs (par rapport au genotype de référence aa) sont

RR1 = fAa/faaRR2 = fAA/faa

I Les Odds ratios (par rapport au genotype de référence aa) sont

ORAavs aa =fAa

1− fAa· 1− faa

faa

ORAAvs aa =fAA

1− fAA· 1− faa

faa


Modèles de maladieA est l’allèle de susceptibilité

I Modèle recessif :fAa = faa, fAA = c + faa avec c constante,

ie RR1 = fAa/faa = 1, RR2 = 1 + c/faa

I Modèle dominant :fAa = fAA = c + faa

ie RR1 = RR2 = 1 + c/faa

I Modèle additif :fAa = c + faa, fAA = c + fAa = 2c + faa

ie RR1 = 1 + c/faa et RR2 = 1 + 2c/faa

I Modèle multiplicatif :fAa = c · faa, fAA = c · fAa = c2 · faa

ie RR1 = c et RR2 = c2.

I Modèle codominant : les fonctions de pénétrances ne sont pas identiques (pas d’hypothèsespécifique)

I Penetrance complète : si la maladie est sûrement déterminée en presence d’un certaingénotype. Par exemple, un modèle est recessif à penetrance complète et sans cassporadiques si

faa = fAa = 0 et fAA = 1


Contents




Analyse de ségrégation (1)

I Objetif : Détecter l’existence et préciser le mode d’action defacteur(s) génétique(s) susceptible(s) d’expliquer les distributionsfamiliales d’un caractére donné, en particulier une maladie, enconfrontant ces observations à différents modèles génétiques.

I Les transmissions sont-elles compatibles avec la présence d’un ”gènemajeur” impliqué dans la maladie ?

I Si oui, peut on caractériser l’effet de ce gène (estimation de lafréquence ? estimation des pénétrances ?)

I On cherche donc à déterminer un modèle génétique

Gène majeur = gène dont l’effet est suffisamment important pour pouvoir être discerné parmil’ensemble des autres effets contribuant à la variabilité du caractère.


Exemple : ségrégation d’une maladie récessive dans desfamilles nucléaires

On observe les familles :

Modèle : maladie récessive,autosomique,pas de cas sporadiquesFréquence allélique P(S) = q = 0.3Pénetrances P(Mal |SS) = f = 0.5

P(Mal |Ss) = 0P(Mal |ss) = 0

Prévalence de la maladie P(Mal) = F = fq2 = 4.5%

Vraisemblence de la famille :Présence d’un gène majeur q4f 4 = 0.05% q2fq2(1− f )f 2+

q2f 2q(1− q)1/4f 2 = 0.28%

Pas d’effet familial F 4 = 4/000000 (1− F )F 3 = 8/00000


Proportions relatives des configurations

En posant d’autres modèles :

Gène majeur 0.65% 1.28% 4.37%Aléatoire 0.004% 0.2% 0.2%

Gène majeur 21.1% 10.81% 61.79%Aléatoire 8.5% 2% 89%


Analyse de ségrégation (2)

Selon le modèle considéré, la proportion des différentes configurations estvariable. Ces proportions apportent une information sur l’existence d’unmodèle génétique et sur ses caractéristiques (fréquences, pénétrance...)

TEST :La présence d’un gène majeur explique-t-elle mieux les données que

I le hasard

I des corrélations familiales ne correspondant pas à un seul gène majeurmais à plusieurs gènes à faible effet et/ou à des corrélationsenvironnementales.


Contents




Introduction à l’analyse de liaison

I Deux loci sont liés si leurs allèles sont transmis de façon non indépendantedans les gamètes. On parle de co-segregation (ie co-transmission) des allèles.

I A cause de la recombinaison, plus deux loci sont proches plus il est probableque leur allèles soient co-transmis.

I Si le gène responsable d’une maladie est situé près d’un marqueur, les allèlesdu marqueur et le statut maladie sont plus souvent co-transmis

I L’analyse de liaison cherche à établir si un marqueur génétique estco-transmis avec le phénotype d’intérêt

I On utilise des données familiales

I L’analyse de liaison repose sur des test basés sur le taux de recombinaison θ.

Désavantages de l’analyse de liaison :

I identifie des régions vastes

I n’identifie pas nécessairement les allèles causaux

I fonctionne bien pour les maladies monogéniques pour les quelles le modèlegénétique est connu, mais elle n’est pas très puissante dans le cas demaladies multifactorielles.


Contents




Introduction à l’analyse d’association

I Association : une forme de dépendence entre genotype and phénotype(ie malades/témoins)

I Données populationnelles ou données familiales.

I Population : on recherche des marqueurs pour lesquels la fréquencedes allèles est différente chez les malades et chez les témoins.

I Pour comparer la fréquence des allèles chez les cas et les témoins :

A1 A2 totalMalades (N) a1 a2 2NTémoins (N ′) a′1 a

′2 2N

′

Par exemple on peut faire un test d’indépendance du χ2


Association directe et indirecte

I Si le phénotype est associé avec un marquer génétique dans un gène(par exemple un SNP), alors il est aussi associé avec le gène

I En général, l’association entre le phénotype et locus de susceptibilitépeut être directe ou indirecte :

M. Guedj, thèse


Liaison vs association

Analyse de liaison :

I but : identifier la position du gène responsable (gene mapping)

I étudie la co-ségregation de la maladie avec les marqueurs dans despedigrees, pour établir la distance entre les marqueurs et le gèneresponsable

Analyse de association (données populationnelles) :

I but : déceler association entre gène (ou marquer) et maladie, mesurerl’effet des allèles

I cadre épidémiologique classique des études d’association cas-témoins,population d’individus non apparentés


Introduction à l'épidémiologie génétiqueEtapes en épidémiologie génétiqueAgrégation familialeModèles de maladieAnalyse de ségrégationAnalyse de liaisonAnalyse d'association

m2 [email protected]...

Documents