Étude d'association pangénomique du trait smr 'suppressed ...Étude d’association...
TRANSCRIPT
Étude d’association pangénomique du trait SMR « Suppressed Mite Reproduction » dans des colonies
d’Apis mellifera au Québec
Mémoire
Laurence Auger
Maîtrise en biologie
Maître ès sciences (M. Sc.)
Sous la direction de :
Nicolas Derome, directeur de recherche
Pierre Giovenazzo, codirecteur de recherche
ii
Résumé
La littérature s’accorde généralement pour désigner l’ectoparasite Varroa destructor comme la plus
importante menace pour l’Abeille mellifère (Apis mellifera). Actuellement, la varroase est contrôlée
principalement par l’utilisation de traitements acaricides qui présentent un risque de contamination
des produits de la ruche et de l’environnement. Dans certaines colonies d’A. mellifera, on observe un
comportement hygiénique qui réduit l’infestation des varroas, le VSH Varroa Sensitive Hygiene, et
qui est associé à une baisse de la reproduction des varroas dans le couvain d’abeilles, le Supressed
Mite Reproduction (SMR). L’identification de l’architecture génomique qui régule cette résistance aux
varroas permettrait d’assister à l’accélération de son évolution dans l’ensemble des populations
d’abeilles domestiques et à réduire les dommages causés par le parasite. Ce projet de maîtrise visait
à mettre en lumière la relation entre le génome et ce phénotype quantitatif de résistance par une
étude d’association pangénomique sur un échantillon de colonies d’A. mellifera du Québec provenant
de cinq sites différents. Une technologie de génotypage par séquençage (GBS) a été utilisée pour
identifier à l’échelle du génome entier des milliers de marqueurs à partir de polymorphismes
nucléotidiques singletons (SNPs). Puis, l’association des marqueurs avec le phénotype SMR a été
testée avec des modèles statistiques : le modèle linéaire mixte (MLM) et le modèle linéaire mixte
multi-locus (MLMM) par des outils bio-informatiques. Ce projet se joint à d’autres tentatives de
produire des outils de sélection plus efficaces pour les apiculteurs afin de lutter contre la varroase.
iii
Abstract
The literature generally agrees that ectoparasite Varroa destructor is the most important threat to the
honey bee (Apis mellifera). Currently, varroa is controlled primarily by acaricide treatments that
present a risk of contamination of hive products and the environment. In some colonies of A. mellifera
is a hygienic behavior that reduces varroa mite infestation, VSH "Varroa Sensitive Hygiene", and is
associated with a decrease in the reproduction of varroa mites in bee brood, "Supressed Mite
Reproduction" (SMR). Identifying the genomic architecture that regulates this resistance to varroa
mites would help to accelerate its evolution in all honeybee populations and reduce the damage
caused by the parasite. This master’s project aimed to shed light on the relationship between the
genome and this quantitative resistance phenotype by a genome-wide association study on a sample
of A. mellifera colonies taken from five different sites across Quebec. Genotyping sequencing (GBS)
technology has been used to identify thousands of markers on the whole genome scale from single
nucleotide polymorphisms (SNPs). Then the association of the markers with the SMR phenotype was
tested with statistical models: the mixed linear model (MLM) and the mixed linear multi-locus model
(MLMM) with bioinformatic tools. This project joins other attempts to produce more effective breeding
tools for beekeepers to control varroosis.
iv
Table des matières
Résumé ............................................................................................................................................................... ii
Abstract ............................................................................................................................................................... iii
Table des matières ............................................................................................................................................. iv
Liste des figures .................................................................................................................................................. vi
Liste des tableaux .............................................................................................................................................. vii
Liste des abréviations, sigles, acronymes ........................................................................................................ viii
Remerciements .................................................................................................................................................... x
Introduction générale .......................................................................................................................................... 1
Chapitre 1 : Revue de littérature ......................................................................................................................... 2
1.1 Apis mellifera ............................................................................................................................................ 2
1.1.1 Classifications et origines .................................................................................................................. 2
1.1.2 Biologie ............................................................................................................................................. 4
1.1.3 Génétique d’Apis mellifera ................................................................................................................ 7
1.1.4 Mortalité des abeilles ........................................................................................................................ 8
1.2 Varroa destructor ...................................................................................................................................... 9
1.2.1 Biologie ............................................................................................................................................. 9
1.2.2 Varroase .......................................................................................................................................... 13
1.2.3 Contrôle actuel du Varroa ............................................................................................................... 13
1.3 Résistance à V. destructor chez Apis mellifera ...................................................................................... 15
1.3.1 Trait SMR ........................................................................................................................................ 15
1.3.2 Comportement VSH ........................................................................................................................ 15
1.3.3 Trait quantitatif ................................................................................................................................ 17
1.3.4 Études génomiques de la résistance aux varroas ........................................................................... 19
1.4 Les études d’association pangénomiques .............................................................................................. 22
1.4.1 Comment fonctionne une étude d’association? .............................................................................. 22
1.4.2 Étapes d’une étude d’association.................................................................................................... 25
1.5 Buts et hypothèses du projet .................................................................................................................. 45
Chapitre 2 : Étude d’association pangénomique du trait SMR dans des colonies d’A. mellifera au Québec .... 46
2.1 Méthodologie .......................................................................................................................................... 46
2.1.1 Échantillonnage ............................................................................................................................... 46
2.1.2 Évaluation du phénotype ................................................................................................................. 47
v
2.1.3 Évaluation du génotype ................................................................................................................... 49
2.1.4 Association ...................................................................................................................................... 50
2.2 Résultats ................................................................................................................................................ 50
2.2.1 Phénotype ....................................................................................................................................... 50
2.2.2 Génotypage ..................................................................................................................................... 54
2.2.3 Association ...................................................................................................................................... 57
2.3 Discussion .............................................................................................................................................. 73
2.3.1 Résultats obtenus ........................................................................................................................... 73
2.3.2 Le problème de la puissance statistique ......................................................................................... 78
Conclusion ........................................................................................................................................................ 83
Bibliographie ..................................................................................................................................................... 86
Annexe A : Phénotypes des colonies échantillonnées ...................................................................................... 96
Annexe B : Relations entre les individus ........................................................................................................... 98
Annexe C : Correction des valeurs p .............................................................................................................. 101
Annexe D : Caractéristiques du jeu de marqueurs ......................................................................................... 105
vi
Liste des figures
Figure 1. Cycle reproducteur de V. destructor dans une cellule ouvrière d’Apis mellifera (adapté de
Rosenkranz et al. 2010) .................................................................................................................................. 11
Figure 2. Morphologie de Varroa destructor ................................................................................................ 12
Figure 3. Graphique de Manhattan avec mauvais (graphique du haut) et bon (graphique du bas)
contrôle des faux-positifs. (Tiré de Segura, 2016). ...................................................................................... 44
Figure 4. Caractéristiques des stades de développement du couvain d’Apis mellifera et les stades de
développement attendus de la progéniture du Varroa associés. (adapté de COLOSS BEEBOOK volume
I: Standard methods for Apis mellifera Research) ....................................................................................... 48
Figure 5. Distribution du trait SMR (en %) des 37 colonies après l’évaluation phénotypique ................. 53
Figure 6. Prédiction des effets des variations nucléotidiques trouvées par l’analyse génomiques des 37
colonies tests .................................................................................................................................................. 55
Figure 7. Représentation graphique de la matrice de parenté des colonies (N = 34) ............................... 58
Figure 8. Arbre phylogénétique de la population étudiée produite avec TASSEL 5.0.............................. 59
Figure 9. Graphique des résultats des tests statistiques GLM................................................................... 62
Figure 10. Graphiques des résultats des tests statistiques MLM avec TASSEL ...................................... 65
Figure 11. Graphiques des résultats des tests statistiques MLM avec GenABEL .................................... 66
Figure 12. Distribution des valeurs p pour l’ensemble des marqueurs (N = 7810) pour les tests MLM . 67
Figure 13. Graphique de lambda pour le test MLMM avec GAPIT .............................................................. 70
Figure 14. Graphique Manhattan du test MLMM avec GAPIT. .................................................................... 71
Figure 15. Puissance statistique relative à l’erreur de type I (α) pour la population et les marqueurs
utilisés dans l’étude........................................................................................................................................ 72
vii
Liste des tableaux
Tableau I. Répartition des sous-espèces d’Apis mellifera en groupes selon leurs origines
géographiques .................................................................................................................................................. 3
Tableau II. Comparaison des temps de développement du couvain des différentes castes d’Apis
mellifera du stade d’œuf jusqu’à l’émergence de la cellule operculée (adapté de Bertholf, 1925). .......... 6
Tableau III. Régions génomiques et gènes candidats potentiellement associées au comportement VSH
et/ou au trait SMR trouvés par différentes études utilisant diverses approches méthodologiques. ...... 21
Tableau IV. Résultats de l’évaluation du trait phénotypique SMR (en %) des 37 colonies utilisées pour
les analyses génomiques ............................................................................................................................... 52
Tableau V. Variations obtenues après chaque étape de filtration .............................................................. 56
Tableau VI. Marqueurs ayant les valeurs p des coefficients des tests avec GLM les plus significatives
avec les outils GenABEL et TASSEL ............................................................................................................ 61
Tableau VII. Résultats des tests statistiques d’association MLM avec les outils GenABEL et TASSEL 64
Tableau VIII. Marqueurs les plus proches de la signification, obtenus par les tests MLMM avec GAPIT
.......................................................................................................................................................................... 69
Tableau IX. Comparaison des marqueurs trouvés par différents outils des tests d’association qui sont
proches de la significativité (seuil p = 0.05) et qui sont sur les mêmes chromosomes ........................... 77
viii
Liste des abréviations, sigles, acronymes
ADN : Acide DésoxyriboNucléique, molécule en double-hélice portant l’information des caractères génétiques ARN : Acide RiboNucléique, molécule de transport de l’information de l’ADN et de la synthèse de protéines CNV : (Copy number variant) Variant de nombre de copies FDR : (False discovery rate) Taux de découverte des faux-positifs GBS : génotypage par séquençage GLM : (General Linear Model) Modèle de régression linéaire généralisé GWAS : Étude d’association pangénomique HWE : (Hardy-Weinberg equilibrium) Équilibre de Hardy-Weinberg IBD : (Identity by descent) Identitée déterminée par la descendance génétique IBS : (Identity by sequence) Identitée déterminée par la ressemblance génétique LD : (Linkage disequilibrium) Déséquilibre de liaison MAF : (Minor Allele Frequency) Fréquence de l’allèle mineur MLM : modèle linéaire mixte MLMM : modèle linéaire mixte multi-locus MNV: (Multi-Nucleotide Variant) Variantion génétique composée de plusieurs nucléotides NV: (Nucleotide Variant) PC: (Principal component) Composantes principales PCA: (Principal Component Analysis) Analyses des composantes principales PCR: Réaction en chaîne par polymérase QTL: Quantitative trait loci
QTN: Quantitative trait nucleotique
RAD: marqueurs génétiques associés à de sites de restriction RE: Enzymes de restriction SMR : (Suppressed mite reproduction) trait de résistance de l’abeille mellifère au parasite V. destructor par la diminution de son taux de reproduction SNP : polymorphismes nucléotidiques singletons SNV : (Single nucleotide variant) Variant nucléotidique singleton SV : (Structural variant) Variant de la structure VSH : Varroa sensitive hygiene, comportement de résistance de l’abeille au parasite V. destructor WGR : Whole genome resequencing
ix
À mon père, le premier à avoir éveillé ma
curiosité scientifique.
x
Remerciements
En premier lieu, je souhaite remercier mon directeur de maîtrise, Nicolas Derome, pour cette
occasion de réaliser ce projet et son soutien ainsi que sa disponibilité pendant toute la durée de ma maîtrise.
Ce fut une merveilleuse expérience dont je garderai de très bons souvenirs. J’aimerais remercier mon
codirecteur Pierre Giovenazzo pour ses précieux conseils et son enthousiasme permanent.
Je me dois de remercier aussi toute l’équipe Derome. Travailler à vos côtés est un réel plaisir. Ce travail
n’aurait pu être possible sans le soutien de l’équipe apicole du CRSAD. Je remercie en particulier Marilène
Paillard pour sa compagnie et son expertise lors de notre semaine d’échantillonnage.
Il va sans dire que ce projet n’aurait pu se réaliser sans le soutien financier du MAPAQ et du programme
Innov’Action dans le cadre de Cultivons l’avenir 2, une initiative fédérale-provinciale-territoire.
Je voudrais adresser ma gratitude au professeur François Belzile pour ses conseils judicieux qui ont modelé
mon projet. Le projet présenté ici n’aurait pu être mené à bien sans la contribution généreuse de Martine Jean,
professionnelle de recherche de l’équipe Belzile, et de Davoud Torkamaneh, ancien doctorant de l’équipe
Belzile, qui furent mes mentors dans la méthodologie des études d’associations génomiques.
Je voudrais exprimer ma reconnaissance envers Josiane Mongrain et Alexandra Carrier pour leur amitié et
leur soutien tout au long de mon parcours. Enfin, je tiens à témoigner toute ma gratitude à Ulysse Martin pour
sa confidence, sa patience et sa gentillesse de chaque instant. Ta présence à mes côtés est un cadeau
inestimable.
1
Introduction générale
L’Abeille mellifère, Apis mellifera, est le principal Insecte pollinisateur domestique, retrouvé à l’échelle internationale,
qui assure un rôle vital dans le maintien des écosystèmes, dans l’agroalimentaire et dans l’économie internationale
(Danforth, 2007). Varroa destructor, un Acarien ectoparasite ayant co-évolué avec l’abeille asiatique Apis cerana,
s’est adapté à A. mellifera vers le début du 20e siècle (Ritter, 1981; Nazzi & Le Conte, 2016). Varroa destructor est
considéré comme l’une des plus grandes menaces actuelles pesant sur l’apiculture (Rosenkranz, Aumeier, &
Ziegelmann, Biology and control of Varroa destructor, 2010). Il est responsable des importantes pertes hivernales de
colonies observées au Canada depuis 2006 (Currie, et al., 2010; Guzman-Novoa, et al., 2010) et en Europe (Aston,
2010; Gaiger, et al., 2010; Mutinelli, et al., 2010; Potts, et al., 2010). L’abeille n’est cependant pas sans défense
contre ce parasite, puisque certaines colonies expriment une résistance au Varroa. Cette résistance, dénommée
dénommée Varroa Sensitive Hygiene (VSH), est un comportement hygiénique recherché qui permettrait de lutter
efficacement contre le Varroa et d’éviter l’utilisation de contrôles chimiques (Behrens, et al., 2011). Dans les colonies
qui démontrent ce trait comportemental, il y a une baisse de la reproduction des varroas dans le couvain d’abeilles,
le SMR « Supressed Mite Reproduction ». L’architecture génétique de cette résistance demeure cependant mal
comprise. Nous postulons que le trait SMR est un trait quantitatif complexe contrôlé par un grand nombre de sites à
faibles effets. Cette étude a pour objectif d’aider à élucider les régions génomiques associées au trait SMR et de
présenter une méthodologie d’étude d’association pangénomique appropriée pour de futures études.
Pour mieux comprendre le danger réel que présente la varroase, la maladie parasitaire des abeilles due au Varroa, il
faut se familiariser avec le cycle de vie de son hôte. Ainsi, le premier chapitre de ce travail sert à dresser un tableau
d’A. mellifera et de Varroa destructor, puis de la varroase et conséquemment du trait de résistance de l’Abeille
mellifère. Ce premier chapitre se continue par un survol des études d’A. mellifera qui ont cherché à élucider la
génomique de la résistance au parasite V. destructor à ce jour et la présentation des études d’association
pangénomiques. Le chapitre 1 se termine par la présentation des objectifs et hypothèses du projet. Le deuxième
chapitre fait l’étalage de la réalisation d’une étude d’association pangénomique pour identifier des régions
génomiques associées au trait SMR, d’abord par la présentation de la méthodologie puis par la présentation des
résultats, et se clos par la discussion des résultats. Finalement, une conclusion achève le document en faisant un
retour sur l’ensemble du mémoire et en présentant une perspective de l’avenir des études sur la résistance au
Varroa d’A. mellifera. Dans l’ensemble de ce document, l’appellation Varroa réfère à l’espèce Varroa destructor.
2
Chapitre 1 : Revue de littérature
1.1 Apis mellifera
1.1.1 Classifications et origines
L’Abeille mellifère, Apis mellifera, fait partie du clade des abeilles dans l’ordre des Hyménoptères et est un membre
du sous-groupe Apoidea. Plus spécifiquement, elle fait partie de la famille Apidae et du genre Apis (Hedtke, et al.,
2013). Les membres du genre Apis sont regroupés en trois sous-genres, établis sur des bases phylogéniques de
l’ADN mitochondrial : Micrapis les abeilles « naines » (Apis florea et Apis andreniformis), Megapis les abeilles
« géantes » (Apis dorsata, Apis binghami et Apis laboriosa), et Apis les abeilles « cavitaires » (Apis mellifera, Apis
cerana, Apis koschevnikovi, Apis nuluensis et Apis nigrocincta) (Hedtke, et al., 2013).
On reconnait à A. mellifera 27 sous-espèces, classées selon leurs différences morphologiques, leurs caractéristiques
physiologiques et écologiques. Ces sous-espèces sont elles-mêmes subdivisées en cinq groupes majeurs,
présentés dans le tableau I, suivant leur répartition géographique et histoire évolutive (Han, Wallberg, & Webster,
2012; Franck, et al., 2001; Wallberg, et al., 2014).
Le cinquième groupe « Y », qui rassemble les sous-espèces originaires de l’Afrique du Nord Est, a été proposé par
plusieurs chercheurs, mais n’est pas d’utilisation courante (Franck, et al., 2001). Il est intéressant de noter que les
groupes C et M, qui sont les plus proches géographiquement, sont aussi les plus éloignés génétiquement. Les
origines ancestrales d’A. mellifera et les parcours d’invasion sont encore des sujets débattus. La littérature présente
trois possibilités (Han, Wallberg, & Webster, 2012) :
1) Originaire du Moyen-Orient qui s’est répandu par deux routes en Europe (Nord et Ouest)
2) Originaire du Moyen-Orient qui s’est répandu par le Nord en Europe (une route)
3) Origine Africaine, qui s’est dispersé par deux routes en Europe (Nord et Ouest)
3
Tableau I. Répartition des sous-espèces d’Apis mellifera en groupes selon leurs origines géographiques. La lettre désignant le groupe était originellement le nom du sous-groupe; des classifications subséquentes ont causé l’utilisation de nouveaux noms de groupes, mais l’utilisation des lettres est restée (Franck, et al., 2001).
Groupe Noms des groupes Origine géographique Nombre de sous-espèces
A scutellata Afrique 8 sous-espèces
C Carnica Europe de l’Est 5 sous-espèces
M Mellifera Europe occidentale et Scandinavie 5 sous-espèces
O Orientale Moyen-Orient et Asie 7 sous-espèces
Y Jemenitica Yémen et Éthiopie sous-espèce unique
4
1.1.2 Biologie
Castes et tâches
L’Abeille mellifère fait partie du moins de 2 % des insectes qui sont dits eusociaux. Par définition, les espèces
eusociales réunissent trois caractéristiques : 1) chevauchement des générations 2) coopération dans les soins
parentaux 3) division du travail avec des castes d’individus stériles (Andersson, 1984). Les abeilles mellifères sont
organisées en castes sociales ayant des fonctions distinctes afin d’assurer le maintien et la reproduction de la
colonie. Les femelles sont divisées en deux castes, soit la caste de reine et celle d’ouvrière. À l’exception de la reine
fertile, toutes les femelles sont des ouvrières stériles. La caste des femelles (reine ou ouvrière) est déterminée au
stade larvaire par l’alimentation. Les mâles quant à eux ont une caste unique : les faux-bourdons.
Dans chaque colonie, une seule reine pondeuse est présente. Elle pond environ 200 000 œufs par année, à raison
de 1000 par jour (Chauvin, 1968). La caste ouvrière est largement dominante dans les colonies, le nombre
d’individus atteignant plusieurs dizaines de milliers en saison estivale de la miellée. Les ouvrières font du
polyéthisme lié à l’âge, c’est-à-dire que leur comportement se modifie en fonction de leur âge (Seeley, 1982). En
début de vie, elles ont des fonctions de nourricières des larves et de la reine et sont aussi responsables du nettoyage
des alvéoles et de la fermeture des alvéoles du couvain au cœur de la ruche. Après quelques jours, elles se
redirigent en périphérie pour réaliser du travail d’entretien : nettoyage, ventilation. À 12 jours, les ouvrières s’alternent
pour garder l’entrée de la ruche. Dès la deuxième semaine de leur vie d’adultes, les glandes cirières s’activent et les
ouvrières peuvent construire les cadres de cires avec les alvéoles. Finalement, à trois semaines de maturité, les
glandes de cire s’atrophient et les ouvrières terminent leur vie en tant que butineuses. Le butinage se produit dans
un rayon de 3 km autour de la ruche, pouvant s’étendre jusqu’à 6 km. Les comportements des ouvrières ne sont pas
mutuellement exclusifs. Une certaine plasticité est nécessaire afin d’assurer que tous les besoins de la colonie sont
comblés (Gary, 1963).
Les faux-bourdons sont des membres temporaires des colonies. Ils ont comme fonction principale la reproduction,
c’est pourquoi ils sont produits seulement à certains moments durant la période estivale, soit lorsque des reines
vierges pourraient être présentes et que les ressources alimentaires sont abondantes. Les faux-bourdons sont
coûteux aux colonies : ils s’alimentent uniquement du travail des ouvrières et ne contribuent pas au travail de
maintien de la colonie. Lorsque la production de la ruche baisse, à la fin de l’été et au début de l’automne, les
ouvrières vont chasser les faux-bourdons hors de la ruche ou les tuer (Gary, 1963).
Reproduction et développement
Pour assurer la reproduction, une nouvelle reine doit s’accoupler peu après sa sortie de l’alvéole. La reine vierge
quitte la colonie et trouve un rassemblement de faux-bourdons pour effectuer son vol nuptial. En un seul vol, la reine
5
peut s’accoupler avec plus d’une dizaine de mâles; elle peut faire jusqu’à quatre vols nuptiaux (Gary, 1963). Par la
suite, la reine ne s’accouplera plus, puisqu’elle aura entreposé quelques millions de spermatozoïdes dans un organe
spécialisé appelé spermathèque (Tarpy & Page, 2000; Rousseau, et al., 2015). L’abeille domestique présente un
système de détermination sexuelle haplodiploïde, ce qui signifie que les femelles sont diploïdes (deux copies d’un
même génome, avec présence de deux allèles différents aux sites dits hétérozygotes) alors que les mâles sont
haploïdes (un seul allèle). La présence de deux allèles différents du gène sexuel détermine le sexe femelle et un seul
allèle sexuel détermine le sexe mâle. En fonction de la taille de la cellule construite par les ouvrières, la reine
déposera un œuf fertilisé de femelle ou un œuf de mâle (Chauvin, 1968). Cela signifie que les femelles héritent de
50 % des gènes de la reine et 100 % des gènes du faux-bourdon, tandis que les mâles héritent uniquement de 50 %
des gènes de la reine. De plus, tous les spermatozoïdes d’un mâle sont génétiquement identiques.
Les ouvrières et les mâles sont alimentés au stade larvaire d’une gelée nourricière, un mélange de pollen, de miel,
d’eau et de sécrétions hypopharyngiennes des nourrices (Chauvin, 1968). Pendant les premiers jours, toutes les
femelles sont nourries de gelée royale. Si une larve est toujours nourrie de gelée royale par les ouvrières, elle
deviendra une reine vierge, sinon elle deviendra une ouvrière. Le terme « reine vierge » est assez explicatif, il
désigne simplement une reine qui n’a pas encore fait de vol nuptial, et donc n’a pas de sperme emmagasiné dans sa
spermathèque.
Les abeilles sont des Insectes holométaboles, c’est-à-dire que leur cycle de vie est divisé en quatre étapes : œuf,
larve, pupe et adulte. Initialement, les œufs sont pondus par la reine dans les alvéoles. Ceux-ci éclosent après 3
jours, libérant une larve. La larve demeure dans l’alvéole de cire et grandit durant 5,5 jours pour la reine, 6 jours pour
une ouvrière et 7 jours pour les faux-bourdons). L’alvéole est ensuite operculé avec de la cire sécrétée par les
ouvrières. La larve enfermée poursuit son développement en tissant un cocon jusqu’à se transformer en pupe.
Subséquemment, la pupe subit une métamorphose sur une période de 7,5 jours pour les reines, 12 jours pour les
ouvrières et 14 jours pour les faux-bourdons avant d’émerger en dévorant l’opercule. Au total, il faut compter 16 jours
pour le développement complet des reines à partir d’un œuf, 21 pour les ouvrières et 24 pour les faux-bourdons. Le
temps de chacune de ces phases de développement est présenté au tableau I et au tableau II.
6
Tableau II. Comparaison des temps de développement du couvain des différentes castes d’Apis mellifera du stade d’œuf jusqu’à l’émergence de la cellule operculée (adapté de Bertholf, 1925). L’imago est la forme définitive de l’insecte adulte qui émerge de la cellule.
Ouvrières Reines Faux-bourdons
Jours Stades Évènements Stades Évènements Stades Évènements
1
œuf
Œuf
œuf
2
3 éclosion éclosion éclosion
4
larve
1re mue
Larve
1re mue
larve
1re mue
5 2e mue 2e mue 2e mue
6 3e mue 3e mue 3e mue
7 4e mue 4e mue 4e mue
8
9 operculation operculation
10 pré-pupe
pré-pupe 5e mue operculation
11 5e mue
Pupe
pré-pupe
12
pupe
13
14 5e mue
15 6e mue
pupe
16
imago
émergence
17
18
19
20 6e mue
21
imago
émergence
22 6e mue
23 imago émergence
7
Cycle annuel
La durée de vie des individus varie en fonction de la caste. Une ouvrière peut vivre de deux à quatre semaines
durant la période estivale; un faux-bourdon, de quatre à huit semaines. Les reines ont une plus grande longévité et
peuvent vivre de deux à cinq ans. Dans les zones de climat continental comme au Québec, la reine cesse de pondre
durant l’hiver. Les ouvrières de cette période survivent plus longtemps en consommant leurs réserves de glucides et
en adoptant une formation en grappe au sein de la ruche afin de maintenir une température d’environ 21 ˚C
(Fahrenholz, Lamprecht, & Schricker, 1989).
L’immunité d’Apis mellifera
L’immunité de l’abeille peut être présentée en deux niveaux distincts : l’immunité individuelle classique et l’immunité
sociale, issue de comportements de groupe. L’immunité individuelle englobe les défenses comportementales
(nettoyage, hygiène), mécaniques, physiologiques et immunologiques. Une étude pangénomique sur A. mellifera a
révélé qu’elle ne possède qu’un tiers du nombre de gènes de la réponse immunitaire connue chez les Insectes
solitaires (ex : drosophile) (Evans et al., 2006). Pour compenser, l’abeille possède une l’immunité sociale. L’immunité
sociale se rapporte à des comportements de défense en groupe, soit le nettoyage social, l’utilisation de matériaux
antimicrobiens pour la fabrication de la ruche (ex : résine propolis) (Christe et al., 2003), le comportement hygiénique
(Cremer et al., 2007), et le comportement Varroa sensitive hygiene (VSH), qui sera présenté plus loin.
1.1.3 Génétique d’Apis mellifera
Le génome de l’Abeille mellifère a été complètement séquencé et publié dans la revue Nature en 2006, puis rendu
public sur le site Hymenoptera Genome Database : integrated community resources for insect species of the order
Hymenoptera (The Honeybee Genome Sequencing Consortium, 2006). L’annotation du génome de l’abeille a
ensuite été mise à jour en 2014, avec une couverture améliorée à 30 X par les données de séquençage avec SOLiD
et 454. On lui attribue 14,016 gènes pour un génome de 250 Mb (NCBI GenBank). Une caractéristique particulière
du génome d’A. mellifera est son contenu élevé de nucléotides AT. Une autre particularité de ce génome est son
haut taux de recombinaison, soit 19 cM Mb-1 (cM, CentiMorgan, une unité qui exprime le ratio de recombinaison sur
une distance, 1 cM = 1 % de probabilité de recombinaison) sur l’ensemble des chromosomes, ce qui est très élevé
pour un organisme multicellulaire eucaryote (The Honeybee Genome Sequencing Consortium, 2006).
Comparativement, Drosophila melanogaster, certainement l’Insecte le mieux caractérisé à ce jour, à un taux de
recombinaison de 1,6 cM Mb-1, l’Humain possède un taux encore moins élevé à 1,1 cM Mb-1 et Mus musculus
(Souris) est à seulement 0.4 cM Mb-1 (Wilfert, Gadau, & Schmid-Hempel, 2007). À ce jour, aucune explication claire
n’a été avancée pour expliquer ces singularités génomiques, sinon la supposition que l’absence des transposons
typiquement attendus pourrait être reliée au haut taux de recombinaison. Dans le génome d’A. mellifera, plus de
8
2000 marqueurs de type microsatellite ont été identifiés, la distance moyenne entre les marqueurs étant de 2,1 cM.
Aucun intervalle n’atteint 10 cM. La haute densité en marqueurs est propice à l’utilisation d’une approche d’étude
d’association pangénomique (Genome wide association study, GWAS) pour détecter des gènes associés à des
phénotypes chez A. mellifera.
1.1.4 Mortalité des abeilles
Les mortalités « hivernales » sont bien documentées au Canada (Comité sur les enquêtes nationales de l'ACPA,
2018). En effet, c’est l’hiver que les colonies ont la plus grande probabilité de dépérir, puisque la ponte de la reine est
minime et que la colonie dépend de la survie des abeilles hivernales et de leur longévité accrue. Plusieurs causes
expliquent la mortalité hivernale : mort de la reine, manque de réserves de nourriture, conditions de butinages sous-
optimales pendant la période estivale, population pré-hivernation trop maigres, maladies et parasites (Le Conte, Ellis,
& Ritter, 2010).
Durant les hivers de 2006 à 2008, la perte d’un grand nombre de colonies domestiques d’A. mellifera en Amérique a
été constatée (vanEngelsdorp, et al., 2007; vanEngelsdorp, et al., 2008). Au Canada, l’hiver de 2008 s’est vu
attribuer le plus haut pic de mortalité de l’histoire, soit 35 % des colonies dans tout le pays qui ont été perdues (le
taux de perte considéré comme usuel est de 15 %) (Comité sur les enquêtes nationales de l'ACPA, 2018). L’hiver
2017-2018 ne s’en tire guère mieux, avec une recrudescence des pertes de colonies qui ont atteint 32,6 % pour
l’ensemble du Canada, variant de 18,4 % à 45,7 % selon les provinces (CAPA, 2018). La perte de colonies d’abeilles
n’est pas une occurrence inhabituelle (Oldroyd, 2007). Le taux de mortalité au Canada oscille habituellement entre
16 et 25 %, à l’exception de la Nouvelle-Écosse, qui atteint 40 % (van der Zee, et al., 2012). Ces taux de mortalité
sont associés à la période hivernale et non à la production annuelle de colonies; il n’y a donc pas de diminution du
nombre de colonies dans leur ensemble. Au contraire, le nombre total de colonies au Canada a augmenté de 22,4 %
entre 2007 et 2015 (Comité sur les enquêtes nationales de l'ACPA 2016, et al., 2016). Malgré ces données
encourageantes, les apiculteurs disposent de peu de ressources pour lutter contre la varroase et la nosémose, les
fléaux actuels de l’apiculture au Canada. Le risque de développement d’organismes résistants aux pesticides est une
menace qui plane sur l’apiculture et qui souligne l’importance de trouver des méthodes plus efficaces de lutte contre
les parasites, particulièrement contre V. destructor, qui est actuellement très étudié car il compromet la santé des
colonies d’Abeilles mellifères (Huang, 2012; Nazzi & Le Conte, 2016). En 2014, c’est 73 % des apiculteurs canadiens
qui ont rapporté la présence du parasite dans leurs colonies (Comité sur les enquêtes nationales de l'ACPA 2015, et
al., 2015).
9
1.2 Varroa destructor
1.2.1 Biologie
Varroa destructor est un Acarien (Classe des Arachnidés) ectoparasite obligatoire d’A. mellifera associé à de
nombreuses pathologies virales de l’Abeille (Nazzi & Le Conte, 2016). Il est souvent présenté comme le parasite le
plus important de l’abeille mellifère (Huang, 2012). Les colonies infestées par Varroa meurent généralement en deux
à trois ans après le début de l’infestation, si elles ne sont pas traitées chimiquement par les apiculteurs.
Originalement identifiée comme Varroa jacobsoni, une distinction des deux espèces a été établie à la découverte
d’une variation dans la séquence du gène cytochrome oxydase I du génome mitochondrial (Anderson & Fuchs,
1998). À la différence de V. jacobsoni, V. destructor possède la capacité de se reproduire sur A. mellifera en plus
d’A. cerana. Varroa destructor est originaire de l’Asie du Sud-Est, mais a connu une expansion de sa distribution à
partir de 1967, où elle s’est répandue en Europe, en Amérique, en Afrique et dans l’est de l’Asie (Nazzi & Le Conte,
2016). Cela est dû au transport mondial des abeilles et à une adaptation qui lui a permis de passer de son hôte
naturel, A. cerana, à un nouvel hôte, A. mellifera (Navajas, et al., 2010).
Son cycle de vie peut se diviser en deux étapes distinctes : l’étape phorétique et l’étape de reproduction
(Rosenkranz, et al., 2010). Durant l’étape phorétique, le Varroa est accroché à son hôte adulte et se nourrit de son
hémolymphe. On le retrouve généralement sur la membrane intersegmentale de l’abdomen. Cet état peut durer de
cinq à onze jours lorsque la colonie génère de la progéniture, autrement l’acarien peut rester à ce stade jusqu’à six
mois. Au cours de cette période, les varroas ont la capacité de changer d’hôte en sautant d’une abeille à l’autre, ce
qui permet le transfert horizontal vers d’autres colonies (Nazzi & Le Conte, 2016). Le stade phorétique présente un
plus haut taux de mortalité que l’étape de reproduction, puisque les varroas sont exposés au comportement
hygiénique des ouvrières et à leurs déplacements hors de la ruche. L’étape de reproduction, imagée dans la figure
1, se déroule dans les cellules de couvain operculées. La femelle mature s’introduit dans une cellule contenant une
larve, juste avant l’operculation. Cinq heures plus tard, au moment où toute la nourriture contenue dans la cellule a
été consommée par l’hôte, le Varroa commence à se nourrir de l’hémolymphe de la larve. La ponte de la femelle
débute environ 70 heures après l’operculation. Le premier œuf déposé n’est pas fertilisé et donne un mâle. Les œufs
subséquents, pondus à des intervalles de 30 heures, sont femelles à cause du déterminisme sexuel haplodiploïdique
(Rosenkranz et al. 2010; Nazzi et Le Conte, 2016). Un total de cinq à six œufs femelles peuvent être pondus par la
mère, toutefois la plupart d’entre eux n’auront pas le temps d’atteindre la maturité. Effectivement, les pupes des
ouvrières ont une incubation de onze jours alors qu’un œuf de Varroa femelle prend six jours pour se développer
correctement. La fréquence de reproduction est de 1,3 à 1,45 femelles matures produites dans une cellule d’ouvrière
10
et de 2,2 à 2,6 produites dans une cellule de faux-bourdon à cause de leur temps d’operculation plus long (Martin,
1994; Martin, 1995).
La progéniture qui émerge des œufs se nourrit de la pupe au site préparé par la mère (Nazzi & Le Conte, 2016).
L’alimentation des varroas cause des dommages directs à l’hôte en plus d’effets indirects liés aux pathogènes dont
le Varroa est un vecteur de transmission (Chen, et al., 2004). Une fois la maturité atteinte, le jeune mâle s’accouple à
répétition avec ses sœurs, puis décède peu après, son cycle de vie n’impliquant jamais de stade phorétique. À
l’émergence de l’abeille adulte, la femelle Varroa et sa progéniture mature quittent la cellule avec l’abeille. La femelle
Varroa peut faire jusqu’à trois cycles reproducteurs au cours de sa vie (Fries & Rosenkranz, 1996). Si une
désoperculation de l’alvéole a lieu alors que les jeunes varroas ne sont pas encore matures, et donc pas encore
sclérifiés (durcies), cela provoque leur mort par déshydratation. Les femelles immatures (deutonymphes) sont
blanches alors que les matures sont « pigmentés ».
L’acarien parasite a développé certaines stratégies pour déjouer les systèmes de défense de son hôte. Au stade
reproducteur, le Varroa peut faire un mimétisme chimique pour échapper à la détection par les ouvrières (Kather, et
al., 2015a; Kather, et al., 2015 b). Les abeilles ont la capacité de reconnaître les individus provenant de leur propre
colonie par l’apprentissage de proportion spécifique d’hydrocarbures cuticulaires, qui est copiée par le Varroa. Celui-
ci peut même mimer la signature associée aux différents stades développementaux de l’hôte (Martin, et al., 2001).
De plus, il pourrait éviter les défenses immunitaires de l’hôte en les réprimant, notamment en inhibant le métabolisme
de peptides antibactériens de l’abeille (Gregory, et al., 2005; Schwarz, et al., 2015).
11
Figure 1. Cycle reproducteur de V. destructor dans une cellule ouvrière d’Apis mellifera (adapté de Rosenkranz et al. 2010). Les varroas adultes émergent de la cellule au même moment que la progéniture d’abeille mature. Les progénitures varroa qui ne sont pas encore matures à ce moment meurent au contact de l’air.
Jours
12
Figure 2. Morphologie de Varroa destructor. La composition normale d’une « famille » du parasite retrouvée dans une cellule d’ouvrière au stade des yeux violets, approximativement 11 jours après l’opperculation de la cellule. En ordre, de gauche à droite, en partant de la ligne du haut : protonymphe, protochrysalide, deutonymphe. Ligne du bas : jeune adulte, femelle fondatrice et mâle adulte. (Tiré de Rosenkranz et al, 2010)
13
1.2.2 Varroase
Les impacts négatifs de l’infestation de Varroa destructor dans une colonie d’abeilles sont multiples. L’effet le plus
évident du parasite est sa consommation répétitive des corps gras de son hôte, autant des pupes que des adultes
parasitées (Ramsey, et al., 2019). Cela cause des dommages physiques et réduit leur contenu protéique tout en
diminuant leur masse corporelle et raccourcissant la longévité des individus. Cette conséquence peut être mortelle
pour les abeilles et les colonies durant l’hivernage. Les varroas affectent également le développement des organes
des larves (Schneider & Drescher, 1987; Bowen-Walker & Gunn, 2001) et agissent comme vecteur de transmission
de pathogènes (Chen, et al., 2004; Chen, et al., 2005). Des 18 virus ayant été isolés des abeilles mellifères, les
varroas sont vecteurs de 5 : le Kashmir Bee VirusI (KBV), le Sacbrood virus (SBV), l’Acute Bee Paralysis Virus
(ABPV), l’Israeli acute paralysis virus (IAPV) et le Deformed Wing Virus (DWV) (Boecking et Genersch 2008). Ce rôle
de vecteur est apparent depuis l’émergence dans les années 1970 de maladies virales dans le monde apicole, qui
coïncide avec l’époque de la découverte de la varroase sur A. mellifera (Shen, Yang, Cox-Foster, & Cui, 2005). Le
DWV est presque toujours retrouvé en association avec la présence de varroa (Genersch, 2005). La croissance des
cas d’infections virales depuis 1987 aux États-Unis correspond aussi à une augmentation du nombre de pertes de
colonies d’abeilles à travers le pays. Des virus autrefois considérés non létaux pour les colonies, comme le virus de
la paralysie aigüe en Grande-Bretagne, sont désormais mortels par leur combinaison synergique avec la varroase
(Genersch & Aubert, 2010). Ces différents virus appareillés à la varroase contribuent aux difformités morphologiques
des individus de la colonie (ailles déformées, corps plus petit, abdomen raccourci) qui ont un impact néfaste sur la
vigueur et la longévité des abeilles et leur colonie. Les capacités réduites des ouvrières butineuses affectent leur
habileté et efficacité à accomplir leurs tâches (Schneider & Drescher, 1987). D’autre part, le Varroa présente des
fonctions activatrices de la réplication virale, en plus de provoquer une forme d’immunosuppression humorale chez
l’abeille (Yang & Cox-Foster, 2007). Ce qui signifie que des facteurs de stress habituellement non létaux recèlent
désormais un potentiel pathogène important lorsqu’une colonie est parasitée par V. destructor.
1.2.3 Contrôle actuel du Varroa
Il existe actuellement diverses méthodes pour traiter les colonies infestées par le Varroa. Ces traitements nécessitent
cependant une application périodique, sans laquelle les colonies des climats tempérés s’effondreraient en six mois à
trois ans après le début de l’infestation (Rademacher & Harz, 2006; Boecking & Genersch, 2008; Rosenkranz, et al.,
2010). Les apiculteurs utilisent un large éventail de produits chimiques, de techniques d’application et de méthodes
alternatives pour contrôler les infestations du Varroa. Ces traitements comprennent les acaricides synthétiques, les
acaricides naturels (acides organiques et huiles essentielles) et les techniques biologiques (Rosenkranz, et al., 2010;
Giovenazzo & Dubreuil, 2011).
14
Les acaricides synthétiques sont des produits chimiques dits « durs » : l’organophosphate coumaphos (nom
commercial : Checkmite), la pyréthrine, la tau-fluvalinate (nom commercial : Apistan), la fluméthrine (nom
commercial : Bayvarol) et la formamidine amitraze (nom commercial : Apivar) (Rosenkranz, Aumeier, &
Ziegelmann, 2010). La tau-fluvalinate agit sur des canaux sodiques voltage dépendants, alors que le coumaphos agit
sur la signalisation et les fonctions nerveuses. Malgré leur facilité d’utilisation, leur accumulation dans les produits de
la ruche après une utilisation répétitive est potentiellement dommageable pour les abeilles.
La classe des acaricides dits « doux » (naturels) contient l’acide formique, l’acide oxalique, l’acide lactique et le
thymol (Rosenkranz, Aumeier, & Ziegelmann, 2010). Plusieurs études ont couvert l’ensemble des aspects
d’utilisation de ces produits naturels comme moyen de contrôle de la varroase. Il en ressort qu’ils sont moins
polluants que leur contrepartie synthétique, cependant leur application est plus restrictive et leur efficacité est
variable en fonction des conditions d’utilisation (Calderone, 1999; vanEngelsdorp, et al., 2008 b; Giovenazzo, 2011).
Des méthodes alternatives employées par les apiculteurs contribuent à la lutte contre la varroase en ralentissant son
développement. Entre autres, la « trapping comb method », qui consiste à retirer du couvain operculé,
préférentiellement du couvain mâle, en espérant retirer en même temps des acariens emprisonnés, est assez
efficace (Engels & Preston, 1984; Maul, et al., 1988). La plupart des autres méthodes alternatives n’ont pas une
efficacité réelle prouvée (Hoppe & Ritter, 1987 ; Rosenkranz, 1987).
En somme, les acaricides synthétiques et la lutte intégrée avec les acaricides « doux » sont en ce moment les
méthodes les plus efficaces de lutte contre la varroase. Toutefois plusieurs désavantages proviennent de leur
utilisation, comme la variation de leur efficacité selon la présence ou l’absence de couvain operculé ainsi que du
moment de la saison lors de leur usage (Gregoric & Planing, 2002). De plus, leur application répétitive implique un
coût important, sans compter que des études ont démontré la persistance des acaricides dans les produits de la
ruche, comme le miel et la cire (Sanchez-Bravo & Goka, 2014). Le rendement à long terme de l’utilisation des
acaricides est aussi remis en cause par l’émergence de populations de Varroa résistantes (Ellis, et al., 2001;
Webster & Delaplane, 2001). À ces problématiques s’ajoute la complication que l’utilisation d’acaricides peut affecter
l’élevage de reines et la production de sperme (Haarman, et al., 2002). L’ensemble des limites d’utilisation des
acaricides et des autres méthodes de contrôle souligne l’importance de développer de nouvelles approches afin de
juguler l’impact de Varroa destructor sur l’Abeille mellifère.
15
1.3 Résistance à V. destructor chez Apis mellifera
Une relation hôte-parasite est souvent décrite comme une course évolutive à l’armement entre le développement de
défenses chez l’hôte et de résistances chez le parasite. C’est l’hypothèse de la reine rouge de Leigh Van Valen
(1973), qui se résume comme suit : l’évolution d’une espèce est nécessaire à sa survie pour maintenir ses aptitudes
par rapport aux adaptations des espèces avec lesquelles elle coévolue. La conception moderne de l’évolution est
plus sensible et adresse plutôt les caractéristiques des individus qui leur permettre de s’adapter (ou non) à leur
environnement et que ces caractéristiques présentent des variations dans leur expression. Il n’en demeure pas
moins que l’hypothèse de la reine rouge, avec la nuance dans son contexte historique, demeure pertinente de nos
jours. Dans le cas d’une relation hôte-parasite, il doit y avoir un équilibre évolutif entre les deux organismes, puisque
l’hôte est nécessaire à l’existence du parasite. La multiplication trop rapide du parasite pourrait causer une chute de
la population d’hôtes, ce qui causerait la mort du parasite par association. Dans le cas d’A. mellifera et de Varroa
destructor, cet état d’équilibre n’est pas encore atteint, puisque Varroa destructor s’est récemment adapté à A.
mellifera. Ce nouvel hôte n’a pas encore développé des adaptations permettant d’établir une relation stable avec le
parasite, tandis que le parasite est bien armé contre le genre Apis duquel il dépend depuis longtemps. On peut
toutefois constater que certains individus de l’espèce A. mellifera présentent des comportements de défense innés
contre la varroase.
1.3.1 Trait SMR
Probablement pour la toute première fois, Ruttner et al. découvrent que les Varroas dans des colonies d’abeilles ont
un haut taux de non-reproduction en 1984. Ce phénomène est indépendant de l’origine du couvain d’abeilles, c’est-
à-dire que peu importe de quelle colonie provient le couvain, la fréquence de non-reproduction du Varroa est
identique dans la colonie d’introduction (Fuchs, 1994). En 1997, Harbo et Hoopingarner publient que ce sont
certaines colonies d’A. mellifera qui ont la capacité, transmissible, de diminuer la reproduction au parasite V.
destructor. Ces colonies sont alors qualifiées de résistantes, puisque la résistance contre un parasite se définit
comme étant l’habileté à limiter la charge du parasite (Raberg, Graham, & Read, 2009). La sélection est faite pour
ces colonies présentant un haut taux d’infestation de Varroas non reproductrives (incapables de produire au moins
une femelle mature), et ce caractère est baptisé le trait répresseur de reproduction des varroas (supressing mite
reproduction, SMR) (Harbo et Hoopingarner, 1997).
1.3.2 Comportement VSH
En 2005, le comportement VSH est proposé comme étant la cause du trait SMR. Il consiste en l’action de
désoperculer puis de refermer les cellules infestées ou à en retirer la progéniture parasitée (Harbo & Harris, 2005;
16
Harris, 2007; Villa, et al., 2009). La désoperculation suffit à causer la mort de la progéniture immature du Varroa.
Quand une pupe infestée est retirée, la femelle Varroa adulte peut être retirée en même temps. Si elle survit, elle
monte habituellement sur l’abeille qui retire la pupe hôte, ou encore se déplace sur le cadre où elle s’expose au
comportement de nettoyage des abeilles. Effectivement, lorsque le Varroa se retrouve à l’extérieur du couvain, au
stade phorétique, les abeilles sont capables de les détecter et de les mordre, ce que l’on appelle le comportement de
nettoyage (grooming behavior). La morsure peut estropier ou tuer le varroa, qui tombe au fond de la ruche et sera
ensuite jeté à l’extérieur par des ouvrières d’entretien. Même si la mère fondatrice Varroa est capable d’infester de
nouveau une cellule, l’interruption de son cycle de reproduction précédent peut suffire à l’empêcher de se reproduire
correctement dans son cycle suivant, en ne produisant par exemple que des œufs femelles ou en produisant une
désynchronisation entre sa ponte et le développement de son hôte (Kirrane, et al., 2015). Le comportement VSH est
exprimé par des ouvrières âgées de 15 à 18 jours (Harbo & Harris, 2001).
Le comportement VSH d’A. mellifera est donc un comportement hygiénique de résistance au parasite V. destructor.
De façon générale, le comportement hygiènique des abeilles se définit comme la capacité à retirer le couvain mort,
malade ou parasité des cellules operculées (Spivak & Gilliam, 1998 a; 1998 b). Le comportement VSH se différencie
du simple comportement hygiénique par sa spécificité de détection du couvain parasité par V. destructor. Il n’est pas
limité aux colonies sélectionnées car il a été observé dans colonies non-sélectionnées (Boecking & Ritter, 1993;
Boecking & Spivak, 1999; Aumeier, et al., 2000). Le comportement VSH est ciblé car il est héritable et ne semble pas
nuire aux autres performances zootechniques des abeilles (Harbo et Harris, 2005; 2009; Harris 2007; Harris et al.
2010; Rinderer et al. 2010). Le comportement VSH est caractérisé par la diminution du taux d’infestation du Varroa
(Villa, Danka, & Harris, 2009). Des études indiquent que la fertilité du Varroa dans une colonie d’abeilles VSH
diminue après une exposition d’une semaine (Harbo et Harris, 2005), cependant l’étude de Kirrane et al. (2015)
remet en doute cette trouvaille et indique que l’effet de la baisse de fertilité se ferait plutôt ressentir à délais, lors de
l’infestation subséquente des varroas. Des études précédentes ont postulé que les abeilles VSH choisissaient
préférentiellement les cellules infestées par les varroas fertiles (Harbo et Harris 2005, 2009) pour expliquer
l’augmentation de l’infertilité, cependant une étude par Harris, Danka et Villa (2010) a démontré qu’au contraire, il n’y
a pas de sélection préférentielle par les abeilles VSH. Bien que le comportement VSH semble au premier abord
apparenté au comportement hygiénique, la littérature est inconsistante lorsqu’il s’agit de déterminer si le niveau
SMR/VSH d’une colonie est corrélé directement avec le comportement hygiénique (Boecking & Drescher, 1992;
Büchler, et al., 2010; Rinderer, et al., 2010). Le stimulus amorçant l’action VSH des abeilles est généralement
attribué à des signaux olfactifs émanant des cellules infestées qui n’ont toujours pas été clairement identifiés. Les
abeilles VSH différencient une cellule infestée vide d’une cellule contenant du couvain, ce qui incite à penser que les
signaux olfactifs proviendraient de la pupe attaquée (Nazzi, et al., 2004). Le comportement VSH s’exprime
habituellement envers les pupes operculées d’au moins quatre jours (Martin, et al., 2012). Kirrane et al. (2015)
17
observent que le taux d’infestation initial est positivement corrélé avec le pourcentage de couvain retiré par les
ouvrières. Cela pourrait indiquer qu’un seuil minimal d’infestation est requis pour que le comportement VSH soit
exprimé à un degré significatif. Le coût à la valeur sélective (fitness) d’enlever les jeunes ouvrières pourrait expliquer
cette théorie.
Bien que l’on assimile souvent le trait SMR au comportement VSH, il est prudent de différencier ces deux termes. Le
comportement VSH est une explication du trait SMR, mais d’autres facteurs pourraient contribuer au trait SMR. En
somme, le trait SMR est caractérisé par la non-reproduction des Varroas, alors que le comportement VSH est défini
par la diminution du taux d’infestation par le Varroa, une nuance importante. Le trait SMR a une importance
équivalente au comportement VSH, mais son évaluation phénotypique et sa sélection pour la reproduction sont
beaucoup plus faciles à accomplir comparativement à des comportements complexes comme le VSH (Behrens, et
al., 2011).
Les apiculteurs peuvent déjà bénéficier des développements récents de production de lignées présentant une
résistance à V. destructor (Dietemann, et al., 2012; Danka et al. 2012). La nature génétique de la résistance au
Varroa et de la transmission de ce trait ont été montrées dans une étude par ensemençant une reine de lignée non-
VSH avec le sperme de mâles de colonie VSH (Danka, et al., 2012).
1.3.3 Trait quantitatif
La résistance des colonies d’abeilles peut être mesurée par le trait phénotypique SMR. Les traits phénotypiques
peuvent entrer dans l’une de deux catégories :
1) Trait qualitatif : Il s’agit d’une classification discrète, souvent utilisée pour des valeurs non numérales.
Toutefois, dans certains cas, des valeurs numérales qui expriment un identifiant plutôt qu’une numération
vont faire partie de cette catégorie.
2) Trait quantitatif : Classification de valeurs continues, presque exclusivement numérale (ex : taille,
concentration moléculaire, temps, etc.).
Les traits qualitatifs sont aussi qualifiés de discrets ou encore de caractères mendéliens, car un caractère qualitatif
est habituellement gouverné par des variations à un seul gène et qui se reconnait par son héritabilité dans une
famille, comme cela est décrit par les principes Mendéliens.
Le trait SMR (comme le comportement VSH) est un trait quantitatif. Les traits quantitatifs sont aussi appelés traits
complexes, l’expression de ces traits étant le résultat de la somme de variations de plusieurs gènes et leurs
18
interactions avec des facteurs environnementaux. Une représentation classique des traits quantitatifs est la taille des
individus dans une population donnée (Visscher, 2008). Effectivement, la taille dans une population est un caractère
qui varie selon des valeurs continues, dont on s’attend à ce que la distribution produise une courbe normale –
lorsque l’échantillon est suffisamment grand pour bien représenter la population – en partie à cause du théorème
central limite. Ainsi, en observant la distribution de la fréquence des tailles, on s’attend à ce que la taille moyenne ait
la plus grande fréquence, alors que les valeurs extrêmes auront la plus basse fréquence. Le modèle génétique qui
permet d’expliquer un trait quantitatif et la grande variation dans l’expression de ce phénotype est le modèle
infinitésimal de Fisher (1918) (Barton, et al., 2017). Ce modèle soutient que les variations génétiques quantitatives
sont le résultat de la ségrégation des allèles d’un grand nombre de gènes, une grande partie ayant un très petit effet.
On s’attend donc à ce qu’un trait quantitatif implique un grand nombre de loci avec un faible effet individuel et des
interactions complexes, dont l’impact combiné est important (Yang, et al., 2010). Ce n’est pas toujours le cas. Par
exemple, un seul site polymorphe avec plusieurs allèles différentiellement exprimés peut produire une variation
continue du phénotype dans la population. L’épigénétique peut aussi être en cause d’un trait quantitatif par la
variation dans la régulation de l’expression du trait (Asada, et al., 1994).
Une région du chromosome où sont localisés un ou plusieurs gènes intervenant dans l’expression d’un caractère
quantitatif est nommée locus de caractère quantitatif (Quantitative Trait Locus, QTL). Les QTL peuvent être identifiés
par des approches moléculaires, ce qui permet de cartographier des régions du génome contenant des gènes
impliqués dans la spécification du caractère associé. À partir de cette région restreinte identifiée, il est possible
d’identifier des gènes qui pourraient, selon leur fonction, être au moins une partie de l’architecture génétique du
phénotype. Ces gènes sont dits « gènes candidats » (ou encore « gènes d’intérêts »).
L’expression d’un trait phénotypique est déterminée par une combinaison de facteurs génétiques et non génétiques,
souvent dits facteurs environnementaux. Si l’on reprend l’exemple de tailles dans une population, l’alimentation des
individus durant la croissance aura aussi un impact sur l’expression du phénotype. Ce facteur et d’autres agiront de
concert avec la génétique de l’individu pour produire le phénotype qui sera observable. L’interaction avec
l’environnement a un effet sur le phénotype et doit être prise en considération par les modèles statistiques utilisés
lorsque l’on cherche à identifier l’action du génome sur le phénotype (Korte & Farlow, 2013). Idéalement, les facteurs
environnementaux devraient être contrôlés lors d’une étude d’association entre le génome et le phénotype afin de
limiter l’impact environnemental sur l’expression du trait et permettre de maximiser l’impact génétique sur la variation
du trait (Lewis, 2002).
19
1.3.4 Études génomiques de la résistance aux varroas
L’importante problématique qu’est la varroase depuis déjà plusieurs années a incité beaucoup de chercheurs à se
pencher sur l’exploration de l’architecture génétique et l’identification des fonctions physiologiques associées au
SMR/VSH. Le premier modèle théorique des gènes contrôlant le comportement VSH l’assimilait au comportement
hygiénique classique des abeilles. Il s’agit du modèle de Rothenbuhler en 1964, à l’époque où l’on croyait que le
comportement hygiénique était l’un des rares traits complexes expliqués par un système mendélien à deux locus. Il
proposait deux loci homozygotes récessifs déterminant le comportement, chacun régissant l’une de deux actions,
soit la désoperculation de la cellule infestée et le retrait de la pupe. Ces deux actions étaient décrites comme étant
les composantes du comportement hygiénique. Effectivement, la résistance au Varroa était indissociable du simple
comportement hygiénique au début de son étude. Un modèle à trois gènes a par la suite été présenté et incluait un
gène supplémentaire pour la détection par l’odorat de la maladie/infestation. Cependant, la littérature a permis de
démontrer que le comportement de résistance au Varroa possède une régulation beaucoup plus complexe que
celles présentées précédemment (Lapidge, et al., 2002; Oxley, et al., 2010; Spötter, et al., 2012; Tsuruda, et al.,
2012).
C’est Lapidge et al. (2002) qui ouvre le bal sur la complexité de la régulation de ce comportement, par la découverte
de sept régions génomiques qui sont associées au comportement en utilisant des marqueurs RAPD. À l’époque, le
génome de référence de l’abeille n’avait pas encore été publié, ce qui complique la comparaison des loci identifiés
dans cette étude pionnière et ceux détectés dans des travaux plus récents, qui utilisent le génome de référence.
L’étude de l’architecture génomique du comportement doit attendre huit ans avant d’être explorée de nouveau, cette
fois par Oxley, Spivak et Oldroyd (2010) par une approche de cartographie des QTL. Ils détectent six régions
génomiques associées avec le comportement hygiénique, plus spécifiquement influençant la désoperculation, le
retrait, l’apprentissage de l’olfaction (ces trois plus importantes se situant sur les chromosomes 2, 5 et 2
respectivement), le comportement social et la locomotion circadienne. Behrens et al. en 2011 analysent des
populations en Suisse, aussi par une approche de cartographie des QTL. Trois régions candidates sont trouvées sur
les chromosomes 4, 7 et 9. Cependant la forte épistasie (l’influence d’une région génomique sur l’expression d’une
autre région) dans ces trois régions génétiques complique leur utilisation dans un programme de sélection assistée
par marqueurs génétiques. Par la suite une autre étude (Tsuruda, et al., 2012) utilise une approche similaire et
identifie un QTL majeur sur le chromosome 9, contenant le gène « no receptor potential A » et le « dopamine
receptor gene ». Ce dernier joue un rôle dans la vision et l’olfaction chez la Drosophile. L’équipe de Kirrane (2015)
vise spécifiquement la région du chromosome 9 précédemment trouvée par Tsuruda et trouve le résultat inverse :
selon leurs analyses statistiques, cette région est négativement corrélée à l’expression du comportement VSH chez
l’abeille. L’article le plus récemment parût rapporte une étude d’association pangénomique, mais utilise des colonies
apparentées (Spötter, et al., 2016). Il identifie six régions génomiques fortement associées au VSH, situées sur les
20
chromosomes 2, 3, 5, 6 et 7, toutes à des positions différentes des précédentes études (deux sites sur le
chromosome 3). À partir de ces observations, six gènes candidats potentiellement responsables du trait étudié sont
suggérés pour quatre des six régions. En parcourant la littérature, on s’aperçoit que beaucoup d’études sur
l’architecture génomique du trait VSH, mais que pratiquement aucune d’entre elles ne s’accorde avec une autre.
Aucune étude ne vient confirmer les résultats d’une précédente et certaines donnent des résultats contradictoires. Il
reste donc du travail à faire pour comprendre la génétique qui affecte la résistance SMR et le comportement VSH
chez l’abeille mellifère. Le tableau III résume les résultats des travaux sur l’architecture génomique du
comportement VSH.
Il est suggéré que les gènes hypothétiques du comportement VSH sont liés aux fonctions olfactives des abeilles,
puisque les signaux olfactifs ont été démontrés comme étant les médiateurs généraux du comportement VSH
(Gramacho & Spivak, 2003; Swanson, et al., 2009). Leur rôle dans le comportement VSH n’ayant cependant pas été
clairement établi; il est possible que d’autres gènes en soient responsables.
Afin de mieux comprendre le comportement VSH et le trait SMR, de nouvelles études génomiques doivent être faites
pour élucider l’architecture génomique de ce trait. Les études mentionnées ci-dessus utilisent toutes une approche
d’analyse des QTL et/ou d’échantillonnage de colonies fortement apparentées et rétro croisées. Les études
classiques qui utilisent des familles pour réaliser les analyses de QTL sont efficaces pour identifier les gènes qui ont
des effets forts dans les traits mendéliens, mais leur efficacité est limitée dans les traits complexes communs
(Altmüller, et al., 2001). Pour explorer les traits quantitatifs qui sont contrôlés par plusieurs gènes, les études
d’associations pangénomiques (GWAS) présentent actuellement la meilleure approche possible : elles permettent
d’évaluer l’ensemble du génome de milliers d’individus non apparentés pour identifier des régions génomiques
associées au trait étudié (McCarthy, et al., 2008; Parejo, et al., 2016). Les prochaines sections décrivent les études
d’association pangénomiques dans le détail, afin de permettre au lecteur de comprendre le projet de maîtrise, qui fait
usage de cette approche méthodologique.
21
Tableau III. Régions génomiques et gènes candidats potentiellement associées au comportement VSH et/ou au trait SMR trouvés par différentes études utilisant diverses approches méthodologiques.
* La méthodologie de l’étude identifiait des régions QTL par un score de probabilité de transmission des allèles (score LOD). ** La méthode d’évaluation du phénotype binaire transforme les valeurs quantitatives des phénotypes en valeurs binaires. *** La méthode d’évaluation du phénotype Freeze-killed brood vise le comportement hygiénique spécifiquement, plutôt que le trait SMR/comportement VSH.
Site associé Chr Position Gène Candidat Méthode Étude
AMB-00457689 3 10 425 353 pb Récepteur adénosine et activateur de kinase 5
cycline dépendant
GWAS et Cartographie QTL
(Utilise génome de référence) Spötter et al., 2016
AMB-00386078 7 8 722 970 pb Récepteur octopamine beta-2R (octobeta2R)
AMB-00573174 2 1 657 342 pb Protéine de liaison odorante 1 (obp1)
AMB-00913945 3 8 984 417 pb Récepteur adénosine et activateur de kinase 5
cycline dépendant
AMB-01079196 5 12 195 pb Pas de bon candidat
AMB-00745078 6 1 398 456 pb Pas de bon candidat
Site 9224292 9 9 224 292 pb Associé avec la désoperculation et le
comportement de nettoyage (composantes du trait VSH)
Cartographie QTL (Utilise génome de référence)
Kirrane et al., 2015
QTL* 1 ≈10 000 000 pb GB19123, GB14179, etc. Phénotype binaire** Cartographie QTL
(Utilise génome de référence) Tsuruda et al., 2012
QTL* 9 ≈9 150 000 pb GB14619, GB12004, etc.
QTL* 2 317.5 cM A4 Cartographie QTL
Freeze-killed brood*** (Utilise génome de référence)
Oxley et al., 2010 QTL* 5 190 cM GB12487, GB11846, etc.
QTL* 2 30 cM GB12829, GB19509, etc.
inconnu - - Aucun précisé Freeze-killed brood***
(pas de génome de référence) Lapidge et al., 2002
22
1.4 Les études d’association pangénomiques
L’étude d’association est un outil très utilisé en génomique, qui permet d’identifier des portions de génome dont la
variation allélique coïncide avec la variation d’un phénotype, par exemple une maladie, une résistance ou un
caractère recherché. Les études d’association pangénomiques (Genome Wide Association Studies, GWAS) ont été
initialement conçues dans l’optique de fournir une approche efficace et non biaisée pour détecter les allèles liés à
l’architecture génomique contrôlant des traits génétiquement complexes non mendéliens (Cantor, et al., 2010).
De façon générale, le but des études d’association de populations est d’identifier des polymorphismes qui vont varier
systématiquement entre les individus exprimant différentiellement un trait. Cette corrélation permet de représenter
les effets d’allèles qui augmentent l’expression d’un phénotype. On parle souvent d’allèles qui augmentent le
« risque » dans ce type d’étude, car elles sont fréquemment utilisées pour identifier des allèles qui sont associés au
risque augmenté d’une maladie. Les études d’association pan-génomiques sont basées sur l’utilisation de tests
statistiques pour identifier les régions génomiques associées au comportement à l’étude plutôt que sur l’inférence
génétique (c.-à-d. transmission du trait), comme c’est plutôt le cas pour les études de cartographie des QTLs. Le
fonctionnement d’une GWAS sera décrit en détail dans cette section, avec un accent sur la manière appropriée de
réaliser ce type d’étude pour identifier l’architecture génomique du trait de résistance au Varroa chez l’Abeille
mellifère. La dernière section de ce chapitre aborde l’interprétation des résultats d’une GWAS et les facteurs pouvant
les influencer.
1.4.1 Comment fonctionne une étude d’association?
Les marqueurs génétiques
Un marqueur génétique est une variation dans la séquence d’ADN qui est liée à un trait désiré. Les études
d’association utilisent les marqueurs comme outils pour faire le lien entre le trait et la région génomique dans laquelle
le marqueur se situe (Bush & Moore, 2012). La région génomique est représentée par le marqueur grâce au
déséquilibre de liaison (voir définition plus loin). Les marqueurs génétiques sont des caractéristiques d’une séquence
d’ADN donnée et permettent de distinguer des individus entre eux. Un marqueur a une position physique connue sur
un chromosome, que l’on peut qualifier comme le site du marqueur.
Il existe deux types généraux de variations, soit les variations nucléotidiques (NV), qui sont la variation d’un seul ou
de plusieurs nucléotides avoisinants (single nucleotide variants, SNVs et multi-nucleotide variants, MNVs) et les
variations structurales (structural variants, SV) qui sont des réarrangements génétiques plus importants (>50pb) de
plusieurs types : insertions, délétions, inversions, translocations, duplications et variants de nombre de copies (copy
23
number variants, CNVs) (Tattini, et al., 2015). Ces variations composent la diversité génétique caractéristique des
populations et des individus, qui est le résultat des forces évolutives telles que la sélection, les mutations, la dérive
génétique et les évènements fondateurs.
Ce sont les polymorphismes nucléotidiques singletons (SNPs), un type de NV, qui sont les marqueurs les plus
fréquemment retrouvés dans les génomes et aussi les plus fréquemment utilisés dans les études génétiques (Bush
& Moore, 2012). Un SNP est un changement d’une seule paire de base, habituellement par un nucléotide alternatif, à
une position précise dans la séquence génomique (Evans, et al., 2013). En somme, un SNP est la présence de
différents allèles possibles à un même locus (aussi dit au même site). Pour que le changement d’un nucléotide soit
considéré être un SNP, il doit se produire à une fréquence élevée, généralement établie à ≥1 % dans une population
donnée (Genomes Project Consortium, 2010). L’allèle alternatif, soit l’allèle le moins fréquent à la position d’un SNP,
est dénoté comme l’allèle mineur et on réfère à la fréquence d’allèle mineur (MAF) pour déterminer si un NV est un
SNP (Wang, et al., 2018). Les SNPs ont généralement un impact faible sur les systèmes biologiques, ce qui explique
leur fréquence élevée. Grâce à la dégénérescence du code génétique, la présence d’un SNP dans une séquence
codante n’implique pas nécessairement un changement dans la séquence d’acides aminés de la protéine et donc
d’impact fonctionnel. Toutefois, il arrive qu’un SNP ait un impact fonctionnel, provoquant un changement dans la
stabilité du transcrit ARNm ou dans les caractéristiques de la protéine résultante.
Dans une étude d’association, il faut choisir un effet prédit des marqueurs sur le phénotype, donc l’effet attendu qu’ils
auront sur le phénotype. Il existe plusieurs effets possibles :
• Combinaison de la taille des effets (combining effect sizes) : La méthode de méta-analyse de la taille des
effets utilise l’information de la taille des effets du variant et calcule la somme de la taille des effets qui peut
être traduite de manière significative, par exemple une augmentation de 1,25 dans la probabilité de
développer la schizophrénie.
• Modèle à effets fixes : Ce modèle assume que l’effet génétique réel dans l’ensemble du jeu de données est
le même et que les différences sont dues uniquement au hasard. Aussitôt que de l’hétérogénéité est
présente, l’hypothèse sur laquelle ce modèle est basé est rejetée.
• Modèle d’effets aléatoires : Il est assumé que chaque jeu de données possède ses véritables effets sous-
jacents au sein d’une population d’effets sous-adjacents.
Le déséquilibre de liaison
Le déséquilibre de liaison (LD) est la tendance de deux ou plusieurs loci à être hérités ensemble plus souvent que ce
qui est attendu au hasard. Mathématiquement, le LD entre deux loci (potentiellement deux marqueurs, comme deux
SNPs) sur le même chromosome peut être quantifié comme la probabilité que les allèles présents à ces deux loci
soient transmis ensemble dans la population au travers des générations (Bush & Moore, 2012). Le terme
24
déséquilibre de liaison est un effort pour décrire mathématiquement le changement des variations génétiques d’une
population dans le temps. Lorsque le LD est suffisamment grand, le génotypage d’un site peut transmettre
pratiquement toute l’information du génotype du deuxième site avec lequel il est lié. Ce concept est utilisé pour faire
de l’inférence lors du génotypage d’individus, que nous verrons plus loin.
La littérature offre plusieurs méthodes pour mesurer le LD (Devlin & Risch, 1995), bien qu’elles soient toutes
ultimement reliées à la différence entre la fréquence observée de cooccurrence pour deux allèles (deux marqueurs)
et la fréquence attendue si les deux marqueurs étaient indépendants. Les deux mesures les plus communément
utilisées sont D’ et r2 (Devlin & Risch, 1995). Dans le cas des analyses génétiques, LD est généralement rapporté en
termes de r2 : une mesure statistique de corrélation. Un r2 de grande valeur numérique indique que les deux
marqueurs transmettent de l’information similaire. La mesure r2 est sensible à la fréquence allélique du marqueur en
aval et peut seulement présenter une grande valeur numérique dans les régions où D’ présente aussi une valeur
élevée.
Un aspect souvent négligé lorsque l’on considère le LD est la limitation des technologies actuelle dans son calcul. Il
est impossible de mesurer directement la fréquence des haplotypes dans un échantillon, parce que chaque SNP est
génotypé de manière indépendante et parce que la phase du chromosome d’origine de chaque allèle est inconnue.
La présence de LD implique que lors d’une étude d’association, un SNP associé avec le trait étudié est dans l’un des
deux cas suivants :
1) Le SNP directement génotypé est causal : il influence directement le système biologique qui mène
ultimement au phénotype (association directe). On appelle aussi parfois ce SNP « SNP fonctionnel ».
2) Le SNP génotypé n’est pas celui qui influence le trait étudié, il s’agit d’un SNP marqueur (SNP qui capture
la variation des sites proches dans le génome) en grand LD avec le SNP (ou autre variant) causal. À cause
du LD, le SNP marqueur est statistiquement associé avec le phénotype (association indirecte).
Puisque ces deux résultats possibles existent, un SNP significativement associé ne devrait pas être interprété
comme la variation causale et peut nécessiter des études additionnelles pour identifier la position précise du SNP
fonctionnel (Ioannidis, Thomas, & Daly, 2009). Un variant causal peut être un variant commun, rare ou un variant de
structure. De plus, un variant causal peut se situer sur une région transcrite ou non. Le variant causal peut être
directement sur le gène causal, ou dans une région adjacente qui régule l’expression du gène causal. Il est aussi
possible que plusieurs gènes causaux soient associés à un variant causal situé dans une région régulatrice qui
impacte l’ensemble de ces gènes (Ioannidis, Thomas, & Daly, 2009).
25
Le LD est un facteur crucial de la réussite des études d’association et le demeura jusqu’à ce que le reséquençage de
génome complet devienne plus largement accessible. Peu d’études ont les moyens de séquencer avec une
profondeur suffisante l’ensemble des milliers de polymorphismes nucléotidiques qui sont présents sur un génome
donné, comme celui de l’abeille. Le LD nous permet d’avoir une chance d’observer les effets d’un variant causal,
même s’il n’a pas été séquencé, par l’intermédiaire d’un marqueur avec lequel il est en LD. Bien que le LD soit
bénéfique, voire nécessaire, aux études génomiques, il présente un inconvénient considérable. La saturation du
génome par les SNPs peut mener deux SNPs séquencés à être en LD, ce qui va à l’encontre de l’hypothèse
d’indépendance des marqueurs des modèles statistiques utilisés pour l’association. Ce problème peut être évité en
évaluant le LD entre les SNPs et ne conservant qu’un seul SNP parmi un groupe de SNPs liés (Paschou, et al.,
2008).
1.4.2 Étapes d’une étude d’association
Les GWAS ont pour objectif de d’identifier des régions génomiques qui influencent un trait en identifiant des
marqueurs significativement associés au trait par des tests statistiques d’association. Pour ce faire, il faut réaliser
l’évaluation quantitative du phénotype dans une population et identifier des marqueurs qui sont présents dans cette
même population pour ensuite réaliser les tests d’associations statistiques.
Les GWAS suivent toujours un processus général similaire (l’ordre des premières étapes peut varier avec le modèle
d’échantillonnage) :
1) L’échantillonnage
2) L’évaluation du phénotype
3) Le génotypage (le séquençage et la découverte de variations)
4) La filtration des variations
5) L’association génotype-phénotype
6) L’analyse des résultats
Chacune des étapes sera explorée plus en détail ci-dessous pour permettre une meilleure compréhension du
fonctionnement et des difficultés d’une GWAS.
1) L’échantillonnage
Pour réaliser une étude d’association, il faut nécessairement échantillonner une population. La réalisation de la
GWAS se fait généralement par l’utilisation de l’une des trois méthodes d’échantillonnage suivantes, dépendamment
du trait et des ressources disponibles : cas-contrôle, cohorte et famille génétique. Le premier modèle, cas-contrôle,
26
les individus sont tirés de la même population et sélectionnés selon l’expression de leur phénotype. C’est une
approche rapide et optimale pour l’étude des traits rares. Leur désavantage principal est que cette approche est
sujette à donner des erreurs de stratification de population. Le deuxième modèle, la cohorte, est plus représentative
de la population de laquelle elle est tirée. Le phénotype des individus échantillonnés est évalué uniformément avant
de faire le génotypage. L’avantage certain de cette méthode est qu’il n’y a pas de biais pour la sélection des
individus qui expriment fortement ou non le phénotype et qu’elle présente beaucoup moins de biais que le cas-
contrôle. Cette approche permet aussi l’évaluation d’un phénotype d’expression continue dans la population. Un
autre avantage est que l’on peut par la suite combiner les données d’autres études ou d’autres échantillonnages
pour augmenter la puissance des analyses (P. R. Burton, 2007). Le désavantage majeur est que l’échantillon doit
être de grande taille pour l’expérience, et davantage encore si la fréquence du phénotype est basse. Cette méthode
n’est pas adaptée à l’étude des traits rares. Finalement, la troisième méthode est le modèle familial, pour laquelle
l’utilisation d’individus apparentés est faite, comme le laisse supposer son nom. Ce type d’étude mise sur le LD entre
les allèles transmis ou non qui affectent l’expression du trait chez la descendance. Cette approche contrôle pour la
structure de population et permet la vérification de la transmission mendélienne des traits. Le modèle familial est
souvent associé à la méthode de cartographie des QTLs et est particulièrement utile pour les traits rares, mais perd
de la puissance quand l’architecture génétique est polygénique (Risch, 2001).
Pour une GWAS visant l’étude du trait SMR, la méthode d’échantillonnage appropriée est l’étude de cohorte. Lors de
la prise d’échantillon, on vise à obtenir un ensemble d’individus dans la population qui sont non apparentés. Une
population dont les individus sont apparentés est nécessairement plus proche génétiquement que dans une
population non apparentée, qui contient une plus grande diversité génétique. La généalogie proche pour plusieurs
individus implique un biais dans les fréquences alléliques à certains marqueurs, à cause de l’hérédité de ces
derniers. Lors des tests d’association, un marqueur très présent pour une famille qui partage un trait fortement
exprimé peut paraître faussement associé à ce trait à cause de sa fréquence allélique, ce que l’on qualifie de faux-
positif. C’est pourquoi un échantillon d’individus non apparentés, donc provenant de sites différents, est nécessaire
pour éviter que le biais de fréquence allélique, souvent associé à l’isolation des populations à des sites
géographiques. Cependant, la réalité n’est pas aussi simple : en fait les relations de parenté entre les individus
échantillonnés sont inconnues et assumées être éloignées. Si on observe une forte corrélation entre un marqueur et
l’expression forte de la résistance, ce n’est pas nécessairement parce que ce marqueur est associé à l’expression de
la résistance. Puisqu’on ne connaît pas les relations entre nos individus dans notre échantillon, il se peut qu’un petit
ensemble d’individus qui exprime similairement le phénotype ait un ancêtre commun relativement récent. Cette
ascendance partagée fait de ce petit groupe une sous-population dans notre échantillon; c’est pourquoi il faut
prendre en compte la stratification de la population lors des tests d’association statistiques, afin de ne pas causer
d’inflation des tests avec des faux-positifs dus à la stratification de la population.
27
Ainsi, pour réaliser une GWAS sur le trait de résistance au Varroa, un facteur important dans la sélection des
colonies à tester serait le site de collecte des individus, pour essayer de limiter la parenté et augmenter la diversité
génétique dans l’étude et ainsi éviter les biais provoquant des faux-positifs.
2) L’évaluation du phénotype
Le type de phénotype évalué doit être pris en considération pour déterminer le type d’analyses subséquentes dans
une étude d’association. Nous avons déjà établi précédemment que la résistance SMR est un trait phénotypique
quantitatif. Nous aborderons dans la section du génotypage et des tests d’association comment cela affecte la
méthodologie de notre étude. Il est possible d’ajouter l’évaluation d’autres phénotypes pouvant servir de cofacteurs
pour expliquer le phénotype principal en plus des marqueurs génétiques, puisque ceux-ci ne sont pas les seuls
facteurs déterminants du phénotype et que l’environnement présente un effet important qui ne doit pas être négligé.
3) Le génotypage
Le génotypage est une étape complexe dont l’objectif final est l’obtention de marqueurs robustes pour la réalisation
de tests statistiques d’association avec le phénotype. Simplement, le génotypage est l’identification des variations
génétiques présentes chez les individus échantillonnés et de leur position spécifique dans le génome. Le génotypage
se réalise par le séquençage de l’ADN des individus, suivi de l’analyse des séquences obtenues pour en faire
ressortir les variations nucléotidiques qui seront utilisées comme marqueurs. L’analyse des séquences regroupe
toutes les étapes bio-informatiques qui permettent de passer de séquences désordonnées du génome à un produit
final d’un ensemble de marqueurs robustes.
Génotypage par séquençage
Les technologies de séquençage à Haut-débit sont la pierre d’achoppement de l’engouement actuel pour les études
d’association pan-génomiques (Metzker, 2010). Sans ces technologies, les coûts temporel et monétaire seraient trop
prohibitifs pour la réalisation de ce type d’étude pour une grande majorité de laboratoires.
Les méthodes actuelles pour réaliser un échantillonnage pan-génomique des marqueurs SNP chez un individu ont
évolué à partir de méthodes réduisant la complexité du génome, autrement dit en effectuant un séquençage partiel
de l’ensemble du génome. Le séquençage Haut-débit permet de faire le séquençage de génome complet (Whole
Genome Resequencing, WGR), mais il s’agit d’un processus dispendieux, qui l’est d’autant plus que la taille du
génome est grande, sans compter que ces coûts dépendent du nombre d’individus séquencés. Étant donné
l’importance de la taille de l’échantillon pour les GWAS, le WGR n’est simplement pas une approche viable. C’est ce
qui rend la réduction de la complexité du génome séquencé nécessaire, notamment pour assurer un chevauchement
28
suffisant de la couverture des séquences, particulièrement pour les espèces avec un grand génome. Ces méthodes
incluent l’amplification par PCR (polymerase chain reaction) longue portée de régions spécifiques, l’utilisation de
sondes et d’autres méthodes d’hybridation d’ADN ou de capture de séquences. Toutes ces méthodes sont
fastidieuses technologiquement, chronophages et onéreuses.
En 2011, Elshire et al. présentent une méthode de génotypage par séquençage (GBS), qui utilise des enzymes de
restriction (RE) pour permettre un séquençage rapide et précis de fragments de l’ensemble du génome et qui,
contrairement aux anciennes méthodes, fonctionne sur les grands génomes. Le GBS est une approche rapide et
robuste qui permet simultanément la découverte et le génotypage de marqueurs moléculaires à l’échelle du génome.
L’utilisation des RE permet d’éviter les régions répétées, ce qui facilite l’étape d’alignement des séquences
homologues dans les analyses bio-informatiques d’espèces présentant une grande diversité génétique (Elshire, et
al., 2011). De plus, le GBS fait l’ajout d’un code-barres, ce qui permet de réduire les coûts et le temps de
séquençage en joignant l’ensemble des échantillons à séquencer dans un canal de séquençage unique. Cette
méthode constitue une amélioration de la première méthode de GBS utilisant des marqueurs de sites de restriction
associés à l’ADN, appelée « RAD sequencing » (Baird, et al., 2008).
La méthode GBS fonctionne de la manière suivante :
Il faut d’abord sélection des enzymes de restriction : Elles doivent produire une coupure laissant 2 à 3 pb seules pour
permettre la ligation de l’adaptateur et ne pas affecter les régions avec beaucoup de séquences répétées. Il faut un
nombre de codes-barres égal au nombre d’échantillons. Ces codes-barres doivent être liés avec un des deux types
d’adaptateurs, soit l’adaptateur qui se lie au site de coupure produit par la première RE. La préparation de librairie
pour le séquençage débute par le dépôt des échantillons individuels dans les puits d’une microplaque, chacun en
présence de la solution des adaptateurs et d’un code-barres propre. Ensuite, les REs sont ajoutés et la digestion de
l’ADN se fait. Cette étape terminée, la liaison des adaptateurs déjà présents dans le mélange se fait par l’ajout d’un
tampon de ligation avec de l’ATP et T4 ligase. Par après, tous les échantillons munis de leur code-barres spécifique
sont combinés, puis l’amplification des fragments purifiés est faite par PCR (polymerase chain reaction). La
préparation de librairie étant terminée, une sélection des fragments se fait en fonction de leur taille pour optimiser la
qualité du séquençage. Finalement, le séquençage des séquences est fait par une technologie de séquençage Haut-
débit au choix.
Les échantillons doivent être évalués pour la qualité de l’extraction d’ADN et sa concentration avant de faire la
préparation de librairie et le séquençage, simplement parce qu’une concentration trop basse et/ou une mauvaise
qualité d’ADN produit une mauvaise couverture de génotypage. De plus, il faut standardiser la quantité d’ADN pour
tous les échantillons afin d’obtenir un nombre de fragments égal et ne pas biaiser les analyses subséquentes.
29
4) Analyses des données de séquençage
L’étude d’association nécessite des analyses bio-informatiques qui permettent d’extraire un jeu de données de
variations des données brutes de séquençage. Ces analyses peuvent être divisées en quatre grandes étapes : A) Tri
de qualité des séquences, B) Alignement des séquences, C) Découverte des variations et D) Filtration des
variations. Le jeu de données de variations au terme de ce processus sera directement utilisé pour faire l’association
statistique avec le phénotype afin d’identifier des régions génomiques qui impactent ce phénotype. Voyons chacune
de ces étapes plus en détail :
A) Tri de qualité des séquences
La toute première étape est de vérifier la qualité des séquences brutes et d’éliminer celles qui sont sous le seuil de
qualité admis. La qualité est une mesure de confiance de l’appareil sur la longueur du segment pour chacune des
bases qu’il a attribuée. Le score de qualité Phred est la mesure la plus fréquemment utilisée pour déterminer la
confiance de la plateforme de séquençage. Le score indique la probabilité qu’une base donnée ait été attribuée
incorrectement par le séquenceur (Ewing & Green, 1998). L’élimination des séquences ayant un mauvais score de
qualité permet d’éviter des associations faussement positives dans les analyses statistiques ultérieures (Wang,
Cordell, & Steen, 2018). À la suite de l’étape de tri de qualité, il faut faire le démultiplexage, c’est-à-dire identifier les
séquences qui comportent un code-barres identique pour les regrouper par échantillon. Lorsque les séquences
propres à chaque échantillon sont regroupées, le code-barres sera coupé pour chacune d’entre elles, ainsi que
l’adaptateur.
B) Alignement des séquences
Après le tri de qualité et le démultiplexage des séquences, il faut faire le réassemblage des fragments de séquences
qui ont été créés pour constituer une représentation du génome originel. Le processus d’assemblage est complexe
en absence d’un génome de référence. Cependant, lorsqu’un génome de référence est disponible on parle plutôt
d’alignement des séquences sur le génome de référence, ce qui simplifie grandement la tâche de l’utilisateur. Cet
alignement a une certaine tolérance pour les mésappariements, sans quoi les variations génétiques seraient
entièrement éliminées.
Les termes « profondeur de séquençage » et « couverture » sont régulièrement employés pour décrire la qualité de
notre assemblage. La profondeur est une mesure du nombre de séquences uniques qui couvrent un locus donné du
génome et est une mesure de fiabilité de la région couverte dans la séquence assemblée. Une plus grande
profondeur signifie un meilleur consensus de la région séquencée pour chaque échantillon et donc une détection
plus précise des variations interindividuelles. La couverture, exprimée en pourcentage, indique le nombre de
30
séquences uniques qui incluent un nucléotide donné dans la séquence alignée. Elle nous informe de la taille de notre
échantillonnage par séquençage sur le génome entier, soit la proportion du génome qui a été testée pour trouver des
variations de séquences (des marqueurs).
C) Découverte des variations
L’étape suivante de l’analyse est la détection des variations dans les séquences. La découverte de variations est le
processus par lequel on détermine de façon précise les variations entre un échantillon, d’autres échantillons et le
génome de référence. Ceux-ci peuvent être des SNPs, des petites insertions ou des indels, ou encore des variations
structurales plus grandes (transversion, translocation, variations du nombre de copies).
D) Filtration des marqueurs
Le contrôle de qualité est essentiel dans les GWAS et les mesures doivent être rigoureuses pour éviter de produire
des faux-positifs lors de l’association statistique. Il n’existe pas de consensus dans la littérature sur les procédures
statistiques appropriées pour filtrer les variations dans les études d’association génomiques (Balding, 2006).
Cependant, certaines analyses préliminaires sont d’utilisation courante pour l’optimisation du jeu de marqueurs avec
lequel sera faite l’analyse d’association. Entre autres, les données manquantes, la fréquence d’allèle mineur (MAF),
le test d’équilibre Hardy-Weinberg (HWE), l’hétérozygotie et l’inférence de phase sont souvent inspectés. Ils
informent sur les marqueurs qui pourraient potentiellement biaiser l’association par la production de faux-positifs ou
de faux-négatifs. Évidemment, la raison pour laquelle aucun consensus n’existe est que chaque étude comporte ses
particularités. Une filtration bénéfique à une analyse pourrait être néfaste à une autre. Les paramètres propres à
chaque projet, tels que la méthode d’échantillonnage et les caractéristiques génétiques de l’espèce étudiée, doivent
être pris en compte. Outre les filtrations mentionnées précédemment, une filtration de base se fait. Elle remplit
plusieurs fonctions, comme le retrait de toutes les variations dans le jeu de données qui ne sont pas situées sur des
chromosomes. Les études qui génèrent le génome de référence ne peuvent pas assembler parfaitement le génome
et incluent donc toujours des contigs, des segments d’assemblage qui n’ont pas pu être placés dans l’assemblage
final et qui sont sans position claire dans le génome. À cause de leur nature incertaine, il n’y a aucun bénéfice à
inclure les variations de ces séquences. La filtration de base élimine aussi toutes les variations qui ne sont pas des
SNPs et permet de filtrer un nombre minimum et maximum d’allèles trouvé pour chaque individu à chaque site.
La raison de la filtration des données manquantes est que la présence d’individus avec une fréquence trop élevée de
données manquantes affecte le calcul des fréquences alléliques (car les sites sans information sont tout de même
comptabilisés dans le calcul) et des données manquantes des sites. Ces individus doivent donc être éliminés du jeu
de données avant la filtration des sites. La présence de beaucoup de données manquantes pour un individu implique
généralement une mauvaise qualité d’ADN envoyé au séquençage (Zeng, et al., 2015). Les sites doivent aussi être
filtrés pour ce critère. Pour un SNP génotypé, si plusieurs individus présentent des données manquantes à ce site,
31
cela signifie que le marqueur est difficile à génotyper, ce qui implique un haut taux d’erreur de génotypage potentiel.
Le seuil généralement admis de données manquantes est de 5 % pour un marqueur donné (Anderson, et al., 2010).
Les erreurs de séquençage sont relativement communes et affectent habituellement une seule séquence à la fois.
Ces erreurs peuvent donc être interprétées comme des SNPs très rares, présents dans une seule séquence. Pour
éviter ce problème, les allèles ayant une fréquence trop rare (seuil arbitraire) sont retirés du jeu de données. C’est ce
que l’on appelle la filtration de fréquence de l’allèle mineur. Le seuil est habituellement établi à 1 % pour un
échantillon d’individus relativement petit, mais peut être abaissé à 0,1 % pour un plus gros échantillon (Wang,
Cordell, & Steen, 2018). Quoiqu’il en soit, le pouvoir statistique des SNPs rares reste excessivement faible
(McCarthy, et al., 2008).
Le test d’équilibre Hardy-Weinberg (HWE) est une autre filtration utilisée pour réduire la présence de fausses
variations dans notre jeu de données. En résumé, l’hypothèse d’Hardy-Weinberg est que les fréquences allélique et
génotypique peuvent être estimées dans une population. Il s’agit d’un principe de base en génétique des
populations, appliqué à une population théorique, soit à l’équilibre mutation dérive et se reproduisant en panmixie
(association aléatoire des gamètes) : pour un allèle A de fréquence-p et un allèle alternatif a de fréquence q, les
fréquences attendues pour les génotypes AA, Aa et aa sont p2, pq et q2 respectivement. On calcule la déviation de
l’HWE des fréquences observées en utilisant le test du x2. Quand les ratios d’homozygotie et d’hétérozygotie varient
de la prédiction avec HWE, on peut soupçonner que la présence d’erreurs de génotypage, la petite taille de
l’échantillon ou la stratification de la population soit en cause (Wittke-Thompson, Pluzhnikov, & Cox, 2005).
Cependant, la présence de LD entre deux marqueurs provoque la violation des prédictions de HWE, sans compter
que des échantillons de populations naturelles vont nécessairement présenter de la stratification de population dans
nos échantillons. Enfin, le modèle HWE se basant sur la reproduction aléatoire dans une population (c.-à-d.
panmixie), il est peu approprié pour des organismes qui subissent une pression de sélection artificielle, comme c’est
le cas en agriculture en général et en apiculture, en particulier : la reproduction se fait souvent par sélection de
reines.
Finalement, les sites trop hétérozygotes doivent être filtrés (retirés) du jeu de données avant de faire l’imputation
(inférence de phase), car leur présence affecte la qualité de l’imputation (crée de fausses associations). Une
hétérozygotie trop haute peut être indicatrice de contamination.
32
L’imputation est utilisée pour gérer les données manquantes aux sites. Il s’agit de remplacer les marqueurs
manquants par les marqueurs qui seraient attendus considérant l’information des autres marqueurs de l’individu en
comparaison à des bases de jeux de données. L’imputation a pour avantage de fournir de l’information exhaustive
pour plusieurs marqueurs analysés et de rendre possible l’utilisation de marqueurs qui n’ont pas été génotypés. De
plus, la réalisation de méta-analyses devient possible par la combinaison de plusieurs jeux de donnés issus de
différentes plateformes de séquençage, grâce à l’imputation (Zeng, et al., 2015). L’imputation est effectuée après
avoir complété toutes les étapes de filtrations, sur l’ensemble des marqueurs robustes retenus pour l’analyse
d’association génotype-phénotype.
5) L’association génotype-phénotype
Après avoir produit un jeu de marqueurs pan-génomiques robuste, il ne reste qu’à faire l’association avec le
phénotype pour détecter des corrélations. Malgré la facilité grandissante de l’exécution d’études génomiques grâce à
la baisse des coûts de séquençage à Haut-débit et au développement d’outils informatiques plus accessibles aux
utilisateurs, l’identification d’associations génotype-phénotype reste complexe et présente plusieurs défis statistiques.
Inflation statistique
Une difficulté majeure dans les études d’associations est que l’effet de liaison génétique entre les marqueurs et le
phénotype sur lequel on mise pour trouver les régions génomiques sous-jacentes est aussi affecté par plusieurs
facteurs additionnels qui peuvent contribuer à l’association que l’on observe. Ces facteurs additionnels provoquent
une inflation des tests statistiques et donc la génération de nombreux faux-positifs. Plusieurs de ces facteurs ont été
soulevés dans les paragraphes précédents.
Beaucoup d’études se sont penchées sur cette problématique afin d’optimiser les tests statistiques pour limiter, voir
tenter d’éliminer ces facteurs de biais dans l’association (Cantor, Lange, & Sinsheimer, 2010). La structure de
population et les degrés variables de parenté entre les individus (présence de dépendance et d’indépendance entre
les individus) sont deux associations indirectes et non causales communes qui biaisent les analyses. D’autres
facteurs peuvent causer des associations non-causales, comme le sexe ou l’âge (Vilhjalmsson & Nordborg, 2013).
De tels facteurs doivent être utilisés comme covariables pour corriger le modèle statistique employé dans l’étude.
Malgré les efforts faits lors de l’échantillonnage pour que l’échantillon soit composé d’individus d’origines diverses
ayant une grande diversité génomique, aucune population n’est exempte de l’inflation causée par la structuration en
différentes populations (Zeng, et al., 2015) : les régions génomiques dans une population peuvent avoir évolué
différemment par rapport à d’autres populations, ce qui produit une fréquence allélique propre à une population
(Zondervan & Cardon, 2004). Dans de tels cas, l’utilisation classique d’une méthode d’échantillonnage cas-contrôle
33
classique ne permet pas d’éliminer la présence associations faussement positives. Il faut plutôt intégrer au modèle
statistique des méthodes qui prennent en compte la stratification génétique du jeu de données complet.
La relation entre les individus peut être évaluée dans le jeu de données par l’Identité-par-l’état (Identity-by-state,
IBS), qui mesure la proportion de deux génomes d’individus qui partagent 0, 1 ou 2 allèles communs. Le IBS est
calculé pour les autosomes en utilisant les SNPs en faible LD (r2<0.2). Des individus partageant 2 allèles à tous les
locus ont un IBS = 1 et sont des jumeaux monozygotes (ou un duplicata). Des parents comparés à leur enfant, ou
deux frères/sœurs auront un IBS = 0.5 attendu (dans le cas d’héritabilité d’un ancêtre commun, on parle plutôt de
IBD, identity-by-descent). Des méthodes peuvent être employées pour prendre en considération la relation entre
deux individus proches, mais une approche rigoureuse élimine tous les sujets qui ont un IBS > 0.1875 (Wang,
Cordell, & Steen, 2018).
Un des grands problèmes rencontrés est le manque de précision de l’évaluation de l’effet d’un marqueur, puisque le
nombre de marqueurs dépasse largement le nombre d’individus dans l’échantillon. Idéalement, le nombre d’individus
devrait dépasser le nombre de marqueurs (Cantor, Lange, & Sinsheimer, 2010), mais considérant les coûts de la
prise d’échantillon de quelques dizaines d’individus par rapport aux milliers de marqueurs produits par le
séquençage, cet objectif n’est simplement pas réaliste. Les tests statistiques doivent donc composer avec un nombre
d’observations du phénotype relativement petit pour un très grand nombre de variables prédictives testées
simultanément, ce qui représente un défi statistique d’envergure (Zeng, et al., 2015). Effectivement, si le nombre de
marqueurs est beaucoup plus grand que le nombre d’observations du phénotype, on arrive à une infinité de solutions
avec les méthodes comme celle des moindres carrés. Il s’agit d’un problème classique en statistiques pour lequel
plusieurs méthodes de résolution ont été proposées. Parmi elles, il existe la méthode des composantes principales,
la méthode de matrice de parenté et les méthodes avec une présélection des marqueurs, qui sont élaborées ci-
dessous.
Méthode des composantes principales
Certaines méthodes misent sur la réduction de la quantité d’information génomique et phénotypique en produisant
un nombre restreint de combinaisons linéaires dont les coefficients sont calculés pour produire avec la corrélation
globale entre les deux un résultat maximal. Une de ces méthodes qui est particulièrement utilisée est la méthode des
composantes principales (Principal Component Analysis, PCA). La technique PCA met l’accent sur la variation dans
un jeu de données et en fait ressortir les tendances fortes. Elle permet d’identifier des individus qui varient de façon
aberrante à cause de la structure de population (Price, et al., 2006) (Patterson, Price, & Reich, 2006). De façon
générale, la PCA est un outil de réduction de dimensions qui peut être utilisé pour réduire un gros ensemble de
34
variables à un petit ensemble qui contient la plupart de l’information initiale. Elle arrange toutes les composantes
principales (PCs) en fonction de leur variance explicative (Price, et al., 2006). Elle est souvent utilisée en parallèle
avec la méthode EIGENSTRAT comme covariables lors des tests statistiques d’association pour éviter les biais de la
substructure de population. La méthode EIGENSTRAT fait des combinaisons linéaires des variables originales
pondérées selon leur contribution dans l’explication de la variance dans une dimension orthogonale particulière. La
méthode EIGENSTRAT permet d’estimer l’effet de la variation liée à l’héritage génétique à l’aide des données de
PCs générées à partir des données de génotypage. Le ratio des EIGENVALUES est le ratio de l’importance
explicative des facteurs par rapport à la variable. La PC explique la plus grande partie possible de la variabilité dans
les données. Chaque composante subséquente explique la plus grande variabilité restante possible. Dans le cas
spécifique de l’utilisation en génomique, la matrice de génotype est normalisée et transformée par combinaison
linéaire des SNPs. Le premier vecteur de la matrice convertie désigne la première PC, qui explique la plus grande
partie de la variation dans des données de génotype, suivi par la deuxième PC et ainsi de suite. Un individu est
considéré comme aberrant lorsqu’il dévie par au moins six standards de la moyenne des premiers PCs (Price, et al.,
2006).
Méthodes de matrice de parenté génomique
Ces méthodes sont fondées sur l’idée que dans certaines conditions il est équivalent de décrire la composante
génétique du phénotype évalué soit comme une somme d’effets de marqueurs, soit comme une valeur génétique
additive issue d’une distribution multinormale particulière (Habier, Fernando, & Dekkers, 2007). La structure de la
variance de cette distribution est représentée de manière proportionnelle dans ce que l’on appelle une « matrice de
parenté génomique ». La matrice de parenté génomique est composée d’éléments i, j dont chacun est une fonction
des allèles des marqueurs présents à la fois chez i et j. En somme, la parenté est évaluée par la similarité entre le
jeu de donnée de marqueurs trouvés pour chaque individu. Selon le concept de ségrégation mendélien, deux frères
auront théoriquement un score de 0,5 alors que des demi-frères auront 0,25.
Les approches de PCA et de matrice de parenté perdent en efficacité lorsque la structure de population augmente en
complexité (Zhang Z. , et al., 2010).
Les méthodes avec une présélection des marqueurs
Cette approche évalue l’effet de chacun des marqueurs individuellement, puis fait une sélection parmi l’ensemble
pour ne retenir que ceux qui ont obtenu le score le plus significatif. Ils sont alors utilisés pour estimer conjointement
leur effet par moindres carrés. Une autre façon est de faire la réduction du nombre de variables par « régression
pénalisée ». Ces méthodes permettent de sélectionner des marqueurs les plus pertinents tout en estimant l’effet de
35
ceux-ci simultanément. On évite alors au moins partiellement les problèmes qui sont inhérents à la présence de
déséquilibre de liaison. La méthode de régression pénalisée fonctionne en effectuant la régression vers zéro de
l’effet des marqueurs, de manière que seuls ceux qui influencent suffisamment l’estimation de la valeur génétique
soient conservés. Tous les marqueurs qui n’influencent que peu le trait (effet faible) vont être tempérés pour ne pas
nuire à l’évaluation des marqueurs ayant un impact plus grand. Une méthode particulièrement utilisée de ce type est
la méthode de LASSO (Least Absolute Shrinkage and Selection Operator) (Tibshirani, 1996).
Modèles statistiques
Le modèle statistique sélectionné pour réaliser l’association dépend du type de variables que l’on veut associer.
Dans le cadre du projet, nos variables sont le phénotype qui est quantitatif et les génotypes qui sont nominaux. De
ce fait, le modèle statistique à préconiser est la régression linéaire (on dit aussi modèle linéaire), soit le modèle le
plus simple et l’un des plus étudiés. Le modèle linéaire permet d’évaluer si deux variables sont associées (si lorsque
l’une augmente, l’autre réagit proportionnellement), ce qui est résumé par la valeur p. Il permet aussi d’estimer la
force de la relation entre les deux variables (à quel point les valeurs observées sont-elles proches de la ligne de
corrélation), le résultat étant exprimé par la valeur r2. Le modèle linéaire permet aussi de produire une équation
linéaire qui permet de prédire des résultats, mais cette utilisation n’est pas appropriée dans notre projet.
En décrivant le modèle linéaire par une approche plus statistique, on dit que le modèle modélise Y (la variable
phénotypique) en fonction de X (les variables génotypiques) par la notation matricielle :
Y = Xβ + ε
Où β est le vecteur de paramètres estimés du modèle, et ε représente l’erreur. Ce modèle est pour chaque individu
de l’échantillon. Les appellations alternatives des variables sont abondantes; Y est aussi appelée variable
dépendante, variable endogène, variable expliquée et réponse, alors que X est aussi référé en tant que variables
indépendantes, variables exogènes, variables explicatives et prédicteurs. Pour résoudre l’équation, on utilise la
somme des moindres carrés ordinaires.
La structure de population, discutée dans la section précédente, est habituellement représentée par des proportions
d’individus qui appartiennent à des sous-populations. Cette information est généralement intégrée dans l’évaluation
de l’association des marqueurs au trait pour contrôler le biais qu’elle peut causer par l’intermédiaire de matrices de
parenté (ou pédigré lorsqu’il est disponible) et avec ou sans les composantes principales (PCs) dérivées de
marqueurs génétiques utilisés pour la PCA. Dans les modèles statistiques, les sous-populations des matrices de
parenté (matrice Q) sont considérées comme des effets fixes.
36
Maintenant que le modèle linéaire a été établi comme le modèle optimal pour le projet et que les facteurs à
considérer ont tous été survolés, il faut déterminer quel modèle statistique linéaire employer afin de tester
l’association entre le génotype et le phénotype telle qu’elle se produit en réalité, c’est-à-dire le type d’association que
l’on pense être celui qui explique notre sujet d’étude. Ci-dessous seront présentés les principaux modèles linaires
employés dans les GWAS.
Modèle linéaire général (General Linear Model, GLM) :
L’analyse d’association peut se faire en visant l’association avec un seul locus; ce serait le type d’analyse adapté
pour un trait rare associé à un locus à effet fort. Le modèle statistique pour ce type d’association, lorsque le trait est
quantitatif, est un modèle linéaire généralisé (generalized linear model, GLM), qui régresse linéairement chacun des
marqueurs indépendamment par rapport au phénotype. Le GLM peut être représenté conceptuellement par
Y = Q + S + e
Où Y est le phénotype et e les résidus (résultat de l’effet environnemental et l’effet du hasard), Q la matrice de
parenté (avec ou sans PCA), S est le marqueur génétique et e les résidus.
Ce modèle assume que 1) le trait est distribué de façon normale, 2) la variance du trait est la même dans chaque
groupe d’échantillons (population), 3) les groupes d’échantillons sont indépendants (Bush & Moore, 2012).
Cependant nous avions établi dans les paragraphes précédents que nous supposons que le caractère SMR est
commun et contrôlé par un ensemble de polymorphismes génétiques communs à faible effet. La simple régression
linéaire, même en utilisant des covariables pour contrôler la structure de population, est insuffisante pour considérer
les relations ancestrales complexes des individus testés (Xiao, et al., 2017) et ne permet pas de détecter l’effet
synergique des marqueurs sur le phénotype. Dans cette situation, le modèle linéaire mixte, utilisé de façon routinière
dans les programmes de reproduction sélective, convient le mieux.
Modèle linéaire mixte (Mixed Linear Model, MLM) :
Le modèle linéaire mixte est un modèle statistique rassemblant des effets fixes et des effets aléatoires (Yu, et al.,
2006). Il s’agit d’un modèle efficace pour considérer les structures de données complexes en contrôlant la
covariation, comme la stratification de la population (Yang, et al., 2014). Concisément, le modèle mixte inclut un
facteur polygénique au simple modèle linéaire. Le MLM considère l’ensemble des effets génétiques des individus
comme des effets aléatoires avec la structure de variance et covariance. MLM implique l’utilisation d’une matrice de
parenté génétique qui permet d’estimer la contribution des relations entre les individus à la variance en utilisant le
37
modèle d’effets aléatoires. L’utilisation de cette matrice est nécessaire à cause de l’absence de connaissance du
pédigré des individus (Xiao, et al., 2017). L’association est alors testée en considérant cette information dans
l’attribution de l’effet des marqueurs sur la variance phénotypique. Conceptuellement, MLM peut être décrite
comme :
Y = Q + K + S +e
Où Y est le phénotype, Q la matrice de parenté (avec ou sans PCA), K la structure de variance et covariance, S les
marqueurs génétiques et e les résidus. Ce modèle contrôle mieux les faux-positifs que les modèles naïfs comme le t-
test, qui n’inclut que les marqueurs testés.
Les biais de la structure de population considérée sont corrigés par MLM qui modélise la structure comme un effet
aléatoire (sauf dans le cas de variations rares). La capacité de MLM à corriger pour la structure spécifique de la
population étudiée augmente la puissance de détection des variations associées (Price, et al., 2010). Les relations
entre les individus dans la population sont aussi corrigées, en réduisant la contribution d’individus apparentés au test
statistique. Cela empêche la surpondération d’informations redondantes (Yang, et al., 2014). La présence d’un effet
aléatoire provoque une dépendance entre les variables aléatoires (à l’opposé des modèles fixes). Si deux individus
ne sont pas indépendants, une corrélation entre les deux individus apparaît et les variables de notre modèle ne sont
plus toutes indépendantes. Ainsi, la présence d’un effet aléatoire entraîne une dépendance entre les observations.
Le modèle mixte suppose donc que certains des effets ne sont plus fixes, mais tirés au hasard dans une loi donnée
permettant ainsi de réduire le nombre de paramètres à estimer. Ce modèle suppose également que les effets
aléatoires, et donc les variables à expliquer (phénotype), suivent une loi normale.
Le MLM peut aussi utiliser l’information produite par un PCA pour réaliser la régression et réduire le nombre de faux-
positifs. Le MLM contrôle les effets de biais d’un ensemble de loci ayant des tailles effets faibles (Zhang Z. , et al.,
2010). De plus, l’inclusion de Q et K dans le MLM contrôle l’inflation des valeurs des résultats du test, mais affaiblit
les associations réelles. Deux stratégies ont été développées pour résoudre ce problème et améliorer le pouvoir
statistique des méthodes MLM. La première stratégie, MLM compressé (CMLM), rassemble les individus dans des
groupes et attribue des valeurs génétiques aux groupes (plutôt qu’aux individus) comme des effets aléatoires. La
méthode CMLM augmente le pouvoir statistique comparativement à la méthode MLM classique. De plus, la méthode
CMLM enrichie (ECMLM) améliore continuellement le pouvoir statistique en optimisant la définition des relations de
parenté dans le groupe (group kinship definition) plutôt que d’utiliser les algorithmes normaux de relations de
parenté. Cette méthode est entre autres celle utilisée par l’outil bio-informatque TASSEL dans sa version 5.0. La
deuxième stratégie change la définition de relation entre les individus. Seulement les marqueurs génétiques associés
sont utilisés comme pseudo Trait Quantitatif Nucléotidique (QTNs) pour dériver les relations de parenté (kinship)
38
plutôt que l’ensemble des marqueurs génétiques ou un échantillon aléatoire. On s’attend à ce que les pseudo QTNs
reflètent de près les QTNs causatifs. Ils sont sélectivement utilisés pour dériver la relation de parenté pour un
marqueur test spécifique. Lorsqu’un pseudo QTN est corrélé avec un marqueur test, il est exclu des tests de
dérivation subséquents. Cela améliore le pouvoir statistique comparativement à la méthode qui dérive la relation de
parenté de l’ensemble des marqueurs ou d’un échantillon aléatoire.
Dans le but d’optimiser l’efficacité en puissance et en temps du modèle MLM, plusieurs études se sont penchées sur
les méthodes informatiques pour l’amélioration les calculs. La popularité du modèle MLM pour les études
d’associations a contribué à la naissance de nombreuses approches alternatives réduisant le temps de calcul à
différentes étapes. Entre autres, nommons EMMAX, FaST-LMM, GEMMA et GRAMMAR-Gamma. Bien que chaque
méthode présente des avantages et désavantages, leur mention sera l’étendue de leur aperçu dans ce document,
puisque notre objectif n’est pas de faire un tour d’horizon sur le calcul des méthodes statistiques linéaires, ce qui a
déjà été amplement couvert par divers articles de revue (Yang, et al., 2014; Balding, 2006; Cantor, et al., 2010;
Wang, et al., 2018).
Les modèles à effet mixtes ont comme défaut d’être limités dans leur capacité à débrouiller les biais causés par des
loci d’effet moyen à fort, particulièrement lorsque la population présente un degré de stratification. De plus, les deux
méthodes statistiques précédentes ont le défaut de tester les marqueurs un à un. L’autre possibilité est d’utiliser les
modèles qui font l’usage explicite de multiples marqueurs simultanément. Cette approche permet de faire l’inclusion
de la méthode de pseudo QTNs en addition aux marqueurs test dans un MLM par-à-pas (stepwise), appelé modèle
multi-locus mixte (MLMM).
Modèle Linéaire Mixte Multi-Locus (Multi-Locus Mixed Model, MLMM) :
Des études ont montré que le MLMM surclasse la méthode MLM en termes de puissance et de taux de découverte
de faux positifs (false discovery rate, FDR) (Segura, et al., 2012). Le modèle génomique de contrôle du biais de
structure de population fait la mise à l’échelle des tests statistiques d’association simple (test un locus à la fois) de
façon uniforme, de sorte que la médiane du test statistique observé soit égale à celle attendue (Segura, et al., 2012).
Cette approche réduit l’inflation des tests statistiques dans leur ensemble, mais n’affecte pas l’ordre des
polymorphismes puisque la correction est équivalente pour chacun d’entre eux. Cette méthode est avantageuse par
rapport aux approches de PCA et d’association structurée pour contrôler la structure de population lorsque celle-ci
est plus complexe, comme lorsque les individus ont des niveaux de relation de parenté qui varient sur un continuum
(Zhao et al, 2007). Pour faire face aux complications engendrées par la présence d’un large nombre de valeurs
39
prédictives (marqueurs SNPs) en présence d’un petit nombre d’observations (individus), les approches de régression
par étapes (stepwise regression) (Cordell & Clayton, 2002) et de régression pénalisée (penalized regression) ont été
créées. Ces approches ont été abordées précédemment dans la section de l’inflation statistique, spécifiquement
dans le paragraphe sur les méthodes avec une présélection des marqueurs. En particulier, la régression pénalisée
peut être réalisée avec des fonctions de pénalité différentes, comme c’est le cas avec LASSO (Wang, Eskridge, &
Crossa, 2011). Ces méthodes sont intéressantes, mais ne ciblent pas directement la problématique de la structure
de population. Une méthode de Segura et al. publiée en 2011 propose une solution à cette difficulté par la méthode
avant-arrière d’inclusion des marqueurs (forward-backward inclusion of SNPs). La libraire GAPIT implémentée dans
R utilise justement cette méthode pour réaliser des tests MLMM. Cette approche utilise une méthode pas-à-pas
avant-arrière de régression MLM pour estimer la variance de chaque composante. À chaque pas, les variances sont
estimées par un modèle des moindres carrés généralisé (GLS) et les valeurs p sont estimées par un test F. Les
marqueurs avec une association significative sont ajoutés au modèle comme cofacteurs jusqu’à l’étape suivante,
puis les valeurs p de tous les nouveaux cofacteurs sont estimées ensemble.
À tous les égards, la manière dont le génotype est codé peut affecter la puissance des tests statistiques (Bush &
Moore, 2012). Les tests d’association allélique vont faire état de l’association entre un allèle de SNP et le phénotype
en utilisant un modèle pour prédire l’effet des allèles sur le phénotype. Chaque modèle traite individuellement les
effets des génotypes analysés différemment. Le modèle utilisé peut être l’un des quatre suivants : dominant, récessif,
multiplicatif ou additif. Le modèle dominant assume que la présence de l’allèle dominant augmente l’expression du
phénotype comparé à l’allèle alternatif, il code donc les allèles AA, Aa et aa comme 2, 1 et 0 respectivement.
L’utilisation du terme « dominant » est utilisée pour décrire ce modèle, bien que le cas présenté semble être de la
codominance mendélienne. Le modèle récessif assume qu’il faut deux copies de l’allèle pour augmenter l’expression
du phénotype, donc les génotypes AA, Aa et aa pour l’allèle récessif a seront codés 0, 0 et 1. Le modèle multiplicatif
s’attend à ce que pour un allèle présent le phénotype augmente de ƙ, alors si l’allèle est présent en deux copies le
phénotype augmente de ƙ2. Le modèle additif quant à lui présume que l’effet de la combinaison allélique sur le
phénotype est linéaire : l’augmentation est uniforme pour chaque copie d’allèle ajoutée et est codé comme le modèle
dominant (donc tous les marqueurs ont un effet équivalent et indépendant). Généralement, les études utilisent par
défaut le modèle additif, puisque ce dernier est aussi capable de détecter les effets d’un modèle dominant.
Cependant, la prudence est de mise puisqu’un tel modèle risque très fortement de ne pas être assez puissant pour
détecter des effets qui seraient plutôt attendus d’un modèle récessif.
40
6) Interpréter les résultats d’une étude d’association
Les tests d’associations statistiques produisent beaucoup de données qu’il faut analyser attentivement. Il est
nécessaire de distinguer une corrélation non significative entre un marqueur et le phénotype et une corrélation
significative, qui contrairement à ce que l’on peut parfois voir en recherche, ne se base pas uniquement sur un
résultat de valeur p qui est sous un seuil arbitraire. De plus, l’analyse des résultats ne se limite pas à l’identification
d’une corrélation significative, il faut s’assurer que cette corrélation n’est pas le résultat d’un faux-positif. Voyons les
valeurs statistiques les plus importantes qui permettent d’identifier l’association significative tant convoitée.
Lambda
Des tests statistiques sont effectués avec les modèles statistiques dans le but de vérifier si les résultats sont
conformes avec l’indépendance attendue par l’hypothèse nulle entre le phénotype et les génotypes. Le test
statistique généralement employé à cette fin est le test de la table de contingence, sous la forme du test du χ2 (Chi-
square test). Ce test permet de détecter de la stratification de génotypes dans la population après l’association
(Wang, Cordell, & Steen, 2018). Ce test est habituellement représenté dans un graphique Quantile-Quantile, par une
ligne qui représente la distribution des résultats attendus en l’absence de lien statistique entre les deux variables
(donc lorsque l’hypothèse nulle est respectée), puis une série de points qui sont les tests statistiques observés (χ2)
ou le -log10 des valeurs p calculées de ces tests, placées en ordre croissant (Pearson & Manolio, 2008). Ces
résultats sont résumés par la valeur λ (lambda). Lorsque le modèle statistique utilisé est approprié, on s’attend à ce
que les résultats observés soient très proches de ce qui est attendu, donc que le λ soit entre 1 et 1.10. Une valeur de
1 indiquerait que l’hypothèse nulle est parfaitement respectée et donc que les données génotypiques n’expliquent
pas le phénotype. La déviation par rapport aux valeurs attendues (donc de l’hypothèse nulle) a deux causes
possibles 1) la distribution assumée est incorrecte 2) l’échantillon contient des valeurs qui s’écartent de l’hypothèse
nulle, possiblement par association avec le niveau d’expression du trait. On s’attend à ce qu’une infime partie du
grand nombre de marqueurs testés ait une association véritable. Par exemple, un λ de valeur > 1 mais ≤ 1.1 indique
que seules quelques variations ont une corrélation perceptible. Un λ de valeur supérieure à 1.1 et beaucoup de
valeurs ayant des corrélations perceptibles suggère la présence d’une stratification génotypique de la population.
Ces valeurs doivent donc être considérées comme des faux-positifs (Wang, Cordell, & Steen, 2018). De toute
évidence, la valeur de 1.1 est arbitraire, de manière similaire au seuil statistique de 5 % majoritairement utilisé, mais
demeure un outil important pour évaluer les résultats obtenus.
Valeurs p et correction
En sciences, les valeurs p générées par les tests statistiques sont utilisées pour valider des différences observées
entre groupes expérimentaux. La valeur p (valeur de probabilité) est une mesure statistique comprise entre 0 et 1 qui
41
informe, pour un test statistique suivant l’hypothèse nulle, la probabilité d’obtenir une distribution de données au
hasard comparable à celle mesurée dans notre échantillon (c.-à-d. valeurs observées). Autrement dit, l’hypothèse
nulle est que la différence observée entre les groupes expérimentaux n’est pas plus importante que ce qui est
attendu être dû au hasard. Il faut pouvoir rejeter l’hypothèse nulle pour que nos résultats soient statistiquement
significatifs. La valeur p est un guide qui permet de déterminer si l’on doit rejeter l’hypothèse nulle ou non. Elle
représente la probabilité que l’on rejette faussement l’hypothèse nulle. La valeur p est influencée par le nombre
d’observations, la différence entre la moyenne des échantillons et le niveau de variation entre les individus. L’erreur
de type I (α) est de rejeter l’hypothèse nulle à tort, ce que l’on nomme un résultat faux-positif. Plus spécifiquement, la
valeur p représente la probabilité de faire une erreur de type I. Cependant, lorsque l’on effectue plusieurs, voire un
très grand nombre de tests simultanément, comme c’est le cas pour les études d’association pan-génomiques, les
erreurs de type I de chaque test individuel (c.-à-d. pour chaque marqueur) doivent être additionnés pour obtenir le
risque de type I de l’ensemble de l’étude. Par exemple, si l’on teste l’association génotype-phénotype pour
10 000 marqueurs SNP, on effectuera 10 000 tests. Si l’on fixe le seuil statistique de chaque test à 5 %, le risque
d’erreur de type I de l’analyse d’association pangénomique sera de 10 000 x 5 %, soit un risque de détecter 500 faux
positifs. Ainsi, ces tests multiples présentent individuellement des probabilités d’erreur de type I (α), de faux-positifs,
qui s’additionnent. Plus on interroge un grand nombre de marqueurs pour faire l’étude d’association au trait, plus on
risque d’obtenir un faux-positif dans nos résultats. Les valeurs p doivent donc être ajustées pour contrôler l’erreur de
type I. Il existe deux types de méthodes pour contrôler le nombre de faux-positifs : la correction de Bonferroni et le
taux de découverte de faux positifs (False discovery rate, FDR).
La correction de Bonferroni est la plus rigoureuse car son principe est de rétablir un seuil de significativité acceptable
(p. ex. 5 %) pour l’ensemble de l’étude : le seuil statistique individuel de chaque test sera obtenu en divisant le seuil
de l’ensemble de l’étude par le nombre de test (c.-à-d. de marqueurs). Pour reprendre l’exemple précédent avec
10 000 marqueurs SNP, le seuil statistique individuel sera de 5/10 000, soit 0,0005 % pour un risque de 5 % pour
l’ensemble de l’étude. L’augmentation drastique du nombre de marqueurs obtenus avec les avancées en technologie
de séquençage rend la correction de Bonferroni beaucoup trop draconienne. Elle diminue de façon trop importante la
puissance statistique en augmentant la probabilité de faux-négatif. De plus, le principe de cette correction n’est pas
compatible avec le GWAS car les tests ne peuvent pas tous être considérés comme indépendants compte tenu de la
liaison de nombreux gènes entre eux sur l’ensemble du génome. Ainsi, les variations testées dans une étude sont
inévitablement dépendantes de facteurs spécifiques à une population, tels que le déséquilibre de liaison (LD) et la
fréquence d’allèles mineurs (MAF), ce qui suggère que le seuil approprié pour obtenir de la significativité sur
l’ensemble du génome (Genome-wide) peut varier pour différentes populations. Une population avec un LD plus bas
devrait être plus astringente qu’une population avec un LD plus haut, à cause du nombre de marqueurs
indépendants qui tend à être plus grand dans la première population plutôt que dans la deuxième.
42
Une alternative intéressante à Bonferroni est l’utilisation du taux de découverte de faux positifs. La méthode
Benjamini-Hochberg est la première à présenter cette approche. Elle fonctionne très simplement, en choisissant un
FDR que l’on dénomme q, puis le nombre de tests statistiques est représenté par le vecteur m. On classe ensuite en
ordre croissant les valeurs p, avec i = position de la valeur p. Finalement, on trouve la plus grande valeur p pour
laquelle p ≤ (i*q)/m. Cette valeur p et toutes celles de taille inférieure sont considérées comme significatives
(Benjamini & Hochberg, 1995). En 2002, deux librairies dans R ont été publiées qui se basent sur la méthode de
Benjamini-Hochberg pour ajuster les valeurs p. La première, p.adjust (Gordon, 2002) fait la réinterprétation des
procédures utilisant le FDR dans la méthode de Benjamini-Hochberg, pour produire des valeurs p ajustées. C’est de
cette librairie que le concept de valeur p corrigée par le FDR est né. La deuxième, qvalue (Storey, 2002), redéfinit le
terme FDR. Les valeurs q présentées font l’estimation de cette nouvelle définition de FDR. La valeur q est la valeur
de FDR minimum qui peut être atteinte et demeurer significative (c.-à-d. la proportion attendue de faux positifs
obtenus lorsqu’on qualifie une association génotype-phénotype pour un marqueur donné de significative). Par
exemple, si un gène quelconque à une valeur q de 0,013, cela indique que 1,3 % des gènes qui ont une valeur p au
moins aussi petite que ce gène sont des faux-positifs. Contrairement à Benjamini-Hochberg qui fait un contrôle du
FDR, qvalue fait une estimation du FDR.
Graphique de Manhattan
Après avoir fait l’ajustement des valeurs, les valeurs p corrigées sont souvent présentées dans un graphique de
Manhattan, qui permet d’évaluer d’un coup d’œil si les marqueurs trouvés avec une valeur p sous le seuil de
significativité sont des vrais-positifs ou des faux-positifs. Dans ce graphique, chaque valeur p (corrigée) est
représentée par un point sur une abscisse de position sur les chromosomes et une ordonnée graduée, pour faciliter
la visualisation, en -Log10 (valeur p). Lorsque le modèle statistique contrôle bien des faux-positifs, la très grande
majorité des points du graphique auront une petite valeur et quelques marqueurs auront une grande valeur (ce sont
les marqueurs significativement associés au phénotype) qui se démarque clairement des autres. La figure 3
représente clairement la différence entre ces deux situations.
Puissance d’une étude
La puissance statistique d’une étude est une mesure qui est utilisée pour aider à déterminer la quantité de données
(la taille de l’échantillon) nécessaire (lorsque son évaluation est faite a priori) afin d’avoir l’assurance d’obtenir une
association significative, dans la mesure où une telle association existe réellement entre les facteurs testés. On peut
définir la puissance statistique sous plusieurs perspectives différentes, qui permettent de comprendre ce qu’est
réellement la puissance statistique. Voici quelques façons de définir la puissance statistique :
• La probabilité de rejeter l’hypothèse nulle, lorsque l’hypothèse nulle est fausse.
43
• La probabilité qu’un test de significativité détecte un effet qui est présent.
• La probabilité d’éviter une erreur de type II.
L’erreur de type II (β) est de rejeter à tort l’hypothèse nulle, ce qui correspond à un résultat faux-négatif.
Mathématiquement, la puissance d’une étude se définit comme 1 – β (Gotelli & Ellison, 2012). L’effet des marqueurs
que l’on cherche à détecter est directement lié à la probabilité de détecter ce marqueur. Ainsi, plus l’effet du
marqueur associé est petit, plus il est difficile de le détecter (et vice versa). De ce fait, pour faire la détection d’effets
causaux d’un trait quantitatif qui sont essentiellement des effets faibles, il faut nécessairement une très grande
puissance statistique. Cette puissance est proportionnelle à la combinaison des effets de (1) la taille de l’échantillon,
(2) l’effet et (3) le critère de signification statistique utilisé dans le test (valeur p). Une façon simple d’augmenter la
puissance d’une étude est d’augmenter la taille de l’échantillon. Traditionnellement, la puissance de l’étude doit être
au minimum de 80 % (0.8) pour affirmer avec confiance qu’une valeur p sous le seuil établi est significative du point
de vue biologique.
On peut faire l’évaluation de la puissance statistique avant (a priori) ou après (Post hoc) la collecte de données. Si
l’évaluation est faite a priori, elle sert à déterminer une taille d’échantillon appropriée pour que notre étude ait une
puissance suffisante. L’évaluation Post hoc se fait lorsque l’étude est complétée : elle utilise la taille de population et
l’effet individuel des marqueurs pour déterminer la puissance de l’étude effectuée.
44
Figure 3. Graphique de Manhattan avec mauvais (graphique du haut) et bon (graphique du bas) contrôle des faux-positifs. (Tiré de Segura, 2016). Chaque point est la valeur p (au -log10) associée à un marqueur testé. La ligne pointillée désigne le seuil de significativité; on s’attend à ce que seulement quelques points la dépassent, sans quoi la présence de faux-positifs est présumée.
45
1.5 Buts et hypothèses du projet
Une meilleure compréhension de l’architecture génomique qui régit le comportement hygiénique VSH et le trait SMR
serait un atout non négligeable dans la lutte contre la varroase. L’identification de régions génomiques qui affectent
la résistance aux varroas ouvre la porte à la sélection assistée par des marqueurs génomiques, un outil qui permet
d’augmenter la fréquence d’un trait d’intérêt beaucoup plus rapidement que ce qui est obtenu en sélectionnant sur le
phénotype. Par définition, la sélection assistée par des marqueurs génétiques vise directement le ou les allèles qui
sont favorables au trait recherché et présente un moyen puissant de faire la sélection de traits qui ont une faible
héritabilité et qui ne sont pas facilement observables ou mesurables (Dekkers, 2004). Par conséquent, le présent
projet vise les objectifs suivants :
1) Élucider l’architecture génomique associée au comportement VSH en utilisant le trait SMR lié à la
résistance par la baisse de fertilité du Varroa destructor (SMR) chez Apis mellifera par une étude
d’association pan-génomique entre la résistance et des marqueurs SNPs identifiés par la méthode de
génotypage par séquençage.
2) Fournir aux apiculteurs de meilleurs outils pour la reproduction sélective dans l’optique de la lutte contre le
Varroa.
Les objectifs du projet sont basés sur les précédentes observations sur le trait SMR et le comportement VSH qui ont
été faites dans la littérature. Ces études antérieures nous permettent d’émettre les hypothèses suivantes :
1) Le comportement hygiénique VSH de l’abeille Apis mellifera mesuré par le trait SMR est un phénotype
quantitatif héritable, contrôlé par un ensemble de variations alléliques ayant chacune un effet faible sur le
phénotype, qui sont des polymorphismes nucléotidiques singletons (SNPs) ou sont en déséquilibre de
liaison avec ces derniers.
2) Un ou plusieurs gènes du comportement hygiénique VSH de l’abeille Apis mellifera mesuré par le trait SMR
sont associés à l’olfaction.
Le prochain chapitre présente la réalisation d’une étude pour l’accomplissement de ces objectifs et une analyse des
résultats qui ont été produits.
46
Chapitre 2 : Étude d’association pangénomique du
trait SMR dans des colonies d’A. mellifera au Québec
2.1 Méthodologie
Une approche d’étude d’association pan-génomique a été utilisée pour identifier l’architecture génomique associée
au comportement hygiénique VSH en utilisant le trait phénotypique SMR. D’abord, un échantillonnage cas-contrôle
prospectif a été fait à partir de 105 colonies provenant de cinq sites différents à travers le Québec, puis l’évaluation
du niveau SMR de chaque colonie a été faite avant d’envoyer l’ADN extrait des mâles des colonies au génotypage
par séquençage (GBS) avec la technologie Ion Torrent. L’analyse des données de séquençage a été réalisée pour
produire un jeu de données de marqueurs robustes pour effectuer les tests d’association statistique avec le trait
phénotypique SMR précédemment évalué. Chaque étape de la méthodologie est décrite plus en détail dans les
paragraphes suivants.
2.1.1 Échantillonnage
Cent cinq colonies d’abeilles ont été sélectionnées dans cinq sites différents au travers du Québec :
1. La maison du Miel (Scott Plante situé à Lévis, 46°38’55.2"N 71°25’41.7"W, 22 colonies)
2. Les ruchers de la Mère Michel (Steve Michel situé à Saint-Christophe-d’Arthabaska, 45°59’18.7"N 71°52’
08.7"W, 21 colonies)
3. Le château de Cyr (Marie-Ève Cyr située à Saint-Marc-sur-Richelieu, 45°43’14.3"N 73°14’17.7"W,
20 colonies)
4. La Miellerie St-Stanislas (Joel Laberge situé à Saint-Stanislas-de-Kostka, 45°11’32.7"N 74°04’30.4"W,
22 colonies)
5. Le Centre de recherches en sciences animales de Deschambault (CRSAD, 46°40’28.2"N 71°54’52.7"W,
21 colonies)
Les colonies ont été sélectionnées au hasard dans les ruchers, préférentiellement des colonies de tailles similaires.
L’échantillonnage s’est effectué durant la semaine du 7 au 14 août 2017. Des cadres de couvain operculés
(d’ouvrières) ayant minimalement le stade des yeux violets ont été prélevés aux ruchers et entreposés à -20 °C
jusqu’au moment de l’analyse du phénotype. De plus, 25 à 50 larves de mâles ont été prélevées pour chaque colonie
afin de réaliser les analyses génomiques ultérieures.
47
2.1.2 Évaluation du phénotype
L’évaluation du niveau SMR s’est faite selon le protocole de Harbo & Harris, 1999. Cette méthode fait autorité et est
utilisée dans plusieurs études (Dietemann, et al., 2013; Kirrane, et al., 2015; Büchler et al., 2017), la plus récente
publication à ce sujet étant une fiche technique « Critère de sélection SMR » publié par l’Institut technique et
scientifique de l’apiculture et de la pollinisation (ITSAP) de France. En somme, le niveau SMR se calcule par le taux
de reproduction des varroas dans une colonie, avec la formule suivante :
% SMR = (Nbre cellules avec fondatrice non reproductive * 100)
𝑁𝑏𝑟𝑒 𝑐𝑒𝑙𝑙𝑢𝑙𝑒𝑠 𝑖𝑛𝑓𝑒𝑠𝑡é𝑒𝑠 𝑝𝑎𝑟 1 𝑓𝑜𝑛𝑑𝑎𝑡𝑟𝑖𝑐𝑒
où une femelle fondatrice est considérée reproductive à partir du moment où elle produit une fille qui sera adulte et
présumée fécondée lors de l’émergence de l’abeille hôte de la cellule infestée. De ce fait, il faut ouvrir les cellules de
couvain sur un cadre de la ruche, avec une loupe LED 3x, pour observer la reproductivité des Varroa. Il faut mettre
en relation les stades développementaux du couvain d’abeille infesté et ceux des progénitures du parasite pour
établir si la femelle fondatrice est apte à la reproduction. Ainsi, lors de la sélection d’un cadre de couvain dans la
colonie à tester, il faut s’assurer que les progénitures d’abeilles soient au stade des yeux violets pour identifier
clairement le stade de reproduction des Varroa. Le premier stade correspond à la présence d’une femelle
deutonymphe et d’un mâle, sans quoi la progéniture n’aura pas le temps de se sclérifier (devenir adulte) ou ne sera
pas fécondée à l’émergence de l’abeille. La figure 4 aide à associer les stades attendus des progénitures aux
différents stades de développement du couvain d’abeille. La progéniture mâle ressemble aux premiers stades de la
progéniture femelle (protonymphe), ce qui la rend difficile à distinguer. Les pattes des mâles sont plus longues et
fines tandis que les femelles sont plus trapues et rondes. Leur différenciation peut nécessiter l’utilisation d’un
microscope à dissection.
Un taux d’infestation minimum est nécessaire pour faire cette évaluation. La littérature recommande de trouver
35 cellules infestées, par une seule femelle fondatrice, en 700 cellules ou moins, donc un minimum de 5 %
d’infestation (Büchler, 2015; ITSAP, 2018). D’autres sources recommandent un minimum de 10 % d’infestation (Villa,
Danka, & Harris, 2009). Ce minimum est requis, car des études ont montré qu’en deçà du seuil minimum
d’infestation aucune différence significative n’était observée entre les colonies résistantes et les contrôles (Villa,
Danka, & Harris, 2009). Le seuil minimal de 5 % a été adopté dans notre étude.
48
Figure 4. Caractéristiques des stades de développement du couvain d’Apis mellifera et les stades de développement attendus de la progéniture du Varroa associés (adapté de COLOSS BEEBOOK volume I: Standard methods for Apis mellifera Research).
Femelle adulte Mâle adulte Œuf Protonymphe Femelle deutonymphe Mâle deutonymphe
Jours depuis
l’operculation
de la cellule
Ouvrière
Faux-bourdon
Sl = larve Pw = pupe aux yeux blancs Pr = pupe aux yeux mauves Yt = thorax jaune Gp = taches grises Gt = thorax gris m/r = mue/repos
49
2.1.3 Évaluation du génotype
Des larves de mâles ont été utilisées pour caractériser le génotype de chacune des colonies échantillonnées.
Comme la reine ne peut être échantillonnée sans que meure la colonie et considérant la difficulté d’analyse que
représente l’utilisation d’ouvrières à cause des multiples génomes paternels, la solution est d’échantillonner
indirectement le génome de la reine en utilisant sa progéniture mâle : en effet, les mâles sont haploïdes et héritent
de 50 % du génome de la reine. Ainsi, l’haploïdie des mâles permet d’identifier avec confiance les marqueurs SNPs
avec une plus faible couverture qu’avec des individus diploïdes (Wragg, et al., 2016).
L’ADN génomique total des larves de mâles a été extrait à l’aide de la méthode des sels (Aljanabi & Martinez, 1997),
mais avec ajout de RNase A puis incubation à 37 °C pendant une heure après l’étape de lyse pour éliminer les ARN
contaminants. La présence d’un composé dans les yeux d’A. mellifera inhibe la PCR et ne peut être enlevée par les
procédés habituels d’extraction d’ADN (Boncristiani, et al., 2011). Afin d’éviter la contamination qui nuirait au
séquençage, seulement des larves de mâles ont été utilisées (donc les stades précédant le développement des yeux
et de leur pigment). La qualité des extraits d’ADN génomique (c’est-à-dire l’absence de fragmentation) a été vérifiée
par migration sur gel d’agarose 2 % (m/V), tandis que la concentration et la pureté ont été mesurées sur
spectrophotomètre NanoDrop (où 1 A260 = 50 ng/µL). Les échantillons qui présentaient un ratio A260/A280 plus petit
que 1.90 et/ou un ratio A260/A230 plus petit que 1.60 ont été purifiés sur billes pour améliorer la qualité de l’échantillon.
La concentration d’ADN a été mesurée par fluorométrie en utilisant le réactif PicoGreen® qui permet de doser
l’ADNdb spécifiquement. Les échantillons avec moins de 20 ng/μL d’ADN n’ont pas été envoyés au séquençage. Les
échantillons ont été séquencés par GBS avec IonTorrent à la plateforme de séquençage de l’IBIS (Institut de
Biologie Intégrative des Systèmes).
Découverte des variations (Fast-GBS)
Les données brutes de séquençage ont été analysées avec FastQC (Andrews, 2010) pour déterminer la qualité des
séquences. La suite bioinformatique Fast-GBS (Torkamaneh, et al., 2017) en libre accès a été utilisée pour faire le
traitement des données jusqu’à l’appel (la découverte) des variations. Fast-GBS effectue le démultiplexage des
fichiers bruts avec l’outil Sabre (https://github.com/najoshi/sabre), puis l’outil cutadapt (Martin M. , 2011) coupe
l’adaptateur et le code-barres de chaque séquence. Fast-GBS prend en charge l’alignement des séquences sur le
génome de référence d’A. mellifera (NCBI, Apis mellifera Amel_4.5, 2018) avec l’outil BWA-MEM (Li & Durbin, 2009),
puis traduit les fichiers SAM en BAM avec SAMtools (Li, et al., 2009). À cette étape, Fast-GBS a été volontairement
interrompu pour faire la concaténation des répliques biologiques en un seul fichier avec SAMtools. La suite logiciel a
ensuite été reprise à l’étape du tri des fichiers BAM et leur indexation avec l’outil SAMtools. Fast-GBS produit alors
une liste des fichiers BAM pour faire l’appel des variations alléliques avec l’outil Platypus (Rimmer, et al., 2014).
50
Fast-GBS termine la filtration de ces variations alléliques avec VCFtools (Danecek, et al., 2011) et un fichier texte de
type VCF des génotypes est produit avec vcf2txt.py. Le fichier VCF a alors été analysé avec VCFtools pour extraire
les variations désirées, les SNPs ayant passé les filtres de VCFtools présents sur les chromosomes, et ayant deux
allèles. Les SNPs ont ensuite été filtrés avec VCFtools pour éliminer les sites qui ont > 80 % de données
manquantes, puis les allèles mineurs avec une fréquence trop basse (MAF < 0.05). Ensuite, les sites ayant une
fréquence trop élevée d’hétérozygotes (données aberrantes) ont été éliminés en réalisant un diagramme en boîte.
Pour terminer, les variations ont été imputées avec Beagle (Browning, Zhou, & Browning, 2018) puis annotées à
l’aide de SnpEff (Cingolani, et al., 2012).
2.1.4 Association
L’association des marqueurs avec le phénotype a été testée avec trois programmes, soit TASSEL 5.0 (Bradbury, et
al., 2007), et deux librairies implémentées dans R : GenABEL (Aulchenko, et al., 2007) et GAPIT (Lipka, et al., 2012).
TASSEL fait l’association MLM par un algorithme EMMA en addition au MLM compressé (CMLM) et des paramètres
de populations prédéterminés (P3D, développé par Kang et al., 2010), ce qui accélère le temps des calculs et
optimise la performance statistique.
TASSEL utilise directement les fichiers VCF et a permis de générer une matrice de parenté pour réaliser les
régressions linéaires. La structure de population a été caractérisée par une représentation graphique de la matrice
des distances phylogénétiques, avec la méthode UPGMA afin de détecter toute stratification dans la population. Le
LD entre les marqueurs a aussi été analysé. La régression linéaire simple a été testée, avec et sans PCA, aussi
calculée par TASSEL. Puis la MLM a pu être testée, aussi avec ou sans PCA (Zhang Z., et al., 2010). Pour être
utilisé avec la librairie GenABEL, le fichier VCF des marqueurs a dû être converti en fichier FAM et PED avec les
données de phénotype par l’outil PLINK (Purcell, et al., 2007). Les modèles GLM et MLM ont été testés, avec une
matrice de parenté en présence ou absence de PCA. Finalement, GAPIT utilise un format d’encodage numérique du
génotype dans un simple fichier texte. Ce fichier texte est créé à partir d’une exportation des données génotypiques
dans TASSEL sous forme de fichier HapMap, qui est ensuite converti en format binaire avec une fonction de GAPIT.
2.2 Résultats
2.2.1 Phénotype
Les résultats de l’évaluation du phénotype sont présentés dans le tableau IV. Des 105 colonies initiales, 3 ont perdu
leur identifiant dans le transport. En tout, 37 colonies avaient des cadres suffisamment infestés pour permettre
51
l’évaluation du phénotype (11 provenaient de chez La Miellerie St-Stanislas, 12 de chez Les ruchers de la Mère
Michel et 14 du CRSAD). Les autres colonies n’ont pas pu être inclues dans les analyses en raison du bas taux
d’infestation de varroas (≤ 2 % d’infestation).
Les résultats des mesures SMR pour chacune des 37 colonies sont présentés dans la figure 5 (les mesures SMR
pour les 105 colonies sont disponibles en annexes). Les résultats SMR n’ont pas une distribution normale.
Des 37 colonies phénotypées, seulement 35 ont eu une extraction d’ADN de qualité suffisante pour permettre les
analyses génomiques.
52
Tableau IV. Résultats de l’évaluation du trait phénotypique SMR (en %) des 37 colonies utilisées pour les analyses génomiques. Taux d’infestation du couvain par V. destructor > 2 %. Évaluation par la méthode de Harbo & Harris, 1999.
ID Rucher % SMR
1 JL 16.66
2 JL 56.66
3 JL 13.33
4 JL 56.66
5 JL 10
6 JL 50
7 JL 50
8 JL 50
9 JL 40
10 JL 16.66
11 JL 20
12 MM 83.33
13 MM 13.33
14 MM 56.66
15 MM 30
16 MM 23.33
17 MM 20
18 MM 63.33
19 MM 33.33
20 MM 46.66
21 MM 13.33
22 MM 16.66
23 MM 3.33
24 CRSAD 13.33
25 CRSAD 50
26 CRSAD 6.66
27 CRSAD 80
28 CRSAD 53.33
29 CRSAD 43.33
30 CRSAD 20
31 CRSAD 10
32 CRSAD 10
33 CRSAD 73.33
34 CRSAD 40
35 CRSAD 23.33
36 CRSAD 46.66
37 CRSAD 50
Légende :
JL : rucher Miellerie St-Stanislas
MM : rucher de la Mère Michel
CRSAD : Centre de recherche en sciences
animales de Deschambault
53
Figure 5. Distribution du trait SMR (en %) des 37 colonies après l’évaluation phénotypique. Évaluation par la méthode de Harbo & Harris, 1999.
0
2
4
6
8
10
12N
om
bre
de
ruch
es
%SMR
54
2.2.2 Génotypage
Les 163 028 600 séquences provenant de l’ensemble des 35 colonies et produites par GBS ont d’abord été
inspectées avec FastQC. Aucune d’entre elles n’avait un score de qualité Phred < 20, donc aucune séquence n’a été
retirée à la suite de cette analyse. Fast-GBS a détecté environ 12 millions de séquences sans code-barres,
lesquelles ont été éliminées de l’analyse. L’étape de démultiplexage et de retrait des adaptateurs a réduit le nombre
de séquences à environ 240 000. À la dernière étape de Fast-GBS, 63 642 sites ont été trouvés par Platypus.
Pour avoir un aperçu de la taille effet des marqueurs, l’ensemble des marqueurs trouvés par Platypus (après la
filtration de base pour éliminer tous les marqueurs autres que les SNPs) ont été analysés avec un outil en libre accès
sur le site web : Ensembl Genome (Kersey, et al., 2018). En examinant les résultats présentés dans la figure 6, on
constate que la majorité des marqueurs ne se trouvent pas dans une région transcrite (83,5 %). La majorité des SNP
retrouvés dans les séquences codantes (78 %) sont très majoritairement des mutations synonymes, c’est-à-dire
n’induisant pas de changement d’acide aminé. De plus, aucune des mutations non-synonymes n’a créé (c.-à-d.
mutation non-sens) ni supprimé (c.-à-d. mutation faux sens) de codon stop et donc aucune des protéines
correspondantes ne devrait être tronquée.
Les données ont ensuite été filtrées par un code original développé dans le cadre du projet. Les résultats sont
présentés dans le tableau V. Après ces filtrations, le jeu de données final était constitué de 7 810 marqueurs SNPs
provenant de 34 colonies. Ce jeu de données est celui utilisé pour réaliser les associations statistiques avec le trait
phénotypique SMR. La colonie MM-17 a été retirée du jeu de données au cours des étapes de filtrations en raison de
son trop grand taux de données manquantes.
55
Figure 6. Prédiction des effets des variations nucléotidiques trouvées par l’analyse génomiques des 37 colonies tests. La majorité des variations (N = 29438) avant les étapes de filtration sont situées dans des régions non-transcrites (83,5 %). De ceux trouvés dans les régions transcrites, 78 % sont des mutations synonymes (n’induisent pas de changement dans la séquence d’acide aminés de la protéine produite). Dans l’ensemble des variations, aucune ne crée une mutation non-synonyme (c.-à-d. mutation non-sens) ou supprime un codon stop (c.-à-d. mutation faux sens). Les résultats ont été produits avec l’outil en ligne EnsemblMetazoa.
variant_faux sens : 22%
56
Tableau V. Variations obtenues après chaque étape de filtration. Les différentes étapes enlèvent les données aberrantes et minimisent la possibilité de faux-positifs dans les analyses subséquentes. Les marqueurs sont partagés pour tout les échantillons (N = 7810 marqueurs pour chacune des 34 colonies tests, à l’exception de données manquantes).
Étape Fonction Résultats
(Nbre SNPs)
Filtration de base Enlève les indels, les marqueurs dans régions non-chromosomiques
et les marqueurs filtrés. 29 438
Filtration des données manquantes
Enlève les sites et individus qui ont ≥ 80 % données manquantes. (max-missing = 0.2)
25 622
Filtration des MAF* Enlève les sites qui sont trop rares (1/34).
(maf = 0.02) 20 425
Filtration des hétérozygotes Enlève sites avec une fréquence d’hétérozygotes trop élevée. 15 545
Filtration des MAF* finale Enlève les sites qui sont trop rares (1/34).
(maf = 0.02) 7 810
57
2.2.3 Association
Structure de population
Les résultats de la matrice de parenté génétique (GenABEL) pour déterminer la structure de population sont
présentés dans la figure 7. Cette représentation ne nous permet pas de diviser la population en des sous-groupes
clairs. Les résultats d’un test de phylogénie (TASSEL 5.0) sont montrés dans la figure 8. On remarque que
l’ensemble des colonies provenant du site CRSAD (noms d’échantillon en vert) sont regroupés, alors que ceux
provenant des sites JL et MM sont mélangés. Le LD entre les marqueurs a été évalué avec l’outil TASSEL 5.0 pour
le jeu de marqueurs employé pour les tests d’association (données en annexes). Aucun LD important pouvant biaiser
l’analyse n’existait entre les marqueurs. L’IBS a aussi été évaluée pour les différents échantillons par l’outil TASSEL
5.0, l’absence de parenté proche a ainsi pu être attestée (IBS < 0.1875) (données en annexes).
58
Figure 7. Représentation graphique de la matrice de parenté des colonies (N = 34). Chaque point du graphique représente une colonie et la distance entre chaque point est représentative de la différence génomique à partir de l’information des marqueurs du jeu de données (N = 7810) utilisé pour les analyses.
59
Figure 8. Arbre phylogénétique de la population étudiée produite avec TASSEL 5.0. Arbre basé sur un cladogramme produit par la méthode UPGMA. Les distances de la racine à la pointe de chaque branche sont égales et l’arbre est de type ultra-métrique (horloge moléculaire). Les regroupements sont uniquement basés sur la similarité des séquences et assume un rythme évolutif constant.
60
GLM
Les résultats de la régression linéaire simple sont présentés dans le tableau VI et dans la figure 9 pour les outils
TASSEL et GenABEL. Ce modèle n’est pas optimisé pour découvrir les régions associées au trait SMR, mais il
permet de vérifier si le modèle linéaire est adapté à notre étude. Les lambda pour les deux outils suivent la
régression attendue. Cependant, la courbe des valeurs observées est sous la courbe des valeurs attendues. Les
valeurs p du tableau VI nous montrent que ce test statistique ne contrôle pas de façon appropriée les faux-positifs.
Les valeurs p ne sont pas significatives (p>0,05). Les graphiques de Manhattan dans la figure 9, dans lequel trop de
marqueurs ont des valeurs élevées, le montrent clairement.
Les noms des marqueurs qui sont présentés dans le tableau VI sont obtenus par l’utilisation du génome de
référence de l’abeille 4.5 de NCBI (Assemblage GenBank : GCA_000002195.1_Amel_4.5_genomic). Les numéros
de chromosomes (CM54.5 à 69.5) sont des références aux noms moléculaires des groupes d’assemblages
(chromosomes) qui permettent de savoir quel génome de référence a été employé (CM54.5 réfère au
chromosome 1; CM55.5 au chromosome 2 et ainsi de suite). Le numéro subséquent est la position en paire de base
sur le chromosome en question.
61
Tableau VI. Marqueurs ayant les valeurs p des coefficients des tests avec GLM les plus significatives avec les outils GenABEL et TASSEL. Les valeurs p associés aux marqueurs présentées ne sont pas ajustées.
Outil Marqueur Valeur p
GenABEL
CM62.5 - 3200528 0.525
CM55.5 - 4643825 0.535
CM61.5 - 4600145 0.570
TASSEL
CM58.5 - 8146571 0.00012
CM69.5 - 3465391 0.00013
CM54.5 - 2634759 0.00089
62
Figure 9. Graphique des résultats des tests statistiques GLM. A) Lambda pour GLM avec TASSEL B) Graphique Manhattan pour GLM avec TASSEL C) Lambda pour GLM avec GenABEL D) Graphique Manhattan pour GLM avec GenABEL
A)
B)
C)
D)
63
MLM
Les résultats de la méthode statistique MLM avec comme cofacteur la matrice de parenté génétique et avec ou sans
cofacteur PCA obtenus avec l’outil TASSEL 5.0 sont présentés dans la figure 10. Ceux obtenus avec la librairie
GenABEL implémentée dans R sont présentés dans la figure 11. Les valeurs numériques des résultats représentés
graphiquement sont montrées pour plus de clarté dans le tableau VII pour chacun des outils. Seules les valeurs les
plus proches du seuil de signification statistique (p<0,05 après ajustement) sont présentées. Les marqueurs les plus
proches d’être significatifs ne sont pas les mêmes pour les deux outils (sauf pour le marqueur CM54.5-1109104 qui
est retrouvé par MLM avec GenABEL et MLM avec TASSEL en absence de PCA). Le chromosome 54.4
(chromosome 1) est détecté dans tous les tests, bien que le marqueur se trouve à des positions différentes.
Dans la figure 10, les valeurs observées sont inférieures à la ligne de régression attendue. Dans la figure 11, les
lambda avec l’outil GenABEL sont beaucoup plus proches de 1 (pente de régression attendue) que les lambda de
l’outil TASSEL dans la figure 10. Des corrections ont été faites pour tester la significativité pangénomique des
marqueurs trouvés, par deux méthodes FDR (libraires qvalue et p.adjust dans R) et la méthode Benjamini-Hochberg
(voir annexes). Aucun marqueur n’approchait le seuil de signification. De plus, toutes les valeurs p corrigées par les
méthodes FDR donnaient des valeurs identiques à plusieurs dizaines ou centaines de marqueurs.
La distribution de la fréquence de chaque valeur p résultante d’un des tests MLM pour les marqueurs est
représentée graphiquement dans la figure 12. On y observe une distribution uniforme, plutôt que la distribution
exponentielle proche du zéro qui est attendue lorsque des marqueurs vrais-positifs et significatifs sont trouvés.
64
Tableau VII. Résultats des tests statistiques d’association MLM avec les outils GenABEL et TASSEL. Aucun marqueur (N = 7810) n’atteint le seuil de significativité (p > 0.05) après correction par la méthode FDR dans l’ensemble des colonies tests (N = 34).
Outil
MLM avec cofacteur matrice de parenté génétique (K)
MLM avec cofacteur K et PCA
Marqueur Valeur p Correction
FDR* Marqueur Valeur p
Correction FDR*
GenABEL
CM55.5 - 4643825
0.000407 0.780 CM54.5 - 1108104
0.000255 0.817
CM62.5 - 3200528
0.000648 0.780 CM55.5 - 4643825
0.000298 0.817
CM54.5 - 1108104
0.000649 0.780 CM61.5 - 4600145
0.000454 0.817
TASSEL
CM54.5 - 26347596
0.00593 0.823 CM54.5 - 26347596
0.0017 0.980
CM54.5 - 1108104
0.00626 0.823 CM58.5 - 8146571
0.00186 0.980
CM58.5 - 5936280
0.00697 0.823 CM58.5 - 5936280
0.00191 0.980
* Correction FDR avec la librairie qvalue
65
Figure 10. Graphiques des résultats des tests statistiques MLM avec TASSEL. A) Lambda pour le MLM sans PCA B) Lambda pour le MLM avec PCA C) Graphique Manhattan des valeurs p obtenues avec MLM sans PCA D) Graphique Manhattan pour les valeurs p obtenues avec MLM incluant PCA
A) B)
C) D)
66
Figure 11. Graphiques des résultats des tests statistiques MLM avec GenABEL. A) Lambda pour le MLM sans PCA B) Lambda pour le MLM avec PCA C) Graphique de Manhattan des valeurs p obtenues avec MLM sans PCA D) Graphique de Manhattan pour les valeurs p obtenues avec MLM incluant PC
C) D)
A) B)
67
Figure 12. Distribution des valeurs p pour l’ensemble des marqueurs (N = 7810) pour les tests MLM. Par définition, une valeur p varie de 0 à 1. La valeur p est la probabilité de rejeter l’hypothèse à tort.
N
ombr
e
68
MLMM
Les tests statistiques MLM n’ayant pas donné de résultat concluant pour aucun des deux outils testés, le
modèle statistique MLMM a été utilisé pour explorer le jeu de données avec l’outil GAPIT. Aucun marqueur
n’est significatif après l’ajustement des valeurs p. Les résultats sont présentés dans le tableau VIII. On
remarque que toutes les valeurs p sont identiques après la correction FDR, bien que les valeurs p brutes
varient, tout comme c’est le cas pour les résultats de la méthode MLM.
Les figure 13 et figure 14 montrent respectivement les résultats graphiques du lambda et des valeurs p du
test MLMM fait avec GAPIT. Les faux-positifs semblent être bien corrigés et les valeurs p obtenues sont les
plus petites de tous les tests statistiques faits, donc les plus proches du seuil de significativité. Cependant,
elles ne passent pas la correction FDR. Les graphiques de distribution des marqueurs et de fréquence de
l’allèle mineur ont été mis dans les annexes. De l’ensemble des tests statistiques qui ont été effectués, aucun
n’a permis l’identification d’un marqueur significativement associé au trait phénotypique SMR.
La figure 15 présente la puissance statistique pour des marqueurs théoriques ayant des tailles effets
arbitraires sur le phénotype analysé en relation à l’erreur de type I (faux-positif) qui serait associé. Plus
simplement, le graphique montre la capacité de notre modèle statistique dans le cadre de mesures de notre
étude (phénotype, nombre de marqueurs, variance, etc.) à détecter un marqueur ayant une certaine influence
génétique sur le phénotype étudié à différents seuils d’erreur de type I. Notre puissance statistique est faible.
Notre étude pourrait détecter un nucléotide de trait quantitatif (QTN), soit un marqueur, avec une puissance
statistique suffisante (≥ 0.8) à un seuil de signification acceptable (α≤ 0.05) seulement si ce QTN avait un
effet sur le phénotype de 0.3 ou 0.2 unités de déviation standard.
69
Tableau VIII. Marqueurs les plus proches de la signification, obtenus par les tests MLMM avec GAPIT. Aucune valeur p associée à un marqueur dans le jeu de données (N = 7810) pour l’ensemble des colonies (N = 34) n’atteint le seuil de significativité après l’ajustement pour l’erreur de type I par la méthode FDR.
Outil Marqueur Valeur p Valeur p ajustée avec FDR
GAPIT
CM59.5 - 8242063 0.001072 0.994897
CM67.5 - 10280254 0.002438 0.994897
CM58.5 - 9123672 0.00247 0.994897
CM61.5 - 3025030 0.002495 0.994897
CM54.5 - 24883959 0.002543 0.994897
70
Figure 13. Graphique de lambda pour le test MLMM avec GAPIT
71
Figure 14. Graphique Manhattan du test MLMM avec GAPIT. Chaque point du graphique représente la valeur p obtenue pour un marqueur. Les différentes couleurs permettent de distinguer le chromosome sur lequel le marqueur associé est situé.
72
Figure 15. Puissance statistique relative à l’erreur de type I (α) pour la population et les marqueurs utilisés dans l’étude. Le graphique présente le résultat de l’ajout d’effet génétique à des marqueurs à tour de rôle, en leur attribuant un effet arbitraire de 0, 0.01, 0.02, 0.05, 0.1, 0.2 et 0.3 unités de déviation standard du phénotype (Tang, et al., 2016).
73
2.3 Discussion
Le premier objectif de ce projet était d’utiliser une approche d’association pangénomique pour identifier des
marqueurs et des gènes associés au trait de résistance SMR de l’Abeille mellifère au parasite V. destructor.
Ce projet est le premier à tenter une étude d’association pangénomique dans des colonies non-apparentées
pour identifier des gènes associés à la résistance au V. destructor chez A. mellifera. Les précédentes études
qui ont cherché à résoudre l’architecture génomique qui influence le trait complexe qu’est la résistance (SMR
et/ou VSH) au Varroa chez A. mellifera n’ont pas de consensus et présentent des résultats contradictoires.
Ces études utilisaient presque toute une approche de cartographie des QTL. Cette approche vérifie si un allèle
possède une transmission corrélée avec l’expression du trait dans des générations apparentées (Thompson,
Prahalad, & Colbert, 2016). Cette méthodologie peut biaiser les QTLs trouvés en association, ce qui pourrait
expliquer la dissension des résultats dans la littérature. L’utilisation d’un GWAS pour échantillonner un grand
nombre de colonies ayant une grande diversité génomique (non-apparentées) entre elles permettrait
d’éliminer ce biais et avancerait la compréhension de la génomique du trait de résistance au Varroa chez A.
mellifera. La taille d’échantillon obtenue pour ce projet, soit une population diversifiée de 34 colonies
provenant de cinq sites au travers du Québec, s’est révélée insuffisante pour l’identification de marqueurs
significativement associés au trait SMR. Cependant, comprendre les causes de ces résultats préliminaires non
concluants à cette étape du projet est essentiel pour compléter la taille de l’échantillon et optimiser la stratégie
d’analyse statistique afin de mener à bien la poursuite de ce projet. Cette section élabore sur les résultats
obtenus et propose plusieurs explications pour en éclairer les causes.
2.3.1 Résultats obtenus
Ces résultats sont non concluants compte tenu du fait que les valeurs p corrigées avec le FDR ne sont pas
significatives. Puisque les valeurs sont plus grandes que le seuil (0.05), on ne peut pas rejeter l’hypothèse
nulle. Cela ne signifie pas nécessairement qu’il y a absence d’association entre la génomique et le trait SMR,
mais plutôt que notre étude n’a simplement pas la puissance statistique nécessaire pour détecter l’association,
considérant la littérature sur le sujet. Le résultat inusuel des courbes lambda sous la droite attendue pour
l’ensemble des méthodes statistiques est un indice important, dont la cause probable est une trop petite taille
d’échantillon, un facteur associé à une faible puissance statistique.
La structure de population
Les résultats produits pour déterminer la structure de population et leur illustration graphique avec la
phylogénie (figure 8) ont pour finalité de guider notre stratégie d’analyse pour détecter des associations
statistiques génotype-phénotype. Ces résultats montrent qu’il n’existe pas de stratification directe de la
74
population associée au site d’échantillonnage, à l’exception toutefois du CRSAD. Considérant que le CRSAD
à un programme de sélection des colonies, le fait que ces colonies semblent plus proches génétiquement
entre elles qu’avec les autres ruchers est attendu. Cependant, ce n’est pas le cas pour les autres ruchers, ce
qui laisse croire que ceux-ci font l’achat régulier de nouvelles reines et donc que les relations de parenté entre
les ruches sont plus complexes. Une colonie d’un rucher pourrait être plus apparentée à celle d’un autre
rucher à cause de l’importation de reines par les producteurs. D’autre part, la matrice de parenté contredit les
résultats obtenus par la phylogénie des colonies du CRSAD, car aucun sous-groupe ne se divise clairement
dans le graphique (figure 7). La matrice de parenté indique une sous-structure de population complexe, avec
beaucoup de variation dans les degrés de relation entre les individus de l’échantillon, sans cofacteur évident
comme le rucher (figures 7 et 8). La raison pour laquelle la matrice de parenté ne reflète pas la séparation du
CRSAD par la phylogénie est que la phylogénie peut être manipulée par l’utilisateur en changeant les nœuds,
tandis que la matrice de parenté ne peut être modelée selon la vue de l’utilisateur, ce qui fait de notre matrice
de parenté un outil plus fiable pour refléter la structure de population que l’approche phylogénétique employée
dans cette étude. Les tests d’association statistiques MLM et MLMM sont capables peser l’effet de la
complexité des relations dans la population pour éviter de produire des résultats biaisés en intégrant des
données de matrice de parenté et de PCA.
Les valeurs p corrigées identiques
Dans les résultats, les valeurs p pour les tests d’association MLM et MLMM sont identiques après la correction
FDR pour un très grand nombre de marqueurs. Ce résultat curieux s’explique facilement par le fonctionnement
de la correction FDR. Tout d’abord, dans la figure 12, on observe que la distribution de la fréquence des
valeurs p est uniforme, alors qu’on s’attend à une distribution exponentielle proche du zéro. La raison pour
laquelle une distribution exponentielle est attendue, est qu’une valeur p qui respecte l’hypothèse nulle à 5 %
de chance d’être < 0.5, 10 % de chance d’être < 0.1 et ainsi de suite. Cette description s’applique à une
distribution uniforme. La présence de multiples marqueurs associés au trait étudié, tel que l’hypothèse du
projet proposait que nous trouvions dans cette étude, causerait un pic proche du zéro dans la figure 12. Ce
pic représenterait l’hypothèse alternative (lorsque l’hypothèse nulle n’est pas respectée), ainsi que des faux-
positifs. La correction de la valeur p par une méthode FDR permettrait d’identifier les véritables valeurs p qui
sont des vrais-positifs. Cependant, l’absence de pic dans la figure 12 semble indiquer que les valeurs p
trouvées sont toutes non-significatives, avant même d’avoir fait la correction des valeurs p qui le confirme.
Cela explique qu’on pouvait s’attendre à l’absence de valeurs significatives après la correction, mais pas que
ces valeurs corrigées sont identiques. Il faut comprendre, comme expliqué dans le chapitre 1, que la
75
correction FDR se base sur un test d’hypothèse nulle. La distribution de la fréquence des valeurs p suivant
une distribution uniforme (figure 12), aucune valeur ne permet de rejeter l’hypothèse nulle car aucune valeur
ne varie suffisamment de l’hypothèse nulle. La méthode d’ajustement des valeurs p par le FDR doit s’assurer
qu’une valeur p plus petite qu’une autre ne soit pas corrigée en valeur q plus grande que l’autre. Pour garder
cette relation entre les valeurs p une fois transformées en valeurs q (ou simplement ajustées par p.adjust),
l’algorithme de calcul s’assure que si une valeur classée plus haute que la précédente produit une valeur
ajustée plus petite que la valeur classée précédente, toutes les valeurs ajustées avant seront remplacées par
la valeur ajustées de la valeur p classée plus haut. Une valeur p plus grande qu’une autre a donc produit une
valeur q plus petite que l’autre, transformant toutes les valeurs inférieures en valeurs identiques.
Améliorer les valeurs p
Nos valeurs p pourraient être améliorées en faisant usage de cofacteurs dans les études d’association.
Effectivement, il est possible d’inclure dans le modèle statistique de régression d’autres phénotypes évalués,
autre que celui qui est visé par l’étude, et qui sont soupçonnés d’interférer sur l’expression du phénotype
recherché. Des cofacteurs potentiels seraient par exemple l’état du Varroa dans la cellule (mort ou vivant) et le
taux d’infestation du cadre. Plus particulièrement, pour le cas de l’étude du comportement VSH plutôt que du
trait SMR, le taux de manipulation des opercules des cellules de couvain infestées (désoperculation du
couvain) serait un cofacteur important. Le facteur limitant de l’inclusion de ces mesures dans l’étude est le
temps supplémentaire de l’évaluation de ces paramètres.
Il est intéressant de dénoter qu’aucun des marqueurs parmi les plus proches d’être significatifs pour
l’ensemble des tests ne se trouvait proche des sites des marqueurs trouvés dans la littérature (à moins de
2 Mb).
Comparaison des valeurs p de méthodes et d’outils différents
Bien qu’aucune conclusion solide ne puisse être tirée des résultats, TASSEL semblait produire les meilleurs
résultats pour le test statistique MLM utilisant la matrice de parenté et les PCA comme covariables. TASSEL
semble être l’outil le plus efficace à contrôler les faux-positifs. Ce résultat n’est pas très surprenant, sachant
que la libraire GenABEL est un produit du projet GenABEL qui a été discontinué depuis mars 2018. Le modèle
d’association MLM avait déjà été démontré comme étant plus efficace que GLM pour ce type d’étude, mais il
semblait aussi mieux performer que le modèle statistique MLMM. Le modèle statistique MLMM semblait
produire un meilleur lambda que la méthode MLM dans son graphique x2 de la figure 12, toutefois le
graphique Manhattan (figure 13) montre que le modèle surestime les faux-positifs. Théoriquement, MLMM est
76
plus efficace pour identifier des marqueurs ayant une taille effet moyenne, contrairement à MLM qui est
optimisé pour la détection de marqueurs à effets faibles. Pour les traits phénotypiques communs, typiquement
peu de variations ont un grand effet (Manolio, et al., 2009). Il est fréquent qu’aucun marqueur n’atteigne le
seuil de signification pan-génomique, même avec des milliers d’échantillons (Burton, 2007). Dans les traits les
plus complexes, un marqueur SNP peut expliquer seulement une infime partie de l’héritabilité et donc
nécessite un immense pouvoir statistique pour être détecté. Le trait SMR semble être potentiellement un de
ces traits particulièrement complexes, surtout considérant l’identification d’un nombre aussi divers et non
complémentaire de sites associés à ce trait dans la littérature. Il faut aussi tenir compte de la distribution du
phénotype qui n’est pas normale, alors qu’il s’agit d’un prérequis important pour utiliser efficacement les MLM
et MLMM. D’autre part, l’outil TASSEL et l’outil GenABEL ne trouvent pas les mêmes régions génomiques
dans leurs tests d’association. Cependant, le chromosome 54.5 (chromosome 1) revient dans tous les tests
avec les deux outils, bien que à différentes régions. Dans le tableau IX, les marqueurs trouvés par les outils
TASSEL et GenABEL sur les mêmes chromosomes et à moins de 2 Mb de distance que ceux découverts
l’outil GAPIT lors de la régression MLMM. Le fait que ces différents outils aient trouvé des sites proches ayant
la plus grande association au trait pourrait indiquer que ces sites aient un impact réel sur le trait SMR.
Cependant, la puissance de notre étude est insuffisante pour le démontrer. Aucun de ces marqueurs n’a été
identifié auparavant dans la littérature, bien qu’un QTL sur le chromosome 1, à plus de 10 Mb de distance de
ceux identifiés dans notre étude, ait été détecté par l’étude de Tsuruda (2012). Le chromosome 5 quant à lui
est revenu à deux reprises, par un site très éloigné de la position de nos marqueurs, dont l’association a été
découverte par Spötter (2016) et par un QTL présenté dans Oxley (2010), dont la position n’est pas claire. Il
est difficile de comparer des résultats non concluants. On ne peut donc pas tirer de réelle conclusion ou
affirmation sur les méthodes et les marqueurs trouvés. Le plus important est de comprendre pourquoi aucun
de nos résultats n’est significatif, considérant les études précédentes qui ont été capables d’identifier des sites
associés au trait SMR.
77
Tableau IX. Comparaison des marqueurs trouvés par différents outils des tests d’association qui sont proches de la significativité (seuil p = 0.05) et qui sont situés à moins de 2 Mb sur le même chromosome.
Outil
Marqueurs
GAPIT (MLMM) TASSEL (MLM) GenABEL (MLM)
CM54.5 – 24’883’959 CM54.5 – 26’347’596 -
CM58.5 – 9’123’672 CM58.5 – 8’146’571 -
CM61.5 – 3’025’030 - CM61.5 – 4’600’145
78
2.3.2 Le problème de la puissance statistique
La principale question à se poser en vue des résultats obtenus est la suivante : pourquoi n’arrive-t-on pas à
détecter d’association? Il a précédemment été soulevé qu’à la lumière des études précédentes, une
association existe très probablement. Alors il nous faut soupçonner que notre étude est victime de résultats
faux-négatifs et d’une trop faible puissance statistique.
L’évaluation de la puissance statistique d’une étude est un outil important qui permet d’évaluer la confiance
des résultats. Lorsqu’on vise une puissance statistique a priori, cela permet de déterminer la taille d’échantillon
à viser pour limiter les faux-négatifs (erreurs de type II) et optimiser la probabilité de découvrir si une
association existe. Pourtant, dans cette étude comme dans bien d’autres, il s’agit d’une statistique qui est
boudée par les chercheurs. L’importance de la puissance sur les résultats et leur interprétation est indéniable,
alors pourquoi est-elle mise de côté?
L’évaluation de la puissance d’une étude a priori, bien que très informative, demande la connaissance de
plusieurs caractéristiques du trait étudié qui ne sont pas nécessairement disponibles. Entre autres, le modèle
génétique, la MAF, le LD, la prévalence, le nombre de marqueurs impliqués et l’hétérozygotie sont utilisés
pour le calcul de la puissance (Hong & Park, 2012). Aucune de ces caractéristiques n’a été bien répertoriée
pour le trait SMR, le calcul de la puissance a priori de l’étude, dans le but de déterminer une taille
d’échantillon, n’a donc que très peu de valeur. Cela n’empêche pas la puissance d’avoir un impact majeur sur
l’étude et ces résultats. La faible puissance de notre étude a été observée Post hoc (figure 15). On suspecte
donc la faible puissance d’être responsable de notre incapacité à détecter une association.
Les facteurs influençant la puissance d’une étude (pour l’ensemble des tests) sont la taille de l’échantillon et
l’effet des marqueurs et les la distribution des valeurs p, l’un ou plusieurs de ces facteurs sont donc en cause
de notre faible puissance. La précision et la variance des mesures prises sur l’échantillon sont aussi des
facteurs qui impactent la puissance de l’étude a priori, lorsqu’il s’agit de déterminer la taille d’échantillon
nécessaire à éviter les erreurs de type II. Les prochains paragraphes présentent des approches pour
améliorer chacun de ces facteurs.
Effet des marqueurs
Une façon d’augmenter la puissance de l’étude est d’augmenter la variance entre les individus aux
phénotypes extrêmes. Cela peut être réalisé en enlevant les mesures de phénotypes trop intermédiaires, ou
79
encore en enlevant le caractère quantitatif de l’évaluation du phénotype en catégorisant simplement les
individus (colonies) en « résistantes » ou « sensibles ». Un frein majeur à l’utilisation de cette approche est
qu’aborder l’évaluation du phénotype de manière catégorique implique qu’il faut trouver une division dans le
trait continu où il serait arbitrairement décidé que le trait SMR soit exprimé ou non. Cela implique aussi une
perte de sensibilité importante de détection des marqueurs. Notre taille d’échantillon étant limitée, le fait
d’enlever d’avantage d’individus n’est pas souhaitable car cela diminuerait encore plus le peu de variance
disponible.
La taille d’échantillon
Un facteur essentiel souligné dans le chapitre 1 est l’importance d’avoir un échantillon de grande taille pour
réaliser une étude d’association pangénomique. Il est clair que l’étude réalisée dans ce projet avait un
échantillon de taille insuffisante. Le projet devait initialement inclure 105 colonies dans l’étude, ce qui
représentait déjà un échantillon de taille modeste. En théorie, il est recommandé de réaliser des GWAS avec
un échantillon de population plus grand que le nombre de variables testées, soit plus d’individus dans
l’échantillon que de marqueurs utilisés dans le test d’association. Notre test d’association incluait
7 810 marqueurs pour 34 individus, en termes statistiques 7 810 variables pour 34 observations, ce qui est
nettement insuffisant. En diminuant le nombre de marqueurs, le risque de perdre des marqueurs
potentiellement importants aurait augmenté, particulièrement si on considère l’ensemble des critères
discriminants de filtration des séquences pour le contrôle de qualité ayant été employés.
De plus, il faut considérer la précision et la variance des mesures qui sont prises sur l’échantillon, car ces
facteurs influencent le nombre d’individus (colonies) nécessaires à l’étude. Les mesures qui sont prises sur
l’échantillon informent de la distribution des probabilités autour des valeurs obtenues (de niveau SMR dans
notre cas) selon lesquelles on estime la distribution réelle des valeurs de phénotypes dans la population.
Nécessairement, plus la taille d’échantillon est grande, meilleure est la confiance en notre estimation. De
même, plus l’intervalle de confiance est large, moins l’étude est puissante, et donc plus la taille d’échantillon
doit être grande (Jones, Carley, & Harrison, 2003). Ci-dessous, les différents facteurs qui affectent la précision
et la variance des mesures dans la population seront abordés.
Le taux d’infestation
L’intervalle de confiance dans la mesure prise affecte la précision du phénotype évalué. Un taux d’infestation
trop faible (< 5 %) augmente l’incertitude dans l’évaluation du phénotype. Concisément, si l’infestation est
inférieure au seuil minimal recommandé, la différence d’expression du trait de résistance n’est plus observable
80
entre une colonie résistante et une colonie sensible. Dans cette étude, le taux d’infestation de Varroa dans le
couvain était un facteur limitant important, non seulement pour le biais dans l’évaluation du phénotype, mais
aussi pour atteindre la taille d’échantillon visée. Le taux excessivement bas de l’infestation dans nos colonies
(parfois simplement l’absence d’infestation) a obligé l’exclusion de plusieurs dizaines de colonies (70 des
105 colonies, soit les deux tiers de l’échantillonnage initial) qui devaient faire partie de l’échantillon étudié
initialement. De plus, plus le taux d’infestation est bas, plus le temps d’évaluation du phénotype est long.
La solution la plus simple à ce problème est d’infester artificiellement les colonies ou d’utiliser un protocole
d’évaluation du comportement VSH (plutôt que SMR) qui implique l’introduction d’un cadre de couvain infesté
dans la colonie (Villa, Danka, & Harris, 2009). Cependant, ce protocole présente le désavantage de nécessiter
beaucoup plus de manipulations de la part de l’évaluateur et incidemment ce protocole est plus long que celui
d’évaluation du trait SMR. Notre projet en particulier s’effectuait avec la collaboration d’apiculteurs
commerciaux pour que la diversité génétique de l’échantillon soit suffisante et représentative des populations
du Québec. La collaboration avec les apiculteurs n’est évidemment pas propice à l’infestation artificielle des
ruches, ni même à exécuter le protocole VSH. Éventuellement, il serait possible d’effectuer un projet
semblable en utilisant des reines achetées à plusieurs apiculteurs, mais élevées dans un rucher expérimental
qui permettrait de faire l’infestation expérimentale et de ne pas inhiber le développement des populations de
Varroa dans le rucher en ne traitant pas les colonies, ce qui est impossible dans un cadre commercial. La
réalisation d’un projet de cette ampleur dépend alors exclusivement des ressources de l’équipe de recherche.
L’origine des colonies tests limite la taille de l’échantillon, premièrement parce qu’il est nécessaire d’obtenir
des colonies qui ne sont pas trop apparentée pour éviter les biais de déséquilibre de liaison (LD) dans la
population résultante et deuxièmement, parce que les colonies utilisées dans ce projet venaient très
majoritairement de producteurs commerciaux. Dans un contexte de production, la prise d’un cadre de couvain
dans une colonie peut s’avérer nuisible, en réduisant les performances de cette dernière.
L’effet de l’environnement
Un autre problème qui a certainement affecté notre étude d’association est l’effet de l’environnement sur la
précision de la mesure de l’expression du phénotype. Les caractères phénotypiques quantitatifs sont
influencés par l’effet des gènes, mais aussi de façon importante par l’environnement. Idéalement, pour
identifier l’effet des gènes sur le phénotype et permettre leur analyse par une étude d’association, il faut limiter
l’impact de l’environnement sur le phénotype que l’on évalue. La façon standard de contrôler l’effet
environnemental est de contrôler les paramètres environnementaux pour qu’ils soient identiques, ainsi on
s’attend à ce que les variations dans l’expression du phénotype soient exclusivement dues aux différences
81
génétiques et au hasard. Malheureusement, les paramètres environnementaux sont excessivement difficiles,
voire impossibles à contrôler en apiculture, puisque les colonies ne peuvent pas être conservée à l’intérieur
hors de la période d’hivernage. Le phénotype évalué présente alors une grande marge d’erreur, qui affecte la
taille effet attendue des marqueurs, en plus de ne pas contrôler correctement l’effet de l’environnement sur le
phénotype.
Les abeilles sont malheureusement un modèle animal dont les facteurs environnementaux sont
excessivement complexes à contrôler. La manière la plus évidente de contrôler les facteurs environnementaux
est de faire l’expérience (l’évaluation d’expression du phénotype) in vitro, donc en laboratoire, ce qui est
pratiquement impossible pour les abeilles, pour plusieurs raisons :
• Les paramètres d’une ruche (température, lumière et humidité) ont une étroite variation dans la
nature. Le contrôle de ces paramètres en laboratoire demande du matériel spécialisé et coûteux,
particulièrement considérant la taille d’une ruche (Ohashi, et al., 2009).
• Puisque les abeilles utilisent le soleil pour se guider, il est impossible de mettre une colonie dans une
pièce fermée en espérant avoir un comportement normal (Evangelista, et al., 2014).
• Même en utilisant un seul rucher, donc à un endroit délimité dans lequel les paramètres de
température, de compétition, d’humidité et de ressources environnantes sont très similaires, d’autres
facteurs environnementaux auront un impact majeur sur le phénotype. Bien que la taille de la ruche
ne semble pas avoir d’effet sur le comportement hygiénique, la quantité de couvain a été corrélée
négativement avec l’expression du comportement hygiénique (Bigio, Schürch, & Ratnieks, 2013).
La distribution du phénotype
La variance, c’est-à-dire la distribution du phénotype dans la population, est aussi un facteur qui influence la
puissance de l’étude et la taille de population nécessaire. Les tests paramétriques qui sont utilisés pour
identifier l’association assument une distribution normale du phénotype dans la population. L’absence de
distribution normale de la fréquence des phénotypes est un indicateur supplémentaire que la taille
d’échantillon est insuffisante (figure 5). Toutefois, il peut y avoir d’autres causes qui expliqueraient la
distribution du phénotype observée. Pour que les fréquences suivent une distribution normale, certaines
assomptions doivent être respectées, à savoir que plusieurs loci doivent être impliqués dans l’expression du
trait (trait quantitatif), chacun de ces locus doit avoir un effet équivalent (modèle additif) et agir
indépendamment les uns des autres (interaction limitée). Alors que l’on peut assumer que la première
assomption est respectée par la littérature résumée dans le premier chapitre, il se peut que le modèle additif
ne soit pas représentatif de la réalité de l’architecture génomique du trait SMR. Dans un tel cas, l’interaction
82
entre les locus impliqués peut être plus complexe que ce qui était attendu et le modèle additif utilisé par les
outils serait insuffisant pour détecter correctement l’effet des marqueurs associés au trait.
La structure de population
Outre la taille de l’échantillon, les tests statistiques d’association déterminent la puissance d’une étude. Les
modèles ont été abordés dans la première partie de cette section, la détermination de la structure de
population sera maintenant approfondie. La structure de population est un facteur de biais largement discuté
dans le chapitre 1, dont les modèles statistiques doivent tenir compte afin de réduire les erreurs de type I et de
type II. Dans cette étude, un graphique de matrice de parenté génétique a été utilisée pour tenter d’identifier
une structure de sous-groupes dans la population (figure 7). L’explication la plus probable de l’absence de
divisions claires des individus en sous-groupes est une trop petite taille d’échantillon. Une autre explication
possible serait la présence d’une hétérozygotie plus forte que ce qui était attendu dans la population
échantillonnée (données en annexes) (Ioannidis, Thomas, & Daly, 2009). Encore une autre cause possible est
la présence de plusieurs sous-espèces d’A. mellifera dans notre échantillon. L’identification des sous-espèces
serait possible en faisant un séquençage en profondeur d’une région d’ADN mitochondrial conservée qui est
utilisée pour classifier les sous-espèces (Syromyatnikob, et al., 2018). Cette entreprise représentant un effort
substantiel, elle n’a pas été effectuée dans le cadre de ce projet. Sa réalisation pourrait toutefois permettre de
mieux contrôler la structure de population lors de la régression des génotypes sur les phénotypes. D’ailleurs,
en observant attentivement la figure 7, il semble y avoir certains individus qui sont potentiellement des valeurs
aberrantes (isolées de toutes les autres valeurs). Cependant, des tests (non présentés) ont montré que de
retirer ces individus potentiellement aberrants n’affectait pas la qualité des résultats.
Les études classiques de sélection animale utilisent le pédigrée des individus comme covariant dans les tests
d’association statistiques au lieu de matrice de parenté génétique. Il nous a été impossible d’obtenir
l’information du pédigrée des pères à cause de la polyandrie des reines. Seule l’information maternelle est
disponible et une liste des sources possibles de mâles (colonies relativement proches). Contrôler la
reproduction par insémination des reines est une pratique fastidieuse et une expertise rare en apiculture. De
plus, la polyandrie n’est pas uniquement naturelle mais essentielle au fitness des colonies (Mattila & Seeley
2007). Pour ces raisons, le génotypage de la reine est la seule façon de déterminer avec précision la parenté
de cette reine sans compromettre les performances de la colonie. Toutefois, des études ont montré que la
matrice de parenté donnait parfois à de meilleurs résultats que le pédigrée pour contrôler la structure de la
population.
83
Conclusion
Notre premier objectif, qui était d’apporter une meilleure compréhension de l’architecture génomique associée
à la résistance par la baisse de fertilité du Varroa destructor (SMR) chez Apis mellifera par une étude
d’association pan-génomique entre la résistance et les marqueurs SNPs identifiés par la méthode de
génotypage par séquençage. Cet objectif n’a pas donné de résultats concluants : la complexité de l’évaluation
du phénotype et la taille insuffisante de l’échantillon de notre étude sont les principales causes de la faible
puissance de notre étude et donc de notre incapacité à trouver des associations significatives.
Notre projet n’est pas le premier à tenter d’élucider l’architecture génomique qui régit le trait de résistance
SMR, ou même le comportement VSH, chez A. mellifera. Les études ayant partagé ce but remontent à avant
même le 21e siècle. Toutefois, notre projet représente la toute première tentative d’étude d’association pan-
génomique, à proprement parler, pour atteindre ce but, à notre connaissance. Les études antérieures basées
sur la famille (family-based linkage studies) ont toutes utilisé des colonies ayant des liens de parentés avec
lesquelles des rétrocroisements ont été effectués (provenant généralement d’un seul site), ce qui fait de ces
études des analyses de QTL. C’est aussi le cas dans l’étude de Spötter (2017), qui pourtant porte le titre de
« Genome-wide association study of a varroa-specific defense behabior in honeybees (Apis mellifera) ». Il est
généralement admis que les études classiques qui utilisent des familles pour réaliser les analyses de QTL
sont efficaces pour identifier les gènes qui ont des effets forts dans les traits mendéliens, mais que leur
efficacité est limitée dans les traits complexes communs (Altmüller, et al., 2001).
Les GWAS sont des outils spectaculaires qui offrent une possibilité jamais imaginée auparavant d’interroger
l’ensemble du génome chez un grand nombre d’individus sans liens de parenté. Elles ont permis la
découverte de régions génomiques sans gènes connus fortement associés à des phénotypes, qui n’avaient
jamais été soupçonnées d’impacter un phénotype. Malheureusement, cet outil dont la popularité a explosé ces
dernières années présente d’importantes limitations, la plus problématique étant leur prédisposition à produire
des résultats faux-positifs ou faux-négatifs. La résolution ou du moins la limitation de cette problématique
repose principalement sur le choix et le paramétrage des modèles statistiques d’association développés dans
l’optique des GWAS. D’autre part, la puissance statistique, un paramètre souvent négligé dans les études
génomiques, s’avère être excessivement important à la réalisation d’une étude et la confirmation de la
signification des marqueurs associés lorsque leur valeurs p est sous le seuil de signification après correction.
84
Finalement, la taille d’échantillon est, comme le montre ce projet, un facteur crucial à la réussite d’une telle
étude.
Perspectives
Dans les circonstances actuelles de l’étude de la génomique de la résistance au Varroa chez A. mellifera, la
réalisation d’une méta-analyse représente une avenue intéressante, qui permettrait de combiner les résultats
d’études ayant trouvé des marqueurs significatifs ou non, ce qui permettrait potentiellement de mieux
comprendre l’architecture génomique de ce trait. Cette approche serait particulièrement intéressante pour
établir la crédibilité des résultats d’études antérieures sur la même question de recherche.
La découverte de marqueurs génomiques significativement associés au trait de résistance servirait dans le
développement et l’application d’un programme de sélection génomique, c’est-à-dire en identifiant les reines
dont le génome contient des variants alléliques favorisant un bon comportement SMR. Cet outil permettrait
donc d’éviter le processus fastidieux d’évaluation du trait, mais aussi serait plus fiable que cette évaluation qui
est dépendante de l’environnement. Les preuves du fonctionnement de la sélection assistée par les
marqueurs génétiques ne sont plus à faire. Il s’agit d’un outil largement employé, par exemple dans le but de
maximiser la biomasse du bois en foresterie, ou encore pour favoriser des traits de production dans le bétail
(Guimaraes, et al. 2007). Des changements impressionnants ont été réalisés pour des traits quantitatifs par la
sélection, par exemple sur la sélection du maïs pour sa production d’huile, une expérience réalisée en Illinois
qui dure depuis 100 générations et qui démontre le pouvoir de sélection de QTLs à effets additifs (Laurie et al.
2004). Cependant, il faut être prudent en s’engageant dans l’entreprise de la reproduction sélective, puisque
non seulement la sélection directionnelle arrive nécessairement à une fin éventuelle, mais aussi parce que la
sélection visant un seul trait peut se faire au détriment d’autres traits recherchés.
Plusieurs articles à ce jour ont proposé des marqueurs associés au trait de résistance chez l’abeille, sans
tester plus loin leur association. Chaque gène candidat trouvé par une étude d’association devrait être testé
individuellement, puisque dans la plupart des cas la majorité de ces candidats de contribuent que
marginalement ou pas du tout au phénotype (Witte, 2010), particulièrement lorsque ces gènes sont suggérés
par les QTLS (Kloosterman, et al., 2010). Du travail reste à faire pour élucider l’architecture du trait complexe
SMR et du comportement VSH, mais aussi pour s’assurer de la réalité biologique des associations statistiques
de certains marqueurs à ce trait. La faille la plus importante de notre étude était l’échantillon de taille
insuffisante, ce qui devrait être rectifié dans des analyses futures en visant une taille d’échantillon d’au moins
85
une centaine de colonies et beaucoup plus si l’on peut optimiser la mesure du phénotype, qui s’est avérée très
chronophage. Ainsi, d’autres études d’association qui se concentrent sur des populations plus diversifiées
devraient être faites dans le futur, mais aussi des études moléculaires de l’efficacité des marqueurs associés.
86
Bibliographie
Aljanabi, S. M., & Martinez, I. (1997). Universal and rapid salt-extraction of highquality genomic DNA for PCR-
based techniques. Nucleic Acids Research, 25(22), 4692-4693.
Altmüller, J., Palmer, L. J., Fischer, G., Scherb, H., & Wjst, M. (2001). Genome-wide scans of complex human
diseases. Am. J. Hum. Genet., 69(5), 936-950.
Anderson, C. A., Pettersson, F. H., Clarke, G. M., Cardon, L. R., Morris, A. P., & Zondervan, K. T. (2010). Data
quality control in genetic case-control association studies. Nature Protocols, 5, 1564-1573.
Anderson, D. L., & Fuchs, S. (1998). Two genetically distinct populations of Varroa jacobsoni with contrasting
reproductive abilities on Apis mellifera. Journal of Apicultural Research, 37(2), 69-78.
Andersson, M. (1984). The Evolution of Eusociality. Ann. Rev. Ecol. Syst., 15, 165-89.
Andrews, S. (2010). FastQC A Quality Control tool for High Throughput Sequencing Data. Consulté le 2018,
sur http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
Aulchenko, Y. S., Ripke, S., Isaacs, A., & van Duijn, C. M. (2007). GenABEL: an R library for genome-wide
association analysis. Bioinformatics, 23(10), 1294-1296.
Aumeier, P., Rosenkranz, P., & Gonçalves, L. S. (2000). A comparison of the hygienic response of Africanized
and European (Apis mellifera carnica) honey bees to Varroa-infested brood in tropical Brazil.
Genetics and Molecular Biology, 23, 787-791.
Baird, N. A., Etter, P. D., Atwood, T. S., Currey, M. C., Shiver, A. L., & et al. (2008). Rapid SNP discovery and
genetic mapping using sequenced RAD markers. PLoS ONE, 3.
Balding, D. J. (2006). A tutorial on statistical methods for population association studies. Nature Reviews
Genetics, 7, 781-791.
Barton, N. H., Etheridge, A. M., & Véber, A. (2017). The infinitesimal model: Definition, derivation, and
implications. Theoretical Population Biology, 118, 50-73.
Behrens, D., Huang, Q., Gebner, C., Rosenkranz, P., Frey, E., Locke, B., . . . Kraus, F. B. (2011). Three QTL
in the honey bee Apis mellifera L. suppress reproduction of the parasitic mite Varroa destructor. Ecol.
Evol., 1(4), 451-158.
Benjamini, Y., & Hochberg, Y. (1995). Controlling the false discovery rate: a practical and powerful approach to
multiple testing. Journal of the Royal Statistical Society Series B, 289-300.
Bertholf, L. M. (1925). The moults of the honeybee. Journal of Economic Entomology, 18, 380-384.
Bigio, G., Schürch, R., & Ratnieks, F. L. (2013). Hygienic behavior in honey bees (Hymenoptera: Apidae):
effects of brood, food, and time of the year. J. Econ. Entomol., 106(6), 2280-5.
Boecking, O., & Drescher, W. (1992). The removal response of Apis mellifera L. colonies to brood in wax and
plastic cells after artificial and natural infestation with Varroa jacobsoni Oud. and to freeze-killed
brood. Eperimental and Applied Acarology, 16, 321-329.
Boecking, O., & Genersch, E. (2008). Varroosis - the ongoing crisis in bee keeping. Journal Fur
Verbraucherschutz Und Lebensmittelsicherheit - Journal of Consumer Protection and Food Safety, 3,
221-228.
Boecking, O., & Ritter, W. (1993). Grooming and removal behaviour of Apis mellifera intermissa in Tunisia
against Varroa jacobsoni. Journal of Apicultural Research, 32, 127-134.
Boecking, O., & Spivak, M. (1999). Behavioral defenses of honey bees against Varroa jacobsoni Oud.
Apidologie, 30, 141-158.
Boncristiani, H., Li, J., Evans, J., Pettis, J., & Chen, Y. (2011). Scientific note on PCR inhibitors in the
compound eyes of honey bees, Apis mellifera. Apidologie, 42(4), 457-460.
87
Bowen-Walker, P. L., & Gunn, A. (2001). The effect of the ectoparasitic mite, Varroa destructor on adult worker
honeybee (Apis mellifera) emergence weights, water, protein, carbohydrate, and lipid levels.
Entomologia Experimentalis Et Applicata, 101, 207-217.
Bowen-Walker, P. L., & Gunn, A. (2001). The effect of the extoparasitic mite, Varroa destructor on adult worker
honeybee (Apis mellifera) emergence weights, water, protein, carbohydrate, and lipid levels. Entomol.
Exp. Appl., 101, 207-217.
Bradbury, P. J., Zhang, Z., Kroon, D. E., Casstevens, T. M., Ramdoss, Y., & Buckler, E. S. (2007). TASSEL:
Software for association mapping of complex traits in diverse samples. Bioinformatics, 23, 2633-
2635.
Browning, B. L., Zhou, Y., & Browning, S. R. (2018). A one-penny imputed genome from next generation
reference panels. Am. J. Hum. Genet., 103(3), 338-348.
Brumfield, R. T., Beerli, P., Nickerson, D. A., & Edwards, S. V. (2003). The utility of single nucleotide
polymorphisms in inferences of population history. Trends in Ecology and Evolution, 18(5), 249-256.
Büchler, R., Berg, S., & Le Conte, Y. (2010). Breeding for resistance to Varroa destructor in Europe.
Apidologie, 41, 393-408.
Büchler, R., Costa, C., Mondet, F., Kezic, N., & Kovacic, M. (2017). Screening for low Varroa mite reproduction
(SMR) and recapping in European honey bees. Reserach Network for Sustainable Bee Breeding.
Bush, W. S., & Moore, J. H. (2012). Chapter 11: Genome-wide association studies. PLoS Computer Biology,
8(12).
Calderone, N. W. (1999). Evaluation of formic acid and a thymol-based of natural products for the fall control of
Varroa jacobsoni (Acari: Varroidae) in colonies of Apis mellifera (Hymenoptera: Apidae). J. Econ.
Entomol., 92, 253-260.
Cantor, R. M., Lange, K., & Sinsheimer, J. S. (2010). Prioritizing GWAS Results: A Review of Statistical
Methods and Recommendations for Their Application. American Journal of Human Genetics, 86(1),
6-22.
CAPA, N. S. (2018). CAPA Statement on Honey Bee Wintering Losses in Canada.
Chauvin, R. (1968). Traité de biologie de l'abeille. Paris: Masson.
Chen, Y. P., Higgins, J. A., & Feldlaufer, M. F. (2005). Quantitative real-time reverse transcription-PCR
analysis of deformed wing virus infection in the honeybee (Apis mellifera L.). Applied and
Environmental Microbiology, 71, 436-441.
Chen, Y. P., Zhao, Y., Hammond, J., Hsu, H. T., Evans, J., & Feldlaufer, M. (2004). Multiple virus infections in
the honey bee and genome divergence of honey bee viruses. Journal of Invertebrate Pathology, 87,
84-93.
Cingolani, P., Platts, A., Wang, L., Coon, M., Nguyen, T., Wang, L., . . . Lu, X. (2012). A program for
annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the
genome of Drosophila melanogaster strain w; iso-2; iso-3. Fly, 6(2), 1-13.
Comité sur les enquêtes nationales de l'ACPA 2015, Leboeuf, A., Nasr, M., Jodan, C., Kempers, M., Kozak,
P., . . . Wilson, G. (2015). Canadian Association of Professional Apiculturists Statement on Honey
Bee Wintering Losses in Canada.
Comité sur les enquêtes nationales de l'ACPA 2015, Leboeuf, A., Nasr, M., Jordan, C., Kempers, M., Kozak,
P., . . . Wilson, G. (2015). Canadian Association of Professional Apiculturist Statement on Honey Bee
Wintering Losses in Canada. CAPA.
88
Comité sur les enquêtes nationales de l'ACPA 2016, Leboeuf, A., Nasr, M., Ferland, J., Wilson, G., Jordan, C.,
. . . van Westendorp, P. (2016). Association cancadienne des professionnels de l'apiculture Rapport
sur la mortalité hivernale des colonies d'abeilles au Canada. CAPA.
Comité sur les enquêtes nationales de l'ACPA. (2018). Rapport sur la mortalité hivernale de clonies d'abeilles
au Canada. Agriculture et Agroalimentaire Canada.
Cordell, H. J., & Clayton, D. G. (2002). A unified stepwise regression procedure for evaluating the relative
effects of polymorphisms within a gene using case/control or family data: application to HLA in type 1
diabetes. Am. J. Hum. Genet., 70, 124-141.
Currie, R., Pernal, S., & Guzman-Novoa, E. (2010). Honey bee colony losses in Canada. Journal of Apicultural
Research(49), 104-106.
Danecek, P., Auton, A., Abecasis, G., Albers, C. A., Banks, E., DePristo, M. A., & 1000 Genomes Project
Analysis Group. (2011). The Variant Call Format and VCFtools. Bioinformatics.
Danforth, B. (2007). Bees. Current biology(17), 156-161.
Danka, R. G., Harris, J. W., & Villa, J. D. (2011). Expression of Varroa sensitive hygiene (VSH) in commercial
VSH honey bees (Hymenoptera: Apidae). J. Econ. Entomol., 104(3), 745-749.
Danka, R., Harris, J., Villalobos, E., & Glenn, T. (2012). Varroa destructor resistance of honey bees in Hawaii,
USA, with different genetic proportions of Varroa Sensitive Hygiene (VSH. Journal of Apicultural
Research , 51(3), 288-290.
Dekkers, J. M. (2004). Commercial application of marker- and gene- assisted selection in livestock: Strategies
and lessons. J. Anim. Science, 82, E313-328.
Devlin, B., & Risch, N. (1995). A comparison of linkage desequilibrium measures for fine-scale mapping.
Genomics, 19, 311-322.
Dietemann, V., Ellis, J. D., & Neumann, P. (2013). The COLOSS BEEBOOK vol. I. Standard methods for Apis
mellifera research: Introduction. Journal of Apicultural Research, 52.
Dietemann, V., Pflugfelder, J., Anderson, D., Charriere, J. D., Chejanovsky, N., Dainat, B., . . . Neumann, P.
(2012). Varroa destructor: research avenues towards sustainable control. Journal of Apicultural
Research, 51, 125-132.
Dudley, J. W., & Lambert, R. J. (2004). 100 generations of selection for oil and protein content in corn. Plant
Breed. Rev., 24, 79-110.
Ellis, J. D., Delaplane, K. S., & Hood, W. M. (2001). Efficacy of a bottom screen device, Apistan (TM), and
Apilife VAR (TM), in controlling Varroa destructor. American Bee Journal, 141, 813-816.
Elshire, R. J., Glaubitz, J. C., Sun, Q., Poland, J. A., Kawamoto, K., Bucker, E. S., & Mitchell, S. E. (2011). A
Robust, Simple Genotyping-by-Sequencing (GBS) Approach for High Diversity Species. PLoS ONE,
6(5).
Engels, W. R., & Preston, C. R. (1984). Formation of chromosome rearrangements by P factors in Drosophila.
Genetics, 107, 657-678.
Evangelista, C., Kraft, P., Dacke, M., Labhart, T., & Srinivasan, M. V. (2014). Honeybee navigation: critically
examining the role of the polarization compass. Philos. Trans. R. Soc. Lond. B Biol. Sci., 369(1636),
20130037.
Evans, J. D., Schwarz, R. S., Chen, Y. P., Budge, G., Cornman, R. S., De la Rua, P., . . . Pinto, M. (2013).
Standard methods for molecular research in Apis mellifera. Journal of Apicultural Research, 52(4:
The COLOSS BEEBOOK Part 2), 1-54.
Ewing, B., & Green, P. (1998). Base-calling of automated sequencer traces using phred. II. Error probabilities.
Genome Res., 8(3), 186-194.
89
Fahrenholz, L., Lamprecht, I., & Schricker, B. (1989). Thermal investigations of a honey bee colony:
thermoregulation of the hive during summer and winter and heat production of members of different
bee castes. Journal of Comparative Physiology B, 159(5), 551-560.
Franck, P., Garnery, L., Loiseau, A., Oldroy, B. P., Hepburn, H. R., Solignac, M., & Cornuet, J.-M. (2001).
Genetic diversity of the honeybee in Africa: microsatellite and mitochondrial data. Heredity(86), 420-
430.
Franck, P., Garnery, L., Oldroyd, B., Hepburn, H., Solignac, M., & Cornuet, J.-M. (2001). Genetic diversity of
the honeybee in Africa: microsatellite and mitochondrial data. Heredity(86), 420-430.
Fries, I., & Rosenkranz, P. (1996). Number of reproductive cycles of Varroa jacobsoni in honey-bee (Apis
mellifera) colonies. Experimental & Applied Acarology, 20, 103-112.
Fuchs, S. (1994). Nonreproducing Varroa jacobsoni Oud. in honey bee worker cells - status of mites or effects
of brood cells. Exp. Appl. Acarol., 18, 309-317.
Gaiger, I. T., Tomljanovic, Z., & Petrinec, Z. (2010). Monitoring health status of Croatian honey bee colonies
and possible reasons for winter losses. Journal of Apiculutral Research, 49, 107-108.
Gary, N. (1963). Observations of mating behaviour in the honeybee. Journal of Apicultural Research (2), 3-13.
Gary, N. (1963). Observations of mating behaviour in the honeybee. Journal of Apicultural Research, 2, 3-13.
Genersch, E. (2005). Development of a rapid and sensitive RT-PCR method for the detection of deformed
wing virus, a pathogen of the honeybee (Apis mellifera). Vet. J., 169, 121-123.
Genersch, E., & Aubert, M. (2010). Emerging and re-emerging viruses of the honey bee (Apis mellifera L.).
Veterinary research, 41-54.
Genomes Project Consortium. (2010). A map of human genome variation from population-scale sequencing.
Nature, 467, 1061-1073.
Giovenazzo , P. (2011). Application d'une stratégie de lutte intégrée contre le parasite Varroa destructor dans
les colonies d'abeilles mellifères du Québec. Thèse de doctorat, Université de Montréal.
Giovenazzo, P., & Dubreuil, P. (2011). Evaluation of spring organic treatments against Varroa destructor
(Acari: Varroidae) in honey bee Apis mellifera (Hymenoptera: Apidae) colonies in eastern Canada.
Experimental & applied acarology, 55, 65-76.
Gotelli, N. J., & Ellison, A. M. (2012). A Primer of Ecological Statistics (éd. 2). Sunderlands: Mass: Sinauer
Associates Publishers.
Gramacho, K. P., & Spivak, M. (2003). Differences in olfactory sensitivity and behavioral responses among
honey bees bred for hygienic behavior. Behavioral Ecology and Sociobiology, 54, 472-479.
Gregoric, A., & Planing, I. (2002). The control of Varroa destructor using oxalic acid. Veterinary Journal, 163,
306-310.
Gregory, P. G., Evans, J. D., Rinderer, T., & de Guzman, L. (2005). Conditional immune-gene suppression of
honeybees parasitized by Varroa mites. Journal of Insect Science, 5.
Guimaraes, E., Ruane, J., Sonnino, A., Scherf, B., & Dargie, J. D. (2007). Marker assisted selection: current
status and future perspectives, in crops, livestock, forestry and fish. Rome: FAO.
Guzman-Novoa, E., Eccles, L., Calvete, Y., McGowan, J., Kelly, P., & Correa-Benitez, A. (2010). Varroa
destructor is the main culprit for the death and reduced populations of overwintered honey bee (Apis
mellifera) colonies in Ontario, Canada. Apidologie(41), 443-450.
Haarman, T., Spivak, M., Weaver, D., Weaver, B., & Glenn, T. (2002). Effects of fluvalinate and coumaphos on
queen honey bees (Hymenoptera: Apidae) in two commercial queen rearing operations. Journal of
Economic Entomology, 95(1), 28-35.
90
Habier, D., Fernando, R. L., & Dekkers, C. M. (2007). The Impact of Genetic Relationship Information on
Genome-Assisted Breeding Values. Genetics, 177(4).
Han, F., Wallberg, A., & Webster, M. T. (2012). From where did the Western honeybee (Apis mellifera)
originate? Ecol Evol., 2(8), 1949-1957. doi:10.1002/ece3.312
Harbo, J. R., & Harris, J. W. (1999). Selecting honey bees for resistance to Varroa jacobsoni. Apidologie, 20,
183-196.
Harbo, J. R., & Harris, J. W. (2005). Suppressed mite reproduction explained by the behaviour of adult bees.
Journal of Apicultural Research, 44, 21-23.
Harbo, J. R., & Harris, J. W. (2009). Responses to Varroa by honey bees with different levels of Varroa
Sensitive Hygiene. Journal of Apicultural Research, 48, 156-161.
Harbo, J. R., & Hoopingarner, R. A. (1997). Honey bees (Hymenoptera: Apidae) in the United States that
express resistance to Varroa jacobsoni (Mesostigmata: Varroidae). Journal of Economic Entomology,
90, 893-898.
Harbo, J., & Harris, J. (2001). Resistance to Varroa destructor (Mesostigmata: Varroidae) when mite-resistant
queen honey bees (Hymenoptera: Apidae) were free-mated with unselected drones. Jounal of
Economic Entomology, 94, 1319-1323.
Harris, J. W. (2007). Bees with Varroa Sensitive Hygiene preferentially remove mite infested pupae aged <=
five days post capping. Journal of Apiculturl Research, 46, 134-139.
Harris, J. W., Danka, R. G., & Villa, J. D. (2010). Honey Bees (Hymenoptera: Apidae) With the Trait of Varroa
Sensitive Hygiene Remove Brood with All Reproductive Stages of Varroa Mites (Mesostigmata:
Varroidae). Annals of the Entomological Society of America, 103, 146-152.
Hedtke, H. M., Patiny, S., & Dan, B. M. (2013). The bee tree of life: a supermatrix approach to apoid phylogeny
and biogeography . BMC Evolutionary Biology, 13(138).
Hedtke, H. M., Patiny, S., & Danforth, B. M. (2013). The bee tree of life: a supermatric approach to apoid
phylogey and biogeography. BMC Evolutionary Biology, 13(138).
Hong, E. P., & Park, J. W. (2012). Sample Size and Statistical Power Calculation in Genetic Association
Studies. Genomics Inf., 10(2), 117-122.
Hoppe, H., & Ritter, W. (1987). Experiments using combined heat therapy to control Varroa disease.
Apidologie.
Huang, Z. (2012). Varroa mite reproductive biology. American Bee Culture. Consulté en mars 2017, sur
http://www.extension.org/pages/65450/varroa-mite-reproductivebiology
Ioannidis, J. A., Thomas, G., & Daly, M. J. (2009). Validating, augmenting and refining genome-wide
association signals. Nature Reviews Genetics, 10, 318-329.
Jones, S. R., Carley, S., & Harrison, M. (2003). An introduction to power and sample size estimation.
Emergency Medecine Journal, 20, 453-458.
Kather, R., Drijfhout, F. P., & Martin, S. J. (2015a). Evidence for colony-specific differences in chemical
mimicry in the parasitic mite Varroa destructor. Chemoecology, 25, 215-222.
Kather, R., Drijfhout, F. P., Shemilt, S., & Martin, S. J. (2015b). Evidence for Passive Chemical Camouflage in
the Parasitic Mite Varroa destructor. Journal of Chemical Ecology, 41, 178-186.
Kersey, P., Allen, J. E., Allot, A., Barba, M., Boddu, S., Bolt, B. J., . . . Yates, A. (2018). Ensembl Genomes
2018: an integrated omics infractucture for non-vertebrate species. Nucleic Acids Research, 46(D1),
D802-8.
91
Kirrane, M., de Guzman, L., Holloway, B., Frake, A., Rinderer, T., & Whelan, P. (2015). Phenotypuc and
Genetic Analyses of the Varroa Sensitive Hygienic Trait in Russian Honey Bee (Hymenoptera:
Apidae) Colonies. PLoS ONE, 10(4).
Kloosterman, B., Oortwijn, M., uitdeQilligen, J., America, T., de Vos, R., Visser, R. G., & Bachem, C. W.
(2010). From QTL to candidate gene: Genetical genomics of simple and complex traits in potato
using a pooling strategy. BMC Genomics, 11, 158.
Korte, A., & Farlow, A. (2013). The Advantages and Limitations of Trait Analysis with GWAS: a review. Plant
Methods, 9, 29.
Lapidge, K. L., Oldroyd, B. P., & Spivak, M. (2002). Seven suggestive quantitative trait loci influence hygienic
behavior of honey bees. Naturwissenschaften, 89(12), 565-8.
Le Conte, Y., Ellis, M., & Ritter, W. (2010). Varroa mites and honey bee health: can Varroa explain part of the
colony losses? Apidologie, 41, 353-363.
Le Conte, Y., Ellis, M., & Ritter, W. (2010). Varroa mites and honey bee health: can Varroa explain part of the
colony losses? Apidologie, 41, 353-363.
Lewis, C. M. (2002). Genetic association studies: Design, analysis and interpretation. Briefings in
Bioinformatics, 3(2), 146-153.
Li, H., & Durbin, R. (2009). Fast and accurate short read alignment with Burrows-Wheeler Transform.
Bioinformativs, 25, 1754-60.
Li, H., Handsaker, B., Wysoker, A., Fennell, A., Ruan, J., Homer, N., . . . Durbin, R. (2009). The Sequence
Alignment/Mp format and SAMtools. Bioinformatics, 25(16), 2078-2079.
Lipka, A. E., Tian, F., Wang, Q., Peiffer, J., Li, M., Bradbury, P. J., . . . Zhang, Z. (2012). GAPIT: genome
association and prediction integrate tool. Bioinformatics, 28(18), 2397-2399.
Manolio, T. A., Collins, F. S., & ... (2009). Finding the missing heritability of complex diseases. Nature, 461,
747-753.
Martin, C., Salvy, M., Provost, E., Bagneres, A. G., Roux, M., Crauser, D., . . . Le Conte, Y. (2001). Variations
in chemical mimicry by the ectoparasitic mite Varroa jacobsoni according to the developmental stage
of the host honeybee Apis mellifera. Insect Biochemistry and Molecular Biology, 31, 365-379.
Martin, M. (2011). Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet
journal, 17(1), 10-12.
Martin, S. J. (1994). Ontogeny of the mite Varroa-jacobsoni oud. in worker brood of the honeybee Apis
mellifera under natural conditions. Experimental & Applied Acarology, 18, 87-100.
Martin, S. J. (1995). Ontogeny of the mite Varroa-jacobsoni oud. in drone brood of the honeybee Apis mellifera
under natural conditions. Experimental & Applied Acarology, 19, 199-210.
Martin, S. J., Highfield, A. C., Brettell, L., Villalobos, E. M., Budge, G. E., Powell, M., . . . Schroeder, D. C.
(2012). Global Honey Bee Viral Landscape Altered by a Parasitic Mite. Science, 336, 1304-1306.
Maul, V., Klepsch, A., & Assmanwerthmuller, U. (1988). The trapping comb technique as part of bee
management under strong infestation by Varroa-jacobsoni oud. Apidologie, 19, 139-154.
McCarthy, M. I., Abecasis, G. R., Cardon, L. R., Goldstein, D. B., Little, J., Ioannidis, J. P., & Hirschhorn, J. N.
(2008). Genome-wide association studies for complex traits: consensus, uncertainty and challenges.
Nature Reviews, 9, 356-369.
McCarthy, M. I., Abecasis, G. R., Cardon, L. R., Goldstein, D. B., Little, J., Ioannidis, J. P., & Hirschlorn, J. N.
(2008). Genome-wide association studies for complex traits: consensus, uncertainty and challenges.
Nat. Rev. Genet., 9(5), 356-69.
Metzker, M. L. (2010). Sequencing technologies - the next generation. Nat. Rev. Genet., 11(1), 31-46.
92
Mutinelli, F., Costa, C., Lodesani, M., Baggio, A., Medrzycki, P., Formato, G., & Porrini, C. (2010). Honey bee
colony losses in Italy. Journal of Apicultural Research, 49, 119-120.
Navajas, M., Anderson, D., de Guzman, L. I., Huang, Z. Y., Clement, J., Zhou, T., & Le Conte, Y. (2010). New
Asian types of Varroa destructor: a potential new threat for world apiculture. Apidologie, 41, 181-193.
Nazzi, F., & Le Conte, Y. (2016). Ecology of Varroa destructor the Major Ectoparasite of the Western Honey
Bee Apis mellifera. Annual Review of Entomology, 61, 417-432.
Nazzi, F., & Le Conte, Y. (2016). Ecology of Varroa destructor, the Major Ectoparasite of the Western Honey
Bee, Apis mellifera. Annual Review of Entomology, 61, 417-432.
Nazzi, F., & Le Conte, Y. (2016). Ecology of Varroa destructor, the Major Ectoparasite of the Western Honey
bee, Apis mellifera. Annu Rev Entomol., 61, 417-32.
Nazzi, F., Della Vedoya, G., & D'Agaro, M. (2004). A semiochimical from brood cells infested by Varroa
destructor triggers hygienic behaviour in Apis mellifera. Apidologie, 35, 65-70.
Neumann, P., & Carreck, N. L. (2010). Honey bee colony losses. Journal of Apicultural Research, 49, 1-6.
Ohashi, M., Okada, R., Kimura, T., & Ikeno, H. (2009). Observation system for the control of the hive
environment by the honeybee (Apis mellifera). Behavior Research Methods, 41(3), 782-786.
Oldroyd, B. P. (2007). What's killing American honey Bees? PLoS Biology, 5, 1195-1199.
Oxley, P. R., Spivak, M., & Oldroyd, B. P. (2010). Six quantitative trait loci influence task thresholds for
hygienic behaviour in honeybees (Apis mellifera). Mol. Ecol., 19(7), 1452-61.
P. R. Burton, e. a. (2007). Genome-wide association study of 14,000 cases of seven common diseases and
3,000 shared controls. Nature, 447(7145), 661-678.
Parejo, M., Wragg, D., Gauthier, L., Vignal, A., Neumann, P., & Neuditschko, M. (2016). Using Whole-Genome
Sequence Information to Foster Conservation Efforts for the European Dark Honey Bee, Apis
mellifera mellifera. Frontiers in Ecology and Evolution, 4(140).
Paschou, P., Drineas, P., Lewis, J., Nievergelt, C. M., Nickerson, D. A., Smith, J. D., . . . Ziv, E. (2008). Tracing
Sub-Structure in the European American Population with PCA-Informative Markers. PLOS Genetics,
4(7).
Patterson, N., Price, A. L., & Reich, D. (2006). Population structure and eigenanalysis. PLoS Genet., 2(12),
2074-2093.
Pearson, T. A., & Manolio, T. A. (2008). How to Interpret a Genome-wide Association Study. J. Americain
Medical Association, 299(11), 1335-1344.
Potts, S. G., Roberts, S. M., Dean, R., Marris, G., Brown, M. A., Jones, R., . . . Settele, J. (2010). Declines of
managed honey bees and beekeepers in Europe. Journal of Apicultural Research, 49, 15-22.
Price, A. L., Patterson, N. J., Plenge, R. M., Weinblatt, M. E., Shadick, N. A., & Reich, D. (2006). Principal
components analysis corrects for stratification in genome-wide association studies. Nature Genetics,
38, 904-909.
Price, A. L., Zaitlen, N. A., Reich, D., & Patterson, N. (2010). New approaches to population stratification in
genome-wide association studies. Nature Review Genetics, 11, 459-463.
Purcell, S., Neale, B., Todd-Brown, K., Thomas, L., Ferreira, M., Bender, D., . . . Sham, P. (2007). PLINK: a
toolset for whole-genome association and population-based linkage analysis. American Journal of
Human Genetics, 81.
Raberg, L., Graham, A., & Read, A. (2009). Decomposing health: Tolerance and resistance to parasites in
animals. Philosophical Transactions of the Royal Society B: Biological Sciences, 364, 37-49.
Rademacher, E., & Harz, M. (2006). Oxalic acid for the control of varroosis in honey bee colonies - a review.
Apidologie, 37, 98-120.
93
Rimmer, A., Phan, H., Mathieson, I., Iqbal, Z., Twigg, S. R., WGS500 Consortium, & Lunter, G. (2014).
Platypus: A Haplotype-Based Variant Caller For Next Generation Sequence Data. Nature Genetics.
Rinderer, T. E., Harris, J. W., Hunt, G. J., & de Guzman, L. I. (2010). Breeding for resistance to Varroa
destructor in North America. Apidologie, 41, 409-424.
Risch, N. (2001). Implications of multilocus inheritance for gene-disease association studies. Theor. Popul.
Biol., 60(3), 215-220.
Ritter, W. (1981). Varroa Disease of the Honeybee Apis mellifera. Bee World, 62(4), 141-151.
Rosenkranz, P. (1987). Temperature treatment of sealed worker brood as a method of controlling Varroatosis.
Apidologie, 18(4), 385-388.
Rosenkranz, P., Aumeier, P., & Ziegelmann, B. (2010). Biology and control of Varroa destructor. Journal of
invertebrate pathology(103), S96-S119.
Rothenbuhler, W. C. (1964). Behavior Genetics of Nest Cleaning in Honey Bees IV. Responses of F1 and
Backcross Generations to Disease-Killed Brood. Am. Zool., 4(2), 111-123.
Rousseau, A., Fournier, V., & Giovenazzo, P. (2015). Apis mellifera (Hymenoptera: Apidae) drone sperm
quality in relation to age, genetic line, and time of breeding. Can. Entomol., 147(6), 702-711.
Ruttner, F., & Marx, G. (1984). Beobachtungen uber eine mogliche anpassung von Varroa jacobsoni an Apis
mellifera in Uruguay. Apidologie, 15, 43-62.
Sanchez-Bravo, F., & Goka, K. (2014). Pesticide residues and bees - a risk assessment. PLoS ONE, 9.
Schneider, P., & Drescher, W. (1987). The influence of Varroa jacobsoni Oud. in weight; development on
weight and hypopharyngeal glands; and longevity of Apis mellifera L. Apidologie, 18, 101-110.
Schwarz, R. S., Huang, Q., & Evans, J. D. (2015). Hologenome theory and the honey bee pathosphere.
Current Opinion in Insect Science, 10, 1-7.
Seeley, T. (1982). Adaptative significance o fthe age polyethism schedule in honeybee colonies. Behavioral
Ecology and Sociobiology(11), 287-293.
Segura, V. (2016). Genome Wide Association Studies Using Mixed Models. Orléans: INRA, Réseau
Génétique EFPA.
Segura, V., Vilhlalmsson, B. J., Platt, A., Korte, A., Seren, Ü., Long, Q., & Nordborg, M. (2012). An efficient
multi-locus mixed-model approach for genome-wide association studies in structured populations.
Technical Report, 44, 825-830.
Shen, M. Q., Yang, X. L., Cox-Foster, D., & Cui, L. W. (2005). The role of Varroa mites in infections of Kashmir
bee virus (KBV) and deformed wing virus (DWV) in honey bees. Virology, 342, 141-149.
Spivak, M., & Gilliam, M. (1998a). Hygienic behaviour of honey bees and its application for control of brood
diseases and varroa Part I. Hygienic behaviour and resistance to American foulbrood. Bee World, 79,
124-134.
Spivak, M., & Gilliam, M. (1998b). Hygienic behaviour of honey bees and its application for control of brood
diseases and varroa - Part II. Studies on hygienic behaviour since the Rothenbuhler era. Bee World,
79, 169-186.
Spötter, A., Gupta, P., Nürnberg, G., Reinsch, N., & Bienefeld, K. (2012). Development of a 44K SNP assay
focussing on the analysis of a varroa-specific defence behaviour in honey bees (Apis mellifera
carnica). Mol. Ecol. Resour., 12(2), 323-32.
Spötter, Gupta, Mayer, Reinsch, & Bienefeld. (2016). Genome-wide association study of a varroa-specific
defense behavior in honeybees (Apis mellifera). J. Hered., 107(3), 220-7.
Storey, J. D. (2002). A direct approach to false discovery rates. J. R. Statist. Soc. B, 64(3), 479-498.
94
Storey, J. D., & Tibshirani, R. (2003). Statistical significance for genome-wide experiments. Proceedings of the
National Academy of Sciences, 100, 9440-9445.
Swanson, J. A., Torto, B., Kells, S. A., Mesce, K. A., Tumlinson, J. H., & Spivak, M. (2009). Odorants that
Induce Hygienic Behavior in Honeybees: Identification of Volatile Compounds in Chalkbrood-Infected
Honeybee Larvae. Journal of Chemical Ecology, 35, 1108-1116.
Syromyatnikob, M. Y., Borodachev, A. V., Kokina, A. V., & Popov, V. N. (2018). A Molecular Method for the
Identification of Honey Bee Subspecies Used by Beekeepers in Russia. Insects, 9(10).
Tang, Y., Liu, X., Wang, J., Li, M., Wang, Q., Tian, F., . . . Zhang, Z. (2016). GAPIT Version 2: An Enhanced
Integrated Tool for Genomic Association and Prediction. The Plant Genome, 9(2).
Tarpy, D. R., & Page, R. E. (2000). No behavioral control over mating frequency in queen honey bees (Apis
mellifera L.): Implications for the evolution of extreme polyandry. American Naturalist, 155(6), 820-
827.
Tattini, L., D'Aurizio, R., & Magi, A. (2015). Detection of Genomic Structural Variants from Next-Generation
Sequencing Data. Font. Bioeng. Biotechnol., 3, 92.
The Honeybee Genome Sequencing Consortium. (2006). Insights into social insects from the genome of the
honeybee Apis mellifera. Nature, 443, 931-949.
Thompson, S. D., Prahalad, S., & Colbert, R. A. (2016). Chapter 5 - Integrative Genomics. Dans Textbook of
Pediatric Rheumatology (pp. 43-53). Philadelphia: Elsevier Inc.
Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso. Journ. of the Royal Stat. Society.
Series B, 58(1), 267-288.
Torkamaneh, D., Laroche, J., Bastien, M., Abed, A., & Belzile, F. (2017). Fast-GBS: a new pipeline for the
efficient and highly accurate calling of SNPs from genotyping-by-sequencing data. BMC
Bioinformatics, 18(5).
Tsuruda, Harris, Bourgeois, Danka, & Hunt. (2012). High-Resolution Linkage Analyses to Identify Genes that
influence Varroa Sensititve Hygiene Behavior in Hobey Bees. PLoS ONE, 7(11).
van der Zee, R. L., Pisa, S., Andonov, R., Brodschneider, J. D., Charriere, R., Chlebo, M. F., . . . Wilkins.
(2012). Managed honey bee solony losses in Canada, China, Europe, Israel and Turkey, for the
winters of 2008-9 and 2009-10. Journal of Apicultural Research, 51, 91-114.
Van Valen, L. (1973). A New Evolutionary Law. Evol. Theory, 1, 1-30.
vanEngelsdorp, D., Hayes, J. J., Underwood, R. M., & Pettis, J. (2008). A survey of honey bee colony losses in
the U.S., fall 2007 to spring 2008. PLoS ONE, 3.
vanEngelsdorp, D., Underwood, R. M., & Cox-Foster, D. L. (2007). An estimate of managed colony losses in
the winter 0f 2006-2007: A report comissioned by the apiary inspectors of America. American Bee
Journal, 147, 599-603.
Vejsnaes, F., Nielsen, S. L., & Kryger, P. (2010). Factors involved in the recent increase in colony losses in
Denmark. Journal of Apicultural Research, 49, 109-110.
Vilhjalmsson, B. J., & Nordborg, M. (2013). The nature of confounding in genome-wide association studies.
Nature Reviews Genetics, 14.
Villa, J. D., Danka, R. G., & Harris, J. W. (2009). Simplified methods of evaluating colonies for levels of varroa
sensitive hygiene (VSH). Journal of Apicultural Research and Bee World, 48(3), 162-167.
Villa, J. D., Danka, R. G., & Harris, J. W. (2009). Simplified methods of evaluating colonies for levels of Varroa
Sensitive Hygiene (VSH). Journal of Apicultural Research and Bee World, 48(3), 162-167.
Villa, J. D., Danka, R. G., & Harris, J. W. (2009). Simplified methods of evaluating colonies for levels of Varroa
Sensitive Hygiene (VSH). Journal of Apicultural Research, 48, 162-167.
95
Visscher, P. M. (2008). Sizing up human height variation. Nat. Genet., 40(5), 489-90.
Wallberg, A., Han, F., Wellhagen, G., Dahle, B., Kawata, M., Haddad, N., . . . Webster, M. T. (2014). A
worldwide survey of genome sequence variation provides insight into the evolutionary history of the
honeybee Apis mellifera. Nature Genetics(46), 1081-1088.
Wang, D., Eskridge, K., & Crossa, J. (2011). Identifying QTLs and epistasis in structured plant populations
using adaptive mixed LASSO. J. Agric. Biol. Environ. Stat., 16, 170-184.
Wang, M. H., Cordell, H. J., & Steen, K. V. (2018). Statistical methods for genome-wide association studies.
Seminars in Cancer Biology.
Webster, T. C., & Delaplane, K. S. (2001). Mites of the Honey Bee. Hamiltron, Illinois: Dadant and Sons, Inc.
Whitfield, C. W., Behura, S. K., Berlocher, S. H., Clark, A. G., Johnston, J. S., Sheppard, W. S., . . . Tsutsui, N.
D. (2006). Thrice Out of Africa: Ancient and Recent Expansions of the Honey Bee, Apis mellifera.
Science, 314, 642-645.
Wilfert, L., Gadau, J., & Schmid-Hempel, P. (2007). Variation in genomic recombination rates among animal
taxa and the case of social insects. Heredity, 98, 189-197.
Witte, J. S. (2010). Genome-Wide Association Studies and Beyond. Annu. Rev. Public Health, 31, 9-20.
Wittke-Thompson, J. K., Pluzhnikov, A., & Cox, N. J. (2005). Rational inferences about departures from Hardy-
Weinberg equilibrium. Am. J. Hum. Genet., 76(6), 967-986.
Wragg, D., Marti-Marimon, M., Basso, B., Bidanel, J.-P., Labarthe, E., Bouchez, O., . . . Vignal, A. (2016).
Whole-genome resequencing of honeybee drones to detect genomic selection in a population
managed for royal jelly. Scientific Reports, 6.
Xiao, Y., Liu, H., Wu, L., Warburton, M., & Yan, J. (2017). Genome-wide Association Studies in Maize: Praise
and Stargaze. Molecular Plant, 10, 359-374.
Yang, J., Benyamin, B., McEvoy, B. P., Gordon, S., Henders, A. K., Nyholt, D. R., . . . Visscher, P. M. (2010).
Common SNPs explain a large proportion of the heritability for human height. Nature Genetics, 42(7).
Yang, J., Zaitlen, N. A., Goddard, M. E., Visscher, P. M., & Price, A. L. (2014). Advantages and pitfalls in the
application of mixed-model association methods. Nature Genetics, 46, 100-106.
Yang, X., & Cox-Foster, D. (2007). Effects of parasitization by Varroa destructor on survivorship and
physiological traits of Apis mellifera in correlation with viral incidence and microbial challenge.
Parasitology, 134, 405-412.
Yu, J., Pressoir, G., Briggs, W. H., Bi, I. V., Yamasaki, M., Doebley, J. F., . . . Buckler, E. (2006). A unified
mixed-model method for association mapping that accounts for multiple levels of relatedness. Nature
Genetics, 38, 203-208.
Zeng, P., Zhao, Y., Qian, C., Zhang, L., Zhang, R., Gou, J., . . . Chen, F. (2015). Statistical analysis for
genome-wide association study. J. Biomed. Res., 29(4), 285-297.
Zhang, Z., Ersoz, E., Lai, C.-Q., Todhunter, R. J., Tiwari, H. K., Gore, M. A., . . . Buckler, E. (2010). Mixed
linear model approach adapted for genome-wide association studies. Nature Genetics, 42, 355-360.
Zhang, Z., Ersoz, E., Lai, C.-Q., Todhunter, R. J., Tiwari, H. K., Gore, M. A., . . . Buckler, E. (2010). Mixed
linear model approach adapted for genome-wide association studies. Nature Genetics , 42, 355-360.
Zondervan, K. T., & Cardon, L. R. (2004). The complex interplay among factors that influence allelic
association. Nature Rev. Genet., 5, 238-238.
96
Annexe A : Phénotypes des colonies
échantillonnées
Figure 1A. Distribution du phénotype dans l’échantillon final de colonies (N = 35) utilisées dans les
tests d’association
97
Figure 2A. Niveau SMR de chacune des colonies (N = 35) incluse dans les tests d’association
98
Annexe B : Relations entre les individus
Figure 3A. Relations de parenté entre les colonies (N = 35) obtenues par la matrice de parenté représentée dans une heatmap
99
Tableau IB. Relation de parenté entre les colonies par le test IBS avec TASSEL. Les individus seront considérés comme apparentés si IBS > 0.1875.
Échantillon CRSAD10 CRSAD15 CRSAD17 CRSAD25 CRSAD26 CRSAD27 CRSAD28 CRSAD29 CRSAD3 CRSAD35 CRSAD38 CRSAD40 CRSAD6 CRSAD7 JL1 JL10 JL14
CRSAD10 0.93 -0.03 -0.03 0.01 -0.07 -0.03 0.03 -0.02 -0.04 -0.04 0.21 -0.01 0.01 0.01 -0.05 -0.06 -0.03
CRSAD15 -0.03 0.68 -0.03 -0.01 0.02 0.01 0.02 -0.03 -0.04 -0.01 0.00 0.06 0.02 -0.02 -0.02 -0.03 0.00
CRSAD17 -0.03 -0.03 1.24 0.01 -0.02 0.00 0.07 0.26 0.03 -0.03 -0.05 0.00 0.00 0.15 -0.05 -0.10 -0.07
CRSAD25 0.01 -0.01 0.01 0.72 -0.03 0.02 0.00 0.00 0.03 0.02 0.02 0.00 0.00 -0.01 -0.05 -0.06 -0.05
CRSAD26 -0.07 0.02 -0.02 -0.03 1.07 0.10 0.01 -0.03 -0.03 -0.03 -0.06 0.00 0.02 -0.05 -0.04 -0.03 -0.04
CRSAD27 -0.03 0.01 0.00 0.02 0.10 0.68 0.01 -0.05 0.01 0.00 -0.05 0.01 0.00 -0.04 -0.04 -0.03 -0.04
CRSAD28 0.03 0.02 0.07 0.00 0.01 0.01 0.63 0.15 -0.02 -0.04 0.08 0.07 0.04 0.06 -0.05 -0.06 -0.05
CRSAD29 -0.02 -0.03 0.26 0.00 -0.03 -0.05 0.15 1.21 -0.03 -0.02 -0.05 -0.03 -0.03 0.30 -0.09 -0.08 -0.08
CRSAD3 -0.04 -0.04 0.03 0.03 -0.03 0.01 -0.02 -0.03 0.98 0.00 -0.06 -0.04 -0.03 -0.02 -0.05 -0.05 -0.05
CRSAD35 -0.04 -0.01 -0.03 0.02 -0.03 0.00 -0.04 -0.02 0.00 0.93 -0.07 -0.07 -0.05 -0.05 -0.04 -0.02 -0.01
CRSAD38 0.21 0.00 -0.05 0.02 -0.06 -0.05 0.08 -0.05 -0.06 -0.07 1.22 0.15 0.15 -0.02 -0.10 -0.11 -0.06
CRSAD40 -0.01 0.06 0.00 0.00 0.00 0.01 0.07 -0.03 -0.04 -0.07 0.15 1.08 0.12 0.00 -0.05 -0.09 -0.04
CRSAD6 0.01 0.02 0.00 0.00 0.02 0.00 0.04 -0.03 -0.03 -0.05 0.15 0.12 1.08 0.00 -0.07 -0.05 -0.06
CRSAD7 0.01 -0.02 0.15 -0.01 -0.05 -0.04 0.06 0.30 -0.02 -0.05 -0.02 0.00 0.00 1.07 -0.07 -0.06 -0.07
JL1 -0.05 -0.02 -0.05 -0.05 -0.04 -0.04 -0.05 -0.09 -0.05 -0.04 -0.10 -0.05 -0.07 -0.07 0.80 -0.01 0.02
JL10 -0.06 -0.03 -0.10 -0.06 -0.03 -0.03 -0.06 -0.08 -0.05 -0.02 -0.11 -0.09 -0.05 -0.06 -0.01 0.93 -0.03
JL14 -0.03 0.00 -0.07 -0.05 -0.04 -0.04 -0.05 -0.08 -0.05 -0.01 -0.06 -0.04 -0.06 -0.07 0.02 -0.03 0.87
JL17 -0.06 -0.02 -0.11 -0.03 -0.05 -0.03 -0.02 -0.06 -0.04 -0.04 -0.09 -0.06 -0.07 -0.07 0.01 -0.03 0.00
JL19 -0.04 -0.05 -0.07 -0.04 -0.04 -0.03 -0.05 -0.11 -0.05 -0.04 -0.08 -0.09 -0.08 -0.08 -0.02 -0.01 -0.02
JL21 -0.07 -0.03 -0.06 -0.05 -0.05 -0.04 -0.06 -0.09 -0.07 -0.05 -0.09 -0.06 -0.07 -0.09 0.00 -0.03 0.00
JL4 -0.03 -0.02 -0.05 -0.05 -0.05 -0.04 -0.06 -0.08 -0.03 -0.03 -0.06 -0.06 -0.06 -0.06 0.01 -0.02 0.01
JL5 -0.05 -0.04 -0.13 -0.07 -0.05 -0.04 -0.08 -0.13 -0.06 -0.07 -0.10 -0.09 -0.09 -0.07 -0.01 0.51 0.00
JL6 -0.02 -0.04 -0.06 -0.05 -0.06 -0.04 -0.05 -0.11 -0.05 -0.02 -0.09 -0.07 -0.07 -0.10 0.14 -0.03 -0.01
JL9 -0.06 -0.03 -0.07 -0.02 -0.04 -0.04 -0.05 -0.07 -0.06 -0.07 -0.07 -0.06 -0.05 -0.04 -0.01 -0.03 -0.01
MM15 -0.03 -0.03 -0.04 -0.02 -0.03 0.00 -0.04 -0.04 -0.01 0.01 -0.06 -0.07 -0.03 -0.06 -0.01 -0.02 -0.01
MM16 -0.06 -0.01 -0.08 -0.05 -0.02 -0.05 -0.06 -0.07 -0.02 -0.03 -0.09 -0.04 -0.07 -0.07 -0.01 -0.01 0.00
MM18 -0.07 -0.02 -0.10 -0.04 -0.03 -0.02 -0.07 -0.08 -0.04 -0.03 -0.11 -0.10 -0.05 -0.07 -0.01 -0.02 -0.02
MM19 -0.05 -0.05 -0.07 -0.06 -0.04 -0.02 -0.06 -0.09 0.00 0.02 -0.03 -0.09 -0.07 -0.07 -0.04 -0.06 -0.02
MM2 -0.03 -0.05 -0.09 -0.03 -0.06 -0.03 -0.05 -0.06 -0.02 -0.01 -0.02 -0.07 -0.06 -0.06 -0.03 -0.06 -0.03
MM20 -0.03 -0.04 -0.07 -0.03 -0.08 -0.04 -0.06 -0.06 -0.01 0.00 -0.03 -0.07 -0.09 -0.07 0.05 -0.05 -0.01
MM21 -0.04 -0.03 -0.10 -0.05 -0.06 -0.04 -0.05 -0.05 -0.06 -0.04 -0.06 -0.05 -0.07 -0.06 -0.02 -0.02 -0.02
MM5 -0.05 -0.05 -0.06 0.01 -0.05 -0.02 -0.06 -0.07 -0.03 0.00 -0.05 -0.04 -0.07 -0.06 -0.01 -0.04 -0.03
MM6 -0.06 -0.01 -0.10 -0.04 -0.03 -0.04 -0.07 -0.09 -0.04 -0.03 -0.11 -0.08 -0.06 -0.07 -0.03 -0.06 -0.02
MM9 -0.05 -0.04 -0.08 -0.02 -0.06 -0.04 -0.05 -0.09 0.02 -0.03 -0.05 -0.06 -0.08 -0.08 -0.03 -0.07 -0.03
100
Tableau IB (suite). Relation de parenté entre les colonies par le test IBS avec TASSEL
Échantillon JL17 JL19 JL21 JL4 JL5 JL6 JL9 MM15 MM16 MM18 MM19 MM2 MM20 MM21 MM5 MM6 MM9
CRSAD10 -0.06 -0.04 -0.07 -0.03 -0.05 -0.02 -0.06 -0.03 -0.06 -0.07 -0.05 -0.03 -0.03 -0.04 -0.05 -0.06 -0.05
CRSAD15 -0.02 -0.05 -0.03 -0.02 -0.04 -0.04 -0.03 -0.03 -0.01 -0.02 -0.05 -0.05 -0.04 -0.03 -0.05 -0.01 -0.04
CRSAD17 -0.11 -0.07 -0.06 -0.05 -0.13 -0.06 -0.07 -0.04 -0.08 -0.10 -0.07 -0.09 -0.07 -0.10 -0.06 -0.10 -0.08
CRSAD25 -0.03 -0.04 -0.05 -0.05 -0.07 -0.05 -0.02 -0.02 -0.05 -0.04 -0.06 -0.03 -0.03 -0.05 0.01 -0.04 -0.02
CRSAD26 -0.05 -0.04 -0.05 -0.05 -0.05 -0.06 -0.04 -0.03 -0.02 -0.03 -0.04 -0.06 -0.08 -0.06 -0.05 -0.03 -0.06
CRSAD27 -0.03 -0.03 -0.04 -0.04 -0.04 -0.04 -0.04 0.00 -0.05 -0.02 -0.02 -0.03 -0.04 -0.04 -0.02 -0.04 -0.04
CRSAD28 -0.02 -0.05 -0.06 -0.06 -0.08 -0.05 -0.05 -0.04 -0.06 -0.07 -0.06 -0.05 -0.06 -0.05 -0.06 -0.07 -0.05
CRSAD29 -0.06 -0.11 -0.09 -0.08 -0.13 -0.11 -0.07 -0.04 -0.07 -0.08 -0.09 -0.06 -0.06 -0.05 -0.07 -0.09 -0.09
CRSAD3 -0.04 -0.05 -0.07 -0.03 -0.06 -0.05 -0.06 -0.01 -0.02 -0.04 0.00 -0.02 -0.01 -0.06 -0.03 -0.04 0.02
CRSAD35 -0.04 -0.04 -0.05 -0.03 -0.07 -0.02 -0.07 0.01 -0.03 -0.03 0.02 -0.01 0.00 -0.04 0.00 -0.03 -0.03
CRSAD38 -0.09 -0.08 -0.09 -0.06 -0.10 -0.09 -0.07 -0.06 -0.09 -0.11 -0.03 -0.02 -0.03 -0.06 -0.05 -0.11 -0.05
CRSAD40 -0.06 -0.09 -0.06 -0.06 -0.09 -0.07 -0.06 -0.07 -0.04 -0.10 -0.09 -0.07 -0.07 -0.05 -0.04 -0.08 -0.06
CRSAD6 -0.07 -0.08 -0.07 -0.06 -0.09 -0.07 -0.05 -0.03 -0.07 -0.05 -0.07 -0.06 -0.09 -0.07 -0.07 -0.06 -0.08
CRSAD7 -0.07 -0.08 -0.09 -0.06 -0.07 -0.10 -0.04 -0.06 -0.07 -0.07 -0.07 -0.06 -0.07 -0.06 -0.06 -0.07 -0.08
JL1 0.01 -0.02 0.00 0.01 -0.01 0.14 -0.01 -0.01 -0.01 -0.01 -0.04 -0.03 0.05 -0.02 -0.01 -0.03 -0.03
JL10 -0.03 -0.01 -0.03 -0.02 0.51 -0.03 -0.03 -0.02 -0.01 -0.02 -0.06 -0.06 -0.05 -0.02 -0.04 -0.06 -0.07
JL14 0.00 -0.02 0.00 0.01 0.00 -0.01 -0.01 -0.01 0.00 -0.02 -0.02 -0.03 -0.01 -0.02 -0.03 -0.02 -0.03
JL17 0.86 0.01 0.07 0.00 -0.05 -0.01 -0.01 -0.03 -0.01 0.01 -0.03 -0.04 -0.03 0.04 -0.03 0.02 -0.03
JL19 0.01 1.10 0.06 0.04 0.01 0.01 0.10 -0.03 -0.01 -0.05 -0.06 0.00 -0.05 -0.02 -0.07 -0.06 -0.05
JL21 0.07 0.06 1.09 -0.01 -0.04 -0.03 0.00 -0.04 -0.03 -0.01 -0.02 -0.02 -0.06 0.05 -0.04 -0.01 -0.05
JL4 0.00 0.04 -0.01 0.94 -0.02 -0.02 0.00 -0.01 -0.01 -0.04 -0.03 -0.03 -0.04 0.01 -0.02 -0.02 -0.04
JL5 -0.05 0.01 -0.04 -0.02 1.21 -0.03 -0.01 -0.04 -0.01 -0.04 -0.05 -0.06 -0.06 -0.04 -0.05 -0.07 -0.07
JL6 -0.01 0.01 -0.03 -0.02 -0.03 1.09 0.01 -0.04 -0.01 -0.01 -0.06 -0.03 -0.03 -0.02 -0.03 0.00 -0.05
JL9 -0.01 0.10 0.00 0.00 -0.01 0.01 1.09 -0.05 -0.03 -0.02 -0.06 -0.06 -0.04 -0.02 -0.02 -0.04 -0.06
MM15 -0.03 -0.03 -0.04 -0.01 -0.04 -0.04 -0.05 0.58 -0.02 -0.01 0.06 0.08 0.01 0.00 0.01 -0.01 0.02
MM16 -0.01 -0.01 -0.03 -0.01 -0.01 -0.01 -0.03 -0.02 0.98 0.02 -0.05 -0.03 -0.02 0.02 -0.02 -0.01 -0.02
MM18 0.01 -0.05 -0.01 -0.04 -0.04 -0.01 -0.02 -0.01 0.02 0.99 -0.07 -0.04 -0.04 -0.02 -0.06 0.34 -0.07
MM19 -0.03 -0.06 -0.02 -0.03 -0.05 -0.06 -0.06 0.06 -0.05 -0.07 1.06 0.06 0.02 -0.01 0.03 -0.04 0.03
MM2 -0.04 0.00 -0.02 -0.03 -0.06 -0.03 -0.06 0.08 -0.03 -0.04 0.06 0.93 0.02 -0.04 0.02 -0.05 0.06
MM20 -0.03 -0.05 -0.06 -0.04 -0.06 -0.03 -0.04 0.01 -0.02 -0.04 0.02 0.02 0.92 -0.05 0.02 -0.04 0.16
MM21 0.04 -0.02 0.05 0.01 -0.04 -0.02 -0.02 0.00 0.02 -0.02 -0.01 -0.04 -0.05 0.97 -0.05 0.00 -0.01
MM5 -0.03 -0.07 -0.04 -0.02 -0.05 -0.03 -0.02 0.01 -0.02 -0.06 0.03 0.02 0.02 -0.05 0.99 -0.03 0.03
MM6 0.02 -0.06 -0.01 -0.02 -0.07 0.00 -0.04 -0.01 -0.01 0.34 -0.04 -0.05 -0.04 0.00 -0.03 1.03 -0.06
MM9 -0.03 -0.05 -0.05 -0.04 -0.07 -0.05 -0.06 0.02 -0.02 -0.07 0.03 0.06 0.16 -0.01 0.03 -0.06 1.06
101
Annexe C : Correction des valeurs p
Ci-dessous sont présentées les méthodes de calculs et les résultats abrégés des différentes méthodes de correction des valeurs p pour les tests multiples.
Méthode Bonferroni :
(0.05/[n_pheno*n_snps]) = (0.05/1*7810) = 6.4E-6
où « n_pheno » est le nombre de phénotypes inclus dans l’analyse et « n_snps » indique le nombre de
marqueurs SNPs dans l’analyse. En somme, la méthode Bonferroni détermine le seuil de signification à 6.4E-
6 pour notre jeu de données.
Pour les autres méthodes de correction des valeurs p obtenues, les résultats seront présentés en partie seulement, à cause de la taille démesurée des tableaux complets. Chaque test est présenté avec différents outils ou modèle statistique de régression, sans montrer les résultats pour chacune de ces différentes combinaisons puisque ceux-ci n’apportent pas d’information utile ou nouvelle, en plus de prendre beaucoup d’espace.
102
Tableau IC. Résultats de la méthode Benjamini-Hochberg avec les valeurs p (MLM K, GenABEL). La
valeur obtenue dans la colonne (i*q/m) doit être plus grande que la valeur p pour que cette dernière soit
considérée significative (que l’hypothèse nulle Ho puisse être rejetée).
Outil Rang Valeur p (i*q/m) Rejeter Ho
GenABEL
1 0.000407 1.02E-04 FAUX
2 0.000648 2.05E-04 FAUX
3 0.000649 3.07E-04 FAUX
4 0.000675 4.10E-04 FAUX
5 0.001249 5.12E-04 FAUX
6 0.001435 6.15E-04 FAUX
7 0.001619 7.17E-04 FAUX
8 0.001621 8.19E-04 FAUX
9 0.002353 9.22E-04 FAUX
10 0.002357 1.02E-03 FAUX
TASSEL
1 0.005935 1.92E-04 FAUX
2 0.006268 3.84E-04 FAUX
3 0.006978 5.76E-04 FAUX
4 0.008539 7.68E-04 FAUX
5 0.009216 9.60E-04 FAUX
6 0.010374 1.15E-03 FAUX
7 0.010866 1.34E-03 FAUX
8 0.010928 1.54E-03 FAUX
9 0.011633 1.73E-03 FAUX
10 0.012122 1.92E-03 FAUX
Légende : i : Rang de la valeur p q : FDR déterminé (0.8) m : Nombre des tests statistiques (équivalent au nombre de marqueurs; 7810) Rejeter Ho : Indique si on peut rejeter (VRAI) ou non (FAUX) l’hypothèse nulle
103
Tableau IIC. Premiers 20 résultats des valeurs p (MLM K+PCA, GenABEL) corrigées avec la librairie
qvalue*. La valeur q est la valeur p corrigée par la méthode FDR.
Rang Valeur p Valeur q
1 0.000255 0.817269
2 0.000298 0.817269
3 0.000454 0.817269
4 0.000672 0.817269
5 0.000682 0.817269
6 0.00116 0.817269
7 0.001194 0.817269
8 0.001217 0.817269
9 0.00142 0.817269
10 0.001501 0.817269
11 0.001747 0.817269
12 0.001929 0.817269
13 0.002024 0.817269
14 0.002603 0.817269
15 0.002622 0.817269
16 0.002708 0.817269
17 0.002796 0.817269
18 0.00306 0.817269
19 0.003075 0.817269
20 0.00369 0.817269
* Les valeurs des autres outils et méthodes sont présentées dans le document principal.
104
Tableau IIIC. Premiers résultats des valeurs p corrigées avec la librairie p.adjust. La correction FDR est
la nouvelle valeur p ajustée par la méthode FDR pour déterminer sa significativité.
Outil
MLM avec cofacteur matrice de parenté génétique (K)
MLM avec cofacteur K et PCA
Rang Valeur p correction
FDR Rang Valeur p
correction FDR
GenABEL
1 0.000407 0.894 1 0.000255 0.865
2 0.000648 0.894 2 0.000298 0.865
3 0.000649 0.894 3 0.000454 0.865
4 0.000675 0.894 4 0.000672 0.865
5 0.001248 0.894 5 0.000682 0.865
TASSEL
1 0.00593 0.966 1 0.001709 0.995
2 0.00626 0.966 2 0.001866 0.995
3 0.00697 0.966 3 0.001913 0.995
4 0.00853 0.966 4 0.002284 0.995
5 0.00921 0.966 5 0.00418 0.995
105
Annexe D : Caractéristiques du jeu de marqueurs
La densité des marqueurs est un facteur important dans les études GWAS. Elle permet entre autres d’établir
le LD entre les marqueurs. Les marqueurs doivent être suffisamment près les uns des autres (avoir une
densité suffisante) pour que l’ensemble du génome soit couvert par les marqueurs et les régions avec les
quelles ils sont en LD. Une densité insuffisante de marqueurs implique une perte d’information du génome
dans les tests d’association (Lipka, et al., 2012). La figure 1D montre la densité des marqueurs dans l’étude.
Elle montre que notre jeu de données était composé d’une grande densité de marqueurs.
Figure 1D. Distribution de la densité des marqueurs (SNPs) dans le jeu de données de l’étude. La ligne
rouge indique la fréquence cumulée des marqueurs pour l’ensemble des densités.
106
Figure 2D. Graphique du LD entre les marqueurs. Chaque point représente une paire de distance entre
deux marqueurs et leur coefficient de corrélation au carré. La ligne rouge désigne la moyenne du déplacement
des dix marqueurs adjacents (Lipka, et al., 2012).
107
Figure 3D. Histogrammes de la fréquence de l’hétérozygoties chez les individus et pour les marqueurs
L’hétérozygotie observée dans les données génomiques était beaucoup plus grande que ce qui était attendu
au niveau des individus. Des filtrations strictes ont permis de rendre le niveau d’hétérozygotie des marqueurs
et des individus inclus dans l’analyse acceptable.
108
Figure 4D. Variance des composantes principales issues de la PCA. La première PC explique la plus
grande variance possible, puis chaque PC suivante explique la plus grande variance restante possible.