Étude d'association pangénomique du trait smr 'suppressed ...Étude d’association...

Étude d’association pangénomique du trait SMR « Suppressed Mite Reproduction » dans des colonies

d’Apis mellifera au Québec

Mémoire

Laurence Auger

Maîtrise en biologie

Maître ès sciences (M. Sc.)

Sous la direction de :

Nicolas Derome, directeur de recherche

Pierre Giovenazzo, codirecteur de recherche

ii

Résumé

La littérature s’accorde généralement pour désigner l’ectoparasite Varroa destructor comme la plus

importante menace pour l’Abeille mellifère (Apis mellifera). Actuellement, la varroase est contrôlée

principalement par l’utilisation de traitements acaricides qui présentent un risque de contamination

des produits de la ruche et de l’environnement. Dans certaines colonies d’A. mellifera, on observe un

comportement hygiénique qui réduit l’infestation des varroas, le VSH Varroa Sensitive Hygiene, et

qui est associé à une baisse de la reproduction des varroas dans le couvain d’abeilles, le Supressed

Mite Reproduction (SMR). L’identification de l’architecture génomique qui régule cette résistance aux

varroas permettrait d’assister à l’accélération de son évolution dans l’ensemble des populations

d’abeilles domestiques et à réduire les dommages causés par le parasite. Ce projet de maîtrise visait

à mettre en lumière la relation entre le génome et ce phénotype quantitatif de résistance par une

étude d’association pangénomique sur un échantillon de colonies d’A. mellifera du Québec provenant

de cinq sites différents. Une technologie de génotypage par séquençage (GBS) a été utilisée pour

identifier à l’échelle du génome entier des milliers de marqueurs à partir de polymorphismes

nucléotidiques singletons (SNPs). Puis, l’association des marqueurs avec le phénotype SMR a été

testée avec des modèles statistiques : le modèle linéaire mixte (MLM) et le modèle linéaire mixte

multi-locus (MLMM) par des outils bio-informatiques. Ce projet se joint à d’autres tentatives de

produire des outils de sélection plus efficaces pour les apiculteurs afin de lutter contre la varroase.

iii

Abstract

The literature generally agrees that ectoparasite Varroa destructor is the most important threat to the

honey bee (Apis mellifera). Currently, varroa is controlled primarily by acaricide treatments that

present a risk of contamination of hive products and the environment. In some colonies of A. mellifera

is a hygienic behavior that reduces varroa mite infestation, VSH "Varroa Sensitive Hygiene", and is

associated with a decrease in the reproduction of varroa mites in bee brood, "Supressed Mite

Reproduction" (SMR). Identifying the genomic architecture that regulates this resistance to varroa

mites would help to accelerate its evolution in all honeybee populations and reduce the damage

caused by the parasite. This master’s project aimed to shed light on the relationship between the

genome and this quantitative resistance phenotype by a genome-wide association study on a sample

of A. mellifera colonies taken from five different sites across Quebec. Genotyping sequencing (GBS)

technology has been used to identify thousands of markers on the whole genome scale from single

nucleotide polymorphisms (SNPs). Then the association of the markers with the SMR phenotype was

tested with statistical models: the mixed linear model (MLM) and the mixed linear multi-locus model

(MLMM) with bioinformatic tools. This project joins other attempts to produce more effective breeding

tools for beekeepers to control varroosis.

iv

Table des matières

Résumé ............................................................................................................................................................... ii

Abstract ............................................................................................................................................................... iii

Table des matières ............................................................................................................................................. iv

Liste des figures .................................................................................................................................................. vi

Liste des tableaux .............................................................................................................................................. vii

Liste des abréviations, sigles, acronymes ........................................................................................................ viii

Remerciements .................................................................................................................................................... x

Introduction générale .......................................................................................................................................... 1

Chapitre 1 : Revue de littérature ......................................................................................................................... 2

1.1 Apis mellifera ............................................................................................................................................ 2

1.1.1 Classifications et origines .................................................................................................................. 2

1.1.2 Biologie ............................................................................................................................................. 4

1.1.3 Génétique d’Apis mellifera ................................................................................................................ 7

1.1.4 Mortalité des abeilles ........................................................................................................................ 8

1.2 Varroa destructor ...................................................................................................................................... 9

1.2.1 Biologie ............................................................................................................................................. 9

1.2.2 Varroase .......................................................................................................................................... 13

1.2.3 Contrôle actuel du Varroa ............................................................................................................... 13

1.3 Résistance à V. destructor chez Apis mellifera ...................................................................................... 15

1.3.1 Trait SMR ........................................................................................................................................ 15

1.3.2 Comportement VSH ........................................................................................................................ 15

1.3.3 Trait quantitatif ................................................................................................................................ 17

1.3.4 Études génomiques de la résistance aux varroas ........................................................................... 19

1.4 Les études d’association pangénomiques .............................................................................................. 22

1.4.1 Comment fonctionne une étude d’association? .............................................................................. 22

1.4.2 Étapes d’une étude d’association.................................................................................................... 25

1.5 Buts et hypothèses du projet .................................................................................................................. 45

Chapitre 2 : Étude d’association pangénomique du trait SMR dans des colonies d’A. mellifera au Québec .... 46

2.1 Méthodologie .......................................................................................................................................... 46

2.1.1 Échantillonnage ............................................................................................................................... 46

2.1.2 Évaluation du phénotype ................................................................................................................. 47

v

2.1.3 Évaluation du génotype ................................................................................................................... 49

2.1.4 Association ...................................................................................................................................... 50

2.2 Résultats ................................................................................................................................................ 50

2.2.1 Phénotype ....................................................................................................................................... 50

2.2.2 Génotypage ..................................................................................................................................... 54

2.2.3 Association ...................................................................................................................................... 57

2.3 Discussion .............................................................................................................................................. 73

2.3.1 Résultats obtenus ........................................................................................................................... 73

2.3.2 Le problème de la puissance statistique ......................................................................................... 78

Conclusion ........................................................................................................................................................ 83

Bibliographie ..................................................................................................................................................... 86

Annexe A : Phénotypes des colonies échantillonnées ...................................................................................... 96

Annexe B : Relations entre les individus ........................................................................................................... 98

Annexe C : Correction des valeurs p .............................................................................................................. 101

Annexe D : Caractéristiques du jeu de marqueurs ......................................................................................... 105

vi

Liste des figures

Figure 1. Cycle reproducteur de V. destructor dans une cellule ouvrière d’Apis mellifera (adapté de

Rosenkranz et al. 2010) .................................................................................................................................. 11

Figure 2. Morphologie de Varroa destructor ................................................................................................ 12

Figure 3. Graphique de Manhattan avec mauvais (graphique du haut) et bon (graphique du bas)

contrôle des faux-positifs. (Tiré de Segura, 2016). ...................................................................................... 44

Figure 4. Caractéristiques des stades de développement du couvain d’Apis mellifera et les stades de

développement attendus de la progéniture du Varroa associés. (adapté de COLOSS BEEBOOK volume

I: Standard methods for Apis mellifera Research) ....................................................................................... 48

Figure 5. Distribution du trait SMR (en %) des 37 colonies après l’évaluation phénotypique ................. 53

Figure 6. Prédiction des effets des variations nucléotidiques trouvées par l’analyse génomiques des 37

colonies tests .................................................................................................................................................. 55

Figure 7. Représentation graphique de la matrice de parenté des colonies (N = 34) ............................... 58

Figure 8. Arbre phylogénétique de la population étudiée produite avec TASSEL 5.0.............................. 59

Figure 9. Graphique des résultats des tests statistiques GLM................................................................... 62

Figure 10. Graphiques des résultats des tests statistiques MLM avec TASSEL ...................................... 65

Figure 11. Graphiques des résultats des tests statistiques MLM avec GenABEL .................................... 66

Figure 12. Distribution des valeurs p pour l’ensemble des marqueurs (N = 7810) pour les tests MLM . 67

Figure 13. Graphique de lambda pour le test MLMM avec GAPIT .............................................................. 70

Figure 14. Graphique Manhattan du test MLMM avec GAPIT. .................................................................... 71

Figure 15. Puissance statistique relative à l’erreur de type I (α) pour la population et les marqueurs

utilisés dans l’étude........................................................................................................................................ 72

vii

Liste des tableaux

Tableau I. Répartition des sous-espèces d’Apis mellifera en groupes selon leurs origines

géographiques .................................................................................................................................................. 3

Tableau II. Comparaison des temps de développement du couvain des différentes castes d’Apis

mellifera du stade d’œuf jusqu’à l’émergence de la cellule operculée (adapté de Bertholf, 1925). .......... 6

Tableau III. Régions génomiques et gènes candidats potentiellement associées au comportement VSH

et/ou au trait SMR trouvés par différentes études utilisant diverses approches méthodologiques. ...... 21

Tableau IV. Résultats de l’évaluation du trait phénotypique SMR (en %) des 37 colonies utilisées pour

les analyses génomiques ............................................................................................................................... 52

Tableau V. Variations obtenues après chaque étape de filtration .............................................................. 56

Tableau VI. Marqueurs ayant les valeurs p des coefficients des tests avec GLM les plus significatives

avec les outils GenABEL et TASSEL ............................................................................................................ 61

Tableau VII. Résultats des tests statistiques d’association MLM avec les outils GenABEL et TASSEL 64

Tableau VIII. Marqueurs les plus proches de la signification, obtenus par les tests MLMM avec GAPIT

.......................................................................................................................................................................... 69

Tableau IX. Comparaison des marqueurs trouvés par différents outils des tests d’association qui sont

proches de la significativité (seuil p = 0.05) et qui sont sur les mêmes chromosomes ........................... 77

viii

Liste des abréviations, sigles, acronymes

ADN : Acide DésoxyriboNucléique, molécule en double-hélice portant l’information des caractères génétiques ARN : Acide RiboNucléique, molécule de transport de l’information de l’ADN et de la synthèse de protéines CNV : (Copy number variant) Variant de nombre de copies FDR : (False discovery rate) Taux de découverte des faux-positifs GBS : génotypage par séquençage GLM : (General Linear Model) Modèle de régression linéaire généralisé GWAS : Étude d’association pangénomique HWE : (Hardy-Weinberg equilibrium) Équilibre de Hardy-Weinberg IBD : (Identity by descent) Identitée déterminée par la descendance génétique IBS : (Identity by sequence) Identitée déterminée par la ressemblance génétique LD : (Linkage disequilibrium) Déséquilibre de liaison MAF : (Minor Allele Frequency) Fréquence de l’allèle mineur MLM : modèle linéaire mixte MLMM : modèle linéaire mixte multi-locus MNV: (Multi-Nucleotide Variant) Variantion génétique composée de plusieurs nucléotides NV: (Nucleotide Variant) PC: (Principal component) Composantes principales PCA: (Principal Component Analysis) Analyses des composantes principales PCR: Réaction en chaîne par polymérase QTL: Quantitative trait loci

QTN: Quantitative trait nucleotique

RAD: marqueurs génétiques associés à de sites de restriction RE: Enzymes de restriction SMR : (Suppressed mite reproduction) trait de résistance de l’abeille mellifère au parasite V. destructor par la diminution de son taux de reproduction SNP : polymorphismes nucléotidiques singletons SNV : (Single nucleotide variant) Variant nucléotidique singleton SV : (Structural variant) Variant de la structure VSH : Varroa sensitive hygiene, comportement de résistance de l’abeille au parasite V. destructor WGR : Whole genome resequencing

ix

À mon père, le premier à avoir éveillé ma

curiosité scientifique.

x

Remerciements

En premier lieu, je souhaite remercier mon directeur de maîtrise, Nicolas Derome, pour cette

occasion de réaliser ce projet et son soutien ainsi que sa disponibilité pendant toute la durée de ma maîtrise.

Ce fut une merveilleuse expérience dont je garderai de très bons souvenirs. J’aimerais remercier mon

codirecteur Pierre Giovenazzo pour ses précieux conseils et son enthousiasme permanent.

Je me dois de remercier aussi toute l’équipe Derome. Travailler à vos côtés est un réel plaisir. Ce travail

n’aurait pu être possible sans le soutien de l’équipe apicole du CRSAD. Je remercie en particulier Marilène

Paillard pour sa compagnie et son expertise lors de notre semaine d’échantillonnage.

Il va sans dire que ce projet n’aurait pu se réaliser sans le soutien financier du MAPAQ et du programme

Innov’Action dans le cadre de Cultivons l’avenir 2, une initiative fédérale-provinciale-territoire.

Je voudrais adresser ma gratitude au professeur François Belzile pour ses conseils judicieux qui ont modelé

mon projet. Le projet présenté ici n’aurait pu être mené à bien sans la contribution généreuse de Martine Jean,

professionnelle de recherche de l’équipe Belzile, et de Davoud Torkamaneh, ancien doctorant de l’équipe

Belzile, qui furent mes mentors dans la méthodologie des études d’associations génomiques.

Je voudrais exprimer ma reconnaissance envers Josiane Mongrain et Alexandra Carrier pour leur amitié et

leur soutien tout au long de mon parcours. Enfin, je tiens à témoigner toute ma gratitude à Ulysse Martin pour

sa confidence, sa patience et sa gentillesse de chaque instant. Ta présence à mes côtés est un cadeau

inestimable.

1

Introduction générale

L’Abeille mellifère, Apis mellifera, est le principal Insecte pollinisateur domestique, retrouvé à l’échelle internationale,

qui assure un rôle vital dans le maintien des écosystèmes, dans l’agroalimentaire et dans l’économie internationale

(Danforth, 2007). Varroa destructor, un Acarien ectoparasite ayant co-évolué avec l’abeille asiatique Apis cerana,

s’est adapté à A. mellifera vers le début du 20e siècle (Ritter, 1981; Nazzi & Le Conte, 2016). Varroa destructor est

considéré comme l’une des plus grandes menaces actuelles pesant sur l’apiculture (Rosenkranz, Aumeier, &

Ziegelmann, Biology and control of Varroa destructor, 2010). Il est responsable des importantes pertes hivernales de

colonies observées au Canada depuis 2006 (Currie, et al., 2010; Guzman-Novoa, et al., 2010) et en Europe (Aston,

2010; Gaiger, et al., 2010; Mutinelli, et al., 2010; Potts, et al., 2010). L’abeille n’est cependant pas sans défense

contre ce parasite, puisque certaines colonies expriment une résistance au Varroa. Cette résistance, dénommée

dénommée Varroa Sensitive Hygiene (VSH), est un comportement hygiénique recherché qui permettrait de lutter

efficacement contre le Varroa et d’éviter l’utilisation de contrôles chimiques (Behrens, et al., 2011). Dans les colonies

qui démontrent ce trait comportemental, il y a une baisse de la reproduction des varroas dans le couvain d’abeilles,

le SMR « Supressed Mite Reproduction ». L’architecture génétique de cette résistance demeure cependant mal

comprise. Nous postulons que le trait SMR est un trait quantitatif complexe contrôlé par un grand nombre de sites à

faibles effets. Cette étude a pour objectif d’aider à élucider les régions génomiques associées au trait SMR et de

présenter une méthodologie d’étude d’association pangénomique appropriée pour de futures études.

Pour mieux comprendre le danger réel que présente la varroase, la maladie parasitaire des abeilles due au Varroa, il

faut se familiariser avec le cycle de vie de son hôte. Ainsi, le premier chapitre de ce travail sert à dresser un tableau

d’A. mellifera et de Varroa destructor, puis de la varroase et conséquemment du trait de résistance de l’Abeille

mellifère. Ce premier chapitre se continue par un survol des études d’A. mellifera qui ont cherché à élucider la

génomique de la résistance au parasite V. destructor à ce jour et la présentation des études d’association

pangénomiques. Le chapitre 1 se termine par la présentation des objectifs et hypothèses du projet. Le deuxième

chapitre fait l’étalage de la réalisation d’une étude d’association pangénomique pour identifier des régions

génomiques associées au trait SMR, d’abord par la présentation de la méthodologie puis par la présentation des

résultats, et se clos par la discussion des résultats. Finalement, une conclusion achève le document en faisant un

retour sur l’ensemble du mémoire et en présentant une perspective de l’avenir des études sur la résistance au

Varroa d’A. mellifera. Dans l’ensemble de ce document, l’appellation Varroa réfère à l’espèce Varroa destructor.

2

Chapitre 1 : Revue de littérature

1.1 Apis mellifera

1.1.1 Classifications et origines

L’Abeille mellifère, Apis mellifera, fait partie du clade des abeilles dans l’ordre des Hyménoptères et est un membre

du sous-groupe Apoidea. Plus spécifiquement, elle fait partie de la famille Apidae et du genre Apis (Hedtke, et al.,

2013). Les membres du genre Apis sont regroupés en trois sous-genres, établis sur des bases phylogéniques de

l’ADN mitochondrial : Micrapis les abeilles « naines » (Apis florea et Apis andreniformis), Megapis les abeilles

« géantes » (Apis dorsata, Apis binghami et Apis laboriosa), et Apis les abeilles « cavitaires » (Apis mellifera, Apis

cerana, Apis koschevnikovi, Apis nuluensis et Apis nigrocincta) (Hedtke, et al., 2013).

On reconnait à A. mellifera 27 sous-espèces, classées selon leurs différences morphologiques, leurs caractéristiques

physiologiques et écologiques. Ces sous-espèces sont elles-mêmes subdivisées en cinq groupes majeurs,

présentés dans le tableau I, suivant leur répartition géographique et histoire évolutive (Han, Wallberg, & Webster,

2012; Franck, et al., 2001; Wallberg, et al., 2014).

Le cinquième groupe « Y », qui rassemble les sous-espèces originaires de l’Afrique du Nord Est, a été proposé par

plusieurs chercheurs, mais n’est pas d’utilisation courante (Franck, et al., 2001). Il est intéressant de noter que les

groupes C et M, qui sont les plus proches géographiquement, sont aussi les plus éloignés génétiquement. Les

origines ancestrales d’A. mellifera et les parcours d’invasion sont encore des sujets débattus. La littérature présente

trois possibilités (Han, Wallberg, & Webster, 2012) :

1) Originaire du Moyen-Orient qui s’est répandu par deux routes en Europe (Nord et Ouest)

2) Originaire du Moyen-Orient qui s’est répandu par le Nord en Europe (une route)

3) Origine Africaine, qui s’est dispersé par deux routes en Europe (Nord et Ouest)

3

Tableau I. Répartition des sous-espèces d’Apis mellifera en groupes selon leurs origines géographiques. La lettre désignant le groupe était originellement le nom du sous-groupe; des classifications subséquentes ont causé l’utilisation de nouveaux noms de groupes, mais l’utilisation des lettres est restée (Franck, et al., 2001).

Groupe Noms des groupes Origine géographique Nombre de sous-espèces

A scutellata Afrique 8 sous-espèces

C Carnica Europe de l’Est 5 sous-espèces

M Mellifera Europe occidentale et Scandinavie 5 sous-espèces

O Orientale Moyen-Orient et Asie 7 sous-espèces

Y Jemenitica Yémen et Éthiopie sous-espèce unique

4

1.1.2 Biologie

Castes et tâches

L’Abeille mellifère fait partie du moins de 2 % des insectes qui sont dits eusociaux. Par définition, les espèces

eusociales réunissent trois caractéristiques : 1) chevauchement des générations 2) coopération dans les soins

parentaux 3) division du travail avec des castes d’individus stériles (Andersson, 1984). Les abeilles mellifères sont

organisées en castes sociales ayant des fonctions distinctes afin d’assurer le maintien et la reproduction de la

colonie. Les femelles sont divisées en deux castes, soit la caste de reine et celle d’ouvrière. À l’exception de la reine

fertile, toutes les femelles sont des ouvrières stériles. La caste des femelles (reine ou ouvrière) est déterminée au

stade larvaire par l’alimentation. Les mâles quant à eux ont une caste unique : les faux-bourdons.

Dans chaque colonie, une seule reine pondeuse est présente. Elle pond environ 200 000 œufs par année, à raison

de 1000 par jour (Chauvin, 1968). La caste ouvrière est largement dominante dans les colonies, le nombre

d’individus atteignant plusieurs dizaines de milliers en saison estivale de la miellée. Les ouvrières font du

polyéthisme lié à l’âge, c’est-à-dire que leur comportement se modifie en fonction de leur âge (Seeley, 1982). En

début de vie, elles ont des fonctions de nourricières des larves et de la reine et sont aussi responsables du nettoyage

des alvéoles et de la fermeture des alvéoles du couvain au cœur de la ruche. Après quelques jours, elles se

redirigent en périphérie pour réaliser du travail d’entretien : nettoyage, ventilation. À 12 jours, les ouvrières s’alternent

pour garder l’entrée de la ruche. Dès la deuxième semaine de leur vie d’adultes, les glandes cirières s’activent et les

ouvrières peuvent construire les cadres de cires avec les alvéoles. Finalement, à trois semaines de maturité, les

glandes de cire s’atrophient et les ouvrières terminent leur vie en tant que butineuses. Le butinage se produit dans

un rayon de 3 km autour de la ruche, pouvant s’étendre jusqu’à 6 km. Les comportements des ouvrières ne sont pas

mutuellement exclusifs. Une certaine plasticité est nécessaire afin d’assurer que tous les besoins de la colonie sont

comblés (Gary, 1963).

Les faux-bourdons sont des membres temporaires des colonies. Ils ont comme fonction principale la reproduction,

c’est pourquoi ils sont produits seulement à certains moments durant la période estivale, soit lorsque des reines

vierges pourraient être présentes et que les ressources alimentaires sont abondantes. Les faux-bourdons sont

coûteux aux colonies : ils s’alimentent uniquement du travail des ouvrières et ne contribuent pas au travail de

maintien de la colonie. Lorsque la production de la ruche baisse, à la fin de l’été et au début de l’automne, les

ouvrières vont chasser les faux-bourdons hors de la ruche ou les tuer (Gary, 1963).

Reproduction et développement

Pour assurer la reproduction, une nouvelle reine doit s’accoupler peu après sa sortie de l’alvéole. La reine vierge

quitte la colonie et trouve un rassemblement de faux-bourdons pour effectuer son vol nuptial. En un seul vol, la reine

5

peut s’accoupler avec plus d’une dizaine de mâles; elle peut faire jusqu’à quatre vols nuptiaux (Gary, 1963). Par la

suite, la reine ne s’accouplera plus, puisqu’elle aura entreposé quelques millions de spermatozoïdes dans un organe

spécialisé appelé spermathèque (Tarpy & Page, 2000; Rousseau, et al., 2015). L’abeille domestique présente un

système de détermination sexuelle haplodiploïde, ce qui signifie que les femelles sont diploïdes (deux copies d’un

même génome, avec présence de deux allèles différents aux sites dits hétérozygotes) alors que les mâles sont

haploïdes (un seul allèle). La présence de deux allèles différents du gène sexuel détermine le sexe femelle et un seul

allèle sexuel détermine le sexe mâle. En fonction de la taille de la cellule construite par les ouvrières, la reine

déposera un œuf fertilisé de femelle ou un œuf de mâle (Chauvin, 1968). Cela signifie que les femelles héritent de

50 % des gènes de la reine et 100 % des gènes du faux-bourdon, tandis que les mâles héritent uniquement de 50 %

des gènes de la reine. De plus, tous les spermatozoïdes d’un mâle sont génétiquement identiques.

Les ouvrières et les mâles sont alimentés au stade larvaire d’une gelée nourricière, un mélange de pollen, de miel,

d’eau et de sécrétions hypopharyngiennes des nourrices (Chauvin, 1968). Pendant les premiers jours, toutes les

femelles sont nourries de gelée royale. Si une larve est toujours nourrie de gelée royale par les ouvrières, elle

deviendra une reine vierge, sinon elle deviendra une ouvrière. Le terme « reine vierge » est assez explicatif, il

désigne simplement une reine qui n’a pas encore fait de vol nuptial, et donc n’a pas de sperme emmagasiné dans sa

spermathèque.

Les abeilles sont des Insectes holométaboles, c’est-à-dire que leur cycle de vie est divisé en quatre étapes : œuf,

larve, pupe et adulte. Initialement, les œufs sont pondus par la reine dans les alvéoles. Ceux-ci éclosent après 3

jours, libérant une larve. La larve demeure dans l’alvéole de cire et grandit durant 5,5 jours pour la reine, 6 jours pour

une ouvrière et 7 jours pour les faux-bourdons). L’alvéole est ensuite operculé avec de la cire sécrétée par les

ouvrières. La larve enfermée poursuit son développement en tissant un cocon jusqu’à se transformer en pupe.

Subséquemment, la pupe subit une métamorphose sur une période de 7,5 jours pour les reines, 12 jours pour les

ouvrières et 14 jours pour les faux-bourdons avant d’émerger en dévorant l’opercule. Au total, il faut compter 16 jours

pour le développement complet des reines à partir d’un œuf, 21 pour les ouvrières et 24 pour les faux-bourdons. Le

temps de chacune de ces phases de développement est présenté au tableau I et au tableau II.

6

Tableau II. Comparaison des temps de développement du couvain des différentes castes d’Apis mellifera du stade d’œuf jusqu’à l’émergence de la cellule operculée (adapté de Bertholf, 1925). L’imago est la forme définitive de l’insecte adulte qui émerge de la cellule.

Ouvrières Reines Faux-bourdons

Jours Stades Évènements Stades Évènements Stades Évènements

1

œuf

Œuf

œuf

2

3 éclosion éclosion éclosion

4

larve

1re mue

Larve

1re mue

larve

1re mue

5 2e mue 2e mue 2e mue



8

9 operculation operculation

10 pré-pupe

pré-pupe 5e mue operculation

11 5e mue

Pupe

pré-pupe

12

pupe

13

14 5e mue

15 6e mue

pupe

16

imago

émergence

17

18

19

20 6e mue

21

imago

émergence

22 6e mue

23 imago émergence

7

Cycle annuel

La durée de vie des individus varie en fonction de la caste. Une ouvrière peut vivre de deux à quatre semaines

durant la période estivale; un faux-bourdon, de quatre à huit semaines. Les reines ont une plus grande longévité et

peuvent vivre de deux à cinq ans. Dans les zones de climat continental comme au Québec, la reine cesse de pondre

durant l’hiver. Les ouvrières de cette période survivent plus longtemps en consommant leurs réserves de glucides et

en adoptant une formation en grappe au sein de la ruche afin de maintenir une température d’environ 21 ˚C

(Fahrenholz, Lamprecht, & Schricker, 1989).

L’immunité d’Apis mellifera

L’immunité de l’abeille peut être présentée en deux niveaux distincts : l’immunité individuelle classique et l’immunité

sociale, issue de comportements de groupe. L’immunité individuelle englobe les défenses comportementales

(nettoyage, hygiène), mécaniques, physiologiques et immunologiques. Une étude pangénomique sur A. mellifera a

révélé qu’elle ne possède qu’un tiers du nombre de gènes de la réponse immunitaire connue chez les Insectes

solitaires (ex : drosophile) (Evans et al., 2006). Pour compenser, l’abeille possède une l’immunité sociale. L’immunité

sociale se rapporte à des comportements de défense en groupe, soit le nettoyage social, l’utilisation de matériaux

antimicrobiens pour la fabrication de la ruche (ex : résine propolis) (Christe et al., 2003), le comportement hygiénique

(Cremer et al., 2007), et le comportement Varroa sensitive hygiene (VSH), qui sera présenté plus loin.

1.1.3 Génétique d’Apis mellifera

Le génome de l’Abeille mellifère a été complètement séquencé et publié dans la revue Nature en 2006, puis rendu

public sur le site Hymenoptera Genome Database : integrated community resources for insect species of the order

Hymenoptera (The Honeybee Genome Sequencing Consortium, 2006). L’annotation du génome de l’abeille a

ensuite été mise à jour en 2014, avec une couverture améliorée à 30 X par les données de séquençage avec SOLiD

et 454. On lui attribue 14,016 gènes pour un génome de 250 Mb (NCBI GenBank). Une caractéristique particulière

du génome d’A. mellifera est son contenu élevé de nucléotides AT. Une autre particularité de ce génome est son

haut taux de recombinaison, soit 19 cM Mb-1 (cM, CentiMorgan, une unité qui exprime le ratio de recombinaison sur

une distance, 1 cM = 1 % de probabilité de recombinaison) sur l’ensemble des chromosomes, ce qui est très élevé

pour un organisme multicellulaire eucaryote (The Honeybee Genome Sequencing Consortium, 2006).

Comparativement, Drosophila melanogaster, certainement l’Insecte le mieux caractérisé à ce jour, à un taux de

recombinaison de 1,6 cM Mb-1, l’Humain possède un taux encore moins élevé à 1,1 cM Mb-1 et Mus musculus

(Souris) est à seulement 0.4 cM Mb-1 (Wilfert, Gadau, & Schmid-Hempel, 2007). À ce jour, aucune explication claire

n’a été avancée pour expliquer ces singularités génomiques, sinon la supposition que l’absence des transposons

typiquement attendus pourrait être reliée au haut taux de recombinaison. Dans le génome d’A. mellifera, plus de

8

2000 marqueurs de type microsatellite ont été identifiés, la distance moyenne entre les marqueurs étant de 2,1 cM.

Aucun intervalle n’atteint 10 cM. La haute densité en marqueurs est propice à l’utilisation d’une approche d’étude

d’association pangénomique (Genome wide association study, GWAS) pour détecter des gènes associés à des

phénotypes chez A. mellifera.

1.1.4 Mortalité des abeilles

Les mortalités « hivernales » sont bien documentées au Canada (Comité sur les enquêtes nationales de l'ACPA,

2018). En effet, c’est l’hiver que les colonies ont la plus grande probabilité de dépérir, puisque la ponte de la reine est

minime et que la colonie dépend de la survie des abeilles hivernales et de leur longévité accrue. Plusieurs causes

expliquent la mortalité hivernale : mort de la reine, manque de réserves de nourriture, conditions de butinages sous-

optimales pendant la période estivale, population pré-hivernation trop maigres, maladies et parasites (Le Conte, Ellis,

& Ritter, 2010).

Durant les hivers de 2006 à 2008, la perte d’un grand nombre de colonies domestiques d’A. mellifera en Amérique a

été constatée (vanEngelsdorp, et al., 2007; vanEngelsdorp, et al., 2008). Au Canada, l’hiver de 2008 s’est vu

attribuer le plus haut pic de mortalité de l’histoire, soit 35 % des colonies dans tout le pays qui ont été perdues (le

taux de perte considéré comme usuel est de 15 %) (Comité sur les enquêtes nationales de l'ACPA, 2018). L’hiver

2017-2018 ne s’en tire guère mieux, avec une recrudescence des pertes de colonies qui ont atteint 32,6 % pour

l’ensemble du Canada, variant de 18,4 % à 45,7 % selon les provinces (CAPA, 2018). La perte de colonies d’abeilles

n’est pas une occurrence inhabituelle (Oldroyd, 2007). Le taux de mortalité au Canada oscille habituellement entre

16 et 25 %, à l’exception de la Nouvelle-Écosse, qui atteint 40 % (van der Zee, et al., 2012). Ces taux de mortalité

sont associés à la période hivernale et non à la production annuelle de colonies; il n’y a donc pas de diminution du

nombre de colonies dans leur ensemble. Au contraire, le nombre total de colonies au Canada a augmenté de 22,4 %

entre 2007 et 2015 (Comité sur les enquêtes nationales de l'ACPA 2016, et al., 2016). Malgré ces données

encourageantes, les apiculteurs disposent de peu de ressources pour lutter contre la varroase et la nosémose, les

fléaux actuels de l’apiculture au Canada. Le risque de développement d’organismes résistants aux pesticides est une

menace qui plane sur l’apiculture et qui souligne l’importance de trouver des méthodes plus efficaces de lutte contre

les parasites, particulièrement contre V. destructor, qui est actuellement très étudié car il compromet la santé des

colonies d’Abeilles mellifères (Huang, 2012; Nazzi & Le Conte, 2016). En 2014, c’est 73 % des apiculteurs canadiens

qui ont rapporté la présence du parasite dans leurs colonies (Comité sur les enquêtes nationales de l'ACPA 2015, et

al., 2015).

9

1.2 Varroa destructor

1.2.1 Biologie

Varroa destructor est un Acarien (Classe des Arachnidés) ectoparasite obligatoire d’A. mellifera associé à de

nombreuses pathologies virales de l’Abeille (Nazzi & Le Conte, 2016). Il est souvent présenté comme le parasite le

plus important de l’abeille mellifère (Huang, 2012). Les colonies infestées par Varroa meurent généralement en deux

à trois ans après le début de l’infestation, si elles ne sont pas traitées chimiquement par les apiculteurs.

Originalement identifiée comme Varroa jacobsoni, une distinction des deux espèces a été établie à la découverte

d’une variation dans la séquence du gène cytochrome oxydase I du génome mitochondrial (Anderson & Fuchs,

1998). À la différence de V. jacobsoni, V. destructor possède la capacité de se reproduire sur A. mellifera en plus

d’A. cerana. Varroa destructor est originaire de l’Asie du Sud-Est, mais a connu une expansion de sa distribution à

partir de 1967, où elle s’est répandue en Europe, en Amérique, en Afrique et dans l’est de l’Asie (Nazzi & Le Conte,

2016). Cela est dû au transport mondial des abeilles et à une adaptation qui lui a permis de passer de son hôte

naturel, A. cerana, à un nouvel hôte, A. mellifera (Navajas, et al., 2010).

Son cycle de vie peut se diviser en deux étapes distinctes : l’étape phorétique et l’étape de reproduction

(Rosenkranz, et al., 2010). Durant l’étape phorétique, le Varroa est accroché à son hôte adulte et se nourrit de son

hémolymphe. On le retrouve généralement sur la membrane intersegmentale de l’abdomen. Cet état peut durer de

cinq à onze jours lorsque la colonie génère de la progéniture, autrement l’acarien peut rester à ce stade jusqu’à six

mois. Au cours de cette période, les varroas ont la capacité de changer d’hôte en sautant d’une abeille à l’autre, ce

qui permet le transfert horizontal vers d’autres colonies (Nazzi & Le Conte, 2016). Le stade phorétique présente un

plus haut taux de mortalité que l’étape de reproduction, puisque les varroas sont exposés au comportement

hygiénique des ouvrières et à leurs déplacements hors de la ruche. L’étape de reproduction, imagée dans la figure

1, se déroule dans les cellules de couvain operculées. La femelle mature s’introduit dans une cellule contenant une

larve, juste avant l’operculation. Cinq heures plus tard, au moment où toute la nourriture contenue dans la cellule a

été consommée par l’hôte, le Varroa commence à se nourrir de l’hémolymphe de la larve. La ponte de la femelle

débute environ 70 heures après l’operculation. Le premier œuf déposé n’est pas fertilisé et donne un mâle. Les œufs

subséquents, pondus à des intervalles de 30 heures, sont femelles à cause du déterminisme sexuel haplodiploïdique

(Rosenkranz et al. 2010; Nazzi et Le Conte, 2016). Un total de cinq à six œufs femelles peuvent être pondus par la

mère, toutefois la plupart d’entre eux n’auront pas le temps d’atteindre la maturité. Effectivement, les pupes des

ouvrières ont une incubation de onze jours alors qu’un œuf de Varroa femelle prend six jours pour se développer

correctement. La fréquence de reproduction est de 1,3 à 1,45 femelles matures produites dans une cellule d’ouvrière

10

et de 2,2 à 2,6 produites dans une cellule de faux-bourdon à cause de leur temps d’operculation plus long (Martin,

1994; Martin, 1995).

La progéniture qui émerge des œufs se nourrit de la pupe au site préparé par la mère (Nazzi & Le Conte, 2016).

L’alimentation des varroas cause des dommages directs à l’hôte en plus d’effets indirects liés aux pathogènes dont

le Varroa est un vecteur de transmission (Chen, et al., 2004). Une fois la maturité atteinte, le jeune mâle s’accouple à

répétition avec ses sœurs, puis décède peu après, son cycle de vie n’impliquant jamais de stade phorétique. À

l’émergence de l’abeille adulte, la femelle Varroa et sa progéniture mature quittent la cellule avec l’abeille. La femelle

Varroa peut faire jusqu’à trois cycles reproducteurs au cours de sa vie (Fries & Rosenkranz, 1996). Si une

désoperculation de l’alvéole a lieu alors que les jeunes varroas ne sont pas encore matures, et donc pas encore

sclérifiés (durcies), cela provoque leur mort par déshydratation. Les femelles immatures (deutonymphes) sont

blanches alors que les matures sont « pigmentés ».

L’acarien parasite a développé certaines stratégies pour déjouer les systèmes de défense de son hôte. Au stade

reproducteur, le Varroa peut faire un mimétisme chimique pour échapper à la détection par les ouvrières (Kather, et

al., 2015a; Kather, et al., 2015 b). Les abeilles ont la capacité de reconnaître les individus provenant de leur propre

colonie par l’apprentissage de proportion spécifique d’hydrocarbures cuticulaires, qui est copiée par le Varroa. Celui-

ci peut même mimer la signature associée aux différents stades développementaux de l’hôte (Martin, et al., 2001).

De plus, il pourrait éviter les défenses immunitaires de l’hôte en les réprimant, notamment en inhibant le métabolisme

de peptides antibactériens de l’abeille (Gregory, et al., 2005; Schwarz, et al., 2015).

11

Figure 1. Cycle reproducteur de V. destructor dans une cellule ouvrière d’Apis mellifera (adapté de Rosenkranz et al. 2010). Les varroas adultes émergent de la cellule au même moment que la progéniture d’abeille mature. Les progénitures varroa qui ne sont pas encore matures à ce moment meurent au contact de l’air.

Jours

12

Figure 2. Morphologie de Varroa destructor. La composition normale d’une « famille » du parasite retrouvée dans une cellule d’ouvrière au stade des yeux violets, approximativement 11 jours après l’opperculation de la cellule. En ordre, de gauche à droite, en partant de la ligne du haut : protonymphe, protochrysalide, deutonymphe. Ligne du bas : jeune adulte, femelle fondatrice et mâle adulte. (Tiré de Rosenkranz et al, 2010)

13

1.2.2 Varroase

Les impacts négatifs de l’infestation de Varroa destructor dans une colonie d’abeilles sont multiples. L’effet le plus

évident du parasite est sa consommation répétitive des corps gras de son hôte, autant des pupes que des adultes

parasitées (Ramsey, et al., 2019). Cela cause des dommages physiques et réduit leur contenu protéique tout en

diminuant leur masse corporelle et raccourcissant la longévité des individus. Cette conséquence peut être mortelle

pour les abeilles et les colonies durant l’hivernage. Les varroas affectent également le développement des organes

des larves (Schneider & Drescher, 1987; Bowen-Walker & Gunn, 2001) et agissent comme vecteur de transmission

de pathogènes (Chen, et al., 2004; Chen, et al., 2005). Des 18 virus ayant été isolés des abeilles mellifères, les

varroas sont vecteurs de 5 : le Kashmir Bee VirusI (KBV), le Sacbrood virus (SBV), l’Acute Bee Paralysis Virus

(ABPV), l’Israeli acute paralysis virus (IAPV) et le Deformed Wing Virus (DWV) (Boecking et Genersch 2008). Ce rôle

de vecteur est apparent depuis l’émergence dans les années 1970 de maladies virales dans le monde apicole, qui

coïncide avec l’époque de la découverte de la varroase sur A. mellifera (Shen, Yang, Cox-Foster, & Cui, 2005). Le

DWV est presque toujours retrouvé en association avec la présence de varroa (Genersch, 2005). La croissance des

cas d’infections virales depuis 1987 aux États-Unis correspond aussi à une augmentation du nombre de pertes de

colonies d’abeilles à travers le pays. Des virus autrefois considérés non létaux pour les colonies, comme le virus de

la paralysie aigüe en Grande-Bretagne, sont désormais mortels par leur combinaison synergique avec la varroase

(Genersch & Aubert, 2010). Ces différents virus appareillés à la varroase contribuent aux difformités morphologiques

des individus de la colonie (ailles déformées, corps plus petit, abdomen raccourci) qui ont un impact néfaste sur la

vigueur et la longévité des abeilles et leur colonie. Les capacités réduites des ouvrières butineuses affectent leur

habileté et efficacité à accomplir leurs tâches (Schneider & Drescher, 1987). D’autre part, le Varroa présente des

fonctions activatrices de la réplication virale, en plus de provoquer une forme d’immunosuppression humorale chez

l’abeille (Yang & Cox-Foster, 2007). Ce qui signifie que des facteurs de stress habituellement non létaux recèlent

désormais un potentiel pathogène important lorsqu’une colonie est parasitée par V. destructor.

1.2.3 Contrôle actuel du Varroa

Il existe actuellement diverses méthodes pour traiter les colonies infestées par le Varroa. Ces traitements nécessitent

cependant une application périodique, sans laquelle les colonies des climats tempérés s’effondreraient en six mois à

trois ans après le début de l’infestation (Rademacher & Harz, 2006; Boecking & Genersch, 2008; Rosenkranz, et al.,

2010). Les apiculteurs utilisent un large éventail de produits chimiques, de techniques d’application et de méthodes

alternatives pour contrôler les infestations du Varroa. Ces traitements comprennent les acaricides synthétiques, les

acaricides naturels (acides organiques et huiles essentielles) et les techniques biologiques (Rosenkranz, et al., 2010;

Giovenazzo & Dubreuil, 2011).

14

Les acaricides synthétiques sont des produits chimiques dits « durs » : l’organophosphate coumaphos (nom

commercial : Checkmite), la pyréthrine, la tau-fluvalinate (nom commercial : Apistan), la fluméthrine (nom

commercial : Bayvarol) et la formamidine amitraze (nom commercial : Apivar) (Rosenkranz, Aumeier, &

Ziegelmann, 2010). La tau-fluvalinate agit sur des canaux sodiques voltage dépendants, alors que le coumaphos agit

sur la signalisation et les fonctions nerveuses. Malgré leur facilité d’utilisation, leur accumulation dans les produits de

la ruche après une utilisation répétitive est potentiellement dommageable pour les abeilles.

La classe des acaricides dits « doux » (naturels) contient l’acide formique, l’acide oxalique, l’acide lactique et le

thymol (Rosenkranz, Aumeier, & Ziegelmann, 2010). Plusieurs études ont couvert l’ensemble des aspects

d’utilisation de ces produits naturels comme moyen de contrôle de la varroase. Il en ressort qu’ils sont moins

polluants que leur contrepartie synthétique, cependant leur application est plus restrictive et leur efficacité est

variable en fonction des conditions d’utilisation (Calderone, 1999; vanEngelsdorp, et al., 2008 b; Giovenazzo, 2011).

Des méthodes alternatives employées par les apiculteurs contribuent à la lutte contre la varroase en ralentissant son

développement. Entre autres, la « trapping comb method », qui consiste à retirer du couvain operculé,

préférentiellement du couvain mâle, en espérant retirer en même temps des acariens emprisonnés, est assez

efficace (Engels & Preston, 1984; Maul, et al., 1988). La plupart des autres méthodes alternatives n’ont pas une

efficacité réelle prouvée (Hoppe & Ritter, 1987 ; Rosenkranz, 1987).

En somme, les acaricides synthétiques et la lutte intégrée avec les acaricides « doux » sont en ce moment les

méthodes les plus efficaces de lutte contre la varroase. Toutefois plusieurs désavantages proviennent de leur

utilisation, comme la variation de leur efficacité selon la présence ou l’absence de couvain operculé ainsi que du

moment de la saison lors de leur usage (Gregoric & Planing, 2002). De plus, leur application répétitive implique un

coût important, sans compter que des études ont démontré la persistance des acaricides dans les produits de la

ruche, comme le miel et la cire (Sanchez-Bravo & Goka, 2014). Le rendement à long terme de l’utilisation des

acaricides est aussi remis en cause par l’émergence de populations de Varroa résistantes (Ellis, et al., 2001;

Webster & Delaplane, 2001). À ces problématiques s’ajoute la complication que l’utilisation d’acaricides peut affecter

l’élevage de reines et la production de sperme (Haarman, et al., 2002). L’ensemble des limites d’utilisation des

acaricides et des autres méthodes de contrôle souligne l’importance de développer de nouvelles approches afin de

juguler l’impact de Varroa destructor sur l’Abeille mellifère.

15

1.3 Résistance à V. destructor chez Apis mellifera

Une relation hôte-parasite est souvent décrite comme une course évolutive à l’armement entre le développement de

défenses chez l’hôte et de résistances chez le parasite. C’est l’hypothèse de la reine rouge de Leigh Van Valen

(1973), qui se résume comme suit : l’évolution d’une espèce est nécessaire à sa survie pour maintenir ses aptitudes

par rapport aux adaptations des espèces avec lesquelles elle coévolue. La conception moderne de l’évolution est

plus sensible et adresse plutôt les caractéristiques des individus qui leur permettre de s’adapter (ou non) à leur

environnement et que ces caractéristiques présentent des variations dans leur expression. Il n’en demeure pas

moins que l’hypothèse de la reine rouge, avec la nuance dans son contexte historique, demeure pertinente de nos

jours. Dans le cas d’une relation hôte-parasite, il doit y avoir un équilibre évolutif entre les deux organismes, puisque

l’hôte est nécessaire à l’existence du parasite. La multiplication trop rapide du parasite pourrait causer une chute de

la population d’hôtes, ce qui causerait la mort du parasite par association. Dans le cas d’A. mellifera et de Varroa

destructor, cet état d’équilibre n’est pas encore atteint, puisque Varroa destructor s’est récemment adapté à A.

mellifera. Ce nouvel hôte n’a pas encore développé des adaptations permettant d’établir une relation stable avec le

parasite, tandis que le parasite est bien armé contre le genre Apis duquel il dépend depuis longtemps. On peut

toutefois constater que certains individus de l’espèce A. mellifera présentent des comportements de défense innés

contre la varroase.

1.3.1 Trait SMR

Probablement pour la toute première fois, Ruttner et al. découvrent que les Varroas dans des colonies d’abeilles ont

un haut taux de non-reproduction en 1984. Ce phénomène est indépendant de l’origine du couvain d’abeilles, c’est-

à-dire que peu importe de quelle colonie provient le couvain, la fréquence de non-reproduction du Varroa est

identique dans la colonie d’introduction (Fuchs, 1994). En 1997, Harbo et Hoopingarner publient que ce sont

certaines colonies d’A. mellifera qui ont la capacité, transmissible, de diminuer la reproduction au parasite V.

destructor. Ces colonies sont alors qualifiées de résistantes, puisque la résistance contre un parasite se définit

comme étant l’habileté à limiter la charge du parasite (Raberg, Graham, & Read, 2009). La sélection est faite pour

ces colonies présentant un haut taux d’infestation de Varroas non reproductrives (incapables de produire au moins

une femelle mature), et ce caractère est baptisé le trait répresseur de reproduction des varroas (supressing mite

reproduction, SMR) (Harbo et Hoopingarner, 1997).

1.3.2 Comportement VSH

En 2005, le comportement VSH est proposé comme étant la cause du trait SMR. Il consiste en l’action de

désoperculer puis de refermer les cellules infestées ou à en retirer la progéniture parasitée (Harbo & Harris, 2005;

16

Harris, 2007; Villa, et al., 2009). La désoperculation suffit à causer la mort de la progéniture immature du Varroa.

Quand une pupe infestée est retirée, la femelle Varroa adulte peut être retirée en même temps. Si elle survit, elle

monte habituellement sur l’abeille qui retire la pupe hôte, ou encore se déplace sur le cadre où elle s’expose au

comportement de nettoyage des abeilles. Effectivement, lorsque le Varroa se retrouve à l’extérieur du couvain, au

stade phorétique, les abeilles sont capables de les détecter et de les mordre, ce que l’on appelle le comportement de

nettoyage (grooming behavior). La morsure peut estropier ou tuer le varroa, qui tombe au fond de la ruche et sera

ensuite jeté à l’extérieur par des ouvrières d’entretien. Même si la mère fondatrice Varroa est capable d’infester de

nouveau une cellule, l’interruption de son cycle de reproduction précédent peut suffire à l’empêcher de se reproduire

correctement dans son cycle suivant, en ne produisant par exemple que des œufs femelles ou en produisant une

désynchronisation entre sa ponte et le développement de son hôte (Kirrane, et al., 2015). Le comportement VSH est

exprimé par des ouvrières âgées de 15 à 18 jours (Harbo & Harris, 2001).

Le comportement VSH d’A. mellifera est donc un comportement hygiénique de résistance au parasite V. destructor.

De façon générale, le comportement hygiènique des abeilles se définit comme la capacité à retirer le couvain mort,

malade ou parasité des cellules operculées (Spivak & Gilliam, 1998 a; 1998 b). Le comportement VSH se différencie

du simple comportement hygiénique par sa spécificité de détection du couvain parasité par V. destructor. Il n’est pas

limité aux colonies sélectionnées car il a été observé dans colonies non-sélectionnées (Boecking & Ritter, 1993;

Boecking & Spivak, 1999; Aumeier, et al., 2000). Le comportement VSH est ciblé car il est héritable et ne semble pas

nuire aux autres performances zootechniques des abeilles (Harbo et Harris, 2005; 2009; Harris 2007; Harris et al.

2010; Rinderer et al. 2010). Le comportement VSH est caractérisé par la diminution du taux d’infestation du Varroa

(Villa, Danka, & Harris, 2009). Des études indiquent que la fertilité du Varroa dans une colonie d’abeilles VSH

diminue après une exposition d’une semaine (Harbo et Harris, 2005), cependant l’étude de Kirrane et al. (2015)

remet en doute cette trouvaille et indique que l’effet de la baisse de fertilité se ferait plutôt ressentir à délais, lors de

l’infestation subséquente des varroas. Des études précédentes ont postulé que les abeilles VSH choisissaient

préférentiellement les cellules infestées par les varroas fertiles (Harbo et Harris 2005, 2009) pour expliquer

l’augmentation de l’infertilité, cependant une étude par Harris, Danka et Villa (2010) a démontré qu’au contraire, il n’y

a pas de sélection préférentielle par les abeilles VSH. Bien que le comportement VSH semble au premier abord

apparenté au comportement hygiénique, la littérature est inconsistante lorsqu’il s’agit de déterminer si le niveau

SMR/VSH d’une colonie est corrélé directement avec le comportement hygiénique (Boecking & Drescher, 1992;

Büchler, et al., 2010; Rinderer, et al., 2010). Le stimulus amorçant l’action VSH des abeilles est généralement

attribué à des signaux olfactifs émanant des cellules infestées qui n’ont toujours pas été clairement identifiés. Les

abeilles VSH différencient une cellule infestée vide d’une cellule contenant du couvain, ce qui incite à penser que les

signaux olfactifs proviendraient de la pupe attaquée (Nazzi, et al., 2004). Le comportement VSH s’exprime

habituellement envers les pupes operculées d’au moins quatre jours (Martin, et al., 2012). Kirrane et al. (2015)

17

observent que le taux d’infestation initial est positivement corrélé avec le pourcentage de couvain retiré par les

ouvrières. Cela pourrait indiquer qu’un seuil minimal d’infestation est requis pour que le comportement VSH soit

exprimé à un degré significatif. Le coût à la valeur sélective (fitness) d’enlever les jeunes ouvrières pourrait expliquer

cette théorie.

Bien que l’on assimile souvent le trait SMR au comportement VSH, il est prudent de différencier ces deux termes. Le

comportement VSH est une explication du trait SMR, mais d’autres facteurs pourraient contribuer au trait SMR. En

somme, le trait SMR est caractérisé par la non-reproduction des Varroas, alors que le comportement VSH est défini

par la diminution du taux d’infestation par le Varroa, une nuance importante. Le trait SMR a une importance

équivalente au comportement VSH, mais son évaluation phénotypique et sa sélection pour la reproduction sont

beaucoup plus faciles à accomplir comparativement à des comportements complexes comme le VSH (Behrens, et

al., 2011).

Les apiculteurs peuvent déjà bénéficier des développements récents de production de lignées présentant une

résistance à V. destructor (Dietemann, et al., 2012; Danka et al. 2012). La nature génétique de la résistance au

Varroa et de la transmission de ce trait ont été montrées dans une étude par ensemençant une reine de lignée non-

VSH avec le sperme de mâles de colonie VSH (Danka, et al., 2012).

1.3.3 Trait quantitatif

La résistance des colonies d’abeilles peut être mesurée par le trait phénotypique SMR. Les traits phénotypiques

peuvent entrer dans l’une de deux catégories :

1) Trait qualitatif : Il s’agit d’une classification discrète, souvent utilisée pour des valeurs non numérales.

Toutefois, dans certains cas, des valeurs numérales qui expriment un identifiant plutôt qu’une numération

vont faire partie de cette catégorie.

2) Trait quantitatif : Classification de valeurs continues, presque exclusivement numérale (ex : taille,

concentration moléculaire, temps, etc.).

Les traits qualitatifs sont aussi qualifiés de discrets ou encore de caractères mendéliens, car un caractère qualitatif

est habituellement gouverné par des variations à un seul gène et qui se reconnait par son héritabilité dans une

famille, comme cela est décrit par les principes Mendéliens.

Le trait SMR (comme le comportement VSH) est un trait quantitatif. Les traits quantitatifs sont aussi appelés traits

complexes, l’expression de ces traits étant le résultat de la somme de variations de plusieurs gènes et leurs

18

interactions avec des facteurs environnementaux. Une représentation classique des traits quantitatifs est la taille des

individus dans une population donnée (Visscher, 2008). Effectivement, la taille dans une population est un caractère

qui varie selon des valeurs continues, dont on s’attend à ce que la distribution produise une courbe normale –

lorsque l’échantillon est suffisamment grand pour bien représenter la population – en partie à cause du théorème

central limite. Ainsi, en observant la distribution de la fréquence des tailles, on s’attend à ce que la taille moyenne ait

la plus grande fréquence, alors que les valeurs extrêmes auront la plus basse fréquence. Le modèle génétique qui

permet d’expliquer un trait quantitatif et la grande variation dans l’expression de ce phénotype est le modèle

infinitésimal de Fisher (1918) (Barton, et al., 2017). Ce modèle soutient que les variations génétiques quantitatives

sont le résultat de la ségrégation des allèles d’un grand nombre de gènes, une grande partie ayant un très petit effet.

On s’attend donc à ce qu’un trait quantitatif implique un grand nombre de loci avec un faible effet individuel et des

interactions complexes, dont l’impact combiné est important (Yang, et al., 2010). Ce n’est pas toujours le cas. Par

exemple, un seul site polymorphe avec plusieurs allèles différentiellement exprimés peut produire une variation

continue du phénotype dans la population. L’épigénétique peut aussi être en cause d’un trait quantitatif par la

variation dans la régulation de l’expression du trait (Asada, et al., 1994).

Une région du chromosome où sont localisés un ou plusieurs gènes intervenant dans l’expression d’un caractère

quantitatif est nommée locus de caractère quantitatif (Quantitative Trait Locus, QTL). Les QTL peuvent être identifiés

par des approches moléculaires, ce qui permet de cartographier des régions du génome contenant des gènes

impliqués dans la spécification du caractère associé. À partir de cette région restreinte identifiée, il est possible

d’identifier des gènes qui pourraient, selon leur fonction, être au moins une partie de l’architecture génétique du

phénotype. Ces gènes sont dits « gènes candidats » (ou encore « gènes d’intérêts »).

L’expression d’un trait phénotypique est déterminée par une combinaison de facteurs génétiques et non génétiques,

souvent dits facteurs environnementaux. Si l’on reprend l’exemple de tailles dans une population, l’alimentation des

individus durant la croissance aura aussi un impact sur l’expression du phénotype. Ce facteur et d’autres agiront de

concert avec la génétique de l’individu pour produire le phénotype qui sera observable. L’interaction avec

l’environnement a un effet sur le phénotype et doit être prise en considération par les modèles statistiques utilisés

lorsque l’on cherche à identifier l’action du génome sur le phénotype (Korte & Farlow, 2013). Idéalement, les facteurs

environnementaux devraient être contrôlés lors d’une étude d’association entre le génome et le phénotype afin de

limiter l’impact environnemental sur l’expression du trait et permettre de maximiser l’impact génétique sur la variation

du trait (Lewis, 2002).

19

1.3.4 Études génomiques de la résistance aux varroas

L’importante problématique qu’est la varroase depuis déjà plusieurs années a incité beaucoup de chercheurs à se

pencher sur l’exploration de l’architecture génétique et l’identification des fonctions physiologiques associées au

SMR/VSH. Le premier modèle théorique des gènes contrôlant le comportement VSH l’assimilait au comportement

hygiénique classique des abeilles. Il s’agit du modèle de Rothenbuhler en 1964, à l’époque où l’on croyait que le

comportement hygiénique était l’un des rares traits complexes expliqués par un système mendélien à deux locus. Il

proposait deux loci homozygotes récessifs déterminant le comportement, chacun régissant l’une de deux actions,

soit la désoperculation de la cellule infestée et le retrait de la pupe. Ces deux actions étaient décrites comme étant

les composantes du comportement hygiénique. Effectivement, la résistance au Varroa était indissociable du simple

comportement hygiénique au début de son étude. Un modèle à trois gènes a par la suite été présenté et incluait un

gène supplémentaire pour la détection par l’odorat de la maladie/infestation. Cependant, la littérature a permis de

démontrer que le comportement de résistance au Varroa possède une régulation beaucoup plus complexe que

celles présentées précédemment (Lapidge, et al., 2002; Oxley, et al., 2010; Spötter, et al., 2012; Tsuruda, et al.,

2012).

C’est Lapidge et al. (2002) qui ouvre le bal sur la complexité de la régulation de ce comportement, par la découverte

de sept régions génomiques qui sont associées au comportement en utilisant des marqueurs RAPD. À l’époque, le

génome de référence de l’abeille n’avait pas encore été publié, ce qui complique la comparaison des loci identifiés

dans cette étude pionnière et ceux détectés dans des travaux plus récents, qui utilisent le génome de référence.

L’étude de l’architecture génomique du comportement doit attendre huit ans avant d’être explorée de nouveau, cette

fois par Oxley, Spivak et Oldroyd (2010) par une approche de cartographie des QTL. Ils détectent six régions

génomiques associées avec le comportement hygiénique, plus spécifiquement influençant la désoperculation, le

retrait, l’apprentissage de l’olfaction (ces trois plus importantes se situant sur les chromosomes 2, 5 et 2

respectivement), le comportement social et la locomotion circadienne. Behrens et al. en 2011 analysent des

populations en Suisse, aussi par une approche de cartographie des QTL. Trois régions candidates sont trouvées sur

les chromosomes 4, 7 et 9. Cependant la forte épistasie (l’influence d’une région génomique sur l’expression d’une

autre région) dans ces trois régions génétiques complique leur utilisation dans un programme de sélection assistée

par marqueurs génétiques. Par la suite une autre étude (Tsuruda, et al., 2012) utilise une approche similaire et

identifie un QTL majeur sur le chromosome 9, contenant le gène « no receptor potential A » et le « dopamine

receptor gene ». Ce dernier joue un rôle dans la vision et l’olfaction chez la Drosophile. L’équipe de Kirrane (2015)

vise spécifiquement la région du chromosome 9 précédemment trouvée par Tsuruda et trouve le résultat inverse :

selon leurs analyses statistiques, cette région est négativement corrélée à l’expression du comportement VSH chez

l’abeille. L’article le plus récemment parût rapporte une étude d’association pangénomique, mais utilise des colonies

apparentées (Spötter, et al., 2016). Il identifie six régions génomiques fortement associées au VSH, situées sur les

20

chromosomes 2, 3, 5, 6 et 7, toutes à des positions différentes des précédentes études (deux sites sur le

chromosome 3). À partir de ces observations, six gènes candidats potentiellement responsables du trait étudié sont

suggérés pour quatre des six régions. En parcourant la littérature, on s’aperçoit que beaucoup d’études sur

l’architecture génomique du trait VSH, mais que pratiquement aucune d’entre elles ne s’accorde avec une autre.

Aucune étude ne vient confirmer les résultats d’une précédente et certaines donnent des résultats contradictoires. Il

reste donc du travail à faire pour comprendre la génétique qui affecte la résistance SMR et le comportement VSH

chez l’abeille mellifère. Le tableau III résume les résultats des travaux sur l’architecture génomique du

comportement VSH.

Il est suggéré que les gènes hypothétiques du comportement VSH sont liés aux fonctions olfactives des abeilles,

puisque les signaux olfactifs ont été démontrés comme étant les médiateurs généraux du comportement VSH

(Gramacho & Spivak, 2003; Swanson, et al., 2009). Leur rôle dans le comportement VSH n’ayant cependant pas été

clairement établi; il est possible que d’autres gènes en soient responsables.

Afin de mieux comprendre le comportement VSH et le trait SMR, de nouvelles études génomiques doivent être faites

pour élucider l’architecture génomique de ce trait. Les études mentionnées ci-dessus utilisent toutes une approche

d’analyse des QTL et/ou d’échantillonnage de colonies fortement apparentées et rétro croisées. Les études

classiques qui utilisent des familles pour réaliser les analyses de QTL sont efficaces pour identifier les gènes qui ont

des effets forts dans les traits mendéliens, mais leur efficacité est limitée dans les traits complexes communs

(Altmüller, et al., 2001). Pour explorer les traits quantitatifs qui sont contrôlés par plusieurs gènes, les études

d’associations pangénomiques (GWAS) présentent actuellement la meilleure approche possible : elles permettent

d’évaluer l’ensemble du génome de milliers d’individus non apparentés pour identifier des régions génomiques

associées au trait étudié (McCarthy, et al., 2008; Parejo, et al., 2016). Les prochaines sections décrivent les études

d’association pangénomiques dans le détail, afin de permettre au lecteur de comprendre le projet de maîtrise, qui fait

usage de cette approche méthodologique.

21

Tableau III. Régions génomiques et gènes candidats potentiellement associées au comportement VSH et/ou au trait SMR trouvés par différentes études utilisant diverses approches méthodologiques.

* La méthodologie de l’étude identifiait des régions QTL par un score de probabilité de transmission des allèles (score LOD). ** La méthode d’évaluation du phénotype binaire transforme les valeurs quantitatives des phénotypes en valeurs binaires. *** La méthode d’évaluation du phénotype Freeze-killed brood vise le comportement hygiénique spécifiquement, plutôt que le trait SMR/comportement VSH.

Site associé Chr Position Gène Candidat Méthode Étude

AMB-00457689 3 10 425 353 pb Récepteur adénosine et activateur de kinase 5

cycline dépendant

GWAS et Cartographie QTL

(Utilise génome de référence) Spötter et al., 2016

AMB-00386078 7 8 722 970 pb Récepteur octopamine beta-2R (octobeta2R)

AMB-00573174 2 1 657 342 pb Protéine de liaison odorante 1 (obp1)

AMB-00913945 3 8 984 417 pb Récepteur adénosine et activateur de kinase 5

cycline dépendant

AMB-01079196 5 12 195 pb Pas de bon candidat

AMB-00745078 6 1 398 456 pb Pas de bon candidat

Site 9224292 9 9 224 292 pb Associé avec la désoperculation et le

comportement de nettoyage (composantes du trait VSH)

Cartographie QTL (Utilise génome de référence)

Kirrane et al., 2015

QTL* 1 ≈10 000 000 pb GB19123, GB14179, etc. Phénotype binaire** Cartographie QTL

(Utilise génome de référence) Tsuruda et al., 2012

QTL* 9 ≈9 150 000 pb GB14619, GB12004, etc.

QTL* 2 317.5 cM A4 Cartographie QTL

Freeze-killed brood*** (Utilise génome de référence)

Oxley et al., 2010 QTL* 5 190 cM GB12487, GB11846, etc.

QTL* 2 30 cM GB12829, GB19509, etc.

inconnu - - Aucun précisé Freeze-killed brood***

(pas de génome de référence) Lapidge et al., 2002

22

1.4 Les études d’association pangénomiques

L’étude d’association est un outil très utilisé en génomique, qui permet d’identifier des portions de génome dont la

variation allélique coïncide avec la variation d’un phénotype, par exemple une maladie, une résistance ou un

caractère recherché. Les études d’association pangénomiques (Genome Wide Association Studies, GWAS) ont été

initialement conçues dans l’optique de fournir une approche efficace et non biaisée pour détecter les allèles liés à

l’architecture génomique contrôlant des traits génétiquement complexes non mendéliens (Cantor, et al., 2010).

De façon générale, le but des études d’association de populations est d’identifier des polymorphismes qui vont varier

systématiquement entre les individus exprimant différentiellement un trait. Cette corrélation permet de représenter

les effets d’allèles qui augmentent l’expression d’un phénotype. On parle souvent d’allèles qui augmentent le

« risque » dans ce type d’étude, car elles sont fréquemment utilisées pour identifier des allèles qui sont associés au

risque augmenté d’une maladie. Les études d’association pan-génomiques sont basées sur l’utilisation de tests

statistiques pour identifier les régions génomiques associées au comportement à l’étude plutôt que sur l’inférence

génétique (c.-à-d. transmission du trait), comme c’est plutôt le cas pour les études de cartographie des QTLs. Le

fonctionnement d’une GWAS sera décrit en détail dans cette section, avec un accent sur la manière appropriée de

réaliser ce type d’étude pour identifier l’architecture génomique du trait de résistance au Varroa chez l’Abeille

mellifère. La dernière section de ce chapitre aborde l’interprétation des résultats d’une GWAS et les facteurs pouvant

les influencer.

1.4.1 Comment fonctionne une étude d’association?

Les marqueurs génétiques

Un marqueur génétique est une variation dans la séquence d’ADN qui est liée à un trait désiré. Les études

d’association utilisent les marqueurs comme outils pour faire le lien entre le trait et la région génomique dans laquelle

le marqueur se situe (Bush & Moore, 2012). La région génomique est représentée par le marqueur grâce au

déséquilibre de liaison (voir définition plus loin). Les marqueurs génétiques sont des caractéristiques d’une séquence

d’ADN donnée et permettent de distinguer des individus entre eux. Un marqueur a une position physique connue sur

un chromosome, que l’on peut qualifier comme le site du marqueur.

Il existe deux types généraux de variations, soit les variations nucléotidiques (NV), qui sont la variation d’un seul ou

de plusieurs nucléotides avoisinants (single nucleotide variants, SNVs et multi-nucleotide variants, MNVs) et les

variations structurales (structural variants, SV) qui sont des réarrangements génétiques plus importants (>50pb) de

plusieurs types : insertions, délétions, inversions, translocations, duplications et variants de nombre de copies (copy

23

number variants, CNVs) (Tattini, et al., 2015). Ces variations composent la diversité génétique caractéristique des

populations et des individus, qui est le résultat des forces évolutives telles que la sélection, les mutations, la dérive

génétique et les évènements fondateurs.

Ce sont les polymorphismes nucléotidiques singletons (SNPs), un type de NV, qui sont les marqueurs les plus

fréquemment retrouvés dans les génomes et aussi les plus fréquemment utilisés dans les études génétiques (Bush

& Moore, 2012). Un SNP est un changement d’une seule paire de base, habituellement par un nucléotide alternatif, à

une position précise dans la séquence génomique (Evans, et al., 2013). En somme, un SNP est la présence de

différents allèles possibles à un même locus (aussi dit au même site). Pour que le changement d’un nucléotide soit

considéré être un SNP, il doit se produire à une fréquence élevée, généralement établie à ≥1 % dans une population

donnée (Genomes Project Consortium, 2010). L’allèle alternatif, soit l’allèle le moins fréquent à la position d’un SNP,

est dénoté comme l’allèle mineur et on réfère à la fréquence d’allèle mineur (MAF) pour déterminer si un NV est un

SNP (Wang, et al., 2018). Les SNPs ont généralement un impact faible sur les systèmes biologiques, ce qui explique

leur fréquence élevée. Grâce à la dégénérescence du code génétique, la présence d’un SNP dans une séquence

codante n’implique pas nécessairement un changement dans la séquence d’acides aminés de la protéine et donc

d’impact fonctionnel. Toutefois, il arrive qu’un SNP ait un impact fonctionnel, provoquant un changement dans la

stabilité du transcrit ARNm ou dans les caractéristiques de la protéine résultante.

Dans une étude d’association, il faut choisir un effet prédit des marqueurs sur le phénotype, donc l’effet attendu qu’ils

auront sur le phénotype. Il existe plusieurs effets possibles :

• Combinaison de la taille des effets (combining effect sizes) : La méthode de méta-analyse de la taille des

effets utilise l’information de la taille des effets du variant et calcule la somme de la taille des effets qui peut

être traduite de manière significative, par exemple une augmentation de 1,25 dans la probabilité de

développer la schizophrénie.

• Modèle à effets fixes : Ce modèle assume que l’effet génétique réel dans l’ensemble du jeu de données est

le même et que les différences sont dues uniquement au hasard. Aussitôt que de l’hétérogénéité est

présente, l’hypothèse sur laquelle ce modèle est basé est rejetée.

• Modèle d’effets aléatoires : Il est assumé que chaque jeu de données possède ses véritables effets sous-

jacents au sein d’une population d’effets sous-adjacents.

Le déséquilibre de liaison

Le déséquilibre de liaison (LD) est la tendance de deux ou plusieurs loci à être hérités ensemble plus souvent que ce

qui est attendu au hasard. Mathématiquement, le LD entre deux loci (potentiellement deux marqueurs, comme deux

SNPs) sur le même chromosome peut être quantifié comme la probabilité que les allèles présents à ces deux loci

soient transmis ensemble dans la population au travers des générations (Bush & Moore, 2012). Le terme

24

déséquilibre de liaison est un effort pour décrire mathématiquement le changement des variations génétiques d’une

population dans le temps. Lorsque le LD est suffisamment grand, le génotypage d’un site peut transmettre

pratiquement toute l’information du génotype du deuxième site avec lequel il est lié. Ce concept est utilisé pour faire

de l’inférence lors du génotypage d’individus, que nous verrons plus loin.

La littérature offre plusieurs méthodes pour mesurer le LD (Devlin & Risch, 1995), bien qu’elles soient toutes

ultimement reliées à la différence entre la fréquence observée de cooccurrence pour deux allèles (deux marqueurs)

et la fréquence attendue si les deux marqueurs étaient indépendants. Les deux mesures les plus communément

utilisées sont D’ et r2 (Devlin & Risch, 1995). Dans le cas des analyses génétiques, LD est généralement rapporté en

termes de r2 : une mesure statistique de corrélation. Un r2 de grande valeur numérique indique que les deux

marqueurs transmettent de l’information similaire. La mesure r2 est sensible à la fréquence allélique du marqueur en

aval et peut seulement présenter une grande valeur numérique dans les régions où D’ présente aussi une valeur

élevée.

Un aspect souvent négligé lorsque l’on considère le LD est la limitation des technologies actuelle dans son calcul. Il

est impossible de mesurer directement la fréquence des haplotypes dans un échantillon, parce que chaque SNP est

génotypé de manière indépendante et parce que la phase du chromosome d’origine de chaque allèle est inconnue.

La présence de LD implique que lors d’une étude d’association, un SNP associé avec le trait étudié est dans l’un des

deux cas suivants :

1) Le SNP directement génotypé est causal : il influence directement le système biologique qui mène

ultimement au phénotype (association directe). On appelle aussi parfois ce SNP « SNP fonctionnel ».

2) Le SNP génotypé n’est pas celui qui influence le trait étudié, il s’agit d’un SNP marqueur (SNP qui capture

la variation des sites proches dans le génome) en grand LD avec le SNP (ou autre variant) causal. À cause

du LD, le SNP marqueur est statistiquement associé avec le phénotype (association indirecte).

Puisque ces deux résultats possibles existent, un SNP significativement associé ne devrait pas être interprété

comme la variation causale et peut nécessiter des études additionnelles pour identifier la position précise du SNP

fonctionnel (Ioannidis, Thomas, & Daly, 2009). Un variant causal peut être un variant commun, rare ou un variant de

structure. De plus, un variant causal peut se situer sur une région transcrite ou non. Le variant causal peut être

directement sur le gène causal, ou dans une région adjacente qui régule l’expression du gène causal. Il est aussi

possible que plusieurs gènes causaux soient associés à un variant causal situé dans une région régulatrice qui

impacte l’ensemble de ces gènes (Ioannidis, Thomas, & Daly, 2009).

25

Le LD est un facteur crucial de la réussite des études d’association et le demeura jusqu’à ce que le reséquençage de

génome complet devienne plus largement accessible. Peu d’études ont les moyens de séquencer avec une

profondeur suffisante l’ensemble des milliers de polymorphismes nucléotidiques qui sont présents sur un génome

donné, comme celui de l’abeille. Le LD nous permet d’avoir une chance d’observer les effets d’un variant causal,

même s’il n’a pas été séquencé, par l’intermédiaire d’un marqueur avec lequel il est en LD. Bien que le LD soit

bénéfique, voire nécessaire, aux études génomiques, il présente un inconvénient considérable. La saturation du

génome par les SNPs peut mener deux SNPs séquencés à être en LD, ce qui va à l’encontre de l’hypothèse

d’indépendance des marqueurs des modèles statistiques utilisés pour l’association. Ce problème peut être évité en

évaluant le LD entre les SNPs et ne conservant qu’un seul SNP parmi un groupe de SNPs liés (Paschou, et al.,

2008).

1.4.2 Étapes d’une étude d’association

Les GWAS ont pour objectif de d’identifier des régions génomiques qui influencent un trait en identifiant des

marqueurs significativement associés au trait par des tests statistiques d’association. Pour ce faire, il faut réaliser

l’évaluation quantitative du phénotype dans une population et identifier des marqueurs qui sont présents dans cette

même population pour ensuite réaliser les tests d’associations statistiques.

Les GWAS suivent toujours un processus général similaire (l’ordre des premières étapes peut varier avec le modèle

d’échantillonnage) :

1) L’échantillonnage

2) L’évaluation du phénotype

3) Le génotypage (le séquençage et la découverte de variations)

4) La filtration des variations

5) L’association génotype-phénotype

6) L’analyse des résultats

Chacune des étapes sera explorée plus en détail ci-dessous pour permettre une meilleure compréhension du

fonctionnement et des difficultés d’une GWAS.

1) L’échantillonnage

Pour réaliser une étude d’association, il faut nécessairement échantillonner une population. La réalisation de la

GWAS se fait généralement par l’utilisation de l’une des trois méthodes d’échantillonnage suivantes, dépendamment

du trait et des ressources disponibles : cas-contrôle, cohorte et famille génétique. Le premier modèle, cas-contrôle,

26

les individus sont tirés de la même population et sélectionnés selon l’expression de leur phénotype. C’est une

approche rapide et optimale pour l’étude des traits rares. Leur désavantage principal est que cette approche est

sujette à donner des erreurs de stratification de population. Le deuxième modèle, la cohorte, est plus représentative

de la population de laquelle elle est tirée. Le phénotype des individus échantillonnés est évalué uniformément avant

de faire le génotypage. L’avantage certain de cette méthode est qu’il n’y a pas de biais pour la sélection des

individus qui expriment fortement ou non le phénotype et qu’elle présente beaucoup moins de biais que le cas-

contrôle. Cette approche permet aussi l’évaluation d’un phénotype d’expression continue dans la population. Un

autre avantage est que l’on peut par la suite combiner les données d’autres études ou d’autres échantillonnages

pour augmenter la puissance des analyses (P. R. Burton, 2007). Le désavantage majeur est que l’échantillon doit

être de grande taille pour l’expérience, et davantage encore si la fréquence du phénotype est basse. Cette méthode

n’est pas adaptée à l’étude des traits rares. Finalement, la troisième méthode est le modèle familial, pour laquelle

l’utilisation d’individus apparentés est faite, comme le laisse supposer son nom. Ce type d’étude mise sur le LD entre

les allèles transmis ou non qui affectent l’expression du trait chez la descendance. Cette approche contrôle pour la

structure de population et permet la vérification de la transmission mendélienne des traits. Le modèle familial est

souvent associé à la méthode de cartographie des QTLs et est particulièrement utile pour les traits rares, mais perd

de la puissance quand l’architecture génétique est polygénique (Risch, 2001).

Pour une GWAS visant l’étude du trait SMR, la méthode d’échantillonnage appropriée est l’étude de cohorte. Lors de

la prise d’échantillon, on vise à obtenir un ensemble d’individus dans la population qui sont non apparentés. Une

population dont les individus sont apparentés est nécessairement plus proche génétiquement que dans une

population non apparentée, qui contient une plus grande diversité génétique. La généalogie proche pour plusieurs

individus implique un biais dans les fréquences alléliques à certains marqueurs, à cause de l’hérédité de ces

derniers. Lors des tests d’association, un marqueur très présent pour une famille qui partage un trait fortement

exprimé peut paraître faussement associé à ce trait à cause de sa fréquence allélique, ce que l’on qualifie de faux-

positif. C’est pourquoi un échantillon d’individus non apparentés, donc provenant de sites différents, est nécessaire

pour éviter que le biais de fréquence allélique, souvent associé à l’isolation des populations à des sites

géographiques. Cependant, la réalité n’est pas aussi simple : en fait les relations de parenté entre les individus

échantillonnés sont inconnues et assumées être éloignées. Si on observe une forte corrélation entre un marqueur et

l’expression forte de la résistance, ce n’est pas nécessairement parce que ce marqueur est associé à l’expression de

la résistance. Puisqu’on ne connaît pas les relations entre nos individus dans notre échantillon, il se peut qu’un petit

ensemble d’individus qui exprime similairement le phénotype ait un ancêtre commun relativement récent. Cette

ascendance partagée fait de ce petit groupe une sous-population dans notre échantillon; c’est pourquoi il faut

prendre en compte la stratification de la population lors des tests d’association statistiques, afin de ne pas causer

d’inflation des tests avec des faux-positifs dus à la stratification de la population.

27

Ainsi, pour réaliser une GWAS sur le trait de résistance au Varroa, un facteur important dans la sélection des

colonies à tester serait le site de collecte des individus, pour essayer de limiter la parenté et augmenter la diversité

génétique dans l’étude et ainsi éviter les biais provoquant des faux-positifs.

2) L’évaluation du phénotype

Le type de phénotype évalué doit être pris en considération pour déterminer le type d’analyses subséquentes dans

une étude d’association. Nous avons déjà établi précédemment que la résistance SMR est un trait phénotypique

quantitatif. Nous aborderons dans la section du génotypage et des tests d’association comment cela affecte la

méthodologie de notre étude. Il est possible d’ajouter l’évaluation d’autres phénotypes pouvant servir de cofacteurs

pour expliquer le phénotype principal en plus des marqueurs génétiques, puisque ceux-ci ne sont pas les seuls

facteurs déterminants du phénotype et que l’environnement présente un effet important qui ne doit pas être négligé.

3) Le génotypage

Le génotypage est une étape complexe dont l’objectif final est l’obtention de marqueurs robustes pour la réalisation

de tests statistiques d’association avec le phénotype. Simplement, le génotypage est l’identification des variations

génétiques présentes chez les individus échantillonnés et de leur position spécifique dans le génome. Le génotypage

se réalise par le séquençage de l’ADN des individus, suivi de l’analyse des séquences obtenues pour en faire

ressortir les variations nucléotidiques qui seront utilisées comme marqueurs. L’analyse des séquences regroupe

toutes les étapes bio-informatiques qui permettent de passer de séquences désordonnées du génome à un produit

final d’un ensemble de marqueurs robustes.

Génotypage par séquençage

Les technologies de séquençage à Haut-débit sont la pierre d’achoppement de l’engouement actuel pour les études

d’association pan-génomiques (Metzker, 2010). Sans ces technologies, les coûts temporel et monétaire seraient trop

prohibitifs pour la réalisation de ce type d’étude pour une grande majorité de laboratoires.

Les méthodes actuelles pour réaliser un échantillonnage pan-génomique des marqueurs SNP chez un individu ont

évolué à partir de méthodes réduisant la complexité du génome, autrement dit en effectuant un séquençage partiel

de l’ensemble du génome. Le séquençage Haut-débit permet de faire le séquençage de génome complet (Whole

Genome Resequencing, WGR), mais il s’agit d’un processus dispendieux, qui l’est d’autant plus que la taille du

génome est grande, sans compter que ces coûts dépendent du nombre d’individus séquencés. Étant donné

l’importance de la taille de l’échantillon pour les GWAS, le WGR n’est simplement pas une approche viable. C’est ce

qui rend la réduction de la complexité du génome séquencé nécessaire, notamment pour assurer un chevauchement

28

suffisant de la couverture des séquences, particulièrement pour les espèces avec un grand génome. Ces méthodes

incluent l’amplification par PCR (polymerase chain reaction) longue portée de régions spécifiques, l’utilisation de

sondes et d’autres méthodes d’hybridation d’ADN ou de capture de séquences. Toutes ces méthodes sont

fastidieuses technologiquement, chronophages et onéreuses.

En 2011, Elshire et al. présentent une méthode de génotypage par séquençage (GBS), qui utilise des enzymes de

restriction (RE) pour permettre un séquençage rapide et précis de fragments de l’ensemble du génome et qui,

contrairement aux anciennes méthodes, fonctionne sur les grands génomes. Le GBS est une approche rapide et

robuste qui permet simultanément la découverte et le génotypage de marqueurs moléculaires à l’échelle du génome.

L’utilisation des RE permet d’éviter les régions répétées, ce qui facilite l’étape d’alignement des séquences

homologues dans les analyses bio-informatiques d’espèces présentant une grande diversité génétique (Elshire, et

al., 2011). De plus, le GBS fait l’ajout d’un code-barres, ce qui permet de réduire les coûts et le temps de

séquençage en joignant l’ensemble des échantillons à séquencer dans un canal de séquençage unique. Cette

méthode constitue une amélioration de la première méthode de GBS utilisant des marqueurs de sites de restriction

associés à l’ADN, appelée « RAD sequencing » (Baird, et al., 2008).

La méthode GBS fonctionne de la manière suivante :

Il faut d’abord sélection des enzymes de restriction : Elles doivent produire une coupure laissant 2 à 3 pb seules pour

permettre la ligation de l’adaptateur et ne pas affecter les régions avec beaucoup de séquences répétées. Il faut un

nombre de codes-barres égal au nombre d’échantillons. Ces codes-barres doivent être liés avec un des deux types

d’adaptateurs, soit l’adaptateur qui se lie au site de coupure produit par la première RE. La préparation de librairie

pour le séquençage débute par le dépôt des échantillons individuels dans les puits d’une microplaque, chacun en

présence de la solution des adaptateurs et d’un code-barres propre. Ensuite, les REs sont ajoutés et la digestion de

l’ADN se fait. Cette étape terminée, la liaison des adaptateurs déjà présents dans le mélange se fait par l’ajout d’un

tampon de ligation avec de l’ATP et T4 ligase. Par après, tous les échantillons munis de leur code-barres spécifique

sont combinés, puis l’amplification des fragments purifiés est faite par PCR (polymerase chain reaction). La

préparation de librairie étant terminée, une sélection des fragments se fait en fonction de leur taille pour optimiser la

qualité du séquençage. Finalement, le séquençage des séquences est fait par une technologie de séquençage Haut-

débit au choix.

Les échantillons doivent être évalués pour la qualité de l’extraction d’ADN et sa concentration avant de faire la

préparation de librairie et le séquençage, simplement parce qu’une concentration trop basse et/ou une mauvaise

qualité d’ADN produit une mauvaise couverture de génotypage. De plus, il faut standardiser la quantité d’ADN pour

tous les échantillons afin d’obtenir un nombre de fragments égal et ne pas biaiser les analyses subséquentes.

29

4) Analyses des données de séquençage

L’étude d’association nécessite des analyses bio-informatiques qui permettent d’extraire un jeu de données de

variations des données brutes de séquençage. Ces analyses peuvent être divisées en quatre grandes étapes : A) Tri

de qualité des séquences, B) Alignement des séquences, C) Découverte des variations et D) Filtration des

variations. Le jeu de données de variations au terme de ce processus sera directement utilisé pour faire l’association

statistique avec le phénotype afin d’identifier des régions génomiques qui impactent ce phénotype. Voyons chacune

de ces étapes plus en détail :

A) Tri de qualité des séquences

La toute première étape est de vérifier la qualité des séquences brutes et d’éliminer celles qui sont sous le seuil de

qualité admis. La qualité est une mesure de confiance de l’appareil sur la longueur du segment pour chacune des

bases qu’il a attribuée. Le score de qualité Phred est la mesure la plus fréquemment utilisée pour déterminer la

confiance de la plateforme de séquençage. Le score indique la probabilité qu’une base donnée ait été attribuée

incorrectement par le séquenceur (Ewing & Green, 1998). L’élimination des séquences ayant un mauvais score de

qualité permet d’éviter des associations faussement positives dans les analyses statistiques ultérieures (Wang,

Cordell, & Steen, 2018). À la suite de l’étape de tri de qualité, il faut faire le démultiplexage, c’est-à-dire identifier les

séquences qui comportent un code-barres identique pour les regrouper par échantillon. Lorsque les séquences

propres à chaque échantillon sont regroupées, le code-barres sera coupé pour chacune d’entre elles, ainsi que

l’adaptateur.

B) Alignement des séquences

Après le tri de qualité et le démultiplexage des séquences, il faut faire le réassemblage des fragments de séquences

qui ont été créés pour constituer une représentation du génome originel. Le processus d’assemblage est complexe

en absence d’un génome de référence. Cependant, lorsqu’un génome de référence est disponible on parle plutôt

d’alignement des séquences sur le génome de référence, ce qui simplifie grandement la tâche de l’utilisateur. Cet

alignement a une certaine tolérance pour les mésappariements, sans quoi les variations génétiques seraient

entièrement éliminées.

Les termes « profondeur de séquençage » et « couverture » sont régulièrement employés pour décrire la qualité de

notre assemblage. La profondeur est une mesure du nombre de séquences uniques qui couvrent un locus donné du

génome et est une mesure de fiabilité de la région couverte dans la séquence assemblée. Une plus grande

profondeur signifie un meilleur consensus de la région séquencée pour chaque échantillon et donc une détection

plus précise des variations interindividuelles. La couverture, exprimée en pourcentage, indique le nombre de

30

séquences uniques qui incluent un nucléotide donné dans la séquence alignée. Elle nous informe de la taille de notre

échantillonnage par séquençage sur le génome entier, soit la proportion du génome qui a été testée pour trouver des

variations de séquences (des marqueurs).

C) Découverte des variations

L’étape suivante de l’analyse est la détection des variations dans les séquences. La découverte de variations est le

processus par lequel on détermine de façon précise les variations entre un échantillon, d’autres échantillons et le

génome de référence. Ceux-ci peuvent être des SNPs, des petites insertions ou des indels, ou encore des variations

structurales plus grandes (transversion, translocation, variations du nombre de copies).

D) Filtration des marqueurs

Le contrôle de qualité est essentiel dans les GWAS et les mesures doivent être rigoureuses pour éviter de produire

des faux-positifs lors de l’association statistique. Il n’existe pas de consensus dans la littérature sur les procédures

statistiques appropriées pour filtrer les variations dans les études d’association génomiques (Balding, 2006).

Cependant, certaines analyses préliminaires sont d’utilisation courante pour l’optimisation du jeu de marqueurs avec

lequel sera faite l’analyse d’association. Entre autres, les données manquantes, la fréquence d’allèle mineur (MAF),

le test d’équilibre Hardy-Weinberg (HWE), l’hétérozygotie et l’inférence de phase sont souvent inspectés. Ils

informent sur les marqueurs qui pourraient potentiellement biaiser l’association par la production de faux-positifs ou

de faux-négatifs. Évidemment, la raison pour laquelle aucun consensus n’existe est que chaque étude comporte ses

particularités. Une filtration bénéfique à une analyse pourrait être néfaste à une autre. Les paramètres propres à

chaque projet, tels que la méthode d’échantillonnage et les caractéristiques génétiques de l’espèce étudiée, doivent

être pris en compte. Outre les filtrations mentionnées précédemment, une filtration de base se fait. Elle remplit

plusieurs fonctions, comme le retrait de toutes les variations dans le jeu de données qui ne sont pas situées sur des

chromosomes. Les études qui génèrent le génome de référence ne peuvent pas assembler parfaitement le génome

et incluent donc toujours des contigs, des segments d’assemblage qui n’ont pas pu être placés dans l’assemblage

final et qui sont sans position claire dans le génome. À cause de leur nature incertaine, il n’y a aucun bénéfice à

inclure les variations de ces séquences. La filtration de base élimine aussi toutes les variations qui ne sont pas des

SNPs et permet de filtrer un nombre minimum et maximum d’allèles trouvé pour chaque individu à chaque site.

La raison de la filtration des données manquantes est que la présence d’individus avec une fréquence trop élevée de

données manquantes affecte le calcul des fréquences alléliques (car les sites sans information sont tout de même

comptabilisés dans le calcul) et des données manquantes des sites. Ces individus doivent donc être éliminés du jeu

de données avant la filtration des sites. La présence de beaucoup de données manquantes pour un individu implique

généralement une mauvaise qualité d’ADN envoyé au séquençage (Zeng, et al., 2015). Les sites doivent aussi être

filtrés pour ce critère. Pour un SNP génotypé, si plusieurs individus présentent des données manquantes à ce site,

31

cela signifie que le marqueur est difficile à génotyper, ce qui implique un haut taux d’erreur de génotypage potentiel.

Le seuil généralement admis de données manquantes est de 5 % pour un marqueur donné (Anderson, et al., 2010).

Les erreurs de séquençage sont relativement communes et affectent habituellement une seule séquence à la fois.

Ces erreurs peuvent donc être interprétées comme des SNPs très rares, présents dans une seule séquence. Pour

éviter ce problème, les allèles ayant une fréquence trop rare (seuil arbitraire) sont retirés du jeu de données. C’est ce

que l’on appelle la filtration de fréquence de l’allèle mineur. Le seuil est habituellement établi à 1 % pour un

échantillon d’individus relativement petit, mais peut être abaissé à 0,1 % pour un plus gros échantillon (Wang,

Cordell, & Steen, 2018). Quoiqu’il en soit, le pouvoir statistique des SNPs rares reste excessivement faible

(McCarthy, et al., 2008).

Le test d’équilibre Hardy-Weinberg (HWE) est une autre filtration utilisée pour réduire la présence de fausses

variations dans notre jeu de données. En résumé, l’hypothèse d’Hardy-Weinberg est que les fréquences allélique et

génotypique peuvent être estimées dans une population. Il s’agit d’un principe de base en génétique des

populations, appliqué à une population théorique, soit à l’équilibre mutation dérive et se reproduisant en panmixie

(association aléatoire des gamètes) : pour un allèle A de fréquence-p et un allèle alternatif a de fréquence q, les

fréquences attendues pour les génotypes AA, Aa et aa sont p2, pq et q2 respectivement. On calcule la déviation de

l’HWE des fréquences observées en utilisant le test du x2. Quand les ratios d’homozygotie et d’hétérozygotie varient

de la prédiction avec HWE, on peut soupçonner que la présence d’erreurs de génotypage, la petite taille de

l’échantillon ou la stratification de la population soit en cause (Wittke-Thompson, Pluzhnikov, & Cox, 2005).

Cependant, la présence de LD entre deux marqueurs provoque la violation des prédictions de HWE, sans compter

que des échantillons de populations naturelles vont nécessairement présenter de la stratification de population dans

nos échantillons. Enfin, le modèle HWE se basant sur la reproduction aléatoire dans une population (c.-à-d.

panmixie), il est peu approprié pour des organismes qui subissent une pression de sélection artificielle, comme c’est

le cas en agriculture en général et en apiculture, en particulier : la reproduction se fait souvent par sélection de

reines.

Finalement, les sites trop hétérozygotes doivent être filtrés (retirés) du jeu de données avant de faire l’imputation

(inférence de phase), car leur présence affecte la qualité de l’imputation (crée de fausses associations). Une

hétérozygotie trop haute peut être indicatrice de contamination.

32

L’imputation est utilisée pour gérer les données manquantes aux sites. Il s’agit de remplacer les marqueurs

manquants par les marqueurs qui seraient attendus considérant l’information des autres marqueurs de l’individu en

comparaison à des bases de jeux de données. L’imputation a pour avantage de fournir de l’information exhaustive

pour plusieurs marqueurs analysés et de rendre possible l’utilisation de marqueurs qui n’ont pas été génotypés. De

plus, la réalisation de méta-analyses devient possible par la combinaison de plusieurs jeux de donnés issus de

différentes plateformes de séquençage, grâce à l’imputation (Zeng, et al., 2015). L’imputation est effectuée après

avoir complété toutes les étapes de filtrations, sur l’ensemble des marqueurs robustes retenus pour l’analyse

d’association génotype-phénotype.

5) L’association génotype-phénotype

Après avoir produit un jeu de marqueurs pan-génomiques robuste, il ne reste qu’à faire l’association avec le

phénotype pour détecter des corrélations. Malgré la facilité grandissante de l’exécution d’études génomiques grâce à

la baisse des coûts de séquençage à Haut-débit et au développement d’outils informatiques plus accessibles aux

utilisateurs, l’identification d’associations génotype-phénotype reste complexe et présente plusieurs défis statistiques.

Inflation statistique

Une difficulté majeure dans les études d’associations est que l’effet de liaison génétique entre les marqueurs et le

phénotype sur lequel on mise pour trouver les régions génomiques sous-jacentes est aussi affecté par plusieurs

facteurs additionnels qui peuvent contribuer à l’association que l’on observe. Ces facteurs additionnels provoquent

une inflation des tests statistiques et donc la génération de nombreux faux-positifs. Plusieurs de ces facteurs ont été

soulevés dans les paragraphes précédents.

Beaucoup d’études se sont penchées sur cette problématique afin d’optimiser les tests statistiques pour limiter, voir

tenter d’éliminer ces facteurs de biais dans l’association (Cantor, Lange, & Sinsheimer, 2010). La structure de

population et les degrés variables de parenté entre les individus (présence de dépendance et d’indépendance entre

les individus) sont deux associations indirectes et non causales communes qui biaisent les analyses. D’autres

facteurs peuvent causer des associations non-causales, comme le sexe ou l’âge (Vilhjalmsson & Nordborg, 2013).

De tels facteurs doivent être utilisés comme covariables pour corriger le modèle statistique employé dans l’étude.

Malgré les efforts faits lors de l’échantillonnage pour que l’échantillon soit composé d’individus d’origines diverses

ayant une grande diversité génomique, aucune population n’est exempte de l’inflation causée par la structuration en

différentes populations (Zeng, et al., 2015) : les régions génomiques dans une population peuvent avoir évolué

différemment par rapport à d’autres populations, ce qui produit une fréquence allélique propre à une population

(Zondervan & Cardon, 2004). Dans de tels cas, l’utilisation classique d’une méthode d’échantillonnage cas-contrôle

33

classique ne permet pas d’éliminer la présence associations faussement positives. Il faut plutôt intégrer au modèle

statistique des méthodes qui prennent en compte la stratification génétique du jeu de données complet.

La relation entre les individus peut être évaluée dans le jeu de données par l’Identité-par-l’état (Identity-by-state,

IBS), qui mesure la proportion de deux génomes d’individus qui partagent 0, 1 ou 2 allèles communs. Le IBS est

calculé pour les autosomes en utilisant les SNPs en faible LD (r2<0.2). Des individus partageant 2 allèles à tous les

locus ont un IBS = 1 et sont des jumeaux monozygotes (ou un duplicata). Des parents comparés à leur enfant, ou

deux frères/sœurs auront un IBS = 0.5 attendu (dans le cas d’héritabilité d’un ancêtre commun, on parle plutôt de

IBD, identity-by-descent). Des méthodes peuvent être employées pour prendre en considération la relation entre

deux individus proches, mais une approche rigoureuse élimine tous les sujets qui ont un IBS > 0.1875 (Wang,

Cordell, & Steen, 2018).

Un des grands problèmes rencontrés est le manque de précision de l’évaluation de l’effet d’un marqueur, puisque le

nombre de marqueurs dépasse largement le nombre d’individus dans l’échantillon. Idéalement, le nombre d’individus

devrait dépasser le nombre de marqueurs (Cantor, Lange, & Sinsheimer, 2010), mais considérant les coûts de la

prise d’échantillon de quelques dizaines d’individus par rapport aux milliers de marqueurs produits par le

séquençage, cet objectif n’est simplement pas réaliste. Les tests statistiques doivent donc composer avec un nombre

d’observations du phénotype relativement petit pour un très grand nombre de variables prédictives testées

simultanément, ce qui représente un défi statistique d’envergure (Zeng, et al., 2015). Effectivement, si le nombre de

marqueurs est beaucoup plus grand que le nombre d’observations du phénotype, on arrive à une infinité de solutions

avec les méthodes comme celle des moindres carrés. Il s’agit d’un problème classique en statistiques pour lequel

plusieurs méthodes de résolution ont été proposées. Parmi elles, il existe la méthode des composantes principales,

la méthode de matrice de parenté et les méthodes avec une présélection des marqueurs, qui sont élaborées ci-

dessous.

Méthode des composantes principales

Certaines méthodes misent sur la réduction de la quantité d’information génomique et phénotypique en produisant

un nombre restreint de combinaisons linéaires dont les coefficients sont calculés pour produire avec la corrélation

globale entre les deux un résultat maximal. Une de ces méthodes qui est particulièrement utilisée est la méthode des

composantes principales (Principal Component Analysis, PCA). La technique PCA met l’accent sur la variation dans

un jeu de données et en fait ressortir les tendances fortes. Elle permet d’identifier des individus qui varient de façon

aberrante à cause de la structure de population (Price, et al., 2006) (Patterson, Price, & Reich, 2006). De façon

générale, la PCA est un outil de réduction de dimensions qui peut être utilisé pour réduire un gros ensemble de

34

variables à un petit ensemble qui contient la plupart de l’information initiale. Elle arrange toutes les composantes

principales (PCs) en fonction de leur variance explicative (Price, et al., 2006). Elle est souvent utilisée en parallèle

avec la méthode EIGENSTRAT comme covariables lors des tests statistiques d’association pour éviter les biais de la

substructure de population. La méthode EIGENSTRAT fait des combinaisons linéaires des variables originales

pondérées selon leur contribution dans l’explication de la variance dans une dimension orthogonale particulière. La

méthode EIGENSTRAT permet d’estimer l’effet de la variation liée à l’héritage génétique à l’aide des données de

PCs générées à partir des données de génotypage. Le ratio des EIGENVALUES est le ratio de l’importance

explicative des facteurs par rapport à la variable. La PC explique la plus grande partie possible de la variabilité dans

les données. Chaque composante subséquente explique la plus grande variabilité restante possible. Dans le cas

spécifique de l’utilisation en génomique, la matrice de génotype est normalisée et transformée par combinaison

linéaire des SNPs. Le premier vecteur de la matrice convertie désigne la première PC, qui explique la plus grande

partie de la variation dans des données de génotype, suivi par la deuxième PC et ainsi de suite. Un individu est

considéré comme aberrant lorsqu’il dévie par au moins six standards de la moyenne des premiers PCs (Price, et al.,

2006).

Méthodes de matrice de parenté génomique

Ces méthodes sont fondées sur l’idée que dans certaines conditions il est équivalent de décrire la composante

génétique du phénotype évalué soit comme une somme d’effets de marqueurs, soit comme une valeur génétique

additive issue d’une distribution multinormale particulière (Habier, Fernando, & Dekkers, 2007). La structure de la

variance de cette distribution est représentée de manière proportionnelle dans ce que l’on appelle une « matrice de

parenté génomique ». La matrice de parenté génomique est composée d’éléments i, j dont chacun est une fonction

des allèles des marqueurs présents à la fois chez i et j. En somme, la parenté est évaluée par la similarité entre le

jeu de donnée de marqueurs trouvés pour chaque individu. Selon le concept de ségrégation mendélien, deux frères

auront théoriquement un score de 0,5 alors que des demi-frères auront 0,25.

Les approches de PCA et de matrice de parenté perdent en efficacité lorsque la structure de population augmente en

complexité (Zhang Z. , et al., 2010).

Les méthodes avec une présélection des marqueurs

Cette approche évalue l’effet de chacun des marqueurs individuellement, puis fait une sélection parmi l’ensemble

pour ne retenir que ceux qui ont obtenu le score le plus significatif. Ils sont alors utilisés pour estimer conjointement

leur effet par moindres carrés. Une autre façon est de faire la réduction du nombre de variables par « régression

pénalisée ». Ces méthodes permettent de sélectionner des marqueurs les plus pertinents tout en estimant l’effet de

35

ceux-ci simultanément. On évite alors au moins partiellement les problèmes qui sont inhérents à la présence de

déséquilibre de liaison. La méthode de régression pénalisée fonctionne en effectuant la régression vers zéro de

l’effet des marqueurs, de manière que seuls ceux qui influencent suffisamment l’estimation de la valeur génétique

soient conservés. Tous les marqueurs qui n’influencent que peu le trait (effet faible) vont être tempérés pour ne pas

nuire à l’évaluation des marqueurs ayant un impact plus grand. Une méthode particulièrement utilisée de ce type est

la méthode de LASSO (Least Absolute Shrinkage and Selection Operator) (Tibshirani, 1996).

Modèles statistiques

Le modèle statistique sélectionné pour réaliser l’association dépend du type de variables que l’on veut associer.

Dans le cadre du projet, nos variables sont le phénotype qui est quantitatif et les génotypes qui sont nominaux. De

ce fait, le modèle statistique à préconiser est la régression linéaire (on dit aussi modèle linéaire), soit le modèle le

plus simple et l’un des plus étudiés. Le modèle linéaire permet d’évaluer si deux variables sont associées (si lorsque

l’une augmente, l’autre réagit proportionnellement), ce qui est résumé par la valeur p. Il permet aussi d’estimer la

force de la relation entre les deux variables (à quel point les valeurs observées sont-elles proches de la ligne de

corrélation), le résultat étant exprimé par la valeur r2. Le modèle linéaire permet aussi de produire une équation

linéaire qui permet de prédire des résultats, mais cette utilisation n’est pas appropriée dans notre projet.

En décrivant le modèle linéaire par une approche plus statistique, on dit que le modèle modélise Y (la variable

phénotypique) en fonction de X (les variables génotypiques) par la notation matricielle :

Y = Xβ + ε

Où β est le vecteur de paramètres estimés du modèle, et ε représente l’erreur. Ce modèle est pour chaque individu

de l’échantillon. Les appellations alternatives des variables sont abondantes; Y est aussi appelée variable

dépendante, variable endogène, variable expliquée et réponse, alors que X est aussi référé en tant que variables

indépendantes, variables exogènes, variables explicatives et prédicteurs. Pour résoudre l’équation, on utilise la

somme des moindres carrés ordinaires.

La structure de population, discutée dans la section précédente, est habituellement représentée par des proportions

d’individus qui appartiennent à des sous-populations. Cette information est généralement intégrée dans l’évaluation

de l’association des marqueurs au trait pour contrôler le biais qu’elle peut causer par l’intermédiaire de matrices de

parenté (ou pédigré lorsqu’il est disponible) et avec ou sans les composantes principales (PCs) dérivées de

marqueurs génétiques utilisés pour la PCA. Dans les modèles statistiques, les sous-populations des matrices de

parenté (matrice Q) sont considérées comme des effets fixes.

36

Maintenant que le modèle linéaire a été établi comme le modèle optimal pour le projet et que les facteurs à

considérer ont tous été survolés, il faut déterminer quel modèle statistique linéaire employer afin de tester

l’association entre le génotype et le phénotype telle qu’elle se produit en réalité, c’est-à-dire le type d’association que

l’on pense être celui qui explique notre sujet d’étude. Ci-dessous seront présentés les principaux modèles linaires

employés dans les GWAS.

Modèle linéaire général (General Linear Model, GLM) :

L’analyse d’association peut se faire en visant l’association avec un seul locus; ce serait le type d’analyse adapté

pour un trait rare associé à un locus à effet fort. Le modèle statistique pour ce type d’association, lorsque le trait est

quantitatif, est un modèle linéaire généralisé (generalized linear model, GLM), qui régresse linéairement chacun des

marqueurs indépendamment par rapport au phénotype. Le GLM peut être représenté conceptuellement par

Y = Q + S + e

Où Y est le phénotype et e les résidus (résultat de l’effet environnemental et l’effet du hasard), Q la matrice de

parenté (avec ou sans PCA), S est le marqueur génétique et e les résidus.

Ce modèle assume que 1) le trait est distribué de façon normale, 2) la variance du trait est la même dans chaque

groupe d’échantillons (population), 3) les groupes d’échantillons sont indépendants (Bush & Moore, 2012).

Cependant nous avions établi dans les paragraphes précédents que nous supposons que le caractère SMR est

commun et contrôlé par un ensemble de polymorphismes génétiques communs à faible effet. La simple régression

linéaire, même en utilisant des covariables pour contrôler la structure de population, est insuffisante pour considérer

les relations ancestrales complexes des individus testés (Xiao, et al., 2017) et ne permet pas de détecter l’effet

synergique des marqueurs sur le phénotype. Dans cette situation, le modèle linéaire mixte, utilisé de façon routinière

dans les programmes de reproduction sélective, convient le mieux.

Modèle linéaire mixte (Mixed Linear Model, MLM) :

Le modèle linéaire mixte est un modèle statistique rassemblant des effets fixes et des effets aléatoires (Yu, et al.,

2006). Il s’agit d’un modèle efficace pour considérer les structures de données complexes en contrôlant la

covariation, comme la stratification de la population (Yang, et al., 2014). Concisément, le modèle mixte inclut un

facteur polygénique au simple modèle linéaire. Le MLM considère l’ensemble des effets génétiques des individus

comme des effets aléatoires avec la structure de variance et covariance. MLM implique l’utilisation d’une matrice de

parenté génétique qui permet d’estimer la contribution des relations entre les individus à la variance en utilisant le

37

modèle d’effets aléatoires. L’utilisation de cette matrice est nécessaire à cause de l’absence de connaissance du

pédigré des individus (Xiao, et al., 2017). L’association est alors testée en considérant cette information dans

l’attribution de l’effet des marqueurs sur la variance phénotypique. Conceptuellement, MLM peut être décrite

comme :

Y = Q + K + S +e

Où Y est le phénotype, Q la matrice de parenté (avec ou sans PCA), K la structure de variance et covariance, S les

marqueurs génétiques et e les résidus. Ce modèle contrôle mieux les faux-positifs que les modèles naïfs comme le t-

test, qui n’inclut que les marqueurs testés.

Les biais de la structure de population considérée sont corrigés par MLM qui modélise la structure comme un effet

aléatoire (sauf dans le cas de variations rares). La capacité de MLM à corriger pour la structure spécifique de la

population étudiée augmente la puissance de détection des variations associées (Price, et al., 2010). Les relations

entre les individus dans la population sont aussi corrigées, en réduisant la contribution d’individus apparentés au test

statistique. Cela empêche la surpondération d’informations redondantes (Yang, et al., 2014). La présence d’un effet

aléatoire provoque une dépendance entre les variables aléatoires (à l’opposé des modèles fixes). Si deux individus

ne sont pas indépendants, une corrélation entre les deux individus apparaît et les variables de notre modèle ne sont

plus toutes indépendantes. Ainsi, la présence d’un effet aléatoire entraîne une dépendance entre les observations.

Le modèle mixte suppose donc que certains des effets ne sont plus fixes, mais tirés au hasard dans une loi donnée

permettant ainsi de réduire le nombre de paramètres à estimer. Ce modèle suppose également que les effets

aléatoires, et donc les variables à expliquer (phénotype), suivent une loi normale.

Le MLM peut aussi utiliser l’information produite par un PCA pour réaliser la régression et réduire le nombre de faux-

positifs. Le MLM contrôle les effets de biais d’un ensemble de loci ayant des tailles effets faibles (Zhang Z. , et al.,

2010). De plus, l’inclusion de Q et K dans le MLM contrôle l’inflation des valeurs des résultats du test, mais affaiblit

les associations réelles. Deux stratégies ont été développées pour résoudre ce problème et améliorer le pouvoir

statistique des méthodes MLM. La première stratégie, MLM compressé (CMLM), rassemble les individus dans des

groupes et attribue des valeurs génétiques aux groupes (plutôt qu’aux individus) comme des effets aléatoires. La

méthode CMLM augmente le pouvoir statistique comparativement à la méthode MLM classique. De plus, la méthode

CMLM enrichie (ECMLM) améliore continuellement le pouvoir statistique en optimisant la définition des relations de

parenté dans le groupe (group kinship definition) plutôt que d’utiliser les algorithmes normaux de relations de

parenté. Cette méthode est entre autres celle utilisée par l’outil bio-informatque TASSEL dans sa version 5.0. La

deuxième stratégie change la définition de relation entre les individus. Seulement les marqueurs génétiques associés

sont utilisés comme pseudo Trait Quantitatif Nucléotidique (QTNs) pour dériver les relations de parenté (kinship)

38

plutôt que l’ensemble des marqueurs génétiques ou un échantillon aléatoire. On s’attend à ce que les pseudo QTNs

reflètent de près les QTNs causatifs. Ils sont sélectivement utilisés pour dériver la relation de parenté pour un

marqueur test spécifique. Lorsqu’un pseudo QTN est corrélé avec un marqueur test, il est exclu des tests de

dérivation subséquents. Cela améliore le pouvoir statistique comparativement à la méthode qui dérive la relation de

parenté de l’ensemble des marqueurs ou d’un échantillon aléatoire.

Dans le but d’optimiser l’efficacité en puissance et en temps du modèle MLM, plusieurs études se sont penchées sur

les méthodes informatiques pour l’amélioration les calculs. La popularité du modèle MLM pour les études

d’associations a contribué à la naissance de nombreuses approches alternatives réduisant le temps de calcul à

différentes étapes. Entre autres, nommons EMMAX, FaST-LMM, GEMMA et GRAMMAR-Gamma. Bien que chaque

méthode présente des avantages et désavantages, leur mention sera l’étendue de leur aperçu dans ce document,

puisque notre objectif n’est pas de faire un tour d’horizon sur le calcul des méthodes statistiques linéaires, ce qui a

déjà été amplement couvert par divers articles de revue (Yang, et al., 2014; Balding, 2006; Cantor, et al., 2010;

Wang, et al., 2018).

Les modèles à effet mixtes ont comme défaut d’être limités dans leur capacité à débrouiller les biais causés par des

loci d’effet moyen à fort, particulièrement lorsque la population présente un degré de stratification. De plus, les deux

méthodes statistiques précédentes ont le défaut de tester les marqueurs un à un. L’autre possibilité est d’utiliser les

modèles qui font l’usage explicite de multiples marqueurs simultanément. Cette approche permet de faire l’inclusion

de la méthode de pseudo QTNs en addition aux marqueurs test dans un MLM par-à-pas (stepwise), appelé modèle

multi-locus mixte (MLMM).

Modèle Linéaire Mixte Multi-Locus (Multi-Locus Mixed Model, MLMM) :

Des études ont montré que le MLMM surclasse la méthode MLM en termes de puissance et de taux de découverte

de faux positifs (false discovery rate, FDR) (Segura, et al., 2012). Le modèle génomique de contrôle du biais de

structure de population fait la mise à l’échelle des tests statistiques d’association simple (test un locus à la fois) de

façon uniforme, de sorte que la médiane du test statistique observé soit égale à celle attendue (Segura, et al., 2012).

Cette approche réduit l’inflation des tests statistiques dans leur ensemble, mais n’affecte pas l’ordre des

polymorphismes puisque la correction est équivalente pour chacun d’entre eux. Cette méthode est avantageuse par

rapport aux approches de PCA et d’association structurée pour contrôler la structure de population lorsque celle-ci

est plus complexe, comme lorsque les individus ont des niveaux de relation de parenté qui varient sur un continuum

(Zhao et al, 2007). Pour faire face aux complications engendrées par la présence d’un large nombre de valeurs

39

prédictives (marqueurs SNPs) en présence d’un petit nombre d’observations (individus), les approches de régression

par étapes (stepwise regression) (Cordell & Clayton, 2002) et de régression pénalisée (penalized regression) ont été

créées. Ces approches ont été abordées précédemment dans la section de l’inflation statistique, spécifiquement

dans le paragraphe sur les méthodes avec une présélection des marqueurs. En particulier, la régression pénalisée

peut être réalisée avec des fonctions de pénalité différentes, comme c’est le cas avec LASSO (Wang, Eskridge, &

Crossa, 2011). Ces méthodes sont intéressantes, mais ne ciblent pas directement la problématique de la structure

de population. Une méthode de Segura et al. publiée en 2011 propose une solution à cette difficulté par la méthode

avant-arrière d’inclusion des marqueurs (forward-backward inclusion of SNPs). La libraire GAPIT implémentée dans

R utilise justement cette méthode pour réaliser des tests MLMM. Cette approche utilise une méthode pas-à-pas

avant-arrière de régression MLM pour estimer la variance de chaque composante. À chaque pas, les variances sont

estimées par un modèle des moindres carrés généralisé (GLS) et les valeurs p sont estimées par un test F. Les

marqueurs avec une association significative sont ajoutés au modèle comme cofacteurs jusqu’à l’étape suivante,

puis les valeurs p de tous les nouveaux cofacteurs sont estimées ensemble.

À tous les égards, la manière dont le génotype est codé peut affecter la puissance des tests statistiques (Bush &

Moore, 2012). Les tests d’association allélique vont faire état de l’association entre un allèle de SNP et le phénotype

en utilisant un modèle pour prédire l’effet des allèles sur le phénotype. Chaque modèle traite individuellement les

effets des génotypes analysés différemment. Le modèle utilisé peut être l’un des quatre suivants : dominant, récessif,

multiplicatif ou additif. Le modèle dominant assume que la présence de l’allèle dominant augmente l’expression du

phénotype comparé à l’allèle alternatif, il code donc les allèles AA, Aa et aa comme 2, 1 et 0 respectivement.

L’utilisation du terme « dominant » est utilisée pour décrire ce modèle, bien que le cas présenté semble être de la

codominance mendélienne. Le modèle récessif assume qu’il faut deux copies de l’allèle pour augmenter l’expression

du phénotype, donc les génotypes AA, Aa et aa pour l’allèle récessif a seront codés 0, 0 et 1. Le modèle multiplicatif

s’attend à ce que pour un allèle présent le phénotype augmente de ƙ, alors si l’allèle est présent en deux copies le

phénotype augmente de ƙ2. Le modèle additif quant à lui présume que l’effet de la combinaison allélique sur le

phénotype est linéaire : l’augmentation est uniforme pour chaque copie d’allèle ajoutée et est codé comme le modèle

dominant (donc tous les marqueurs ont un effet équivalent et indépendant). Généralement, les études utilisent par

défaut le modèle additif, puisque ce dernier est aussi capable de détecter les effets d’un modèle dominant.

Cependant, la prudence est de mise puisqu’un tel modèle risque très fortement de ne pas être assez puissant pour

détecter des effets qui seraient plutôt attendus d’un modèle récessif.

40

6) Interpréter les résultats d’une étude d’association

Les tests d’associations statistiques produisent beaucoup de données qu’il faut analyser attentivement. Il est

nécessaire de distinguer une corrélation non significative entre un marqueur et le phénotype et une corrélation

significative, qui contrairement à ce que l’on peut parfois voir en recherche, ne se base pas uniquement sur un

résultat de valeur p qui est sous un seuil arbitraire. De plus, l’analyse des résultats ne se limite pas à l’identification

d’une corrélation significative, il faut s’assurer que cette corrélation n’est pas le résultat d’un faux-positif. Voyons les

valeurs statistiques les plus importantes qui permettent d’identifier l’association significative tant convoitée.

Lambda

Des tests statistiques sont effectués avec les modèles statistiques dans le but de vérifier si les résultats sont

conformes avec l’indépendance attendue par l’hypothèse nulle entre le phénotype et les génotypes. Le test

statistique généralement employé à cette fin est le test de la table de contingence, sous la forme du test du χ2 (Chi-

square test). Ce test permet de détecter de la stratification de génotypes dans la population après l’association

(Wang, Cordell, & Steen, 2018). Ce test est habituellement représenté dans un graphique Quantile-Quantile, par une

ligne qui représente la distribution des résultats attendus en l’absence de lien statistique entre les deux variables

(donc lorsque l’hypothèse nulle est respectée), puis une série de points qui sont les tests statistiques observés (χ2)

ou le -log10 des valeurs p calculées de ces tests, placées en ordre croissant (Pearson & Manolio, 2008). Ces

résultats sont résumés par la valeur λ (lambda). Lorsque le modèle statistique utilisé est approprié, on s’attend à ce

que les résultats observés soient très proches de ce qui est attendu, donc que le λ soit entre 1 et 1.10. Une valeur de

1 indiquerait que l’hypothèse nulle est parfaitement respectée et donc que les données génotypiques n’expliquent

pas le phénotype. La déviation par rapport aux valeurs attendues (donc de l’hypothèse nulle) a deux causes

possibles 1) la distribution assumée est incorrecte 2) l’échantillon contient des valeurs qui s’écartent de l’hypothèse

nulle, possiblement par association avec le niveau d’expression du trait. On s’attend à ce qu’une infime partie du

grand nombre de marqueurs testés ait une association véritable. Par exemple, un λ de valeur > 1 mais ≤ 1.1 indique

que seules quelques variations ont une corrélation perceptible. Un λ de valeur supérieure à 1.1 et beaucoup de

valeurs ayant des corrélations perceptibles suggère la présence d’une stratification génotypique de la population.

Ces valeurs doivent donc être considérées comme des faux-positifs (Wang, Cordell, & Steen, 2018). De toute

évidence, la valeur de 1.1 est arbitraire, de manière similaire au seuil statistique de 5 % majoritairement utilisé, mais

demeure un outil important pour évaluer les résultats obtenus.

Valeurs p et correction

En sciences, les valeurs p générées par les tests statistiques sont utilisées pour valider des différences observées

entre groupes expérimentaux. La valeur p (valeur de probabilité) est une mesure statistique comprise entre 0 et 1 qui

41

informe, pour un test statistique suivant l’hypothèse nulle, la probabilité d’obtenir une distribution de données au

hasard comparable à celle mesurée dans notre échantillon (c.-à-d. valeurs observées). Autrement dit, l’hypothèse

nulle est que la différence observée entre les groupes expérimentaux n’est pas plus importante que ce qui est

attendu être dû au hasard. Il faut pouvoir rejeter l’hypothèse nulle pour que nos résultats soient statistiquement

significatifs. La valeur p est un guide qui permet de déterminer si l’on doit rejeter l’hypothèse nulle ou non. Elle

représente la probabilité que l’on rejette faussement l’hypothèse nulle. La valeur p est influencée par le nombre

d’observations, la différence entre la moyenne des échantillons et le niveau de variation entre les individus. L’erreur

de type I (α) est de rejeter l’hypothèse nulle à tort, ce que l’on nomme un résultat faux-positif. Plus spécifiquement, la

valeur p représente la probabilité de faire une erreur de type I. Cependant, lorsque l’on effectue plusieurs, voire un

très grand nombre de tests simultanément, comme c’est le cas pour les études d’association pan-génomiques, les

erreurs de type I de chaque test individuel (c.-à-d. pour chaque marqueur) doivent être additionnés pour obtenir le

risque de type I de l’ensemble de l’étude. Par exemple, si l’on teste l’association génotype-phénotype pour

10 000 marqueurs SNP, on effectuera 10 000 tests. Si l’on fixe le seuil statistique de chaque test à 5 %, le risque

d’erreur de type I de l’analyse d’association pangénomique sera de 10 000 x 5 %, soit un risque de détecter 500 faux

positifs. Ainsi, ces tests multiples présentent individuellement des probabilités d’erreur de type I (α), de faux-positifs,

qui s’additionnent. Plus on interroge un grand nombre de marqueurs pour faire l’étude d’association au trait, plus on

risque d’obtenir un faux-positif dans nos résultats. Les valeurs p doivent donc être ajustées pour contrôler l’erreur de

type I. Il existe deux types de méthodes pour contrôler le nombre de faux-positifs : la correction de Bonferroni et le

taux de découverte de faux positifs (False discovery rate, FDR).

La correction de Bonferroni est la plus rigoureuse car son principe est de rétablir un seuil de significativité acceptable

(p. ex. 5 %) pour l’ensemble de l’étude : le seuil statistique individuel de chaque test sera obtenu en divisant le seuil

de l’ensemble de l’étude par le nombre de test (c.-à-d. de marqueurs). Pour reprendre l’exemple précédent avec

10 000 marqueurs SNP, le seuil statistique individuel sera de 5/10 000, soit 0,0005 % pour un risque de 5 % pour

l’ensemble de l’étude. L’augmentation drastique du nombre de marqueurs obtenus avec les avancées en technologie

de séquençage rend la correction de Bonferroni beaucoup trop draconienne. Elle diminue de façon trop importante la

puissance statistique en augmentant la probabilité de faux-négatif. De plus, le principe de cette correction n’est pas

compatible avec le GWAS car les tests ne peuvent pas tous être considérés comme indépendants compte tenu de la

liaison de nombreux gènes entre eux sur l’ensemble du génome. Ainsi, les variations testées dans une étude sont

inévitablement dépendantes de facteurs spécifiques à une population, tels que le déséquilibre de liaison (LD) et la

fréquence d’allèles mineurs (MAF), ce qui suggère que le seuil approprié pour obtenir de la significativité sur

l’ensemble du génome (Genome-wide) peut varier pour différentes populations. Une population avec un LD plus bas

devrait être plus astringente qu’une population avec un LD plus haut, à cause du nombre de marqueurs

indépendants qui tend à être plus grand dans la première population plutôt que dans la deuxième.

42

Une alternative intéressante à Bonferroni est l’utilisation du taux de découverte de faux positifs. La méthode

Benjamini-Hochberg est la première à présenter cette approche. Elle fonctionne très simplement, en choisissant un

FDR que l’on dénomme q, puis le nombre de tests statistiques est représenté par le vecteur m. On classe ensuite en

ordre croissant les valeurs p, avec i = position de la valeur p. Finalement, on trouve la plus grande valeur p pour

laquelle p ≤ (i*q)/m. Cette valeur p et toutes celles de taille inférieure sont considérées comme significatives

(Benjamini & Hochberg, 1995). En 2002, deux librairies dans R ont été publiées qui se basent sur la méthode de

Benjamini-Hochberg pour ajuster les valeurs p. La première, p.adjust (Gordon, 2002) fait la réinterprétation des

procédures utilisant le FDR dans la méthode de Benjamini-Hochberg, pour produire des valeurs p ajustées. C’est de

cette librairie que le concept de valeur p corrigée par le FDR est né. La deuxième, qvalue (Storey, 2002), redéfinit le

terme FDR. Les valeurs q présentées font l’estimation de cette nouvelle définition de FDR. La valeur q est la valeur

de FDR minimum qui peut être atteinte et demeurer significative (c.-à-d. la proportion attendue de faux positifs

obtenus lorsqu’on qualifie une association génotype-phénotype pour un marqueur donné de significative). Par

exemple, si un gène quelconque à une valeur q de 0,013, cela indique que 1,3 % des gènes qui ont une valeur p au

moins aussi petite que ce gène sont des faux-positifs. Contrairement à Benjamini-Hochberg qui fait un contrôle du

FDR, qvalue fait une estimation du FDR.

Graphique de Manhattan

Après avoir fait l’ajustement des valeurs, les valeurs p corrigées sont souvent présentées dans un graphique de

Manhattan, qui permet d’évaluer d’un coup d’œil si les marqueurs trouvés avec une valeur p sous le seuil de

significativité sont des vrais-positifs ou des faux-positifs. Dans ce graphique, chaque valeur p (corrigée) est

représentée par un point sur une abscisse de position sur les chromosomes et une ordonnée graduée, pour faciliter

la visualisation, en -Log10 (valeur p). Lorsque le modèle statistique contrôle bien des faux-positifs, la très grande

majorité des points du graphique auront une petite valeur et quelques marqueurs auront une grande valeur (ce sont

les marqueurs significativement associés au phénotype) qui se démarque clairement des autres. La figure 3

représente clairement la différence entre ces deux situations.

Puissance d’une étude

La puissance statistique d’une étude est une mesure qui est utilisée pour aider à déterminer la quantité de données

(la taille de l’échantillon) nécessaire (lorsque son évaluation est faite a priori) afin d’avoir l’assurance d’obtenir une

association significative, dans la mesure où une telle association existe réellement entre les facteurs testés. On peut

définir la puissance statistique sous plusieurs perspectives différentes, qui permettent de comprendre ce qu’est

réellement la puissance statistique. Voici quelques façons de définir la puissance statistique :

• La probabilité de rejeter l’hypothèse nulle, lorsque l’hypothèse nulle est fausse.

43

• La probabilité qu’un test de significativité détecte un effet qui est présent.

• La probabilité d’éviter une erreur de type II.

L’erreur de type II (β) est de rejeter à tort l’hypothèse nulle, ce qui correspond à un résultat faux-négatif.

Mathématiquement, la puissance d’une étude se définit comme 1 – β (Gotelli & Ellison, 2012). L’effet des marqueurs

que l’on cherche à détecter est directement lié à la probabilité de détecter ce marqueur. Ainsi, plus l’effet du

marqueur associé est petit, plus il est difficile de le détecter (et vice versa). De ce fait, pour faire la détection d’effets

causaux d’un trait quantitatif qui sont essentiellement des effets faibles, il faut nécessairement une très grande

puissance statistique. Cette puissance est proportionnelle à la combinaison des effets de (1) la taille de l’échantillon,

(2) l’effet et (3) le critère de signification statistique utilisé dans le test (valeur p). Une façon simple d’augmenter la

puissance d’une étude est d’augmenter la taille de l’échantillon. Traditionnellement, la puissance de l’étude doit être

au minimum de 80 % (0.8) pour affirmer avec confiance qu’une valeur p sous le seuil établi est significative du point

de vue biologique.

On peut faire l’évaluation de la puissance statistique avant (a priori) ou après (Post hoc) la collecte de données. Si

l’évaluation est faite a priori, elle sert à déterminer une taille d’échantillon appropriée pour que notre étude ait une

puissance suffisante. L’évaluation Post hoc se fait lorsque l’étude est complétée : elle utilise la taille de population et

l’effet individuel des marqueurs pour déterminer la puissance de l’étude effectuée.

44

Figure 3. Graphique de Manhattan avec mauvais (graphique du haut) et bon (graphique du bas) contrôle des faux-positifs. (Tiré de Segura, 2016). Chaque point est la valeur p (au -log10) associée à un marqueur testé. La ligne pointillée désigne le seuil de significativité; on s’attend à ce que seulement quelques points la dépassent, sans quoi la présence de faux-positifs est présumée.

45

1.5 Buts et hypothèses du projet

Une meilleure compréhension de l’architecture génomique qui régit le comportement hygiénique VSH et le trait SMR

serait un atout non négligeable dans la lutte contre la varroase. L’identification de régions génomiques qui affectent

la résistance aux varroas ouvre la porte à la sélection assistée par des marqueurs génomiques, un outil qui permet

d’augmenter la fréquence d’un trait d’intérêt beaucoup plus rapidement que ce qui est obtenu en sélectionnant sur le

phénotype. Par définition, la sélection assistée par des marqueurs génétiques vise directement le ou les allèles qui

sont favorables au trait recherché et présente un moyen puissant de faire la sélection de traits qui ont une faible

héritabilité et qui ne sont pas facilement observables ou mesurables (Dekkers, 2004). Par conséquent, le présent

projet vise les objectifs suivants :

1) Élucider l’architecture génomique associée au comportement VSH en utilisant le trait SMR lié à la

résistance par la baisse de fertilité du Varroa destructor (SMR) chez Apis mellifera par une étude

d’association pan-génomique entre la résistance et des marqueurs SNPs identifiés par la méthode de

génotypage par séquençage.

2) Fournir aux apiculteurs de meilleurs outils pour la reproduction sélective dans l’optique de la lutte contre le

Varroa.

Les objectifs du projet sont basés sur les précédentes observations sur le trait SMR et le comportement VSH qui ont

été faites dans la littérature. Ces études antérieures nous permettent d’émettre les hypothèses suivantes :

1) Le comportement hygiénique VSH de l’abeille Apis mellifera mesuré par le trait SMR est un phénotype

quantitatif héritable, contrôlé par un ensemble de variations alléliques ayant chacune un effet faible sur le

phénotype, qui sont des polymorphismes nucléotidiques singletons (SNPs) ou sont en déséquilibre de

liaison avec ces derniers.

2) Un ou plusieurs gènes du comportement hygiénique VSH de l’abeille Apis mellifera mesuré par le trait SMR

sont associés à l’olfaction.

Le prochain chapitre présente la réalisation d’une étude pour l’accomplissement de ces objectifs et une analyse des

résultats qui ont été produits.

46

Chapitre 2 : Étude d’association pangénomique du

trait SMR dans des colonies d’A. mellifera au Québec

2.1 Méthodologie

Une approche d’étude d’association pan-génomique a été utilisée pour identifier l’architecture génomique associée

au comportement hygiénique VSH en utilisant le trait phénotypique SMR. D’abord, un échantillonnage cas-contrôle

prospectif a été fait à partir de 105 colonies provenant de cinq sites différents à travers le Québec, puis l’évaluation

du niveau SMR de chaque colonie a été faite avant d’envoyer l’ADN extrait des mâles des colonies au génotypage

par séquençage (GBS) avec la technologie Ion Torrent. L’analyse des données de séquençage a été réalisée pour

produire un jeu de données de marqueurs robustes pour effectuer les tests d’association statistique avec le trait

phénotypique SMR précédemment évalué. Chaque étape de la méthodologie est décrite plus en détail dans les

paragraphes suivants.

2.1.1 Échantillonnage

Cent cinq colonies d’abeilles ont été sélectionnées dans cinq sites différents au travers du Québec :

1. La maison du Miel (Scott Plante situé à Lévis, 46°38’55.2"N 71°25’41.7"W, 22 colonies)

2. Les ruchers de la Mère Michel (Steve Michel situé à Saint-Christophe-d’Arthabaska, 45°59’18.7"N 71°52’

08.7"W, 21 colonies)

3. Le château de Cyr (Marie-Ève Cyr située à Saint-Marc-sur-Richelieu, 45°43’14.3"N 73°14’17.7"W,

20 colonies)

4. La Miellerie St-Stanislas (Joel Laberge situé à Saint-Stanislas-de-Kostka, 45°11’32.7"N 74°04’30.4"W,

22 colonies)

5. Le Centre de recherches en sciences animales de Deschambault (CRSAD, 46°40’28.2"N 71°54’52.7"W,

21 colonies)

Les colonies ont été sélectionnées au hasard dans les ruchers, préférentiellement des colonies de tailles similaires.

L’échantillonnage s’est effectué durant la semaine du 7 au 14 août 2017. Des cadres de couvain operculés

(d’ouvrières) ayant minimalement le stade des yeux violets ont été prélevés aux ruchers et entreposés à -20 °C

jusqu’au moment de l’analyse du phénotype. De plus, 25 à 50 larves de mâles ont été prélevées pour chaque colonie

afin de réaliser les analyses génomiques ultérieures.

47

2.1.2 Évaluation du phénotype

L’évaluation du niveau SMR s’est faite selon le protocole de Harbo & Harris, 1999. Cette méthode fait autorité et est

utilisée dans plusieurs études (Dietemann, et al., 2013; Kirrane, et al., 2015; Büchler et al., 2017), la plus récente

publication à ce sujet étant une fiche technique « Critère de sélection SMR » publié par l’Institut technique et

scientifique de l’apiculture et de la pollinisation (ITSAP) de France. En somme, le niveau SMR se calcule par le taux

de reproduction des varroas dans une colonie, avec la formule suivante :

% SMR = (Nbre cellules avec fondatrice non reproductive * 100)

𝑁𝑏𝑟𝑒 𝑐𝑒𝑙𝑙𝑢𝑙𝑒𝑠 𝑖𝑛𝑓𝑒𝑠𝑡é𝑒𝑠 𝑝𝑎𝑟 1 𝑓𝑜𝑛𝑑𝑎𝑡𝑟𝑖𝑐𝑒

où une femelle fondatrice est considérée reproductive à partir du moment où elle produit une fille qui sera adulte et

présumée fécondée lors de l’émergence de l’abeille hôte de la cellule infestée. De ce fait, il faut ouvrir les cellules de

couvain sur un cadre de la ruche, avec une loupe LED 3x, pour observer la reproductivité des Varroa. Il faut mettre

en relation les stades développementaux du couvain d’abeille infesté et ceux des progénitures du parasite pour

établir si la femelle fondatrice est apte à la reproduction. Ainsi, lors de la sélection d’un cadre de couvain dans la

colonie à tester, il faut s’assurer que les progénitures d’abeilles soient au stade des yeux violets pour identifier

clairement le stade de reproduction des Varroa. Le premier stade correspond à la présence d’une femelle

deutonymphe et d’un mâle, sans quoi la progéniture n’aura pas le temps de se sclérifier (devenir adulte) ou ne sera

pas fécondée à l’émergence de l’abeille. La figure 4 aide à associer les stades attendus des progénitures aux

différents stades de développement du couvain d’abeille. La progéniture mâle ressemble aux premiers stades de la

progéniture femelle (protonymphe), ce qui la rend difficile à distinguer. Les pattes des mâles sont plus longues et

fines tandis que les femelles sont plus trapues et rondes. Leur différenciation peut nécessiter l’utilisation d’un

microscope à dissection.

Un taux d’infestation minimum est nécessaire pour faire cette évaluation. La littérature recommande de trouver

35 cellules infestées, par une seule femelle fondatrice, en 700 cellules ou moins, donc un minimum de 5 %

d’infestation (Büchler, 2015; ITSAP, 2018). D’autres sources recommandent un minimum de 10 % d’infestation (Villa,

Danka, & Harris, 2009). Ce minimum est requis, car des études ont montré qu’en deçà du seuil minimum

d’infestation aucune différence significative n’était observée entre les colonies résistantes et les contrôles (Villa,

Danka, & Harris, 2009). Le seuil minimal de 5 % a été adopté dans notre étude.

48

Figure 4. Caractéristiques des stades de développement du couvain d’Apis mellifera et les stades de développement attendus de la progéniture du Varroa associés (adapté de COLOSS BEEBOOK volume I: Standard methods for Apis mellifera Research).

Femelle adulte Mâle adulte Œuf Protonymphe Femelle deutonymphe Mâle deutonymphe

Jours depuis

l’operculation

de la cellule

Ouvrière

Faux-bourdon

Sl = larve Pw = pupe aux yeux blancs Pr = pupe aux yeux mauves Yt = thorax jaune Gp = taches grises Gt = thorax gris m/r = mue/repos

49

2.1.3 Évaluation du génotype

Des larves de mâles ont été utilisées pour caractériser le génotype de chacune des colonies échantillonnées.

Comme la reine ne peut être échantillonnée sans que meure la colonie et considérant la difficulté d’analyse que

représente l’utilisation d’ouvrières à cause des multiples génomes paternels, la solution est d’échantillonner

indirectement le génome de la reine en utilisant sa progéniture mâle : en effet, les mâles sont haploïdes et héritent

de 50 % du génome de la reine. Ainsi, l’haploïdie des mâles permet d’identifier avec confiance les marqueurs SNPs

avec une plus faible couverture qu’avec des individus diploïdes (Wragg, et al., 2016).

L’ADN génomique total des larves de mâles a été extrait à l’aide de la méthode des sels (Aljanabi & Martinez, 1997),

mais avec ajout de RNase A puis incubation à 37 °C pendant une heure après l’étape de lyse pour éliminer les ARN

contaminants. La présence d’un composé dans les yeux d’A. mellifera inhibe la PCR et ne peut être enlevée par les

procédés habituels d’extraction d’ADN (Boncristiani, et al., 2011). Afin d’éviter la contamination qui nuirait au

séquençage, seulement des larves de mâles ont été utilisées (donc les stades précédant le développement des yeux

et de leur pigment). La qualité des extraits d’ADN génomique (c’est-à-dire l’absence de fragmentation) a été vérifiée

par migration sur gel d’agarose 2 % (m/V), tandis que la concentration et la pureté ont été mesurées sur

spectrophotomètre NanoDrop (où 1 A260 = 50 ng/µL). Les échantillons qui présentaient un ratio A260/A280 plus petit

que 1.90 et/ou un ratio A260/A230 plus petit que 1.60 ont été purifiés sur billes pour améliorer la qualité de l’échantillon.

La concentration d’ADN a été mesurée par fluorométrie en utilisant le réactif PicoGreen® qui permet de doser

l’ADNdb spécifiquement. Les échantillons avec moins de 20 ng/μL d’ADN n’ont pas été envoyés au séquençage. Les

échantillons ont été séquencés par GBS avec IonTorrent à la plateforme de séquençage de l’IBIS (Institut de

Biologie Intégrative des Systèmes).

Découverte des variations (Fast-GBS)

Les données brutes de séquençage ont été analysées avec FastQC (Andrews, 2010) pour déterminer la qualité des

séquences. La suite bioinformatique Fast-GBS (Torkamaneh, et al., 2017) en libre accès a été utilisée pour faire le

traitement des données jusqu’à l’appel (la découverte) des variations. Fast-GBS effectue le démultiplexage des

fichiers bruts avec l’outil Sabre (https://github.com/najoshi/sabre), puis l’outil cutadapt (Martin M. , 2011) coupe

l’adaptateur et le code-barres de chaque séquence. Fast-GBS prend en charge l’alignement des séquences sur le

génome de référence d’A. mellifera (NCBI, Apis mellifera Amel_4.5, 2018) avec l’outil BWA-MEM (Li & Durbin, 2009),

puis traduit les fichiers SAM en BAM avec SAMtools (Li, et al., 2009). À cette étape, Fast-GBS a été volontairement

interrompu pour faire la concaténation des répliques biologiques en un seul fichier avec SAMtools. La suite logiciel a

ensuite été reprise à l’étape du tri des fichiers BAM et leur indexation avec l’outil SAMtools. Fast-GBS produit alors

une liste des fichiers BAM pour faire l’appel des variations alléliques avec l’outil Platypus (Rimmer, et al., 2014).

https://github.com/najoshi/sabre

50

Fast-GBS termine la filtration de ces variations alléliques avec VCFtools (Danecek, et al., 2011) et un fichier texte de

type VCF des génotypes est produit avec vcf2txt.py. Le fichier VCF a alors été analysé avec VCFtools pour extraire

les variations désirées, les SNPs ayant passé les filtres de VCFtools présents sur les chromosomes, et ayant deux

allèles. Les SNPs ont ensuite été filtrés avec VCFtools pour éliminer les sites qui ont > 80 % de données

manquantes, puis les allèles mineurs avec une fréquence trop basse (MAF < 0.05). Ensuite, les sites ayant une

fréquence trop élevée d’hétérozygotes (données aberrantes) ont été éliminés en réalisant un diagramme en boîte.

Pour terminer, les variations ont été imputées avec Beagle (Browning, Zhou, & Browning, 2018) puis annotées à

l’aide de SnpEff (Cingolani, et al., 2012).

2.1.4 Association

L’association des marqueurs avec le phénotype a été testée avec trois programmes, soit TASSEL 5.0 (Bradbury, et

al., 2007), et deux librairies implémentées dans R : GenABEL (Aulchenko, et al., 2007) et GAPIT (Lipka, et al., 2012).

TASSEL fait l’association MLM par un algorithme EMMA en addition au MLM compressé (CMLM) et des paramètres

de populations prédéterminés (P3D, développé par Kang et al., 2010), ce qui accélère le temps des calculs et

optimise la performance statistique.

TASSEL utilise directement les fichiers VCF et a permis de générer une matrice de parenté pour réaliser les

régressions linéaires. La structure de population a été caractérisée par une représentation graphique de la matrice

des distances phylogénétiques, avec la méthode UPGMA afin de détecter toute stratification dans la population. Le

LD entre les marqueurs a aussi été analysé. La régression linéaire simple a été testée, avec et sans PCA, aussi

calculée par TASSEL. Puis la MLM a pu être testée, aussi avec ou sans PCA (Zhang Z., et al., 2010). Pour être

utilisé avec la librairie GenABEL, le fichier VCF des marqueurs a dû être converti en fichier FAM et PED avec les

données de phénotype par l’outil PLINK (Purcell, et al., 2007). Les modèles GLM et MLM ont été testés, avec une

matrice de parenté en présence ou absence de PCA. Finalement, GAPIT utilise un format d’encodage numérique du

génotype dans un simple fichier texte. Ce fichier texte est créé à partir d’une exportation des données génotypiques

dans TASSEL sous forme de fichier HapMap, qui est ensuite converti en format binaire avec une fonction de GAPIT.

2.2 Résultats

2.2.1 Phénotype

Les résultats de l’évaluation du phénotype sont présentés dans le tableau IV. Des 105 colonies initiales, 3 ont perdu

leur identifiant dans le transport. En tout, 37 colonies avaient des cadres suffisamment infestés pour permettre

51

l’évaluation du phénotype (11 provenaient de chez La Miellerie St-Stanislas, 12 de chez Les ruchers de la Mère

Michel et 14 du CRSAD). Les autres colonies n’ont pas pu être inclues dans les analyses en raison du bas taux

d’infestation de varroas (≤ 2 % d’infestation).

Les résultats des mesures SMR pour chacune des 37 colonies sont présentés dans la figure 5 (les mesures SMR

pour les 105 colonies sont disponibles en annexes). Les résultats SMR n’ont pas une distribution normale.

Des 37 colonies phénotypées, seulement 35 ont eu une extraction d’ADN de qualité suffisante pour permettre les

analyses génomiques.

52

Tableau IV. Résultats de l’évaluation du trait phénotypique SMR (en %) des 37 colonies utilisées pour les analyses génomiques. Taux d’infestation du couvain par V. destructor > 2 %. Évaluation par la méthode de Harbo & Harris, 1999.

ID Rucher % SMR

1 JL 16.66

2 JL 56.66

3 JL 13.33

4 JL 56.66

5 JL 10

6 JL 50

7 JL 50

8 JL 50

9 JL 40

10 JL 16.66

11 JL 20

12 MM 83.33

13 MM 13.33

14 MM 56.66

15 MM 30

16 MM 23.33

17 MM 20

18 MM 63.33

19 MM 33.33

20 MM 46.66

21 MM 13.33

22 MM 16.66

23 MM 3.33

24 CRSAD 13.33

25 CRSAD 50

26 CRSAD 6.66

27 CRSAD 80

28 CRSAD 53.33

29 CRSAD 43.33

30 CRSAD 20

31 CRSAD 10

32 CRSAD 10

33 CRSAD 73.33

34 CRSAD 40

35 CRSAD 23.33

36 CRSAD 46.66

37 CRSAD 50

Légende :

JL : rucher Miellerie St-Stanislas

MM : rucher de la Mère Michel

CRSAD : Centre de recherche en sciences

animales de Deschambault

53

Figure 5. Distribution du trait SMR (en %) des 37 colonies après l’évaluation phénotypique. Évaluation par la méthode de Harbo & Harris, 1999.

0

2

4

6

8

10

12N

om

bre

de

ruch

es

%SMR

54

2.2.2 Génotypage

Les 163 028 600 séquences provenant de l’ensemble des 35 colonies et produites par GBS ont d’abord été

inspectées avec FastQC. Aucune d’entre elles n’avait un score de qualité Phred < 20, donc aucune séquence n’a été

retirée à la suite de cette analyse. Fast-GBS a détecté environ 12 millions de séquences sans code-barres,

lesquelles ont été éliminées de l’analyse. L’étape de démultiplexage et de retrait des adaptateurs a réduit le nombre

de séquences à environ 240 000. À la dernière étape de Fast-GBS, 63 642 sites ont été trouvés par Platypus.

Pour avoir un aperçu de la taille effet des marqueurs, l’ensemble des marqueurs trouvés par Platypus (après la

filtration de base pour éliminer tous les marqueurs autres que les SNPs) ont été analysés avec un outil en libre accès

sur le site web : Ensembl Genome (Kersey, et al., 2018). En examinant les résultats présentés dans la figure 6, on

constate que la majorité des marqueurs ne se trouvent pas dans une région transcrite (83,5 %). La majorité des SNP

retrouvés dans les séquences codantes (78 %) sont très majoritairement des mutations synonymes, c’est-à-dire

n’induisant pas de changement d’acide aminé. De plus, aucune des mutations non-synonymes n’a créé (c.-à-d.

mutation non-sens) ni supprimé (c.-à-d. mutation faux sens) de codon stop et donc aucune des protéines

correspondantes ne devrait être tronquée.

Les données ont ensuite été filtrées par un code original développé dans le cadre du projet. Les résultats sont

présentés dans le tableau V. Après ces filtrations, le jeu de données final était constitué de 7 810 marqueurs SNPs

provenant de 34 colonies. Ce jeu de données est celui utilisé pour réaliser les associations statistiques avec le trait

phénotypique SMR. La colonie MM-17 a été retirée du jeu de données au cours des étapes de filtrations en raison de

son trop grand taux de données manquantes.

55

Figure 6. Prédiction des effets des variations nucléotidiques trouvées par l’analyse génomiques des 37 colonies tests. La majorité des variations (N = 29438) avant les étapes de filtration sont situées dans des régions non-transcrites (83,5 %). De ceux trouvés dans les régions transcrites, 78 % sont des mutations synonymes (n’induisent pas de changement dans la séquence d’acide aminés de la protéine produite). Dans l’ensemble des variations, aucune ne crée une mutation non-synonyme (c.-à-d. mutation non-sens) ou supprime un codon stop (c.-à-d. mutation faux sens). Les résultats ont été produits avec l’outil en ligne EnsemblMetazoa.

variant_faux sens : 22%

56

Tableau V. Variations obtenues après chaque étape de filtration. Les différentes étapes enlèvent les données aberrantes et minimisent la possibilité de faux-positifs dans les analyses subséquentes. Les marqueurs sont partagés pour tout les échantillons (N = 7810 marqueurs pour chacune des 34 colonies tests, à l’exception de données manquantes).

Étape Fonction Résultats

(Nbre SNPs)

Filtration de base Enlève les indels, les marqueurs dans régions non-chromosomiques

et les marqueurs filtrés. 29 438

Filtration des données manquantes

Enlève les sites et individus qui ont ≥ 80 % données manquantes. (max-missing = 0.2)

25 622

Filtration des MAF* Enlève les sites qui sont trop rares (1/34).

(maf = 0.02) 20 425

Filtration des hétérozygotes Enlève sites avec une fréquence d’hétérozygotes trop élevée. 15 545

Filtration des MAF* finale Enlève les sites qui sont trop rares (1/34).

(maf = 0.02) 7 810

57

2.2.3 Association

Structure de population

Les résultats de la matrice de parenté génétique (GenABEL) pour déterminer la structure de population sont

présentés dans la figure 7. Cette représentation ne nous permet pas de diviser la population en des sous-groupes

clairs. Les résultats d’un test de phylogénie (TASSEL 5.0) sont montrés dans la figure 8. On remarque que

l’ensemble des colonies provenant du site CRSAD (noms d’échantillon en vert) sont regroupés, alors que ceux

provenant des sites JL et MM sont mélangés. Le LD entre les marqueurs a été évalué avec l’outil TASSEL 5.0 pour

le jeu de marqueurs employé pour les tests d’association (données en annexes). Aucun LD important pouvant biaiser

l’analyse n’existait entre les marqueurs. L’IBS a aussi été évaluée pour les différents échantillons par l’outil TASSEL

5.0, l’absence de parenté proche a ainsi pu être attestée (IBS < 0.1875) (données en annexes).

58

Figure 7. Représentation graphique de la matrice de parenté des colonies (N = 34). Chaque point du graphique représente une colonie et la distance entre chaque point est représentative de la différence génomique à partir de l’information des marqueurs du jeu de données (N = 7810) utilisé pour les analyses.

59

Figure 8. Arbre phylogénétique de la population étudiée produite avec TASSEL 5.0. Arbre basé sur un cladogramme produit par la méthode UPGMA. Les distances de la racine à la pointe de chaque branche sont égales et l’arbre est de type ultra-métrique (horloge moléculaire). Les regroupements sont uniquement basés sur la similarité des séquences et assume un rythme évolutif constant.

60

GLM

Les résultats de la régression linéaire simple sont présentés dans le tableau VI et dans la figure 9 pour les outils

TASSEL et GenABEL. Ce modèle n’est pas optimisé pour découvrir les régions associées au trait SMR, mais il

permet de vérifier si le modèle linéaire est adapté à notre étude. Les lambda pour les deux outils suivent la

régression attendue. Cependant, la courbe des valeurs observées est sous la courbe des valeurs attendues. Les

valeurs p du tableau VI nous montrent que ce test statistique ne contrôle pas de façon appropriée les faux-positifs.

Les valeurs p ne sont pas significatives (p>0,05). Les graphiques de Manhattan dans la figure 9, dans lequel trop de

marqueurs ont des valeurs élevées, le montrent clairement.

Les noms des marqueurs qui sont présentés dans le tableau VI sont obtenus par l’utilisation du génome de

référence de l’abeille 4.5 de NCBI (Assemblage GenBank : GCA_000002195.1_Amel_4.5_genomic). Les numéros

de chromosomes (CM54.5 à 69.5) sont des références aux noms moléculaires des groupes d’assemblages

(chromosomes) qui permettent de savoir quel génome de référence a été employé (CM54.5 réfère au

chromosome 1; CM55.5 au chromosome 2 et ainsi de suite). Le numéro subséquent est la position en paire de base

sur le chromosome en question.

61

Tableau VI. Marqueurs ayant les valeurs p des coefficients des tests avec GLM les plus significatives avec les outils GenABEL et TASSEL. Les valeurs p associés aux marqueurs présentées ne sont pas ajustées.

Outil Marqueur Valeur p

GenABEL

CM62.5 - 3200528 0.525

CM55.5 - 4643825 0.535

CM61.5 - 4600145 0.570

TASSEL

CM58.5 - 8146571 0.00012

CM69.5 - 3465391 0.00013

CM54.5 - 2634759 0.00089

62

Figure 9. Graphique des résultats des tests statistiques GLM. A) Lambda pour GLM avec TASSEL B) Graphique Manhattan pour GLM avec TASSEL C) Lambda pour GLM avec GenABEL D) Graphique Manhattan pour GLM avec GenABEL

A)

B)

C)

D)

63

MLM

Les résultats de la méthode statistique MLM avec comme cofacteur la matrice de parenté génétique et avec ou sans

cofacteur PCA obtenus avec l’outil TASSEL 5.0 sont présentés dans la figure 10. Ceux obtenus avec la librairie

GenABEL implémentée dans R sont présentés dans la figure 11. Les valeurs numériques des résultats représentés

graphiquement sont montrées pour plus de clarté dans le tableau VII pour chacun des outils. Seules les valeurs les

plus proches du seuil de signification statistique (p<0,05 après ajustement) sont présentées. Les marqueurs les plus

proches d’être significatifs ne sont pas les mêmes pour les deux outils (sauf pour le marqueur CM54.5-1109104 qui

est retrouvé par MLM avec GenABEL et MLM avec TASSEL en absence de PCA). Le chromosome 54.4

(chromosome 1) est détecté dans tous les tests, bien que le marqueur se trouve à des positions différentes.

Dans la figure 10, les valeurs observées sont inférieures à la ligne de régression attendue. Dans la figure 11, les

lambda avec l’outil GenABEL sont beaucoup plus proches de 1 (pente de régression attendue) que les lambda de

l’outil TASSEL dans la figure 10. Des corrections ont été faites pour tester la significativité pangénomique des

marqueurs trouvés, par deux méthodes FDR (libraires qvalue et p.adjust dans R) et la méthode Benjamini-Hochberg

(voir annexes). Aucun marqueur n’approchait le seuil de signification. De plus, toutes les valeurs p corrigées par les

méthodes FDR donnaient des valeurs identiques à plusieurs dizaines ou centaines de marqueurs.

La distribution de la fréquence de chaque valeur p résultante d’un des tests MLM pour les marqueurs est

représentée graphiquement dans la figure 12. On y observe une distribution uniforme, plutôt que la distribution

exponentielle proche du zéro qui est attendue lorsque des marqueurs vrais-positifs et significatifs sont trouvés.

64

Tableau VII. Résultats des tests statistiques d’association MLM avec les outils GenABEL et TASSEL. Aucun marqueur (N = 7810) n’atteint le seuil de significativité (p > 0.05) après correction par la méthode FDR dans l’ensemble des colonies tests (N = 34).

Outil

MLM avec cofacteur matrice de parenté génétique (K)

MLM avec cofacteur K et PCA

Marqueur Valeur p Correction

FDR* Marqueur Valeur p

Correction FDR*

GenABEL

CM55.5 - 4643825

0.000407 0.780 CM54.5 - 1108104

0.000255 0.817

CM62.5 - 3200528

0.000648 0.780 CM55.5 - 4643825

0.000298 0.817

CM54.5 - 1108104

0.000649 0.780 CM61.5 - 4600145

0.000454 0.817

TASSEL

CM54.5 - 26347596

0.00593 0.823 CM54.5 - 26347596

0.0017 0.980

CM54.5 - 1108104

0.00626 0.823 CM58.5 - 8146571

0.00186 0.980

CM58.5 - 5936280

0.00697 0.823 CM58.5 - 5936280

0.00191 0.980

* Correction FDR avec la librairie qvalue

65

Figure 10. Graphiques des résultats des tests statistiques MLM avec TASSEL. A) Lambda pour le MLM sans PCA B) Lambda pour le MLM avec PCA C) Graphique Manhattan des valeurs p obtenues avec MLM sans PCA D) Graphique Manhattan pour les valeurs p obtenues avec MLM incluant PCA

A) B)

C) D)

66

Figure 11. Graphiques des résultats des tests statistiques MLM avec GenABEL. A) Lambda pour le MLM sans PCA B) Lambda pour le MLM avec PCA C) Graphique de Manhattan des valeurs p obtenues avec MLM sans PCA D) Graphique de Manhattan pour les valeurs p obtenues avec MLM incluant PC

C) D)

A) B)

67

Figure 12. Distribution des valeurs p pour l’ensemble des marqueurs (N = 7810) pour les tests MLM. Par définition, une valeur p varie de 0 à 1. La valeur p est la probabilité de rejeter l’hypothèse à tort.

N

ombr

e

68

MLMM

Les tests statistiques MLM n’ayant pas donné de résultat concluant pour aucun des deux outils testés, le

modèle statistique MLMM a été utilisé pour explorer le jeu de données avec l’outil GAPIT. Aucun marqueur

n’est significatif après l’ajustement des valeurs p. Les résultats sont présentés dans le tableau VIII. On

remarque que toutes les valeurs p sont identiques après la correction FDR, bien que les valeurs p brutes

varient, tout comme c’est le cas pour les résultats de la méthode MLM.

Les figure 13 et figure 14 montrent respectivement les résultats graphiques du lambda et des valeurs p du

test MLMM fait avec GAPIT. Les faux-positifs semblent être bien corrigés et les valeurs p obtenues sont les

plus petites de tous les tests statistiques faits, donc les plus proches du seuil de significativité. Cependant,

elles ne passent pas la correction FDR. Les graphiques de distribution des marqueurs et de fréquence de

l’allèle mineur ont été mis dans les annexes. De l’ensemble des tests statistiques qui ont été effectués, aucun

n’a permis l’identification d’un marqueur significativement associé au trait phénotypique SMR.

La figure 15 présente la puissance statistique pour des marqueurs théoriques ayant des tailles effets

arbitraires sur le phénotype analysé en relation à l’erreur de type I (faux-positif) qui serait associé. Plus

simplement, le graphique montre la capacité de notre modèle statistique dans le cadre de mesures de notre

étude (phénotype, nombre de marqueurs, variance, etc.) à détecter un marqueur ayant une certaine influence

génétique sur le phénotype étudié à différents seuils d’erreur de type I. Notre puissance statistique est faible.

Notre étude pourrait détecter un nucléotide de trait quantitatif (QTN), soit un marqueur, avec une puissance

statistique suffisante (≥ 0.8) à un seuil de signification acceptable (α≤ 0.05) seulement si ce QTN avait un

effet sur le phénotype de 0.3 ou 0.2 unités de déviation standard.

69

Tableau VIII. Marqueurs les plus proches de la signification, obtenus par les tests MLMM avec GAPIT. Aucune valeur p associée à un marqueur dans le jeu de données (N = 7810) pour l’ensemble des colonies (N = 34) n’atteint le seuil de significativité après l’ajustement pour l’erreur de type I par la méthode FDR.

Outil Marqueur Valeur p Valeur p ajustée avec FDR

GAPIT

CM59.5 - 8242063 0.001072 0.994897

CM67.5 - 10280254 0.002438 0.994897

CM58.5 - 9123672 0.00247 0.994897

CM61.5 - 3025030 0.002495 0.994897

CM54.5 - 24883959 0.002543 0.994897

70

Figure 13. Graphique de lambda pour le test MLMM avec GAPIT

71

Figure 14. Graphique Manhattan du test MLMM avec GAPIT. Chaque point du graphique représente la valeur p obtenue pour un marqueur. Les différentes couleurs permettent de distinguer le chromosome sur lequel le marqueur associé est situé.

72

Figure 15. Puissance statistique relative à l’erreur de type I (α) pour la population et les marqueurs utilisés dans l’étude. Le graphique présente le résultat de l’ajout d’effet génétique à des marqueurs à tour de rôle, en leur attribuant un effet arbitraire de 0, 0.01, 0.02, 0.05, 0.1, 0.2 et 0.3 unités de déviation standard du phénotype (Tang, et al., 2016).

73

2.3 Discussion

Le premier objectif de ce projet était d’utiliser une approche d’association pangénomique pour identifier des

marqueurs et des gènes associés au trait de résistance SMR de l’Abeille mellifère au parasite V. destructor.

Ce projet est le premier à tenter une étude d’association pangénomique dans des colonies non-apparentées

pour identifier des gènes associés à la résistance au V. destructor chez A. mellifera. Les précédentes études

qui ont cherché à résoudre l’architecture génomique qui influence le trait complexe qu’est la résistance (SMR

et/ou VSH) au Varroa chez A. mellifera n’ont pas de consensus et présentent des résultats contradictoires.

Ces études utilisaient presque toute une approche de cartographie des QTL. Cette approche vérifie si un allèle

possède une transmission corrélée avec l’expression du trait dans des générations apparentées (Thompson,

Prahalad, & Colbert, 2016). Cette méthodologie peut biaiser les QTLs trouvés en association, ce qui pourrait

expliquer la dissension des résultats dans la littérature. L’utilisation d’un GWAS pour échantillonner un grand

nombre de colonies ayant une grande diversité génomique (non-apparentées) entre elles permettrait

d’éliminer ce biais et avancerait la compréhension de la génomique du trait de résistance au Varroa chez A.

mellifera. La taille d’échantillon obtenue pour ce projet, soit une population diversifiée de 34 colonies

provenant de cinq sites au travers du Québec, s’est révélée insuffisante pour l’identification de marqueurs

significativement associés au trait SMR. Cependant, comprendre les causes de ces résultats préliminaires non

concluants à cette étape du projet est essentiel pour compléter la taille de l’échantillon et optimiser la stratégie

d’analyse statistique afin de mener à bien la poursuite de ce projet. Cette section élabore sur les résultats

obtenus et propose plusieurs explications pour en éclairer les causes.

2.3.1 Résultats obtenus

Ces résultats sont non concluants compte tenu du fait que les valeurs p corrigées avec le FDR ne sont pas

significatives. Puisque les valeurs sont plus grandes que le seuil (0.05), on ne peut pas rejeter l’hypothèse

nulle. Cela ne signifie pas nécessairement qu’il y a absence d’association entre la génomique et le trait SMR,

mais plutôt que notre étude n’a simplement pas la puissance statistique nécessaire pour détecter l’association,

considérant la littérature sur le sujet. Le résultat inusuel des courbes lambda sous la droite attendue pour

l’ensemble des méthodes statistiques est un indice important, dont la cause probable est une trop petite taille

d’échantillon, un facteur associé à une faible puissance statistique.

La structure de population

Les résultats produits pour déterminer la structure de population et leur illustration graphique avec la

phylogénie (figure 8) ont pour finalité de guider notre stratégie d’analyse pour détecter des associations

statistiques génotype-phénotype. Ces résultats montrent qu’il n’existe pas de stratification directe de la

74

population associée au site d’échantillonnage, à l’exception toutefois du CRSAD. Considérant que le CRSAD

à un programme de sélection des colonies, le fait que ces colonies semblent plus proches génétiquement

entre elles qu’avec les autres ruchers est attendu. Cependant, ce n’est pas le cas pour les autres ruchers, ce

qui laisse croire que ceux-ci font l’achat régulier de nouvelles reines et donc que les relations de parenté entre

les ruches sont plus complexes. Une colonie d’un rucher pourrait être plus apparentée à celle d’un autre

rucher à cause de l’importation de reines par les producteurs. D’autre part, la matrice de parenté contredit les

résultats obtenus par la phylogénie des colonies du CRSAD, car aucun sous-groupe ne se divise clairement

dans le graphique (figure 7). La matrice de parenté indique une sous-structure de population complexe, avec

beaucoup de variation dans les degrés de relation entre les individus de l’échantillon, sans cofacteur évident

comme le rucher (figures 7 et 8). La raison pour laquelle la matrice de parenté ne reflète pas la séparation du

CRSAD par la phylogénie est que la phylogénie peut être manipulée par l’utilisateur en changeant les nœuds,

tandis que la matrice de parenté ne peut être modelée selon la vue de l’utilisateur, ce qui fait de notre matrice

de parenté un outil plus fiable pour refléter la structure de population que l’approche phylogénétique employée

dans cette étude. Les tests d’association statistiques MLM et MLMM sont capables peser l’effet de la

complexité des relations dans la population pour éviter de produire des résultats biaisés en intégrant des

données de matrice de parenté et de PCA.

Les valeurs p corrigées identiques

Dans les résultats, les valeurs p pour les tests d’association MLM et MLMM sont identiques après la correction

FDR pour un très grand nombre de marqueurs. Ce résultat curieux s’explique facilement par le fonctionnement

de la correction FDR. Tout d’abord, dans la figure 12, on observe que la distribution de la fréquence des

valeurs p est uniforme, alors qu’on s’attend à une distribution exponentielle proche du zéro. La raison pour

laquelle une distribution exponentielle est attendue, est qu’une valeur p qui respecte l’hypothèse nulle à 5 %

de chance d’être < 0.5, 10 % de chance d’être < 0.1 et ainsi de suite. Cette description s’applique à une

distribution uniforme. La présence de multiples marqueurs associés au trait étudié, tel que l’hypothèse du

projet proposait que nous trouvions dans cette étude, causerait un pic proche du zéro dans la figure 12. Ce

pic représenterait l’hypothèse alternative (lorsque l’hypothèse nulle n’est pas respectée), ainsi que des faux-

positifs. La correction de la valeur p par une méthode FDR permettrait d’identifier les véritables valeurs p qui

sont des vrais-positifs. Cependant, l’absence de pic dans la figure 12 semble indiquer que les valeurs p

trouvées sont toutes non-significatives, avant même d’avoir fait la correction des valeurs p qui le confirme.

Cela explique qu’on pouvait s’attendre à l’absence de valeurs significatives après la correction, mais pas que

ces valeurs corrigées sont identiques. Il faut comprendre, comme expliqué dans le chapitre 1, que la

75

correction FDR se base sur un test d’hypothèse nulle. La distribution de la fréquence des valeurs p suivant

une distribution uniforme (figure 12), aucune valeur ne permet de rejeter l’hypothèse nulle car aucune valeur

ne varie suffisamment de l’hypothèse nulle. La méthode d’ajustement des valeurs p par le FDR doit s’assurer

qu’une valeur p plus petite qu’une autre ne soit pas corrigée en valeur q plus grande que l’autre. Pour garder

cette relation entre les valeurs p une fois transformées en valeurs q (ou simplement ajustées par p.adjust),

l’algorithme de calcul s’assure que si une valeur classée plus haute que la précédente produit une valeur

ajustée plus petite que la valeur classée précédente, toutes les valeurs ajustées avant seront remplacées par

la valeur ajustées de la valeur p classée plus haut. Une valeur p plus grande qu’une autre a donc produit une

valeur q plus petite que l’autre, transformant toutes les valeurs inférieures en valeurs identiques.

Améliorer les valeurs p

Nos valeurs p pourraient être améliorées en faisant usage de cofacteurs dans les études d’association.

Effectivement, il est possible d’inclure dans le modèle statistique de régression d’autres phénotypes évalués,

autre que celui qui est visé par l’étude, et qui sont soupçonnés d’interférer sur l’expression du phénotype

recherché. Des cofacteurs potentiels seraient par exemple l’état du Varroa dans la cellule (mort ou vivant) et le

taux d’infestation du cadre. Plus particulièrement, pour le cas de l’étude du comportement VSH plutôt que du

trait SMR, le taux de manipulation des opercules des cellules de couvain infestées (désoperculation du

couvain) serait un cofacteur important. Le facteur limitant de l’inclusion de ces mesures dans l’étude est le

temps supplémentaire de l’évaluation de ces paramètres.

Il est intéressant de dénoter qu’aucun des marqueurs parmi les plus proches d’être significatifs pour

l’ensemble des tests ne se trouvait proche des sites des marqueurs trouvés dans la littérature (à moins de

2 Mb).

Comparaison des valeurs p de méthodes et d’outils différents

Bien qu’aucune conclusion solide ne puisse être tirée des résultats, TASSEL semblait produire les meilleurs

résultats pour le test statistique MLM utilisant la matrice de parenté et les PCA comme covariables. TASSEL

semble être l’outil le plus efficace à contrôler les faux-positifs. Ce résultat n’est pas très surprenant, sachant

que la libraire GenABEL est un produit du projet GenABEL qui a été discontinué depuis mars 2018. Le modèle

d’association MLM avait déjà été démontré comme étant plus efficace que GLM pour ce type d’étude, mais il

semblait aussi mieux performer que le modèle statistique MLMM. Le modèle statistique MLMM semblait

produire un meilleur lambda que la méthode MLM dans son graphique x2 de la figure 12, toutefois le

graphique Manhattan (figure 13) montre que le modèle surestime les faux-positifs. Théoriquement, MLMM est

76

plus efficace pour identifier des marqueurs ayant une taille effet moyenne, contrairement à MLM qui est

optimisé pour la détection de marqueurs à effets faibles. Pour les traits phénotypiques communs, typiquement

peu de variations ont un grand effet (Manolio, et al., 2009). Il est fréquent qu’aucun marqueur n’atteigne le

seuil de signification pan-génomique, même avec des milliers d’échantillons (Burton, 2007). Dans les traits les

plus complexes, un marqueur SNP peut expliquer seulement une infime partie de l’héritabilité et donc

nécessite un immense pouvoir statistique pour être détecté. Le trait SMR semble être potentiellement un de

ces traits particulièrement complexes, surtout considérant l’identification d’un nombre aussi divers et non

complémentaire de sites associés à ce trait dans la littérature. Il faut aussi tenir compte de la distribution du

phénotype qui n’est pas normale, alors qu’il s’agit d’un prérequis important pour utiliser efficacement les MLM

et MLMM. D’autre part, l’outil TASSEL et l’outil GenABEL ne trouvent pas les mêmes régions génomiques

dans leurs tests d’association. Cependant, le chromosome 54.5 (chromosome 1) revient dans tous les tests

avec les deux outils, bien que à différentes régions. Dans le tableau IX, les marqueurs trouvés par les outils

TASSEL et GenABEL sur les mêmes chromosomes et à moins de 2 Mb de distance que ceux découverts

l’outil GAPIT lors de la régression MLMM. Le fait que ces différents outils aient trouvé des sites proches ayant

la plus grande association au trait pourrait indiquer que ces sites aient un impact réel sur le trait SMR.

Cependant, la puissance de notre étude est insuffisante pour le démontrer. Aucun de ces marqueurs n’a été

identifié auparavant dans la littérature, bien qu’un QTL sur le chromosome 1, à plus de 10 Mb de distance de

ceux identifiés dans notre étude, ait été détecté par l’étude de Tsuruda (2012). Le chromosome 5 quant à lui

est revenu à deux reprises, par un site très éloigné de la position de nos marqueurs, dont l’association a été

découverte par Spötter (2016) et par un QTL présenté dans Oxley (2010), dont la position n’est pas claire. Il

est difficile de comparer des résultats non concluants. On ne peut donc pas tirer de réelle conclusion ou

affirmation sur les méthodes et les marqueurs trouvés. Le plus important est de comprendre pourquoi aucun

de nos résultats n’est significatif, considérant les études précédentes qui ont été capables d’identifier des sites

associés au trait SMR.

77

Tableau IX. Comparaison des marqueurs trouvés par différents outils des tests d’association qui sont proches de la significativité (seuil p = 0.05) et qui sont situés à moins de 2 Mb sur le même chromosome.

Outil

Marqueurs

GAPIT (MLMM) TASSEL (MLM) GenABEL (MLM)

CM54.5 – 24’883’959 CM54.5 – 26’347’596 -

CM58.5 – 9’123’672 CM58.5 – 8’146’571 -

CM61.5 – 3’025’030 - CM61.5 – 4’600’145

78

2.3.2 Le problème de la puissance statistique

La principale question à se poser en vue des résultats obtenus est la suivante : pourquoi n’arrive-t-on pas à

détecter d’association? Il a précédemment été soulevé qu’à la lumière des études précédentes, une

association existe très probablement. Alors il nous faut soupçonner que notre étude est victime de résultats

faux-négatifs et d’une trop faible puissance statistique.

L’évaluation de la puissance statistique d’une étude est un outil important qui permet d’évaluer la confiance

des résultats. Lorsqu’on vise une puissance statistique a priori, cela permet de déterminer la taille d’échantillon

à viser pour limiter les faux-négatifs (erreurs de type II) et optimiser la probabilité de découvrir si une

association existe. Pourtant, dans cette étude comme dans bien d’autres, il s’agit d’une statistique qui est

boudée par les chercheurs. L’importance de la puissance sur les résultats et leur interprétation est indéniable,

alors pourquoi est-elle mise de côté?

L’évaluation de la puissance d’une étude a priori, bien que très informative, demande la connaissance de

plusieurs caractéristiques du trait étudié qui ne sont pas nécessairement disponibles. Entre autres, le modèle

génétique, la MAF, le LD, la prévalence, le nombre de marqueurs impliqués et l’hétérozygotie sont utilisés

pour le calcul de la puissance (Hong & Park, 2012). Aucune de ces caractéristiques n’a été bien répertoriée

pour le trait SMR, le calcul de la puissance a priori de l’étude, dans le but de déterminer une taille

d’échantillon, n’a donc que très peu de valeur. Cela n’empêche pas la puissance d’avoir un impact majeur sur

l’étude et ces résultats. La faible puissance de notre étude a été observée Post hoc (figure 15). On suspecte

donc la faible puissance d’être responsable de notre incapacité à détecter une association.

Les facteurs influençant la puissance d’une étude (pour l’ensemble des tests) sont la taille de l’échantillon et

l’effet des marqueurs et les la distribution des valeurs p, l’un ou plusieurs de ces facteurs sont donc en cause

de notre faible puissance. La précision et la variance des mesures prises sur l’échantillon sont aussi des

facteurs qui impactent la puissance de l’étude a priori, lorsqu’il s’agit de déterminer la taille d’échantillon

nécessaire à éviter les erreurs de type II. Les prochains paragraphes présentent des approches pour

améliorer chacun de ces facteurs.

Effet des marqueurs

Une façon d’augmenter la puissance de l’étude est d’augmenter la variance entre les individus aux

phénotypes extrêmes. Cela peut être réalisé en enlevant les mesures de phénotypes trop intermédiaires, ou

79

encore en enlevant le caractère quantitatif de l’évaluation du phénotype en catégorisant simplement les

individus (colonies) en « résistantes » ou « sensibles ». Un frein majeur à l’utilisation de cette approche est

qu’aborder l’évaluation du phénotype de manière catégorique implique qu’il faut trouver une division dans le

trait continu où il serait arbitrairement décidé que le trait SMR soit exprimé ou non. Cela implique aussi une

perte de sensibilité importante de détection des marqueurs. Notre taille d’échantillon étant limitée, le fait

d’enlever d’avantage d’individus n’est pas souhaitable car cela diminuerait encore plus le peu de variance

disponible.

La taille d’échantillon

Un facteur essentiel souligné dans le chapitre 1 est l’importance d’avoir un échantillon de grande taille pour

réaliser une étude d’association pangénomique. Il est clair que l’étude réalisée dans ce projet avait un

échantillon de taille insuffisante. Le projet devait initialement inclure 105 colonies dans l’étude, ce qui

représentait déjà un échantillon de taille modeste. En théorie, il est recommandé de réaliser des GWAS avec

un échantillon de population plus grand que le nombre de variables testées, soit plus d’individus dans

l’échantillon que de marqueurs utilisés dans le test d’association. Notre test d’association incluait

7 810 marqueurs pour 34 individus, en termes statistiques 7 810 variables pour 34 observations, ce qui est

nettement insuffisant. En diminuant le nombre de marqueurs, le risque de perdre des marqueurs

potentiellement importants aurait augmenté, particulièrement si on considère l’ensemble des critères

discriminants de filtration des séquences pour le contrôle de qualité ayant été employés.

De plus, il faut considérer la précision et la variance des mesures qui sont prises sur l’échantillon, car ces

facteurs influencent le nombre d’individus (colonies) nécessaires à l’étude. Les mesures qui sont prises sur

l’échantillon informent de la distribution des probabilités autour des valeurs obtenues (de niveau SMR dans

notre cas) selon lesquelles on estime la distribution réelle des valeurs de phénotypes dans la population.

Nécessairement, plus la taille d’échantillon est grande, meilleure est la confiance en notre estimation. De

même, plus l’intervalle de confiance est large, moins l’étude est puissante, et donc plus la taille d’échantillon

doit être grande (Jones, Carley, & Harrison, 2003). Ci-dessous, les différents facteurs qui affectent la précision

et la variance des mesures dans la population seront abordés.

Le taux d’infestation

L’intervalle de confiance dans la mesure prise affecte la précision du phénotype évalué. Un taux d’infestation

trop faible (< 5 %) augmente l’incertitude dans l’évaluation du phénotype. Concisément, si l’infestation est

inférieure au seuil minimal recommandé, la différence d’expression du trait de résistance n’est plus observable

80

entre une colonie résistante et une colonie sensible. Dans cette étude, le taux d’infestation de Varroa dans le

couvain était un facteur limitant important, non seulement pour le biais dans l’évaluation du phénotype, mais

aussi pour atteindre la taille d’échantillon visée. Le taux excessivement bas de l’infestation dans nos colonies

(parfois simplement l’absence d’infestation) a obligé l’exclusion de plusieurs dizaines de colonies (70 des

105 colonies, soit les deux tiers de l’échantillonnage initial) qui devaient faire partie de l’échantillon étudié

initialement. De plus, plus le taux d’infestation est bas, plus le temps d’évaluation du phénotype est long.

La solution la plus simple à ce problème est d’infester artificiellement les colonies ou d’utiliser un protocole

d’évaluation du comportement VSH (plutôt que SMR) qui implique l’introduction d’un cadre de couvain infesté

dans la colonie (Villa, Danka, & Harris, 2009). Cependant, ce protocole présente le désavantage de nécessiter

beaucoup plus de manipulations de la part de l’évaluateur et incidemment ce protocole est plus long que celui

d’évaluation du trait SMR. Notre projet en particulier s’effectuait avec la collaboration d’apiculteurs

commerciaux pour que la diversité génétique de l’échantillon soit suffisante et représentative des populations

du Québec. La collaboration avec les apiculteurs n’est évidemment pas propice à l’infestation artificielle des

ruches, ni même à exécuter le protocole VSH. Éventuellement, il serait possible d’effectuer un projet

semblable en utilisant des reines achetées à plusieurs apiculteurs, mais élevées dans un rucher expérimental

qui permettrait de faire l’infestation expérimentale et de ne pas inhiber le développement des populations de

Varroa dans le rucher en ne traitant pas les colonies, ce qui est impossible dans un cadre commercial. La

réalisation d’un projet de cette ampleur dépend alors exclusivement des ressources de l’équipe de recherche.

L’origine des colonies tests limite la taille de l’échantillon, premièrement parce qu’il est nécessaire d’obtenir

des colonies qui ne sont pas trop apparentée pour éviter les biais de déséquilibre de liaison (LD) dans la

population résultante et deuxièmement, parce que les colonies utilisées dans ce projet venaient très

majoritairement de producteurs commerciaux. Dans un contexte de production, la prise d’un cadre de couvain

dans une colonie peut s’avérer nuisible, en réduisant les performances de cette dernière.

L’effet de l’environnement

Un autre problème qui a certainement affecté notre étude d’association est l’effet de l’environnement sur la

précision de la mesure de l’expression du phénotype. Les caractères phénotypiques quantitatifs sont

influencés par l’effet des gènes, mais aussi de façon importante par l’environnement. Idéalement, pour

identifier l’effet des gènes sur le phénotype et permettre leur analyse par une étude d’association, il faut limiter

l’impact de l’environnement sur le phénotype que l’on évalue. La façon standard de contrôler l’effet

environnemental est de contrôler les paramètres environnementaux pour qu’ils soient identiques, ainsi on

s’attend à ce que les variations dans l’expression du phénotype soient exclusivement dues aux différences

81

génétiques et au hasard. Malheureusement, les paramètres environnementaux sont excessivement difficiles,

voire impossibles à contrôler en apiculture, puisque les colonies ne peuvent pas être conservée à l’intérieur

hors de la période d’hivernage. Le phénotype évalué présente alors une grande marge d’erreur, qui affecte la

taille effet attendue des marqueurs, en plus de ne pas contrôler correctement l’effet de l’environnement sur le

phénotype.

Les abeilles sont malheureusement un modèle animal dont les facteurs environnementaux sont

excessivement complexes à contrôler. La manière la plus évidente de contrôler les facteurs environnementaux

est de faire l’expérience (l’évaluation d’expression du phénotype) in vitro, donc en laboratoire, ce qui est

pratiquement impossible pour les abeilles, pour plusieurs raisons :

• Les paramètres d’une ruche (température, lumière et humidité) ont une étroite variation dans la

nature. Le contrôle de ces paramètres en laboratoire demande du matériel spécialisé et coûteux,

particulièrement considérant la taille d’une ruche (Ohashi, et al., 2009).

• Puisque les abeilles utilisent le soleil pour se guider, il est impossible de mettre une colonie dans une

pièce fermée en espérant avoir un comportement normal (Evangelista, et al., 2014).

• Même en utilisant un seul rucher, donc à un endroit délimité dans lequel les paramètres de

température, de compétition, d’humidité et de ressources environnantes sont très similaires, d’autres

facteurs environnementaux auront un impact majeur sur le phénotype. Bien que la taille de la ruche

ne semble pas avoir d’effet sur le comportement hygiénique, la quantité de couvain a été corrélée

négativement avec l’expression du comportement hygiénique (Bigio, Schürch, & Ratnieks, 2013).

La distribution du phénotype

La variance, c’est-à-dire la distribution du phénotype dans la population, est aussi un facteur qui influence la

puissance de l’étude et la taille de population nécessaire. Les tests paramétriques qui sont utilisés pour

identifier l’association assument une distribution normale du phénotype dans la population. L’absence de

distribution normale de la fréquence des phénotypes est un indicateur supplémentaire que la taille

d’échantillon est insuffisante (figure 5). Toutefois, il peut y avoir d’autres causes qui expliqueraient la

distribution du phénotype observée. Pour que les fréquences suivent une distribution normale, certaines

assomptions doivent être respectées, à savoir que plusieurs loci doivent être impliqués dans l’expression du

trait (trait quantitatif), chacun de ces locus doit avoir un effet équivalent (modèle additif) et agir

indépendamment les uns des autres (interaction limitée). Alors que l’on peut assumer que la première

assomption est respectée par la littérature résumée dans le premier chapitre, il se peut que le modèle additif

ne soit pas représentatif de la réalité de l’architecture génomique du trait SMR. Dans un tel cas, l’interaction

82

entre les locus impliqués peut être plus complexe que ce qui était attendu et le modèle additif utilisé par les

outils serait insuffisant pour détecter correctement l’effet des marqueurs associés au trait.

La structure de population

Outre la taille de l’échantillon, les tests statistiques d’association déterminent la puissance d’une étude. Les

modèles ont été abordés dans la première partie de cette section, la détermination de la structure de

population sera maintenant approfondie. La structure de population est un facteur de biais largement discuté

dans le chapitre 1, dont les modèles statistiques doivent tenir compte afin de réduire les erreurs de type I et de

type II. Dans cette étude, un graphique de matrice de parenté génétique a été utilisée pour tenter d’identifier

une structure de sous-groupes dans la population (figure 7). L’explication la plus probable de l’absence de

divisions claires des individus en sous-groupes est une trop petite taille d’échantillon. Une autre explication

possible serait la présence d’une hétérozygotie plus forte que ce qui était attendu dans la population

échantillonnée (données en annexes) (Ioannidis, Thomas, & Daly, 2009). Encore une autre cause possible est

la présence de plusieurs sous-espèces d’A. mellifera dans notre échantillon. L’identification des sous-espèces

serait possible en faisant un séquençage en profondeur d’une région d’ADN mitochondrial conservée qui est

utilisée pour classifier les sous-espèces (Syromyatnikob, et al., 2018). Cette entreprise représentant un effort

substantiel, elle n’a pas été effectuée dans le cadre de ce projet. Sa réalisation pourrait toutefois permettre de

mieux contrôler la structure de population lors de la régression des génotypes sur les phénotypes. D’ailleurs,

en observant attentivement la figure 7, il semble y avoir certains individus qui sont potentiellement des valeurs

aberrantes (isolées de toutes les autres valeurs). Cependant, des tests (non présentés) ont montré que de

retirer ces individus potentiellement aberrants n’affectait pas la qualité des résultats.

Les études classiques de sélection animale utilisent le pédigrée des individus comme covariant dans les tests

d’association statistiques au lieu de matrice de parenté génétique. Il nous a été impossible d’obtenir

l’information du pédigrée des pères à cause de la polyandrie des reines. Seule l’information maternelle est

disponible et une liste des sources possibles de mâles (colonies relativement proches). Contrôler la

reproduction par insémination des reines est une pratique fastidieuse et une expertise rare en apiculture. De

plus, la polyandrie n’est pas uniquement naturelle mais essentielle au fitness des colonies (Mattila & Seeley

2007). Pour ces raisons, le génotypage de la reine est la seule façon de déterminer avec précision la parenté

de cette reine sans compromettre les performances de la colonie. Toutefois, des études ont montré que la

matrice de parenté donnait parfois à de meilleurs résultats que le pédigrée pour contrôler la structure de la

population.

83

Conclusion

Notre premier objectif, qui était d’apporter une meilleure compréhension de l’architecture génomique associée

à la résistance par la baisse de fertilité du Varroa destructor (SMR) chez Apis mellifera par une étude

d’association pan-génomique entre la résistance et les marqueurs SNPs identifiés par la méthode de

génotypage par séquençage. Cet objectif n’a pas donné de résultats concluants : la complexité de l’évaluation

du phénotype et la taille insuffisante de l’échantillon de notre étude sont les principales causes de la faible

puissance de notre étude et donc de notre incapacité à trouver des associations significatives.

Notre projet n’est pas le premier à tenter d’élucider l’architecture génomique qui régit le trait de résistance

SMR, ou même le comportement VSH, chez A. mellifera. Les études ayant partagé ce but remontent à avant

même le 21e siècle. Toutefois, notre projet représente la toute première tentative d’étude d’association pan-

génomique, à proprement parler, pour atteindre ce but, à notre connaissance. Les études antérieures basées

sur la famille (family-based linkage studies) ont toutes utilisé des colonies ayant des liens de parentés avec

lesquelles des rétrocroisements ont été effectués (provenant généralement d’un seul site), ce qui fait de ces

études des analyses de QTL. C’est aussi le cas dans l’étude de Spötter (2017), qui pourtant porte le titre de

« Genome-wide association study of a varroa-specific defense behabior in honeybees (Apis mellifera) ». Il est

généralement admis que les études classiques qui utilisent des familles pour réaliser les analyses de QTL

sont efficaces pour identifier les gènes qui ont des effets forts dans les traits mendéliens, mais que leur

efficacité est limitée dans les traits complexes communs (Altmüller, et al., 2001).

Les GWAS sont des outils spectaculaires qui offrent une possibilité jamais imaginée auparavant d’interroger

l’ensemble du génome chez un grand nombre d’individus sans liens de parenté. Elles ont permis la

découverte de régions génomiques sans gènes connus fortement associés à des phénotypes, qui n’avaient

jamais été soupçonnées d’impacter un phénotype. Malheureusement, cet outil dont la popularité a explosé ces

dernières années présente d’importantes limitations, la plus problématique étant leur prédisposition à produire

des résultats faux-positifs ou faux-négatifs. La résolution ou du moins la limitation de cette problématique

repose principalement sur le choix et le paramétrage des modèles statistiques d’association développés dans

l’optique des GWAS. D’autre part, la puissance statistique, un paramètre souvent négligé dans les études

génomiques, s’avère être excessivement important à la réalisation d’une étude et la confirmation de la

signification des marqueurs associés lorsque leur valeurs p est sous le seuil de signification après correction.

84

Finalement, la taille d’échantillon est, comme le montre ce projet, un facteur crucial à la réussite d’une telle

étude.

Perspectives

Dans les circonstances actuelles de l’étude de la génomique de la résistance au Varroa chez A. mellifera, la

réalisation d’une méta-analyse représente une avenue intéressante, qui permettrait de combiner les résultats

d’études ayant trouvé des marqueurs significatifs ou non, ce qui permettrait potentiellement de mieux

comprendre l’architecture génomique de ce trait. Cette approche serait particulièrement intéressante pour

établir la crédibilité des résultats d’études antérieures sur la même question de recherche.

La découverte de marqueurs génomiques significativement associés au trait de résistance servirait dans le

développement et l’application d’un programme de sélection génomique, c’est-à-dire en identifiant les reines

dont le génome contient des variants alléliques favorisant un bon comportement SMR. Cet outil permettrait

donc d’éviter le processus fastidieux d’évaluation du trait, mais aussi serait plus fiable que cette évaluation qui

est dépendante de l’environnement. Les preuves du fonctionnement de la sélection assistée par les

marqueurs génétiques ne sont plus à faire. Il s’agit d’un outil largement employé, par exemple dans le but de

maximiser la biomasse du bois en foresterie, ou encore pour favoriser des traits de production dans le bétail

(Guimaraes, et al. 2007). Des changements impressionnants ont été réalisés pour des traits quantitatifs par la

sélection, par exemple sur la sélection du maïs pour sa production d’huile, une expérience réalisée en Illinois

qui dure depuis 100 générations et qui démontre le pouvoir de sélection de QTLs à effets additifs (Laurie et al.

2004). Cependant, il faut être prudent en s’engageant dans l’entreprise de la reproduction sélective, puisque

non seulement la sélection directionnelle arrive nécessairement à une fin éventuelle, mais aussi parce que la

sélection visant un seul trait peut se faire au détriment d’autres traits recherchés.

Plusieurs articles à ce jour ont proposé des marqueurs associés au trait de résistance chez l’abeille, sans

tester plus loin leur association. Chaque gène candidat trouvé par une étude d’association devrait être testé

individuellement, puisque dans la plupart des cas la majorité de ces candidats de contribuent que

marginalement ou pas du tout au phénotype (Witte, 2010), particulièrement lorsque ces gènes sont suggérés

par les QTLS (Kloosterman, et al., 2010). Du travail reste à faire pour élucider l’architecture du trait complexe

SMR et du comportement VSH, mais aussi pour s’assurer de la réalité biologique des associations statistiques

de certains marqueurs à ce trait. La faille la plus importante de notre étude était l’échantillon de taille

insuffisante, ce qui devrait être rectifié dans des analyses futures en visant une taille d’échantillon d’au moins

85

une centaine de colonies et beaucoup plus si l’on peut optimiser la mesure du phénotype, qui s’est avérée très

chronophage. Ainsi, d’autres études d’association qui se concentrent sur des populations plus diversifiées

devraient être faites dans le futur, mais aussi des études moléculaires de l’efficacité des marqueurs associés.

86

Bibliographie

Aljanabi, S. M., & Martinez, I. (1997). Universal and rapid salt-extraction of highquality genomic DNA for PCR-

based techniques. Nucleic Acids Research, 25(22), 4692-4693.

Altmüller, J., Palmer, L. J., Fischer, G., Scherb, H., & Wjst, M. (2001). Genome-wide scans of complex human

diseases. Am. J. Hum. Genet., 69(5), 936-950.

Anderson, C. A., Pettersson, F. H., Clarke, G. M., Cardon, L. R., Morris, A. P., & Zondervan, K. T. (2010). Data

quality control in genetic case-control association studies. Nature Protocols, 5, 1564-1573.

Anderson, D. L., & Fuchs, S. (1998). Two genetically distinct populations of Varroa jacobsoni with contrasting

reproductive abilities on Apis mellifera. Journal of Apicultural Research, 37(2), 69-78.

Andersson, M. (1984). The Evolution of Eusociality. Ann. Rev. Ecol. Syst., 15, 165-89.

Andrews, S. (2010). FastQC A Quality Control tool for High Throughput Sequencing Data. Consulté le 2018,

sur http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

Aulchenko, Y. S., Ripke, S., Isaacs, A., & van Duijn, C. M. (2007). GenABEL: an R library for genome-wide

association analysis. Bioinformatics, 23(10), 1294-1296.

Aumeier, P., Rosenkranz, P., & Gonçalves, L. S. (2000). A comparison of the hygienic response of Africanized

and European (Apis mellifera carnica) honey bees to Varroa-infested brood in tropical Brazil.

Genetics and Molecular Biology, 23, 787-791.

Baird, N. A., Etter, P. D., Atwood, T. S., Currey, M. C., Shiver, A. L., & et al. (2008). Rapid SNP discovery and

genetic mapping using sequenced RAD markers. PLoS ONE, 3.

Balding, D. J. (2006). A tutorial on statistical methods for population association studies. Nature Reviews

Genetics, 7, 781-791.

Barton, N. H., Etheridge, A. M., & Véber, A. (2017). The infinitesimal model: Definition, derivation, and

implications. Theoretical Population Biology, 118, 50-73.

Behrens, D., Huang, Q., Gebner, C., Rosenkranz, P., Frey, E., Locke, B., . . . Kraus, F. B. (2011). Three QTL

in the honey bee Apis mellifera L. suppress reproduction of the parasitic mite Varroa destructor. Ecol.

Evol., 1(4), 451-158.

Benjamini, Y., & Hochberg, Y. (1995). Controlling the false discovery rate: a practical and powerful approach to

multiple testing. Journal of the Royal Statistical Society Series B, 289-300.

Bertholf, L. M. (1925). The moults of the honeybee. Journal of Economic Entomology, 18, 380-384.

Bigio, G., Schürch, R., & Ratnieks, F. L. (2013). Hygienic behavior in honey bees (Hymenoptera: Apidae):

effects of brood, food, and time of the year. J. Econ. Entomol., 106(6), 2280-5.

Boecking, O., & Drescher, W. (1992). The removal response of Apis mellifera L. colonies to brood in wax and

plastic cells after artificial and natural infestation with Varroa jacobsoni Oud. and to freeze-killed

brood. Eperimental and Applied Acarology, 16, 321-329.

Boecking, O., & Genersch, E. (2008). Varroosis - the ongoing crisis in bee keeping. Journal Fur

Verbraucherschutz Und Lebensmittelsicherheit - Journal of Consumer Protection and Food Safety, 3,

221-228.

Boecking, O., & Ritter, W. (1993). Grooming and removal behaviour of Apis mellifera intermissa in Tunisia

against Varroa jacobsoni. Journal of Apicultural Research, 32, 127-134.

Boecking, O., & Spivak, M. (1999). Behavioral defenses of honey bees against Varroa jacobsoni Oud.

Apidologie, 30, 141-158.

Boncristiani, H., Li, J., Evans, J., Pettis, J., & Chen, Y. (2011). Scientific note on PCR inhibitors in the

compound eyes of honey bees, Apis mellifera. Apidologie, 42(4), 457-460.

87

Bowen-Walker, P. L., & Gunn, A. (2001). The effect of the ectoparasitic mite, Varroa destructor on adult worker

honeybee (Apis mellifera) emergence weights, water, protein, carbohydrate, and lipid levels.

Entomologia Experimentalis Et Applicata, 101, 207-217.

Bowen-Walker, P. L., & Gunn, A. (2001). The effect of the extoparasitic mite, Varroa destructor on adult worker

honeybee (Apis mellifera) emergence weights, water, protein, carbohydrate, and lipid levels. Entomol.

Exp. Appl., 101, 207-217.

Bradbury, P. J., Zhang, Z., Kroon, D. E., Casstevens, T. M., Ramdoss, Y., & Buckler, E. S. (2007). TASSEL:

Software for association mapping of complex traits in diverse samples. Bioinformatics, 23, 2633-

2635.

Browning, B. L., Zhou, Y., & Browning, S. R. (2018). A one-penny imputed genome from next generation

reference panels. Am. J. Hum. Genet., 103(3), 338-348.

Brumfield, R. T., Beerli, P., Nickerson, D. A., & Edwards, S. V. (2003). The utility of single nucleotide

polymorphisms in inferences of population history. Trends in Ecology and Evolution, 18(5), 249-256.

Büchler, R., Berg, S., & Le Conte, Y. (2010). Breeding for resistance to Varroa destructor in Europe.


Büchler, R., Costa, C., Mondet, F., Kezic, N., & Kovacic, M. (2017). Screening for low Varroa mite reproduction

(SMR) and recapping in European honey bees. Reserach Network for Sustainable Bee Breeding.

Bush, W. S., & Moore, J. H. (2012). Chapter 11: Genome-wide association studies. PLoS Computer Biology,

8(12).

Calderone, N. W. (1999). Evaluation of formic acid and a thymol-based of natural products for the fall control of

Varroa jacobsoni (Acari: Varroidae) in colonies of Apis mellifera (Hymenoptera: Apidae). J. Econ.

Entomol., 92, 253-260.

Cantor, R. M., Lange, K., & Sinsheimer, J. S. (2010). Prioritizing GWAS Results: A Review of Statistical

Methods and Recommendations for Their Application. American Journal of Human Genetics, 86(1),

6-22.

CAPA, N. S. (2018). CAPA Statement on Honey Bee Wintering Losses in Canada.

Chauvin, R. (1968). Traité de biologie de l'abeille. Paris: Masson.

Chen, Y. P., Higgins, J. A., & Feldlaufer, M. F. (2005). Quantitative real-time reverse transcription-PCR

analysis of deformed wing virus infection in the honeybee (Apis mellifera L.). Applied and

Environmental Microbiology, 71, 436-441.

Chen, Y. P., Zhao, Y., Hammond, J., Hsu, H. T., Evans, J., & Feldlaufer, M. (2004). Multiple virus infections in

the honey bee and genome divergence of honey bee viruses. Journal of Invertebrate Pathology, 87,

84-93.

Cingolani, P., Platts, A., Wang, L., Coon, M., Nguyen, T., Wang, L., . . . Lu, X. (2012). A program for

annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the

genome of Drosophila melanogaster strain w; iso-2; iso-3. Fly, 6(2), 1-13.

Comité sur les enquêtes nationales de l'ACPA 2015, Leboeuf, A., Nasr, M., Jodan, C., Kempers, M., Kozak,

P., . . . Wilson, G. (2015). Canadian Association of Professional Apiculturists Statement on Honey

Bee Wintering Losses in Canada.

Comité sur les enquêtes nationales de l'ACPA 2015, Leboeuf, A., Nasr, M., Jordan, C., Kempers, M., Kozak,

P., . . . Wilson, G. (2015). Canadian Association of Professional Apiculturist Statement on Honey Bee

Wintering Losses in Canada. CAPA.

88

Comité sur les enquêtes nationales de l'ACPA 2016, Leboeuf, A., Nasr, M., Ferland, J., Wilson, G., Jordan, C.,

. . . van Westendorp, P. (2016). Association cancadienne des professionnels de l'apiculture Rapport

sur la mortalité hivernale des colonies d'abeilles au Canada. CAPA.

Comité sur les enquêtes nationales de l'ACPA. (2018). Rapport sur la mortalité hivernale de clonies d'abeilles

au Canada. Agriculture et Agroalimentaire Canada.

Cordell, H. J., & Clayton, D. G. (2002). A unified stepwise regression procedure for evaluating the relative

effects of polymorphisms within a gene using case/control or family data: application to HLA in type 1

diabetes. Am. J. Hum. Genet., 70, 124-141.

Currie, R., Pernal, S., & Guzman-Novoa, E. (2010). Honey bee colony losses in Canada. Journal of Apicultural

Research(49), 104-106.

Danecek, P., Auton, A., Abecasis, G., Albers, C. A., Banks, E., DePristo, M. A., & 1000 Genomes Project

Analysis Group. (2011). The Variant Call Format and VCFtools. Bioinformatics.

Danforth, B. (2007). Bees. Current biology(17), 156-161.

Danka, R. G., Harris, J. W., & Villa, J. D. (2011). Expression of Varroa sensitive hygiene (VSH) in commercial

VSH honey bees (Hymenoptera: Apidae). J. Econ. Entomol., 104(3), 745-749.

Danka, R., Harris, J., Villalobos, E., & Glenn, T. (2012). Varroa destructor resistance of honey bees in Hawaii,

USA, with different genetic proportions of Varroa Sensitive Hygiene (VSH. Journal of Apicultural

Research , 51(3), 288-290.

Dekkers, J. M. (2004). Commercial application of marker- and gene- assisted selection in livestock: Strategies

and lessons. J. Anim. Science, 82, E313-328.

Devlin, B., & Risch, N. (1995). A comparison of linkage desequilibrium measures for fine-scale mapping.

Genomics, 19, 311-322.

Dietemann, V., Ellis, J. D., & Neumann, P. (2013). The COLOSS BEEBOOK vol. I. Standard methods for Apis

mellifera research: Introduction. Journal of Apicultural Research, 52.

Dietemann, V., Pflugfelder, J., Anderson, D., Charriere, J. D., Chejanovsky, N., Dainat, B., . . . Neumann, P.

(2012). Varroa destructor: research avenues towards sustainable control. Journal of Apicultural

Research, 51, 125-132.

Dudley, J. W., & Lambert, R. J. (2004). 100 generations of selection for oil and protein content in corn. Plant

Breed. Rev., 24, 79-110.

Ellis, J. D., Delaplane, K. S., & Hood, W. M. (2001). Efficacy of a bottom screen device, Apistan (TM), and

Apilife VAR (TM), in controlling Varroa destructor. American Bee Journal, 141, 813-816.

Elshire, R. J., Glaubitz, J. C., Sun, Q., Poland, J. A., Kawamoto, K., Bucker, E. S., & Mitchell, S. E. (2011). A

Robust, Simple Genotyping-by-Sequencing (GBS) Approach for High Diversity Species. PLoS ONE,

6(5).

Engels, W. R., & Preston, C. R. (1984). Formation of chromosome rearrangements by P factors in Drosophila.

Genetics, 107, 657-678.

Evangelista, C., Kraft, P., Dacke, M., Labhart, T., & Srinivasan, M. V. (2014). Honeybee navigation: critically

examining the role of the polarization compass. Philos. Trans. R. Soc. Lond. B Biol. Sci., 369(1636),

20130037.

Evans, J. D., Schwarz, R. S., Chen, Y. P., Budge, G., Cornman, R. S., De la Rua, P., . . . Pinto, M. (2013).

Standard methods for molecular research in Apis mellifera. Journal of Apicultural Research, 52(4:

The COLOSS BEEBOOK Part 2), 1-54.

Ewing, B., & Green, P. (1998). Base-calling of automated sequencer traces using phred. II. Error probabilities.

Genome Res., 8(3), 186-194.

89

Fahrenholz, L., Lamprecht, I., & Schricker, B. (1989). Thermal investigations of a honey bee colony:

thermoregulation of the hive during summer and winter and heat production of members of different

bee castes. Journal of Comparative Physiology B, 159(5), 551-560.

Franck, P., Garnery, L., Loiseau, A., Oldroy, B. P., Hepburn, H. R., Solignac, M., & Cornuet, J.-M. (2001).

Genetic diversity of the honeybee in Africa: microsatellite and mitochondrial data. Heredity(86), 420-

430.

Franck, P., Garnery, L., Oldroyd, B., Hepburn, H., Solignac, M., & Cornuet, J.-M. (2001). Genetic diversity of

the honeybee in Africa: microsatellite and mitochondrial data. Heredity(86), 420-430.

Fries, I., & Rosenkranz, P. (1996). Number of reproductive cycles of Varroa jacobsoni in honey-bee (Apis

mellifera) colonies. Experimental & Applied Acarology, 20, 103-112.

Fuchs, S. (1994). Nonreproducing Varroa jacobsoni Oud. in honey bee worker cells - status of mites or effects

of brood cells. Exp. Appl. Acarol., 18, 309-317.

Gaiger, I. T., Tomljanovic, Z., & Petrinec, Z. (2010). Monitoring health status of Croatian honey bee colonies

and possible reasons for winter losses. Journal of Apiculutral Research, 49, 107-108.

Gary, N. (1963). Observations of mating behaviour in the honeybee. Journal of Apicultural Research (2), 3-13.

Gary, N. (1963). Observations of mating behaviour in the honeybee. Journal of Apicultural Research, 2, 3-13.

Genersch, E. (2005). Development of a rapid and sensitive RT-PCR method for the detection of deformed

wing virus, a pathogen of the honeybee (Apis mellifera). Vet. J., 169, 121-123.

Genersch, E., & Aubert, M. (2010). Emerging and re-emerging viruses of the honey bee (Apis mellifera L.).

Veterinary research, 41-54.

Genomes Project Consortium. (2010). A map of human genome variation from population-scale sequencing.

Nature, 467, 1061-1073.

Giovenazzo , P. (2011). Application d'une stratégie de lutte intégrée contre le parasite Varroa destructor dans

les colonies d'abeilles mellifères du Québec. Thèse de doctorat, Université de Montréal.

Giovenazzo, P., & Dubreuil, P. (2011). Evaluation of spring organic treatments against Varroa destructor

(Acari: Varroidae) in honey bee Apis mellifera (Hymenoptera: Apidae) colonies in eastern Canada.

Experimental & applied acarology, 55, 65-76.

Gotelli, N. J., & Ellison, A. M. (2012). A Primer of Ecological Statistics (éd. 2). Sunderlands: Mass: Sinauer

Associates Publishers.

Gramacho, K. P., & Spivak, M. (2003). Differences in olfactory sensitivity and behavioral responses among

honey bees bred for hygienic behavior. Behavioral Ecology and Sociobiology, 54, 472-479.

Gregoric, A., & Planing, I. (2002). The control of Varroa destructor using oxalic acid. Veterinary Journal, 163,

306-310.

Gregory, P. G., Evans, J. D., Rinderer, T., & de Guzman, L. (2005). Conditional immune-gene suppression of

honeybees parasitized by Varroa mites. Journal of Insect Science, 5.

Guimaraes, E., Ruane, J., Sonnino, A., Scherf, B., & Dargie, J. D. (2007). Marker assisted selection: current

status and future perspectives, in crops, livestock, forestry and fish. Rome: FAO.

Guzman-Novoa, E., Eccles, L., Calvete, Y., McGowan, J., Kelly, P., & Correa-Benitez, A. (2010). Varroa

destructor is the main culprit for the death and reduced populations of overwintered honey bee (Apis

mellifera) colonies in Ontario, Canada. Apidologie(41), 443-450.

Haarman, T., Spivak, M., Weaver, D., Weaver, B., & Glenn, T. (2002). Effects of fluvalinate and coumaphos on

queen honey bees (Hymenoptera: Apidae) in two commercial queen rearing operations. Journal of

Economic Entomology, 95(1), 28-35.

90

Habier, D., Fernando, R. L., & Dekkers, C. M. (2007). The Impact of Genetic Relationship Information on

Genome-Assisted Breeding Values. Genetics, 177(4).

Han, F., Wallberg, A., & Webster, M. T. (2012). From where did the Western honeybee (Apis mellifera)

originate? Ecol Evol., 2(8), 1949-1957. doi:10.1002/ece3.312

Harbo, J. R., & Harris, J. W. (1999). Selecting honey bees for resistance to Varroa jacobsoni. Apidologie, 20,

183-196.

Harbo, J. R., & Harris, J. W. (2005). Suppressed mite reproduction explained by the behaviour of adult bees.

Journal of Apicultural Research, 44, 21-23.

Harbo, J. R., & Harris, J. W. (2009). Responses to Varroa by honey bees with different levels of Varroa

Sensitive Hygiene. Journal of Apicultural Research, 48, 156-161.

Harbo, J. R., & Hoopingarner, R. A. (1997). Honey bees (Hymenoptera: Apidae) in the United States that

express resistance to Varroa jacobsoni (Mesostigmata: Varroidae). Journal of Economic Entomology,

90, 893-898.

Harbo, J., & Harris, J. (2001). Resistance to Varroa destructor (Mesostigmata: Varroidae) when mite-resistant

queen honey bees (Hymenoptera: Apidae) were free-mated with unselected drones. Jounal of

Economic Entomology, 94, 1319-1323.

Harris, J. W. (2007). Bees with Varroa Sensitive Hygiene preferentially remove mite infested pupae aged <=

five days post capping. Journal of Apiculturl Research, 46, 134-139.

Harris, J. W., Danka, R. G., & Villa, J. D. (2010). Honey Bees (Hymenoptera: Apidae) With the Trait of Varroa

Sensitive Hygiene Remove Brood with All Reproductive Stages of Varroa Mites (Mesostigmata:

Varroidae). Annals of the Entomological Society of America, 103, 146-152.

Hedtke, H. M., Patiny, S., & Dan, B. M. (2013). The bee tree of life: a supermatrix approach to apoid phylogeny

and biogeography . BMC Evolutionary Biology, 13(138).

Hedtke, H. M., Patiny, S., & Danforth, B. M. (2013). The bee tree of life: a supermatric approach to apoid

phylogey and biogeography. BMC Evolutionary Biology, 13(138).

Hong, E. P., & Park, J. W. (2012). Sample Size and Statistical Power Calculation in Genetic Association

Studies. Genomics Inf., 10(2), 117-122.

Hoppe, H., & Ritter, W. (1987). Experiments using combined heat therapy to control Varroa disease.

Apidologie.

Huang, Z. (2012). Varroa mite reproductive biology. American Bee Culture. Consulté en mars 2017, sur

http://www.extension.org/pages/65450/varroa-mite-reproductivebiology

Ioannidis, J. A., Thomas, G., & Daly, M. J. (2009). Validating, augmenting and refining genome-wide

association signals. Nature Reviews Genetics, 10, 318-329.

Jones, S. R., Carley, S., & Harrison, M. (2003). An introduction to power and sample size estimation.

Emergency Medecine Journal, 20, 453-458.

Kather, R., Drijfhout, F. P., & Martin, S. J. (2015a). Evidence for colony-specific differences in chemical

mimicry in the parasitic mite Varroa destructor. Chemoecology, 25, 215-222.

Kather, R., Drijfhout, F. P., Shemilt, S., & Martin, S. J. (2015b). Evidence for Passive Chemical Camouflage in

the Parasitic Mite Varroa destructor. Journal of Chemical Ecology, 41, 178-186.

Kersey, P., Allen, J. E., Allot, A., Barba, M., Boddu, S., Bolt, B. J., . . . Yates, A. (2018). Ensembl Genomes

2018: an integrated omics infractucture for non-vertebrate species. Nucleic Acids Research, 46(D1),

D802-8.

91

Kirrane, M., de Guzman, L., Holloway, B., Frake, A., Rinderer, T., & Whelan, P. (2015). Phenotypuc and

Genetic Analyses of the Varroa Sensitive Hygienic Trait in Russian Honey Bee (Hymenoptera:

Apidae) Colonies. PLoS ONE, 10(4).

Kloosterman, B., Oortwijn, M., uitdeQilligen, J., America, T., de Vos, R., Visser, R. G., & Bachem, C. W.

(2010). From QTL to candidate gene: Genetical genomics of simple and complex traits in potato

using a pooling strategy. BMC Genomics, 11, 158.

Korte, A., & Farlow, A. (2013). The Advantages and Limitations of Trait Analysis with GWAS: a review. Plant

Methods, 9, 29.

Lapidge, K. L., Oldroyd, B. P., & Spivak, M. (2002). Seven suggestive quantitative trait loci influence hygienic

behavior of honey bees. Naturwissenschaften, 89(12), 565-8.

Le Conte, Y., Ellis, M., & Ritter, W. (2010). Varroa mites and honey bee health: can Varroa explain part of the

colony losses? Apidologie, 41, 353-363.

Le Conte, Y., Ellis, M., & Ritter, W. (2010). Varroa mites and honey bee health: can Varroa explain part of the

colony losses? Apidologie, 41, 353-363.

Lewis, C. M. (2002). Genetic association studies: Design, analysis and interpretation. Briefings in

Bioinformatics, 3(2), 146-153.

Li, H., & Durbin, R. (2009). Fast and accurate short read alignment with Burrows-Wheeler Transform.

Bioinformativs, 25, 1754-60.

Li, H., Handsaker, B., Wysoker, A., Fennell, A., Ruan, J., Homer, N., . . . Durbin, R. (2009). The Sequence

Alignment/Mp format and SAMtools. Bioinformatics, 25(16), 2078-2079.

Lipka, A. E., Tian, F., Wang, Q., Peiffer, J., Li, M., Bradbury, P. J., . . . Zhang, Z. (2012). GAPIT: genome

association and prediction integrate tool. Bioinformatics, 28(18), 2397-2399.

Manolio, T. A., Collins, F. S., & ... (2009). Finding the missing heritability of complex diseases. Nature, 461,

747-753.

Martin, C., Salvy, M., Provost, E., Bagneres, A. G., Roux, M., Crauser, D., . . . Le Conte, Y. (2001). Variations

in chemical mimicry by the ectoparasitic mite Varroa jacobsoni according to the developmental stage

of the host honeybee Apis mellifera. Insect Biochemistry and Molecular Biology, 31, 365-379.

Martin, M. (2011). Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet

journal, 17(1), 10-12.

Martin, S. J. (1994). Ontogeny of the mite Varroa-jacobsoni oud. in worker brood of the honeybee Apis

mellifera under natural conditions. Experimental & Applied Acarology, 18, 87-100.

Martin, S. J. (1995). Ontogeny of the mite Varroa-jacobsoni oud. in drone brood of the honeybee Apis mellifera

under natural conditions. Experimental & Applied Acarology, 19, 199-210.

Martin, S. J., Highfield, A. C., Brettell, L., Villalobos, E. M., Budge, G. E., Powell, M., . . . Schroeder, D. C.

(2012). Global Honey Bee Viral Landscape Altered by a Parasitic Mite. Science, 336, 1304-1306.

Maul, V., Klepsch, A., & Assmanwerthmuller, U. (1988). The trapping comb technique as part of bee

management under strong infestation by Varroa-jacobsoni oud. Apidologie, 19, 139-154.

McCarthy, M. I., Abecasis, G. R., Cardon, L. R., Goldstein, D. B., Little, J., Ioannidis, J. P., & Hirschhorn, J. N.

(2008). Genome-wide association studies for complex traits: consensus, uncertainty and challenges.

Nature Reviews, 9, 356-369.

McCarthy, M. I., Abecasis, G. R., Cardon, L. R., Goldstein, D. B., Little, J., Ioannidis, J. P., & Hirschlorn, J. N.

(2008). Genome-wide association studies for complex traits: consensus, uncertainty and challenges.

Nat. Rev. Genet., 9(5), 356-69.

Metzker, M. L. (2010). Sequencing technologies - the next generation. Nat. Rev. Genet., 11(1), 31-46.

92

Mutinelli, F., Costa, C., Lodesani, M., Baggio, A., Medrzycki, P., Formato, G., & Porrini, C. (2010). Honey bee

colony losses in Italy. Journal of Apicultural Research, 49, 119-120.

Navajas, M., Anderson, D., de Guzman, L. I., Huang, Z. Y., Clement, J., Zhou, T., & Le Conte, Y. (2010). New

Asian types of Varroa destructor: a potential new threat for world apiculture. Apidologie, 41, 181-193.

Nazzi, F., & Le Conte, Y. (2016). Ecology of Varroa destructor the Major Ectoparasite of the Western Honey

Bee Apis mellifera. Annual Review of Entomology, 61, 417-432.

Nazzi, F., & Le Conte, Y. (2016). Ecology of Varroa destructor, the Major Ectoparasite of the Western Honey

Bee, Apis mellifera. Annual Review of Entomology, 61, 417-432.

Nazzi, F., & Le Conte, Y. (2016). Ecology of Varroa destructor, the Major Ectoparasite of the Western Honey

bee, Apis mellifera. Annu Rev Entomol., 61, 417-32.

Nazzi, F., Della Vedoya, G., & D'Agaro, M. (2004). A semiochimical from brood cells infested by Varroa

destructor triggers hygienic behaviour in Apis mellifera. Apidologie, 35, 65-70.

Neumann, P., & Carreck, N. L. (2010). Honey bee colony losses. Journal of Apicultural Research, 49, 1-6.

Ohashi, M., Okada, R., Kimura, T., & Ikeno, H. (2009). Observation system for the control of the hive

environment by the honeybee (Apis mellifera). Behavior Research Methods, 41(3), 782-786.

Oldroyd, B. P. (2007). What's killing American honey Bees? PLoS Biology, 5, 1195-1199.

Oxley, P. R., Spivak, M., & Oldroyd, B. P. (2010). Six quantitative trait loci influence task thresholds for

hygienic behaviour in honeybees (Apis mellifera). Mol. Ecol., 19(7), 1452-61.

P. R. Burton, e. a. (2007). Genome-wide association study of 14,000 cases of seven common diseases and

3,000 shared controls. Nature, 447(7145), 661-678.

Parejo, M., Wragg, D., Gauthier, L., Vignal, A., Neumann, P., & Neuditschko, M. (2016). Using Whole-Genome

Sequence Information to Foster Conservation Efforts for the European Dark Honey Bee, Apis

mellifera mellifera. Frontiers in Ecology and Evolution, 4(140).

Paschou, P., Drineas, P., Lewis, J., Nievergelt, C. M., Nickerson, D. A., Smith, J. D., . . . Ziv, E. (2008). Tracing

Sub-Structure in the European American Population with PCA-Informative Markers. PLOS Genetics,

4(7).

Patterson, N., Price, A. L., & Reich, D. (2006). Population structure and eigenanalysis. PLoS Genet., 2(12),

2074-2093.

Pearson, T. A., & Manolio, T. A. (2008). How to Interpret a Genome-wide Association Study. J. Americain

Medical Association, 299(11), 1335-1344.

Potts, S. G., Roberts, S. M., Dean, R., Marris, G., Brown, M. A., Jones, R., . . . Settele, J. (2010). Declines of

managed honey bees and beekeepers in Europe. Journal of Apicultural Research, 49, 15-22.

Price, A. L., Patterson, N. J., Plenge, R. M., Weinblatt, M. E., Shadick, N. A., & Reich, D. (2006). Principal

components analysis corrects for stratification in genome-wide association studies. Nature Genetics,

38, 904-909.

Price, A. L., Zaitlen, N. A., Reich, D., & Patterson, N. (2010). New approaches to population stratification in

genome-wide association studies. Nature Review Genetics, 11, 459-463.

Purcell, S., Neale, B., Todd-Brown, K., Thomas, L., Ferreira, M., Bender, D., . . . Sham, P. (2007). PLINK: a

toolset for whole-genome association and population-based linkage analysis. American Journal of

Human Genetics, 81.

Raberg, L., Graham, A., & Read, A. (2009). Decomposing health: Tolerance and resistance to parasites in

animals. Philosophical Transactions of the Royal Society B: Biological Sciences, 364, 37-49.

Rademacher, E., & Harz, M. (2006). Oxalic acid for the control of varroosis in honey bee colonies - a review.


93

Rimmer, A., Phan, H., Mathieson, I., Iqbal, Z., Twigg, S. R., WGS500 Consortium, & Lunter, G. (2014).

Platypus: A Haplotype-Based Variant Caller For Next Generation Sequence Data. Nature Genetics.

Rinderer, T. E., Harris, J. W., Hunt, G. J., & de Guzman, L. I. (2010). Breeding for resistance to Varroa

destructor in North America. Apidologie, 41, 409-424.

Risch, N. (2001). Implications of multilocus inheritance for gene-disease association studies. Theor. Popul.

Biol., 60(3), 215-220.

Ritter, W. (1981). Varroa Disease of the Honeybee Apis mellifera. Bee World, 62(4), 141-151.

Rosenkranz, P. (1987). Temperature treatment of sealed worker brood as a method of controlling Varroatosis.

Apidologie, 18(4), 385-388.

Rosenkranz, P., Aumeier, P., & Ziegelmann, B. (2010). Biology and control of Varroa destructor. Journal of

invertebrate pathology(103), S96-S119.

Rothenbuhler, W. C. (1964). Behavior Genetics of Nest Cleaning in Honey Bees IV. Responses of F1 and

Backcross Generations to Disease-Killed Brood. Am. Zool., 4(2), 111-123.

Rousseau, A., Fournier, V., & Giovenazzo, P. (2015). Apis mellifera (Hymenoptera: Apidae) drone sperm

quality in relation to age, genetic line, and time of breeding. Can. Entomol., 147(6), 702-711.

Ruttner, F., & Marx, G. (1984). Beobachtungen uber eine mogliche anpassung von Varroa jacobsoni an Apis

mellifera in Uruguay. Apidologie, 15, 43-62.

Sanchez-Bravo, F., & Goka, K. (2014). Pesticide residues and bees - a risk assessment. PLoS ONE, 9.

Schneider, P., & Drescher, W. (1987). The influence of Varroa jacobsoni Oud. in weight; development on

weight and hypopharyngeal glands; and longevity of Apis mellifera L. Apidologie, 18, 101-110.

Schwarz, R. S., Huang, Q., & Evans, J. D. (2015). Hologenome theory and the honey bee pathosphere.

Current Opinion in Insect Science, 10, 1-7.

Seeley, T. (1982). Adaptative significance o fthe age polyethism schedule in honeybee colonies. Behavioral

Ecology and Sociobiology(11), 287-293.

Segura, V. (2016). Genome Wide Association Studies Using Mixed Models. Orléans: INRA, Réseau

Génétique EFPA.

Segura, V., Vilhlalmsson, B. J., Platt, A., Korte, A., Seren, Ü., Long, Q., & Nordborg, M. (2012). An efficient

multi-locus mixed-model approach for genome-wide association studies in structured populations.

Technical Report, 44, 825-830.

Shen, M. Q., Yang, X. L., Cox-Foster, D., & Cui, L. W. (2005). The role of Varroa mites in infections of Kashmir

bee virus (KBV) and deformed wing virus (DWV) in honey bees. Virology, 342, 141-149.

Spivak, M., & Gilliam, M. (1998a). Hygienic behaviour of honey bees and its application for control of brood

diseases and varroa Part I. Hygienic behaviour and resistance to American foulbrood. Bee World, 79,

124-134.

Spivak, M., & Gilliam, M. (1998b). Hygienic behaviour of honey bees and its application for control of brood

diseases and varroa - Part II. Studies on hygienic behaviour since the Rothenbuhler era. Bee World,

79, 169-186.

Spötter, A., Gupta, P., Nürnberg, G., Reinsch, N., & Bienefeld, K. (2012). Development of a 44K SNP assay

focussing on the analysis of a varroa-specific defence behaviour in honey bees (Apis mellifera

carnica). Mol. Ecol. Resour., 12(2), 323-32.

Spötter, Gupta, Mayer, Reinsch, & Bienefeld. (2016). Genome-wide association study of a varroa-specific

defense behavior in honeybees (Apis mellifera). J. Hered., 107(3), 220-7.

Storey, J. D. (2002). A direct approach to false discovery rates. J. R. Statist. Soc. B, 64(3), 479-498.

94

Storey, J. D., & Tibshirani, R. (2003). Statistical significance for genome-wide experiments. Proceedings of the

National Academy of Sciences, 100, 9440-9445.

Swanson, J. A., Torto, B., Kells, S. A., Mesce, K. A., Tumlinson, J. H., & Spivak, M. (2009). Odorants that

Induce Hygienic Behavior in Honeybees: Identification of Volatile Compounds in Chalkbrood-Infected

Honeybee Larvae. Journal of Chemical Ecology, 35, 1108-1116.

Syromyatnikob, M. Y., Borodachev, A. V., Kokina, A. V., & Popov, V. N. (2018). A Molecular Method for the

Identification of Honey Bee Subspecies Used by Beekeepers in Russia. Insects, 9(10).

Tang, Y., Liu, X., Wang, J., Li, M., Wang, Q., Tian, F., . . . Zhang, Z. (2016). GAPIT Version 2: An Enhanced

Integrated Tool for Genomic Association and Prediction. The Plant Genome, 9(2).

Tarpy, D. R., & Page, R. E. (2000). No behavioral control over mating frequency in queen honey bees (Apis

mellifera L.): Implications for the evolution of extreme polyandry. American Naturalist, 155(6), 820-

827.

Tattini, L., D'Aurizio, R., & Magi, A. (2015). Detection of Genomic Structural Variants from Next-Generation

Sequencing Data. Font. Bioeng. Biotechnol., 3, 92.

The Honeybee Genome Sequencing Consortium. (2006). Insights into social insects from the genome of the

honeybee Apis mellifera. Nature, 443, 931-949.

Thompson, S. D., Prahalad, S., & Colbert, R. A. (2016). Chapter 5 - Integrative Genomics. Dans Textbook of

Pediatric Rheumatology (pp. 43-53). Philadelphia: Elsevier Inc.

Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso. Journ. of the Royal Stat. Society.

Series B, 58(1), 267-288.

Torkamaneh, D., Laroche, J., Bastien, M., Abed, A., & Belzile, F. (2017). Fast-GBS: a new pipeline for the

efficient and highly accurate calling of SNPs from genotyping-by-sequencing data. BMC

Bioinformatics, 18(5).

Tsuruda, Harris, Bourgeois, Danka, & Hunt. (2012). High-Resolution Linkage Analyses to Identify Genes that

influence Varroa Sensititve Hygiene Behavior in Hobey Bees. PLoS ONE, 7(11).

van der Zee, R. L., Pisa, S., Andonov, R., Brodschneider, J. D., Charriere, R., Chlebo, M. F., . . . Wilkins.

(2012). Managed honey bee solony losses in Canada, China, Europe, Israel and Turkey, for the

winters of 2008-9 and 2009-10. Journal of Apicultural Research, 51, 91-114.

Van Valen, L. (1973). A New Evolutionary Law. Evol. Theory, 1, 1-30.

vanEngelsdorp, D., Hayes, J. J., Underwood, R. M., & Pettis, J. (2008). A survey of honey bee colony losses in

the U.S., fall 2007 to spring 2008. PLoS ONE, 3.

vanEngelsdorp, D., Underwood, R. M., & Cox-Foster, D. L. (2007). An estimate of managed colony losses in

the winter 0f 2006-2007: A report comissioned by the apiary inspectors of America. American Bee

Journal, 147, 599-603.

Vejsnaes, F., Nielsen, S. L., & Kryger, P. (2010). Factors involved in the recent increase in colony losses in

Denmark. Journal of Apicultural Research, 49, 109-110.

Vilhjalmsson, B. J., & Nordborg, M. (2013). The nature of confounding in genome-wide association studies.

Nature Reviews Genetics, 14.

Villa, J. D., Danka, R. G., & Harris, J. W. (2009). Simplified methods of evaluating colonies for levels of varroa

sensitive hygiene (VSH). Journal of Apicultural Research and Bee World, 48(3), 162-167.

Villa, J. D., Danka, R. G., & Harris, J. W. (2009). Simplified methods of evaluating colonies for levels of Varroa

Sensitive Hygiene (VSH). Journal of Apicultural Research and Bee World, 48(3), 162-167.

Villa, J. D., Danka, R. G., & Harris, J. W. (2009). Simplified methods of evaluating colonies for levels of Varroa

Sensitive Hygiene (VSH). Journal of Apicultural Research, 48, 162-167.

95

Visscher, P. M. (2008). Sizing up human height variation. Nat. Genet., 40(5), 489-90.

Wallberg, A., Han, F., Wellhagen, G., Dahle, B., Kawata, M., Haddad, N., . . . Webster, M. T. (2014). A

worldwide survey of genome sequence variation provides insight into the evolutionary history of the

honeybee Apis mellifera. Nature Genetics(46), 1081-1088.

Wang, D., Eskridge, K., & Crossa, J. (2011). Identifying QTLs and epistasis in structured plant populations

using adaptive mixed LASSO. J. Agric. Biol. Environ. Stat., 16, 170-184.

Wang, M. H., Cordell, H. J., & Steen, K. V. (2018). Statistical methods for genome-wide association studies.

Seminars in Cancer Biology.

Webster, T. C., & Delaplane, K. S. (2001). Mites of the Honey Bee. Hamiltron, Illinois: Dadant and Sons, Inc.

Whitfield, C. W., Behura, S. K., Berlocher, S. H., Clark, A. G., Johnston, J. S., Sheppard, W. S., . . . Tsutsui, N.

D. (2006). Thrice Out of Africa: Ancient and Recent Expansions of the Honey Bee, Apis mellifera.

Science, 314, 642-645.

Wilfert, L., Gadau, J., & Schmid-Hempel, P. (2007). Variation in genomic recombination rates among animal

taxa and the case of social insects. Heredity, 98, 189-197.

Witte, J. S. (2010). Genome-Wide Association Studies and Beyond. Annu. Rev. Public Health, 31, 9-20.

Wittke-Thompson, J. K., Pluzhnikov, A., & Cox, N. J. (2005). Rational inferences about departures from Hardy-

Weinberg equilibrium. Am. J. Hum. Genet., 76(6), 967-986.

Wragg, D., Marti-Marimon, M., Basso, B., Bidanel, J.-P., Labarthe, E., Bouchez, O., . . . Vignal, A. (2016).

Whole-genome resequencing of honeybee drones to detect genomic selection in a population

managed for royal jelly. Scientific Reports, 6.

Xiao, Y., Liu, H., Wu, L., Warburton, M., & Yan, J. (2017). Genome-wide Association Studies in Maize: Praise

and Stargaze. Molecular Plant, 10, 359-374.

Yang, J., Benyamin, B., McEvoy, B. P., Gordon, S., Henders, A. K., Nyholt, D. R., . . . Visscher, P. M. (2010).

Common SNPs explain a large proportion of the heritability for human height. Nature Genetics, 42(7).

Yang, J., Zaitlen, N. A., Goddard, M. E., Visscher, P. M., & Price, A. L. (2014). Advantages and pitfalls in the

application of mixed-model association methods. Nature Genetics, 46, 100-106.

Yang, X., & Cox-Foster, D. (2007). Effects of parasitization by Varroa destructor on survivorship and

physiological traits of Apis mellifera in correlation with viral incidence and microbial challenge.

Parasitology, 134, 405-412.

Yu, J., Pressoir, G., Briggs, W. H., Bi, I. V., Yamasaki, M., Doebley, J. F., . . . Buckler, E. (2006). A unified

mixed-model method for association mapping that accounts for multiple levels of relatedness. Nature

Genetics, 38, 203-208.

Zeng, P., Zhao, Y., Qian, C., Zhang, L., Zhang, R., Gou, J., . . . Chen, F. (2015). Statistical analysis for

genome-wide association study. J. Biomed. Res., 29(4), 285-297.

Zhang, Z., Ersoz, E., Lai, C.-Q., Todhunter, R. J., Tiwari, H. K., Gore, M. A., . . . Buckler, E. (2010). Mixed

linear model approach adapted for genome-wide association studies. Nature Genetics, 42, 355-360.

Zhang, Z., Ersoz, E., Lai, C.-Q., Todhunter, R. J., Tiwari, H. K., Gore, M. A., . . . Buckler, E. (2010). Mixed

linear model approach adapted for genome-wide association studies. Nature Genetics , 42, 355-360.

Zondervan, K. T., & Cardon, L. R. (2004). The complex interplay among factors that influence allelic

association. Nature Rev. Genet., 5, 238-238.

96

Annexe A : Phénotypes des colonies

échantillonnées

Figure 1A. Distribution du phénotype dans l’échantillon final de colonies (N = 35) utilisées dans les

tests d’association

97

Figure 2A. Niveau SMR de chacune des colonies (N = 35) incluse dans les tests d’association

98

Annexe B : Relations entre les individus

Figure 3A. Relations de parenté entre les colonies (N = 35) obtenues par la matrice de parenté représentée dans une heatmap

99

Tableau IB. Relation de parenté entre les colonies par le test IBS avec TASSEL. Les individus seront considérés comme apparentés si IBS > 0.1875.

Échantillon CRSAD10 CRSAD15 CRSAD17 CRSAD25 CRSAD26 CRSAD27 CRSAD28 CRSAD29 CRSAD3 CRSAD35 CRSAD38 CRSAD40 CRSAD6 CRSAD7 JL1 JL10 JL14

CRSAD10 0.93 -0.03 -0.03 0.01 -0.07 -0.03 0.03 -0.02 -0.04 -0.04 0.21 -0.01 0.01 0.01 -0.05 -0.06 -0.03

CRSAD15 -0.03 0.68 -0.03 -0.01 0.02 0.01 0.02 -0.03 -0.04 -0.01 0.00 0.06 0.02 -0.02 -0.02 -0.03 0.00

CRSAD17 -0.03 -0.03 1.24 0.01 -0.02 0.00 0.07 0.26 0.03 -0.03 -0.05 0.00 0.00 0.15 -0.05 -0.10 -0.07

CRSAD25 0.01 -0.01 0.01 0.72 -0.03 0.02 0.00 0.00 0.03 0.02 0.02 0.00 0.00 -0.01 -0.05 -0.06 -0.05

CRSAD26 -0.07 0.02 -0.02 -0.03 1.07 0.10 0.01 -0.03 -0.03 -0.03 -0.06 0.00 0.02 -0.05 -0.04 -0.03 -0.04

CRSAD27 -0.03 0.01 0.00 0.02 0.10 0.68 0.01 -0.05 0.01 0.00 -0.05 0.01 0.00 -0.04 -0.04 -0.03 -0.04

CRSAD28 0.03 0.02 0.07 0.00 0.01 0.01 0.63 0.15 -0.02 -0.04 0.08 0.07 0.04 0.06 -0.05 -0.06 -0.05

CRSAD29 -0.02 -0.03 0.26 0.00 -0.03 -0.05 0.15 1.21 -0.03 -0.02 -0.05 -0.03 -0.03 0.30 -0.09 -0.08 -0.08

CRSAD3 -0.04 -0.04 0.03 0.03 -0.03 0.01 -0.02 -0.03 0.98 0.00 -0.06 -0.04 -0.03 -0.02 -0.05 -0.05 -0.05

CRSAD35 -0.04 -0.01 -0.03 0.02 -0.03 0.00 -0.04 -0.02 0.00 0.93 -0.07 -0.07 -0.05 -0.05 -0.04 -0.02 -0.01

CRSAD38 0.21 0.00 -0.05 0.02 -0.06 -0.05 0.08 -0.05 -0.06 -0.07 1.22 0.15 0.15 -0.02 -0.10 -0.11 -0.06

CRSAD40 -0.01 0.06 0.00 0.00 0.00 0.01 0.07 -0.03 -0.04 -0.07 0.15 1.08 0.12 0.00 -0.05 -0.09 -0.04

CRSAD6 0.01 0.02 0.00 0.00 0.02 0.00 0.04 -0.03 -0.03 -0.05 0.15 0.12 1.08 0.00 -0.07 -0.05 -0.06

CRSAD7 0.01 -0.02 0.15 -0.01 -0.05 -0.04 0.06 0.30 -0.02 -0.05 -0.02 0.00 0.00 1.07 -0.07 -0.06 -0.07

JL1 -0.05 -0.02 -0.05 -0.05 -0.04 -0.04 -0.05 -0.09 -0.05 -0.04 -0.10 -0.05 -0.07 -0.07 0.80 -0.01 0.02

JL10 -0.06 -0.03 -0.10 -0.06 -0.03 -0.03 -0.06 -0.08 -0.05 -0.02 -0.11 -0.09 -0.05 -0.06 -0.01 0.93 -0.03

JL14 -0.03 0.00 -0.07 -0.05 -0.04 -0.04 -0.05 -0.08 -0.05 -0.01 -0.06 -0.04 -0.06 -0.07 0.02 -0.03 0.87

JL17 -0.06 -0.02 -0.11 -0.03 -0.05 -0.03 -0.02 -0.06 -0.04 -0.04 -0.09 -0.06 -0.07 -0.07 0.01 -0.03 0.00

JL19 -0.04 -0.05 -0.07 -0.04 -0.04 -0.03 -0.05 -0.11 -0.05 -0.04 -0.08 -0.09 -0.08 -0.08 -0.02 -0.01 -0.02

JL21 -0.07 -0.03 -0.06 -0.05 -0.05 -0.04 -0.06 -0.09 -0.07 -0.05 -0.09 -0.06 -0.07 -0.09 0.00 -0.03 0.00

JL4 -0.03 -0.02 -0.05 -0.05 -0.05 -0.04 -0.06 -0.08 -0.03 -0.03 -0.06 -0.06 -0.06 -0.06 0.01 -0.02 0.01

JL5 -0.05 -0.04 -0.13 -0.07 -0.05 -0.04 -0.08 -0.13 -0.06 -0.07 -0.10 -0.09 -0.09 -0.07 -0.01 0.51 0.00

JL6 -0.02 -0.04 -0.06 -0.05 -0.06 -0.04 -0.05 -0.11 -0.05 -0.02 -0.09 -0.07 -0.07 -0.10 0.14 -0.03 -0.01

JL9 -0.06 -0.03 -0.07 -0.02 -0.04 -0.04 -0.05 -0.07 -0.06 -0.07 -0.07 -0.06 -0.05 -0.04 -0.01 -0.03 -0.01

MM15 -0.03 -0.03 -0.04 -0.02 -0.03 0.00 -0.04 -0.04 -0.01 0.01 -0.06 -0.07 -0.03 -0.06 -0.01 -0.02 -0.01

MM16 -0.06 -0.01 -0.08 -0.05 -0.02 -0.05 -0.06 -0.07 -0.02 -0.03 -0.09 -0.04 -0.07 -0.07 -0.01 -0.01 0.00

MM18 -0.07 -0.02 -0.10 -0.04 -0.03 -0.02 -0.07 -0.08 -0.04 -0.03 -0.11 -0.10 -0.05 -0.07 -0.01 -0.02 -0.02

MM19 -0.05 -0.05 -0.07 -0.06 -0.04 -0.02 -0.06 -0.09 0.00 0.02 -0.03 -0.09 -0.07 -0.07 -0.04 -0.06 -0.02

MM2 -0.03 -0.05 -0.09 -0.03 -0.06 -0.03 -0.05 -0.06 -0.02 -0.01 -0.02 -0.07 -0.06 -0.06 -0.03 -0.06 -0.03

MM20 -0.03 -0.04 -0.07 -0.03 -0.08 -0.04 -0.06 -0.06 -0.01 0.00 -0.03 -0.07 -0.09 -0.07 0.05 -0.05 -0.01

MM21 -0.04 -0.03 -0.10 -0.05 -0.06 -0.04 -0.05 -0.05 -0.06 -0.04 -0.06 -0.05 -0.07 -0.06 -0.02 -0.02 -0.02

MM5 -0.05 -0.05 -0.06 0.01 -0.05 -0.02 -0.06 -0.07 -0.03 0.00 -0.05 -0.04 -0.07 -0.06 -0.01 -0.04 -0.03

MM6 -0.06 -0.01 -0.10 -0.04 -0.03 -0.04 -0.07 -0.09 -0.04 -0.03 -0.11 -0.08 -0.06 -0.07 -0.03 -0.06 -0.02

MM9 -0.05 -0.04 -0.08 -0.02 -0.06 -0.04 -0.05 -0.09 0.02 -0.03 -0.05 -0.06 -0.08 -0.08 -0.03 -0.07 -0.03

100

Tableau IB (suite). Relation de parenté entre les colonies par le test IBS avec TASSEL

Échantillon JL17 JL19 JL21 JL4 JL5 JL6 JL9 MM15 MM16 MM18 MM19 MM2 MM20 MM21 MM5 MM6 MM9

CRSAD10 -0.06 -0.04 -0.07 -0.03 -0.05 -0.02 -0.06 -0.03 -0.06 -0.07 -0.05 -0.03 -0.03 -0.04 -0.05 -0.06 -0.05

CRSAD15 -0.02 -0.05 -0.03 -0.02 -0.04 -0.04 -0.03 -0.03 -0.01 -0.02 -0.05 -0.05 -0.04 -0.03 -0.05 -0.01 -0.04

CRSAD17 -0.11 -0.07 -0.06 -0.05 -0.13 -0.06 -0.07 -0.04 -0.08 -0.10 -0.07 -0.09 -0.07 -0.10 -0.06 -0.10 -0.08

CRSAD25 -0.03 -0.04 -0.05 -0.05 -0.07 -0.05 -0.02 -0.02 -0.05 -0.04 -0.06 -0.03 -0.03 -0.05 0.01 -0.04 -0.02

CRSAD26 -0.05 -0.04 -0.05 -0.05 -0.05 -0.06 -0.04 -0.03 -0.02 -0.03 -0.04 -0.06 -0.08 -0.06 -0.05 -0.03 -0.06

CRSAD27 -0.03 -0.03 -0.04 -0.04 -0.04 -0.04 -0.04 0.00 -0.05 -0.02 -0.02 -0.03 -0.04 -0.04 -0.02 -0.04 -0.04

CRSAD28 -0.02 -0.05 -0.06 -0.06 -0.08 -0.05 -0.05 -0.04 -0.06 -0.07 -0.06 -0.05 -0.06 -0.05 -0.06 -0.07 -0.05

CRSAD29 -0.06 -0.11 -0.09 -0.08 -0.13 -0.11 -0.07 -0.04 -0.07 -0.08 -0.09 -0.06 -0.06 -0.05 -0.07 -0.09 -0.09

CRSAD3 -0.04 -0.05 -0.07 -0.03 -0.06 -0.05 -0.06 -0.01 -0.02 -0.04 0.00 -0.02 -0.01 -0.06 -0.03 -0.04 0.02

CRSAD35 -0.04 -0.04 -0.05 -0.03 -0.07 -0.02 -0.07 0.01 -0.03 -0.03 0.02 -0.01 0.00 -0.04 0.00 -0.03 -0.03

CRSAD38 -0.09 -0.08 -0.09 -0.06 -0.10 -0.09 -0.07 -0.06 -0.09 -0.11 -0.03 -0.02 -0.03 -0.06 -0.05 -0.11 -0.05

CRSAD40 -0.06 -0.09 -0.06 -0.06 -0.09 -0.07 -0.06 -0.07 -0.04 -0.10 -0.09 -0.07 -0.07 -0.05 -0.04 -0.08 -0.06

CRSAD6 -0.07 -0.08 -0.07 -0.06 -0.09 -0.07 -0.05 -0.03 -0.07 -0.05 -0.07 -0.06 -0.09 -0.07 -0.07 -0.06 -0.08

CRSAD7 -0.07 -0.08 -0.09 -0.06 -0.07 -0.10 -0.04 -0.06 -0.07 -0.07 -0.07 -0.06 -0.07 -0.06 -0.06 -0.07 -0.08

JL1 0.01 -0.02 0.00 0.01 -0.01 0.14 -0.01 -0.01 -0.01 -0.01 -0.04 -0.03 0.05 -0.02 -0.01 -0.03 -0.03

JL10 -0.03 -0.01 -0.03 -0.02 0.51 -0.03 -0.03 -0.02 -0.01 -0.02 -0.06 -0.06 -0.05 -0.02 -0.04 -0.06 -0.07

JL14 0.00 -0.02 0.00 0.01 0.00 -0.01 -0.01 -0.01 0.00 -0.02 -0.02 -0.03 -0.01 -0.02 -0.03 -0.02 -0.03

JL17 0.86 0.01 0.07 0.00 -0.05 -0.01 -0.01 -0.03 -0.01 0.01 -0.03 -0.04 -0.03 0.04 -0.03 0.02 -0.03

JL19 0.01 1.10 0.06 0.04 0.01 0.01 0.10 -0.03 -0.01 -0.05 -0.06 0.00 -0.05 -0.02 -0.07 -0.06 -0.05

JL21 0.07 0.06 1.09 -0.01 -0.04 -0.03 0.00 -0.04 -0.03 -0.01 -0.02 -0.02 -0.06 0.05 -0.04 -0.01 -0.05

JL4 0.00 0.04 -0.01 0.94 -0.02 -0.02 0.00 -0.01 -0.01 -0.04 -0.03 -0.03 -0.04 0.01 -0.02 -0.02 -0.04

JL5 -0.05 0.01 -0.04 -0.02 1.21 -0.03 -0.01 -0.04 -0.01 -0.04 -0.05 -0.06 -0.06 -0.04 -0.05 -0.07 -0.07

JL6 -0.01 0.01 -0.03 -0.02 -0.03 1.09 0.01 -0.04 -0.01 -0.01 -0.06 -0.03 -0.03 -0.02 -0.03 0.00 -0.05

JL9 -0.01 0.10 0.00 0.00 -0.01 0.01 1.09 -0.05 -0.03 -0.02 -0.06 -0.06 -0.04 -0.02 -0.02 -0.04 -0.06

MM15 -0.03 -0.03 -0.04 -0.01 -0.04 -0.04 -0.05 0.58 -0.02 -0.01 0.06 0.08 0.01 0.00 0.01 -0.01 0.02

MM16 -0.01 -0.01 -0.03 -0.01 -0.01 -0.01 -0.03 -0.02 0.98 0.02 -0.05 -0.03 -0.02 0.02 -0.02 -0.01 -0.02

MM18 0.01 -0.05 -0.01 -0.04 -0.04 -0.01 -0.02 -0.01 0.02 0.99 -0.07 -0.04 -0.04 -0.02 -0.06 0.34 -0.07

MM19 -0.03 -0.06 -0.02 -0.03 -0.05 -0.06 -0.06 0.06 -0.05 -0.07 1.06 0.06 0.02 -0.01 0.03 -0.04 0.03

MM2 -0.04 0.00 -0.02 -0.03 -0.06 -0.03 -0.06 0.08 -0.03 -0.04 0.06 0.93 0.02 -0.04 0.02 -0.05 0.06

MM20 -0.03 -0.05 -0.06 -0.04 -0.06 -0.03 -0.04 0.01 -0.02 -0.04 0.02 0.02 0.92 -0.05 0.02 -0.04 0.16

MM21 0.04 -0.02 0.05 0.01 -0.04 -0.02 -0.02 0.00 0.02 -0.02 -0.01 -0.04 -0.05 0.97 -0.05 0.00 -0.01

MM5 -0.03 -0.07 -0.04 -0.02 -0.05 -0.03 -0.02 0.01 -0.02 -0.06 0.03 0.02 0.02 -0.05 0.99 -0.03 0.03

MM6 0.02 -0.06 -0.01 -0.02 -0.07 0.00 -0.04 -0.01 -0.01 0.34 -0.04 -0.05 -0.04 0.00 -0.03 1.03 -0.06

MM9 -0.03 -0.05 -0.05 -0.04 -0.07 -0.05 -0.06 0.02 -0.02 -0.07 0.03 0.06 0.16 -0.01 0.03 -0.06 1.06

101

Annexe C : Correction des valeurs p

Ci-dessous sont présentées les méthodes de calculs et les résultats abrégés des différentes méthodes de correction des valeurs p pour les tests multiples.

Méthode Bonferroni :

(0.05/[n_pheno*n_snps]) = (0.05/1*7810) = 6.4E-6

où « n_pheno » est le nombre de phénotypes inclus dans l’analyse et « n_snps » indique le nombre de

marqueurs SNPs dans l’analyse. En somme, la méthode Bonferroni détermine le seuil de signification à 6.4E-

6 pour notre jeu de données.

Pour les autres méthodes de correction des valeurs p obtenues, les résultats seront présentés en partie seulement, à cause de la taille démesurée des tableaux complets. Chaque test est présenté avec différents outils ou modèle statistique de régression, sans montrer les résultats pour chacune de ces différentes combinaisons puisque ceux-ci n’apportent pas d’information utile ou nouvelle, en plus de prendre beaucoup d’espace.

102

Tableau IC. Résultats de la méthode Benjamini-Hochberg avec les valeurs p (MLM K, GenABEL). La

valeur obtenue dans la colonne (i*q/m) doit être plus grande que la valeur p pour que cette dernière soit

considérée significative (que l’hypothèse nulle Ho puisse être rejetée).

Outil Rang Valeur p (i*q/m) Rejeter Ho

GenABEL

1 0.000407 1.02E-04 FAUX

2 0.000648 2.05E-04 FAUX

3 0.000649 3.07E-04 FAUX

4 0.000675 4.10E-04 FAUX

5 0.001249 5.12E-04 FAUX

6 0.001435 6.15E-04 FAUX

7 0.001619 7.17E-04 FAUX

8 0.001621 8.19E-04 FAUX

9 0.002353 9.22E-04 FAUX

10 0.002357 1.02E-03 FAUX

TASSEL

1 0.005935 1.92E-04 FAUX

2 0.006268 3.84E-04 FAUX

3 0.006978 5.76E-04 FAUX

4 0.008539 7.68E-04 FAUX

5 0.009216 9.60E-04 FAUX

6 0.010374 1.15E-03 FAUX

7 0.010866 1.34E-03 FAUX

8 0.010928 1.54E-03 FAUX

9 0.011633 1.73E-03 FAUX

10 0.012122 1.92E-03 FAUX

Légende : i : Rang de la valeur p q : FDR déterminé (0.8) m : Nombre des tests statistiques (équivalent au nombre de marqueurs; 7810) Rejeter Ho : Indique si on peut rejeter (VRAI) ou non (FAUX) l’hypothèse nulle

103

Tableau IIC. Premiers 20 résultats des valeurs p (MLM K+PCA, GenABEL) corrigées avec la librairie

qvalue*. La valeur q est la valeur p corrigée par la méthode FDR.

Rang Valeur p Valeur q

1 0.000255 0.817269

2 0.000298 0.817269

3 0.000454 0.817269

4 0.000672 0.817269

5 0.000682 0.817269

6 0.00116 0.817269

7 0.001194 0.817269

8 0.001217 0.817269

9 0.00142 0.817269

10 0.001501 0.817269

11 0.001747 0.817269

12 0.001929 0.817269

13 0.002024 0.817269

14 0.002603 0.817269

15 0.002622 0.817269

16 0.002708 0.817269

17 0.002796 0.817269

18 0.00306 0.817269

19 0.003075 0.817269

20 0.00369 0.817269

* Les valeurs des autres outils et méthodes sont présentées dans le document principal.

104

Tableau IIIC. Premiers résultats des valeurs p corrigées avec la librairie p.adjust. La correction FDR est

la nouvelle valeur p ajustée par la méthode FDR pour déterminer sa significativité.

Outil

MLM avec cofacteur matrice de parenté génétique (K)

MLM avec cofacteur K et PCA

Rang Valeur p correction

FDR Rang Valeur p

correction FDR

GenABEL

1 0.000407 0.894 1 0.000255 0.865

2 0.000648 0.894 2 0.000298 0.865

3 0.000649 0.894 3 0.000454 0.865

4 0.000675 0.894 4 0.000672 0.865

5 0.001248 0.894 5 0.000682 0.865

TASSEL

1 0.00593 0.966 1 0.001709 0.995

2 0.00626 0.966 2 0.001866 0.995

3 0.00697 0.966 3 0.001913 0.995

4 0.00853 0.966 4 0.002284 0.995

5 0.00921 0.966 5 0.00418 0.995

105

Annexe D : Caractéristiques du jeu de marqueurs

La densité des marqueurs est un facteur important dans les études GWAS. Elle permet entre autres d’établir

le LD entre les marqueurs. Les marqueurs doivent être suffisamment près les uns des autres (avoir une

densité suffisante) pour que l’ensemble du génome soit couvert par les marqueurs et les régions avec les

quelles ils sont en LD. Une densité insuffisante de marqueurs implique une perte d’information du génome

dans les tests d’association (Lipka, et al., 2012). La figure 1D montre la densité des marqueurs dans l’étude.

Elle montre que notre jeu de données était composé d’une grande densité de marqueurs.

Figure 1D. Distribution de la densité des marqueurs (SNPs) dans le jeu de données de l’étude. La ligne

rouge indique la fréquence cumulée des marqueurs pour l’ensemble des densités.

106

Figure 2D. Graphique du LD entre les marqueurs. Chaque point représente une paire de distance entre

deux marqueurs et leur coefficient de corrélation au carré. La ligne rouge désigne la moyenne du déplacement

des dix marqueurs adjacents (Lipka, et al., 2012).

107

Figure 3D. Histogrammes de la fréquence de l’hétérozygoties chez les individus et pour les marqueurs

L’hétérozygotie observée dans les données génomiques était beaucoup plus grande que ce qui était attendu

au niveau des individus. Des filtrations strictes ont permis de rendre le niveau d’hétérozygotie des marqueurs

et des individus inclus dans l’analyse acceptable.

108

Figure 4D. Variance des composantes principales issues de la PCA. La première PC explique la plus

grande variance possible, puis chaque PC suivante explique la plus grande variance restante possible.

Étude d'association pangénomique du trait smr 'suppressed ...Étude d’association...

Documents