impact du « biais des ex aequo » dans les évaluations de recherche dinformation guillaume...
TRANSCRIPT
Impact du « biais des Impact du « biais des ex aequoex aequo » »dans les évaluationsdans les évaluations
de Recherche d’Informationde Recherche d’Information
Guillaume Cabanac, Gilles Hubert,
Mohand Boughanem, Claude Chrisment
CORIA’10: Conférence en Recherche d’Information et Applications18-20 mars, Sousse, Tunisie
2
Plan
1. Motivation scénario de participation à TREC
2. Contexte évaluer l’efficacité des SRI
Problématique biais des ex aequo influençant les résultats
3. Proposition stratégies de réordonnancement
4. Expérimentation impact du biais des ex aequo
5. Conclusion et perspectives
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al.
3
Plan
1. Motivation scénario de participation à TREC
2. Contexte évaluer l’efficacité des SRI
Problématique biais des ex aequo influençant les résultats
3. Proposition stratégies de réordonnancement
4. Expérimentation impact du biais des ex aequo
5. Conclusion et perspectives
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al.
4
Scénario de participation à TREC (1/2)
1. Motivation illustration du biais des « ex aequo » G. Cabanac et al.
5 documents pertinentsTopic 031 “satellite launch contracts”
ChrisChris EllenEllenla seule différence
Pourquoi de telles différences ?malchanceuxmalchanceux chanceuxchanceux
5
Scénario de participation à TREC (2/2)
1. Motivation illustration du biais des « ex aequo » G. Cabanac et al.
ChrisChris EllenEllenla seule différence
Seule différence : le nom du document
Après 15 jours de dur labeur…
6
Plan
1. Motivation scénario de participation à TREC
2. Contexte évaluer l’efficacité des SRI
Problématique biais des ex aequo influençant les résultats
3. Proposition stratégies de réordonnancement
4. Expérimentation impact du biais des ex aequo
5. Conclusion et perspectives
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al.
7
Mesurer l’efficacité des Systèmes de RI User-centered vs. System-focused [Spärk Jones & Willett, 1997]
Campagnes d’évaluation 1958 Cranfield
UK 1992 TREC Text Retrieval
Conference USA 1999 NTCIR NII Test
Collection for IR Systems Japon 2001 CLEF Cross-
Language Evaluation Forum Europe …
Méthodologie « Cranfield » Tâche Collection de test
Corpus Topics Qrels
Mesures : MAP, P@X...
2. Contexte & problématique Biais des « ex aequo » G. Cabanac et al.
[Voorhees, 2007]
8
Évaluer un run : réordonnancement de TRECQrels = qid, iter, docno, rel Run = qid, iter, docno, rank, sim,
run_id
Réordonnancement de TRECqid asc, sim desc, docno desc
Mesure d’efficacitéMAP, P@X, MRR…
2. Contexte & problématique Biais des « ex aequo » G. Cabanac et al.
9
Plan
1. Motivation scénario de participation à TREC
2. Contexte évaluer l’efficacité des SRI
Problématique biais des ex aequo influençant les résultats
3. Proposition stratégies de réordonnancement
4. Expérimentation impact du biais des ex aequo
5. Conclusion et perspectives
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al.
10
Conséquences du biais des ex aequo Mesures d’évaluation d’un SRI s
RR(s,t) 1/rang pour le 1er document pertinent, pour le topic t
P(s,t,d) précision au document d, pour le topic t
AP(s,t) précision moyenne pour le topic t
MAP(s) précision moyenne globale
Biais des ex aequo
La collection Wall Street Journal serait-elle plus pertinente qu’Associated Press ?
Problème 1comparaison de 2
systèmes AP(s1, t) vs. AP(s2, t)
Problème 2 comparaison de 2
topics AP(s, t1) vs. AP(s, t2)
ChrisChris
EllenEllen
3. Proposition Stratégies de réordonnancement G. Cabanac et al.
Sensibles au rang des documents
11
Réordonnancements alternatifs non biaisés
Réordonnancement conventionnel (TREC) Ex aequo triés de Z à A qid asc, sim desc,
docno desc
Réordonnancement réaliste Les pertinents en dernier qid asc, sim desc, rel
asc, docno desc
Réordonnancement optimiste Les pertinents en premier qid asc, sim desc, rel
desc, docno desc
3. Proposition Stratégies de réordonnancement G. Cabanac et al.
ex aequo
ex aequo
12
Plan
1. Motivation scénario de participation à TREC
2. Contexte évaluer l’efficacité des SRI
Problématique biais des ex aequo influençant les résultats
3. Proposition stratégies de réordonnancement
4. Expérimentation impact du biais des ex aequo
5. Conclusion et perspectives
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al.
13
Impact du biais des ex aequo Étude menée sur 4 tâches de TREC
22 éditions 1360 runs
Évaluation de l’impact du biais des ex aequo Proportion des ex aequo dans les runs soumis fréquence du biais Impact sur les valeurs des mesures
Top 5 des différences constatées Pourcentage de la différence observée Significativité de la différence observée : t-test pairé unilatéral
1993 1999 20001998 2002 20041997
routing webfiltering
adhoc
2009
3 Go de données issues de trec.nist.gov
4. Expérimentation Impact du biais des ex aequo G. Cabanac et al.
14
Proportion des ex aequo dans les runs soumis4. Expérimentation Impact du biais des ex aequo G. Cabanac et al.
En moyenne 10,6 docs par groupe de similarité En moyenne 25,2 % d’un run = docs ex aequo
15
Impact du biais sur Reciprocal Rank (RR)4. Expérimentation Impact du biais des ex aequo G. Cabanac et al.
16
Impact du biais sur Average Precision (AP)4. Expérimentation Impact du biais des ex aequo G. Cabanac et al.
17
Impact du biais sur Mean Average Precision (MAP)4. Expérimentation Impact du biais des ex aequo G. Cabanac et al.
Différence en terme de rangs( de Kendall) non significative
18
Phénomène de « bourrage » des runs
ChrisChris
EllenEllen
4. Expérimentation Impact du biais des ex aequo G. Cabanac et al.
... ... ...
... ... ...
gecrd2@adhoc-1993
Pourquoi restituer des documentsévalués non pertinents (sim = 0) ?
Éventuellement pour grappiller des points ?
Problème minimisé avec lastratégie de réordonnancement réalisteréaliste
pertinents en queue de liste
19
Travaux connexes en évaluation de la RI4. Expérimentation Impact du biais des ex aequo G. Cabanac et al.
[Voorhees, 2007]
Fiabilité du nombre de topics ?[Buckley & Voorhees, 2000] 25[Voorhees & Buckley, 2002] tx erreur[Voorhees, 2009] n collections
Fiabilité des qrels ?[Voorhees, 1998] qualité[Al-Maskari et al., 2008] TREC vs. TREC
Fiabilité des mesures ?[Buckley & Voorhees, 2000] MAP [Sakai, 2008] ‘system biais’[Moffat & Zobel, 2008] nouvelles mesures[Mothe et al., 2010] redondance
Fiabilité du pooling ?[Zobel, 1998] approximation [Sanderson & Joho, 2004] manuel[Buckley et al., 2007] adapt. taille[Cabanac et al., 2010] biais des ex aequo
20
Plan
1. Motivation scénario de participation à TREC
2. Contexte évaluer l’efficacité des SRI
Problématique biais des ex aequo influençant les résultats
3. Proposition stratégies de réordonnancement
4. Expérimentation impact du biais des ex aequo
5. Conclusion et perspectives
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al.
21
Conclusions et perspectives Contexte : évaluation de la RI
TREC et autres campagnes basées sur trec_eval
Identification du biais des ex aequo Facteur chance mesure = f (qualité_intrinsèque, chance) Phénomène de « bourrage » des runs
Proposition : stratégies de réordonnancement non biaisées Approche réaliste : parmi des ex aequo, les non pertinents seront en dernier
Impact significatif du biais des ex aequo Étude de (conventionnelle, réaliste) pour les mesures RR, AP et MAP
Corrélation forte, mais différence statistiquement significative Pas de différence significative sur les rangs issus de la MAP ( de Kendall)
Perspectives : étude du bourrage, mesures sans réordonnement
Impact du « biais des ex aequo » dans les évaluations de RI G. Cabanac et al.
Merci
CORIA’10: Conférence en Recherche d’Information et Applications18-20 mars, Sousse, Tunisie