etat d'avancement 2014/2015
TRANSCRIPT
Vers une améliorationdes résumés automatiques de textes
ARIES AbdelkrimeEncadré par: Pr. ZEGOUR Djamal Eddine
Co-encadré par: Pr. HIDOUCI Khaled Walid
École nationale Supérieure d’Informatique (ESI, ex. INI), Algérie
État d’avancement deuxième année: 2014/2015
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
Plan
1 Problématique
2 Notre système (All Summarizer)
3 Nos contributions
4 Conclusion et perspectives
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 2/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
IntroductionDescription du problématique
Problématique
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 3/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
IntroductionDescription du problématique
Motivation
Augmentation du contenu dans le web,
Plusieurs sources et langues
⇒
Utilisation de résumé automatique
Workshop pour le résumé automatique (ex. workshop "MultiLing" )
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 4/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
IntroductionDescription du problématique
Problématique
Les méthodes extractives résultent des résumés non cohérents
Les méthodes abstractives consomment beaucoup de ressources
L’utilisation de l’apprentissage entraîne la dépendance du système aulangue et genre du corpus.
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 5/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
IntroductionDescription du problématique
Objectifs
Créer une méthode complètement multilingue.
Améliorer la solution proposée dans [1].
Minimiser les problèmes de lisibilité et de cohérence pour le résumérésultant.
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 6/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
PrétraitementTraitementExtraction
Notre système (All Summarizer)
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 7/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
PrétraitementTraitementExtraction
Notre système (All Summarizer)Architecture générale
Inputdocument(s)
Summary
Pre-processing
Normalizer
Segmenter
Stemmer
Stop-wordeliminator
Listof sentences
List ofpre-processedwords foreach sentence
Processing
Clustering
Learning
Scoring
Listof clusters
Summary size
P(f|C)
Extraction
ExtractionSentencesscores
ReOrdering
List of firsthigher scoredsentences
Reorderedsentences
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 8/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
PrétraitementTraitementExtraction
Prétraitement
Tâche Outils Langues
Segmentationdes phrases
openNLP Nl, En, De, It, Pt, ThJHazm FaRegex Le reste
Segmentationdes mots
openNlp Nl, En, De, It, Pt, ThLucene Zh, JaRegex Le reste
RadicalisationShereen Khoja ArJHazm FaHebMorph HeLucene Bg, Cs, El, Hi, Id, Ja, NoSnowball Eu, Ca, Nl, En (Porter), Fi, Fr, De, Hu, It, Pt, Ro, Ru,
Es, Sv, Tr/ Le reste
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 9/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
PrétraitementTraitementExtraction
TraitementRegroupement
Input text (D)
i <= |D|
Sim = Cosine(Si,Sj)
j = i + 1
j <= |D|
i = 1
Sim > Th
Ci = Ci + {Si}
j++
For each sentence,Find similar sentences
C is the setof clusters
i <= |C|
j = |C|
j >= 1
Ci ⊂ Cj
C = C - Ci
Delete clusters included in others
Preprocessing
Ci = Ci + {Sj}
i = 1
C = C + {Ci}i++
j--
YesYes
Yes
Yes
Yes
YesNo
No
NoNo
No
No
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 10/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
PrétraitementTraitementExtraction
TraitementApprentissage
Pf (f = φ|cj) =|φ ∈ cj |∑
cl∈C |φ′ ∈ cl |
f : critère de sélection, φ : observation de f , C : ensemble de clusters.
f ∈
Fréquence des termes (unigram) (TFU)
Fréquence des termes (bigram) (TFB)
Position de la phrase (Pos)
Longueur de la phrase (Rleng, PLeng)
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 11/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
PrétraitementTraitementExtraction
TraitementScore des phrases
Score(si , cj , fk ) = 1 +∑φ∈si
P(fk = φ|si ∈ cj)
Score(si ,⋂
j
cj ,F) =∏
j
∏k
Score(si , cj , fk )
s : phrase, c : cluster, f : critère de sélection, F : ensemble des critèresutilisées, φ : observation de f .
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 12/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
PrétraitementTraitementExtraction
Extraction
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 13/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
Estimation des paramètres de résuméParticipation à MultiLing’15 (SIGDIAL’15)
Nos contributionsNotre travail pour l’année 2014/2015
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 14/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
Estimation des paramètres de résuméParticipation à MultiLing’15 (SIGDIAL’15)
Estimation des paramètres de résuméSeuil de regroupemennt : mesures statistiques
La médiane
La moyenne arithmétique
Le mode : bas et haut.
La variance
sDn =∑|s|
|D |∗n
Dsn = |D |n∗∑|s|
Ds = |D |∑|s|
|s| : nombre de différentes termes dans une phrase s. |D | : nombre dedifférentes termes dans un document D. n : nombre de phrases dans cedocument.
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 15/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
Estimation des paramètres de résuméParticipation à MultiLing’15 (SIGDIAL’15)
Estimation des paramètres de résuméLa sélection des paramètres
Tâche MMS - Corpus d’apprentissage - Anglais :
TFU-TFB-Pos-RLeng
TFU-TFB-Pos-PLeng
TFU-TFB-RLeng-PLeng
TFU-Pos-RLeng-PLeng
TFB-Pos-RLeng-PLeng
TFU-TFB-Pos-RLeng-PLeng
M001
median 0.0909 0.1105 0.1259 0.1273 0.1385 0.0951sDn 0.0783 0.0951 0.0895 0.1385 0.0951 0.1203Lmode 0.1147 0.0937 0.1301 0.1497 0.1245 0.0923Hmode 0.1147 0.0937 0.1301 0.1497 0.1245 0.0923mean 0.0909 0.0909 0.1189 0.0923 0.1063 0.1357variance 0.0783 0.0951 0.0895 0.1385 0.0951 0.1203Ds 0.1119 0.1119 0.1063 0.1119 0.0531 0.1119Dsn 0.0783 0.0951 0.0895 0.1385 0.0951 0.1203
. . .
AVG
median 0.0105 0.0108 0.0112 0.0109 0.0122 0.0102sDn 0.0075 0.0095 0.0111 0.0110 0.0093 0.0106Lmode 0.0106 0.0099 0.0115 0.0133 0.0133 0.0100Hmode 0.0125 0.0095 0.0115 0.0125 0.0114 0.0100mean 0.0109 0.0089 0.0120 0.0097 0.0117 0.0133variance 0.0075 0.0095 0.0111 0.0110 0.0093 0.0106Ds 0.0091 0.0086 0.0099 0.0100 0.0100 0.0088Dsn 0.0075 0.0095 0.0111 0.0110 0.0093 0.0106
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 16/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
Estimation des paramètres de résuméParticipation à MultiLing’15 (SIGDIAL’15)
Estimation des paramètres de résuméLa sélection des paramètres
LangSingle document (MSS) Multidocument (MMS)Th Features Th Features
Ar Ds TFB, Pos, PLeng Ds TFB, Pos, RLeng, PLengCs HMode TFU, TFB, Pos, PLeng Ds TFB, Pos, PLengEl Median TFU, TFB, Pos, RLeng,
PLengLMode TFB, RLeng
En Median TFU, Pos, RLeng, PLeng LMode TFB, Pos, RLeng, PLengEs sDn TFB, PLeng Ds TFB, PLengFr Median TFB, Pos, RLeng Mean TFU, TFB, Pos, PLengHe Ds TFB, PLeng Median TFB, RLeng, PLengHi / / Ds TFB, Pos, RLeng, PLengRo HMode TFB, RLeng, PLeng sDn TFB, Pos, PLengZh HMode TFB, RLeng, PLeng sDn TFU, Pos, RLeng, PLeng
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 17/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
Estimation des paramètres de résuméParticipation à MultiLing’15 (SIGDIAL’15)
MultiLing’15Critères de comparaison
Soit AS = AllSummarizerS = Un autre système qui a participé avec n langues
AVGS =
n∑i=1
ScoreS(Li)
n
AVGAS =
n∑i=1
ScoreAS(Li)
nAmélioration relative (RI) :
RI =AVGAS − AVGS
AVGS
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 18/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
Estimation des paramètres de résuméParticipation à MultiLing’15 (SIGDIAL’15)
MultiLing’15Mono document (Tâche MSS)
MethodsOur method improvement %
R-1 R-2 R-3 R-4 R-SU4BGU-SCE-M (ar, en, he) -09.19 -14.02 -19.39 -25.12 -11.07EXB (all 38) -07.64 -10.55 -09.86 -07.92 -10.63CCS (all 38) -07.33 -13.24 -10.95 -03.04 -07.40BGU-SCE-P (ar, en, he) -04.33 -01.63 -02.69 -06.16 -01.89UA-DLSI (en, de, es) +02.12 +06.25 +13.86 +17.15 +05.62NTNU (en, zh) +06.44 +07.06 +11.50 +21.81 +05.74Oracles (all 38) [TopLine] -31.64 -49.00 -63.80 -72.91 -36.77Lead (all 38) [BaseLine] +02.39 +08.67 +08.20 +04.02 +05.82
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 19/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
Estimation des paramètres de résuméParticipation à MultiLing’15 (SIGDIAL’15)
MultiLing’15Multidocument (Tâche MMS)
SysIDOur method improvement %
AutoSummENG MeMoG NPowERUJF-Grenoble (fr, en, el) -08.87 -14.55 -03.62UWB (all 10) -22.56 -22.66 -07.54ExB (all 10) -09.44 -09.16 -02.80IDA-OCCAMS (all 10) -17.11 -17.68 -05.53GiauUngVan (- zh, ro, es) -16.43 -19.40 -05.68SCE-Poly (ar, en, he) -05.72 -03.35 -01.46BUPT-CIST (all 10) +10.67 +11.53 +02.85BGU-MUSE (ar, en ,he) +05.67 +06.92 +01.74NCSR/SCIFY-NewSumRerank (- zh)
+01.53 -01.25 +00.13
AllSummazer (MSS param)(all 10)
+01.98 +02.35 +00.58
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 20/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
ConclusionPerspectives
Conclusion et perspectives
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 21/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
ConclusionPerspectives
Conclusion
Création d’une méthode multilingue
Estimer les paramètres (seuil et critères)
Tester le système par rapport aux systèmes récents (bonnesrésultats) [2].
Estimer les paramètres selon le document et sans prendreconsidération de la langue ?
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 22/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
ConclusionPerspectives
Perspectives
Pour cette année, notre but est :
Estimer les paramètres pour chaque document et pas pour chaquelangue.
Proposer une meilleure méthode pour la détection de similarité entrephrases.
Améliorer l’ordonnancement des phrases après l’extraction.Améliorer la lisibilité du résumé généré (Anglais comme langue dedébut) :
Couramment, on travaille sur une méthode pour représenter lesphrases, en tenant compte de l’aspect multilingue.On a proposé une structure (partielle) basée sur JSON pourreprésenter les phrases.
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 23/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
ConclusionPerspectives
Fin ...
Merci pour votre attention
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 24/25
ProblématiqueNotre système (All Summarizer)
Nos contributionsConclusion et perspectives
ConclusionPerspectives
Bibliography I
A. Aries, H. Oufaida, and O. Nouali, “Using clustering and a modified classification algorithm for automatic text summarization,”ser. Proc. SPIE, vol. 8658, 2013, pp. 865 811–865 811–9. [Online]. Available : http://dx.doi.org/10.1117/12.2004001
A. Aries, D. E. Zegour, and K. W. Hidouci, “Allsummarizer system at multiling 2015 : Multilingual single and multi-documentsummarization,” in Proceedings of the 16th Annual Meeting of the Special Interest Group on Discourse and Dialogue. Prague,Czech Republic : Association for Computational Linguistics, September 2015, pp. 237–244. [Online]. Available :http://aclweb.org/anthology/W15-4634
ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 25/25