Download - Nuages sémantiques
Objet du TD : regroupement de données et culture générale
Nuages sémantiques Les « nuages sémantiques » qui figurent en ci-contre ont été obtenus par un traitement statistique appliqué aux résultats d'une recherche sur l'internet. En cherchant dans un moteur de recherche une suite de mots (par exemple "Rouge à lèvres", "Aïd el Kébir", "Hannoucca" ou "Noël"), on obtient une liste de pages classées par ordre décroissant de pertinence. C'est l'analyse automa-tique de ces pages ou de leur résumé synthétique qui permet d'obtenir le nuage sémantique qui, en annexe, figure dans le cadre situé au dessus de la liste de mots cherchés.
Questions
Étayez vos réponses : 1. En fondant votre réflexion sur les exemples de l'annexe, indiquez en
quelques mots ce que représente un nuage sémantique par rapport à la liste de mots dont il est issu.
2. Faites des hypothèses sur l'algorithme qui permet d'obtenir un nuage sé-mantique.
3. Proposez quelques applications qui pourraient être faites de ces nuages. 4. Indiquez des mots dont vous pensez qu'ils ne devraient pas figurer dans les
nuages sémantiques de l'annexe ; donnez une explication de leur présence. 1
À quoi tient selon vous la qualité d'un nuage sémantique en fonction des données disponibles sur le réseau internet ? Imaginez dans quelles situa-tions le résultat serait le meilleur (respectivement le pire).
Université de BourgogneAnnée universitaire 2017-2018Master 2 pro BDIA — extraction de connaissancesExercices variés
Expliquez notamment la présence de "arme", "bâton" et "feu" dans le premier nuage, 1
17/12/08 01:26Technologies du Langage: Web: Surfez sur les nuages
Page 1 sur 10http://aixtal.blogspot.com/2006/01/web-surfez-sur-les-nuages.html
JEAN VÉRONIS
AIX-EN-PROVENCE
(FRANCE)
A PROPOS DE L 'AUTEUR
TWIT IT !ECHOS
20-11 Nuages sur Reims
13-07 Sarkozy sincère ?
30-06 Stratégies a l'oeil sur le net
06-06 Echos sur le Web sémantique
12-05 Nicolas Sarkozy dans le texte (7)
09-05 Politis a aimé...
09-05 Nicolas Sarkozy dans le texte (6)
08-05 Nicolas Sarkozy dans le texte (5)
07-05 Nicolas Sarkozy dans le texte (4)
06-05 Nicolas Sarkozy dans le texte (3)
... et plus
BILLETS RÉCENTS
Blogs: Que fait Google ?
Télé: Déshabillons les communistes
Buzz: Les nuages s'améliorent
Blogs: Une fille dans le top 10 ?
Société: Mère, SDF et blogueuse
Blogs: Fuites et liens radioactifs
Blogs: Trop de liens tue le lien
Moteurs: Y a-t-il un Web apres Google ?
Pub: Ecureuil malin
Blogs: French, less sociable than you might have
thought (but Italians even less so!)
Blogs: Le Français n'est pas liant (mais l'Italienencore moins !)
Blogs: Page Rank et Wikio Rank
Buzz: Wikio chez Wikio
Socio: Testez votre Web appeal
Blogs: Classement Wikio d'octobre
Blogs: Dans les entrailles du classement Wikio(2)
Blogs : Dans les entrailles du classement Wikio(1)
Blogs: Turbulence ahead
Blogs: Avis de turbulences
Google: Please find attached...
... et plus
BILLETS LES PLUS LUS
Google, Yahoo et Wikipedia
Sarko: Moi, je
La France qui se lève tôt
Allez, va, ça ira !
Colonisation
Le barda dans les gourbis
Petites études pornométriques
Moteurs: Et le gagnant est...
La grippe aviaire a disparu
E-Pub: Google et les banlieues
Yahoo: 19 milliards de pages?
Vrai-faux caviar
In-censure américaine
La femme selon Google
Naviguez dans la Constitution Européenne
Les comptes bidons de Google
MOST READ
Google, Yahoo and Wikipedia
A short study in pornometry
Search: And the winner is...
Yahoo: 19 billion pages?
Navigate through the European Constitution
Google faking counts?
ARCHIVES
Par date
Par catégories
OUTILS
Premiers ministres
Discours 2007
Presse 2007
Le Présidographe
Le Nébuloscope
Le Chronologue
Plugin pour le TLFi
CHERCHEZ SUR CE BLOG
Chercher
LE BUZZ DU JOUR SUR WIKIO
Caroline Kennedy Charles Jourdan ChristianSarramagna Eric Besson Eric De MontgolfierJean Herrina Jean-Pierre Papin Lanta
All Mike Golding Paul Ince Reggie Theus Robert
Fowler Roger Karoutchi Sébastien BuemiSidney Govou [via Wikio Labs]
VIENT DE PARAÎTRE !CLIQUEZ POUR LIRE LES « BONNES
FEUILLES »
MES AUTRES L IVRES
DIMANCHE, JANVIER 15, 2006
Web: Surfez sur les nuages
Vous avez sans doute noté ma fascination pour les nuages de mots [1, 2 , 3, 4, 5, 6]. Je trouve qu'ils sont un moyen superbe de
visualiser la thématique et le "monde lexical" d'un texte. Je rêvais depuis un moment d'un moteur qui retournerait ses résultats
sous forme de nuage... J'ai fait divers prototypes à partir de l'API de Yahoo, qui m'ont convaincu qu'on pouvait utiliser les
résumés retournés par le moteur pour générer de tels nuages. Seul petit problème, pour des nuages intéressants, il faut pas mal
de résultats; or, Yahoo n'en retourne pas plus de 100 à la fois, ce qui implique plusieurs requêtes, et un temps de réponse trop
long pour une mise en ligne de l'outil, sans compter la consommation de bande passante...
J'en ai parlé à Philippe Develter de Dir.com, grâce à qui j'ai déjà pu réaliser le Chronologue. Philippe a implanté côté moteur
une partie du traitement, et je peux maintenant générer le nuage en une fraction de seconde. Voici par exemple un petit nuage
d'actualité (bonne Aïd!):
"Aïd el Kébir"
Intéressant à comparer avec d'autres fêtes récentes:
Noël
Hannoucca
Pour les fêtes non-chrétiennes, on précise "fête musulmane", "fête juive". Pour Noël, on parle simplement du Père Noël et des
cadeaux. Amusant non? Gageons que certains vont y voir un moyen d'affiner leurs mots-clés:
"Rouge à lèvres"
ou de satisfaire leur ego :
"Jean Véronis"
Assez ressemblant, je trouve...
Et on peut même restreindre le nuage à une période donnée, exprimée en nombre de jours (exemple: mot-cle dd>60 dd<120)
ou en nombre de mois (mot-cle mm>1 mm<2). Par exemple "segolene royal" mm<1 retourne:
abattage abraham adha afrique aid aid-el-kebir algeriecalendrier celebration conseil el-kebir famille feries fetefetes fin fitr france grande histoire islam jours kebirkippour lieu maroc mois mosquee mouton moutonsmusulman musulmane musulmanes musulmans noeloccasion paris pays photos presse quotidien ramadanreligieuse religieuses religion rituel sacrifice tabaski tunisieville
achat activites arbre cadeau cadeaux canalblog cartecartes chansons christmas conseils cuisine enfant enfantsfamille fete fetes fin france guide histoire idees images jeanjeux jours joyeux marche membres musique noel nouvelpapa paris pere photo photos presse prix recettes saintsapin selection service special temps traditions vacances vievoeux
anglais atseret bar calendrier chemini commemorationscommunaute encyclopedie enfants evenements fete fetesfrance hanoucca hanouka hashana hat histoire israeljerusalem jeune jours joyeux judaisme juif juifs juivejuives kippour livre livres lumieres mois noel paris partiepessa pourim redoutables religion rosh serie sim soir souccottemple torah tou vie yom
accessoires achat acheter arme baton beaute cheveuxcinema conseils corps cosmetique cosmetiques couleurcouleurs crayon creme dvd fard femme femmes feu filmfond france gloss jeux levres livres maquillage mascaramode ongles parfum paris paupieres photo prix produitproduits rose rouge rouges sante soin soins teint ventevernis visage yeux
aix-en-provence aixtal atala automatique blogs blogspotcentre cilsh constitution corpus cours delic directeur equipeeurope europeenne francaise france francois google ideinformatique jacques jean journal langage langue langueslettres lexique linguistique moteur moteurs mots nancy nomolivier paris pierre professeur provence referencementresultats technologies texte traitement univ-mrsuniversite veronis yahoo
candidat candidate candidature chili chirac conseil dominiquefabius famille femme francaise france francois gauchehollande jack jospin journal laurent ministre nationalenicolas nouvel observateur paris parti place poitou-
17/12/08 01:26Technologies du Langage: Web: Surfez sur les nuages
Page 1 sur 10http://aixtal.blogspot.com/2006/01/web-surfez-sur-les-nuages.html
JEAN VÉRONIS
AIX-EN-PROVENCE
(FRANCE)
A PROPOS DE L 'AUTEUR
TWIT IT !ECHOS
20-11 Nuages sur Reims
13-07 Sarkozy sincère ?
30-06 Stratégies a l'oeil sur le net
06-06 Echos sur le Web sémantique
12-05 Nicolas Sarkozy dans le texte (7)
09-05 Politis a aimé...
09-05 Nicolas Sarkozy dans le texte (6)
08-05 Nicolas Sarkozy dans le texte (5)
07-05 Nicolas Sarkozy dans le texte (4)
06-05 Nicolas Sarkozy dans le texte (3)
... et plus
BILLETS RÉCENTS
Blogs: Que fait Google ?
Télé: Déshabillons les communistes
Buzz: Les nuages s'améliorent
Blogs: Une fille dans le top 10 ?
Société: Mère, SDF et blogueuse
Blogs: Fuites et liens radioactifs
Blogs: Trop de liens tue le lien
Moteurs: Y a-t-il un Web apres Google ?
Pub: Ecureuil malin
Blogs: French, less sociable than you might have
thought (but Italians even less so!)
Blogs: Le Français n'est pas liant (mais l'Italienencore moins !)
Blogs: Page Rank et Wikio Rank
Buzz: Wikio chez Wikio
Socio: Testez votre Web appeal
Blogs: Classement Wikio d'octobre
Blogs: Dans les entrailles du classement Wikio(2)
Blogs : Dans les entrailles du classement Wikio(1)
Blogs: Turbulence ahead
Blogs: Avis de turbulences
Google: Please find attached...
... et plus
BILLETS LES PLUS LUS
Google, Yahoo et Wikipedia
Sarko: Moi, je
La France qui se lève tôt
Allez, va, ça ira !
Colonisation
Le barda dans les gourbis
Petites études pornométriques
Moteurs: Et le gagnant est...
La grippe aviaire a disparu
E-Pub: Google et les banlieues
Yahoo: 19 milliards de pages?
Vrai-faux caviar
In-censure américaine
La femme selon Google
Naviguez dans la Constitution Européenne
Les comptes bidons de Google
MOST READ
Google, Yahoo and Wikipedia
A short study in pornometry
Search: And the winner is...
Yahoo: 19 billion pages?
Navigate through the European Constitution
Google faking counts?
ARCHIVES
Par date
Par catégories
OUTILS
Premiers ministres
Discours 2007
Presse 2007
Le Présidographe
Le Nébuloscope
Le Chronologue
Plugin pour le TLFi
CHERCHEZ SUR CE BLOG
Chercher
LE BUZZ DU JOUR SUR WIKIO
Caroline Kennedy Charles Jourdan ChristianSarramagna Eric Besson Eric De MontgolfierJean Herrina Jean-Pierre Papin Lanta
All Mike Golding Paul Ince Reggie Theus Robert
Fowler Roger Karoutchi Sébastien BuemiSidney Govou [via Wikio Labs]
VIENT DE PARAÎTRE !CLIQUEZ POUR LIRE LES « BONNES
FEUILLES »
MES AUTRES L IVRES
DIMANCHE, JANVIER 15, 2006
Web: Surfez sur les nuages
Vous avez sans doute noté ma fascination pour les nuages de mots [1, 2 , 3, 4, 5, 6]. Je trouve qu'ils sont un moyen superbe de
visualiser la thématique et le "monde lexical" d'un texte. Je rêvais depuis un moment d'un moteur qui retournerait ses résultats
sous forme de nuage... J'ai fait divers prototypes à partir de l'API de Yahoo, qui m'ont convaincu qu'on pouvait utiliser les
résumés retournés par le moteur pour générer de tels nuages. Seul petit problème, pour des nuages intéressants, il faut pas mal
de résultats; or, Yahoo n'en retourne pas plus de 100 à la fois, ce qui implique plusieurs requêtes, et un temps de réponse trop
long pour une mise en ligne de l'outil, sans compter la consommation de bande passante...
J'en ai parlé à Philippe Develter de Dir.com, grâce à qui j'ai déjà pu réaliser le Chronologue. Philippe a implanté côté moteur
une partie du traitement, et je peux maintenant générer le nuage en une fraction de seconde. Voici par exemple un petit nuage
d'actualité (bonne Aïd!):
"Aïd el Kébir"
Intéressant à comparer avec d'autres fêtes récentes:
Noël
Hannoucca
Pour les fêtes non-chrétiennes, on précise "fête musulmane", "fête juive". Pour Noël, on parle simplement du Père Noël et des
cadeaux. Amusant non? Gageons que certains vont y voir un moyen d'affiner leurs mots-clés:
"Rouge à lèvres"
ou de satisfaire leur ego :
"Jean Véronis"
Assez ressemblant, je trouve...
Et on peut même restreindre le nuage à une période donnée, exprimée en nombre de jours (exemple: mot-cle dd>60 dd<120)
ou en nombre de mois (mot-cle mm>1 mm<2). Par exemple "segolene royal" mm<1 retourne:
abattage abraham adha afrique aid aid-el-kebir algeriecalendrier celebration conseil el-kebir famille feries fetefetes fin fitr france grande histoire islam jours kebirkippour lieu maroc mois mosquee mouton moutonsmusulman musulmane musulmanes musulmans noeloccasion paris pays photos presse quotidien ramadanreligieuse religieuses religion rituel sacrifice tabaski tunisieville
achat activites arbre cadeau cadeaux canalblog cartecartes chansons christmas conseils cuisine enfant enfantsfamille fete fetes fin france guide histoire idees images jeanjeux jours joyeux marche membres musique noel nouvelpapa paris pere photo photos presse prix recettes saintsapin selection service special temps traditions vacances vievoeux
anglais atseret bar calendrier chemini commemorationscommunaute encyclopedie enfants evenements fete fetesfrance hanoucca hanouka hashana hat histoire israeljerusalem jeune jours joyeux judaisme juif juifs juivejuives kippour livre livres lumieres mois noel paris partiepessa pourim redoutables religion rosh serie sim soir souccottemple torah tou vie yom
accessoires achat acheter arme baton beaute cheveuxcinema conseils corps cosmetique cosmetiques couleurcouleurs crayon creme dvd fard femme femmes feu filmfond france gloss jeux levres livres maquillage mascaramode ongles parfum paris paupieres photo prix produitproduits rose rouge rouges sante soin soins teint ventevernis visage yeux
aix-en-provence aixtal atala automatique blogs blogspotcentre cilsh constitution corpus cours delic directeur equipeeurope europeenne francaise france francois google ideinformatique jacques jean journal langage langue langueslettres lexique linguistique moteur moteurs mots nancy nomolivier paris pierre professeur provence referencementresultats technologies texte traitement univ-mrsuniversite veronis yahoo
candidat candidate candidature chili chirac conseil dominiquefabius famille femme francaise france francois gauchehollande jack jospin journal laurent ministre nationalenicolas nouvel observateur paris parti place poitou-
17/12/08 01:26Technologies du Langage: Web: Surfez sur les nuages
Page 1 sur 10http://aixtal.blogspot.com/2006/01/web-surfez-sur-les-nuages.html
JEAN VÉRONIS
AIX-EN-PROVENCE
(FRANCE)
A PROPOS DE L 'AUTEUR
TWIT IT !ECHOS
20-11 Nuages sur Reims
13-07 Sarkozy sincère ?
30-06 Stratégies a l'oeil sur le net
06-06 Echos sur le Web sémantique
12-05 Nicolas Sarkozy dans le texte (7)
09-05 Politis a aimé...
09-05 Nicolas Sarkozy dans le texte (6)
08-05 Nicolas Sarkozy dans le texte (5)
07-05 Nicolas Sarkozy dans le texte (4)
06-05 Nicolas Sarkozy dans le texte (3)
... et plus
BILLETS RÉCENTS
Blogs: Que fait Google ?
Télé: Déshabillons les communistes
Buzz: Les nuages s'améliorent
Blogs: Une fille dans le top 10 ?
Société: Mère, SDF et blogueuse
Blogs: Fuites et liens radioactifs
Blogs: Trop de liens tue le lien
Moteurs: Y a-t-il un Web apres Google ?
Pub: Ecureuil malin
Blogs: French, less sociable than you might have
thought (but Italians even less so!)
Blogs: Le Français n'est pas liant (mais l'Italienencore moins !)
Blogs: Page Rank et Wikio Rank
Buzz: Wikio chez Wikio
Socio: Testez votre Web appeal
Blogs: Classement Wikio d'octobre
Blogs: Dans les entrailles du classement Wikio(2)
Blogs : Dans les entrailles du classement Wikio(1)
Blogs: Turbulence ahead
Blogs: Avis de turbulences
Google: Please find attached...
... et plus
BILLETS LES PLUS LUS
Google, Yahoo et Wikipedia
Sarko: Moi, je
La France qui se lève tôt
Allez, va, ça ira !
Colonisation
Le barda dans les gourbis
Petites études pornométriques
Moteurs: Et le gagnant est...
La grippe aviaire a disparu
E-Pub: Google et les banlieues
Yahoo: 19 milliards de pages?
Vrai-faux caviar
In-censure américaine
La femme selon Google
Naviguez dans la Constitution Européenne
Les comptes bidons de Google
MOST READ
Google, Yahoo and Wikipedia
A short study in pornometry
Search: And the winner is...
Yahoo: 19 billion pages?
Navigate through the European Constitution
Google faking counts?
ARCHIVES
Par date
Par catégories
OUTILS
Premiers ministres
Discours 2007
Presse 2007
Le Présidographe
Le Nébuloscope
Le Chronologue
Plugin pour le TLFi
CHERCHEZ SUR CE BLOG
Chercher
LE BUZZ DU JOUR SUR WIKIO
Caroline Kennedy Charles Jourdan ChristianSarramagna Eric Besson Eric De MontgolfierJean Herrina Jean-Pierre Papin Lanta
All Mike Golding Paul Ince Reggie Theus Robert
Fowler Roger Karoutchi Sébastien BuemiSidney Govou [via Wikio Labs]
VIENT DE PARAÎTRE !CLIQUEZ POUR LIRE LES « BONNES
FEUILLES »
MES AUTRES L IVRES
DIMANCHE, JANVIER 15, 2006
Web: Surfez sur les nuages
Vous avez sans doute noté ma fascination pour les nuages de mots [1, 2 , 3, 4, 5, 6]. Je trouve qu'ils sont un moyen superbe de
visualiser la thématique et le "monde lexical" d'un texte. Je rêvais depuis un moment d'un moteur qui retournerait ses résultats
sous forme de nuage... J'ai fait divers prototypes à partir de l'API de Yahoo, qui m'ont convaincu qu'on pouvait utiliser les
résumés retournés par le moteur pour générer de tels nuages. Seul petit problème, pour des nuages intéressants, il faut pas mal
de résultats; or, Yahoo n'en retourne pas plus de 100 à la fois, ce qui implique plusieurs requêtes, et un temps de réponse trop
long pour une mise en ligne de l'outil, sans compter la consommation de bande passante...
J'en ai parlé à Philippe Develter de Dir.com, grâce à qui j'ai déjà pu réaliser le Chronologue. Philippe a implanté côté moteur
une partie du traitement, et je peux maintenant générer le nuage en une fraction de seconde. Voici par exemple un petit nuage
d'actualité (bonne Aïd!):
"Aïd el Kébir"
Intéressant à comparer avec d'autres fêtes récentes:
Noël
Hannoucca
Pour les fêtes non-chrétiennes, on précise "fête musulmane", "fête juive". Pour Noël, on parle simplement du Père Noël et des
cadeaux. Amusant non? Gageons que certains vont y voir un moyen d'affiner leurs mots-clés:
"Rouge à lèvres"
ou de satisfaire leur ego :
"Jean Véronis"
Assez ressemblant, je trouve...
Et on peut même restreindre le nuage à une période donnée, exprimée en nombre de jours (exemple: mot-cle dd>60 dd<120)
ou en nombre de mois (mot-cle mm>1 mm<2). Par exemple "segolene royal" mm<1 retourne:
abattage abraham adha afrique aid aid-el-kebir algeriecalendrier celebration conseil el-kebir famille feries fetefetes fin fitr france grande histoire islam jours kebirkippour lieu maroc mois mosquee mouton moutonsmusulman musulmane musulmanes musulmans noeloccasion paris pays photos presse quotidien ramadanreligieuse religieuses religion rituel sacrifice tabaski tunisieville
achat activites arbre cadeau cadeaux canalblog cartecartes chansons christmas conseils cuisine enfant enfantsfamille fete fetes fin france guide histoire idees images jeanjeux jours joyeux marche membres musique noel nouvelpapa paris pere photo photos presse prix recettes saintsapin selection service special temps traditions vacances vievoeux
anglais atseret bar calendrier chemini commemorationscommunaute encyclopedie enfants evenements fete fetesfrance hanoucca hanouka hashana hat histoire israeljerusalem jeune jours joyeux judaisme juif juifs juivejuives kippour livre livres lumieres mois noel paris partiepessa pourim redoutables religion rosh serie sim soir souccottemple torah tou vie yom
accessoires achat acheter arme baton beaute cheveuxcinema conseils corps cosmetique cosmetiques couleurcouleurs crayon creme dvd fard femme femmes feu filmfond france gloss jeux levres livres maquillage mascaramode ongles parfum paris paupieres photo prix produitproduits rose rouge rouges sante soin soins teint ventevernis visage yeux
aix-en-provence aixtal atala automatique blogs blogspotcentre cilsh constitution corpus cours delic directeur equipeeurope europeenne francaise france francois google ideinformatique jacques jean journal langage langue langueslettres lexique linguistique moteur moteurs mots nancy nomolivier paris pierre professeur provence referencementresultats technologies texte traitement univ-mrsuniversite veronis yahoo
candidat candidate candidature chili chirac conseil dominiquefabius famille femme francaise france francois gauchehollande jack jospin journal laurent ministre nationalenicolas nouvel observateur paris parti place poitou-
17/12/08 01:26Technologies du Langage: Web: Surfez sur les nuages
Page 1 sur 10http://aixtal.blogspot.com/2006/01/web-surfez-sur-les-nuages.html
JEAN VÉRONIS
AIX-EN-PROVENCE
(FRANCE)
A PROPOS DE L 'AUTEUR
TWIT IT !ECHOS
20-11 Nuages sur Reims
13-07 Sarkozy sincère ?
30-06 Stratégies a l'oeil sur le net
06-06 Echos sur le Web sémantique
12-05 Nicolas Sarkozy dans le texte (7)
09-05 Politis a aimé...
09-05 Nicolas Sarkozy dans le texte (6)
08-05 Nicolas Sarkozy dans le texte (5)
07-05 Nicolas Sarkozy dans le texte (4)
06-05 Nicolas Sarkozy dans le texte (3)
... et plus
BILLETS RÉCENTS
Blogs: Que fait Google ?
Télé: Déshabillons les communistes
Buzz: Les nuages s'améliorent
Blogs: Une fille dans le top 10 ?
Société: Mère, SDF et blogueuse
Blogs: Fuites et liens radioactifs
Blogs: Trop de liens tue le lien
Moteurs: Y a-t-il un Web apres Google ?
Pub: Ecureuil malin
Blogs: French, less sociable than you might have
thought (but Italians even less so!)
Blogs: Le Français n'est pas liant (mais l'Italienencore moins !)
Blogs: Page Rank et Wikio Rank
Buzz: Wikio chez Wikio
Socio: Testez votre Web appeal
Blogs: Classement Wikio d'octobre
Blogs: Dans les entrailles du classement Wikio(2)
Blogs : Dans les entrailles du classement Wikio(1)
Blogs: Turbulence ahead
Blogs: Avis de turbulences
Google: Please find attached...
... et plus
BILLETS LES PLUS LUS
Google, Yahoo et Wikipedia
Sarko: Moi, je
La France qui se lève tôt
Allez, va, ça ira !
Colonisation
Le barda dans les gourbis
Petites études pornométriques
Moteurs: Et le gagnant est...
La grippe aviaire a disparu
E-Pub: Google et les banlieues
Yahoo: 19 milliards de pages?
Vrai-faux caviar
In-censure américaine
La femme selon Google
Naviguez dans la Constitution Européenne
Les comptes bidons de Google
MOST READ
Google, Yahoo and Wikipedia
A short study in pornometry
Search: And the winner is...
Yahoo: 19 billion pages?
Navigate through the European Constitution
Google faking counts?
ARCHIVES
Par date
Par catégories
OUTILS
Premiers ministres
Discours 2007
Presse 2007
Le Présidographe
Le Nébuloscope
Le Chronologue
Plugin pour le TLFi
CHERCHEZ SUR CE BLOG
Chercher
LE BUZZ DU JOUR SUR WIKIO
Caroline Kennedy Charles Jourdan ChristianSarramagna Eric Besson Eric De MontgolfierJean Herrina Jean-Pierre Papin Lanta
All Mike Golding Paul Ince Reggie Theus Robert
Fowler Roger Karoutchi Sébastien BuemiSidney Govou [via Wikio Labs]
VIENT DE PARAÎTRE !CLIQUEZ POUR LIRE LES « BONNES
FEUILLES »
MES AUTRES L IVRES
DIMANCHE, JANVIER 15, 2006
Web: Surfez sur les nuages
Vous avez sans doute noté ma fascination pour les nuages de mots [1, 2 , 3, 4, 5, 6]. Je trouve qu'ils sont un moyen superbe de
visualiser la thématique et le "monde lexical" d'un texte. Je rêvais depuis un moment d'un moteur qui retournerait ses résultats
sous forme de nuage... J'ai fait divers prototypes à partir de l'API de Yahoo, qui m'ont convaincu qu'on pouvait utiliser les
résumés retournés par le moteur pour générer de tels nuages. Seul petit problème, pour des nuages intéressants, il faut pas mal
de résultats; or, Yahoo n'en retourne pas plus de 100 à la fois, ce qui implique plusieurs requêtes, et un temps de réponse trop
long pour une mise en ligne de l'outil, sans compter la consommation de bande passante...
J'en ai parlé à Philippe Develter de Dir.com, grâce à qui j'ai déjà pu réaliser le Chronologue. Philippe a implanté côté moteur
une partie du traitement, et je peux maintenant générer le nuage en une fraction de seconde. Voici par exemple un petit nuage
d'actualité (bonne Aïd!):
"Aïd el Kébir"
Intéressant à comparer avec d'autres fêtes récentes:
Noël
Hannoucca
Pour les fêtes non-chrétiennes, on précise "fête musulmane", "fête juive". Pour Noël, on parle simplement du Père Noël et des
cadeaux. Amusant non? Gageons que certains vont y voir un moyen d'affiner leurs mots-clés:
"Rouge à lèvres"
ou de satisfaire leur ego :
"Jean Véronis"
Assez ressemblant, je trouve...
Et on peut même restreindre le nuage à une période donnée, exprimée en nombre de jours (exemple: mot-cle dd>60 dd<120)
ou en nombre de mois (mot-cle mm>1 mm<2). Par exemple "segolene royal" mm<1 retourne:
abattage abraham adha afrique aid aid-el-kebir algeriecalendrier celebration conseil el-kebir famille feries fetefetes fin fitr france grande histoire islam jours kebirkippour lieu maroc mois mosquee mouton moutonsmusulman musulmane musulmanes musulmans noeloccasion paris pays photos presse quotidien ramadanreligieuse religieuses religion rituel sacrifice tabaski tunisieville
achat activites arbre cadeau cadeaux canalblog cartecartes chansons christmas conseils cuisine enfant enfantsfamille fete fetes fin france guide histoire idees images jeanjeux jours joyeux marche membres musique noel nouvelpapa paris pere photo photos presse prix recettes saintsapin selection service special temps traditions vacances vievoeux
anglais atseret bar calendrier chemini commemorationscommunaute encyclopedie enfants evenements fete fetesfrance hanoucca hanouka hashana hat histoire israeljerusalem jeune jours joyeux judaisme juif juifs juivejuives kippour livre livres lumieres mois noel paris partiepessa pourim redoutables religion rosh serie sim soir souccottemple torah tou vie yom
accessoires achat acheter arme baton beaute cheveuxcinema conseils corps cosmetique cosmetiques couleurcouleurs crayon creme dvd fard femme femmes feu filmfond france gloss jeux levres livres maquillage mascaramode ongles parfum paris paupieres photo prix produitproduits rose rouge rouges sante soin soins teint ventevernis visage yeux
aix-en-provence aixtal atala automatique blogs blogspotcentre cilsh constitution corpus cours delic directeur equipeeurope europeenne francaise france francois google ideinformatique jacques jean journal langage langue langueslettres lexique linguistique moteur moteurs mots nancy nomolivier paris pierre professeur provence referencementresultats technologies texte traitement univ-mrsuniversite veronis yahoo
candidat candidate candidature chili chirac conseil dominiquefabius famille femme francaise france francois gauchehollande jack jospin journal laurent ministre nationalenicolas nouvel observateur paris parti place poitou-
Algorithme de clustering La page ci-contre montre sur deux exemples le fonctionnement d'un algorithme de clustering dérivé de celui des K-Moyennes et dédié à la séparation d'une population d'exemples en deux groupes. Son principe est le suivant : 1. Choix aléatoire de deux graines. 2. Regroupement autour de chaque graine de tous les exemples qui sont plus
proches d'elle que de l'autre graine. 3. Tant que les groupes ne sont pas équilibrés (même cardinal à une unité
près), on effectue le changement de groupe des éléments du groupe le plus "gros" qui sont les plus proches de la graine du groupe le plus "petit". Ces nouveaux éléments viennent "grossir" le plus petit groupe.
4. Calcul du barycentre théorique de chaque groupe et sélection comme nou-velle graine de l'exemple du groupe concerné qui en est le plus proche.
5. Retour au 2 tant que les deux groupes évoluent à une oscillation près. En cas d'oscillation, le processus est arrêté à la fin du 3, quand les deux groupes sont équilibrés.
À noter que les étapes 1, 2 et 4 figurent à l'identique dans l'algorithme des K-Moyennes.
Questions
Justifiez vos réponses : 1. Donnez les principales différences en termes de résultats entre le présent
algorithme et l'algorithme des K-Moyennes limité à deux groupes. 2. Que pensez-vous de la qualité d'un tel algorithme ? Proposez des amélio-
rations éventuelles. 3. Cet algorithme peut-il être utilisé dans le cadre d'un algorithme d'appren-
tissage ? 4. Proposez des modifications pour que l'algorithme puisse être étendu au
traitement d'un nombre de groupes quelconque.
1.
2. cardinal : 12
cardinal : 7
graines.
3.
cardinal : 9
cardinal : 10
4.
±barycentre±barycentre
2.
cardinal : 10cardinal : 9
FIN : barycentres stables et groupes équilibrés.
1.
2.
3.
4.
2.
graines.
cardinal : 17 cardinal : 2
cardinal : 10cardinal : 9
déplacement de 7 éléments
±barycentre±barycentre
cardinal : 10cardinal : 9
déplacement de 2 éléments