nuages sémantiques

2
Objet du TD : regroupement de données et culture générale Nuages sémantiques Les « nuages sémantiques » qui gurent en ci-contre ont été obtenus par un traitement statistique appliqué aux résultats d'une recherche sur l'internet. En cherchant dans un moteur de recherche une suite de mots (par exemple "Rouge à lèvres", "Aïd el Kébir", "Hannoucca" ou "Noël"), on obtient une liste de pages classées par ordre décroissant de pertinence. C'est l'analyse automa- tique de ces pages ou de leur résumé synthétique qui permet d'obtenir le nuage sémantique qui, en annexe, gure dans le cadre situé au dessus de la liste de mots cherchés. Questions Étayez vos réponses : 1. En fondant votre réexion sur les exemples de l'annexe, indiquez en quelques mots ce que représente un nuage sémantique par rapport à la liste de mots dont il est issu. 2. Faites des hypothèses sur l'algorithme qui permet d'obtenir un nuage sé- mantique. 3. Proposez quelques applications qui pourraient être faites de ces nuages. 4. Indiquez des mots dont vous pensez qu'ils ne devraient pas gurer dans les nuages sémantiques de l'annexe  ; donnez une explication de leur présence. 1 À quoi tient selon vous la qualité d'un nuage sémantique en fonction des données disponibles sur le réseau internet ? Imaginez dans quelles situa- tions le résultat serait le meilleur (respectivement le pire). Université de Bourgogne Année universitaire 2017-2018 Master 2 pro BDIA — extraction de connaissances Exercices variés Expliquez notamment la présence de "arme", "bâton" et "feu" dans le premier nuage, 1 "Rouge à lèvres" accessoires achat acheter arme baton beaute cheveux cinema conseils corps cosmetique cosmetiques couleur couleurs crayon creme dvd fard femme femmes feu film fond france gloss jeux levres livres maquillage mascara mode ongles parfum paris paupieres photo prix produit produits rose rouge rouges sante soin soins teint vente vernis visage yeux "Aïd el Kébir" abattage abraham adha afrique aid aid-el-kebir algerie calendrier celebration conseil el-kebir famille feries fete fetes fin fitr france grande histoire islam jours kebir kippour lieu maroc mois mosquee mouton moutons musulman musulmane musulmanes musulmans noel occasion paris pays photos presse quotidien ramadan religieuse religieuses religion rituel sacrifice tabaski tunisie ville Hannoucca anglais atseret bar calendrier chemini commemorations communaute encyclopedie enfants evenements fete fetes france hanoucca hanouka hashana hat histoire israel jerusalem jeune jours joyeux judaisme juif juifs juive juives kippour livre livres lumieres mois noel paris partie pessa pourim redoutables religion rosh serie sim soir souccot temple torah tou vie yom Noël achat activites arbre cadeau cadeaux canalblog carte cartes chansons christmas conseils cuisine enfant enfants famille fete fetes fin france guide histoire idees images jean jeux jours joyeux marche membres musique noel nouvel papa paris pere photo photos presse prix recettes saint sapin selection service special temps traditions vacances vie voeux

Upload: others

Post on 12-Jan-2022

10 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Nuages sémantiques

Objet du TD : regroupement de données et culture générale

Nuages sémantiques Les « nuages sémantiques » qui figurent en ci-contre ont été obtenus par un traitement statistique appliqué aux résultats d'une recherche sur l'internet. En cherchant dans un moteur de recherche une suite de mots  (par exemple "Rouge à lèvres", "Aïd el Kébir", "Hannoucca" ou "Noël"), on obtient une liste de pages classées par ordre décroissant de pertinence. C'est l'analyse automa-tique de ces pages ou de leur résumé synthétique qui permet d'obtenir le nuage sémantique qui, en annexe, figure dans le cadre situé au dessus de la liste de mots cherchés.

Questions

Étayez vos réponses : 1. En fondant votre réflexion sur les exemples de l'annexe, indiquez en

quelques mots ce que représente un nuage sémantique par rapport à la liste de mots dont il est issu.

2. Faites des hypothèses sur l'algorithme qui permet d'obtenir un nuage sé-mantique.

3. Proposez quelques applications qui pourraient être faites de ces nuages. 4. Indiquez des mots dont vous pensez qu'ils ne devraient pas figurer dans les

nuages sémantiques de l'annexe  ; donnez une explication de leur présence. 1

À quoi tient selon vous la qualité d'un nuage sémantique en fonction des données disponibles sur le réseau internet ? Imaginez dans quelles situa-tions le résultat serait le meilleur (respectivement le pire).

Université de BourgogneAnnée universitaire 2017-2018Master 2 pro BDIA — extraction de connaissancesExercices variés

Expliquez notamment la présence de "arme", "bâton" et "feu" dans le premier nuage, 1

17/12/08 01:26Technologies du Langage: Web: Surfez sur les nuages

Page 1 sur 10http://aixtal.blogspot.com/2006/01/web-surfez-sur-les-nuages.html

JEAN VÉRONIS

AIX-EN-PROVENCE

(FRANCE)

A PROPOS DE L 'AUTEUR

TWIT IT !ECHOS

20-11 Nuages sur Reims

13-07 Sarkozy sincère ?

30-06 Stratégies a l'oeil sur le net

06-06 Echos sur le Web sémantique

12-05 Nicolas Sarkozy dans le texte (7)

09-05 Politis a aimé...

09-05 Nicolas Sarkozy dans le texte (6)

08-05 Nicolas Sarkozy dans le texte (5)

07-05 Nicolas Sarkozy dans le texte (4)

06-05 Nicolas Sarkozy dans le texte (3)

... et plus

BILLETS RÉCENTS

Blogs: Que fait Google ?

Télé: Déshabillons les communistes

Buzz: Les nuages s'améliorent

Blogs: Une fille dans le top 10 ?

Société: Mère, SDF et blogueuse

Blogs: Fuites et liens radioactifs

Blogs: Trop de liens tue le lien

Moteurs: Y a-t-il un Web apres Google ?

Pub: Ecureuil malin

Blogs: French, less sociable than you might have

thought (but Italians even less so!)

Blogs: Le Français n'est pas liant (mais l'Italienencore moins !)

Blogs: Page Rank et Wikio Rank

Buzz: Wikio chez Wikio

Socio: Testez votre Web appeal

Blogs: Classement Wikio d'octobre

Blogs: Dans les entrailles du classement Wikio(2)

Blogs : Dans les entrailles du classement Wikio(1)

Blogs: Turbulence ahead

Blogs: Avis de turbulences

Google: Please find attached...

... et plus

BILLETS LES PLUS LUS

Google, Yahoo et Wikipedia

Sarko: Moi, je

La France qui se lève tôt

Allez, va, ça ira !

Colonisation

Le barda dans les gourbis

Petites études pornométriques

Moteurs: Et le gagnant est...

La grippe aviaire a disparu

E-Pub: Google et les banlieues

Yahoo: 19 milliards de pages?

Vrai-faux caviar

In-censure américaine

La femme selon Google

Naviguez dans la Constitution Européenne

Les comptes bidons de Google

MOST READ

Google, Yahoo and Wikipedia

A short study in pornometry

Search: And the winner is...

Yahoo: 19 billion pages?

Navigate through the European Constitution

Google faking counts?

ARCHIVES

Par date

Par catégories

OUTILS

Premiers ministres

Discours 2007

Presse 2007

Le Présidographe

Le Nébuloscope

Le Chronologue

Plugin pour le TLFi

CHERCHEZ SUR CE BLOG

Chercher

LE BUZZ DU JOUR SUR WIKIO

Caroline Kennedy Charles Jourdan ChristianSarramagna Eric Besson Eric De MontgolfierJean Herrina Jean-Pierre Papin Lanta

All Mike Golding Paul Ince Reggie Theus Robert

Fowler Roger Karoutchi Sébastien BuemiSidney Govou [via Wikio Labs]

VIENT DE PARAÎTRE !CLIQUEZ POUR LIRE LES « BONNES

FEUILLES »

MES AUTRES L IVRES

DIMANCHE, JANVIER 15, 2006

Web: Surfez sur les nuages

Vous avez sans doute noté ma fascination pour les nuages de mots [1, 2 , 3, 4, 5, 6]. Je trouve qu'ils sont un moyen superbe de

visualiser la thématique et le "monde lexical" d'un texte. Je rêvais depuis un moment d'un moteur qui retournerait ses résultats

sous forme de nuage... J'ai fait divers prototypes à partir de l'API de Yahoo, qui m'ont convaincu qu'on pouvait utiliser les

résumés retournés par le moteur pour générer de tels nuages. Seul petit problème, pour des nuages intéressants, il faut pas mal

de résultats; or, Yahoo n'en retourne pas plus de 100 à la fois, ce qui implique plusieurs requêtes, et un temps de réponse trop

long pour une mise en ligne de l'outil, sans compter la consommation de bande passante...

J'en ai parlé à Philippe Develter de Dir.com, grâce à qui j'ai déjà pu réaliser le Chronologue. Philippe a implanté côté moteur

une partie du traitement, et je peux maintenant générer le nuage en une fraction de seconde. Voici par exemple un petit nuage

d'actualité (bonne Aïd!):

"Aïd el Kébir"

Intéressant à comparer avec d'autres fêtes récentes:

Noël

Hannoucca

Pour les fêtes non-chrétiennes, on précise "fête musulmane", "fête juive". Pour Noël, on parle simplement du Père Noël et des

cadeaux. Amusant non? Gageons que certains vont y voir un moyen d'affiner leurs mots-clés:

"Rouge à lèvres"

ou de satisfaire leur ego :

"Jean Véronis"

Assez ressemblant, je trouve...

Et on peut même restreindre le nuage à une période donnée, exprimée en nombre de jours (exemple: mot-cle dd>60 dd<120)

ou en nombre de mois (mot-cle mm>1 mm<2). Par exemple "segolene royal" mm<1 retourne:

abattage abraham adha afrique aid aid-el-kebir algeriecalendrier celebration conseil el-kebir famille feries fetefetes fin fitr france grande histoire islam jours kebirkippour lieu maroc mois mosquee mouton moutonsmusulman musulmane musulmanes musulmans noeloccasion paris pays photos presse quotidien ramadanreligieuse religieuses religion rituel sacrifice tabaski tunisieville

achat activites arbre cadeau cadeaux canalblog cartecartes chansons christmas conseils cuisine enfant enfantsfamille fete fetes fin france guide histoire idees images jeanjeux jours joyeux marche membres musique noel nouvelpapa paris pere photo photos presse prix recettes saintsapin selection service special temps traditions vacances vievoeux

anglais atseret bar calendrier chemini commemorationscommunaute encyclopedie enfants evenements fete fetesfrance hanoucca hanouka hashana hat histoire israeljerusalem jeune jours joyeux judaisme juif juifs juivejuives kippour livre livres lumieres mois noel paris partiepessa pourim redoutables religion rosh serie sim soir souccottemple torah tou vie yom

accessoires achat acheter arme baton beaute cheveuxcinema conseils corps cosmetique cosmetiques couleurcouleurs crayon creme dvd fard femme femmes feu filmfond france gloss jeux levres livres maquillage mascaramode ongles parfum paris paupieres photo prix produitproduits rose rouge rouges sante soin soins teint ventevernis visage yeux

aix-en-provence aixtal atala automatique blogs blogspotcentre cilsh constitution corpus cours delic directeur equipeeurope europeenne francaise france francois google ideinformatique jacques jean journal langage langue langueslettres lexique linguistique moteur moteurs mots nancy nomolivier paris pierre professeur provence referencementresultats technologies texte traitement univ-mrsuniversite veronis yahoo

candidat candidate candidature chili chirac conseil dominiquefabius famille femme francaise france francois gauchehollande jack jospin journal laurent ministre nationalenicolas nouvel observateur paris parti place poitou-

17/12/08 01:26Technologies du Langage: Web: Surfez sur les nuages

Page 1 sur 10http://aixtal.blogspot.com/2006/01/web-surfez-sur-les-nuages.html

JEAN VÉRONIS

AIX-EN-PROVENCE

(FRANCE)

A PROPOS DE L 'AUTEUR

TWIT IT !ECHOS

20-11 Nuages sur Reims

13-07 Sarkozy sincère ?

30-06 Stratégies a l'oeil sur le net

06-06 Echos sur le Web sémantique

12-05 Nicolas Sarkozy dans le texte (7)

09-05 Politis a aimé...

09-05 Nicolas Sarkozy dans le texte (6)

08-05 Nicolas Sarkozy dans le texte (5)

07-05 Nicolas Sarkozy dans le texte (4)

06-05 Nicolas Sarkozy dans le texte (3)

... et plus

BILLETS RÉCENTS

Blogs: Que fait Google ?

Télé: Déshabillons les communistes

Buzz: Les nuages s'améliorent

Blogs: Une fille dans le top 10 ?

Société: Mère, SDF et blogueuse

Blogs: Fuites et liens radioactifs

Blogs: Trop de liens tue le lien

Moteurs: Y a-t-il un Web apres Google ?

Pub: Ecureuil malin

Blogs: French, less sociable than you might have

thought (but Italians even less so!)

Blogs: Le Français n'est pas liant (mais l'Italienencore moins !)

Blogs: Page Rank et Wikio Rank

Buzz: Wikio chez Wikio

Socio: Testez votre Web appeal

Blogs: Classement Wikio d'octobre

Blogs: Dans les entrailles du classement Wikio(2)

Blogs : Dans les entrailles du classement Wikio(1)

Blogs: Turbulence ahead

Blogs: Avis de turbulences

Google: Please find attached...

... et plus

BILLETS LES PLUS LUS

Google, Yahoo et Wikipedia

Sarko: Moi, je

La France qui se lève tôt

Allez, va, ça ira !

Colonisation

Le barda dans les gourbis

Petites études pornométriques

Moteurs: Et le gagnant est...

La grippe aviaire a disparu

E-Pub: Google et les banlieues

Yahoo: 19 milliards de pages?

Vrai-faux caviar

In-censure américaine

La femme selon Google

Naviguez dans la Constitution Européenne

Les comptes bidons de Google

MOST READ

Google, Yahoo and Wikipedia

A short study in pornometry

Search: And the winner is...

Yahoo: 19 billion pages?

Navigate through the European Constitution

Google faking counts?

ARCHIVES

Par date

Par catégories

OUTILS

Premiers ministres

Discours 2007

Presse 2007

Le Présidographe

Le Nébuloscope

Le Chronologue

Plugin pour le TLFi

CHERCHEZ SUR CE BLOG

Chercher

LE BUZZ DU JOUR SUR WIKIO

Caroline Kennedy Charles Jourdan ChristianSarramagna Eric Besson Eric De MontgolfierJean Herrina Jean-Pierre Papin Lanta

All Mike Golding Paul Ince Reggie Theus Robert

Fowler Roger Karoutchi Sébastien BuemiSidney Govou [via Wikio Labs]

VIENT DE PARAÎTRE !CLIQUEZ POUR LIRE LES « BONNES

FEUILLES »

MES AUTRES L IVRES

DIMANCHE, JANVIER 15, 2006

Web: Surfez sur les nuages

Vous avez sans doute noté ma fascination pour les nuages de mots [1, 2 , 3, 4, 5, 6]. Je trouve qu'ils sont un moyen superbe de

visualiser la thématique et le "monde lexical" d'un texte. Je rêvais depuis un moment d'un moteur qui retournerait ses résultats

sous forme de nuage... J'ai fait divers prototypes à partir de l'API de Yahoo, qui m'ont convaincu qu'on pouvait utiliser les

résumés retournés par le moteur pour générer de tels nuages. Seul petit problème, pour des nuages intéressants, il faut pas mal

de résultats; or, Yahoo n'en retourne pas plus de 100 à la fois, ce qui implique plusieurs requêtes, et un temps de réponse trop

long pour une mise en ligne de l'outil, sans compter la consommation de bande passante...

J'en ai parlé à Philippe Develter de Dir.com, grâce à qui j'ai déjà pu réaliser le Chronologue. Philippe a implanté côté moteur

une partie du traitement, et je peux maintenant générer le nuage en une fraction de seconde. Voici par exemple un petit nuage

d'actualité (bonne Aïd!):

"Aïd el Kébir"

Intéressant à comparer avec d'autres fêtes récentes:

Noël

Hannoucca

Pour les fêtes non-chrétiennes, on précise "fête musulmane", "fête juive". Pour Noël, on parle simplement du Père Noël et des

cadeaux. Amusant non? Gageons que certains vont y voir un moyen d'affiner leurs mots-clés:

"Rouge à lèvres"

ou de satisfaire leur ego :

"Jean Véronis"

Assez ressemblant, je trouve...

Et on peut même restreindre le nuage à une période donnée, exprimée en nombre de jours (exemple: mot-cle dd>60 dd<120)

ou en nombre de mois (mot-cle mm>1 mm<2). Par exemple "segolene royal" mm<1 retourne:

abattage abraham adha afrique aid aid-el-kebir algeriecalendrier celebration conseil el-kebir famille feries fetefetes fin fitr france grande histoire islam jours kebirkippour lieu maroc mois mosquee mouton moutonsmusulman musulmane musulmanes musulmans noeloccasion paris pays photos presse quotidien ramadanreligieuse religieuses religion rituel sacrifice tabaski tunisieville

achat activites arbre cadeau cadeaux canalblog cartecartes chansons christmas conseils cuisine enfant enfantsfamille fete fetes fin france guide histoire idees images jeanjeux jours joyeux marche membres musique noel nouvelpapa paris pere photo photos presse prix recettes saintsapin selection service special temps traditions vacances vievoeux

anglais atseret bar calendrier chemini commemorationscommunaute encyclopedie enfants evenements fete fetesfrance hanoucca hanouka hashana hat histoire israeljerusalem jeune jours joyeux judaisme juif juifs juivejuives kippour livre livres lumieres mois noel paris partiepessa pourim redoutables religion rosh serie sim soir souccottemple torah tou vie yom

accessoires achat acheter arme baton beaute cheveuxcinema conseils corps cosmetique cosmetiques couleurcouleurs crayon creme dvd fard femme femmes feu filmfond france gloss jeux levres livres maquillage mascaramode ongles parfum paris paupieres photo prix produitproduits rose rouge rouges sante soin soins teint ventevernis visage yeux

aix-en-provence aixtal atala automatique blogs blogspotcentre cilsh constitution corpus cours delic directeur equipeeurope europeenne francaise france francois google ideinformatique jacques jean journal langage langue langueslettres lexique linguistique moteur moteurs mots nancy nomolivier paris pierre professeur provence referencementresultats technologies texte traitement univ-mrsuniversite veronis yahoo

candidat candidate candidature chili chirac conseil dominiquefabius famille femme francaise france francois gauchehollande jack jospin journal laurent ministre nationalenicolas nouvel observateur paris parti place poitou-

17/12/08 01:26Technologies du Langage: Web: Surfez sur les nuages

Page 1 sur 10http://aixtal.blogspot.com/2006/01/web-surfez-sur-les-nuages.html

JEAN VÉRONIS

AIX-EN-PROVENCE

(FRANCE)

A PROPOS DE L 'AUTEUR

TWIT IT !ECHOS

20-11 Nuages sur Reims

13-07 Sarkozy sincère ?

30-06 Stratégies a l'oeil sur le net

06-06 Echos sur le Web sémantique

12-05 Nicolas Sarkozy dans le texte (7)

09-05 Politis a aimé...

09-05 Nicolas Sarkozy dans le texte (6)

08-05 Nicolas Sarkozy dans le texte (5)

07-05 Nicolas Sarkozy dans le texte (4)

06-05 Nicolas Sarkozy dans le texte (3)

... et plus

BILLETS RÉCENTS

Blogs: Que fait Google ?

Télé: Déshabillons les communistes

Buzz: Les nuages s'améliorent

Blogs: Une fille dans le top 10 ?

Société: Mère, SDF et blogueuse

Blogs: Fuites et liens radioactifs

Blogs: Trop de liens tue le lien

Moteurs: Y a-t-il un Web apres Google ?

Pub: Ecureuil malin

Blogs: French, less sociable than you might have

thought (but Italians even less so!)

Blogs: Le Français n'est pas liant (mais l'Italienencore moins !)

Blogs: Page Rank et Wikio Rank

Buzz: Wikio chez Wikio

Socio: Testez votre Web appeal

Blogs: Classement Wikio d'octobre

Blogs: Dans les entrailles du classement Wikio(2)

Blogs : Dans les entrailles du classement Wikio(1)

Blogs: Turbulence ahead

Blogs: Avis de turbulences

Google: Please find attached...

... et plus

BILLETS LES PLUS LUS

Google, Yahoo et Wikipedia

Sarko: Moi, je

La France qui se lève tôt

Allez, va, ça ira !

Colonisation

Le barda dans les gourbis

Petites études pornométriques

Moteurs: Et le gagnant est...

La grippe aviaire a disparu

E-Pub: Google et les banlieues

Yahoo: 19 milliards de pages?

Vrai-faux caviar

In-censure américaine

La femme selon Google

Naviguez dans la Constitution Européenne

Les comptes bidons de Google

MOST READ

Google, Yahoo and Wikipedia

A short study in pornometry

Search: And the winner is...

Yahoo: 19 billion pages?

Navigate through the European Constitution

Google faking counts?

ARCHIVES

Par date

Par catégories

OUTILS

Premiers ministres

Discours 2007

Presse 2007

Le Présidographe

Le Nébuloscope

Le Chronologue

Plugin pour le TLFi

CHERCHEZ SUR CE BLOG

Chercher

LE BUZZ DU JOUR SUR WIKIO

Caroline Kennedy Charles Jourdan ChristianSarramagna Eric Besson Eric De MontgolfierJean Herrina Jean-Pierre Papin Lanta

All Mike Golding Paul Ince Reggie Theus Robert

Fowler Roger Karoutchi Sébastien BuemiSidney Govou [via Wikio Labs]

VIENT DE PARAÎTRE !CLIQUEZ POUR LIRE LES « BONNES

FEUILLES »

MES AUTRES L IVRES

DIMANCHE, JANVIER 15, 2006

Web: Surfez sur les nuages

Vous avez sans doute noté ma fascination pour les nuages de mots [1, 2 , 3, 4, 5, 6]. Je trouve qu'ils sont un moyen superbe de

visualiser la thématique et le "monde lexical" d'un texte. Je rêvais depuis un moment d'un moteur qui retournerait ses résultats

sous forme de nuage... J'ai fait divers prototypes à partir de l'API de Yahoo, qui m'ont convaincu qu'on pouvait utiliser les

résumés retournés par le moteur pour générer de tels nuages. Seul petit problème, pour des nuages intéressants, il faut pas mal

de résultats; or, Yahoo n'en retourne pas plus de 100 à la fois, ce qui implique plusieurs requêtes, et un temps de réponse trop

long pour une mise en ligne de l'outil, sans compter la consommation de bande passante...

J'en ai parlé à Philippe Develter de Dir.com, grâce à qui j'ai déjà pu réaliser le Chronologue. Philippe a implanté côté moteur

une partie du traitement, et je peux maintenant générer le nuage en une fraction de seconde. Voici par exemple un petit nuage

d'actualité (bonne Aïd!):

"Aïd el Kébir"

Intéressant à comparer avec d'autres fêtes récentes:

Noël

Hannoucca

Pour les fêtes non-chrétiennes, on précise "fête musulmane", "fête juive". Pour Noël, on parle simplement du Père Noël et des

cadeaux. Amusant non? Gageons que certains vont y voir un moyen d'affiner leurs mots-clés:

"Rouge à lèvres"

ou de satisfaire leur ego :

"Jean Véronis"

Assez ressemblant, je trouve...

Et on peut même restreindre le nuage à une période donnée, exprimée en nombre de jours (exemple: mot-cle dd>60 dd<120)

ou en nombre de mois (mot-cle mm>1 mm<2). Par exemple "segolene royal" mm<1 retourne:

abattage abraham adha afrique aid aid-el-kebir algeriecalendrier celebration conseil el-kebir famille feries fetefetes fin fitr france grande histoire islam jours kebirkippour lieu maroc mois mosquee mouton moutonsmusulman musulmane musulmanes musulmans noeloccasion paris pays photos presse quotidien ramadanreligieuse religieuses religion rituel sacrifice tabaski tunisieville

achat activites arbre cadeau cadeaux canalblog cartecartes chansons christmas conseils cuisine enfant enfantsfamille fete fetes fin france guide histoire idees images jeanjeux jours joyeux marche membres musique noel nouvelpapa paris pere photo photos presse prix recettes saintsapin selection service special temps traditions vacances vievoeux

anglais atseret bar calendrier chemini commemorationscommunaute encyclopedie enfants evenements fete fetesfrance hanoucca hanouka hashana hat histoire israeljerusalem jeune jours joyeux judaisme juif juifs juivejuives kippour livre livres lumieres mois noel paris partiepessa pourim redoutables religion rosh serie sim soir souccottemple torah tou vie yom

accessoires achat acheter arme baton beaute cheveuxcinema conseils corps cosmetique cosmetiques couleurcouleurs crayon creme dvd fard femme femmes feu filmfond france gloss jeux levres livres maquillage mascaramode ongles parfum paris paupieres photo prix produitproduits rose rouge rouges sante soin soins teint ventevernis visage yeux

aix-en-provence aixtal atala automatique blogs blogspotcentre cilsh constitution corpus cours delic directeur equipeeurope europeenne francaise france francois google ideinformatique jacques jean journal langage langue langueslettres lexique linguistique moteur moteurs mots nancy nomolivier paris pierre professeur provence referencementresultats technologies texte traitement univ-mrsuniversite veronis yahoo

candidat candidate candidature chili chirac conseil dominiquefabius famille femme francaise france francois gauchehollande jack jospin journal laurent ministre nationalenicolas nouvel observateur paris parti place poitou-

17/12/08 01:26Technologies du Langage: Web: Surfez sur les nuages

Page 1 sur 10http://aixtal.blogspot.com/2006/01/web-surfez-sur-les-nuages.html

JEAN VÉRONIS

AIX-EN-PROVENCE

(FRANCE)

A PROPOS DE L 'AUTEUR

TWIT IT !ECHOS

20-11 Nuages sur Reims

13-07 Sarkozy sincère ?

30-06 Stratégies a l'oeil sur le net

06-06 Echos sur le Web sémantique

12-05 Nicolas Sarkozy dans le texte (7)

09-05 Politis a aimé...

09-05 Nicolas Sarkozy dans le texte (6)

08-05 Nicolas Sarkozy dans le texte (5)

07-05 Nicolas Sarkozy dans le texte (4)

06-05 Nicolas Sarkozy dans le texte (3)

... et plus

BILLETS RÉCENTS

Blogs: Que fait Google ?

Télé: Déshabillons les communistes

Buzz: Les nuages s'améliorent

Blogs: Une fille dans le top 10 ?

Société: Mère, SDF et blogueuse

Blogs: Fuites et liens radioactifs

Blogs: Trop de liens tue le lien

Moteurs: Y a-t-il un Web apres Google ?

Pub: Ecureuil malin

Blogs: French, less sociable than you might have

thought (but Italians even less so!)

Blogs: Le Français n'est pas liant (mais l'Italienencore moins !)

Blogs: Page Rank et Wikio Rank

Buzz: Wikio chez Wikio

Socio: Testez votre Web appeal

Blogs: Classement Wikio d'octobre

Blogs: Dans les entrailles du classement Wikio(2)

Blogs : Dans les entrailles du classement Wikio(1)

Blogs: Turbulence ahead

Blogs: Avis de turbulences

Google: Please find attached...

... et plus

BILLETS LES PLUS LUS

Google, Yahoo et Wikipedia

Sarko: Moi, je

La France qui se lève tôt

Allez, va, ça ira !

Colonisation

Le barda dans les gourbis

Petites études pornométriques

Moteurs: Et le gagnant est...

La grippe aviaire a disparu

E-Pub: Google et les banlieues

Yahoo: 19 milliards de pages?

Vrai-faux caviar

In-censure américaine

La femme selon Google

Naviguez dans la Constitution Européenne

Les comptes bidons de Google

MOST READ

Google, Yahoo and Wikipedia

A short study in pornometry

Search: And the winner is...

Yahoo: 19 billion pages?

Navigate through the European Constitution

Google faking counts?

ARCHIVES

Par date

Par catégories

OUTILS

Premiers ministres

Discours 2007

Presse 2007

Le Présidographe

Le Nébuloscope

Le Chronologue

Plugin pour le TLFi

CHERCHEZ SUR CE BLOG

Chercher

LE BUZZ DU JOUR SUR WIKIO

Caroline Kennedy Charles Jourdan ChristianSarramagna Eric Besson Eric De MontgolfierJean Herrina Jean-Pierre Papin Lanta

All Mike Golding Paul Ince Reggie Theus Robert

Fowler Roger Karoutchi Sébastien BuemiSidney Govou [via Wikio Labs]

VIENT DE PARAÎTRE !CLIQUEZ POUR LIRE LES « BONNES

FEUILLES »

MES AUTRES L IVRES

DIMANCHE, JANVIER 15, 2006

Web: Surfez sur les nuages

Vous avez sans doute noté ma fascination pour les nuages de mots [1, 2 , 3, 4, 5, 6]. Je trouve qu'ils sont un moyen superbe de

visualiser la thématique et le "monde lexical" d'un texte. Je rêvais depuis un moment d'un moteur qui retournerait ses résultats

sous forme de nuage... J'ai fait divers prototypes à partir de l'API de Yahoo, qui m'ont convaincu qu'on pouvait utiliser les

résumés retournés par le moteur pour générer de tels nuages. Seul petit problème, pour des nuages intéressants, il faut pas mal

de résultats; or, Yahoo n'en retourne pas plus de 100 à la fois, ce qui implique plusieurs requêtes, et un temps de réponse trop

long pour une mise en ligne de l'outil, sans compter la consommation de bande passante...

J'en ai parlé à Philippe Develter de Dir.com, grâce à qui j'ai déjà pu réaliser le Chronologue. Philippe a implanté côté moteur

une partie du traitement, et je peux maintenant générer le nuage en une fraction de seconde. Voici par exemple un petit nuage

d'actualité (bonne Aïd!):

"Aïd el Kébir"

Intéressant à comparer avec d'autres fêtes récentes:

Noël

Hannoucca

Pour les fêtes non-chrétiennes, on précise "fête musulmane", "fête juive". Pour Noël, on parle simplement du Père Noël et des

cadeaux. Amusant non? Gageons que certains vont y voir un moyen d'affiner leurs mots-clés:

"Rouge à lèvres"

ou de satisfaire leur ego :

"Jean Véronis"

Assez ressemblant, je trouve...

Et on peut même restreindre le nuage à une période donnée, exprimée en nombre de jours (exemple: mot-cle dd>60 dd<120)

ou en nombre de mois (mot-cle mm>1 mm<2). Par exemple "segolene royal" mm<1 retourne:

abattage abraham adha afrique aid aid-el-kebir algeriecalendrier celebration conseil el-kebir famille feries fetefetes fin fitr france grande histoire islam jours kebirkippour lieu maroc mois mosquee mouton moutonsmusulman musulmane musulmanes musulmans noeloccasion paris pays photos presse quotidien ramadanreligieuse religieuses religion rituel sacrifice tabaski tunisieville

achat activites arbre cadeau cadeaux canalblog cartecartes chansons christmas conseils cuisine enfant enfantsfamille fete fetes fin france guide histoire idees images jeanjeux jours joyeux marche membres musique noel nouvelpapa paris pere photo photos presse prix recettes saintsapin selection service special temps traditions vacances vievoeux

anglais atseret bar calendrier chemini commemorationscommunaute encyclopedie enfants evenements fete fetesfrance hanoucca hanouka hashana hat histoire israeljerusalem jeune jours joyeux judaisme juif juifs juivejuives kippour livre livres lumieres mois noel paris partiepessa pourim redoutables religion rosh serie sim soir souccottemple torah tou vie yom

accessoires achat acheter arme baton beaute cheveuxcinema conseils corps cosmetique cosmetiques couleurcouleurs crayon creme dvd fard femme femmes feu filmfond france gloss jeux levres livres maquillage mascaramode ongles parfum paris paupieres photo prix produitproduits rose rouge rouges sante soin soins teint ventevernis visage yeux

aix-en-provence aixtal atala automatique blogs blogspotcentre cilsh constitution corpus cours delic directeur equipeeurope europeenne francaise france francois google ideinformatique jacques jean journal langage langue langueslettres lexique linguistique moteur moteurs mots nancy nomolivier paris pierre professeur provence referencementresultats technologies texte traitement univ-mrsuniversite veronis yahoo

candidat candidate candidature chili chirac conseil dominiquefabius famille femme francaise france francois gauchehollande jack jospin journal laurent ministre nationalenicolas nouvel observateur paris parti place poitou-

Page 2: Nuages sémantiques

Algorithme de clustering La page ci-contre montre sur deux exemples le fonctionnement d'un algorithme de clustering dérivé de celui des K-Moyennes et dédié à la séparation d'une population d'exemples en deux groupes. Son principe est le suivant : 1. Choix aléatoire de deux graines. 2. Regroupement autour de chaque graine de tous les exemples qui sont plus

proches d'elle que de l'autre graine. 3. Tant que les groupes ne sont pas équilibrés (même cardinal à une unité

près), on effectue le changement de groupe des éléments du groupe le plus "gros" qui sont les plus proches de la graine du groupe le plus "petit". Ces nouveaux éléments viennent "grossir" le plus petit groupe.

4. Calcul du barycentre théorique de chaque groupe et sélection comme nou-velle graine de l'exemple du groupe concerné qui en est le plus proche.

5. Retour au 2 tant que les deux groupes évoluent à une oscillation près. En cas d'oscillation, le processus est arrêté à la fin du 3, quand les deux groupes sont équilibrés.

À noter que les étapes 1, 2 et 4 figurent à l'identique dans l'algorithme des K-Moyennes.

Questions

Justifiez vos réponses : 1. Donnez les principales différences en termes de résultats entre le présent

algorithme et l'algorithme des K-Moyennes limité à deux groupes. 2. Que pensez-vous de la qualité d'un tel algorithme ? Proposez des amélio-

rations éventuelles. 3. Cet algorithme peut-il être utilisé dans le cadre d'un algorithme d'appren-

tissage ? 4. Proposez des modifications pour que l'algorithme puisse être étendu au

traitement d'un nombre de groupes quelconque.

1.

2. cardinal : 12

cardinal : 7

graines.

3.

cardinal : 9

cardinal : 10

4.

±barycentre±barycentre

2.

cardinal : 10cardinal : 9

FIN : barycentres stables et groupes équilibrés.

1.

2.

3.

4.

2.

graines.

cardinal : 17 cardinal : 2

cardinal : 10cardinal : 9

déplacement de 7 éléments

±barycentre±barycentre

cardinal : 10cardinal : 9

déplacement de 2 éléments