romaric charton directeurs de thèse : anne boyer et jean-paul haton

Des agents intelligents dans un environnement de communication multimédia

: vers la conception de services adaptatifs

Romaric CHARTON

Directeurs de thèse : Anne BOYER et Jean-Paul HATON

Directeur entreprise : Michel LEDERMAN

Mardi 2 décembre 2003

2/51

Les services de communication multimédia

Service :"Ce que l'on fait pour être utile, à titre onéreux ou non" (Larousse 1998).

Mon étude : services réalisés sur des supports et réseaux informatiques

• qui utilisent des médias de communication divers :– le téléphone,

– la messagerie électronique,

– le web, etc.

• pour permettre de :– passer une commande en ligne,

– rechercher une information,

– gérer un portefeuille de titres boursiers, etc.

3/51

Positionnement des travaux

Fournir des services adaptatifs

Théorie des probabilités (Modélisation stochastique)

Communication multimédia

• applications concrètes

• environnements incertains

Nature des services

Interactions dans les h-SMA

Approche Agent

Systèmes Multi-Agents hétérogènes

(h-SMA)

Acteurs

Apprentissage

• déroulement

• préférences de l'utilisateur

Adaptation

Théorie de l'utilité

Indices

• satisfaction

• coûts

Évaluation

4/51

Plan de l'exposé

Contexte et problématique1

2

3

4

5

Approche théorique

Les services de recherche d'informations

Mise en œuvre des propositions

Conclusion et perspectives

5/51

Partie 1 - Contexte et problématique


2

3

4

5

Approche théorique




6/51

Collaboration avec la société DIALOCA

• Création : octobre 1996 à Paris

• Domaine : Gestion de la relation client et langage naturel

• Clients : Danone, Ministère de l'Intérieur, PSA, CNP, TopTrades, etc.

• Large palette d'applications Multimédia, interactives et grand public– accès au web par téléphone,– support de bornes interactives et de centres d'appels,– gestion de télé-réunions ...

• Plate-forme UniMédia

1

7/51

Applications

Déroulement d'un service sur la plate-forme UniMédia

PMMUAdministration

1

Pilotes

SGBDWeb Téléphone FaxE-Mail ...

Moteurs

Synthèse de paroleReconnaissance de parole

Authentification...

E-Nots : notification téléphonique

démarrage

ExpéditeurDestinataire

(abonné)

8/51

Objectifs de la collaboration

Applicationsexistantes

(scripts statiques)

Objectifs (utiliser des méthodes IA)

• Faciliter la conception et le déroulement des applications

• Adapter leur exécution au comportement de l'utilisateur et à ses préférences

Plate-forme UniMédia

+ contrainte : garder l'existant

Scripts (automates finis déterministes)

• Complexité (cas particuliers / erreurs)

• Modèle implicite et figé de l'utilisateur

• Besoin de connaissances expertes

Services adaptatifs

1

Comportement d'un agent

9/51

Environnement

Agent

Pourquoi une approche agent ?

Besoin de propriétés :

• autonomie

• prise de décisions

• communiquer

• gérer des connaissances

• gérer des ressources

1

Perceptions

Capteurs

Actions

Effecteurs

ComportementSatisfaction

Agent à rationalité limitée (Russell et Norvig 1995)

• comportement utile

10/51

Réussite de la tâche accomplie du point de vue du concepteur

Un choix classique :

Coûts d'utilisation des ressources (propres / détenues par des tiers)

U = R - C

Réussite de la tâche accomplie du point de vue des utilisateurs

Notre choix plus "orienté" vers les services adaptatifs

Utilité et évaluation des services

Problème : Comment mesurer la satisfaction de l'utilisateur ?

Nombreux indices possibles difficile à définir

1

Approximation : une valeur numérique associée actions de l'utilisateur

Idée que l'agent estime son utilité à partir de ses perceptions des autres ...

11/51

Systèmes Multi-Agents (Ferber 1995)

Un Système Multi-Agent (SMA)

Interaction

objets

Environnement

Interaction

Coopération

Collaboration coordonnée

buts compatibles

capacités individuelles insuffisantes

1

Réaliser un service de façon collective

12/51

?

Langage L A

Agent A

A quelle heure mon avion part-t-il ?

Et si A est un humain ?

Communication et hétérogénéité

Contrainte : Sachant que A et B ne sont pas "modifiables"

Comment faire interagir A et B ?

Difficultés de l'interaction Homme-SMA (Grislin-LeSturgeon et Peninou 1998)

• comment déterminer ce que A veut ?

• comment prévoir son comportement ?

• que préfère-t-il ? ...

1

Agent B

,?

Langage L B

13/51

Problématique générale

1

Difficultés à prendre en compte• Interaction avec des agents humains

• Applications réelles environnements incertains

• Réponse à des besoins industriels

Applicative

Comment faciliter la conception et le contrôle de services adaptatifs ?

Scientifique

Comment coordonner un ensemble d'agents hétérogènes pour réaliser

coopérativement une tâche ?

14/51

Partie 2 - Approche Théorique


2

3

4

5

Approche théorique




15/51

Environnement physique A P

Environnement logiciel A L

Les Systèmes Multi-Agents hétérogènes (h-SMA)

NN N

Agents non-contrôlés A NC

Utilisateurs, clients, ...

Agents contrôlés A C

Comparables à UniMédiaC

C

CC

P

Agents partiellement contrôlés A PC

Experts, sites partenaires, ...P

P

P

Liens d'interaction

Ensemble A d'agents de nature très différente : humains, logiciels, etc.

• Partition selon la nature des agents et de leur environnement

• Partition selon l'influence et le degré de connaissance que l'on a sur les agents

2

16/51

Une solution au problème de l'hétérogénéité

Agent A

Besoins

Agent B

Capacités

Agent C

Coordinateur

Langage L ALangage L B

Introduire un agent coordinateur pour amener A et B à coopérer en modifiant leurs interactions.

2

Coordination : colle qui lie des activités (Gelernter et Carriero 1992)

17/51

Comment obtenir le comportement du coordinateur ?

Statique Dynamique

Monde de l'agent

Apprentissage

Expériences ou traces

Planification

Modèle connu explicitement

Automates : programmes, scripts,

règles, etc.

Connaissances implicites du concepteur

2

18/51

Debut :

SEQ{

send, NULL, "debut.mod",

SEQ {PARAMS},

SEQ {BRANCH}

};

Etape_Demande :

SEQ {

getstrings, NULL, "demande.mod",

SEQ {PARAMS},

SEQ{ BRANCH , SEQ { ReturnCode,

SEQ{"Media_IF_TypeUnknown", Etape_Demande },

SEQ{"Media_UserInactivity", Etape_Demande }}

}

}; ...

Langage de scénarisation UniMédia

D'un coordinateur à base de scripts ...

2

Attente

Attente

RéponseConnue

Transmettre question

Automate de comportement

Demande à traiter

Recevoir demande

...

Échec

AnalyseFAQ

Envoyer réponse Recevoir

réponse

Abstraction

19/51

Attente

G 3 : Comportement d'un expert

Traiter la demande

Recevoir demande

...

Envoyer réponse

Réponse trouvée

Expert (A PPC)

... à des schémas d'interaction

2

Attente

...

Besoin

Poser question

G 1 : Comportement de l'utilisateur

Recevoir réponse

Utilisateur (A PC)

Attente

Attente

RéponseConnue

Transmettre question

G 2 : Comportement du coordinateur

Demande à traiter

Recevoir demande

...

ÉchecAnalyseFAQ

Envoyer réponse

Recevoir réponse

Coordinateur (A LC)

Liens d'interaction

20/51

Comment structurer les relations ?

Organisation : agencement de relations entre composants ou individus qui produit une unité, ou système, dotée de qualités inconnues au niveau des composants ou individus. (Ferber 1995)

Structure organisationnelle

subordination

Rôles?

?

?

Organisation concrète

instanciation

Endosser un rôle :

• satisfaire des contraintes sur ses capacités

• adopter un comportement typique

2

21/51

Structures organisationnelles et classes de service

S

Recherche d'informations et

assistance à la navigation

S S

U

C

U

C

U

Coordination simple

U

C

UU

S S S

Télé-réunionT

U

C

S

U

Traitement intelligent de l'information

Diagnostic, filtrage ...

Rôles génériques

U

C

S

T

Utilisateur

Coordinateur

Source

Traitement

2

22/51

Partie 3 - Les services de recherche d'informations


2

3

4

5

Approche théorique




23/51

Assistance à la recherche d'information

Contraintes :

• Utilisateurs : occasionnel, novice

• Sources d'informations : non propriété, coût

Objectif :

Améliorer la qualité du service fourni par rapport à la recherche classique

3

CoordinateurUtilisateur Source

Source

Source

24/51

Fournit trop de résultats, bruits ...

Ne sait pas formuler sa requête

Exemple de problème : le choix d'un vol

Client

Interaction

Souhait : réserver un vol

de Paris à Moscou

Requête

Résultats

Coordinateur

3

Source d'informations

25/51

Rôle de l'agent coordinateur

Ses buts :

• Construire une requête correspondant le plus au besoin de l'utilisateur

• Fournir des résultats appropriés à l'utilisateur

• Maximiser son utilité :– Maximiser la satisfaction de l'utilisateur

– Minimiser les coûts liés à la source d'information

A tout moment, il peut

• Poser une question à l'utilisateur au sujet de la requête

• Envoyer la requête à la source d'information

• Proposer des résultats à l'utilisateur en nombre limité

En retour, il perçoit les réponses des autres agents :

valeurs, résultats, sélections, rejets …

3

26/51

Problème : Comment obtenir le comportement de coordination adéquat ?

Solution proposée : Trouver une stratégie de coordination optimale

Coordination et stratégies de coordination

Stratégie de coordination : Façon de choisir les actions pour coordonner la suite des interactions.

Coordination : Contrôle d'une séquence d'interactions (questions-réponses)

Réussie : • Sélection d'un résultat

• Absence de résultat constatée au niveau de la source

3

27/51

Caractéristiques du coordinateur

Gérer l'incertitude et les connaissances incomplètes

• Utilisateurs : – Mauvaise compréhension des questions

– Connaissance partielle de leurs besoins

• Environnement : – Bruits pendant la communication

– Capteurs imparfaits

Proposition :

• Modéliser la coordination avec un Processus de Décision Markovien

• Calculer un comportement stochastique de coordination

3

28/51

• Modèle Stochastique <S,A,T,R>

Processus de Décision Markovien (MDP)

• Décider selon une politique : S A [0;1]

s2

s0 s1

– États S={s0,s1,s2}

a0

a1

a1

a0

a0

a1– Actions A={a0,a1}

0.3

0.7

0.2

0.8

0.4

0.6

0.9

0.1

0.5 0.5

0.5

0.5

– Transition T : S A S [0;1] avec T(s,a,s') = P (s'|s,a)

– Récompense R : S A S IR

Calculer une stratégie de coordination

revient à Calculer une politique stochastique

3

• Optimiser la récompense espérée

0i irR

: Attenuation

29/51

Environnement du coordinateur

Suite d'interactions(MDP à contrôler)

Un MDP pour contrôler les interactions

Définir

• S : L'espace d'états

• A : Les actions du coordinateur

• T : Les transitions

• R : Les récompenses

3

S, R

T

A

Coordinateur

Utilisateur Source

30/51

Etats : Comment décrire les requêtes et les objets ?

Approche de remplissage de formulaire (Goddeau et al. 1996) :

Référentiel construit sur un ensemble d'attributs

Ref = { At 1, … , At m }

Exemple de référentiel :• Départ :{ Londres, Genève, Paris, Berlin, … }

• Arrivée:{ Pékin, Moscou, New-York, … }

• Classe : {Première, Affaire, Économique, ... }

3

31/51

Espace d'états

Coordinateur

Utilisateur Source

• L'ensemble des objets connus qui correspondent à la requête courante

R = { vol 1; ... ; vol r}

R

3

• La requête partielle courante de l'utilisateur

U = { ( ea 1 , val 1 ) ; ... ; ( ea m , val m ) }

État d'un attribut :

• Ouvert ea = ‘?’ val est inconnue

• Affecté ea = ‘A’ val est affectée

• Fermé ea = ‘F’ val est inconnue et ne peut plus être demandée

U

Espace d'états = U R

• U est l'ensemble des requêtes partielles utilisateur

• R est l'ensemble des parties des objets de la source d'informations

= U

R

32/51

Abstraction des états ( S)

Taille de l'espace d'états : (2 n +1) (2+i) m

– n : nombre total d'objets de la source d'information

– m : nombre d'attributs

– i : nombre moyen de valeurs par attribut

Taille de l'espace d'états abstrait S : 4 3m

Nombre de réponses

0 nrmax

qr = 0 qr = + qr = * qr = ?

Inconnu

(vide)

Une idée : une abstraction S de l'espace d'états pour définir le MDP

en conservant : s U {?, A, F} m l'état d'affectation des m attributs dans U

s R {?, 0, +, *} la quantité de réponses sur R

3

33/51

Actions du coordinateur

Coordinateur

Utilisateur Source

Requête

• Interroger la source d'informations

• Demander à l'utilisateur de sélectionner un résultat

ou résultats

• Poser une question sur un attribut à l'utilisateurExemple pour la classe de voyage :

• Valuation : “En quelle classe souhaitez-vous voyager ?”

• Proposition : “Voulez-vous voyager en classe [affaire] ?”

• Confirmation : “Êtes-vous sûr de vouloir voyager en classe [économique] ?”

Question

3

34/51

Récompenses

Elles sont obtenues :Coordinateur

Utilisateur Source

Sélection, déconnexion

• par l'interaction avec l'utilisateur+ R selection l'utilisateur sélectionne une proposition

- R timeout l'interaction est trop longue (déconnexion / seuil)

Réponses

• par l'interaction avec la source d'informations+ R noresp pas de réponses pour une requête totalement spécifiée

- R overnum trop de réponses (quantité de réponses s R = *)

3

35/51

Exemple de coordination pour la réservation de vol

État Abstraction s Action du coordinateur Réponses Récompense

<?, ?, ? | ?> <?, ?, ? | ?> Demander ville départ Paris 0

<Paris, ?, ? | ?> <A, ?, ? | ?> Envoyer la requête 1700 vols - R Overnum

<Paris, ?, ? | {nr Max premiers vols} > <A, ?, ? | *> Demander destination Moscou 0

<Paris, Moscou, ? | ?> <A, A, ? | ?> Demander classe de vol Ne sait pas 0

<Paris, Moscou, F | ?> <A, A, F | ?> Envoyer la requête 4 vols 0

<Paris, Moscou, F | {4 vols}> <A, A, F | +> Demander une sélection Sélection 2 + R Sélection

CoordinateurUtilisateur SourceLégende :

3

36/51

Calculer la stratégie de coordination

Problème : Deux parties du modèle restent inconnues !• T = f (utilisateur, source d'information)• R = f (utilisateur, source d'information)

Apprendre la stratégie de coordination par renforcement

3

37/51

Apprentissage par Renforcement (Sutton et Barto 1998)

Observation

Action

Transition

3

Renforcement (récompenses)

Système Dynamique

Besoin d'une méthode d'apprentissage en ligne

Algorithme du Q-Learning (Watkins 1989)

qui fonctionne par la mise à jour de Q-Valeurs (Q : S A IR)

sQ(s,a)

as'V(s) V(s')

38/51

Architecture du coordinateur

Module de Décision (Q-Learning)

Gestionnaire d'Interactions

Module de Représentation

(état réel)

Agent Utilisateur

Agent Source d'Information

Questions et résultats

Actions sélectionnées

Requêtes

Récompenses

Réponses et sélections

Mise à jour

Résultats

Etat Abstrait

Agent Coordinateur

3

Gestionnaire des profils utilisateurs

Préférences

39/51

Gestion des préférences des utilisateurs

Ensemble de profils Prof = { prof 0 , prof 1 , ... , profn }

avec un profil par défaut prof 0 pour les nouveaux utilisateurs.

Première Affaire Economique

0,05 0,2 0,75p(classe)

3

Un profil prof i

• mémorise, pour chaque attribut At i , la probabilité p ( v k | prof i , At j ) que cet utilisateur préfère la valeur v k

• est initialisé avec des distributions uniformes• est mis à jour à la sélection d'une proposition

40/51

Partie 4 -Mise en œuvre


2

3

4

5

Approche théorique




41/51

UniMédia Modélisation

Modélisation d'UniMédia

Objectif : Se doter d'un modèle conceptuel pour fournir les services dans les h-SMA

Proposition : Une modélisation agent à 4 niveaux

Utilisation : • sur les services Dialoca

• pour des applications de l'équipe MAIA (Diatélic, Cycab, ...)

4

Service(rôles et classes de service)

U C S T

ApplicationsAgent

(nature / contrôlabilité)

Moteurs et pilotes Ressource(capteurs / effecteurs)

Média Média (canaux média et "prises")

42/51

Implantation de la maquette SmallMu

Réalisation :

• Une bibliothèque fournissant un corps d'agent capable d'accueillir

– un cerveau pour le comportement,

– des membres pour percevoir et agir.

• Un ensemble de membres dédiés à l'environnement multimédia :– Reconnaissance et synthèse de parole,

– E-Mail,

– SMS (émulé)

Objectifs : Pouvoir travailler sur un agent logiciel contrôlé reproduisant ou émulant les fonctionnalités nécessaires

Utilisation : Prototype de coordinateur pour la réservation de vol

4

43/51

Expérimentations sur l'application de réservation de vol

Entraînement du coordinateur avec

• 3 attributs (villes de départ/arrivée et classe)

• 4 attributs (+ période de la journée de départ)

• 5 attributs (+ la compagnie aérienne)

Nb. d'attributs

(m)

Nb. états abstraits (4.3 m)

Nb. d'actions

(3.m+2)

Nb. de Q-Valeurs

((12.m+8).3 m)

3 108 11 1 188

4 324 14 4 536

5 972 17 16 524

Croissance de la complexité en fonction du nombre des attributs :

4

44/51

Résultats d'apprentissagetaux de coordinations réussies

• 3 et 4 attributs 99% de coordinations réussies (proche de l'optimum)

• 5 attributs 90% de réussite (plus de temps nécessaire pour converger)

0

10

20

30

40

50

60

70

80

90

100

0 20000 40000 60000 80000 100000 120000 140000 160000 180000 200000

Nombre d'itérations

% d

e s

es

sio

ns

ré

us

sie

s (

sé

lec

tio

n /

ab

se

nc

e d

e r

ép

on

se

)

3 attributs

4 attributs

5 attributs

4

45/51

Résultats d'apprentissagelongueur moyenne de coordination

• 3 et 4 attributs longueur minimale de la coordination atteinte

• 5 attributs coordination plus longue

0

5

10

15

20

25

30

35

40

45

50

0 20000 40000 60000 80000 100000 120000 140000 160000 180000 200000

Nombre d'itérations

No

mb

re m

oye

n d

'act

ion

s d

u c

oo

rdin

ateu

r p

ar s

essi

on

3 attributs

4 attributs

5 attributs

4

46/51

Critique des comportements obtenus

4

Problème : difficulté d'obtenir un corpus de traces d'interaction réelles utilisation d'un utilisateur simulé avec un comportement naïf

Grand nombre d'interactions nécessaires besoin d'une phase d'apprentissage préalable

Constats : + stratégie optimale obtenue / adaptation au comportement simulé- manque de richesse dans les stratégies de coordination

Futur : Simulateur d'utilisateurs réels comportements plus intéressants

47/51

Partie 5 – Conclusion et perspectives


2

3

4

5

Approche théorique




48/51

Conclusion

5

Rattachement à un mouvement récent utilisant l'apprentissage par renforcement pour des applications réelles avec des humains.

Aspect stratégie de coordinationApports• Possibilité d'apprendre ces stratégies par renforcement en utilisant des MDP• Réponse aux besoins du plus grand nombre comme du particulier avec les profils

Limites• Observabilité partielle de l'utilisateur au travers des perceptions de l'agent• Baisse des performances pour des tâches plus complexes

Aspect modélisation logicielle Apports : • Passage à une approche "orientée utilisateur" pour les services• Solution incrémentale

49/51

Perspectives

5

• Pour résoudre des tâches plus complexes – Reformuler l'espace d'états abstrait pour mieux guider le

processus dans l'espace réel.– Décomposition hiérarchique (H-MPD et H-POMDP) avec une

gestion des dépendances entre les attributs – Passage à plusieurs sources et aux autres classes de services– Composition de services (plusieurs coordinateurs)

• Utiliser d'autres modèles/méthodes probabilistes :– Apprendre à partir de politiques pré-établies

– Apprendre en généralisant le modèle (DynaQ, Classifieurs)

– Approche POMDP (Q-learning modifié, Gradient de Baxter)

50/51

Références

(Ferber 1995) Ferber J., Les Systèmes Multi-Agents. Vers une intelligence collective. Interéditions, 1995.

(Gelernter et Carriero 1992) Gelernter D. et Carriero N., Coordination Languages and Their Significance. Communications of the ACM, n°35(2), pp. 96-107, 1992.

(Grislin-LeSturgeon et Peninou 1998) Grislin-Le Sturgeon E. et Péninou A., Les interactions Homme-SMA : réflexions et problématiques de conception. Systèmes Multi-Agents de l'interaction à la Socialité. Dans JFIADSMA'98, Hermès, pp. 133-145, 1998.

(Goddeau et al. 1996) Goddeau D., Meng H., Polifroni J., Seneff S., Busayapongchaiy S., A Form-Based Dialogue Manager For Spoken Language Applications, In Proceedings of ICSLP'96, Philadelphia, 1996.

(Larousse 1998) Le petit Larousse 1998, Larousse-Bordas, 1998.

(Russell et Norvig 1995) Russell S. et Norvig P., Artificial Intelligence: A Modern Approach, The Intelligent Agent Book. Prentice Hall Series in Artificial Intelligence, 1995.

(Sutton et Barto 1998) R. S. and Barto A. G. Reinforcement Learning: An Introduction. MIT Press Cambridge MA, 1998.

(Watkins 1989) Watkins C., Learning from Delayed Rewards. PhD Thesis of the King's College, University of Cambridge, England, 1989.

5

Merci de votre attention

Avez-vous des questions ?

romaric charton directeurs de thèse : anne boyer et jean-paul haton

Documents