approche multi-agent combinant raisonnement et

Approche multi-agent combinant raisonnement etapprentissage pour un comportement éthique 1

R. [email protected]

J. [email protected]

O. [email protected]

M. [email protected]

S. [email protected]

aUniv. Lyon, Université Lyon 1, LIRIS, UMR5205, F-69622, LYON, France

bInstitut Henri Fayol,MINES Saint-Etienne, France

cSciences and Humanities Confluence Research Center, Lyon Catholic University

RésuméLe besoin d’incorporer des considérationséthiques au sein d’algorithmes d’Intelligence Ar-tificielle est de plus en plus présent. Combinantraisonnement et apprentissage, cet article pro-pose une méthode hybride, où des agents jugesévaluent l’éthique du comportement d’agents ap-prenants. Le but est d’améliorer l’éthique deleur comportement dans des environnements dy-namiques multi-agents. Plusieurs avantages dé-coulent de cette séparation : possibilité de co-construction entre agents et humains ; agentsjuges plus accessibles pour des humains non-experts ; adoption de plusieurs points de vuepour juger un même agent, produisant une ré-compense plus riche. Les expérimentations surla distribution de l’énergie dans un simulateurde Smart Grid montrent la capacité des agentsapprenants à se conformer aux règles des agentsjuges, y compris lorsque les règles évoluent.Mots-clés : Éthique, Machine Ethics, Appren-tissage Multi-Agent, Apprentissage par Renfor-cement, Hybride Neural-Symbolique, JugementÉthique

AbstractThe need to imbue Artificial Intelligence al-gorithms with ethical considerations is moreand more present. Combining reasoning andlearning, this paper proposes a hybrid method,where judging agents evaluate the ethics of lear-ning agents’ behavior. The aim is to improve theethics of their behavior in dynamic multi-agentenvironements. Several advantages ensue fromthis separation : possibility of co-constructionbetween agents and humans ; judging agentsmore accessible for non-experts humans ; adop-tion of several points of view to judge the same

∗Cet article est basé sur la traduction d’un article soumis à AIES2021.

agent, producing a richer feedback. Experimentson energy distribution inside a Smart Grid simu-lator show the learning agents’ ability to complywith judging agents’ rules, including when theyevolve.Keywords: Ethics, Machine Ethics, Multi-Agent Learning, Reinforcement Learning, Hy-brid Neural-Symbolic Learning, Ethical Judg-ment

1 Introduction

Alors que le nombre d’applications utilisantdes modèles d’Intelligence Artificielle (IA) aug-mente, il y a un débat de société et de rechercheau sujet du moyen d’introduire des capacitéséthiques dans ces modèles.Le domaine des Machine Ethics s’intéresse àla conception d’“agents à impact éthique” [18]ayant un impact éthique sur des vies humaines ;en particulier, l’“éthique dans la conception”[15] vise à ce que ces agents prennent des déci-sions selon des considérations éthiques, ce quenous appellerons un “comportement éthique”.Cette demande de capacités éthiques pour desagents autonomes artificiels a été largement do-cumentée [21]. Toutefois les moyens d’implé-menter ces compétences ne sont pas clairs : cer-tains travaux proposent des approches descen-dantes par raisonnement symbolique, tandis qued’autres préfèrent utiliser des approches ascen-dantes par apprentissage [1]. Les deux approchesoffrent différents avantages mais ont égalementdes inconvénients ; ainsi, dans cet article, nousprésentons une nouvelle approche, hybride [15],avec un apprentissage de comportements guidépar des récompenses issues de raisonnementssymboliques.

1

Cet article est structuré comme suit : nous pré-sentons d’abord la littérature sur laquelle nousappuyons notre approche hybride ; cette propo-sition est ensuite détaillée ; des expérimentationssur un cas d’application des Smart Grids et leursrésultats démontrent la faisabilité ; finalement, ladernière section compare l’approche à la littéra-ture, examine les limitations actuelles et présentedes perspectives.

2 Fondements

Afin d’identifier les principes de conceptionqui sous-tendent notre approche, nous exploronsd’abord la littérature des Machine Ethics. Nousconsidérons ensuite le champ de l’IA hybride(Neural-Symbolique), qui combine lesméthodessymboliques et d’apprentissage.

2.1 Éthique et IA

La plupart des travaux existants en MachineEthics se focalisent sur un unique agent isolédans son environnement [26]. Nous arguonsqu’il est important de considérer plusieurs agentsen interaction dans un environnement commun,comme il s’agit d’une situation plus réaliste, quisoulève le problème de la confrontation de plu-sieurs éthiques.

Comme en IA, les travaux en Machine Ethicssont divisés en trois catégories [1] : approchesdescendantes, ascendantes et hybrides.

Les approches descendantes s’intéressent à laformalisation de principes éthiques, tel que l’Im-pératif Catégorique de Kant. En utilisant un rai-sonnement logique sur des représentations sym-boliques, de telles approches peuvent s’appuyersur des connaissances expertes et offrir unemeilleure lisibilité et explication des décisionsprises. Par exemple, l’Ethical Governor [3] vé-rifie l’adéquation des actions avec des règles pré-établies comme les Règles d’Engagement ou leDroit de la guerre. Dans Ethicaa [13], des agentsraisonnent sur plusieurs principes éthiques pourdécider de leur comportement et juger les actionsdes autres agents. Cependant, ces approches des-cendantes, du fait de leur corpus de connais-sances explicitemais figé, ne peuvent pas s’adap-ter, sans reconception, à des situations non pré-vues ou à une évolution de l’éthique.

Les approches ascendantes cherchent à ap-prendre un comportement à partir d’un jeude données, e.g., des exemples étiquetés oudes expériences obtenues par interactions. Par

exemple,GenEth [2] utilise des décisions d’éthi-cistes dans de multiples contextes pour ap-prendre un principe éthique ; une autre approcheutilise l’apprentissage par renforcement (RL)en ajoutant à la récompense de la tâche unecomposante éthique sous forme de différenceentre les comportements de l’agent et d’un hu-mainmoyen, supposé exhiber des considérationséthiques [25]. Ces approches, bien qu’utilisantde l’apprentissage, n’ont pas considéré la ques-tion de l’adaptation sur le long-terme en réponseà des situations pouvant évoluer. De plus, lesapproches ascendantes sont plus difficiles à in-terpréter que les approches descendantes.

Finalement, les approches hybrides couplent lesapproches descendantes et ascendantes, de tellesorte que les agents puissent apprendre des com-portements éthiques par expérience tout en étantguidés par un cadre éthique existant afin de for-cer des contraintes et les empêcher de diverger.Pour plus de détails, le lecteur peut se référer à[1, 15].

Nous discutons des différents moyens d’IA hy-bride Neural-Symbolique et comment les inté-grer dans un agent éthique dans la prochainesection.

2.2 Approches hybrides

Les approches hybrides en IA visent à coupler leraisonnement symbolique avec l’apprentissagenumérique pour bénéficier des avantages desdeux approches en réduisant leurs inconvénients.Plusieurs manières pour les intégrer existent,voir par exemple [9]. Les auteurs avancent queles plans dans un agent BDI sont plus facilesà expliquer à un humain ; il est aussi admisqu’il est plus facile d’introduire des connais-sances, par exemple d’un expert du domainenon-développeur, avec des règles symboliques.Des exemples d’approches hybrides incluentSOAR-RL [19] ou BDI-RL [10], qui intègrentdes algorithmes d’apprentissage par renforce-ment avec du raisonnement. Plusieurs travauxajoutent une couche de raisonnement symbo-lique, souvent BDI, par-dessus un agent artificiel[3, 11], et sont souvent qualifiés d’hybride.

Le projet Ethicaa propose un système multi-agent dans lequel les agents juges déterminentun jugement sur les actions d’autres agents, enutilisant des croyances sur une situation donnée[13]. À notre connaissance, l’intégration d’unjugement symbolique pour donner une récom-pense numérique aux agents apprenants n’a pas

2

Environment

Compute New State

Judgment

Judging Agent

Designer(s)

Judgment

Learning and

Decision

Learning agent

ActionsPerceptions

Implements

Stakeholder(s)

Learning and

Decision

Implements and observes

Learning agent

Judging Agent

Impact

Figure 1 –Architecture de notre approche, com-prenant des concepteurs humains implémentantdes règles pour juger les agents apprenants. Lesactions des apprenants modifient un environne-ment partagé, ce qui impacte les humains.

été étudié dans le domaine des Machine Ethics,mais nous pouvons appliquer les travaux d’Ethi-caa au jugement d’agents utilisant de l’appren-tissage numérique.

3 Modèle

Dans cette section, nous décrivons notre pro-position, basée sur les principes de conceptionretenus de la littérature.

3.1 Architecture Abstraite

Considérons un système multi-agent compre-nant des humains et des agents artificiels, repré-senté dans la Figure 1. Les concepteurs créent unenvironnement partagé et des agents autonomesafin qu’ils accomplissent des tâches ; les actionseffectuées pour ce faire vont impacter l’envi-ronnement partagé et les humains. Le but desconcepteurs est d’intégrer des considérationséthiques dans ces agents, afin de contraindre leur“impact éthique”, en accord avec un ensemble devaleurs morales sélectionnées par les concep-teurs.Nous nous focalisons sur une approche hybrideet plus particulièrement sur une séparation du ju-gement et de l’apprentissage, afin de permettreune co-construction. Pour cela, nous introdui-sons des agents juges et apprenants séparés, quipourront évoluer indépendamment, par exemplepour mettre à jour les règles des juges par lesconcepteurs humains, tandis que les apprenantsadaptent leur comportement en accord avec cesnouvelles règles.De plus, nous proposons de rendre le jugement

plus riche en confrontant plusieurs valeurs mo-rales, que nous représentons par des agents jugesséparés afin de clarifier le modèle ; cela ouvreégalement la voie à des interactions plus com-plexes entre juges tels que des processus d’argu-mentation, et offre un moyen simple de changerles règles en ajoutant ou supprimant des agentsjuges. Ces agents juges sont basés sur les agentsEthicaa [13], manipulant un ensemble de règlesmorales pour raisonner et juger les actions desautres agents dans l’environnement. Les jugesutilisent ces règles pour déterminer un jugement(e.g., “moral”, “immoral”), qui sont transformésen récompenses pour les apprenants. Ceux-cil’intègrent dans leur processus d’apprentissagepour apprendre à effectuer de meilleures actions.La pluralité d’apprenants permettra d’évaluerleur impact dans un environnement partagé, plu-tôt qu’un agent isolé.

Finalement, le comportement attendu peut évo-luer au cours du temps, du fait des dynamiquesde notre société, les agents devraient donc êtrecapables de s’adapter à des règles changeantes.Les concepteurs humains observent les actionsdes agents apprenants dans l’environnement etrectifient ces comportements indirectement enajustant les règles à la base du jugement desagents juges. Il est ainsi possible d’envisagerune approche d’IA centrée sur l’humain, avecun contrôle humain dans la boucle, comme lepréconise le rapport Européen HLEG AI 1.

Les valeurs et règles morales à la base des consi-dérations éthiques sont clairement visibles dansce modèle car choisies explicitement par lesconcepteurs. Nous faisons l’hypothèse que celaaméliore l’intelligibilité du jugement et doncdu comportement attendu, ce qui est reconnucomme important, notamment par le rapport duHLEG. Bien que ce point ne sera pas évalué dansles expérimentations, il sert en partie de motiva-tion à notre approche ; les humains, y compris lesutilisateurs, devraient pouvoir vérifier la compa-tibilité avec leurs propres principes éthiques.

3.2 Modèle Formel

Considérons l’ensemble J des agents juges :chaque agent j ∈ J est associé à une seulevaleur morale et un ensemble de règles mo-rales permettant de décider si une action sup-porte ou trahit cette valeur morale (e.g., la Jus-tice, l’Inclusivité, la Sécurité). Dans le secondensemble L d’agents apprenants, chaque agent

1. https://ec.europa.eu/digital-single-market/en/news/ethics-guidelines-trustworthy-ai

3

l ∈ L apprend un comportement et effectuedes actions dans l’environnement, en se basantsur l’évaluation Fl, agrégation des jugementsJugementj(l) des j ∈ J sur le comportementde l : ∀l ∈ L : Fl = {∀j ∈ J : Jugementj(l)}.Ce modèle d’apprentissage correspond concep-tuellement à un jeu Markovien (ou Sto-chastic Game), une extension du Proces-sus de Décision Markovien (MDP) à plu-sieurs agents. Formellement, il s’agit d’un n-uplet (S, P,A0, ..., An, T, R0, ..., Rn).S est l’en-semble de tous les états possibles, sous formede vecteurs de nombres réels (états multi-dimensionnels et continus) pour permettre descas d’applications riches. P , de taille n, estl’ensemble de tous les agents ; les agents jugesn’agissant pas dans l’environnement, il corres-pond à L, l’ensemble des agents apprenants. Al

est l’ensemble des actions possibles pour l’agentl, également sous forme de vecteurs de nombresréels (actions paramétrées). L’ensemble des ac-tions jointes A = A0 × ... × An regroupe lacombinaison des actions possibles des différentsagents. T est la fonction de probabilité de tran-sition, définie par T : S × A × S → [0, 1], i.e.,T (s, a, s′) est la probabilité de passer de l’états à s′ en effectuant l’action a. Rl est la fonc-tion de récompense pour l’agent l, définie parRl : S × Al × S → R, i.e., Rl(s, al, s

′) est larécompense de l’agent l pour avoir effectué l’ac-tion al dans l’état s, résultant en l’état s′.Les MDPs et jeux Markovien peuvent être ré-solus avec de l’apprentissage par renforcement[22], une méthode pour apprendre la probabi-lité π(s, a) de sélectionner chaque action a danschaque état s. Pour chacun des agents appre-nants, le but de l’algorithme d’apprentissage estd’apprendre la stratégie optimale, qui maximisel’espérance des récompenses reçues.Traditionnellement, la fonction de récompenseest une fonction mathématique qui indique sil’action exécutée était bonne, i.e. un objectifà optimiser. Nous voulons utiliser le jugementsymbolique calculé par les agents juges ; pourcela, la fonction de récompense agrège et trans-forme ces jugements en une valeur numérique.Nous décrivons d’abord les agents apprenants etle processus par lequel ils apprennent une stra-tégie optimale π, en mettant de côté les détailsde R que nous décrirons ensuite.

3.3 Agents Apprenants

Les agents apprenants doivent apprendre com-ment sélectionner une action dans un état donné,

Figure 2 – Exemple de décision : l’agent reçoitun état, vecteur de réels, comparé à la State-DSOM. Le 7eme neurone, qui a le vecteur proto-type le plus proche, est choisi comme hypothèsed’état. À partir de la Q-Table et de ce 7eme état,la 3eme action est choisie. L’action obtenue est lerésultat de la perturbation par un bruit aléatoiredu vecteur associé au 3eme neurone de l’Action-DSOM.

afin de maximiser la récompense reçue sur l’en-semble des pas de temps. Nous utilisons l’al-gorithme Q-DSOM pour sa capacité à manipu-ler des états et actions multi-dimensionnels etcontinus [12]. Cet algorithme utilise deux Dy-namic Self-Organizing Map (DSOM) [20], ins-piré des Cartes Auto-Organisatrices de Kohonen[17], afin d’apprendre les espaces d’états (State-DSOM) et d’actions (Action-DSOM).

Les neurones des deux DSOMs sont liés à uneQ-Table [24], de telle sorte que chaque neuronecorresponde à un état ou une action discrets, i.e.,une ligne ou une colonne dans la Q-Table. La Q-Table permet d’apprendre l’intérêt, ou Q-Value,d’une paire état-action, afin que l’agent puissechoisir la meilleure action pour chaque état.

Les agents peuvent donc représenter n’importequel état ou actionmulti-dimensionnel et continucomme un identifiant discret via les DSOMset utilisent la Q-Table pour déterminer l’inté-rêt associé. Se reporter à l’article originel [12]pour une description détaillée de l’algorithme.Un exemple est présenté dans la Figure 2.

3.4 Agents Juges

L’architecture BDI des agents juges (cf. Figure3) s’appuie sur [13] en simplifiant le mécanismed’évaluation morale (des travaux futurs serontdédiés à enrichir cette composante).

À chaque pas de temps, les agents juges génèrentdes croyances (B) à partir de leurs perceptionsde l’environnement (les mêmes que les agents

4

A

VEVS MRAv

ME AmB

Data FlowMental StateFunctionKnowledge Base

Figure 3 – Architecture des agents juges, adap-tée d’Ethicaa [13].

apprenants) et des actions effectuées par ces ap-prenants. Les agents juges traitent demanière sé-parée chacun des composants des vecteurs réels,correspondant aux paramètres des actions. End’autres termes, les agents juges reçoivent unensemble d’actions {∀i ∈ [[1, k]] : al,i}, tel queal est un vecteur de k composants et al,i est le i-ème composant du vecteur, i.e., un nombre réel.

L’agent juge utilise un ensemble fixé de va-leurs et des règles morales associées (VS etMR) pour déterminer si chaque composant del’action trahit ou supporte la valeur. L’Évalua-tion Morale (ME) utilise les croyances géné-rées (B) et les actions (A) pour produire unevaluation morale (Am), parmi l’ensemble V ={moral, immoral, neutral}. À chaque pas detemps, le jugement par un agent juge j de l’actional d’un agent apprenant l est l’évaluation moralede chacun des k paramètres de cette action al :Jugementj(l) = {i ∈ [[1, k]] :MEj(B, al,i)}.Chaque agent juge calcule un jugement diffé-rent pour chaque apprenant, de sorte que lafonction d’évaluation finale F : L →

(V k

)|J |retourne une liste de listes de valuations, soit∀l ∈ L : Fl = {∀j ∈ J : Jugementj(l)}.

3.5 Jugement pour l’apprentissage

Dans cette section, nous faisons le lien entre lessymboles (jugements et croyances) manipuléspar les agents juges et les nombres réels (per-ceptions, actions, et récompenses) utilisés dansl’algorithme Q-DSOM.

À la fin de chaque étape de la simulation, aprèsque les agents apprenants aient choisi leur ac-tion, les agents juges perçoivent plusieurs don-nées et les transforment en croyances : liste desagents, les actions de chacun, les propriétés glo-bales représentant l’état de l’environnement etles propriétés individuelles par agent.

Finalement, la fonction de récompense Rl :S ×Al × S → R retourne un nombre réel. Plu-sieurs méthodes sont possibles pour transformerles valuations symboliques en une récompense

numérique ; dans cette première étape, nous pro-posons la solution suivante. Nous transformonsle jugement de chaque agent juge, i.e., une listede valuations, en un nombre unique, en comp-tant le nombre de valuationsmoral et en divisantpar le nombre de valuations moral et immoral,de telle sorte que les actions morales tendentvers 1, tandis que les actions immorales tendentvers 0. Comme cas spécial, si la liste ne consisteque de valuations neutral, nous considérons quel’action était ni bonne ni mauvaise, et nous lamettons à 0.5. La récompense finale est calculéecomme la moyenne des récompenses de chaqueagent juge.

On peut remarquer que cette méthode permet derésoudre de manière simple les conflits entre lesagents juges ; par exemple, le premier agent jugepeut juger que le premier composant de l’actionest moral selon sa propre valeur morale, tandisqu’un second juge peut déterminer que ce mêmepremier composant est immoral, en accord avecsa valeur morale (différente).

4 Expérimentations

Afin de tester la validité de notre approche,nous reprenons le cas d’application présentédans [12] : il s’agit d’une micro-grille élec-trique hypothétique, dans laquelle la produc-tion d’énergie est décentralisée au lieu de re-poser uniquement sur le réseau national. Lagrille possède une source d’électricité princi-pale (e.g., une station hydro-électrique, ou uneferme à éoliennes) ; les utilisateurs, ou pro-sumers (producteurs-consommateurs), peuventeux-mêmes produire une petite quantité d’éner-gie (e.g., via des panneaux photovoltaïques).Considérant la difficulté de stocker de grandesquantités d’énergie sur une longue période, etque la production et la demande peuvent fluctuersur de courtes périodes, les prosumers peuventéchanger de l’énergie afin de ne pas la gaspiller.De tels échanges supposent une forme de coopé-ration pour éviter les situations d’inégalité ; demanière similaire, quand la source principale esttrop sollicitée, les prosumers doivent réduire leurconsommation temporairement, et ainsi réduireleur confort, afin d’éviter des coupures.

Les simulations considèrent un ensemble de bâ-timents (type habitations, bureaux et écoles ; voirla Figure 4) : la gestion de l’énergie de chaquebâtiment est prise en charge par un agent appre-nant. Il doit apprendre à consommer et échangerde l’énergie pour satisfaire le besoin en confortde ses occupants, tout en considérant les intérêts

5

des autres prosumers de la grille.Nous considérons ce simulateur simplifié et l’op-position d’intérêts entre les différents partici-pants comme étant suffisamment plausibles etun cadre intéressant pour des comportementséthiques.

4.1 Règles et Valeurs Morales

Nous avons choisi des valeurs morales à partir dela littérature des réseaux électriques intelligents[4] et traduit ces valeurs afin de refléter le pointde vue de citoyens participant à un tel système, etprenant des décisions pour allouer de l’énergie.En effet, les agents apprenants agissent en tantque mandataires pour ces prosumers et doiventdonc soutenir les mêmes valeurs morales. Nousproposons quatre valeursmorales et les règles as-sociées comme références communes pour tousles agents de la simulation : MR1 — Assurancede confort : une action permettant à un prosumerd’améliorer son confort est morale ; MR2—Af-fordabilité : une action qui coûte trop cher à unprosumer, par rapport au budget configuré parl’utilisateur, est immorale ; MR3 — Inclusionsociale : une action qui améliore l’équité desconforts entre les prosumers est morale ; MR4— Viabilité Environnementale : une action quilimite les échanges avec le réseau national estmorale.Ces règles sont partiellement en conflit : parexemple, les agents consomment de l’énergiepour satisfaire le confort des utilisateurs, en ac-cord avec MR1, mais il n’y a pas assez d’éner-gie pour satisfaire tous les agents, ce qui trahitla valeur associée à MR3; acheter de l’énergietransgresserait MR4. En d’autres termes, chaqueaction implique une transgression d’au moinsune règle morale, ce qui classe cette simulationcomme un dilemme éthique selon la définitionde Bonnemains [6].Puisque les actions al sont des vecteurs de réels,le but des agents apprenants est de déterminer lesbons paramètres, i.e., les composants du vecteur,afin deminimiser leur regret. En d’autres termes,la question pourrait être, par exemple, “Quellequantité d’énergie devrais-je acheter afin de mi-nimiser la transgression de MR4 tout en me per-mettant d’améliorer mon confort, en accord avecMR1?”.

4.2 Simulateur

Le simulateur que nous utilisons est illustré dansla Figure 4 ; nous résumons ses composants ci-

Figure 4 – Schéma du simulateur de SmartGrid. Une micro-grille, liée à la grille nationale,contient plusieurs agents représentant des bâti-ments.

après.

Agents Apprenants. Trois profils d’agentsont été créés pour répondre aux types de bâti-ment et introduire de la variéte entre les agents :Habitation, Bureau et École. Chaque profil estconstitué : d’un profil de consommation, i.e.la quantité d’énergie dont il a besoin à chaqueheure ; d’une courbe de confort, i.e. la fonctionqui calcule son confort pour une consommationet un besoin donnés ; d’une capacité d’action,e.g. la quantité maximale d’énergie qu’il peutconsommer ; et d’une capacité de stockage per-sonnelle.

Nous utilisons un jeu de données publiques deconsommation d’énergie 2 comme source desprofils de consommation. Trois bâtiments ontété sélectionnés : Residential, Small Office etPrimary School ; chacun dans lamême ville (An-chorage) afin deminimiser le risque de biais dansla consommation recensée, par exemple à caused’une différence de température qui nécessite-rait plus de chauffage dans une ville par rapportà une autre. Le jeu de données contient la chargehoraire, i.e. la quantité d’énergie consommée parun bâtiment pour chaque heure sur une année ;tandis que le travail précédent utilisait un pro-fil moyenné sur tous les jours de l’année (profiljournalier), nous avons retenu le profil annuelcomplet. Les courbes de confort et le besoin enénergie par heure utilisés dans nos expérimenta-tions sont visibles dans la Figure 5.

2. https://openei.org/datasets/dataset/commercial-and-residential-hourly-load-profiles-for-all-tmy3-locations-in-the-united-states

6

Figure 5 – Le besoin et le confort pour chaqueprofil d’agent.

Actions. À chaque pas de temps, chaque agentapprenant effectue une action, vecteur de para-mètres suivants : la quantité d’énergie consom-mée depuis la micro-grille, la quantité consom-mée depuis la batterie personnelle, l’énergie sto-ckée dans sa batterie depuis la grille et inverse-ment la quantité donnée de la batterie vers lamicro-grille. Si la grille ne dispose pas d’assezd’énergie, l’excès est automatiquement achetédepuis la grille nationale pour éviter une cou-pure, mais dans ce cas l’excès est considérécomme sur-consommé. L’agent peut égalementinteragir avec la grille nationale en achetant ouvendant de l’énergie dans sa batterie personnelle.

Perceptions. Afin de prendre une décision,l’agent obtient l’état de l’environnement repré-senté par un vecteur de nombres réels. Ces per-ceptions incluent des données communes parta-gées par tous les agents : l’heure, l’énergie dis-ponible, l’équité des conforts (calculée commeune dispersion statistique par l’index de Hoo-ver), la quantité d’énergie non-utilisée et doncperdue, l’autonomie (l’absence de transactionsavec le réseau national), le bien-être (médianedes conforts), l’exclusion (la proportion d’agentsdont le confort est inférieur à 50% du bien-être),la sur-consommation. Les agents perçoivent enplus des détails sur eux-mêmes, auxquels lesautres agents n’ont pas accès : la quantité d’éner-gie disponible dans la batterie personnelle, leconfort au pas de temps précédent, et le bénéficeobtenu en vendant et achetant de l’énergie.

Récompenses. Comme décrit dans notre mo-dèle, les récompenses sont calculées à partir desjugements des agents juges. Ceux-ci sont implé-mentés en langage Jason [8] sur la plateformeJaCaMo [5], qui est implémentée en Java. UneAPI REST permet d’assurer la communicationentre les agents apprenants, implémentés en Py-thon, et les agents juges sur JaCaMo.Nous avons implémenté quatre agents

juges, un pour chacune des valeurs mo-rales proposées, contenant des règles dansun langage pseudo-Prolog, par exemplesupporte(donne_energie(X)) :- X > 0,qui signifie que l’action de donner une quantitéX d’énergie supporte la valeur associée (dans cecas, Viabilité Environnementale) si la quantitéest positive. De manière similaire, des règles“trahit” déterminent si l’action trahit la valeur.

5 Résultats

Nous avons mené plusieurs simulations, enconsidérant différents paramètres. En variantle nombre d’agents apprenants, les simulations“Petit” (20 Habitations, 5 Bureaux, 1 École) et“Moyen” (80 Habitations, 19 Bureaux, 1 École)permettent d’évaluer le passage à l’échelle denotre approche. Les simulations “Journalier” uti-lisent le profil de consommation moyenné surune seule journée, tandis que les simulations“Annuel” utilisent le jeu de données complet,introduisant ainsi des variations saisonnières etdonc plus de difficultés pour l’apprentissage.Enfin, nous proposons sept scénarios pour laconfiguration des agents juges, dont quatre quiincluent un seul agent juge (nommés “mono-valeur”), un dans lequel les juges sont activésun par un à des pas de temps différents (“Incré-mental”), un dans lequel les juges sont initiale-ment tous actifs et désactivés un par un à despas de temps différents (“Décremental”) et unscénario “Défaut” dans lequel les quatre agentssont activés en permanence. Cette variété de scé-narios permet de comparer la présence et l’ab-sence de chaque règle morale, l’impact sur lesautres règles, et la capacité des agents appre-nants à s’adapter quand les règles évoluent au fildu temps, soit en les ajoutant soit en les enlevant.Chaque ensemble de simulations a été lancé 20fois sur 10 000 pas de temps.La comparaison entre les expérimentations “Pe-tit” et “Moyen” n’a pas montré de réelle diffé-rence entre les moyennes (T-Test, p-value=0.83),ce qui indique que notre approche passe àl’échelle, bien que le temps d’exécution soit na-turellement bien plus long.Nous nous concentrons sur les scénarios “Dé-faut” et “Incrémental” car ils sont les plus per-tinents ; les “mono-valeurs” sont utiles en tantque scénarios de contrôle pour comparer les ef-fets d’une valeur morale sur le comportementdes agents quand la valeur est isolée ou agré-gée avec d’autres. Le scénario “Decrémental”montre la capacité de supprimer des règles mais

7

Figure 6 – Récompense moyenne pour tous lesagents apprenants, sur chaque pas de temps, dansles simulations “Petit - Annuel - Défaut”.

n’est pas aussi intéressant que la capacité d’enajouter (le scénario “Incrémental”). Nous nousconcentrons également sur le profil “Annuel”comme il contient des variations de saisons etdonc plus de difficultés.

La figure 6 montre que la récompense moyenneaugmente au fur et à mesure de la simulation,bien que l’augmentation pourrait être plus im-portante ; la méthode proposée est donc effi-cace et les agents apprenants sont capables dese conformer aux règles données. Toutefois, lesrécompenses chutent vers la fin de la simula-tion, en grande partie à cause de la récompensed’“Inclusion”, qui semble plus difficile à ap-prendre. Il n’est pas clair s’il s’agit d’un pro-blème lié à l’algorithme d’apprentissage ou àl’implémentation proposée des règles morales.Nous remarquons que la valeur d’“Inclusion”est celle avec le plus grand nombre de règlesimplémentées ; peut-être que cela est lié à sonapparente difficulté d’apprentissage.

De plus, la Figure 7 montre que les agents ontété capables d’apprendre la valeur de “ViabilitéEnvironnementale”, et en particulier quand ilsne disposaient que de la récompense agrégée,bien que la variation n’était pas aussi impor-tante que quand ils disposaient spécifiquementde cette valeur comme récompense. Il est inté-ressant de noter que la comparaison entre “Dé-faut” et “Incrémental” montre que l’addition unpar un des Juges semble mitiger l’impact négatifd’“Inclusion”. Les agents sont encore capablesd’apprendre la “Viabilité Environnementale” etperforment légèrement mieux sur l’“Inclusion”.

Selon ces figures, les agents Écoles ont eu lesplus grandes variations dans les récompenses,tandis que les Habitations et Bureaux avaientune augmentation plus stable. Ce n’est pas sur-prenant, car les agents École ont la plus grandecapacité d’action et ont donc un impact plus im-

Figure 7 – Comparaison entre les récompensesindividuelles de chaque agent apprenant, au fildes pas de temps, moyennées sur les simulations“Petit - Annuel - Défaut” et “Petit - Annuel -Incrémental”, et sur les agents de même profil.La courbe “Récompense” est la moyenne desquatre composantes.

portant sur l’environnement.

6 Discussion

Pour rappel, notre contribution est une nouvelleméthode pour apprendre des “comportementséthiques”, i.e. des comportements qui exhibentune ou plusieurs valeurs morales et qui seraientconsidérés comme éthiques d’un point de vuehumain, en utilisant des jugements symboliquescomme sources de récompenses pour les agentsapprenants dans un système multi-agent. Nousavons évalué cette approche sur un problème derépartition d’énergie, dans un contexte de SmartGrid simulé. Les expérimentations menées et encours servent de preuve de concept pour montrerl’intérêt de notre approche.

Par rapport à la littérature existante, cette ap-proche offre plusieurs avantages. Tout d’abord, ilest important de noter que l’acceptation courantede la société sur l’éthique peut évoluer au fil dutemps ; ainsi, les approches qui visent l’“éthiquepar conception” doivent considérer la capacitédu système à s’adapter à des règles changeantes.Cet aspect n’a pas été extensivement étudié, ycompris parmi les travaux se focalisant sur l’ap-prentissage ; dans cet article, nous avons montrégrâce aux scénarios “Incrémental” et “Decré-

8

mental” la capacité de nos agents à s’adapter àl’ajout ou la suppression de règles. Cela est par-ticulièrement visible en se comparant au travailde reward-shaping discuté précédemment [25] :si le comportement exemple n’est plus en ac-cord avec le comportement attendu, il leur seraitprobablement nécessaire de re-créer un nouveaujeu de données et d’entraîner l’agent depuis zéro.Dans notre cas, nous pouvons simplement ajou-ter ou supprimer les règles. Toutefois, un avan-tage de leur approche est qu’ils supposent unerécompense éthique qui n’est pas spécifique à latâche, tandis que nos règles morales sont spé-cifiques aux domaines. Il serait peut-être pos-sible d’implémenter des règles morales plus gé-nériques, toutefois cela requiert l’existence detelles règles ; une possible source d’inspirationpeut être les nombreux principes directeurs pro-posés sur Ethical AI ou Responsible AI [21].

Les précédents cas d’applications pour des“agents éthiques” étaient limités à des actionsdiscrètes (e.g., dilemmes tel que le Dilemme duTramway [23], robot accompagnant, [2], soldatsrobots [3], gestion autonome d’actifs en bourse[14]). Ces travaux sont importants mais il existede nombreuses situations requérant de plus finesactions ; il est ainsi importer de proposer et d’ex-périmenter sur des environnements avec actionscontinues tel que le simulateur utilisé ici.

Certains travaux proposent d’utiliser des mé-thodes de vérification formelle pour garantir laconformité aux règles morales dans n’importequelle situation identifiée [11, 7]. Dans notre cas,l’introduction d’agents apprenants nuit à cettepossibilité ; il existe toutefois des travaux quitentent d’appliquer de la vérification formelleà des algorithmes d’apprentissage par renforce-ment [16].

Ce travail cible les considérations “par concep-tion”, mais il y a également d’autres implica-tions à l’éventuelle intégration d’un tel systèmedans la société. En effet, nous pouvons noterau moins un impact positif et un négatif : d’uncôté, l’utilisation de règles symboliques est sup-posée plus facile à comprendre qu’une fonctionmathématique. Toutefois, l’intelligibilité n’étaitpas l’objectif principal de ce travail et n’était pasévaluée par nos expérimentations. Nous pensonsque l’intelligibilité du processus de récompenseest cruciale, en particulier pour de la supervisionhumaine, que ce soit par les concepteurs du sys-tème ou des régulateurs externes. Il s’agit ainsid’un point important à considérer et améliorerdans de futurs travaux.

D’un autre côté, les jugements nécessitent denombreuses données sur les agents apprenants,e.g. leurs actions, leurs perceptions, ce qui en-trave leur vie privée. Il pourrait être possible delimiter les données échangées en offrant des ju-gements limités, ou d’anonymiser les donnéespour que les juges ne puissent pas identifier lesagents. Dans cet article, nous avons simplementconsidéré que les données étaient librement ac-cessibles.Notre approche a toutefois quelques limites. Pre-mièrement, les règles morales utilisées serventde preuve de concept pour montrer l’intérêt denotre approche hybride, mais il serait intéressantd’étendre les agents juges et leurs règles afin dejuger des situations plus complexes. Deuxième-ment, laméthode utilisée pour transformer les ju-gements symboliques en récompense numériquepar association des symboles à des nombres pourprendre la moyenne permet de facilement ré-soudre les conflits entre règles, mais d’autresméthodes sont possibles, en particulier un mé-canisme d’argumentation entre juges de sorteà établir une priorité entre les règles selon lecontexte. Par exemple, imaginons le cas où unhôpital est en manque crucial d’énergie, la règleinterdisant l’achat d’énergie selon la valeur deViabilité Environnementale pourrait être misede côté dans ce cas précis.

Remerciements

Ce travail a été financé par la Région Au-vergne Rhônes-Alpes (AURA), au sein du projetEthics.AI (Pack Ambition Recherche). Les au-teurs remercient leurs partenaires dans ce projet.

Références

[1] Colin Allen, Iva Smit, and WendellWallach. Artificial Morality : Top-down, Bottom-up, and Hybrid Ap-proaches. Ethics and Information Techno-logy, 7(3) :149–155, September 2005.

[2] Michael Anderson, Susan Leigh Anderson,and Vincent Berenz. A value-driven el-dercare robot : Virtual and physical ins-tantiations of a case-supported principle-based behavior paradigm. Proc. IEEE,107(3) :526–540, 2019.

[3] Ronald C Arkin, Patrick D Ulam, and Brit-tany Duncan. An ethical governor forconstraining lethal action in an autonomoussystem. Technical report, Georgia Instituteof Technology, 2009.

9

[4] Anne Boĳmans. The Acceptability of De-centralized Energy Systems. Master’s the-sis, Delft University of Technology, July2019.

[5] Olivier Boissier, Rafael Bordini, Fred Hüb-ner, Jomi, and Alessandro Ricci. Multi-Agent Oriented Programming : Program-ming Multi-Agent Systems Using JaCaMo.The MIT Press, 2020.

[6] Vincent Bonnemains. Formal ethical rea-soning and dilemma identification in ahuman-artificial agent system. PhD the-sis, Institut supérieur de l’aéronautique etde l’espace, Toulouse, France, 2019.

[7] GrégoryBonnet, BrunoMermet, andGaëleSimon. Vérification formelle et éthiquedans les sma. In JFSMA, pages 139–148,2016.

[8] Rafael H Bordini, Jomi Fred Hübner, andMichael Wooldridge. Programming multi-agent systems in AgentSpeak using Jason,volume 8. John Wiley & Sons, 2007.

[9] Rafael H Bordini, Amal El Fallah Segh-rouchni, Koen Hindriks, Brian Logan, andAlessandro Ricci. Agent programming inthe cognitive era. Autonomous Agents andMulti-Agent Systems, 34, 2020.

[10] Michael Bosello and Alessandro Ricci.From programming agents to educatingagents–a jason-based framework for inte-grating learning in the development of cog-nitive agents. In International Workshopon EngineeringMulti-Agent Systems, pages175–194. Springer, 2019.

[11] Paul Bremner, Louise A Dennis, MichaelFisher, and Alan F Winfield. On proac-tive, transparent, and verifiable ethical rea-soning for robots. Proceedings of the IEEE,107(3) :541–561, 2019.

[12] Rémy Chaput, Olivier Boissier, MathieuGuillermin, and Salima Hassas. Apprentis-sage adaptatif de comportements éthiques.In 28e Journées Francophones sur les Sys-tèmes Multi-Agents (JFSMA’2020). Cépa-duès, 2020.

[13] Nicolas Cointe, Grégory Bonnet, and Oli-vier Boissier. Jugement éthique dans lessystèmes multi-agents. In JFSMA, pages149–158, 2016.

[14] Nicolas Cointe, Grégory Bonnet, and Oli-vier Boissier. Multi-agent based ethical as-set management. In 1stWorkshop on Ethicsin the Design of Intelligent Agents, pages52–57, 2016.

[15] Virginia Dignum. Responsible ArtificialIntelligence :How toDevelop andUseAI ina Responsible Way. Springer Nature, 2019.

[16] Nathan Fulton andAndré Platzer. Safe rein-forcement learning via formal methods :Toward safe control through proof and lear-ning. In Proceedings of the AAAI Confe-rence on Artificial Intelligence, volume 32,2018.

[17] Teuvo Kohonen. Essentials of the self-organizing map. Neural Networks, 37 :52–65, 2013.

[18] James H Moor. The nature, importance,and difficulty of machine ethics. IEEE in-telligent systems, 21(4) :18–21, 2006.

[19] Shelley Nason and John E Laird. Soar-rl : Integrating reinforcement learning withsoar.Cognitive SystemsResearch, 6(1) :51–59, 2005.

[20] Nicolas P. Rougier and Yann Boniface. Dy-namic self-organising map. Neurocompu-ting, 74(11) :1840–1847, 2011.

[21] Daniel Schiff, Justin Biddle, Jason Boren-stein, and Kelly Laas. What’s next for aiethics, policy, and governance? a globaloverview. InProceedings of the AAAI/ACMConference on AI, Ethics, and Society,pages 153–158, 2020.

[22] Richard S. Sutton and Andrew G. Barto.Reinforcement learning : An introduction.IEEE Trans. Neural Networks, 9(5) :1054–1054, 1998.

[23] Judith Jarvis Thomson. Killing, lettingdie, and the trolley problem. The Monist,59(2) :204–217, 1976.

[24] Christopher J. C. H. Watkins and PeterDayan. Q-learning. Machine Learning,8(3) :279–292, May 1992.

[25] Yueh-Hua Wu and Shou-De Lin. A low-cost ethics shaping approach for designingreinforcement learning agents. In Procee-dings of the AAAI Conference on ArtificialIntelligence, volume 32, 2018.

[26] Han Yu, Zhiqi Shen, Chunyan Miao, CyrilLeung, Victor R. Lesser, and Qiang Yang.Building ethics into artificial intelligence.In Proceedings of the 27th InternationalJoint Conference on Artificial Intelligence,ĲCAI’18, pages 5527–5533, Stockholm,Sweden, July 2018. AAAI Press.

10

approche multi-agent combinant raisonnement et

Documents