approche multi-agent combinant raisonnement et

10
Approche multi-agent combinant raisonnement et apprentissage pour un comportement Ă©thique R. Chaput a [email protected] J. Duval [email protected] O. Boissier b [email protected] M. Guillermin c [email protected] S. Hassas a [email protected] a Univ. Lyon, UniversitĂ© Lyon 1, LIRIS, UMR5205, F-69622, LYON, France b Institut Henri Fayol, MINES Saint-Etienne, France c Sciences and Humanities ConïŹ‚uence Research Center, Lyon Catholic University RĂ©sumĂ© Le besoin d’incorporer des considĂ©rations Ă©thiques au sein d’algorithmes d’Intelligence Ar- tiïŹcielle est de plus en plus prĂ©sent. Combinant raisonnement et apprentissage, cet article pro- pose une mĂ©thode hybride, oĂč des agents juges Ă©valuent l’éthique du comportement d’agents ap- prenants. Le but est d’amĂ©liorer l’éthique de leur comportement dans des environnements dy- namiques multi-agents. Plusieurs avantages dĂ©- coulent de cette sĂ©paration : possibilitĂ© de co- construction entre agents et humains; agents juges plus accessibles pour des humains non- experts ; adoption de plusieurs points de vue pour juger un mĂȘme agent, produisant une rĂ©- compense plus riche. Les expĂ©rimentations sur la distribution de l’énergie dans un simulateur de Smart Grid montrent la capacitĂ© des agents apprenants Ă  se conformer aux rĂšgles des agents juges, y compris lorsque les rĂšgles Ă©voluent. Mots-clĂ©s : Éthique, Machine Ethics, Appren- tissage Multi-Agent, Apprentissage par Renfor- cement, Hybride Neural-Symbolique, Jugement Éthique Abstract The need to imbue ArtiïŹcial Intelligence al- gorithms with ethical considerations is more and more present. Combining reasoning and learning, this paper proposes a hybrid method, where judging agents evaluate the ethics of lear- ning agents’ behavior. The aim is to improve the ethics of their behavior in dynamic multi-agent environements. Several advantages ensue from this separation : possibility of co-construction between agents and humans; judging agents more accessible for non-experts humans ; adop- tion of several points of view to judge the same * Cet article est basĂ© sur la traduction d’un article soumis Ă  AIES2021. agent, producing a richer feedback. Experiments on energy distribution inside a Smart Grid simu- lator show the learning agents’ ability to comply with judging agents’ rules, including when they evolve. Keywords: Ethics, Machine Ethics, Multi- Agent Learning, Reinforcement Learning, Hy- brid Neural-Symbolic Learning, Ethical Judg- ment 1 Introduction Alors que le nombre d’applications utilisant des modĂšles d’Intelligence ArtiïŹcielle (IA) aug- mente, il y a un dĂ©bat de sociĂ©tĂ© et de recherche au sujet du moyen d’introduire des capacitĂ©s Ă©thiques dans ces modĂšles. Le domaine des Machine Ethics s’intĂ©resse Ă  la conception d’“agents Ă  impact Ă©thique” [18] ayant un impact Ă©thique sur des vies humaines; en particulier, lâ€™â€œĂ©thique dans la conception” [15] vise Ă  ce que ces agents prennent des dĂ©ci- sions selon des considĂ©rations Ă©thiques, ce que nous appellerons un “comportement Ă©thique”. Cette demande de capacitĂ©s Ă©thiques pour des agents autonomes artiïŹciels a Ă©tĂ© largement do- cumentĂ©e [21]. Toutefois les moyens d’implĂ©- menter ces compĂ©tences ne sont pas clairs : cer- tains travaux proposent des approches descen- dantes par raisonnement symbolique, tandis que d’autres prĂ©fĂšrent utiliser des approches ascen- dantes par apprentissage [1]. Les deux approches oïŹ€rent diïŹ€Ă©rents avantages mais ont Ă©galement des inconvĂ©nients; ainsi, dans cet article, nous prĂ©sentons une nouvelle approche, hybride [15], avec un apprentissage de comportements guidĂ© par des rĂ©compenses issues de raisonnements symboliques. 1

Upload: others

Post on 19-Jun-2022

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Approche multi-agent combinant raisonnement et

Approche multi-agent combinant raisonnement etapprentissage pour un comportement Ă©thique 1

R. [email protected]

J. [email protected]

O. [email protected]

M. [email protected]

S. [email protected]

aUniv. Lyon, Université Lyon 1, LIRIS, UMR5205, F-69622, LYON, France

bInstitut Henri Fayol,MINES Saint-Etienne, France

cSciences and Humanities Confluence Research Center, Lyon Catholic University

RĂ©sumĂ©Le besoin d’incorporer des considĂ©rationsĂ©thiques au sein d’algorithmes d’Intelligence Ar-tificielle est de plus en plus prĂ©sent. Combinantraisonnement et apprentissage, cet article pro-pose une mĂ©thode hybride, oĂč des agents jugesĂ©valuent l’éthique du comportement d’agents ap-prenants. Le but est d’amĂ©liorer l’éthique deleur comportement dans des environnements dy-namiques multi-agents. Plusieurs avantages dĂ©-coulent de cette sĂ©paration : possibilitĂ© de co-construction entre agents et humains ; agentsjuges plus accessibles pour des humains non-experts ; adoption de plusieurs points de vuepour juger un mĂȘme agent, produisant une rĂ©-compense plus riche. Les expĂ©rimentations surla distribution de l’énergie dans un simulateurde Smart Grid montrent la capacitĂ© des agentsapprenants Ă  se conformer aux rĂšgles des agentsjuges, y compris lorsque les rĂšgles Ă©voluent.Mots-clĂ©s : Éthique, Machine Ethics, Appren-tissage Multi-Agent, Apprentissage par Renfor-cement, Hybride Neural-Symbolique, JugementÉthique

AbstractThe need to imbue Artificial Intelligence al-gorithms with ethical considerations is moreand more present. Combining reasoning andlearning, this paper proposes a hybrid method,where judging agents evaluate the ethics of lear-ning agents’ behavior. The aim is to improve theethics of their behavior in dynamic multi-agentenvironements. Several advantages ensue fromthis separation : possibility of co-constructionbetween agents and humans ; judging agentsmore accessible for non-experts humans ; adop-tion of several points of view to judge the same

∗Cet article est basĂ© sur la traduction d’un article soumis Ă  AIES2021.

agent, producing a richer feedback. Experimentson energy distribution inside a Smart Grid simu-lator show the learning agents’ ability to complywith judging agents’ rules, including when theyevolve.Keywords: Ethics, Machine Ethics, Multi-Agent Learning, Reinforcement Learning, Hy-brid Neural-Symbolic Learning, Ethical Judg-ment

1 Introduction

Alors que le nombre d’applications utilisantdes modĂšles d’Intelligence Artificielle (IA) aug-mente, il y a un dĂ©bat de sociĂ©tĂ© et de rechercheau sujet du moyen d’introduire des capacitĂ©sĂ©thiques dans ces modĂšles.Le domaine des Machine Ethics s’intĂ©resse Ă la conception d’“agents Ă  impact Ă©thique” [18]ayant un impact Ă©thique sur des vies humaines ;en particulier, lâ€™â€œĂ©thique dans la conception”[15] vise Ă  ce que ces agents prennent des dĂ©ci-sions selon des considĂ©rations Ă©thiques, ce quenous appellerons un “comportement Ă©thique”.Cette demande de capacitĂ©s Ă©thiques pour desagents autonomes artificiels a Ă©tĂ© largement do-cumentĂ©e [21]. Toutefois les moyens d’implĂ©-menter ces compĂ©tences ne sont pas clairs : cer-tains travaux proposent des approches descen-dantes par raisonnement symbolique, tandis qued’autres prĂ©fĂšrent utiliser des approches ascen-dantes par apprentissage [1]. Les deux approchesoffrent diffĂ©rents avantages mais ont Ă©galementdes inconvĂ©nients ; ainsi, dans cet article, nousprĂ©sentons une nouvelle approche, hybride [15],avec un apprentissage de comportements guidĂ©par des rĂ©compenses issues de raisonnementssymboliques.

1

Page 2: Approche multi-agent combinant raisonnement et

Cet article est structurĂ© comme suit : nous prĂ©-sentons d’abord la littĂ©rature sur laquelle nousappuyons notre approche hybride ; cette propo-sition est ensuite dĂ©taillĂ©e ; des expĂ©rimentationssur un cas d’application des Smart Grids et leursrĂ©sultats dĂ©montrent la faisabilitĂ© ; finalement, laderniĂšre section compare l’approche Ă  la littĂ©ra-ture, examine les limitations actuelles et prĂ©sentedes perspectives.

2 Fondements

Afin d’identifier les principes de conceptionqui sous-tendent notre approche, nous exploronsd’abord la littĂ©rature des Machine Ethics. NousconsidĂ©rons ensuite le champ de l’IA hybride(Neural-Symbolique), qui combine lesmĂ©thodessymboliques et d’apprentissage.

2.1 Éthique et IA

La plupart des travaux existants en MachineEthics se focalisent sur un unique agent isolĂ©dans son environnement [26]. Nous arguonsqu’il est important de considĂ©rer plusieurs agentsen interaction dans un environnement commun,comme il s’agit d’une situation plus rĂ©aliste, quisoulĂšve le problĂšme de la confrontation de plu-sieurs Ă©thiques.

Comme en IA, les travaux en Machine Ethicssont divisés en trois catégories [1] : approchesdescendantes, ascendantes et hybrides.

Les approches descendantes s’intĂ©ressent Ă  laformalisation de principes Ă©thiques, tel que l’Im-pĂ©ratif CatĂ©gorique de Kant. En utilisant un rai-sonnement logique sur des reprĂ©sentations sym-boliques, de telles approches peuvent s’appuyersur des connaissances expertes et offrir unemeilleure lisibilitĂ© et explication des dĂ©cisionsprises. Par exemple, l’Ethical Governor [3] vĂ©-rifie l’adĂ©quation des actions avec des rĂšgles prĂ©-Ă©tablies comme les RĂšgles d’Engagement ou leDroit de la guerre. Dans Ethicaa [13], des agentsraisonnent sur plusieurs principes Ă©thiques pourdĂ©cider de leur comportement et juger les actionsdes autres agents. Cependant, ces approches des-cendantes, du fait de leur corpus de connais-sances explicitemais figĂ©, ne peuvent pas s’adap-ter, sans reconception, Ă  des situations non prĂ©-vues ou Ă  une Ă©volution de l’éthique.

Les approches ascendantes cherchent Ă  ap-prendre un comportement Ă  partir d’un jeude donnĂ©es, e.g., des exemples Ă©tiquetĂ©s oudes expĂ©riences obtenues par interactions. Par

exemple,GenEth [2] utilise des dĂ©cisions d’éthi-cistes dans de multiples contextes pour ap-prendre un principe Ă©thique ; une autre approcheutilise l’apprentissage par renforcement (RL)en ajoutant Ă  la rĂ©compense de la tĂąche unecomposante Ă©thique sous forme de diffĂ©renceentre les comportements de l’agent et d’un hu-mainmoyen, supposĂ© exhiber des considĂ©rationsĂ©thiques [25]. Ces approches, bien qu’utilisantde l’apprentissage, n’ont pas considĂ©rĂ© la ques-tion de l’adaptation sur le long-terme en rĂ©ponseĂ  des situations pouvant Ă©voluer. De plus, lesapproches ascendantes sont plus difficiles Ă  in-terprĂ©ter que les approches descendantes.

Finalement, les approches hybrides couplent lesapproches descendantes et ascendantes, de tellesorte que les agents puissent apprendre des com-portements Ă©thiques par expĂ©rience tout en Ă©tantguidĂ©s par un cadre Ă©thique existant afin de for-cer des contraintes et les empĂȘcher de diverger.Pour plus de dĂ©tails, le lecteur peut se rĂ©fĂ©rer Ă [1, 15].

Nous discutons des diffĂ©rents moyens d’IA hy-bride Neural-Symbolique et comment les intĂ©-grer dans un agent Ă©thique dans la prochainesection.

2.2 Approches hybrides

Les approches hybrides en IA visent Ă  coupler leraisonnement symbolique avec l’apprentissagenumĂ©rique pour bĂ©nĂ©ficier des avantages desdeux approches en rĂ©duisant leurs inconvĂ©nients.Plusieurs maniĂšres pour les intĂ©grer existent,voir par exemple [9]. Les auteurs avancent queles plans dans un agent BDI sont plus facilesĂ  expliquer Ă  un humain ; il est aussi admisqu’il est plus facile d’introduire des connais-sances, par exemple d’un expert du domainenon-dĂ©veloppeur, avec des rĂšgles symboliques.Des exemples d’approches hybrides incluentSOAR-RL [19] ou BDI-RL [10], qui intĂšgrentdes algorithmes d’apprentissage par renforce-ment avec du raisonnement. Plusieurs travauxajoutent une couche de raisonnement symbo-lique, souvent BDI, par-dessus un agent artificiel[3, 11], et sont souvent qualifiĂ©s d’hybride.

Le projet Ethicaa propose un systĂšme multi-agent dans lequel les agents juges dĂ©terminentun jugement sur les actions d’autres agents, enutilisant des croyances sur une situation donnĂ©e[13]. À notre connaissance, l’intĂ©gration d’unjugement symbolique pour donner une rĂ©com-pense numĂ©rique aux agents apprenants n’a pas

2

Page 3: Approche multi-agent combinant raisonnement et

Environment

Compute New State

Judgment

Judging Agent

Designer(s)

Judgment

Learning and

Decision

Learning agent

ActionsPerceptions

Implements

Stakeholder(s)

Learning and

Decision

Implements and observes

Learning agent

Judging Agent

Impact

Figure 1 –Architecture de notre approche, com-prenant des concepteurs humains implĂ©mentantdes rĂšgles pour juger les agents apprenants. Lesactions des apprenants modifient un environne-ment partagĂ©, ce qui impacte les humains.

Ă©tĂ© Ă©tudiĂ© dans le domaine des Machine Ethics,mais nous pouvons appliquer les travaux d’Ethi-caa au jugement d’agents utilisant de l’appren-tissage numĂ©rique.

3 ModĂšle

Dans cette section, nous décrivons notre pro-position, basée sur les principes de conceptionretenus de la littérature.

3.1 Architecture Abstraite

ConsidĂ©rons un systĂšme multi-agent compre-nant des humains et des agents artificiels, reprĂ©-sentĂ© dans la Figure 1. Les concepteurs crĂ©ent unenvironnement partagĂ© et des agents autonomesafin qu’ils accomplissent des tĂąches ; les actionseffectuĂ©es pour ce faire vont impacter l’envi-ronnement partagĂ© et les humains. Le but desconcepteurs est d’intĂ©grer des considĂ©rationsĂ©thiques dans ces agents, afin de contraindre leur“impact Ă©thique”, en accord avec un ensemble devaleurs morales sĂ©lectionnĂ©es par les concep-teurs.Nous nous focalisons sur une approche hybrideet plus particuliĂšrement sur une sĂ©paration du ju-gement et de l’apprentissage, afin de permettreune co-construction. Pour cela, nous introdui-sons des agents juges et apprenants sĂ©parĂ©s, quipourront Ă©voluer indĂ©pendamment, par exemplepour mettre Ă  jour les rĂšgles des juges par lesconcepteurs humains, tandis que les apprenantsadaptent leur comportement en accord avec cesnouvelles rĂšgles.De plus, nous proposons de rendre le jugement

plus riche en confrontant plusieurs valeurs mo-rales, que nous reprĂ©sentons par des agents jugessĂ©parĂ©s afin de clarifier le modĂšle ; cela ouvreĂ©galement la voie Ă  des interactions plus com-plexes entre juges tels que des processus d’argu-mentation, et offre un moyen simple de changerles rĂšgles en ajoutant ou supprimant des agentsjuges. Ces agents juges sont basĂ©s sur les agentsEthicaa [13], manipulant un ensemble de rĂšglesmorales pour raisonner et juger les actions desautres agents dans l’environnement. Les jugesutilisent ces rĂšgles pour dĂ©terminer un jugement(e.g., “moral”, “immoral”), qui sont transformĂ©sen rĂ©compenses pour les apprenants. Ceux-cil’intĂšgrent dans leur processus d’apprentissagepour apprendre Ă  effectuer de meilleures actions.La pluralitĂ© d’apprenants permettra d’évaluerleur impact dans un environnement partagĂ©, plu-tĂŽt qu’un agent isolĂ©.

Finalement, le comportement attendu peut Ă©vo-luer au cours du temps, du fait des dynamiquesde notre sociĂ©tĂ©, les agents devraient donc ĂȘtrecapables de s’adapter Ă  des rĂšgles changeantes.Les concepteurs humains observent les actionsdes agents apprenants dans l’environnement etrectifient ces comportements indirectement enajustant les rĂšgles Ă  la base du jugement desagents juges. Il est ainsi possible d’envisagerune approche d’IA centrĂ©e sur l’humain, avecun contrĂŽle humain dans la boucle, comme leprĂ©conise le rapport EuropĂ©en HLEG AI 1.

Les valeurs et rĂšgles morales Ă  la base des consi-dĂ©rations Ă©thiques sont clairement visibles dansce modĂšle car choisies explicitement par lesconcepteurs. Nous faisons l’hypothĂšse que celaamĂ©liore l’intelligibilitĂ© du jugement et doncdu comportement attendu, ce qui est reconnucomme important, notamment par le rapport duHLEG. Bien que ce point ne sera pas Ă©valuĂ© dansles expĂ©rimentations, il sert en partie de motiva-tion Ă  notre approche ; les humains, y compris lesutilisateurs, devraient pouvoir vĂ©rifier la compa-tibilitĂ© avec leurs propres principes Ă©thiques.

3.2 ModĂšle Formel

ConsidĂ©rons l’ensemble J des agents juges :chaque agent j ∈ J est associĂ© Ă  une seulevaleur morale et un ensemble de rĂšgles mo-rales permettant de dĂ©cider si une action sup-porte ou trahit cette valeur morale (e.g., la Jus-tice, l’InclusivitĂ©, la SĂ©curitĂ©). Dans le secondensemble L d’agents apprenants, chaque agent

1. https://ec.europa.eu/digital-single-market/en/news/ethics-guidelines-trustworthy-ai

3

Page 4: Approche multi-agent combinant raisonnement et

l ∈ L apprend un comportement et effectuedes actions dans l’environnement, en se basantsur l’évaluation Fl, agrĂ©gation des jugementsJugementj(l) des j ∈ J sur le comportementde l : ∀l ∈ L : Fl = {∀j ∈ J : Jugementj(l)}.Ce modĂšle d’apprentissage correspond concep-tuellement Ă  un jeu Markovien (ou Sto-chastic Game), une extension du Proces-sus de DĂ©cision Markovien (MDP) Ă  plu-sieurs agents. Formellement, il s’agit d’un n-uplet (S, P,A0, ..., An, T, R0, ..., Rn).S est l’en-semble de tous les Ă©tats possibles, sous formede vecteurs de nombres rĂ©els (Ă©tats multi-dimensionnels et continus) pour permettre descas d’applications riches. P , de taille n, estl’ensemble de tous les agents ; les agents jugesn’agissant pas dans l’environnement, il corres-pond Ă  L, l’ensemble des agents apprenants. Al

est l’ensemble des actions possibles pour l’agentl, Ă©galement sous forme de vecteurs de nombresrĂ©els (actions paramĂ©trĂ©es). L’ensemble des ac-tions jointes A = A0 × ... × An regroupe lacombinaison des actions possibles des diffĂ©rentsagents. T est la fonction de probabilitĂ© de tran-sition, dĂ©finie par T : S × A × S → [0, 1], i.e.,T (s, a, sâ€Č) est la probabilitĂ© de passer de l’états Ă  sâ€Č en effectuant l’action a. Rl est la fonc-tion de rĂ©compense pour l’agent l, dĂ©finie parRl : S × Al × S → R, i.e., Rl(s, al, s

â€Č) est larĂ©compense de l’agent l pour avoir effectuĂ© l’ac-tion al dans l’état s, rĂ©sultant en l’état sâ€Č.Les MDPs et jeux Markovien peuvent ĂȘtre rĂ©-solus avec de l’apprentissage par renforcement[22], une mĂ©thode pour apprendre la probabi-litĂ© π(s, a) de sĂ©lectionner chaque action a danschaque Ă©tat s. Pour chacun des agents appre-nants, le but de l’algorithme d’apprentissage estd’apprendre la stratĂ©gie optimale, qui maximisel’espĂ©rance des rĂ©compenses reçues.Traditionnellement, la fonction de rĂ©compenseest une fonction mathĂ©matique qui indique sil’action exĂ©cutĂ©e Ă©tait bonne, i.e. un objectifĂ  optimiser. Nous voulons utiliser le jugementsymbolique calculĂ© par les agents juges ; pourcela, la fonction de rĂ©compense agrĂšge et trans-forme ces jugements en une valeur numĂ©rique.Nous dĂ©crivons d’abord les agents apprenants etle processus par lequel ils apprennent une stra-tĂ©gie optimale π, en mettant de cĂŽtĂ© les dĂ©tailsde R que nous dĂ©crirons ensuite.

3.3 Agents Apprenants

Les agents apprenants doivent apprendre com-ment sélectionner une action dans un état donné,

Figure 2 – Exemple de dĂ©cision : l’agent reçoitun Ă©tat, vecteur de rĂ©els, comparĂ© Ă  la State-DSOM. Le 7eme neurone, qui a le vecteur proto-type le plus proche, est choisi comme hypothĂšsed’état. À partir de la Q-Table et de ce 7eme Ă©tat,la 3eme action est choisie. L’action obtenue est lerĂ©sultat de la perturbation par un bruit alĂ©atoiredu vecteur associĂ© au 3eme neurone de l’Action-DSOM.

afin de maximiser la rĂ©compense reçue sur l’en-semble des pas de temps. Nous utilisons l’al-gorithme Q-DSOM pour sa capacitĂ© Ă  manipu-ler des Ă©tats et actions multi-dimensionnels etcontinus [12]. Cet algorithme utilise deux Dy-namic Self-Organizing Map (DSOM) [20], ins-pirĂ© des Cartes Auto-Organisatrices de Kohonen[17], afin d’apprendre les espaces d’états (State-DSOM) et d’actions (Action-DSOM).

Les neurones des deux DSOMs sont liĂ©s Ă  uneQ-Table [24], de telle sorte que chaque neuronecorresponde Ă  un Ă©tat ou une action discrets, i.e.,une ligne ou une colonne dans la Q-Table. La Q-Table permet d’apprendre l’intĂ©rĂȘt, ou Q-Value,d’une paire Ă©tat-action, afin que l’agent puissechoisir la meilleure action pour chaque Ă©tat.

Les agents peuvent donc reprĂ©senter n’importequel Ă©tat ou actionmulti-dimensionnel et continucomme un identifiant discret via les DSOMset utilisent la Q-Table pour dĂ©terminer l’intĂ©-rĂȘt associĂ©. Se reporter Ă  l’article originel [12]pour une description dĂ©taillĂ©e de l’algorithme.Un exemple est prĂ©sentĂ© dans la Figure 2.

3.4 Agents Juges

L’architecture BDI des agents juges (cf. Figure3) s’appuie sur [13] en simplifiant le mĂ©canismed’évaluation morale (des travaux futurs serontdĂ©diĂ©s Ă  enrichir cette composante).

À chaque pas de temps, les agents juges gĂ©nĂšrentdes croyances (B) Ă  partir de leurs perceptionsde l’environnement (les mĂȘmes que les agents

4

Page 5: Approche multi-agent combinant raisonnement et

A

VEVS MRAv

ME AmB

Data FlowMental StateFunctionKnowledge Base

Figure 3 – Architecture des agents juges, adap-tĂ©e d’Ethicaa [13].

apprenants) et des actions effectuĂ©es par ces ap-prenants. Les agents juges traitent demaniĂšre sĂ©-parĂ©e chacun des composants des vecteurs rĂ©els,correspondant aux paramĂštres des actions. End’autres termes, les agents juges reçoivent unensemble d’actions {∀i ∈ [[1, k]] : al,i}, tel queal est un vecteur de k composants et al,i est le i-Ăšme composant du vecteur, i.e., un nombre rĂ©el.

L’agent juge utilise un ensemble fixĂ© de va-leurs et des rĂšgles morales associĂ©es (VS etMR) pour dĂ©terminer si chaque composant del’action trahit ou supporte la valeur. L’Évalua-tion Morale (ME) utilise les croyances gĂ©nĂ©-rĂ©es (B) et les actions (A) pour produire unevaluation morale (Am), parmi l’ensemble V ={moral, immoral, neutral}. À chaque pas detemps, le jugement par un agent juge j de l’actional d’un agent apprenant l est l’évaluation moralede chacun des k paramĂštres de cette action al :Jugementj(l) = {i ∈ [[1, k]] :MEj(B, al,i)}.Chaque agent juge calcule un jugement diffĂ©-rent pour chaque apprenant, de sorte que lafonction d’évaluation finale F : L →

(V k

)|J |retourne une liste de listes de valuations, soit∀l ∈ L : Fl = {∀j ∈ J : Jugementj(l)}.

3.5 Jugement pour l’apprentissage

Dans cette section, nous faisons le lien entre lessymboles (jugements et croyances) manipulĂ©spar les agents juges et les nombres rĂ©els (per-ceptions, actions, et rĂ©compenses) utilisĂ©s dansl’algorithme Q-DSOM.

À la fin de chaque Ă©tape de la simulation, aprĂšsque les agents apprenants aient choisi leur ac-tion, les agents juges perçoivent plusieurs don-nĂ©es et les transforment en croyances : liste desagents, les actions de chacun, les propriĂ©tĂ©s glo-bales reprĂ©sentant l’état de l’environnement etles propriĂ©tĂ©s individuelles par agent.

Finalement, la fonction de rĂ©compense Rl :S ×Al × S → R retourne un nombre rĂ©el. Plu-sieurs mĂ©thodes sont possibles pour transformerles valuations symboliques en une rĂ©compense

numĂ©rique ; dans cette premiĂšre Ă©tape, nous pro-posons la solution suivante. Nous transformonsle jugement de chaque agent juge, i.e., une listede valuations, en un nombre unique, en comp-tant le nombre de valuationsmoral et en divisantpar le nombre de valuations moral et immoral,de telle sorte que les actions morales tendentvers 1, tandis que les actions immorales tendentvers 0. Comme cas spĂ©cial, si la liste ne consisteque de valuations neutral, nous considĂ©rons quel’action Ă©tait ni bonne ni mauvaise, et nous lamettons Ă  0.5. La rĂ©compense finale est calculĂ©ecomme la moyenne des rĂ©compenses de chaqueagent juge.

On peut remarquer que cette mĂ©thode permet derĂ©soudre de maniĂšre simple les conflits entre lesagents juges ; par exemple, le premier agent jugepeut juger que le premier composant de l’actionest moral selon sa propre valeur morale, tandisqu’un second juge peut dĂ©terminer que ce mĂȘmepremier composant est immoral, en accord avecsa valeur morale (diffĂ©rente).

4 Expérimentations

Afin de tester la validitĂ© de notre approche,nous reprenons le cas d’application prĂ©sentĂ©dans [12] : il s’agit d’une micro-grille Ă©lec-trique hypothĂ©tique, dans laquelle la produc-tion d’énergie est dĂ©centralisĂ©e au lieu de re-poser uniquement sur le rĂ©seau national. Lagrille possĂšde une source d’électricitĂ© princi-pale (e.g., une station hydro-Ă©lectrique, ou uneferme Ă  Ă©oliennes) ; les utilisateurs, ou pro-sumers (producteurs-consommateurs), peuventeux-mĂȘmes produire une petite quantitĂ© d’éner-gie (e.g., via des panneaux photovoltaĂŻques).ConsidĂ©rant la difficultĂ© de stocker de grandesquantitĂ©s d’énergie sur une longue pĂ©riode, etque la production et la demande peuvent fluctuersur de courtes pĂ©riodes, les prosumers peuventĂ©changer de l’énergie afin de ne pas la gaspiller.De tels Ă©changes supposent une forme de coopĂ©-ration pour Ă©viter les situations d’inĂ©galitĂ© ; demaniĂšre similaire, quand la source principale esttrop sollicitĂ©e, les prosumers doivent rĂ©duire leurconsommation temporairement, et ainsi rĂ©duireleur confort, afin d’éviter des coupures.

Les simulations considĂšrent un ensemble de bĂą-timents (type habitations, bureaux et Ă©coles ; voirla Figure 4) : la gestion de l’énergie de chaquebĂątiment est prise en charge par un agent appre-nant. Il doit apprendre Ă  consommer et Ă©changerde l’énergie pour satisfaire le besoin en confortde ses occupants, tout en considĂ©rant les intĂ©rĂȘts

5

Page 6: Approche multi-agent combinant raisonnement et

des autres prosumers de la grille.Nous considĂ©rons ce simulateur simplifiĂ© et l’op-position d’intĂ©rĂȘts entre les diffĂ©rents partici-pants comme Ă©tant suffisamment plausibles etun cadre intĂ©ressant pour des comportementsĂ©thiques.

4.1 RĂšgles et Valeurs Morales

Nous avons choisi des valeurs morales Ă  partir dela littĂ©rature des rĂ©seaux Ă©lectriques intelligents[4] et traduit ces valeurs afin de reflĂ©ter le pointde vue de citoyens participant Ă  un tel systĂšme, etprenant des dĂ©cisions pour allouer de l’énergie.En effet, les agents apprenants agissent en tantque mandataires pour ces prosumers et doiventdonc soutenir les mĂȘmes valeurs morales. Nousproposons quatre valeursmorales et les rĂšgles as-sociĂ©es comme rĂ©fĂ©rences communes pour tousles agents de la simulation : MR1 — Assurancede confort : une action permettant Ă  un prosumerd’amĂ©liorer son confort est morale ; MR2—Af-fordabilitĂ© : une action qui coĂ»te trop cher Ă  unprosumer, par rapport au budget configurĂ© parl’utilisateur, est immorale ; MR3 — Inclusionsociale : une action qui amĂ©liore l’équitĂ© desconforts entre les prosumers est morale ; MR4— ViabilitĂ© Environnementale : une action quilimite les Ă©changes avec le rĂ©seau national estmorale.Ces rĂšgles sont partiellement en conflit : parexemple, les agents consomment de l’énergiepour satisfaire le confort des utilisateurs, en ac-cord avec MR1, mais il n’y a pas assez d’éner-gie pour satisfaire tous les agents, ce qui trahitla valeur associĂ©e Ă  MR3; acheter de l’énergietransgresserait MR4. En d’autres termes, chaqueaction implique une transgression d’au moinsune rĂšgle morale, ce qui classe cette simulationcomme un dilemme Ă©thique selon la dĂ©finitionde Bonnemains [6].Puisque les actions al sont des vecteurs de rĂ©els,le but des agents apprenants est de dĂ©terminer lesbons paramĂštres, i.e., les composants du vecteur,afin deminimiser leur regret. En d’autres termes,la question pourrait ĂȘtre, par exemple, “QuellequantitĂ© d’énergie devrais-je acheter afin de mi-nimiser la transgression de MR4 tout en me per-mettant d’amĂ©liorer mon confort, en accord avecMR1?”.

4.2 Simulateur

Le simulateur que nous utilisons est illustré dansla Figure 4 ; nous résumons ses composants ci-

Figure 4 – SchĂ©ma du simulateur de SmartGrid. Une micro-grille, liĂ©e Ă  la grille nationale,contient plusieurs agents reprĂ©sentant des bĂąti-ments.

aprĂšs.

Agents Apprenants. Trois profils d’agentsont Ă©tĂ© crĂ©Ă©s pour rĂ©pondre aux types de bĂąti-ment et introduire de la variĂ©te entre les agents :Habitation, Bureau et École. Chaque profil estconstituĂ© : d’un profil de consommation, i.e.la quantitĂ© d’énergie dont il a besoin Ă  chaqueheure ; d’une courbe de confort, i.e. la fonctionqui calcule son confort pour une consommationet un besoin donnĂ©s ; d’une capacitĂ© d’action,e.g. la quantitĂ© maximale d’énergie qu’il peutconsommer ; et d’une capacitĂ© de stockage per-sonnelle.

Nous utilisons un jeu de donnĂ©es publiques deconsommation d’énergie 2 comme source desprofils de consommation. Trois bĂątiments ontĂ©tĂ© sĂ©lectionnĂ©s : Residential, Small Office etPrimary School ; chacun dans lamĂȘme ville (An-chorage) afin deminimiser le risque de biais dansla consommation recensĂ©e, par exemple Ă  caused’une diffĂ©rence de tempĂ©rature qui nĂ©cessite-rait plus de chauffage dans une ville par rapportĂ  une autre. Le jeu de donnĂ©es contient la chargehoraire, i.e. la quantitĂ© d’énergie consommĂ©e parun bĂątiment pour chaque heure sur une annĂ©e ;tandis que le travail prĂ©cĂ©dent utilisait un pro-fil moyennĂ© sur tous les jours de l’annĂ©e (profiljournalier), nous avons retenu le profil annuelcomplet. Les courbes de confort et le besoin enĂ©nergie par heure utilisĂ©s dans nos expĂ©rimenta-tions sont visibles dans la Figure 5.

2. https://openei.org/datasets/dataset/commercial-and-residential-hourly-load-profiles-for-all-tmy3-locations-in-the-united-states

6

Page 7: Approche multi-agent combinant raisonnement et

Figure 5 – Le besoin et le confort pour chaqueprofil d’agent.

Actions. À chaque pas de temps, chaque agentapprenant effectue une action, vecteur de para-mĂštres suivants : la quantitĂ© d’énergie consom-mĂ©e depuis la micro-grille, la quantitĂ© consom-mĂ©e depuis la batterie personnelle, l’énergie sto-ckĂ©e dans sa batterie depuis la grille et inverse-ment la quantitĂ© donnĂ©e de la batterie vers lamicro-grille. Si la grille ne dispose pas d’assezd’énergie, l’excĂšs est automatiquement achetĂ©depuis la grille nationale pour Ă©viter une cou-pure, mais dans ce cas l’excĂšs est considĂ©rĂ©comme sur-consommĂ©. L’agent peut Ă©galementinteragir avec la grille nationale en achetant ouvendant de l’énergie dans sa batterie personnelle.

Perceptions. Afin de prendre une dĂ©cision,l’agent obtient l’état de l’environnement reprĂ©-sentĂ© par un vecteur de nombres rĂ©els. Ces per-ceptions incluent des donnĂ©es communes parta-gĂ©es par tous les agents : l’heure, l’énergie dis-ponible, l’équitĂ© des conforts (calculĂ©e commeune dispersion statistique par l’index de Hoo-ver), la quantitĂ© d’énergie non-utilisĂ©e et doncperdue, l’autonomie (l’absence de transactionsavec le rĂ©seau national), le bien-ĂȘtre (mĂ©dianedes conforts), l’exclusion (la proportion d’agentsdont le confort est infĂ©rieur Ă  50% du bien-ĂȘtre),la sur-consommation. Les agents perçoivent enplus des dĂ©tails sur eux-mĂȘmes, auxquels lesautres agents n’ont pas accĂšs : la quantitĂ© d’éner-gie disponible dans la batterie personnelle, leconfort au pas de temps prĂ©cĂ©dent, et le bĂ©nĂ©ficeobtenu en vendant et achetant de l’énergie.

RĂ©compenses. Comme dĂ©crit dans notre mo-dĂšle, les rĂ©compenses sont calculĂ©es Ă  partir desjugements des agents juges. Ceux-ci sont implĂ©-mentĂ©s en langage Jason [8] sur la plateformeJaCaMo [5], qui est implĂ©mentĂ©e en Java. UneAPI REST permet d’assurer la communicationentre les agents apprenants, implĂ©mentĂ©s en Py-thon, et les agents juges sur JaCaMo.Nous avons implĂ©mentĂ© quatre agents

juges, un pour chacune des valeurs mo-rales proposĂ©es, contenant des rĂšgles dansun langage pseudo-Prolog, par exemplesupporte(donne_energie(X)) :- X > 0,qui signifie que l’action de donner une quantitĂ©X d’énergie supporte la valeur associĂ©e (dans cecas, ViabilitĂ© Environnementale) si la quantitĂ©est positive. De maniĂšre similaire, des rĂšgles“trahit” dĂ©terminent si l’action trahit la valeur.

5 RĂ©sultats

Nous avons menĂ© plusieurs simulations, enconsidĂ©rant diffĂ©rents paramĂštres. En variantle nombre d’agents apprenants, les simulations“Petit” (20 Habitations, 5 Bureaux, 1 École) et“Moyen” (80 Habitations, 19 Bureaux, 1 École)permettent d’évaluer le passage Ă  l’échelle denotre approche. Les simulations “Journalier” uti-lisent le profil de consommation moyennĂ© surune seule journĂ©e, tandis que les simulations“Annuel” utilisent le jeu de donnĂ©es complet,introduisant ainsi des variations saisonniĂšres etdonc plus de difficultĂ©s pour l’apprentissage.Enfin, nous proposons sept scĂ©narios pour laconfiguration des agents juges, dont quatre quiincluent un seul agent juge (nommĂ©s “mono-valeur”), un dans lequel les juges sont activĂ©sun par un Ă  des pas de temps diffĂ©rents (“IncrĂ©-mental”), un dans lequel les juges sont initiale-ment tous actifs et dĂ©sactivĂ©s un par un Ă  despas de temps diffĂ©rents (“DĂ©cremental”) et unscĂ©nario “DĂ©faut” dans lequel les quatre agentssont activĂ©s en permanence. Cette variĂ©tĂ© de scĂ©-narios permet de comparer la prĂ©sence et l’ab-sence de chaque rĂšgle morale, l’impact sur lesautres rĂšgles, et la capacitĂ© des agents appre-nants Ă  s’adapter quand les rĂšgles Ă©voluent au fildu temps, soit en les ajoutant soit en les enlevant.Chaque ensemble de simulations a Ă©tĂ© lancĂ© 20fois sur 10 000 pas de temps.La comparaison entre les expĂ©rimentations “Pe-tit” et “Moyen” n’a pas montrĂ© de rĂ©elle diffĂ©-rence entre les moyennes (T-Test, p-value=0.83),ce qui indique que notre approche passe Ă l’échelle, bien que le temps d’exĂ©cution soit na-turellement bien plus long.Nous nous concentrons sur les scĂ©narios “DĂ©-faut” et “IncrĂ©mental” car ils sont les plus per-tinents ; les “mono-valeurs” sont utiles en tantque scĂ©narios de contrĂŽle pour comparer les ef-fets d’une valeur morale sur le comportementdes agents quand la valeur est isolĂ©e ou agrĂ©-gĂ©e avec d’autres. Le scĂ©nario “DecrĂ©mental”montre la capacitĂ© de supprimer des rĂšgles mais

7

Page 8: Approche multi-agent combinant raisonnement et

Figure 6 – RĂ©compense moyenne pour tous lesagents apprenants, sur chaque pas de temps, dansles simulations “Petit - Annuel - DĂ©faut”.

n’est pas aussi intĂ©ressant que la capacitĂ© d’enajouter (le scĂ©nario “IncrĂ©mental”). Nous nousconcentrons Ă©galement sur le profil “Annuel”comme il contient des variations de saisons etdonc plus de difficultĂ©s.

La figure 6 montre que la rĂ©compense moyenneaugmente au fur et Ă  mesure de la simulation,bien que l’augmentation pourrait ĂȘtre plus im-portante ; la mĂ©thode proposĂ©e est donc effi-cace et les agents apprenants sont capables dese conformer aux rĂšgles donnĂ©es. Toutefois, lesrĂ©compenses chutent vers la fin de la simula-tion, en grande partie Ă  cause de la rĂ©compensed’“Inclusion”, qui semble plus difficile Ă  ap-prendre. Il n’est pas clair s’il s’agit d’un pro-blĂšme liĂ© Ă  l’algorithme d’apprentissage ou Ă l’implĂ©mentation proposĂ©e des rĂšgles morales.Nous remarquons que la valeur d’“Inclusion”est celle avec le plus grand nombre de rĂšglesimplĂ©mentĂ©es ; peut-ĂȘtre que cela est liĂ© Ă  sonapparente difficultĂ© d’apprentissage.

De plus, la Figure 7 montre que les agents ontĂ©tĂ© capables d’apprendre la valeur de “ViabilitĂ©Environnementale”, et en particulier quand ilsne disposaient que de la rĂ©compense agrĂ©gĂ©e,bien que la variation n’était pas aussi impor-tante que quand ils disposaient spĂ©cifiquementde cette valeur comme rĂ©compense. Il est intĂ©-ressant de noter que la comparaison entre “DĂ©-faut” et “IncrĂ©mental” montre que l’addition unpar un des Juges semble mitiger l’impact nĂ©gatifd’“Inclusion”. Les agents sont encore capablesd’apprendre la “ViabilitĂ© Environnementale” etperforment lĂ©gĂšrement mieux sur l’“Inclusion”.

Selon ces figures, les agents Écoles ont eu lesplus grandes variations dans les rĂ©compenses,tandis que les Habitations et Bureaux avaientune augmentation plus stable. Ce n’est pas sur-prenant, car les agents École ont la plus grandecapacitĂ© d’action et ont donc un impact plus im-

Figure 7 – Comparaison entre les rĂ©compensesindividuelles de chaque agent apprenant, au fildes pas de temps, moyennĂ©es sur les simulations“Petit - Annuel - DĂ©faut” et “Petit - Annuel -IncrĂ©mental”, et sur les agents de mĂȘme profil.La courbe “RĂ©compense” est la moyenne desquatre composantes.

portant sur l’environnement.

6 Discussion

Pour rappel, notre contribution est une nouvellemĂ©thode pour apprendre des “comportementsĂ©thiques”, i.e. des comportements qui exhibentune ou plusieurs valeurs morales et qui seraientconsidĂ©rĂ©s comme Ă©thiques d’un point de vuehumain, en utilisant des jugements symboliquescomme sources de rĂ©compenses pour les agentsapprenants dans un systĂšme multi-agent. Nousavons Ă©valuĂ© cette approche sur un problĂšme derĂ©partition d’énergie, dans un contexte de SmartGrid simulĂ©. Les expĂ©rimentations menĂ©es et encours servent de preuve de concept pour montrerl’intĂ©rĂȘt de notre approche.

Par rapport Ă  la littĂ©rature existante, cette ap-proche offre plusieurs avantages. Tout d’abord, ilest important de noter que l’acceptation courantede la sociĂ©tĂ© sur l’éthique peut Ă©voluer au fil dutemps ; ainsi, les approches qui visent lâ€™â€œĂ©thiquepar conception” doivent considĂ©rer la capacitĂ©du systĂšme Ă  s’adapter Ă  des rĂšgles changeantes.Cet aspect n’a pas Ă©tĂ© extensivement Ă©tudiĂ©, ycompris parmi les travaux se focalisant sur l’ap-prentissage ; dans cet article, nous avons montrĂ©grĂące aux scĂ©narios “IncrĂ©mental” et “DecrĂ©-

8

Page 9: Approche multi-agent combinant raisonnement et

mental” la capacitĂ© de nos agents Ă  s’adapter Ă l’ajout ou la suppression de rĂšgles. Cela est par-ticuliĂšrement visible en se comparant au travailde reward-shaping discutĂ© prĂ©cĂ©demment [25] :si le comportement exemple n’est plus en ac-cord avec le comportement attendu, il leur seraitprobablement nĂ©cessaire de re-crĂ©er un nouveaujeu de donnĂ©es et d’entraĂźner l’agent depuis zĂ©ro.Dans notre cas, nous pouvons simplement ajou-ter ou supprimer les rĂšgles. Toutefois, un avan-tage de leur approche est qu’ils supposent unerĂ©compense Ă©thique qui n’est pas spĂ©cifique Ă  latĂąche, tandis que nos rĂšgles morales sont spĂ©-cifiques aux domaines. Il serait peut-ĂȘtre pos-sible d’implĂ©menter des rĂšgles morales plus gĂ©-nĂ©riques, toutefois cela requiert l’existence detelles rĂšgles ; une possible source d’inspirationpeut ĂȘtre les nombreux principes directeurs pro-posĂ©s sur Ethical AI ou Responsible AI [21].

Les prĂ©cĂ©dents cas d’applications pour des“agents Ă©thiques” Ă©taient limitĂ©s Ă  des actionsdiscrĂštes (e.g., dilemmes tel que le Dilemme duTramway [23], robot accompagnant, [2], soldatsrobots [3], gestion autonome d’actifs en bourse[14]). Ces travaux sont importants mais il existede nombreuses situations requĂ©rant de plus finesactions ; il est ainsi importer de proposer et d’ex-pĂ©rimenter sur des environnements avec actionscontinues tel que le simulateur utilisĂ© ici.

Certains travaux proposent d’utiliser des mĂ©-thodes de vĂ©rification formelle pour garantir laconformitĂ© aux rĂšgles morales dans n’importequelle situation identifiĂ©e [11, 7]. Dans notre cas,l’introduction d’agents apprenants nuit Ă  cettepossibilitĂ© ; il existe toutefois des travaux quitentent d’appliquer de la vĂ©rification formelleĂ  des algorithmes d’apprentissage par renforce-ment [16].

Ce travail cible les considĂ©rations “par concep-tion”, mais il y a Ă©galement d’autres implica-tions Ă  l’éventuelle intĂ©gration d’un tel systĂšmedans la sociĂ©tĂ©. En effet, nous pouvons noterau moins un impact positif et un nĂ©gatif : d’uncĂŽtĂ©, l’utilisation de rĂšgles symboliques est sup-posĂ©e plus facile Ă  comprendre qu’une fonctionmathĂ©matique. Toutefois, l’intelligibilitĂ© n’étaitpas l’objectif principal de ce travail et n’était pasĂ©valuĂ©e par nos expĂ©rimentations. Nous pensonsque l’intelligibilitĂ© du processus de rĂ©compenseest cruciale, en particulier pour de la supervisionhumaine, que ce soit par les concepteurs du sys-tĂšme ou des rĂ©gulateurs externes. Il s’agit ainsid’un point important Ă  considĂ©rer et amĂ©liorerdans de futurs travaux.

D’un autre cĂŽtĂ©, les jugements nĂ©cessitent denombreuses donnĂ©es sur les agents apprenants,e.g. leurs actions, leurs perceptions, ce qui en-trave leur vie privĂ©e. Il pourrait ĂȘtre possible delimiter les donnĂ©es Ă©changĂ©es en offrant des ju-gements limitĂ©s, ou d’anonymiser les donnĂ©espour que les juges ne puissent pas identifier lesagents. Dans cet article, nous avons simplementconsidĂ©rĂ© que les donnĂ©es Ă©taient librement ac-cessibles.Notre approche a toutefois quelques limites. Pre-miĂšrement, les rĂšgles morales utilisĂ©es serventde preuve de concept pour montrer l’intĂ©rĂȘt denotre approche hybride, mais il serait intĂ©ressantd’étendre les agents juges et leurs rĂšgles afin dejuger des situations plus complexes. DeuxiĂšme-ment, lamĂ©thode utilisĂ©e pour transformer les ju-gements symboliques en rĂ©compense numĂ©riquepar association des symboles Ă  des nombres pourprendre la moyenne permet de facilement rĂ©-soudre les conflits entre rĂšgles, mais d’autresmĂ©thodes sont possibles, en particulier un mĂ©-canisme d’argumentation entre juges de sorteĂ  Ă©tablir une prioritĂ© entre les rĂšgles selon lecontexte. Par exemple, imaginons le cas oĂč unhĂŽpital est en manque crucial d’énergie, la rĂšgleinterdisant l’achat d’énergie selon la valeur deViabilitĂ© Environnementale pourrait ĂȘtre misede cĂŽtĂ© dans ce cas prĂ©cis.

Remerciements

Ce travail a été financé par la Région Au-vergne RhÎnes-Alpes (AURA), au sein du projetEthics.AI (Pack Ambition Recherche). Les au-teurs remercient leurs partenaires dans ce projet.

Références

[1] Colin Allen, Iva Smit, and WendellWallach. Artificial Morality : Top-down, Bottom-up, and Hybrid Ap-proaches. Ethics and Information Techno-logy, 7(3) :149–155, September 2005.

[2] Michael Anderson, Susan Leigh Anderson,and Vincent Berenz. A value-driven el-dercare robot : Virtual and physical ins-tantiations of a case-supported principle-based behavior paradigm. Proc. IEEE,107(3) :526–540, 2019.

[3] Ronald C Arkin, Patrick D Ulam, and Brit-tany Duncan. An ethical governor forconstraining lethal action in an autonomoussystem. Technical report, Georgia Instituteof Technology, 2009.

9

Page 10: Approche multi-agent combinant raisonnement et

[4] Anne Boijmans. The Acceptability of De-centralized Energy Systems. Master’s the-sis, Delft University of Technology, July2019.

[5] Olivier Boissier, Rafael Bordini, Fred HĂŒb-ner, Jomi, and Alessandro Ricci. Multi-Agent Oriented Programming : Program-ming Multi-Agent Systems Using JaCaMo.The MIT Press, 2020.

[6] Vincent Bonnemains. Formal ethical rea-soning and dilemma identification in ahuman-artificial agent system. PhD the-sis, Institut supĂ©rieur de l’aĂ©ronautique etde l’espace, Toulouse, France, 2019.

[7] GrĂ©goryBonnet, BrunoMermet, andGaĂ«leSimon. VĂ©rification formelle et Ă©thiquedans les sma. In JFSMA, pages 139–148,2016.

[8] Rafael H Bordini, Jomi Fred HĂŒbner, andMichael Wooldridge. Programming multi-agent systems in AgentSpeak using Jason,volume 8. John Wiley & Sons, 2007.

[9] Rafael H Bordini, Amal El Fallah Segh-rouchni, Koen Hindriks, Brian Logan, andAlessandro Ricci. Agent programming inthe cognitive era. Autonomous Agents andMulti-Agent Systems, 34, 2020.

[10] Michael Bosello and Alessandro Ricci.From programming agents to educatingagents–a jason-based framework for inte-grating learning in the development of cog-nitive agents. In International Workshopon EngineeringMulti-Agent Systems, pages175–194. Springer, 2019.

[11] Paul Bremner, Louise A Dennis, MichaelFisher, and Alan F Winfield. On proac-tive, transparent, and verifiable ethical rea-soning for robots. Proceedings of the IEEE,107(3) :541–561, 2019.

[12] RĂ©my Chaput, Olivier Boissier, MathieuGuillermin, and Salima Hassas. Apprentis-sage adaptatif de comportements Ă©thiques.In 28e JournĂ©es Francophones sur les Sys-tĂšmes Multi-Agents (JFSMA’2020). CĂ©pa-duĂšs, 2020.

[13] Nicolas Cointe, GrĂ©gory Bonnet, and Oli-vier Boissier. Jugement Ă©thique dans lessystĂšmes multi-agents. In JFSMA, pages149–158, 2016.

[14] Nicolas Cointe, GrĂ©gory Bonnet, and Oli-vier Boissier. Multi-agent based ethical as-set management. In 1stWorkshop on Ethicsin the Design of Intelligent Agents, pages52–57, 2016.

[15] Virginia Dignum. Responsible ArtificialIntelligence :How toDevelop andUseAI ina Responsible Way. Springer Nature, 2019.

[16] Nathan Fulton andAndré Platzer. Safe rein-forcement learning via formal methods :Toward safe control through proof and lear-ning. In Proceedings of the AAAI Confe-rence on Artificial Intelligence, volume 32,2018.

[17] Teuvo Kohonen. Essentials of the self-organizing map. Neural Networks, 37 :52–65, 2013.

[18] James H Moor. The nature, importance,and difficulty of machine ethics. IEEE in-telligent systems, 21(4) :18–21, 2006.

[19] Shelley Nason and John E Laird. Soar-rl : Integrating reinforcement learning withsoar.Cognitive SystemsResearch, 6(1) :51–59, 2005.

[20] Nicolas P. Rougier and Yann Boniface. Dy-namic self-organising map. Neurocompu-ting, 74(11) :1840–1847, 2011.

[21] Daniel Schiff, Justin Biddle, Jason Boren-stein, and Kelly Laas. What’s next for aiethics, policy, and governance? a globaloverview. InProceedings of the AAAI/ACMConference on AI, Ethics, and Society,pages 153–158, 2020.

[22] Richard S. Sutton and Andrew G. Barto.Reinforcement learning : An introduction.IEEE Trans. Neural Networks, 9(5) :1054–1054, 1998.

[23] Judith Jarvis Thomson. Killing, lettingdie, and the trolley problem. The Monist,59(2) :204–217, 1976.

[24] Christopher J. C. H. Watkins and PeterDayan. Q-learning. Machine Learning,8(3) :279–292, May 1992.

[25] Yueh-Hua Wu and Shou-De Lin. A low-cost ethics shaping approach for designingreinforcement learning agents. In Procee-dings of the AAAI Conference on ArtificialIntelligence, volume 32, 2018.

[26] Han Yu, Zhiqi Shen, Chunyan Miao, CyrilLeung, Victor R. Lesser, and Qiang Yang.Building ethics into artificial intelligence.In Proceedings of the 27th InternationalJoint Conference on Artificial Intelligence,ÄČCAI’18, pages 5527–5533, Stockholm,Sweden, July 2018. AAAI Press.

10