approche multi-agent combinant raisonnement et
TRANSCRIPT
![Page 1: Approche multi-agent combinant raisonnement et](https://reader036.vdocuments.mx/reader036/viewer/2022062420/62aeb709f55f3c7fdf5a4b85/html5/thumbnails/1.jpg)
Approche multi-agent combinant raisonnement etapprentissage pour un comportement Ă©thique 1
aUniv. Lyon, Université Lyon 1, LIRIS, UMR5205, F-69622, LYON, France
bInstitut Henri Fayol,MINES Saint-Etienne, France
cSciences and Humanities Confluence Research Center, Lyon Catholic University
RĂ©sumĂ©Le besoin dâincorporer des considĂ©rationsĂ©thiques au sein dâalgorithmes dâIntelligence Ar-tificielle est de plus en plus prĂ©sent. Combinantraisonnement et apprentissage, cet article pro-pose une mĂ©thode hybride, oĂč des agents jugesĂ©valuent lâĂ©thique du comportement dâagents ap-prenants. Le but est dâamĂ©liorer lâĂ©thique deleur comportement dans des environnements dy-namiques multi-agents. Plusieurs avantages dĂ©-coulent de cette sĂ©paration : possibilitĂ© de co-construction entre agents et humains ; agentsjuges plus accessibles pour des humains non-experts ; adoption de plusieurs points de vuepour juger un mĂȘme agent, produisant une rĂ©-compense plus riche. Les expĂ©rimentations surla distribution de lâĂ©nergie dans un simulateurde Smart Grid montrent la capacitĂ© des agentsapprenants Ă se conformer aux rĂšgles des agentsjuges, y compris lorsque les rĂšgles Ă©voluent.Mots-clĂ©s : Ăthique, Machine Ethics, Appren-tissage Multi-Agent, Apprentissage par Renfor-cement, Hybride Neural-Symbolique, JugementĂthique
AbstractThe need to imbue Artificial Intelligence al-gorithms with ethical considerations is moreand more present. Combining reasoning andlearning, this paper proposes a hybrid method,where judging agents evaluate the ethics of lear-ning agentsâ behavior. The aim is to improve theethics of their behavior in dynamic multi-agentenvironements. Several advantages ensue fromthis separation : possibility of co-constructionbetween agents and humans ; judging agentsmore accessible for non-experts humans ; adop-tion of several points of view to judge the same
âCet article est basĂ© sur la traduction dâun article soumis Ă AIES2021.
agent, producing a richer feedback. Experimentson energy distribution inside a Smart Grid simu-lator show the learning agentsâ ability to complywith judging agentsâ rules, including when theyevolve.Keywords: Ethics, Machine Ethics, Multi-Agent Learning, Reinforcement Learning, Hy-brid Neural-Symbolic Learning, Ethical Judg-ment
1 Introduction
Alors que le nombre dâapplications utilisantdes modĂšles dâIntelligence Artificielle (IA) aug-mente, il y a un dĂ©bat de sociĂ©tĂ© et de rechercheau sujet du moyen dâintroduire des capacitĂ©sĂ©thiques dans ces modĂšles.Le domaine des Machine Ethics sâintĂ©resse Ă la conception dââagents Ă impact Ă©thiqueâ [18]ayant un impact Ă©thique sur des vies humaines ;en particulier, lââĂ©thique dans la conceptionâ[15] vise Ă ce que ces agents prennent des dĂ©ci-sions selon des considĂ©rations Ă©thiques, ce quenous appellerons un âcomportement Ă©thiqueâ.Cette demande de capacitĂ©s Ă©thiques pour desagents autonomes artificiels a Ă©tĂ© largement do-cumentĂ©e [21]. Toutefois les moyens dâimplĂ©-menter ces compĂ©tences ne sont pas clairs : cer-tains travaux proposent des approches descen-dantes par raisonnement symbolique, tandis quedâautres prĂ©fĂšrent utiliser des approches ascen-dantes par apprentissage [1]. Les deux approchesoffrent diffĂ©rents avantages mais ont Ă©galementdes inconvĂ©nients ; ainsi, dans cet article, nousprĂ©sentons une nouvelle approche, hybride [15],avec un apprentissage de comportements guidĂ©par des rĂ©compenses issues de raisonnementssymboliques.
1
![Page 2: Approche multi-agent combinant raisonnement et](https://reader036.vdocuments.mx/reader036/viewer/2022062420/62aeb709f55f3c7fdf5a4b85/html5/thumbnails/2.jpg)
Cet article est structurĂ© comme suit : nous prĂ©-sentons dâabord la littĂ©rature sur laquelle nousappuyons notre approche hybride ; cette propo-sition est ensuite dĂ©taillĂ©e ; des expĂ©rimentationssur un cas dâapplication des Smart Grids et leursrĂ©sultats dĂ©montrent la faisabilitĂ© ; finalement, laderniĂšre section compare lâapproche Ă la littĂ©ra-ture, examine les limitations actuelles et prĂ©sentedes perspectives.
2 Fondements
Afin dâidentifier les principes de conceptionqui sous-tendent notre approche, nous exploronsdâabord la littĂ©rature des Machine Ethics. NousconsidĂ©rons ensuite le champ de lâIA hybride(Neural-Symbolique), qui combine lesmĂ©thodessymboliques et dâapprentissage.
2.1 Ăthique et IA
La plupart des travaux existants en MachineEthics se focalisent sur un unique agent isolĂ©dans son environnement [26]. Nous arguonsquâil est important de considĂ©rer plusieurs agentsen interaction dans un environnement commun,comme il sâagit dâune situation plus rĂ©aliste, quisoulĂšve le problĂšme de la confrontation de plu-sieurs Ă©thiques.
Comme en IA, les travaux en Machine Ethicssont divisés en trois catégories [1] : approchesdescendantes, ascendantes et hybrides.
Les approches descendantes sâintĂ©ressent Ă laformalisation de principes Ă©thiques, tel que lâIm-pĂ©ratif CatĂ©gorique de Kant. En utilisant un rai-sonnement logique sur des reprĂ©sentations sym-boliques, de telles approches peuvent sâappuyersur des connaissances expertes et offrir unemeilleure lisibilitĂ© et explication des dĂ©cisionsprises. Par exemple, lâEthical Governor [3] vĂ©-rifie lâadĂ©quation des actions avec des rĂšgles prĂ©-Ă©tablies comme les RĂšgles dâEngagement ou leDroit de la guerre. Dans Ethicaa [13], des agentsraisonnent sur plusieurs principes Ă©thiques pourdĂ©cider de leur comportement et juger les actionsdes autres agents. Cependant, ces approches des-cendantes, du fait de leur corpus de connais-sances explicitemais figĂ©, ne peuvent pas sâadap-ter, sans reconception, Ă des situations non prĂ©-vues ou Ă une Ă©volution de lâĂ©thique.
Les approches ascendantes cherchent Ă ap-prendre un comportement Ă partir dâun jeude donnĂ©es, e.g., des exemples Ă©tiquetĂ©s oudes expĂ©riences obtenues par interactions. Par
exemple,GenEth [2] utilise des dĂ©cisions dâĂ©thi-cistes dans de multiples contextes pour ap-prendre un principe Ă©thique ; une autre approcheutilise lâapprentissage par renforcement (RL)en ajoutant Ă la rĂ©compense de la tĂąche unecomposante Ă©thique sous forme de diffĂ©renceentre les comportements de lâagent et dâun hu-mainmoyen, supposĂ© exhiber des considĂ©rationsĂ©thiques [25]. Ces approches, bien quâutilisantde lâapprentissage, nâont pas considĂ©rĂ© la ques-tion de lâadaptation sur le long-terme en rĂ©ponseĂ des situations pouvant Ă©voluer. De plus, lesapproches ascendantes sont plus difficiles Ă in-terprĂ©ter que les approches descendantes.
Finalement, les approches hybrides couplent lesapproches descendantes et ascendantes, de tellesorte que les agents puissent apprendre des com-portements Ă©thiques par expĂ©rience tout en Ă©tantguidĂ©s par un cadre Ă©thique existant afin de for-cer des contraintes et les empĂȘcher de diverger.Pour plus de dĂ©tails, le lecteur peut se rĂ©fĂ©rer Ă [1, 15].
Nous discutons des diffĂ©rents moyens dâIA hy-bride Neural-Symbolique et comment les intĂ©-grer dans un agent Ă©thique dans la prochainesection.
2.2 Approches hybrides
Les approches hybrides en IA visent Ă coupler leraisonnement symbolique avec lâapprentissagenumĂ©rique pour bĂ©nĂ©ficier des avantages desdeux approches en rĂ©duisant leurs inconvĂ©nients.Plusieurs maniĂšres pour les intĂ©grer existent,voir par exemple [9]. Les auteurs avancent queles plans dans un agent BDI sont plus facilesĂ expliquer Ă un humain ; il est aussi admisquâil est plus facile dâintroduire des connais-sances, par exemple dâun expert du domainenon-dĂ©veloppeur, avec des rĂšgles symboliques.Des exemples dâapproches hybrides incluentSOAR-RL [19] ou BDI-RL [10], qui intĂšgrentdes algorithmes dâapprentissage par renforce-ment avec du raisonnement. Plusieurs travauxajoutent une couche de raisonnement symbo-lique, souvent BDI, par-dessus un agent artificiel[3, 11], et sont souvent qualifiĂ©s dâhybride.
Le projet Ethicaa propose un systĂšme multi-agent dans lequel les agents juges dĂ©terminentun jugement sur les actions dâautres agents, enutilisant des croyances sur une situation donnĂ©e[13]. Ă notre connaissance, lâintĂ©gration dâunjugement symbolique pour donner une rĂ©com-pense numĂ©rique aux agents apprenants nâa pas
2
![Page 3: Approche multi-agent combinant raisonnement et](https://reader036.vdocuments.mx/reader036/viewer/2022062420/62aeb709f55f3c7fdf5a4b85/html5/thumbnails/3.jpg)
Environment
Compute New State
Judgment
Judging Agent
Designer(s)
Judgment
Learning and
Decision
Learning agent
ActionsPerceptions
Implements
Stakeholder(s)
Learning and
Decision
Implements and observes
Learning agent
Judging Agent
Impact
Figure 1 âArchitecture de notre approche, com-prenant des concepteurs humains implĂ©mentantdes rĂšgles pour juger les agents apprenants. Lesactions des apprenants modifient un environne-ment partagĂ©, ce qui impacte les humains.
Ă©tĂ© Ă©tudiĂ© dans le domaine des Machine Ethics,mais nous pouvons appliquer les travaux dâEthi-caa au jugement dâagents utilisant de lâappren-tissage numĂ©rique.
3 ModĂšle
Dans cette section, nous décrivons notre pro-position, basée sur les principes de conceptionretenus de la littérature.
3.1 Architecture Abstraite
ConsidĂ©rons un systĂšme multi-agent compre-nant des humains et des agents artificiels, reprĂ©-sentĂ© dans la Figure 1. Les concepteurs crĂ©ent unenvironnement partagĂ© et des agents autonomesafin quâils accomplissent des tĂąches ; les actionseffectuĂ©es pour ce faire vont impacter lâenvi-ronnement partagĂ© et les humains. Le but desconcepteurs est dâintĂ©grer des considĂ©rationsĂ©thiques dans ces agents, afin de contraindre leurâimpact Ă©thiqueâ, en accord avec un ensemble devaleurs morales sĂ©lectionnĂ©es par les concep-teurs.Nous nous focalisons sur une approche hybrideet plus particuliĂšrement sur une sĂ©paration du ju-gement et de lâapprentissage, afin de permettreune co-construction. Pour cela, nous introdui-sons des agents juges et apprenants sĂ©parĂ©s, quipourront Ă©voluer indĂ©pendamment, par exemplepour mettre Ă jour les rĂšgles des juges par lesconcepteurs humains, tandis que les apprenantsadaptent leur comportement en accord avec cesnouvelles rĂšgles.De plus, nous proposons de rendre le jugement
plus riche en confrontant plusieurs valeurs mo-rales, que nous reprĂ©sentons par des agents jugessĂ©parĂ©s afin de clarifier le modĂšle ; cela ouvreĂ©galement la voie Ă des interactions plus com-plexes entre juges tels que des processus dâargu-mentation, et offre un moyen simple de changerles rĂšgles en ajoutant ou supprimant des agentsjuges. Ces agents juges sont basĂ©s sur les agentsEthicaa [13], manipulant un ensemble de rĂšglesmorales pour raisonner et juger les actions desautres agents dans lâenvironnement. Les jugesutilisent ces rĂšgles pour dĂ©terminer un jugement(e.g., âmoralâ, âimmoralâ), qui sont transformĂ©sen rĂ©compenses pour les apprenants. Ceux-cilâintĂšgrent dans leur processus dâapprentissagepour apprendre Ă effectuer de meilleures actions.La pluralitĂ© dâapprenants permettra dâĂ©valuerleur impact dans un environnement partagĂ©, plu-tĂŽt quâun agent isolĂ©.
Finalement, le comportement attendu peut Ă©vo-luer au cours du temps, du fait des dynamiquesde notre sociĂ©tĂ©, les agents devraient donc ĂȘtrecapables de sâadapter Ă des rĂšgles changeantes.Les concepteurs humains observent les actionsdes agents apprenants dans lâenvironnement etrectifient ces comportements indirectement enajustant les rĂšgles Ă la base du jugement desagents juges. Il est ainsi possible dâenvisagerune approche dâIA centrĂ©e sur lâhumain, avecun contrĂŽle humain dans la boucle, comme leprĂ©conise le rapport EuropĂ©en HLEG AI 1.
Les valeurs et rĂšgles morales Ă la base des consi-dĂ©rations Ă©thiques sont clairement visibles dansce modĂšle car choisies explicitement par lesconcepteurs. Nous faisons lâhypothĂšse que celaamĂ©liore lâintelligibilitĂ© du jugement et doncdu comportement attendu, ce qui est reconnucomme important, notamment par le rapport duHLEG. Bien que ce point ne sera pas Ă©valuĂ© dansles expĂ©rimentations, il sert en partie de motiva-tion Ă notre approche ; les humains, y compris lesutilisateurs, devraient pouvoir vĂ©rifier la compa-tibilitĂ© avec leurs propres principes Ă©thiques.
3.2 ModĂšle Formel
ConsidĂ©rons lâensemble J des agents juges :chaque agent j â J est associĂ© Ă une seulevaleur morale et un ensemble de rĂšgles mo-rales permettant de dĂ©cider si une action sup-porte ou trahit cette valeur morale (e.g., la Jus-tice, lâInclusivitĂ©, la SĂ©curitĂ©). Dans le secondensemble L dâagents apprenants, chaque agent
1. https://ec.europa.eu/digital-single-market/en/news/ethics-guidelines-trustworthy-ai
3
![Page 4: Approche multi-agent combinant raisonnement et](https://reader036.vdocuments.mx/reader036/viewer/2022062420/62aeb709f55f3c7fdf5a4b85/html5/thumbnails/4.jpg)
l â L apprend un comportement et effectuedes actions dans lâenvironnement, en se basantsur lâĂ©valuation Fl, agrĂ©gation des jugementsJugementj(l) des j â J sur le comportementde l : âl â L : Fl = {âj â J : Jugementj(l)}.Ce modĂšle dâapprentissage correspond concep-tuellement Ă un jeu Markovien (ou Sto-chastic Game), une extension du Proces-sus de DĂ©cision Markovien (MDP) Ă plu-sieurs agents. Formellement, il sâagit dâun n-uplet (S, P,A0, ..., An, T, R0, ..., Rn).S est lâen-semble de tous les Ă©tats possibles, sous formede vecteurs de nombres rĂ©els (Ă©tats multi-dimensionnels et continus) pour permettre descas dâapplications riches. P , de taille n, estlâensemble de tous les agents ; les agents jugesnâagissant pas dans lâenvironnement, il corres-pond Ă L, lâensemble des agents apprenants. Al
est lâensemble des actions possibles pour lâagentl, Ă©galement sous forme de vecteurs de nombresrĂ©els (actions paramĂ©trĂ©es). Lâensemble des ac-tions jointes A = A0 Ă ... Ă An regroupe lacombinaison des actions possibles des diffĂ©rentsagents. T est la fonction de probabilitĂ© de tran-sition, dĂ©finie par T : S Ă A Ă S â [0, 1], i.e.,T (s, a, sâČ) est la probabilitĂ© de passer de lâĂ©tats Ă sâČ en effectuant lâaction a. Rl est la fonc-tion de rĂ©compense pour lâagent l, dĂ©finie parRl : S Ă Al Ă S â R, i.e., Rl(s, al, s
âČ) est larĂ©compense de lâagent l pour avoir effectuĂ© lâac-tion al dans lâĂ©tat s, rĂ©sultant en lâĂ©tat sâČ.Les MDPs et jeux Markovien peuvent ĂȘtre rĂ©-solus avec de lâapprentissage par renforcement[22], une mĂ©thode pour apprendre la probabi-litĂ© Ï(s, a) de sĂ©lectionner chaque action a danschaque Ă©tat s. Pour chacun des agents appre-nants, le but de lâalgorithme dâapprentissage estdâapprendre la stratĂ©gie optimale, qui maximiselâespĂ©rance des rĂ©compenses reçues.Traditionnellement, la fonction de rĂ©compenseest une fonction mathĂ©matique qui indique silâaction exĂ©cutĂ©e Ă©tait bonne, i.e. un objectifĂ optimiser. Nous voulons utiliser le jugementsymbolique calculĂ© par les agents juges ; pourcela, la fonction de rĂ©compense agrĂšge et trans-forme ces jugements en une valeur numĂ©rique.Nous dĂ©crivons dâabord les agents apprenants etle processus par lequel ils apprennent une stra-tĂ©gie optimale Ï, en mettant de cĂŽtĂ© les dĂ©tailsde R que nous dĂ©crirons ensuite.
3.3 Agents Apprenants
Les agents apprenants doivent apprendre com-ment sélectionner une action dans un état donné,
Figure 2 â Exemple de dĂ©cision : lâagent reçoitun Ă©tat, vecteur de rĂ©els, comparĂ© Ă la State-DSOM. Le 7eme neurone, qui a le vecteur proto-type le plus proche, est choisi comme hypothĂšsedâĂ©tat. Ă partir de la Q-Table et de ce 7eme Ă©tat,la 3eme action est choisie. Lâaction obtenue est lerĂ©sultat de la perturbation par un bruit alĂ©atoiredu vecteur associĂ© au 3eme neurone de lâAction-DSOM.
afin de maximiser la rĂ©compense reçue sur lâen-semble des pas de temps. Nous utilisons lâal-gorithme Q-DSOM pour sa capacitĂ© Ă manipu-ler des Ă©tats et actions multi-dimensionnels etcontinus [12]. Cet algorithme utilise deux Dy-namic Self-Organizing Map (DSOM) [20], ins-pirĂ© des Cartes Auto-Organisatrices de Kohonen[17], afin dâapprendre les espaces dâĂ©tats (State-DSOM) et dâactions (Action-DSOM).
Les neurones des deux DSOMs sont liĂ©s Ă uneQ-Table [24], de telle sorte que chaque neuronecorresponde Ă un Ă©tat ou une action discrets, i.e.,une ligne ou une colonne dans la Q-Table. La Q-Table permet dâapprendre lâintĂ©rĂȘt, ou Q-Value,dâune paire Ă©tat-action, afin que lâagent puissechoisir la meilleure action pour chaque Ă©tat.
Les agents peuvent donc reprĂ©senter nâimportequel Ă©tat ou actionmulti-dimensionnel et continucomme un identifiant discret via les DSOMset utilisent la Q-Table pour dĂ©terminer lâintĂ©-rĂȘt associĂ©. Se reporter Ă lâarticle originel [12]pour une description dĂ©taillĂ©e de lâalgorithme.Un exemple est prĂ©sentĂ© dans la Figure 2.
3.4 Agents Juges
Lâarchitecture BDI des agents juges (cf. Figure3) sâappuie sur [13] en simplifiant le mĂ©canismedâĂ©valuation morale (des travaux futurs serontdĂ©diĂ©s Ă enrichir cette composante).
Ă chaque pas de temps, les agents juges gĂ©nĂšrentdes croyances (B) Ă partir de leurs perceptionsde lâenvironnement (les mĂȘmes que les agents
4
![Page 5: Approche multi-agent combinant raisonnement et](https://reader036.vdocuments.mx/reader036/viewer/2022062420/62aeb709f55f3c7fdf5a4b85/html5/thumbnails/5.jpg)
A
VEVS MRAv
ME AmB
Data FlowMental StateFunctionKnowledge Base
Figure 3 â Architecture des agents juges, adap-tĂ©e dâEthicaa [13].
apprenants) et des actions effectuĂ©es par ces ap-prenants. Les agents juges traitent demaniĂšre sĂ©-parĂ©e chacun des composants des vecteurs rĂ©els,correspondant aux paramĂštres des actions. Endâautres termes, les agents juges reçoivent unensemble dâactions {âi â [[1, k]] : al,i}, tel queal est un vecteur de k composants et al,i est le i-Ăšme composant du vecteur, i.e., un nombre rĂ©el.
Lâagent juge utilise un ensemble fixĂ© de va-leurs et des rĂšgles morales associĂ©es (VS etMR) pour dĂ©terminer si chaque composant delâaction trahit ou supporte la valeur. LâĂvalua-tion Morale (ME) utilise les croyances gĂ©nĂ©-rĂ©es (B) et les actions (A) pour produire unevaluation morale (Am), parmi lâensemble V ={moral, immoral, neutral}. Ă chaque pas detemps, le jugement par un agent juge j de lâactional dâun agent apprenant l est lâĂ©valuation moralede chacun des k paramĂštres de cette action al :Jugementj(l) = {i â [[1, k]] :MEj(B, al,i)}.Chaque agent juge calcule un jugement diffĂ©-rent pour chaque apprenant, de sorte que lafonction dâĂ©valuation finale F : L â
(V k
)|J |retourne une liste de listes de valuations, soitâl â L : Fl = {âj â J : Jugementj(l)}.
3.5 Jugement pour lâapprentissage
Dans cette section, nous faisons le lien entre lessymboles (jugements et croyances) manipulĂ©spar les agents juges et les nombres rĂ©els (per-ceptions, actions, et rĂ©compenses) utilisĂ©s danslâalgorithme Q-DSOM.
Ă la fin de chaque Ă©tape de la simulation, aprĂšsque les agents apprenants aient choisi leur ac-tion, les agents juges perçoivent plusieurs don-nĂ©es et les transforment en croyances : liste desagents, les actions de chacun, les propriĂ©tĂ©s glo-bales reprĂ©sentant lâĂ©tat de lâenvironnement etles propriĂ©tĂ©s individuelles par agent.
Finalement, la fonction de rĂ©compense Rl :S ĂAl Ă S â R retourne un nombre rĂ©el. Plu-sieurs mĂ©thodes sont possibles pour transformerles valuations symboliques en une rĂ©compense
numĂ©rique ; dans cette premiĂšre Ă©tape, nous pro-posons la solution suivante. Nous transformonsle jugement de chaque agent juge, i.e., une listede valuations, en un nombre unique, en comp-tant le nombre de valuationsmoral et en divisantpar le nombre de valuations moral et immoral,de telle sorte que les actions morales tendentvers 1, tandis que les actions immorales tendentvers 0. Comme cas spĂ©cial, si la liste ne consisteque de valuations neutral, nous considĂ©rons quelâaction Ă©tait ni bonne ni mauvaise, et nous lamettons Ă 0.5. La rĂ©compense finale est calculĂ©ecomme la moyenne des rĂ©compenses de chaqueagent juge.
On peut remarquer que cette mĂ©thode permet derĂ©soudre de maniĂšre simple les conflits entre lesagents juges ; par exemple, le premier agent jugepeut juger que le premier composant de lâactionest moral selon sa propre valeur morale, tandisquâun second juge peut dĂ©terminer que ce mĂȘmepremier composant est immoral, en accord avecsa valeur morale (diffĂ©rente).
4 Expérimentations
Afin de tester la validitĂ© de notre approche,nous reprenons le cas dâapplication prĂ©sentĂ©dans [12] : il sâagit dâune micro-grille Ă©lec-trique hypothĂ©tique, dans laquelle la produc-tion dâĂ©nergie est dĂ©centralisĂ©e au lieu de re-poser uniquement sur le rĂ©seau national. Lagrille possĂšde une source dâĂ©lectricitĂ© princi-pale (e.g., une station hydro-Ă©lectrique, ou uneferme Ă Ă©oliennes) ; les utilisateurs, ou pro-sumers (producteurs-consommateurs), peuventeux-mĂȘmes produire une petite quantitĂ© dâĂ©ner-gie (e.g., via des panneaux photovoltaĂŻques).ConsidĂ©rant la difficultĂ© de stocker de grandesquantitĂ©s dâĂ©nergie sur une longue pĂ©riode, etque la production et la demande peuvent fluctuersur de courtes pĂ©riodes, les prosumers peuventĂ©changer de lâĂ©nergie afin de ne pas la gaspiller.De tels Ă©changes supposent une forme de coopĂ©-ration pour Ă©viter les situations dâinĂ©galitĂ© ; demaniĂšre similaire, quand la source principale esttrop sollicitĂ©e, les prosumers doivent rĂ©duire leurconsommation temporairement, et ainsi rĂ©duireleur confort, afin dâĂ©viter des coupures.
Les simulations considĂšrent un ensemble de bĂą-timents (type habitations, bureaux et Ă©coles ; voirla Figure 4) : la gestion de lâĂ©nergie de chaquebĂątiment est prise en charge par un agent appre-nant. Il doit apprendre Ă consommer et Ă©changerde lâĂ©nergie pour satisfaire le besoin en confortde ses occupants, tout en considĂ©rant les intĂ©rĂȘts
5
![Page 6: Approche multi-agent combinant raisonnement et](https://reader036.vdocuments.mx/reader036/viewer/2022062420/62aeb709f55f3c7fdf5a4b85/html5/thumbnails/6.jpg)
des autres prosumers de la grille.Nous considĂ©rons ce simulateur simplifiĂ© et lâop-position dâintĂ©rĂȘts entre les diffĂ©rents partici-pants comme Ă©tant suffisamment plausibles etun cadre intĂ©ressant pour des comportementsĂ©thiques.
4.1 RĂšgles et Valeurs Morales
Nous avons choisi des valeurs morales Ă partir dela littĂ©rature des rĂ©seaux Ă©lectriques intelligents[4] et traduit ces valeurs afin de reflĂ©ter le pointde vue de citoyens participant Ă un tel systĂšme, etprenant des dĂ©cisions pour allouer de lâĂ©nergie.En effet, les agents apprenants agissent en tantque mandataires pour ces prosumers et doiventdonc soutenir les mĂȘmes valeurs morales. Nousproposons quatre valeursmorales et les rĂšgles as-sociĂ©es comme rĂ©fĂ©rences communes pour tousles agents de la simulation : MR1 â Assurancede confort : une action permettant Ă un prosumerdâamĂ©liorer son confort est morale ; MR2âAf-fordabilitĂ© : une action qui coĂ»te trop cher Ă unprosumer, par rapport au budget configurĂ© parlâutilisateur, est immorale ; MR3 â Inclusionsociale : une action qui amĂ©liore lâĂ©quitĂ© desconforts entre les prosumers est morale ; MR4â ViabilitĂ© Environnementale : une action quilimite les Ă©changes avec le rĂ©seau national estmorale.Ces rĂšgles sont partiellement en conflit : parexemple, les agents consomment de lâĂ©nergiepour satisfaire le confort des utilisateurs, en ac-cord avec MR1, mais il nây a pas assez dâĂ©ner-gie pour satisfaire tous les agents, ce qui trahitla valeur associĂ©e Ă MR3; acheter de lâĂ©nergietransgresserait MR4. En dâautres termes, chaqueaction implique une transgression dâau moinsune rĂšgle morale, ce qui classe cette simulationcomme un dilemme Ă©thique selon la dĂ©finitionde Bonnemains [6].Puisque les actions al sont des vecteurs de rĂ©els,le but des agents apprenants est de dĂ©terminer lesbons paramĂštres, i.e., les composants du vecteur,afin deminimiser leur regret. En dâautres termes,la question pourrait ĂȘtre, par exemple, âQuellequantitĂ© dâĂ©nergie devrais-je acheter afin de mi-nimiser la transgression de MR4 tout en me per-mettant dâamĂ©liorer mon confort, en accord avecMR1?â.
4.2 Simulateur
Le simulateur que nous utilisons est illustré dansla Figure 4 ; nous résumons ses composants ci-
Figure 4 â SchĂ©ma du simulateur de SmartGrid. Une micro-grille, liĂ©e Ă la grille nationale,contient plusieurs agents reprĂ©sentant des bĂąti-ments.
aprĂšs.
Agents Apprenants. Trois profils dâagentsont Ă©tĂ© crĂ©Ă©s pour rĂ©pondre aux types de bĂąti-ment et introduire de la variĂ©te entre les agents :Habitation, Bureau et Ăcole. Chaque profil estconstituĂ© : dâun profil de consommation, i.e.la quantitĂ© dâĂ©nergie dont il a besoin Ă chaqueheure ; dâune courbe de confort, i.e. la fonctionqui calcule son confort pour une consommationet un besoin donnĂ©s ; dâune capacitĂ© dâaction,e.g. la quantitĂ© maximale dâĂ©nergie quâil peutconsommer ; et dâune capacitĂ© de stockage per-sonnelle.
Nous utilisons un jeu de donnĂ©es publiques deconsommation dâĂ©nergie 2 comme source desprofils de consommation. Trois bĂątiments ontĂ©tĂ© sĂ©lectionnĂ©s : Residential, Small Office etPrimary School ; chacun dans lamĂȘme ville (An-chorage) afin deminimiser le risque de biais dansla consommation recensĂ©e, par exemple Ă causedâune diffĂ©rence de tempĂ©rature qui nĂ©cessite-rait plus de chauffage dans une ville par rapportĂ une autre. Le jeu de donnĂ©es contient la chargehoraire, i.e. la quantitĂ© dâĂ©nergie consommĂ©e parun bĂątiment pour chaque heure sur une annĂ©e ;tandis que le travail prĂ©cĂ©dent utilisait un pro-fil moyennĂ© sur tous les jours de lâannĂ©e (profiljournalier), nous avons retenu le profil annuelcomplet. Les courbes de confort et le besoin enĂ©nergie par heure utilisĂ©s dans nos expĂ©rimenta-tions sont visibles dans la Figure 5.
2. https://openei.org/datasets/dataset/commercial-and-residential-hourly-load-profiles-for-all-tmy3-locations-in-the-united-states
6
![Page 7: Approche multi-agent combinant raisonnement et](https://reader036.vdocuments.mx/reader036/viewer/2022062420/62aeb709f55f3c7fdf5a4b85/html5/thumbnails/7.jpg)
Figure 5 â Le besoin et le confort pour chaqueprofil dâagent.
Actions. Ă chaque pas de temps, chaque agentapprenant effectue une action, vecteur de para-mĂštres suivants : la quantitĂ© dâĂ©nergie consom-mĂ©e depuis la micro-grille, la quantitĂ© consom-mĂ©e depuis la batterie personnelle, lâĂ©nergie sto-ckĂ©e dans sa batterie depuis la grille et inverse-ment la quantitĂ© donnĂ©e de la batterie vers lamicro-grille. Si la grille ne dispose pas dâassezdâĂ©nergie, lâexcĂšs est automatiquement achetĂ©depuis la grille nationale pour Ă©viter une cou-pure, mais dans ce cas lâexcĂšs est considĂ©rĂ©comme sur-consommĂ©. Lâagent peut Ă©galementinteragir avec la grille nationale en achetant ouvendant de lâĂ©nergie dans sa batterie personnelle.
Perceptions. Afin de prendre une dĂ©cision,lâagent obtient lâĂ©tat de lâenvironnement reprĂ©-sentĂ© par un vecteur de nombres rĂ©els. Ces per-ceptions incluent des donnĂ©es communes parta-gĂ©es par tous les agents : lâheure, lâĂ©nergie dis-ponible, lâĂ©quitĂ© des conforts (calculĂ©e commeune dispersion statistique par lâindex de Hoo-ver), la quantitĂ© dâĂ©nergie non-utilisĂ©e et doncperdue, lâautonomie (lâabsence de transactionsavec le rĂ©seau national), le bien-ĂȘtre (mĂ©dianedes conforts), lâexclusion (la proportion dâagentsdont le confort est infĂ©rieur Ă 50% du bien-ĂȘtre),la sur-consommation. Les agents perçoivent enplus des dĂ©tails sur eux-mĂȘmes, auxquels lesautres agents nâont pas accĂšs : la quantitĂ© dâĂ©ner-gie disponible dans la batterie personnelle, leconfort au pas de temps prĂ©cĂ©dent, et le bĂ©nĂ©ficeobtenu en vendant et achetant de lâĂ©nergie.
RĂ©compenses. Comme dĂ©crit dans notre mo-dĂšle, les rĂ©compenses sont calculĂ©es Ă partir desjugements des agents juges. Ceux-ci sont implĂ©-mentĂ©s en langage Jason [8] sur la plateformeJaCaMo [5], qui est implĂ©mentĂ©e en Java. UneAPI REST permet dâassurer la communicationentre les agents apprenants, implĂ©mentĂ©s en Py-thon, et les agents juges sur JaCaMo.Nous avons implĂ©mentĂ© quatre agents
juges, un pour chacune des valeurs mo-rales proposĂ©es, contenant des rĂšgles dansun langage pseudo-Prolog, par exemplesupporte(donne_energie(X)) :- X > 0,qui signifie que lâaction de donner une quantitĂ©X dâĂ©nergie supporte la valeur associĂ©e (dans cecas, ViabilitĂ© Environnementale) si la quantitĂ©est positive. De maniĂšre similaire, des rĂšglesâtrahitâ dĂ©terminent si lâaction trahit la valeur.
5 RĂ©sultats
Nous avons menĂ© plusieurs simulations, enconsidĂ©rant diffĂ©rents paramĂštres. En variantle nombre dâagents apprenants, les simulationsâPetitâ (20 Habitations, 5 Bureaux, 1 Ăcole) etâMoyenâ (80 Habitations, 19 Bureaux, 1 Ăcole)permettent dâĂ©valuer le passage Ă lâĂ©chelle denotre approche. Les simulations âJournalierâ uti-lisent le profil de consommation moyennĂ© surune seule journĂ©e, tandis que les simulationsâAnnuelâ utilisent le jeu de donnĂ©es complet,introduisant ainsi des variations saisonniĂšres etdonc plus de difficultĂ©s pour lâapprentissage.Enfin, nous proposons sept scĂ©narios pour laconfiguration des agents juges, dont quatre quiincluent un seul agent juge (nommĂ©s âmono-valeurâ), un dans lequel les juges sont activĂ©sun par un Ă des pas de temps diffĂ©rents (âIncrĂ©-mentalâ), un dans lequel les juges sont initiale-ment tous actifs et dĂ©sactivĂ©s un par un Ă despas de temps diffĂ©rents (âDĂ©crementalâ) et unscĂ©nario âDĂ©fautâ dans lequel les quatre agentssont activĂ©s en permanence. Cette variĂ©tĂ© de scĂ©-narios permet de comparer la prĂ©sence et lâab-sence de chaque rĂšgle morale, lâimpact sur lesautres rĂšgles, et la capacitĂ© des agents appre-nants Ă sâadapter quand les rĂšgles Ă©voluent au fildu temps, soit en les ajoutant soit en les enlevant.Chaque ensemble de simulations a Ă©tĂ© lancĂ© 20fois sur 10 000 pas de temps.La comparaison entre les expĂ©rimentations âPe-titâ et âMoyenâ nâa pas montrĂ© de rĂ©elle diffĂ©-rence entre les moyennes (T-Test, p-value=0.83),ce qui indique que notre approche passe Ă lâĂ©chelle, bien que le temps dâexĂ©cution soit na-turellement bien plus long.Nous nous concentrons sur les scĂ©narios âDĂ©-fautâ et âIncrĂ©mentalâ car ils sont les plus per-tinents ; les âmono-valeursâ sont utiles en tantque scĂ©narios de contrĂŽle pour comparer les ef-fets dâune valeur morale sur le comportementdes agents quand la valeur est isolĂ©e ou agrĂ©-gĂ©e avec dâautres. Le scĂ©nario âDecrĂ©mentalâmontre la capacitĂ© de supprimer des rĂšgles mais
7
![Page 8: Approche multi-agent combinant raisonnement et](https://reader036.vdocuments.mx/reader036/viewer/2022062420/62aeb709f55f3c7fdf5a4b85/html5/thumbnails/8.jpg)
Figure 6 â RĂ©compense moyenne pour tous lesagents apprenants, sur chaque pas de temps, dansles simulations âPetit - Annuel - DĂ©fautâ.
nâest pas aussi intĂ©ressant que la capacitĂ© dâenajouter (le scĂ©nario âIncrĂ©mentalâ). Nous nousconcentrons Ă©galement sur le profil âAnnuelâcomme il contient des variations de saisons etdonc plus de difficultĂ©s.
La figure 6 montre que la rĂ©compense moyenneaugmente au fur et Ă mesure de la simulation,bien que lâaugmentation pourrait ĂȘtre plus im-portante ; la mĂ©thode proposĂ©e est donc effi-cace et les agents apprenants sont capables dese conformer aux rĂšgles donnĂ©es. Toutefois, lesrĂ©compenses chutent vers la fin de la simula-tion, en grande partie Ă cause de la rĂ©compensedââInclusionâ, qui semble plus difficile Ă ap-prendre. Il nâest pas clair sâil sâagit dâun pro-blĂšme liĂ© Ă lâalgorithme dâapprentissage ou Ă lâimplĂ©mentation proposĂ©e des rĂšgles morales.Nous remarquons que la valeur dââInclusionâest celle avec le plus grand nombre de rĂšglesimplĂ©mentĂ©es ; peut-ĂȘtre que cela est liĂ© Ă sonapparente difficultĂ© dâapprentissage.
De plus, la Figure 7 montre que les agents ontĂ©tĂ© capables dâapprendre la valeur de âViabilitĂ©Environnementaleâ, et en particulier quand ilsne disposaient que de la rĂ©compense agrĂ©gĂ©e,bien que la variation nâĂ©tait pas aussi impor-tante que quand ils disposaient spĂ©cifiquementde cette valeur comme rĂ©compense. Il est intĂ©-ressant de noter que la comparaison entre âDĂ©-fautâ et âIncrĂ©mentalâ montre que lâaddition unpar un des Juges semble mitiger lâimpact nĂ©gatifdââInclusionâ. Les agents sont encore capablesdâapprendre la âViabilitĂ© Environnementaleâ etperforment lĂ©gĂšrement mieux sur lââInclusionâ.
Selon ces figures, les agents Ăcoles ont eu lesplus grandes variations dans les rĂ©compenses,tandis que les Habitations et Bureaux avaientune augmentation plus stable. Ce nâest pas sur-prenant, car les agents Ăcole ont la plus grandecapacitĂ© dâaction et ont donc un impact plus im-
Figure 7 â Comparaison entre les rĂ©compensesindividuelles de chaque agent apprenant, au fildes pas de temps, moyennĂ©es sur les simulationsâPetit - Annuel - DĂ©fautâ et âPetit - Annuel -IncrĂ©mentalâ, et sur les agents de mĂȘme profil.La courbe âRĂ©compenseâ est la moyenne desquatre composantes.
portant sur lâenvironnement.
6 Discussion
Pour rappel, notre contribution est une nouvellemĂ©thode pour apprendre des âcomportementsĂ©thiquesâ, i.e. des comportements qui exhibentune ou plusieurs valeurs morales et qui seraientconsidĂ©rĂ©s comme Ă©thiques dâun point de vuehumain, en utilisant des jugements symboliquescomme sources de rĂ©compenses pour les agentsapprenants dans un systĂšme multi-agent. Nousavons Ă©valuĂ© cette approche sur un problĂšme derĂ©partition dâĂ©nergie, dans un contexte de SmartGrid simulĂ©. Les expĂ©rimentations menĂ©es et encours servent de preuve de concept pour montrerlâintĂ©rĂȘt de notre approche.
Par rapport Ă la littĂ©rature existante, cette ap-proche offre plusieurs avantages. Tout dâabord, ilest important de noter que lâacceptation courantede la sociĂ©tĂ© sur lâĂ©thique peut Ă©voluer au fil dutemps ; ainsi, les approches qui visent lââĂ©thiquepar conceptionâ doivent considĂ©rer la capacitĂ©du systĂšme Ă sâadapter Ă des rĂšgles changeantes.Cet aspect nâa pas Ă©tĂ© extensivement Ă©tudiĂ©, ycompris parmi les travaux se focalisant sur lâap-prentissage ; dans cet article, nous avons montrĂ©grĂące aux scĂ©narios âIncrĂ©mentalâ et âDecrĂ©-
8
![Page 9: Approche multi-agent combinant raisonnement et](https://reader036.vdocuments.mx/reader036/viewer/2022062420/62aeb709f55f3c7fdf5a4b85/html5/thumbnails/9.jpg)
mentalâ la capacitĂ© de nos agents Ă sâadapter Ă lâajout ou la suppression de rĂšgles. Cela est par-ticuliĂšrement visible en se comparant au travailde reward-shaping discutĂ© prĂ©cĂ©demment [25] :si le comportement exemple nâest plus en ac-cord avec le comportement attendu, il leur seraitprobablement nĂ©cessaire de re-crĂ©er un nouveaujeu de donnĂ©es et dâentraĂźner lâagent depuis zĂ©ro.Dans notre cas, nous pouvons simplement ajou-ter ou supprimer les rĂšgles. Toutefois, un avan-tage de leur approche est quâils supposent unerĂ©compense Ă©thique qui nâest pas spĂ©cifique Ă latĂąche, tandis que nos rĂšgles morales sont spĂ©-cifiques aux domaines. Il serait peut-ĂȘtre pos-sible dâimplĂ©menter des rĂšgles morales plus gĂ©-nĂ©riques, toutefois cela requiert lâexistence detelles rĂšgles ; une possible source dâinspirationpeut ĂȘtre les nombreux principes directeurs pro-posĂ©s sur Ethical AI ou Responsible AI [21].
Les prĂ©cĂ©dents cas dâapplications pour desâagents Ă©thiquesâ Ă©taient limitĂ©s Ă des actionsdiscrĂštes (e.g., dilemmes tel que le Dilemme duTramway [23], robot accompagnant, [2], soldatsrobots [3], gestion autonome dâactifs en bourse[14]). Ces travaux sont importants mais il existede nombreuses situations requĂ©rant de plus finesactions ; il est ainsi importer de proposer et dâex-pĂ©rimenter sur des environnements avec actionscontinues tel que le simulateur utilisĂ© ici.
Certains travaux proposent dâutiliser des mĂ©-thodes de vĂ©rification formelle pour garantir laconformitĂ© aux rĂšgles morales dans nâimportequelle situation identifiĂ©e [11, 7]. Dans notre cas,lâintroduction dâagents apprenants nuit Ă cettepossibilitĂ© ; il existe toutefois des travaux quitentent dâappliquer de la vĂ©rification formelleĂ des algorithmes dâapprentissage par renforce-ment [16].
Ce travail cible les considĂ©rations âpar concep-tionâ, mais il y a Ă©galement dâautres implica-tions Ă lâĂ©ventuelle intĂ©gration dâun tel systĂšmedans la sociĂ©tĂ©. En effet, nous pouvons noterau moins un impact positif et un nĂ©gatif : dâuncĂŽtĂ©, lâutilisation de rĂšgles symboliques est sup-posĂ©e plus facile Ă comprendre quâune fonctionmathĂ©matique. Toutefois, lâintelligibilitĂ© nâĂ©taitpas lâobjectif principal de ce travail et nâĂ©tait pasĂ©valuĂ©e par nos expĂ©rimentations. Nous pensonsque lâintelligibilitĂ© du processus de rĂ©compenseest cruciale, en particulier pour de la supervisionhumaine, que ce soit par les concepteurs du sys-tĂšme ou des rĂ©gulateurs externes. Il sâagit ainsidâun point important Ă considĂ©rer et amĂ©liorerdans de futurs travaux.
Dâun autre cĂŽtĂ©, les jugements nĂ©cessitent denombreuses donnĂ©es sur les agents apprenants,e.g. leurs actions, leurs perceptions, ce qui en-trave leur vie privĂ©e. Il pourrait ĂȘtre possible delimiter les donnĂ©es Ă©changĂ©es en offrant des ju-gements limitĂ©s, ou dâanonymiser les donnĂ©espour que les juges ne puissent pas identifier lesagents. Dans cet article, nous avons simplementconsidĂ©rĂ© que les donnĂ©es Ă©taient librement ac-cessibles.Notre approche a toutefois quelques limites. Pre-miĂšrement, les rĂšgles morales utilisĂ©es serventde preuve de concept pour montrer lâintĂ©rĂȘt denotre approche hybride, mais il serait intĂ©ressantdâĂ©tendre les agents juges et leurs rĂšgles afin dejuger des situations plus complexes. DeuxiĂšme-ment, lamĂ©thode utilisĂ©e pour transformer les ju-gements symboliques en rĂ©compense numĂ©riquepar association des symboles Ă des nombres pourprendre la moyenne permet de facilement rĂ©-soudre les conflits entre rĂšgles, mais dâautresmĂ©thodes sont possibles, en particulier un mĂ©-canisme dâargumentation entre juges de sorteĂ Ă©tablir une prioritĂ© entre les rĂšgles selon lecontexte. Par exemple, imaginons le cas oĂč unhĂŽpital est en manque crucial dâĂ©nergie, la rĂšgleinterdisant lâachat dâĂ©nergie selon la valeur deViabilitĂ© Environnementale pourrait ĂȘtre misede cĂŽtĂ© dans ce cas prĂ©cis.
Remerciements
Ce travail a été financé par la Région Au-vergne RhÎnes-Alpes (AURA), au sein du projetEthics.AI (Pack Ambition Recherche). Les au-teurs remercient leurs partenaires dans ce projet.
Références
[1] Colin Allen, Iva Smit, and WendellWallach. Artificial Morality : Top-down, Bottom-up, and Hybrid Ap-proaches. Ethics and Information Techno-logy, 7(3) :149â155, September 2005.
[2] Michael Anderson, Susan Leigh Anderson,and Vincent Berenz. A value-driven el-dercare robot : Virtual and physical ins-tantiations of a case-supported principle-based behavior paradigm. Proc. IEEE,107(3) :526â540, 2019.
[3] Ronald C Arkin, Patrick D Ulam, and Brit-tany Duncan. An ethical governor forconstraining lethal action in an autonomoussystem. Technical report, Georgia Instituteof Technology, 2009.
9
![Page 10: Approche multi-agent combinant raisonnement et](https://reader036.vdocuments.mx/reader036/viewer/2022062420/62aeb709f55f3c7fdf5a4b85/html5/thumbnails/10.jpg)
[4] Anne BoÄłmans. The Acceptability of De-centralized Energy Systems. Masterâs the-sis, Delft University of Technology, July2019.
[5] Olivier Boissier, Rafael Bordini, Fred HĂŒb-ner, Jomi, and Alessandro Ricci. Multi-Agent Oriented Programming : Program-ming Multi-Agent Systems Using JaCaMo.The MIT Press, 2020.
[6] Vincent Bonnemains. Formal ethical rea-soning and dilemma identification in ahuman-artificial agent system. PhD the-sis, Institut supĂ©rieur de lâaĂ©ronautique etde lâespace, Toulouse, France, 2019.
[7] GrĂ©goryBonnet, BrunoMermet, andGaĂ«leSimon. VĂ©rification formelle et Ă©thiquedans les sma. In JFSMA, pages 139â148,2016.
[8] Rafael H Bordini, Jomi Fred HĂŒbner, andMichael Wooldridge. Programming multi-agent systems in AgentSpeak using Jason,volume 8. John Wiley & Sons, 2007.
[9] Rafael H Bordini, Amal El Fallah Segh-rouchni, Koen Hindriks, Brian Logan, andAlessandro Ricci. Agent programming inthe cognitive era. Autonomous Agents andMulti-Agent Systems, 34, 2020.
[10] Michael Bosello and Alessandro Ricci.From programming agents to educatingagentsâa jason-based framework for inte-grating learning in the development of cog-nitive agents. In International Workshopon EngineeringMulti-Agent Systems, pages175â194. Springer, 2019.
[11] Paul Bremner, Louise A Dennis, MichaelFisher, and Alan F Winfield. On proac-tive, transparent, and verifiable ethical rea-soning for robots. Proceedings of the IEEE,107(3) :541â561, 2019.
[12] RĂ©my Chaput, Olivier Boissier, MathieuGuillermin, and Salima Hassas. Apprentis-sage adaptatif de comportements Ă©thiques.In 28e JournĂ©es Francophones sur les Sys-tĂšmes Multi-Agents (JFSMAâ2020). CĂ©pa-duĂšs, 2020.
[13] Nicolas Cointe, GrĂ©gory Bonnet, and Oli-vier Boissier. Jugement Ă©thique dans lessystĂšmes multi-agents. In JFSMA, pages149â158, 2016.
[14] Nicolas Cointe, GrĂ©gory Bonnet, and Oli-vier Boissier. Multi-agent based ethical as-set management. In 1stWorkshop on Ethicsin the Design of Intelligent Agents, pages52â57, 2016.
[15] Virginia Dignum. Responsible ArtificialIntelligence :How toDevelop andUseAI ina Responsible Way. Springer Nature, 2019.
[16] Nathan Fulton andAndré Platzer. Safe rein-forcement learning via formal methods :Toward safe control through proof and lear-ning. In Proceedings of the AAAI Confe-rence on Artificial Intelligence, volume 32,2018.
[17] Teuvo Kohonen. Essentials of the self-organizing map. Neural Networks, 37 :52â65, 2013.
[18] James H Moor. The nature, importance,and difficulty of machine ethics. IEEE in-telligent systems, 21(4) :18â21, 2006.
[19] Shelley Nason and John E Laird. Soar-rl : Integrating reinforcement learning withsoar.Cognitive SystemsResearch, 6(1) :51â59, 2005.
[20] Nicolas P. Rougier and Yann Boniface. Dy-namic self-organising map. Neurocompu-ting, 74(11) :1840â1847, 2011.
[21] Daniel Schiff, Justin Biddle, Jason Boren-stein, and Kelly Laas. Whatâs next for aiethics, policy, and governance? a globaloverview. InProceedings of the AAAI/ACMConference on AI, Ethics, and Society,pages 153â158, 2020.
[22] Richard S. Sutton and Andrew G. Barto.Reinforcement learning : An introduction.IEEE Trans. Neural Networks, 9(5) :1054â1054, 1998.
[23] Judith Jarvis Thomson. Killing, lettingdie, and the trolley problem. The Monist,59(2) :204â217, 1976.
[24] Christopher J. C. H. Watkins and PeterDayan. Q-learning. Machine Learning,8(3) :279â292, May 1992.
[25] Yueh-Hua Wu and Shou-De Lin. A low-cost ethics shaping approach for designingreinforcement learning agents. In Procee-dings of the AAAI Conference on ArtificialIntelligence, volume 32, 2018.
[26] Han Yu, Zhiqi Shen, Chunyan Miao, CyrilLeung, Victor R. Lesser, and Qiang Yang.Building ethics into artificial intelligence.In Proceedings of the 27th InternationalJoint Conference on Artificial Intelligence,ÄČCAIâ18, pages 5527â5533, Stockholm,Sweden, July 2018. AAAI Press.
10