alphazero: apprentissage par renforcement et … r eseaux de neurones l’algorithme alphazero r...
TRANSCRIPT
![Page 1: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/1.jpg)
AlphaZero:apprentissage par renforcement et reseaux de
neurones a convolutions pour les jeux de plateau
Remi Coulom
Juin 2018
![Page 2: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/2.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
AlphaZeroPlan de l’expose
Janvier 2016: Le choc AlphaGo
Des resultats spectaculaires
Domine les meilleursconcurrents (99.8% devictoires)
Premiere victoire contre unjoueur humain professionnel(Fan Hui, championd’Europe)
Remi Coulom AlphaZero 2 / 50
![Page 3: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/3.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
AlphaZeroPlan de l’expose
Mars 2016: Defaite d’un champion legendaire
Match contre Lee Sedol
Victoire 4-1 pour la machine
Choc immense dans lemonde du go
Un film documentaire,AlphaGo (disponible surNetflix)
Remi Coulom AlphaZero 3 / 50
![Page 4: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/4.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
AlphaZeroPlan de l’expose
Octobre 2017: AlphaGo Zero, Decembre 2017: AlphaZero
Apprendre a partir de zero
AlphaGo apprenait a imiterdes parties d’experts
AlphaGo Zero apprend desparties qu’il joue contrelui-meme
AlphaZero generalisel’approche aux echecs et aushogi
Regles → AlphaZero → IA forte
go
echecs
shogi
gomoku
Remi Coulom AlphaZero 4 / 50
![Page 5: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/5.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
AlphaZeroPlan de l’expose
Plan de l’expose
Reseaux de Neurones
L’algorithme AlphaZero
Application au morpion
Remi Coulom AlphaZero 5 / 50
![Page 6: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/6.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
Regression lineaireReseaux de neurones scalaireDescente de gradientReseaux de neurones a convolutions
Regression lineaire
yi = w0 + w1 × xi
Erreur E =∑
i (yi − y∗i )2
Trouver w0 et w1 quiminimisent E
Remi Coulom AlphaZero 6 / 50
![Page 7: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/7.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
Regression lineaireReseaux de neurones scalaireDescente de gradientReseaux de neurones a convolutions
Un neurone
Remi Coulom AlphaZero 7 / 50
![Page 8: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/8.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
Regression lineaireReseaux de neurones scalaireDescente de gradientReseaux de neurones a convolutions
Rectified Linear Unit
Remi Coulom AlphaZero 8 / 50
![Page 9: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/9.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
Regression lineaireReseaux de neurones scalaireDescente de gradientReseaux de neurones a convolutions
Reseau de neurones scalaire
Remi Coulom AlphaZero 9 / 50
![Page 10: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/10.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
Regression lineaireReseaux de neurones scalaireDescente de gradientReseaux de neurones a convolutions
Descente de gradient stochastique
On initialize les poids aleatoirement
On mesure l’erreur E sur une entree xi aleatoire
w ← w − η ∂E∂w
η coefficient d’apprentissage (learning rate)
Remi Coulom AlphaZero 10 / 50
![Page 11: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/11.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
Regression lineaireReseaux de neurones scalaireDescente de gradientReseaux de neurones a convolutions
Donnees sous forme de matrice: images, jeu
Remi Coulom AlphaZero 11 / 50
![Page 12: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/12.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
Regression lineaireReseaux de neurones scalaireDescente de gradientReseaux de neurones a convolutions
Convolution
Remi Coulom AlphaZero 12 / 50
![Page 13: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/13.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
Regression lineaireReseaux de neurones scalaireDescente de gradientReseaux de neurones a convolutions
Architecture du reseau: une couche
Remi Coulom AlphaZero 13 / 50
![Page 14: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/14.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
Apprentisage par renforcementMCTSAlphaZero
Apprentissage par renforcement
Maximiser la somme des recompenses au cours du temps
Probleme de controle optimal
Par opposition a apprentissage supervise (probleme deregression)
Remi Coulom AlphaZero 14 / 50
![Page 15: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/15.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
Apprentisage par renforcementMCTSAlphaZero
L’approche acteur-critque
Le systeme estime, pour chaque action a, et chaque etat s:
acteur: π(s, a), probabilite de choisir a dans s
critique: V (s), esperance de recompense cumulee depuisl’etat s
Remi Coulom AlphaZero 15 / 50
![Page 16: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/16.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
Apprentisage par renforcementMCTSAlphaZero
Architecture du reseau
Remi Coulom AlphaZero 16 / 50
![Page 17: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/17.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
Apprentisage par renforcementMCTSAlphaZero
MCTS (Monte Carlo Tree Search)
Remi Coulom AlphaZero 17 / 50
![Page 18: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/18.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
Apprentisage par renforcementMCTSAlphaZero
MCTS avec un reseau de neurones
Selection de l’action a
maxa
Q(s, a) + cπ(s, a)
√∑b N(s, b)
1 + N(s, a)
Q(s, a): moyenne des evaluations
c: coefficient d’exploration
π(s, a): probabilite de a
N(s, a): nombre de visites de a
Remi Coulom AlphaZero 18 / 50
![Page 19: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/19.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
Apprentisage par renforcementMCTSAlphaZero
AlphaZero: 1. Jouer contre soi-meme
Remi Coulom AlphaZero 19 / 50
![Page 20: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/20.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
Apprentisage par renforcementMCTSAlphaZero
AlphaZero: 2. Apprendre
Remi Coulom AlphaZero 20 / 50
![Page 21: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/21.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
Apprentisage par renforcementMCTSAlphaZero
Calculs de AlphaGo Zero
80 couches de 256 unites.
256× 256 convolutions 3x3 par couche
environ 50 millions de parametres
pres de 20 milliards de multiplications pour une evaluation
5000 TPUs pendant 30 jours
4,9 millions de parties jouees a 1,600 simulations par coup
Remi Coulom AlphaZero 21 / 50
![Page 22: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/22.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
Apprentisage par renforcementMCTSAlphaZero
Resultat
Le programmable est imbattable par les humains
Un style original, imite par les pros
Remi Coulom AlphaZero 22 / 50
![Page 23: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/23.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Application au morpion (gomoku narabe)
Tres populaire en Asie etEurope de l’Est.
Les meilleures programmesne battent les meilleurshumains que depuis tresrecemment.
Une competition annuelleentre programmes: laGomocup.
Remi Coulom AlphaZero 23 / 50
![Page 24: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/24.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Apprentissage
12 couches
128 neurones
environ 1 millions de poids
(contrainte de taille de la gomocup)
Remi Coulom AlphaZero 24 / 50
![Page 25: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/25.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Detection de l’alignement de 5
Remi Coulom AlphaZero 25 / 50
![Page 26: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/26.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Iteration 2
Remi Coulom AlphaZero 26 / 50
![Page 27: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/27.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Iteration 11
Remi Coulom AlphaZero 27 / 50
![Page 28: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/28.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Iteration 31
Remi Coulom AlphaZero 28 / 50
![Page 29: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/29.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Position de depart V = −0.3611
Remi Coulom AlphaZero 29 / 50
![Page 30: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/30.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Iteration 9 V = −0.10
Remi Coulom AlphaZero 30 / 50
![Page 31: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/31.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Iteration 20 V = −0.70
Remi Coulom AlphaZero 31 / 50
![Page 32: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/32.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Iteration 25 V = +0.8741
Remi Coulom AlphaZero 32 / 50
![Page 33: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/33.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Iteration 31 V = +0.9974
Remi Coulom AlphaZero 33 / 50
![Page 34: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/34.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Partie
Remi Coulom AlphaZero 34 / 50
![Page 35: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/35.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Partie
Remi Coulom AlphaZero 35 / 50
![Page 36: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/36.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Partie
Remi Coulom AlphaZero 36 / 50
![Page 37: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/37.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Partie
Remi Coulom AlphaZero 37 / 50
![Page 38: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/38.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Partie
Remi Coulom AlphaZero 38 / 50
![Page 39: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/39.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Partie
Remi Coulom AlphaZero 39 / 50
![Page 40: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/40.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Partie
Remi Coulom AlphaZero 40 / 50
![Page 41: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/41.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Partie
Remi Coulom AlphaZero 41 / 50
![Page 42: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/42.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Partie
Remi Coulom AlphaZero 42 / 50
![Page 43: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/43.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Partie
Remi Coulom AlphaZero 43 / 50
![Page 44: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/44.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Partie
Remi Coulom AlphaZero 44 / 50
![Page 45: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/45.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Partie
Remi Coulom AlphaZero 45 / 50
![Page 46: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/46.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Partie
Remi Coulom AlphaZero 46 / 50
![Page 47: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/47.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Partie
Remi Coulom AlphaZero 47 / 50
![Page 48: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/48.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Partie
Remi Coulom AlphaZero 48 / 50
![Page 49: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/49.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
MorpionResultats experimentaux
Victoire contre Yixin
Le match
Yixin: Vainqueur de la Gomocup, 7 fois consecutivement
5 secondes par coup, GPU: GTX 960M, CPU: i7-6700HQ a2.60 GHz
41 ouvertures de piskvork, 1 partie de chaque couleur
Resultat: victoire 48-34 (8 fois 2-0, 1 fois 0-2, 32 fois 1-1).
Environ 800 evaluations par seconde (Yixin: 1000 fois plus?)
Remi Coulom AlphaZero 49 / 50
![Page 50: AlphaZero: apprentissage par renforcement et … R eseaux de Neurones L’algorithme AlphaZero R esultats exp erimentaux Conclusion Apprentisage par renforcement MCTS AlphaZero Calculs](https://reader031.vdocuments.mx/reader031/viewer/2022021903/5b9d08e509d3f2de128b7775/html5/thumbnails/50.jpg)
IntroductionReseaux de Neurones
L’algorithme AlphaZeroResultats experimentaux
Conclusion
Conclusion
Une methode generique pour les jeux de plateau
Pas necessaire de construire des heuristiques a la main
Fonctionne hyper bien
Remi Coulom AlphaZero 50 / 50