xebicon'16 : utiliser le deep learning pour interpréter des photographies par yoann benoit,...

@xebiconfr #xebiconfr

Utiliser le Deep Learning

pour interpréter des photographies

YoannBenoit


Le Deep Learning

1

2


Reconnaissance d’images

3

1a


Reconnaissance vocale

4

1b

#XebiConFr5


Analyse de sentiments sur des photographies

2

6


Mais pour quoi faire ?

7

2a

Nouveau plugin Google Photos ?

Satisfaction clients via vidéo ?


Sur quoi nous entraîner ?

8

2b

Colère Tristesse


Quelques exemples

9

2c

Surprise Joie


Quelques chiffres

10

2d

Images 48x48 pixels Plus de 30 000 images labellisées

7 sentimentscolère, dégoût, peur, joie, tristesse,

surprise, neutre

Performance Humaine :Entre 60 et 65%


En quoi ce problème est-il difficile ?

● Système visuel humain extrêmement complet

● L’être humain est très bon pour donner du sens à ce qu’il voit○ Mais ce travail est fait de manière

inconsciente

11

2e


En quoi ce problème est-il difficile ?

● Très difficile d’exprimer de manière algorithmique ce qui permet de reconnaître une image

● Machine Learning○ Large échantillon d’images pour

lesquelles on connaît le label=> Apprentissage automatique de règles

12

2f


Les Réseaux de Neurones

3

13


De quoi est composé un Réseau de Neurones ?

14

3a

De neurones ...


De quoi est composé un Réseau de Neurones ?

15

3a

De neurones ...

Associés en réseau …


Comment fonctionne un Réseau de Neurones ?

16

3b

Softm

ax

Chaque neurone intermédiaire représente

une somme pondérée des valeurs des neurones de la

couche précédente, associés à une fonction

d’activation

La dernière couche (softmax) est une

normalisation de la couche de sortie afin que

les résultats correspondent à des probabilités

(sommant à 1)


Tout est une histoire de matrices

17

3c

Y = xW + bclasses = softmax(Y)

[4, 2][1, 4][1, 2][2]



18

3d

Y = XW + bclasses = softmax(Y)

[4, 2][K, 4][K, 2]Avec des batches d’images ...

[2]



19

3e

Y = f(XW1 + b1) W2 + b2

classes = softmax(Y)

[3, 2][3][K, 2]

[2][K, 4][4, 3]

fonction d’activation


Comment trouver les poids ?

20

3f

Back-propagation: Mise à jour des poids en fonction du gradient des erreurs, de la dernière couche à la première



21

3f




22

3f



TensorFlow

● Framework de programmation open-sourcé par Google en 2016

● Aujourd’hui en version 0.11● APIs en Python, C++● Principalement utilisé pour l’entraînement et

l’utilisation de Réseaux de Neurones, et plus particulièrement pour le Deep Learning

23

3g

Aujourd’hui l’un des frameworks les plus utilisés pour le Deep Learning, avec une documentation très riche.


Commençons simplement :SR

(Softmax Regression)

4

24


Softmax Regression

25

4a


Softmax Regression

26

4a

Inputs(= pixels)


Softmax Regression

27

4a

Inputs(= pixels) Classes

(= sentiment)


Softmax Regression

28

4a

Inputs(= pixels) Classes

(= sentiment)

Poids


Softmax Regression - Résultats

29

4b

44.5%Nombre d'itérations

Prob

abili

té

@xebiconfr #xebiconfr 30


Approfondissons un peu :TNN

(“Tiny Neural Network”)

5

31


Tiny Neural Network

32

5a


Tiny Neural Network

33

5a

Inputs(= pixels)

Classes(= sentiment)

Poids


Tiny Neural Network

34

5a

Inputs(= pixels)


Poids

Couche cachée / intermédiaire


Softmax Regression - Résultats

35

5b

44.5%


Tiny Neural Network - Résultats

36

5c

56%


Continuons sur notre lancée :MSNN

(“Medium Size Neural Network”)

6

38


Medium Size Neural Network

39

6a


Medium Size Neural Network

40

6a

Inputs(= pixels)


Poids

Couches cachées


Tiny Neural Network - Résultats

41

6b

56%


Medium Size Neural Network - Résultats

42

6c

57.2%


Allons-y gaiement :BFNN

(“Big Fat Neural Network”)

7

44


Big Fat Neural Network

45

7a


Big Fat Neural Network

46

7a

Inputs(= pixels)


Poids

Couches cachées


Medium Size Neural Network - Résultats

47

7b

57.2%


Big Fat Neural Network - Résultats

48

7c

58.1%


Pourquoi les résultats ne s’améliorent pas ?

50

7e

● Normalement, un réseau plus profond permet d’apprendre des fonctions plus complexes

Mais ...● Différentes vitesses d’apprentissage des

poids selon les couches● La mise à jours des poids d’une couche

dépend de celle des poids de la couche suivante (back-propagation)


Quelles solutions ?

51

7f

Changement d’architecture de réseau ?

Algorithme d’apprentissage plus avancé ?

Changement de fonction d’activation ?


Nombre de paramètres à estimer

52

7g

2304 pixels * 7 poids + 7 biais

= 16 135

paramètres



53

7g

2304*384 + 384+

384*7 + 7 =

887 815paramètres


= 16 135

paramètres



54

7g

2304*384 + 384+

384*7 + 7 =

887 815paramètres

2304*500 + 500 + 500*300 + 300 + 300*150 + 150 +

150*7 + 7=

1 349 007paramètres


= 16 135

paramètres



55

7g

2304*384 + 384+

384*7 + 7 =

887 815paramètres

2304*500 + 500 + 500*300 + 300 + 300*150 + 150 +

150*7 + 7=


2304*1000 + 1000 + 1000*750 + 750 + 750*500 + 500 + 500*300 + 300 + 300*150 + 150 +

150*7 + 7=



= 16 135

paramètres


Soyons plus intelligents :CNN

(Convolutional Neural Network)

8

56


Réfléchissons un peu

57

8a

● Est-ce une bonne idée d’utiliser des réseaux de neurones où tous les neurones entre deux couches sont connectés entre eux ?

● Ce type de réseau ne prend pas en compte la structure spatiale de l’image





58

8a



59

8a





60

8a





61

8a





Peut-on trouver une architecture qui tire avantage de cette structure ?

62

8b



63

8b




64

8b




65

8b




66

8b




67

8b




68

8b




69

8b




70

8b




71

8b




72

8b



Hypothèses principales

● Associations locales○ Tous les pixels ne sont pas connectés à tous les neurones

cachés○ Les connexions sont faites dans des petites zones localisées

de l’image

● Mêmes poids et biais pour tous les neurones d’une même couche○ Tous les neurones d’une même couche cachée détectent le

même pattern (ex : un coin)

● Pooling○ Souvent utilisés juste après une couche de convolution○ Condenser l’information autour d’une région (max/mean)

73

8c


Première architecture utilisée

74

8d



75

8d



76

8d

ConvolutionsCouche dense


Big Fat Neural Network - Résultats

77

8e

58.1%


Convolutional Neural Network 1 - Résultats

78

8f

62.8%


Deuxième architecture utilisée

80

8h



81

8h



82

8h



83

8h

Convolutions Couche denseConvolutions



84

8i

62.8%



85

8j

64.7%


Take Aways

9

87


BE SMART!

● Exploiter au mieux la structure de vos données.

● Certaines architectures sont plus adaptées pour les images, d’autres pour le texte, etc.


TEST AND LEARN!

● Pas de règles absolues sur les structures de réseaux de neurones qui fonctionnent le mieux.

● Tester intelligemment différentes structures et essayer de comprendre pourquoi l’une fonctionne mieux que l’autre.


DO NOT REINVENT THE WHEEL!

● L’écosystème autour du Deep Learning est en croissance continue.

● De plus en plus de frameworks sont disponibles et bien documentés (TensorFlow, Keras, etc.).

● Commencer avec des exemples connus puis se perfectionner par rapport aux données à disposition.


HAVE FUN!

● Introduction à TensorFlow - Martin Görner (Google)

https://docs.google.com/presentation/d/1TVixw6ItiZ8igjp6U17tcgoFrLSaHWQmMOwjlgQY9co/pub?start=false&loop=false&delayms=3000

● Neural Networks and Deep Learning - Online Book

http://neuralnetworksanddeeplearning.com/

● TensorFlow documentationhttps://www.tensorflow.org/







MERCI =)

xebicon'16 : utiliser le deep learning pour interpréter des photographies par yoann benoit,...

Technology