probabilité a priori vraisemblance probabilité a posteriori facteur de normalisation (performance...
TRANSCRIPT
)|(
)|(),|(),|(
MDp
MpMDpMDp
Probabilité a prioriVraisemblance
Probabilitéa posteriori
Facteur de normalisation(performance globale du modèle)
Résumé cours précédent1. Théorème de Bayes
2. Méthodes de Monte Carlo: échantillonner la distribution a posteriori
)|( Dp Kkk ..1)( ~ (K = 10 000)
Probabilité a posteriori = fréquence d´apparition dans l ´échantillon
Chick A C C G A G A T
CatFishSnailFlyHydraPolyp
A G C G A G C TA G G G A G A TA G G G A C A TA G G C A C A TA C G C A C A TA C C A A C A TA C C A A C A T
Man
Modèles stochastiques Bayésiens
données : (D)),( lThypothèse :(alignement)(phylogénie)
modèle : (M)(processus d´évolution par accumulation de mutations)
27000
28000
29000
30000
31000
32000
33000
E =-ln L
burn in(discarded)
sample
Monte Carlo Markov chain (MCMC)
)|( Dp Kkk ..1)( ),( kkk lT
Total
T
K
KMDTp ),|(
For any topology T :
~
Chick
CatFishSnailFlyHydraPolyp
Man
posterior consensus
67
87
90
45
78
Réseaux Bayésiens
• Example introductif
• Définition
• Méthodes de Monte Carlo
• Problème inverse : apprendre la structure du réseau, à partir de données observées– problème n°1 : apprendre les lois locales
– problème n°2 : apprendre la structure globale
• Application : réseaux de régulation génétique
Représenter les dépendances statistiques entre plusieurs variables
essencebougiespropres
démarrageniveauréservoir
),|()|()()(),,,( bedperpbpepdbrep
essencebougiespropres
démarrageniveauréservoir
oui 0.98
non 0.02
oui 0.96
non 0.04
e = oui e = non
b = oui 0.99 / 0.01 0 / 1
b = non 0.01 / 0.99 0 / 1
e = oui e = non
plein 0.39 0.01
mi-plein 0.60 0.01
vide 0.01 0.98
),|( bedp
)(ep )(bp
)|( erp
),|()|()()(),,,( bedperpbpepdbrep
Définition
un ensemble de variables aléatoires),...,,( 21 nxxxx
Un réseau Bayésien est une représentation graphique de ladistribution de probabilité conjointe ),...,,( 21 nxxxp
Elle est caractérisée par deux éléments :
1. un graphe acyclique orienté (à n sommets)
2. n distributions conditionnelles
))(|( iG
i xPaxp
G
où )( iG xPa est l´ensemble des parents de ix
Calcul de la distribution conjointeà partir du graphe
1x 2x 3x 6x
5x4x
)|,( 231 xxxi
),,,,,( 654321 xxxxxxp
),|(),|()|()|()|()( 5364352423121 xxxpxxxpxxpxxpxxpxp
Indépendances conditionnelles:
),|,( 5364 xxxxi ...
Classe d´équivalence : indistinguabilité
Théorème (Pearl et Verma, 1991):
Deux Graphes acycliques orientés sont équivalents ssi :- ils sont sous-tendus par le même graphe non orienté- ils ont les mêmes v-structures
1x 2x 3x 6x
5x4x
1x 2x 3x 6x
5x4x
1x 2x 3x 6x
5x4x
Deux graphes sont équivalents si ils impliquent les mêmes indépendances conditionnelles
Classe d´équivalence : indistinguabilité
Une classe d´équivalence peut être représentée de manière uniquepar un graphe acyclique partiellement orienté
1x 2x 3x 6x
5x4x
1x 2x 3x 6x
5x4x
1x 2x 3x 6x
5x4x
1x 2x 3x 6x
5x4x
),,,,,1( 6543211 xxxxxxpp
Echantillonnage de Gibbs(Chaque admet pour valeurs possibles les entiers k=1..K)ix
),,,,,2( 6543212 xxxxxxpp
),,,,,( 654321 xxxxxKxppK ....
Essayer toutes les valeurs possibles pour et recalculer laprobabilité conjointe à chaque fois :
Tirer une nouvelle valeur pour en fonction de ces probabilités
1x
1x
1x 2x 3x 6x
5x4x
Echantillonnage de Gibbs
Appliquer la même procédure à , puis , ... jusqu´à 2x 3x 6x
...
Recommencer un très grand nombre de fois (K=10 000)
KkkX ..1)( ),...,,( 621
kkkk xxxX échantillon : avec
distribué suivant la probabilité conjointe ),,,,,( 654321 xxxxxxp
Par exemple:total
kx
K
Kkxp 6)( 6
1x 2x 3x 6x
5x4x
),,,,,1( 654321 xxxxxxp
),|(),|()|()|()1|()1( 5364352423121 xxxpxxxpxxpxxpxxpxp
Echantillonnage de Gibbssimplification des calculs
),,,,,2( 654321 xxxxxxp
),|(),|()|()|()2|()2( 5364352423121 xxxpxxxpxxpxxpxxpxp
...
1x 2x 3x 6x
5x4x
),,,,1,( 654321 xxxxxxp
),|(),|()1|()1|()|1()( 5364352423121 xxxpxxxpxxpxxpxxpxp
Echantillonnage de Gibbssimplification des calculs
...
),,,,2,( 654321 xxxxxxp
),|(),|()2|()2|()|2()( 5364352423121 xxxpxxxpxxpxxpxxpxp
Echantillonnage de Gibbs
Calcul de probabilités conditionnelles
On connait la valeur des variables 26, 22, 16.
Calculer alors la probabilité des différentes valeurs possibles pour 8
Calcul de probabilités conditionnelles
Faire un Gibbs en laissant fixes les variables 26, 22, 16.
Mesurer alors la fréquence des différentes valeurs observées en 8
asymptotiquement égales aux probabilités recherchées
Problème inverse :Inférer les lois conditionnelles locales
Données: structure du réseau (G) + table d´observations (D)
Inconnues à estimer: lois de probabilités locales
(G) (D)
1x 2x 3x 6x
5x4x
Lois conditionnelles localespour les réseaux binaires
),|( 536 xxxp
(Chaque admet pour valeurs possibles 0 ou 1)ix
0 0
0 1
1 0
1 1
)1( 6 xp006016106116
3x 5x
))((2 ixPaCard
Nombres de paramètresà déterminer:
: ensemble des paramètresdu réseau
Rappel : tirage à pile ou face : probabilité de tirer pile à un tirage donné
: données observées (10 piles et 5 faces)D
Estimation rapide (efficace si beaucoup d´observations) : 15
10ˆ
Inférence Bayésienne (incertitude mieux prise en compte)
)(p
)|( Dp
0.66
)|(
)|(),|(),|(
MDp
MpMDpMDp
Métropolis sur
1x 2x 3x 6x
5x4x
Estimation rapide des lois conditionnelles locales
),|( 536 xxxp
0 0 5 12
0 1 7 2
1 0 4 0
1 1 1 24
)0( 6 xN
17/12ˆ006
9/2ˆ016
0ˆ106
25/24ˆ116
3x 5x )1( 6 xN
Inférence Bayésienne des paramètres du réseau
)|(
)|(),|(),|(
GDp
GpGDpGDp
D
G Structure du réseau
Table d´observations
Paramètres du réseau
dGpGDpGDp )|(),|()|(
Algorithme de Metropolis
),|(
),|( *
GDp
GDpa
n
n
*1 nn
nn 1
*nn 1. proposer modif
2. calculer
3. accepter avec une proba p=Min(1,a)
si accepté :
si refusé :
4. recommencer à partir de 2.
),|( MSp
N
nnN 1
1
Classificateur Bayésien « naïf »
C
A1 A2 An...
Classe
Attributs )|( CAp i
)(Cp
n
ii CApCAp
1
)|()|(
),...,,( 21 nAAAA
l
lCplCAp
kCpkCApAkCp
)()|(
)()|()|(
Classificateur Bayésien « naïf »méthode d´apprentissage
C
A1 A2 An...
Classe
Attributs )|( CAp i
)(Cp ?
?
Jeu d´apprentissage:
A1 A2 ... An C
item1
item2
...
Application des méthodes mentionnées auparavant
Classificateur Bayésien avec corrélations entre attributs
C
A1 A2 An...
Classe
AttributsA3
n
ii CApCAp
1
)|()|(
),...,,( 21 nAAAA
Cas particulier: le graphe restreint aux attributs est un arbre.
Problème inverse général :inférer la structure du réseau
?
D Table d´observations
G Structure du réseau
Inférence Bayésienne de la structure du réseau
)(
)()|()|(
Dp
GpGDpDGp
DG Structure du réseau
Table d´observations
dGpGDpGDp )|(),|()|(
Paramètres du réseau
(calculable analytiquement)
)(Gp Prior sur les réseaux possibles
Uniforme : trop flexiblePrior pénalisant les réseaux trop riches en liens
Inférence Bayésienne de la structure du réseau
)(
)()|()|(
Dp
GpGDpDGp
DG Structure du réseau
Table d´observations
dGpGDpGDp )|(),|()|(
Paramètres du réseau
Données suffisamment riches pour inférer le réseau avec certitude:rechercher graphe G qui maximise (NP difficile))|( DGp
Sinon : Monte Carlo à travers l´espace des graphes, pour échantillonner la distribution a posteriori )|( DGp
(calculable analytiquement)
Classe d´équivalence : indistinguabilité
Théorème (Pearl et Verma, 1991):
Deux Graphes acycliques orientés sont équivalents ssi :- ils sont sous-tendus par le même graphe non orienté- ils ont les mêmes v-structures
1x 2x 3x 6x
5x4x
1x 2x 3x 6x
5x4x
1x 2x 3x 6x
5x4x
Deux graphes sont équivalents si ils impliquent les mêmes indépendances conditionnelles
Classe d´équivalence : indistinguabilité
Une classe d´équivalence peut être représentée de manière uniquepar un graphe acyclique partiellement orienté
1x 2x 3x 6x
5x4x
1x 2x 3x 6x
5x4x
1x 2x 3x 6x
5x4x
Validation de la méthode par simulations
Cas réel : projets d´études supérieures
SEX : sexeSES : statut socio-économiquePE : encouragement parentalIQ : quotient intellectuelCP : projets d´études supérieures
Application : inférer les réseaux de régulation génétique à partir des
puces à ADN
Cycle cellulaire
division
synthèse d´ADN (duplication du génome)
Application : inférer les réseaux de régulation génétique à partir des
puces à ADN
Mesure de l´expression de 6177 gènes de la levure de boulanger76 mesures au total: 6 séries temporelles sur cellules synchronisées
Explorer les classes d´équivalence de réseaux de 6178 sommets- 6177 sommets correspondant aux gènes analysés- 1 sommet supplémentaire : phase du cycle cellulaire
(contraint comme racine du graphe)Méthode Monte Carlo
Discrétisation des niveaux d´expression de chaque gène-1 : sous-exprimé 0 : normal+1 : sur-exprimé
1x 2x 3x 6x
5x4x
Estimation rapide des lois conditionnelles locales
),|( 536 xxxp
0 0 5 12
0 1 7 2
1 0 4 0
1 1 1 24
)0( 6 xN
17/12ˆ006
9/2ˆ016
0ˆ106
25/24ˆ116
3x 5x )1( 6 xN
Relations de Markov
Gènes dominants (en amont des autres)
Relations de Markov