plan du cours de probabilités
TRANSCRIPT
Probabilités
Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales
Conditionnement : loi et espéranceconditionnelle
Indépendance
Vecteurs Gaussiens
Anne Sabourin
Plan du cours de probabilités
Semaine 3I Probabilités discrètesI Variables et vecteurs aléatoires discretsI Espérance, espérance conditionnelle
Semaine 4I Indépendance, variance, covarianceI Variables aléatoires continuesI Vecteurs aléatoires continus
Fondamentaux pour le Big Data c© Télécom ParisTech 1/14
Probabilités
Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales
Conditionnement : loi et espéranceconditionnelle
Indépendance
Vecteurs Gaussiens
Anne Sabourin
Cadre continu multivarié
I X : Ω→ Rd une fonctionI (Ω,A,P) espace probabilisé.I Ensembles d’intérêt :
X ∈ R où R = [a1, b1]× · · · × [ad , bd ] ("rectangle")
déf : X est un vecteur aléatoire (tout court) si
X ∈ R est un événement (i.e.,X ∈ R ∈ A),
pour tout R = [a1, b1]× . . .× [ad , bd ], ai , bi ∈ R.
I Comme en 1D : les fonctions X → Rd seront « toujours »des vecteurs aléatoires.
Fondamentaux pour le Big Data c© Télécom ParisTech 2/14
Probabilités
Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales
Conditionnement : loi et espéranceconditionnelle
Indépendance
Vecteurs Gaussiens
Anne Sabourin
Vecteur aléatoire continudéf : Un vecteur aléatoire X = (X1, . . . ,Xd) est continu si
∃ f : Rd → R+,∫Rd f (x1, . . . , xd ) dx1 · · · dxd = 1 (densité),
telle que pour tout rectangle R = [a1, b1]× · · · × [ad , bd ],
P(X ∈ R) =
∫[a1,b1]
· · ·∫
[ad ,bd ]f (x1, . . . , xd ) dx1 · · · dxd
Fondamentaux pour le Big Data c© Télécom ParisTech 3/14
Probabilités
Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales
Conditionnement : loi et espéranceconditionnelle
Indépendance
Vecteurs Gaussiens
Anne Sabourin
Densités marginales (couple (X ,Y ) continu)
P(X ∈ [a, b]) = P(X ∈ [a, b],Y ∈ R)
=
∫x∈[a,b]
(∫y∈R
f(X,Y)(x, y) dy)
︸ ︷︷ ︸fonction de x
dx
fX (x) =
∫y∈R
f(X ,Y )(x , y) dy ; fY (y) =
∫x∈R
f(X ,Y )(x , y) dx .
Fondamentaux pour le Big Data c© Télécom ParisTech 4/14
Probabilités
Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales
Conditionnement : loi et espéranceconditionnelle
Indépendance
Vecteurs Gaussiens
Anne Sabourin
Densité conditionnelleSoit (X ,Y ) un couple continu, de densité jointe f(X ,Y ).
I Si on observe X = x, que sait-on sur Y ?I Problème : P(X = x) = 0 : proba conditionnelle
« sachant X = x » n’existe pas.I Mais si fX (x) 6= 0 on peut définir :
Densité conditionnelleSoit x tel que fX (x) 6= 0. La fonction :
y 7→ fY |X (y |x) =f(X ,Y )(x , y)
fX (x)
est appelée « densité conditionnelle de Y sachant X = x ».
Remarque importanteLa fonction y 7→ fY |X (y |x) est une densité de probabilité sur R.
Fondamentaux pour le Big Data c© Télécom ParisTech 5/14
Probabilités
Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales
Conditionnement : loi et espéranceconditionnelle
Indépendance
Vecteurs Gaussiens
Anne Sabourin
Loi conditionnelledéf : La loi conditionnelle de Y sachant X = x estLa loi sur R dont la densité est fY |X ( · | x).
PY |X ([a, b]|x) =
∫y∈[a,b]
fY |X ( y | x) dy
Fondamentaux pour le Big Data c© Télécom ParisTech 6/14
Probabilités
Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales
Conditionnement : loi et espéranceconditionnelle
Indépendance
Vecteurs Gaussiens
Anne Sabourin
Loi conditionnelle : preuve del’interprétation géométrique
Rapport entre les aires foncées /claires :
∆ =
∫y∈[a,b] f (x , y) dy∫y∈R f (x , y) dy
PY |X ([a, b]|x)déf=
∫y∈[a,b]
fY |X (y |x) dy déf=
∫y∈[a,b]
f(X ,Y )(x , y)
fX (x)dy
déf=
∫y∈[a,b]
f(X ,Y )(x , y)∫R f (x , y) dy
dy =
∫y∈[a,b] f(X ,Y )(x , y)∫
R f (x , y) dy
= ∆
Fondamentaux pour le Big Data c© Télécom ParisTech 7/14
Probabilités
Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales
Conditionnement : loi et espéranceconditionnelle
Indépendance
Vecteurs Gaussiens
Anne Sabourin
Utilisation de la loi conditionnelle
(X ,Y ) : Ω→ X × Y couple aléatoire. On donne PX et PY |X .Loi de Y ?
(cas discret) P (Y ∈ A) =∑x∈X
P (X = x ,Y ∈ A)
=∑x∈X
P(Y ∈ A|X = x) P(X = x)
=∑x∈X
(∑y∈A
PY |X (y |x))P(X = x)
(cas continu) P (Y ∈ A) =
∫x∈R
∫y∈A
f(X ,Y )(x , y) dy dx
=
∫x∈R
(∫y∈A
fY |X (y |x) dy)fX (x) dx
Fondamentaux pour le Big Data c© Télécom ParisTech 8/14
Probabilités
Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales
Conditionnement : loi et espéranceconditionnelle
Indépendance
Vecteurs Gaussiens
Anne Sabourin
Espérance conditionnelle
(X ,Y ) un couple aléatoire continu, de densité jointe f(X ,Y ).
On observe X = x. Que peut-on attendre de Y en moyenne ?
déf : l’espérance conditionnelle de Y sachant X = x est
E(Y |X = x) =
∫x∈R
y fY |X (y |x) dy
I remarque importante : g(x)déf= E(Y |X = x) est une
fonction de x. Donc E(Y |X )déf= g(X ) est une variable
aléatoire
Fondamentaux pour le Big Data c© Télécom ParisTech 9/14
Probabilités
Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales
Conditionnement : loi et espéranceconditionnelle
Indépendance
Vecteurs Gaussiens
Anne Sabourin
Espérance et espérance conditionnelle
On définit E(Y |X )déf= g(X ), où g(x) = E(Y |X = x).
prop : Espérance et espérance conditionnelleSi Y est intégrable, alors E (Y |X ) aussi et
E (Y ) = EX
(E (Y |X )
)preuve c.f. cas discret. Remarquer que fY |X fX = f(X ,Y ).
intérêt : calculer E (Y ) si on connaît fX et fY |X .
I ex : (X ,Y ) couple aléatoire défini par :I X ∼ U[0,1]
I Loi conditle de Y : Y |X = x ∼ N (x , σ2).
I Espérance de Y ?E (Y |X = x) = x donc E (Y ) = EX [E (Y |X )] = EX [X ] = 1
2
Fondamentaux pour le Big Data c© Télécom ParisTech 10/14
Probabilités
Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales
Conditionnement : loi et espéranceconditionnelle
Indépendance
Vecteurs Gaussiens
Anne Sabourin
IndépendanceSoit X = (X1, . . . ,Xd ) un vecteur aléatoire
déf : Les variables aléatoires X1 . . . ,Xd sont indépendantes si
Pour tout « rectangle » R = A1 × . . .× Ad ⊂ Rd ( les Ai sontdes intervalles), les événements
X1 ∈ A1, . . . , Xd ∈ Ad
sont indépendants.
(comparer avec le cas discret . . . )
Caractérisation (cas où X est continu) :Les Xi sont indépendantes si et seulement si la densité jointe duvecteur X est le produit des densités marginales :
fX(x1, . . . , xd ) =d∏
i=1
fXj (xj)
Fondamentaux pour le Big Data c© Télécom ParisTech 11/14
Probabilités
Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales
Conditionnement : loi et espéranceconditionnelle
Indépendance
Vecteurs Gaussiens
Anne Sabourin
Vecteurs GaussiensX = (X1, . . . ,Xd ) est appelé « Vecteur Gaussien »si toutes lescombinaisons linéaires des Xi sont des gaussiennes.
prop : Construction (admis)
X est Gaussien⇔∃A ∈ Rd×d , µ ∈ Rd ,N = (N1, . . . ,Nd ) : X = µ+ AN
où (N1, . . . ,Nd ) sont Gaussiennes standard, indépendantes.
I La loi de X est alors caractérisée entièrement parI Son espérance, E (X) = µI Sa matrice de covariance,
Σ = AA>
preuve : pour Σ, vérifiez que E (NN>) = Id et écrivez ladéfinition matricielle de Cov(X ).
Fondamentaux pour le Big Data c© Télécom ParisTech 12/14
Probabilités
Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales
Conditionnement : loi et espéranceconditionnelle
Indépendance
Vecteurs Gaussiens
Anne Sabourin
Indépendance dans les vecteurs GaussiensSoit X ∼ N (µ,Σ) un vecteur Gaussien.Alors la réciproque : dé-corrélation ⇒ indépendance devientvraie :
Si la matrice de covariance Σ d’un vecteur Gaussien X estdiagonale, alors ses composantes X1, . . . ,Xd sont indépendantes.
pourquoi ?I Densité en x = (x1, . . . , xd ) (Si Σ inversible)
fµ,Σ(x) =1√
(2π)d | detΣ|e−12 (x−µ)>Σ−1(x−µ)
I Si Σ est diagonale,densité jointe = produit de densités uni-variéesdonc variables indépendantes
Attention : vérifier que le vecteur X est Gaussien, pas seulementses composantes Xi !
Fondamentaux pour le Big Data c© Télécom ParisTech 13/14
Probabilités
Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales
Conditionnement : loi et espéranceconditionnelle
Indépendance
Vecteurs Gaussiens
Anne Sabourin
Densité Gaussienne : Exemple
θ = π/6, µ = 0, Σ = PDP>, où
P =(
cos(θ) − sin(θ)sin(θ cos(θ)
)(vecteurs propres) D = ( 2 0
0 1 ) (valeurs propres)
Lignes de niveau de la densité :
−2 −1 0 1 2
−2
−1
01
2
X
Y
Fondamentaux pour le Big Data c© Télécom ParisTech 14/14