normalverteilungprüfgrößenml-schätzungmap ...€¦ · mustererkennung...

17
MUSTERERKENNUNG Vorlesung im Sommersemester 2020 Prof. E.G. Schukat-Talamazzini Stand: 28. April 2020 Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ R Teil VII Normalverteilungsklassifikatoren Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ R Multivariate Normalverteilungsdichte Normalverteilungsklassifikatoren Maximum-Likelihood Parameterschätzung Maximum-a posteriori- und Bayesschätzung Graphische Gaußsche Modelle Mathematische Hilfsmittel Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ R Univariate Normalverteilungsdichte N (x | μ, σ 2 ) def = 1 σ 2π · exp - (x - μ) 2 2σ 2 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 -4 -2 0 2 4 6 8 10 12 N(x|3,1) N(x|3,4) N(x|3,9) Definition Eine stetige Zufallsvariable X heißt (univariat) normalverteilt mit Mittelwert μ IR und Varianz σ 2 6= 0, wenn gilt: f X (x )= N (x | μ, σ 2 ) Bemerkung Unter der Annahme klassenweise statistisch unabhängiger und normalverteilter Merkmale läßt sich die (naive!) Bayesregel mit Hilfe von K · D univariaten NV-Dichten realisieren.

Upload: others

Post on 18-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: NormalverteilungPrüfgrößenML-SchätzungMAP ...€¦ · MUSTERERKENNUNG VorlesungimSommersemester2020 Prof.E.G.Schukat-Talamazzini Stand:28.April2020 NormalverteilungPrüfgrößenML-SchätzungMAP-SchätzungGraphischeModelle

MUSTERERKENNUNG

Vorlesung im Sommersemester 2020

Prof. E.G. Schukat-Talamazzini

Stand: 28. April 2020

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Teil VII

Normalverteilungsklassifikatoren

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Multivariate Normalverteilungsdichte

Normalverteilungsklassifikatoren

Maximum-Likelihood Parameterschätzung

Maximum-a posteriori- und Bayesschätzung

Graphische Gaußsche Modelle

Mathematische Hilfsmittel

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Univariate Normalverteilungsdichte

N (x | µ, σ2)def=

1σ√2π· exp

−(x − µ)2

2σ2

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

-4 -2 0 2 4 6 8 10 12

N(x|3,1)N(x|3,4)N(x|3,9) Definition

Eine stetige Zufallsvariable X heißt(univariat) normalverteilt mitMittelwert µ ∈ IR und Varianzσ2 6= 0, wenn gilt:

fX(x) = N (x | µ, σ2)

BemerkungUnter der Annahme klassenweise statistisch unabhängiger und normalverteilterMerkmale läßt sich die (naive!) Bayesregel mit Hilfe von K ·D univariaten NV-Dichtenrealisieren.

Page 2: NormalverteilungPrüfgrößenML-SchätzungMAP ...€¦ · MUSTERERKENNUNG VorlesungimSommersemester2020 Prof.E.G.Schukat-Talamazzini Stand:28.April2020 NormalverteilungPrüfgrößenML-SchätzungMAP-SchätzungGraphischeModelle

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Bivariat unkorrelierte Normalverteilungsdichte

N (x | µ, σ21, σ22)def=

12πσ1σ2

·exp

−12·(

(x1 − µ1)2

σ21+

(x2 − µ2)2

σ22

)

-20

24

68 -2

0

2

4

6

8

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

N(x|(3,3),(3,5)) DefinitionEine stetiger ZufallsvektorX = (X1,X2) heißt bivariatunkorreliert normalverteilt mitMittelwertvektor µ ∈ IR2 undVarianzen σ2

1 , σ22 > 0, wenn gilt:

fX(x1, x2) = N (x | µ, σ21 , σ

22)

BemerkungFür Normalverteilungen sind Unkorreliertheit und Unabhängigkeit äquivalent.Obige Dichte entspricht also dem Produkt N (x1 | µ1, σ21) · N (x2 | µ2, σ22) derunivariaten NV-Dichten (Randverteilungen).

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Multivariate Normalverteilungsdichte

DefinitionEin Zufallsvektor X = (X1, . . . ,XD)> heißt multivariatnormalverteilt, falls er der D-dimensionalenVerteilungsdichtefunktion

N (x | µ,S)def=

1√det(2πS)

· exp

−12· (x − µ)>S−1(x − µ)

gehorcht. Es ist µ ∈ IRD der Erwartungswertvektor derVerteilung; die positiv-definite, symmetrische Matrix S ∈ IRD×D

heißt Kovarianzmatrix der Normalverteilung.

Bemerkungen1. Die Isolinien (Hyperebenen gleicher Dichtewerte) der multivariaten NV-Dichte

besitzen die Form von Hyperellipsoiden.

2. Die Richtungen und Radien ihrer Achsen entnehmen wir den Eigenvektoren undEigenwerten der Diagonalisierung S = UDU>.

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Parameterreduzierte Normalverteilungsdichten

µ

Normalverteilung

µ

Unabhängige Merkmale

µ

Euklidischer Abstand

Symmetrischpositiv-definit

Diagonalmatrix Einheitsmatrixskaliert

σ11 σ12 . . . σ1Dσ21 σ22 . . . σ2D...

. . ....

σD1 σD2 . . . σDD

σ2

1 0 . . . 00 σ2

2 . . . 0...

. . ....

0 0 . . . σ2D

σ2 0 . . . 00 σ2 . . . 0...

. . ....

0 0 . . . σ2

allgemeinesHyperellipsoid

Trägheitsachsenparallel zuKoordinatenachsen

skalierteHypersphäre

(D + 1) · D/2 Parameter D Parameter 1 Parameter

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Ist N (µ,S) ein gutes Verteilungsmodell ?Das kommt ganz auf die Anwendung & den Lerndatenvorrat an

Das NV-Modell ist zu simpel für unsere Daten

• Unimodale Dichtelandschaft ? Löwe/Löwin

• Elliptische Symmetrie ? nichtnegative Merkmale

• Exponentielles Abklingverhalten ? Ausreißer

Das NV-Modell ist zu komplex für unseren Klassifikator

• Speicheraufwand O(D2 · K ) ? Bilder, Microarrays

• Rechenaufwand O(D2 · K ) ? Echtzeitanwendungen

• Robustheit der Schätzung S = S(ω) ? Rang und Inversenbildung

Page 3: NormalverteilungPrüfgrößenML-SchätzungMAP ...€¦ · MUSTERERKENNUNG VorlesungimSommersemester2020 Prof.E.G.Schukat-Talamazzini Stand:28.April2020 NormalverteilungPrüfgrößenML-SchätzungMAP-SchätzungGraphischeModelle

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Multivariate Normalverteilungsdichte

Normalverteilungsklassifikatoren

Maximum-Likelihood Parameterschätzung

Maximum-a posteriori- und Bayesschätzung

Graphische Gaußsche Modelle

Mathematische Hilfsmittel

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Normalverteilungsklassifikator

DefinitionEinen Klassifikator mit den Prüfgrößen

uκ(x) = P(x ,Ωκ) = pκ · N (x | µκ,Sκ) , x ∈ IRD

für κ = 1, . . . ,K bezeichnet man als D-dimensionalenNormalverteilungsklassifikator mit den Verteilungsparametern[pκ,µκ,Sκ]κ=1..K .

BemerkungIn der Praxis verwendet man einfachheitshalber die dazu antitonen Prüfgrößen

uκ(x) = −2 · log (P(x ,Ωκ)) ,

die quadratische Funktionen der Mustermerkmale sind.

Entscheidungsregel: Prüfgröße minimieren (Minuszeichen)

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Prüfgrößen der NV-BayesregelNormalverteilungsklassifikator mit uneingeschränkten Kovarianzmatrizen Sκ

uκ(x) = −2 log pκ + log |2πSκ|︸ ︷︷ ︸γκ

+ (x − µκ)> · S−1κ · (x − µκ)︸ ︷︷ ︸Mahalanobisabstand ‖x−µκ‖

2Sκ

Bemerkungen1. Je Klasse 1 + D +

(D+12

)Parameter O(D2K )

2. Je Muster und Klasse 3D2 Addit./Multiplik. O(D2K )

x>S−1κ x =

D∑i=1

D∑j=1

xicκij xj , Cκ = S−1κ

3. Für den Abstandsausdruck lohnt sich die folgende Betrachtung:

(x − µκ)>S−1κ (x − µκ) = x>S−1κ x︸ ︷︷ ︸spur

(S−1κ ·xx>

)− 2µ>κ S−1κ︸ ︷︷ ︸a>κ

x + µ>κ S−1κ µκ︸ ︷︷ ︸cκ

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Prüfgrößen der naiven NV-BayesregelNormalverteilungsklassifikator mit diagonalen Kovarianzmatrizen Sκ

uκ(x) = γκ +D∑

d=1

(xd − µκ,dσκ,d

)2

mit der Konstanten

γκ = −2 log pκ + D · log(2π) +∑d

log σ2κ,d

Bemerkungen1. Je Klasse 1 + D + D Parameter O(DK )

2. Je Muster und Klasse 4D Addit./Multipl./Divis. O(DK )

3. Keine Merkmalkorrelationen — keine „schrägen“ Klassengebiete!

Page 4: NormalverteilungPrüfgrößenML-SchätzungMAP ...€¦ · MUSTERERKENNUNG VorlesungimSommersemester2020 Prof.E.G.Schukat-Talamazzini Stand:28.April2020 NormalverteilungPrüfgrößenML-SchätzungMAP-SchätzungGraphischeModelle

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Prüfgrößen der sphärischen NV-BayesregelNormalverteilungsklassifikator mit skalierter Einheitskovarianz Sκ = σ2κE

uκ(x) = γκ + ‖x − µκ‖2 / σ2κ

mit der Konstanten

γκ = −2 log pκ + D · log(2π) + 2D · log σκ

Bemerkungen1. Je Klasse 1 + D + 1 Parameter O(DK )

2. Je Muster und Klasse 3D Addit./Multipl./Divis. O(DK )

3. Klassengebiete = Hyperkugeln unterschiedlicher Radien

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Prüfgrößen des Minimum-Abstand-KlassifikatorsNormalverteilungsklassifikator mit Einheitskovarianz Sκ = E

uκ(x) = γκ + ‖x − µκ‖2

mit der Konstantenγκ = −2 log pκ + D · log(2π)

Bemerkungen1. Je Klasse 1 + D + 0 Parameter O(DK )

2. Je Muster und Klasse 2D Addit./Multipl./Divis. O(DK )

3. Klassengebiete = Hyperkugeln identischer Radien

4. Modifizierter MAK — incl. Klassengewicht γκ

5. Gewöhnlicher MAK — excl. Klassengewicht γκ

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Prüfgrößen des Mahalanobis-KlassifikatorsNormalverteilungsklassifikator mit klassenunabhängiger Kovarianz Sκ = S0

uκ(x) = γκ + (x − µκ)> · S−10 · (x − µκ)︸ ︷︷ ︸Mahalanobisabstand ‖x−µκ‖

2S0

mit der Konstanten

γκ = −2 log pκ + D · log(2π) + log |S0|

Bemerkungen1. Je Klasse 1 + D Parameter zzgl. S0 O(DK + D2)

2. Je Klasse 2D Addit./Multiplik. zzgl. quadr. Form O(DK + D2)

3. Für den Abstandsausdruck lohnt sich die folgende Betrachtung:

(x − µκ)>S−10 (x − µκ) = x>S−10 x︸ ︷︷ ︸spur(S−1

0 ·xx>)

− 2µ>κ S−10︸ ︷︷ ︸a>κ

x + µ>κ S−10 µκ︸ ︷︷ ︸cκ

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Prüfgrößen des Richter-KlassifikatorsNormalverteilungsklassifikator mit isotrop skalierter Kovarianz Sκ = ακS0

uκ(x) = γκ + α−1κ · (x − µκ)> · S−10 · (x − µκ)︸ ︷︷ ︸α−1κ ·‖x−µκ‖

2S0

mit der Konstanten

γκ = −2 log pκ + D · log(2π) + D · logακ + log |S0|

Bemerkungen1. Je Klasse 1 + D + 1 Parameter zzgl. S0 O(DK + D2)

2. Je Klasse 2D Addit./Multiplik. zzgl. quadr. Form O(DK + D2)

3. Für den Abstandsausdruck lohnt sich die folgende Betrachtung:

x>S−1κ x = α−1κ · spur(S−10 · xx>

)︸ ︷︷ ︸

Cx

Page 5: NormalverteilungPrüfgrößenML-SchätzungMAP ...€¦ · MUSTERERKENNUNG VorlesungimSommersemester2020 Prof.E.G.Schukat-Talamazzini Stand:28.April2020 NormalverteilungPrüfgrößenML-SchätzungMAP-SchätzungGraphischeModelle

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Prüfgrößen des EigenraumklassifikatorsNormalverteilungsklassifikator mit achsenparallelen Kovarianzen Sκ = UDκU>

uκ(x) = γκ + (U>(x − µκ))> ·D−1κ · (U>(x − µκ))︸ ︷︷ ︸‖U>(x−µκ)‖2Dκ

mit der Konstanten

γκ = −2 log pκ + D · log(2π) +∑d

log λκd

Bemerkungen1. Je Klasse 1 + D + D Parameter zzgl. U O(DK + D2)

2. Je Klasse 4D Operationen für ‖·‖2Dκ zzgl. D2 für U>x O(DK + D2)

3. Für den Abstandsausdruck lohnt sich die folgende Betrachtung:

x>S−1κ x = x>UD−1κ U>x = (U>x)>D−1κ (U>x) =D∑

d=1

(u>d x)2 / λκd

4. Es kommt auch eine unvollständige Entwicklung in Betracht, bei derTrägheitsachsen mit kleinen Eigenwerten ignoriert werden ...

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Multivariate Normalverteilungsdichte

Normalverteilungsklassifikatoren

Maximum-Likelihood Parameterschätzung

Maximum-a posteriori- und Bayesschätzung

Graphische Gaußsche Modelle

Mathematische Hilfsmittel

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Parameterschätzung für WahrscheinlichkeitsmodelleVerteilungsmodell Lerndaten Parameterschätzwert

Parametrische VerteilungsdichtefamilieDie Wertetupel x ∈ IRD eines Zufallsvektors X seien gemäß

f(x |θ) | θ ∈M

verteilt; jede Verteilungsdichte der Familie ist durch ein Feld θ vonParametern aus einer MannigfaltigkeitM charakterisiert.

Repräsentative LernstichprobeDie unbekannte Verteilung von X ist durch eine Stichprobe ωrepräsentiert, deren Elemente x1, . . . , xT unabhängig und identischgemäß f(·|θ) verteilt gezogen wurden.

ProblemWie lautet der beste Schätzwert θ für die unbekannten Parameter θ∗ ?

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Maximum-Likelihood SchätzungLemmaDie (logarithmierte) Ziehungswahrscheinlichkeit für den unabhängig undidentisch mittels f(·|θ) gezogenen Datensatz ω beträgt

`θ(ω) = log∏x∈ω

f(x |θ) =∑x∈ω

log f(x |θ) .

Die Größe `θ(ω) heißt Likelihoodfunktion von θ.

DefinitionDie Maximum-Likelihood-Schätzung (MLS) der Parameter einerDichtefamilie [f(x |θ)] maximiert die parameterbedingteStichprobenwahrscheinlichkeit, d.h. es gilt

θML = argmaxθ

∏x∈ω

f(x |θ) = argmaxθ

∑x∈ω

log f(x |θ) .

BemerkungDer ML-Schätzwert θML ist von allen Parameterwerten derjenige, zu dem dievorliegenden Daten ω am besten passen.

Page 6: NormalverteilungPrüfgrößenML-SchätzungMAP ...€¦ · MUSTERERKENNUNG VorlesungimSommersemester2020 Prof.E.G.Schukat-Talamazzini Stand:28.April2020 NormalverteilungPrüfgrößenML-SchätzungMAP-SchätzungGraphischeModelle

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Maximum-Likelihood Schätzung

SatzDer ML-Schätzer ist erwartungstreu, d.h.: ist eine Zufallsvariable Xgemäß f(x |θ?) verteilt, so ist der Erwartungswert des ML-Schätzers füreine Stichprobe unabhängiger Realisierungen von X gleich θ?.

Bemerkungen1. Für eine repräsentative Lernstichprobe zunehmenden Umfangs strebt der

ML-Schätzwert gegen den wahren Parametervektor.

2. Über das Verhalten des ML-Schätzwertes bei Verwendung einerindividuellen, endlichen Probe trifft der Satz keinerlei verbindlicheAussage.

3. Gehorcht der Datenerzeugungsprozeß nicht tatsächlich für irgendeinenfesten Parameterwert θ ∈M dem postulierten Verteilungsgesetz f(x |θ),so besitzen selbst die asymptotischen ML-Parameter θML keineAussagekraft.

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

ML-Schätzung für den NV-Klassifikator

Erzeugungswahrscheinlichkeiteiner unabhängig und identisch verteilten, etikettierten Stichprobe

P(⋃κ

ωκ) =K∏κ=1

P(ωκ) =K∏κ=1

∏x∈ωκ

P(Ωκ) · P(x |Ωκ)

Logarithmierte ML-ZielgrößeParametrisiert durch (pκ,θκ), κ = 1, . . . ,K

logK∏κ=1

∏x∈ωκ

pκ · f(x |θκ) =K∑κ=1

Tκ log pκ +K∑κ=1

(∑x∈ωκ

log f(x |θκ)

)

zerfällt in (K + 1) voneinander unabhängige Optimierungsprobleme

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

ML-Schätzung für den NV-Klassifikatormit vollbesetzten klassenabhängigen Kovarianzmatrizen

SatzDie Maximum-Likelihood-Parameter einesNormalverteilungsklassifikators bezüglich einer etikettiertenStichprobe [ωκ] lauten

pκ = Tκ

/K∑λ=1

µκ =1Tκ

∑x∈ωκ

x

Sκ =1Tκ

∑x∈ωκ

(x − µκ)(x − µκ)>

=1Tκ

∑x∈ωκ

xx> − µκµ>κ

Beweis.[Diskrete Verteilung (p1, . . . , pK ) der Musterklassen]

Die ML-Zielfunktion lautet zunächst

`′p(ω) = log

K∏κ=1

pTκκ =

K∑κ=1

Tκ log pκ

und ist aber unter Berücksichtung der Normierungsbedingung∑κ pκ = 1 zu maximieren; die Bedingung

wird mit einem Lagrange-Multiplikator inkorporiert:

`p(ω) =K∑κ=1

Tκ log pκ − λ · (∑κ

pκ − 1)

Wir bilden nun die partiellen Ableitungen

∂`p(ω)

∂pκ= Tκ

1

pκ− λ und

∂`p(ω)

∂λ= 1−

∑κ

Nullsetzen der Ableitungen ergibt

Tκpκ

= λ ⇒ pκ =Tκλ

und wegen

1 =∑κ

pκ =∑κ

Tκλ

=1

λ

∑κ

Tκ =1

λ· T

folgt λ = T und daher pκ = Tκ/T für alle κ = 1, . . . ,K .

Page 7: NormalverteilungPrüfgrößenML-SchätzungMAP ...€¦ · MUSTERERKENNUNG VorlesungimSommersemester2020 Prof.E.G.Schukat-Talamazzini Stand:28.April2020 NormalverteilungPrüfgrößenML-SchätzungMAP-SchätzungGraphischeModelle

Beweis.[Parameter µ einer univariaten Gaußdichte]

fX(x) = N (x | µ, σ2) =1

σ√2π· exp

(−

(x − µ)2

2σ2

)

Die ML-Zielfunktion `µ,σ2 (ω) = −2 · log

∏x∈ω N (x | µ, σ2) lautet

`µ,σ2 (ω) = −2 ·

∑x∈ω

(−1

2log(2πσ2)−

1

2

(x − µ)2

σ2

)= T · log(2πσ2) +

1

σ2

∑x∈ω

(x − µ)2

Partielle Ableitung nach µ:

∂`(ω)

∂µ=

1

σ2

∑x∈ω

2 · (x − µ) · (−1) = −2

σ2

∑x∈ω

x −∑x∈ω

µ

Nullsetzen ergibt ∑

x∈ωx =

∑x∈ω

µ = T · µ ⇒ µ =1

T

∑x∈ω

x

Beweis.[Parameter σ2 einer univariaten Gaußdichte bei bekanntem Wert µ]

fX(x) = N (x | µ, σ2) =1

σ√2π· exp

(−

(x − µ)2

2σ2

)

Die ML-Zielfunktion `µ,σ2 (ω) = −2 · log

∏x∈ω N (x | µ, σ2) lautet

`µ,σ2 (ω) = −2 ·

∑x∈ω

(−1

2log(2πσ2)−

1

2

(x − µ)2

σ2

)= T · log(2πσ2) +

1

σ2

∑x∈ω

(x − µ)2

Partielle Ableitung nach σ2:

∂`(ω)

∂σ2= T ·

1

2πσ2· 2π −

1

σ4

∑x∈ω

(x − µ)2 =1

σ2

T −1

σ2

∑x∈ω

(x − µ)2

Nullsetzen ergibt

T =1

σ2

∑x∈ω

(x − µ)2 ⇒ σ2 =

1

T

∑x∈ω

(x − µ)2

BemerkungIn der Praxis ist mit σ2 natürlich auch µ unbekannt und es muß unter Zuhilfenahme desML-Schätzwertes µ optimiert werden. Eine Rechnung ähnlich der obigen ergibt die Varianzschätzformel

σ2 =

1

T − 1

∑x∈ω

(x − µ)2 .

Beweis.[Parameter µ einer multivariaten Gaußdichte]

N (x | µ, S) = |2πS|−1/2 · exp(−1/2(x − µ)>S−1(x − µ)

)Die ML-Zielfunktion lautet

`µ,S (ω) = −2 · log∏x∈ωN (x | µ, S) = −2

∑x∈ω

(−1

2log |2πS| −

1

2(x − µ)>S−1(x − µ)

)= T log |2πS| +

∑x∈ω

(x − µ)>S−1(x − µ)

= T log |2πS| +∑x∈ω

(x>S−1x − 2x>S−1

µ + µ>S−1

µ)

Partielle Ableitung nach µ (Gradientenvektor):

∇µ`µ,S (ω) = 0− 0 +∑x∈ω∇µ

(x>S−1x − 2x>S−1

µ + µ>S−1

µ)

=∑x∈ω

(0− 2 · S−1x + 2 · S−1

µ)

= 2 · S−1 ∑x∈ω

(µ− x) = 2 · S−1

Tµ−∑x∈ω

x

Nullsetzen und Multiplikation mit 1/2 · S ergibt

Tµ =∑x∈ω

x ⇒ µ = 1/T

∑x∈ω

x

Beweis.[Parameter S einer multivariaten Gaußdichte]

Die ML-Zielfunktion lautet

`µ,S (ω) = T log |2πS| +∑x∈ω

(x − µ)>S−1(x − µ)

= TD log(2π)− T log |S−1| +∑x∈ω

spur(S−1(x − µ)(x − µ)>

)

= TD log(2π)− T log |S−1| + spur

S−1 ·∑x∈ω

(x − µ)(x − µ)>

︸ ︷︷ ︸

T·spur(S−1·S

)

Wir reformulieren die Zielgröße unter Verwendung der inversen Kovarianzmatrix Q = S−1:

`µ,Q (ω) = TD log(2π)− T log |Q| + T · spur(Q · S

)Und nun leiten wir partiell nach der inversen Kovarianzmatrix ab:

∇Q`µ,Q (ω) = 0− T · Q−1 + T · S = T ·(S − Q−1

)= T ·

(S − S

)Nach dem Nullsetzen ergibt sich folglich

S = S =1

T

∑x∈ω

(x − µ)(x − µ)>

Page 8: NormalverteilungPrüfgrößenML-SchätzungMAP ...€¦ · MUSTERERKENNUNG VorlesungimSommersemester2020 Prof.E.G.Schukat-Talamazzini Stand:28.April2020 NormalverteilungPrüfgrößenML-SchätzungMAP-SchätzungGraphischeModelle

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

ML-Schätzung für den NV-KlassifikatorDiagonale Kovarianzmatrizen & Mahalanobis-Klassifikator

Diagonale KovarianzenDie ML-Zielgröße zerfällt auf Grund der Unabhängigkeitsannahme in(1 + K · D) unabhängige Optimierungsterme.

σ2κ,d =

1Tκ

∑x∈ωκ

(xd − µκ,d)2

Mahalanobis-KlassifikatorBei klassenübergreifenden Kovarianzstatistiken zerfällt `θ(·) nicht mehrvollständig in klassenspezifische Optimierungsausdrücke!

S0 = SW ([ωκ]) =1T

K∑κ=1

∑x∈ωκ

(x − µκ)(x − µκ)>

Einphasige Berechnung von S0 ist möglich: SW = S − SB

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

ML-Schätzung für den NV-KlassifikatorRichter-Modell: ähnliche Klassenkovarianzen Sκ = ακS0

IterationsanfangBerechne Probenstatistiken und initiale Skalierungsfaktoren:

pκ =TκT

µκ =1Tκ

∑x∈ωκ

x

α(0)κ = 1 Sκ =

1Tκ

∑x∈ωκ

xx> − µκµ>κ

IterationsschrittBerechne Kovarianzprototyp und Skalierungsfaktoren für i = 1, 2, . . .:

S(i)0 =

K∑κ=1

pκ · (α(i−1)κ )−1 · Sκ

α(i)κ =

1D· spur

(Sκ · (S(i)

0 )−1)

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Geteilte Parametrisierung von NV-DichtenDas -Paket ’mclust’ zur Clusteranalyse

N (x | µκ,Sκ) mit Sκ := sκ ·UκDκU>κ und

sκ VolumenDκ GestaltUκ Orientierung

Modell Kovarianz Geometrie Volumen Gestalt OrientierungEII sE sphärisch konstant (std.) (std.)VII sκE sphärisch variabel (std.) (std.)EEI sD diagonal konstant konstant (std.)VEI sκD diagonal variabel konstant (std.)EVI sDκ diagonal konstant variabel (std.)VVI sκDκ diagonal variabel variabel (std.)EEE sUDU> elliptisch konstant konstant konstantEVE sUDκU> elliptisch konstant variabel konstantVEE sκUDU> elliptisch variabel konstant konstantVVE sκUDκU> elliptisch variabel variabel konstantEEV sUκDU>κ schräg konstant konstant variabelVEV sκUκDU>κ schräg variabel konstant variabelEVV sUκDκU>κ schräg konstant variabel variabelVVV sκUκDκU>κ schräg variabel variabel variabel

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Geteilte Parametrisierung von NV-Dichten

Scrucca, Fop, Murphy & Raftery, ’R’ Journal, Volume 8/1 (2016)

Page 9: NormalverteilungPrüfgrößenML-SchätzungMAP ...€¦ · MUSTERERKENNUNG VorlesungimSommersemester2020 Prof.E.G.Schukat-Talamazzini Stand:28.April2020 NormalverteilungPrüfgrößenML-SchätzungMAP-SchätzungGraphischeModelle

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

ML-Schätzung und Lernstichprobenumfang

ProblemIn der NVK-Prüfgröße treten die Inversen und die reziprokenDeterminanten aller Sκ auf!

1. Der Varianz-MLS σκ,d wird Null, sobald |ωκ| ≤ 1 ist.

2. Der Kovarianz-MLS Sκ wird singulär, sobald |ωκ| ≤ D ist.

3. Selbst für Klassen mit |ωκ| > D besitzt Sκ häufig schlechte Kondition.

Schwierigkeiten für kleine T , große D, große K.

LösungVerringerung der Modellkapazität (Anzahl freier Parameter)

1. Fixierung und/oder Verklebung von Parametern

2. Strukturierung von Variablenabhängigkeiten

3. Wissensbasierte Engführung des Parameterraums

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Multivariate Normalverteilungsdichte

Normalverteilungsklassifikatoren

Maximum-Likelihood Parameterschätzung

Maximum-a posteriori- und Bayesschätzung

Graphische Gaußsche Modelle

Mathematische Hilfsmittel

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Maximum-a posteriori SchätzungVerteilungsparameter θ als Werte einer Zufallsvariablen Θ

Bayesscher DenkansatzDie wahren Verteilungsparameter θ∗ des Prozesses sind nicht nurunbekannt, sie sind sogar stochastisch.

Ihre Verteilungsdichte fΘ(·) repräsentiert unser Vorwissen über ihremöglichen Werte(kombinationen).

LemmaSind die Parameter der Verteilungsfamilie fX(·|θ)θ∈M selbst gemäßa priori Dichte fΘ(θ) verteilt, so lautet — für den unabhängig undidentisch gezogenen Datensatz ω — die datenbedingte a posterioriDichte der Parameter

P(θ|ω) =P(θ) · P(ω|θ)

P(ω)=

fΘ(θ) ·∏x∈ω

fX(x |θ)

P(ω).

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Maximum-a posteriori SchätzungDie im Lichte der Datenprobe wahrscheinlichsten Verteilungsparameter

DefinitionDie Maximum-a posteriori-Schätzung (MAP) der Parameter einerDichtefamilie [f(x |θ)] unter Annahme der a priori-VerteilungsdichtefΘ(θ) für θ maximiert die stichprobenbedingte Wahrscheinlichkeit desgesuchten Parameterfeldes, d.h. es gilt:

θMAP = argmaxθ

(fΘ(θ) ·

∏x∈ω

fX(x |θ)

)

Bemerkungen

1. Der MAP-Schätzwert θMAP ist von allen Parameterwerten derjenige, der zu denvorliegenden Daten ω am besten paßt.

2. Hand aufs Herz — niemand (außer dem Capo di tutti capi) kennt diesemysteriöse Dichte fΘ(·).

Page 10: NormalverteilungPrüfgrößenML-SchätzungMAP ...€¦ · MUSTERERKENNUNG VorlesungimSommersemester2020 Prof.E.G.Schukat-Talamazzini Stand:28.April2020 NormalverteilungPrüfgrößenML-SchätzungMAP-SchätzungGraphischeModelle

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Wissenswertes über die Maximum-a posteriori SchätzungSpezialfall Maximum-LikelihoodUnter Gleichverteilungsannahme für fΘ(·) mutiert die MAP-Schätzung ineine ML-Schätzung.

Asymptotisches SchätzverhaltenFür große Stichproben (|ω| → ∞) strebt θMAP gegen θML.

Methode der konjugierten DichtefamilienDie analytische Optimierung der MAP-Zielfunktion erfordert einegeeignete Form der a priori-Dichte:

fΘ(θ) = C ·∏

z∈ωprior

fX(z |θ)

Mit dieser Wahl gilt nämlich

θMAP(ω) = θML(ω∪ωprior)

und das Problem der fΘ(·)-Findung ist auf elegante Art gelöst!

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

MAP-Schätzung für diskrete VerteilungenWahrscheinlichkeitsparameter p1 + p2 + . . .+ pK = 1 für K Ereignisse

DefinitionDer Zufallsvektor Θ = (Θ1, . . . ,ΘK )> ∈ [0, 1]K mit

∑` Θ` = 1 heißt

Dirichlet-verteilt mit den Hyperparametern r1, . . . , rK > −1 genaudann, wenn gilt:

fΘ(p) = D(p|r) = C ·K∏`=1

pr``

Bemerkungen1. Für r = 0 ist D(p|r) eine Gleichverteilung.

2. Für r = 1 nimmt D(p|r) ihr Dichtemaximum bei der Gleichverteilungp` ≡ 1/K an.

3. Allgemein nimmt D(p|r) ihr Dichtemaximum bei der Verteilung p ∝ r an,also für die Wahrscheinlichkeiten p` = r`/R, R =

∑i ri .

4. Der Dichtegipfel ist umso steiler, je größer der Skalenfaktor R ist.

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

MAP-Schätzung für diskrete VerteilungenSatzGehorchen die kanonischen Parameter p1, . . . , pK einer diskretenWahrscheinlichkeitsverteilung der Dirichletverteilung mitHyperparametern r ∈ IRK , so lautet der MAP-Schätzwert für eineStichprobe mit den absoluten EreignishäufigkeitenT1 + T2 + . . .+ TK = T

p` =T` + r`T + R

, R =K∑`=1

r` .

Bemerkungen

1. Eine MAP-Schätzung mit Vorwissen D(·|r) bewirkt die Aufstockung derLerndaten ω um eine virtuelle Datenprobe ωprior mit den Ereignishäufigkeitenr`; diese Werte müssen allerdings nicht unbedingt ganzzahlig sein.

2. Der Spezialfall einer gleichverteilten oder uninformativen Dirichletdichte(r` ≡ r0) ergibt die MAP-Schätzwerte (Laplaceschätzformel im Fall r0 = 1)

p` = (T`+r0)/(T+K ·r0) , ` = 1, 2, . . . ,K .

Beweis.Es beträgt die Stichprobenwahrscheinlichkeit

P(ω|p) =K∏κ=1

pTκκ

und die a posteriori Parameterwahrscheinlichkeit (bei festen Hyperparametern)

P(p|ω) ∝ P(ω|p) · fΘ(p) ∝K∏κ=1

pTκκ ·

K∏κ=1

prκκ ∝

K∏κ=1

p(Tκ+rκ)κ

Das Maximum nimmt P(p|ω) bekanntlich für diejenige Verteilung an, die proportional zu denExponenten ist:

pκ =Tκ + rκT + R

, R =∑κ

Der MAP-Schätzwert ist ein gewichtetes Mittel („Konvexkombination“) aus ML-Schätzwert und demModus

ρκ = rκ/R , κ = 1, . . . ,K

der a priori-Dichte:

pκ =Tκ + rκT + R

=Tκ

T + R+

rκT + R

=TκT︸︷︷︸

pMLκ

·T

T + R︸ ︷︷ ︸λ

+rκR︸︷︷︸ρκ

·R

T + R︸ ︷︷ ︸(1−λ)

Page 11: NormalverteilungPrüfgrößenML-SchätzungMAP ...€¦ · MUSTERERKENNUNG VorlesungimSommersemester2020 Prof.E.G.Schukat-Talamazzini Stand:28.April2020 NormalverteilungPrüfgrößenML-SchätzungMAP-SchätzungGraphischeModelle

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

MAP-Schätzung für die multivariate NV-Dichte

DefinitionEine Zufallsmatrix S über der Mannigfaltigkeit aller symmetrischen,positiv-definiten (D × D)-Matrizen heißt Wishart-verteilt genau denn,wenn

fS(S) = W(S | α,V ) =1

2αD2 |V |

α2 ΓD(α2 )

·|S |α−D−1

2 ·exp(−1/2 · spur

(V−1S

))gilt mit den Hyperparametern α > D − 1 und V ∈ IRD×D positiv-definit.

LemmaFür die multivariate NV-Dichte N (µ,S) bildet das Produkt

fΘ(µ,S) = N (µ | m, τ−1S) · W(S−1 | α,V )

eine konjugierte Dichtefamilie mit den Hyperparametern m ∈ IRD , τ > 0,α > D − 1 und positiv-definiter Matrix V ∈ IRD×D .

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

MAP-Schätzung für den NV-KlassifikatorSatzDie Lerndaten ω1, . . . , ωK ⊂ IRD eines numerischenKlassifikationsproblems seien klassenweise normalverteilt mit denunbekannten Parametern (pκ,µκ,Sκ), κ = 1, . . . ,K. Die a prioriVerteilung der Parameter sei definiert durch

fΘ(θ) = D(p|r) ·K∏κ=1

N (µκ | mκ, τ−1κ Sκ) ·

K∏κ=1W(S−1

κ | ακ,V κ) .

Dann lauten die Maximum-a posteriori-Parameter:

pκ =rκ + TκR + T

, R =∑κ

µκ =1

τκ + Tκ

(τκmκ +

∑x∈ωκ

x

)

Sκ =V κ + τκ(µκ −mκ)(µκ −mκ)> +

∑x∈ωκ xx> − Tκµκµ

(ακ − D) + Tκ

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

„Plug-in“-SchätzverfahrenDie Suche nach den unbekannten, aber wahren Parametern

Traditionelles InduktionsparadigmaDie Verteilungsannahme ω ∼ fX(·|θ) ist korrekt.Es existiert eine wahre Parameterkonfiguration θ∗ — wir müssen sienur finden!

ML-Schätzung

θML = argmaxθ

P(ω|θ)

MAP-Schätzung

θMAP = argmaxθ

P(θ|ω)

Posterior-Mean-Schätzung

θPM = E[Θ|ω] =

∫θ · P(θ|ω)dθ

Bayespunkt-Schätzung

θ(ρ)BP = argmax

θ

∫Uρ(θ)

P(ϑ|ω)dϑ

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

„Plug-in“-SchätzverfahrenAnalyse der a posteriori Parameterdichte

θ ω

θ

MAP PM BP

P( | )

MAP Wo liegt der Gipfel der Posteriordichte?

PM Wo liegt der Durchschnitt der Posteriordichte?

BP Wo liegt das kleinste Intervall mit Wahrscheinlichkeitsmasse ρ > 0?

Page 12: NormalverteilungPrüfgrößenML-SchätzungMAP ...€¦ · MUSTERERKENNUNG VorlesungimSommersemester2020 Prof.E.G.Schukat-Talamazzini Stand:28.April2020 NormalverteilungPrüfgrößenML-SchätzungMAP-SchätzungGraphischeModelle

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Bayes-SchätzungDer Abschied von der Idee „wahrer“ Verteilungsparameter

Bayessches InduktionsparadigmaDie Verteilungsannahme ω ∼ fX(·|θ) ist korrekt.Aber jedes x ∈ ω wird unter Verwendung eines eigenen, zufälligausgewürfelten Modellparameters θ gezogen!

P(x |ω) =

∫M

P(x ,θ | ω)dθ

=

∫M

P(x | θ, ω) · P(θ | ω)dθ

=

∫M

fX(x |θ)︸ ︷︷ ︸Modelldichte

· fX(ω|θ) · fΘ(θ)

fX(ω)︸ ︷︷ ︸a posteriori

Analytisch extrem schwer lösbar — bestenfalls wenn fΘ(·) ≡ c

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

BayesapproximationAsymptotisch korrekte Näherung unter Gleichverteilungsannahme für fΘ(·)

Praktikable Näherungslösung für den BayesschätzerUnwissen um fΘ(·) Gleichverteilung HerauskürzenSimultan in Zähler und Nenner: Integralbildung Maximumbildung

P(x |ω) =P(x , ω)

P(ω)=

∫fX(ω, x |θ) · fΘ(θ)dθ∫fX(ω|θ) · fΘ(θ)dθ

≈ maxθfX(ω, x |θ)

maxθfX(ω|θ)=

∏z∈ω,x

fX(z | θML(ω, x))∏z∈ω

fX(z | θML(ω))

Achtung:Die Bayesapproximation PBA(x |ω) ist i.a. keine Dichtefunktion(Normierungseigenschaft)!

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Multivariate Normalverteilungsdichte

Normalverteilungsklassifikatoren

Maximum-Likelihood Parameterschätzung

Maximum-a posteriori- und Bayesschätzung

Graphische Gaußsche Modelle

Mathematische Hilfsmittel

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Graphische Gaußsche ModelleDie Bias-Varianz-Problematik

Dichtemodell mit vielen ParameternNV-Dichten mit voll besetzter KovarianzmatrixAlle paarweisen Merkmalabhängigkeiten O(KD2)Kleiner Bias — große Varianz

Dichtemodell mit wenigen ParameternNV-Dichten mit diagonal besetzter KovarianzmatrixAlle Merkmale paarweise unabhängig O(KD)Großer Bias — kleine Varianz

LösungsideeNicht alle, sondern nur die wichtigen Merkmalabhängigkeiten werdenexplizit modelliert.

Page 13: NormalverteilungPrüfgrößenML-SchätzungMAP ...€¦ · MUSTERERKENNUNG VorlesungimSommersemester2020 Prof.E.G.Schukat-Talamazzini Stand:28.April2020 NormalverteilungPrüfgrößenML-SchätzungMAP-SchätzungGraphischeModelle

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Gaußsche Bayesnetze

Kettenregel der Wahrscheinlichkeitstheorie

P(x1, . . . , xD) = P(x1) · P(x2|x1) ·D∏

d=3

P(xd | x1, . . . , xd−1)

Das d -te Merkmal ist explizit von (d − 1) anderen abhängig.

Beispiel: baumförmige Bayesnetze

P(x1, . . . , xD) ≈D∏

d=1

P(xd | xπ(d))

Jedes Merkmal xd ist explizit nur von genau einem anderen abhängig.

ProblemFinde diejenige Abhängigkeitsstruktur, welche die exakteste Näherung derDatenverteilung gewährleistet!

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Gaußsche BayesnetzeDatensatz letter.lern (16 Merkmale, Klassen ’A’, ’B’, ’C’, ’D’)

X1

X3 X13

X4

X2

X5

X15 X9

X10

X6 X12

X14

X7

X8 X16

X11

X1

X2 X3

X4 X5

X15 X13

X8

X6 X9 X10

X7 X16 X11

X14

X12

X1

X2

X4

X3

X5

X13

X16

X6

X11

X7 X10

X9

X8 X12

X15

X14

X1

X2 X3 X13

X4 X5

X11

X6

X8 X10

X12

X7 X14

X16

X9

X15

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Gaußsche Markovnetze

Parametrische Struktur der multivariaten NV-Dichte

−2·logN (x | µ,S) = |2πS |+D∑

i=1

D∑j=1

(xi−µi )·Cij ·(xj−µj) , C := S−1

Modellkomplexität = Anzahl nicht verschwindender Einträge von S−1

Aufgabenstellung der KovarianzselektionSuche eine Näherungsmatrix S ≈ S , deren Inverse möglich vieleNulleinträge aufweist!

Bedingte statistische UnabhängigkeitÜber normalverteilte Daten wissen wir, daß Cij = 0 genau dann gilt, wenndie beiden Merkmale xi und xj statistisch unabhängig sind, sofern wirdie Kenntnis der restlichen Merkmale x1, . . . , xD \ xi , xj voraussetzen.

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Gaußsche MarkovnetzeDempsters Kovarianzselektion c©

5 10 15

510

15

Kovarianzmatrix1:n

1:n

5 10 15

510

15

Inverse Kovarianzmatrix1:n

1:n

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Verbotsmuster

5 10 15

510

15

Kovarianzmatrix1:n

1:n

5 10 15

510

15

Inverse Kovarianzmatrix1:n

1:n

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Verbotsmuster

5 10 15

510

15

Kovarianzmatrix1:n

1:n

5 10 15

510

15

Inverse Kovarianzmatrix1:n

1:n

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Verbotsmuster

5 10 15

510

15

Kovarianzmatrix1:n

1:n

5 10 15

510

15

Inverse Kovarianzmatrix1:n

1:n

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Verbotsmuster

BeispielDatensatzletter16 Merkmalealle Klassen

oben:KovarianzS = C−1

Mitte:KonzentrationC erfüllt A

unten:Adjazenz AAbhängigkeits-muster(gegeben)

Page 14: NormalverteilungPrüfgrößenML-SchätzungMAP ...€¦ · MUSTERERKENNUNG VorlesungimSommersemester2020 Prof.E.G.Schukat-Talamazzini Stand:28.April2020 NormalverteilungPrüfgrößenML-SchätzungMAP-SchätzungGraphischeModelle

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Gaußsche MarkovnetzeLasso (regularisierte ‖·‖1-Norm Matrixinvertierung) c©

5 10 15

510

15

Lasso: 0.05

Inverse L1−Kovarianzmatrix1:n

1:n

5 10 15

510

15

Lasso: 0.2

Inverse L1−Kovarianzmatrix1:n

1:n

5 10 15

510

15

Lasso: 0.45

Inverse L1−Kovarianzmatrix1:n

1:n

5 10 15

510

15

Lasso: 0.8

Inverse L1−Kovarianzmatrix1:n

1:n

5 10 15

510

15

Lasso: 1.25

Inverse L1−Kovarianzmatrix1:n

1:n

5 10 15

510

15

Lasso: 1.8

Inverse L1−Kovarianzmatrix1:n

1:n

5 10 15

510

15

Lasso: 2.45

Inverse L1−Kovarianzmatrix1:n

1:n

5 10 15

510

15

Lasso: 3.2

Inverse L1−Kovarianzmatrix1:n

1:n

5 10 15

510

15

Lasso: 4.05

Inverse L1−Kovarianzmatrix1:n

1:n

5 10 15

510

15

Lasso: 5

Inverse L1−Kovarianzmatrix1:n

1:n

5 10 15

510

15

Lasso: 6.05

Inverse L1−Kovarianzmatrix1:n

1:n

5 10 15

510

15

Lasso: 7.2

Inverse L1−Kovarianzmatrix1:n

1:n

BeispielDatensatzletter16 Merkmalealle Klassen

Konzentrations-matrizen fürunterschiedlicheRegularisierungs-parameter

ρ =120· n2

n = 1, 2, . . . , 12

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Multivariate Normalverteilungsdichte

Normalverteilungsklassifikatoren

Maximum-Likelihood Parameterschätzung

Maximum-a posteriori- und Bayesschätzung

Graphische Gaußsche Modelle

Mathematische Hilfsmittel

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Zufallsvariable eines Wahrscheinlichkeitsraumesund ihre kumulative Verteilungsfunktion

DefinitionSei (f,E,P) ein Wahrscheinlichkeitsraum. Eine Abbildung

X : f → IR

heißt Zufallsvariable genau dann wenn gilt:

Ar = ε ∈ f | X(ε) ≤ r ∈ E für alle r ∈ IR

DefinitionDie Abbildung

FX :

IR → [0, 1]r 7→ P(Ar )

, Ar = ε ∈ f | X(ε) ≤ r

heißt kumulative Verteilungsfunktion der Zufallsvariablen X. Für P(Ar )schreiben wir üblicherweise

P(X ≤ r).

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Diskrete Zufallsvariable

DefinitionEine Zufallsvariable X heißt diskret, falls der Wertebereich von Xabzählbar ist.

BemerkungIn diesem Falle gilt dann

f =⋃

n∈INε | X(ε) = xn =

⋃n∈IN

X = xn

für den abzählbaren Wertebereich x1, x2, x3, . . . sowie auch P(f) = 1.Für die Wahrscheinlichkeit P(X = xn) schreiben wir auch kürzer pn .

DefinitionIst X eine diskrete Zufallsvariable mit dem Wertebereich xn|n ∈ IN, dannheißt

pX :

IR → [0, 1]

x 7→

P(X = xn) (∃n) x = xn

0 sonst

diskrete Wahrscheinlichkeitsdichtefunktion von X. Die Werte xn heißenMassenpunkte von X.

Page 15: NormalverteilungPrüfgrößenML-SchätzungMAP ...€¦ · MUSTERERKENNUNG VorlesungimSommersemester2020 Prof.E.G.Schukat-Talamazzini Stand:28.April2020 NormalverteilungPrüfgrößenML-SchätzungMAP-SchätzungGraphischeModelle

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Stetige Zufallsvariable

DefinitionEine Zufallsvariable X heißt kontinuierlich, falls der Wertebereich von Xnicht abzählbar ist.

Bemerkung

1. Für eine kontinuierliche Zufallsvariable X sei die Wahrscheinlichkeit dafür, daßsie einen bestimmten Wert x ∈ IR annimmt, gleich 0.

2. Wir betrachten daher stattdessen die Wahrscheinlichkeit dafür, daß X in einemendlichen Intervall [a, b] oder einem unendlichen Anfangsstück (−∞, r ] von IRliegt.

xxx x

1

1 2 3 4

F(x)

x x

f(x)

F(x)

a bx

f(x)

F(x)

r

kontinuierliche (stetige) Zufallsvariable

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

WahrscheinlichkeitsverteilungsdichtefunktionDie Dichte ist die Ableitung der Verteilung

DefinitionIst X eine (kontinuierliche) Zufallsvariable mit der Eigenschaft

FX(r) = P(X ≤ r) =

∫ r

−∞fX(ξ)dξ für alle r ∈ IR

so heißt die Funktion fX : IR→ IR die Wahrscheinlichkeitsdichte derstetigen Zufallsvariable X.

LemmaFür eine stetige Zufallsvariable X mit der Dichtefunktion fX und derVerteilungsfunktion FX gilt für alle a, b ∈ IR mit a < b die Aussage

P(a < X ≤ b) = FX(b)− FX(a) =

∫ b

afX(ξ)dξ .

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

ErwartungswerteZufallsvariable · Funktion einer Zufallsvariablen

DefinitionFür eine Funktion g : IR→ IR ist mit X auch g(X) eine Zufallsvariable.Die Summe bzw. das Integral

E[g(X)] =∑

n

g(xn) · P(X = xn)

E[g(X)] =

∫ +∞

−∞g(x) · fX(x)dx

heißt — im Falle der Konvergenz — der Erwartungwert der Zufallsgrößeg(X).

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

(Zentrale) Momente einer VerteilungMittel und (quadratische) Standardabweichung ( Varianz)

DefinitionFür eine stetige Zufallsvariable X mit der Dichtefunktion fX bezeichnenwir

µX = E[X] =

∫ +∞

−∞x · fX(x)dx

als den Erwartungswert der Zufallsvariablen X selbst,

Var[X] = σ2X = E[(X− µX)2] =

∫ +∞

−∞(x − µX)2 · fX(x)dx

als die Varianz (Streuung, Dispersion), σX als die Standardabweichungund

E[XN ] bzw. E[(X− µX)N ]

als das (zentrale) N-te Moment von X.

Page 16: NormalverteilungPrüfgrößenML-SchätzungMAP ...€¦ · MUSTERERKENNUNG VorlesungimSommersemester2020 Prof.E.G.Schukat-Talamazzini Stand:28.April2020 NormalverteilungPrüfgrößenML-SchätzungMAP-SchätzungGraphischeModelle

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Eigenschaften der Verteilungsmomente

LemmaFür die Erwartungswerte von Funktionen diskreter oder stetigerZufallsvariablen gelten die Aussagen:

1. Für alle a ∈ IR ist E[a] = a.

2. Homogenität: E[a · g(X)] = a · E[g(X)]

3. Additivität: E[g1(X) + g2(X)] = E[g1(X)] + E[g2(X)]

4. Monotonie: g1(x) ≤ g2(x) ⇒ E[g1(X)] ≤ E[g2(X)]

5. Falls E[X2] existiert, so gilt Var[X] = E[X2]− E[X]2

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Ungleichungen für WahrscheinlichkeitenVerteilungsunabhängige Abschätzungen

Satz (Tschebyscheff-Ungleichung)Ist die Abbildung g : IR→ IR nichtnegativ, so gilt für jedes λ > 0:

P(g(X) ≥ λ) ≤ E[g(X)]

λ

Im Falle endlicher Varianz von X gilt die bekannte Form:

P(|X− µX| ≥ c · σX) ≤ 1c2

Satz (Jensen-Ungleichung)Für eine Zufallsvariable X und eine konvexe Abbildung g : IR→ IR gilt:

E[g(X)] ≥ g (E[X])

FolgerungWeil bekanntlich g(x) = x2 konvex (g ′′ ≥ 0) ist, folgtVar[X] = E[X2]− E[X]2 ≥ 0 .

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

ZufallsvektorenMultivariate Wahrscheinlichkeitsverteilungen

DefinitionIst X ein Vektor von Zufallsvariablen X1, . . . ,XD , so heißt

FX(x) = FX(x1, . . . , xD) = P(X1 ≤ x1, . . . ,XD ≤ xD)

die multivariate Verteilungsfunktion von X.

Sie heißt stetig, falls eine Funktion fX : IRD → IR existiert mit derEigenschaft

FX(x1, . . . , xD) =

∫ x1

−∞· · ·∫ xD

−∞fX(x1, . . . , xD)dx1 . . . dxD

fX heißt dann multivariate Verteilungsdichte von X.

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Momente multivariater VerteilungenErwartungswertvektor und Kovarianzmatrix

DefinitionFür einen stetigen Vektor X von Zufallsvariablen X1, . . . ,XD mit dermultivariaten Verteilungsdichte fX definieren wir

µX = E[X] =

∫IRD

x · fX(x)dx

als den Erwartungswertvektor und

SX =

σX1X1 . . . σX1XD...

. . ....

σXDX1 . . . σXDXD

als die Kovarianzmatrix von X. Dabei bezeichne für alle j = 1, . . . ,D:

σXiXj = Cov[Xi ,Xj ] = E[(Xi − µXi )(Xj − µXj )]

=

∫IR

∫IR

(xi − µXi )(xj − µXj ) · fXiXj (xi , xj )dxi dxj

Page 17: NormalverteilungPrüfgrößenML-SchätzungMAP ...€¦ · MUSTERERKENNUNG VorlesungimSommersemester2020 Prof.E.G.Schukat-Talamazzini Stand:28.April2020 NormalverteilungPrüfgrößenML-SchätzungMAP-SchätzungGraphischeModelle

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Statistische UnabhängigkeitStatistische Unkorreliertheit

DefinitionDie Zufallsvariablen X1, . . . ,XD heißen unabhängig, wenn gilt

fX(x1, . . . , xD) =D∏

d=1

fXd (xd) = fX1(x1) · . . . · fXD (xD)

Die Zufallsvariablen heißen unkorreliert, wenn gilt

E[D∏

d=1

Xd ] =D∏

d=1

E[Xd ]

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Unabhängigkeit & UnkorreliertheitEinige wichtige Eigenschaften

1. Aus der Unabhängigkeit folgt die Unkorreliertheit.

2. Aus der Unkorreliertheit folgt i.a. nicht die Unabhängigkeit.

3. Zwei Zufallsvariablen X,Y sind unkorreliert, wenn E[XY] = µXµYgilt, also gdw. gilt Cov[X,Y] = 0.

4. Sind die Zufallsvariablen X1, . . . ,XD unabhängig, so sind sie auchpaarweise unabhängig und natürlich auch paarweise unkorreliert.Folglich gilt für ihre Kovarianzmatrix

SX = diag(σ2X1, . . . , σ2

XD) =

σ2X1

0 . . . 00 σ2

X2. . . 0

... . . .. . .

...0 0 . . . σ2

XD

mit σ2

Xd= σXdXd , d = 1, . . . ,D.

Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫

Zusammenfassung (7)

1. Die multivariate Normalverteilung beschreibt eine unimodale (Zentrumµ), exponentiell abklingende Dichte mit elliptisch-symmetrischen(Trägheitsachsen von S) Isolinien.

2. Die Prüfgrößen der NV-Bayesregel sind quadratische Polynome in denMerkmalen x1, . . . , xD .

3. Die Maximum-Likelihood-Schätzung sucht die Modellparameter mit dergrößten Datenerzeugungswahrscheinlichkeit.

4. Die ML-Zielgröße ist nach allen Parametern partiell abzuleiten; nachNullsetzen der Gradienten ergibt sich günstigenfalls eine geschlosseneLösung (LGS) oder wenigstens eine rasch konvergierende Iterationsformel.

5. Die Maximum-a posteriori-Schätzung verwendet a priori-Wissen über dieDichteparameter und ist robuster bei (zu) kleinen Lernenstichproben.

6. Praktikable MAP-Schätzer bedienen sich der Methode der konjugiertenParameterdichtefamilien.

7. Verteilungsmodelle werden robuster, wenn die Abhängigkeitsstruktur derMerkmale sachgemäß ausgedünnt wird.