maximum-likelihood-estimation 2 in 1uwe/homepage/talks/maximum-likelihood-estima… · eine...
Post on 18-Oct-2020
0 Views
Preview:
TRANSCRIPT
Maximum-Likelihood-Schätzungenfür Verteilungsparameter eines ausgewählten stochastischen
Prozesses
Maximum Likelihood Estimation
(MLE)
Uwe Menzel 10.3.2007
Maximum - Likelihood - Methode ist aktuell !
• R. A. Fisher (1890 - 1962)
• C. F. Gau� (”Methode der kleinsten Quadrate”)
• Anzahl der Publikationen, die sich mit Likelihood
befassen (”Likelihood” in Titel oder Abstract):
– Biostatistics: 15 Publikationen im Jahr 2006
– Bioinformatics: 25 Publikationen im Jahr 2006
Anwendungen der ML-Methode
• Phylogenetische Analysen auf der
Grundlage der DNS-
Sequenz (Stammbäume)
• Bilderkennung
(Satellitendaten)
Uwe Menzel 10.3.2007
Die Maximum-Likelihood-Methode führt eine
Schätzung durch
• Grundlegende Aufgabe der Statistik
• Beispiele für Schätzungen:
– Wahlen: Hochrechnungen (500 Personen �
Gesamtbevölkerung)
– Lebenserwartung einer Insektenart (50 Individuen �
50 Mrd. Individuen)
� Zufällige Stichprobe (”Sample”) � ”wahre”
(erzeugende) Wahrscheinlichkeitsverteilung
� Stichprobe � Parameter, z. B. �, � (oder beide)� Art der erzeugenden Verteilung muss bekannt sein
(Normalverteilung?, Exponentialvert.?, Weibullvert.? …)
�: Erwartungswert (Mittelwert)
�: Standardabweichung
Das Spezifische der ML-Methode: schätzt die
Parameter einer Verteilung
( ) ( )��
���
� −−=
2
2
2exp
2
1
σ
µ
σπ
yyf
Beispiel: Von der Stichprobe zum Schätzwert
für Verteilungs - Parameter
• suche mittleres Gewicht der Frösche in einem Teich
• Zufällige Stichprobe von 10 Fröschen (in g):
� y1 = 110; y2 = 115; y3 = 95; y4 = 101; y5 = 121; y6 = 130; y7 = 98; y8 = 99; y9 = 104; y10 = 111
• Annahme: Gewicht ist normalverteilt
( ) ( )∞<<∞−�
�
���
� −−⋅
⋅= y
yyf
2
2
2exp
2
1
σ
µ
σπ
Maximum-Likelihood: y1, y2, … y10 � �, �Ist n = 10 ausreichend ?
Grundlegende Idee der MLE
Idee: bestimme Parameter (�,�) derart, dass die beobachteten Daten plausibel (wahrscheinlich) erscheinen � MLE.
P(� = 100, � = 7) = 0,007
P(� = 100, � = 10) = 0,0104
P(� = 110, � = 12) = 0,000021
Die ”Wahrscheinlichkeit der Stichprobe”
( ) ( ) ( ) ( )θθθθ |...|||,...,, 212211 nnn ypypypyYyYyYPP ×××=====
( ) ( ) ( ) ( )θθθθ |...|||,...,, 2121 nn yfyfyfyyyfy
P×××=≅
∆
Diskrete Verteilung:
Kontinuierliche Verteilung: :
- ein oder mehrere Verteilungsparameterθ
Als Funktion des Parameters � betrachtet
� Likelihood - Funktion L(�)
� � so wählen, dass L maximal wird
Bestimmung der plausibelsten Werte für die
Verteilungsparameter aus der Likelihood
• Wir suchen den Wert von �, der die Wahrscheinlichkeit der Stichprobe maximiert
� Finde das �, für welches L(�) maximal wird !
θθθ
θθ
ˆ0
ˆ0
2
2
=<∂
∂
→=∂
∂
StellederanL
L
θ̂ - Schätzer für �
Uwe Menzel 10.3.2007
Der Schätzwert ist auch eine Zufallsvariable
• Entnimmt man 5 Stichproben (je 10 Frösche) und ermittelt aus jeder Stichprobe einen Schätzwert, so
erhält man 5 verschiedene Schätzwerte.
� �ˆ ist selbst eine Zufallsvariable (eine ”Statistik”)
�Man kann den Erwartungswert und die Varianz des
Schätzwertes berechnen:
( )[ ]2)()(
)()(
YEYEYV
dyyfyYE
−=
⋅⋅= �+∞
∞−
Kontinuierliche Zufallsvariable, Normalverteilung
( )
( ) ( )
( ) ( )
( )
( )�
�
=
=
−−−−=
��
���
�−⋅
−⋅
��
�=
��
���
��
���
��
���
� −−⋅
⋅××
��
���
��
���
��
���
� −−⋅
⋅=
××==
��
���
� −−⋅
⋅=
n
i
i
n
i
i
n
n
nn
ii
ynn
L
y
yy
yfyfyyyfL
yyf
1
2
2
2
1
2
2
2
2
2
2
2
2
1
121
2
2
2
1)2ln(
2)ln(
2)ln(
2
1exp
2
1
2exp
2
1...
2exp
2
1
,|...,|),|,...,,(),(
2exp
2
1),|(
µσ
πσ
µσπσ
σ
µ
σπσ
µ
σπ
σµσµσµσµ
σ
µ
σπσµ
Normalverteilung, Schätzung für �
( )
( )
�
��
�
�
=
==
=
=
=
⋅==
=−=∂
∂
−−−−=
n
i
i
n
i
n
i
i
n
i
i
n
i
i
yn
ny
yL
ynn
L
1
11
12
1
2
2
2
1ˆ
01)ln(
2
1)2ln(
2)ln(
2)ln(
µ
µµ
µσµ
µσ
πσ
Ein Schätzer für den Mittelwert der Normalverteilung
ist das arithmetische Mittel der Beobachtungswerte.
Erwartungswert des Schätzers für �
( ) ( )µ
σ
µ
σπ
µµµµ
µ
=��
���
� −−⋅
⋅⋅=
=⋅⋅===
��
�=
=
�
���
�
===
=
dyy
yyE
nnn
yEn
yn
EE
yn
n
i
n
i
i
n
i
i
n
i
i
2
2
111
1
2exp
2
1
:wurdeverwendet
11)(
11)ˆ(
1ˆ
Der Erwartungswert des Schätzers für den Parameterist wieder der Parameter selbst.
� Der Schätzer für � ist erwartungstreu (”unbiased”)
Erwartungstreue
- Erwartungstreue Schätzung
- nicht erwartungstreu
Varianz des Schätzers für �
( ) 2
22
21
2
21
21
:wurdeverwendet
111)(
11)ˆ(
σ
σσσµ
=
⋅=⋅⋅===
��
�= ���
===
i
n
i
n
i
i
n
i
i
yV
nn
nnyV
ny
nVV
Für n gegen � geht die Varianz des Schätzers gegen Null.
� Der Schätzer für � ist konsistent.
Uwe Menzel 10.3.2007
Konsistenz eines Schätzers
• Ein erwartungstreuer Schätzer heißt konsistent, wenn die Varianz des Schätzers gegen Null geht, sobald die Grö�e der Stichprobe (n) gegen Unendlich geht.
• Der Schätzer konvergiert dann ”in Wahrscheinlichkeit”gegen den wahren Wert.
n=10n=20
n=50
Normalverteilung, Schätzung für �
( )
( )
( )
( )�
�
�
�
=
=
=
=
−⋅−
=⋅−
=
≠⋅−
=
−⋅=
=−+−=∂
∂
−−−−=
n
i
i
n
i
i
n
i
i
n
i
i
ynn
nKorrektur
n
nEaber
yn
ynL
ynn
L
1
22
0
2
222
0
1
22
0
1
2
3
1
2
2
2
ˆ1
1
1ˆ:
1)ˆ(:)(!
ˆ1
ˆ
0ˆ1)ln(
ˆ2
1)2ln(
2)ln(
2)ln(
µσσ
σσσ
µσ
µσσσ
µσ
πσ
Schätzer für �2 ist konsistent.
Normalverteilung, Schätzer für Mittelwert
und Varianz
( )�
�
=
=
−⋅−
=
⋅=
n
i
i
n
i
i
yn
yn
1
22
1
ˆ1
1ˆ
1ˆ
µσ
µ
yi – beobachtete Werte(Stichprobe,”Sample”); i=1,2,…,n
n – Anzahl der Werte in der Stichprobe
Erwartungstreue, konsistente Schätzer sind:
Uwe Menzel 10.3.2007
Weibull-Verteilung
( )
( ) ( ) ( ) ( )
( )
( )
( )n
n
n
n
i
in
n
i
i
n
nn
nn
yyyyhug
yyyyu
Statistikyusetzeyyyyy
yyyyyy
yfyfyfyyyL
yyy
yf
,...,,,),(
...exp2
"":...1
exp2
exp2
...exp2
exp2
|...|||...,,
0exp2
|
321
321
1
2
321
1
2
22
22
2
11
2121
2
×=
⋅⋅⋅⋅⋅��
���
�−⋅
��
�=
=⋅⋅⋅⋅⋅��
���
�⋅−⋅
��
�=
��
���
�−⋅
��
�××�
�
���
�−⋅
��
��
�
���
�−⋅
��
�=
×××=
>��
���
�−⋅
��
�=
��==
θ
θθ
θθ
θθθθθθ
θθθθ
θθθ
Die Zufallsvariable u ist eine minimale ”erschöpfende Statistik” für �
(Faktorisierungskriterium der Likelihood-Funktion)
MLE für � in Weibull-Verteilung
( ) ( )
( ) ( )
uvonFunktion;�fürSchätzer1ˆ
0)ln(
...lnln)2ln()ln(
...exp2
|...,,
1
2
2
321
1
2
32121
�
�
=
=
⋅==
=+−=
⋅⋅⋅⋅+−⋅−⋅=
=⋅⋅⋅⋅⋅��
���
�−⋅
��
�=
n
i
i
n
n
i
in
n
n
ynn
u
un
d
Ld
yyyyu
nnL
yumityyyyu
yyyL
θ
θθθ
θθ
θθθ
( ) ( ) ( )
( ) treuerwartungsnnn
E
yEywSubstyEn
yn
EE
n
uy
n
n
i
i
n
i
i
n
i
i
n
i
i
θθθθ
θθ
θ
=⋅⋅==
=→==
��
�⋅=
=⋅=
�
��
�
=
==
=
11ˆ
.11ˆ
1ˆ
1
22
1
2
1
2
1
2
Minimalschätzung für die Weibull -Verteilung
• Der Schätzer für � ist:
– ein erwartungstreuer Schätzer
– eine Funktion der minimalen ”erschöpfenden Statistik”
� Damit ist er von allen möglichen erwartungs-
treuen Schätzern derjenige mit der kleinsten
Varianz (Minimalschätzer,”MVUE=Minimum-
Variance Unbiased Estimator”)
• ML – Methode führt oft automatisch zu einem
Minimalschätzer !
Uwe Menzel 10.3.2007
Zusammenfassung 1
• Ausgehend von einer zufälligen Stichprobe und einer Annahme über die zugrunde liegende Verteilung ermittelt die ML-Methode die plausibelsten Parameter dieser Verteilung.
• Die Likelihood-Funktion ist die gemeinsame Verteilungsfunktion (kontinuierlicher Fall) bzw. die kombinierte Wahrscheinlichkeit (diskreter Fall) der Stichprobe, aufgefasst als Funktion der Verteilungsparameter.
• Der plausibelste Wert für den Parameter der Verteilungsfunktion ist derjenige, welcher die Likelihood-Funktion maximiert. Dieser wird als Schätzer verwendet.
Zusammenfassung 2
• Ein Schätzer ist:
– erwartungstreu, wenn sein Erwartungswert gleich dem zu schätzenden Parameter ist,
– konsistent, wenn er erwartungstreu ist und wenn seine Varianz für unendlich gro�e Stichproben gegen Null geht.
• Ein Minimalschätzer (MVUE) ist ein erwartungstreuer Schätzer mit kleinstmöglicher Varianz. Die ML-Methode führt oft automatisch zu einem Minimalschätzer.
Uwe Menzel 10.3.2007
Vielen Dank für Ihre Aufmerksamkeit
http://puffer.genpat.uu.se/MLE/
uwe.menzel@genpat.uu.se
Aufgabe
• y1,y2,…yn sei eine zufällige Stichprobe von einer
Poisson-Verteilung mit dem Mittelwert λ
– Finden Sie einen ML-Schätzer λˆ für λ
– Berechnen Sie den Erwartungswert und die Varianz dieses Schätzers
– Ist der Schätzer erwartungstreu ?
– Ist der Schätzer konsistent ?
Uwe Menzel 10.3.2007
ML für eine diskrete Verteilung
• n Versuche y1,y2,…yn mit jeweils zwei möglichen
Resultaten: yi = 0,1
• p sei die Wahrscheinlichkeit des Erfolges (yi=1)
( ) ( ) ( ) ( )
( ) ( ) ( )
( )
( ) ( )
( )
n
yp
p
yn
p
y
pyn
py
dp
Ld
pynpyL
yymitpp
pppppp
pyPpyPpyPpyyyL
i
yny
yyyyyy
nn
nn
=
−
−=
=
���
�
−
−⋅−+
���
�⋅=
−⋅−+⋅=
=−⋅=
−⋅××−⋅×−⋅=
×××=
�−
−−−
ˆ
1
01
11)ln(
1ln)ln()ln(
1
1...11
|...|||,...,,
111
2121
2211
Uwe Menzel 10.3.2007
Weitere Anwendungen
• Genauigkeit eines Messgerätes (”50 ± 0,5”) )
• phylogenetische Analyse von DNA- oder Proteinsequenzen mit Maximum-Likelihood (http://abacus.gene.ucl.ac.uk/software/paml.html )
• Classifier http://www.eduspace.esa.int/eduspace/subdocument/default.asp?document
=521
• Shoreline Mapping http://www.eomonline.com/EOM_Jul05/article.php?Article=feature3
• Localization by Maximum-Likelihood
http://www.nasatech.com/Briefs/Oct98/NPO20392.html
Programme
• R: mle-package (im stats4 package)
• Matlab code for the ML estimation
(http://www.netlab.tkk.fi/tutkimus/com2/fbm/index.shtml )
Uwe Menzel 10.3.2007
Invarianzeigenschaft der ML-Methode
• Sei �’ ein Schätzer für �
� dann ist f(�’) ein Schätzer für f(�)
Uwe Menzel 10.3.2007
Korrektur von �0 (Normalverteilung)
( )
( ) ( )
( ) ( ) ( )
( ) ( ) ( )
( )
( )�
�
��
����
=
=
==
====
−⋅−
=⋅
��
�
−=
��
� −=−−+=
���
�+−+⋅=
+=−=
+=−==
−⋅=���
���
−⋅=
−⋅=
��
�⋅−⋅=−⋅=
n
i
i
n
i
iii
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
ynn
nKorrektur
n
n
nnnE
nEalsoEEVausserdem
yEalsoyEyVistEs
EyEn
yn
EE
yn
yn
yn
yn
1
22
0
2
222
2222
1
222
0
22
222
222222
2
1
22
1
22
0
2
1
2
2
12
1
2
1
22
0
ˆ1
1ˆ
1ˆ:
11)ˆ(
ˆˆˆ)ˆ(:
:
ˆ1
ˆ1
)ˆ(
ˆ111
ˆ1
ˆ
µσσ
σµσ
µσµσ
µσσ
µσ
µµµµ
µσµσ
µµσ
µµσ
Faktorisierung der Likelihood-Funktion
( ) ( ) �=
=×=n
i
inn yumityyyyhugyyyL1
2
32121 ,...,,,),(|...,, θθ
Sei u eine von einer Stichprobe y1,y2,.,yn abgeleitete Statistik. Dann ist u eine erschöpfende Statistik für den Parameter �, wenn (und nur wenn)
die Likelihood in zwei nichtnegative Faktoren g(u,�) × h(y1,y2,….,yn)zerlegt werden kann, wobei
• g ausschlie�lich eine Funktion von u und � ist und • h nicht von � abhängt.
(engl.: ”sufficient statistics”)(h ist oft identisch 1, z. B. bei derNormalverteilung)
Erschöpfend bedeutet, dass die in der Stichprobe enthaltene Information vollständig für die Schätzung ausgenutzt wird. Es geht keine Information verloren, wenn z. B. 10 Werte einer Stichprobe auf einen einzigen Wert (arithmetisches Mittel) reduziert werden.
Uwe Menzel 10.3.2007
Weitergehende Theorie
• Eine Schätzung, bei der Vorwissen in Form
einer a priori-Wahrscheinlichkeit einfließt, wird
Maximum-A-Posteriori-Schätzung (MAP)
genannt.
Uwe Menzel 10.3.2007
top related