metriken für nearest neighbour-verfahren lineare diskriminanzfunktionen maschinelles lernen

27
Metriken für Nearest Neighbour- Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Upload: leonore-heinisch

Post on 05-Apr-2015

111 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Metriken für Nearest Neighbour-VerfahrenLineare Diskriminanzfunktionen

Maschinelles Lernen

 

Page 2: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 204/11/23|

Metriken

Bei nearest-neighbour-Verfahren wird der Klassifikator einzig durch die Daten und das Distanzmaß festgelegt. Expertenwissen kann hier ausschließlich durch die Wahl des Distanzmaßes einfließen!

(Vergleiche: Bei einem parametrischen Modell wird der Klassifikator durch die Daten und das Verfahren zur Parameterschätzung festgelegt)

Definition Distanzmaß: Eine Funktion d: X x X → ℝ heißt Distanzmaß oder Metrik auf X, wenn gilt:

1. d(a,b) ≥ 0 für alle a,b X (∊ Nicht-Negativität)

2. d(a,b) = 0 genau wenn a=b (Definitheit)

3. d(a,b) = d(b,a) für alle a,b X (∊ Symmetrie)

4. d(a,b)+d(b,c) ≥ d(a,b) für alle a,b,c X ∊(Dreiecksungleichung)

(Anm.: Axiom 1 folgt aus den restlichen Axiomen)

Page 3: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 304/11/23|

Metriken

Beispiele:

Die Lp-Norm auf ℝn (p≥1) :

induziert eine Metrik

pn

j

pjpnpxxxx

/1

11 ),...,(

Einheitskugeln verschiedener Lp-Normen

pyxyxd ),(

Für 0<p<1 ist die analog definierte Funktion d keine Metrik (wieso?).

(Manhattan Distanz)

Page 4: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 404/11/23|

Metriken

Mahalanobis Distanz:

Sei < , > ein postitiv definites Skalarprodukt im ℝn. Dann lässt sich dies darstellen durch

<x,y> = xTAy mit einer geeigneten symmetrischen, positiv definiten Matrix A ∊ ℝnxn. Dies induziert eine Norm

und somit eine Metrik

xxx ,

)()(),( yxAyxyxyxd T

Verbindungen zur Diskriminanzanalyse:

Nimmt man an, dass die Daten einer Klasse ω einer multivariaten Normalverteilung entspringen, z.B.

))()(5.0exp()( 1 xxxp T

so kann man μω,Σω durch den Mittelwert bzw. die Kovarianzmatrix der Daten in Klasse ω schätzen. Ein neuer Punkt x wird dann in die Klasse ω klassifiziert, für die die Mahalanobis-Distanz

))(),( 1 xxxd T minimal ist (sofern die Streuung |Σω| für alle

Gruppen gleich ist)

13

31

d=1

Page 5: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 504/11/23|

Metriken

Canberra Distanz: Sind alle Features eines Datenpunktes x=(x1,…,xn) nicht-negativ, d.h. gilt xj≥0 für alle j, dann ist

eine Metrik, die Canberra-Metrik.

n

j jj

jj

yx

yxyxd

1

||),(

Hamming Distanz: Sind alle Features eines Datenpunktes x=(x1,…,xn) binär, dann ist

eine Distanzfunktion, die Hamming-Distanz. Fasst man die binären Werte 0 bzw. 1 als reelle Zahlen auf, so ist dies gerade die Manhattan Distanz.

|}|{| ),( jj yxjyxd

(Pearson-)Korrelationsdistanz: Für reelle Features und für das euklidische Skalarprodukt samt zugehöriger Norm sei

Dann heißt die Pearson-Korrelation von x und y,

und ist eine Metrik, die Korrelationsmetrik.

nyZxZyxr /)(),(),(

xxxxxZ /)()(

),(1),( yxryxd

Page 6: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 604/11/23|

Tanimoto Distanz: Sind alle Features eines Datenpunktes x=(x1,…,xn) binär, dann ist

eine Distanzfunktion, die Tanimoto-Distanz.Will man Teilmengen X bzw. Y einer Menge M vergleichen, so betrachtet man x=(xj)j M∊ , mit xj=1 genau wenn j X; y wird analog definiert. Dann ist ∊die Tanimoto Distanz von x und y:

Es wird also eine Ähnlichkeit von X und Y gemessen.

|}1oder 1|{|

|}|{| ),(

jj

jj

yxj

yxjyxd

||

|\| |\| ),(

YX

XYYXyxd

Metriken

Page 7: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 704/11/23|

Metriken

Tangentendistanz (kommt of in der Bildanalyse zum Einsatz):

Eine Beobachtung x X∊ (z.B. ein Bild) definiert eine ganze Menge von „äquivalenten“ Beobachtungen , d.h. P(ω|x) = P(ω|m) für alle m (z.B. könnte ∊ die Menge aller horizontal oder vertikal verschobenen Bilder von x sein).

x~ x~

x~

Naive Verwendung eines Abstandsmaßes führt dazu, dass ein verschobenes Muster fehlklassifiziert wird. In diesem Beispiel wäre ein vernünftiges Abstandsmaß invariant gegenüber Translationen.

Trainings-punkt x1

Trainings-punkt x2

Testpunkt y

Page 8: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 804/11/23|

Metriken

Tangentendistanz (kommt of in der Bildanalyse zum Einsatz):

Eine Beobachtung x X∊ (z.B. ein Bild) definiert eine ganze Menge von „äquivalenten“ Beobachtungen , d.h. P(ω|x) = P(ω|m) für alle m (z.B. könnte ∊ die Menge aller horizontal oder vertikal verschobenen Bilder von x sein).

Mit n Beobachtungen x1,…xn und deren Klassenzugehörigkeiten ω1,… ω n hat man de facto die Beobachtungen mit den Klassenzugehörigkeiten ωj, j = 1,…,n gemacht. Zur nearest neighbour Klassifikation einer neuen Beobachtung y sucht man daher den kleinsten Abstand y zu den Vertretern aus d.h. man sucht),(inf)~,(

~aydxyd

jxaj

x~ x~

x~

jx~

jx~

Da die komplette Aufzählung aller zu aufwändig oder unmöglich ist, nähert man xj durch einen affinen Raum an, indem man sich durch „differentielle Operationen“ entstanden denkt, d.h. man berechnet

und mit der Matrix (die man nur ein Mal bei der Präprozes-sierung berechnet) nähert man

jkjk xx Kkxx j

kj ,...,1 , )~( UmgebungNahe

),(),(inf),(inf)~,(~

kjj

axaj xydaxydaydxyd

Kj

R R

Kkk ...1)(

jxa ~jx

~

Page 9: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 904/11/23|

'~x

Δ1

Δ2

Δa

Die Idee hierbei ist, dass die Tangenten-Näherung für Punkte, die sich nahe bei der neuen Beobachtung y befinden, gut ist. Für weit entfernte Punkte muss die Näherung gar nicht gut sein, da diese Punkte sowieso als Nachbarn von y ausgeschlossen werden sollen. Die Gefahr, dass durch die Tangenten-Näherung ein weit entfernter Punkt (bzw. seine Äquivalenzklasse) fälschlicherweise als benachbart zu y bewertet wird, ist dagegen gering.

Metriken

Bem.: Ist d z.B. der euklidische Abstand, so lässt sich das Minimum der quadratischen Funktion schnell berechnen.

),(2 kjxyd R

Page 10: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 1004/11/23|

Lineare Diskriminanzfunktionen

Page 11: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 1104/11/23|

Lineare Diskriminanzfunktionen

Page 12: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 1204/11/23|

Lineare Diskriminanzfunktionen

Aus: Duda, Hart, Stork. Pattern Classification

nnT xwxwxwwxwxg ... )( 11000

Page 13: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 1304/11/23|

Lineare Diskriminanzfunktionen

0 )( wxwxg T

Page 14: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 1404/11/23|

Lineare Diskriminanzfunktionen

0 )( wxwxg T

Page 15: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 1504/11/23|

Lineare Diskriminanzfunktionen

Mehr als zwei Klassen

Paarweises Lernen I:Entscheide, ob x∊ωj oder x∉ωj , j=1,…,n.

Paarweises Lernen II:Entscheide, ob x∊ωj oder x ∊ωk , j,k = 1,…,n, j≠k.

Page 16: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 1604/11/23|

Lineare Diskriminanzfunktionen

Page 17: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 1704/11/23|

Lineare Diskriminanzfunktionen

Page 18: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 1804/11/23|

Lineare Diskriminanzfunktionen

Page 19: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 1904/11/23|

Lineare Diskriminanzfunktionen

Page 20: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 2004/11/23|

Lineare Diskriminanzfunktionen

Page 21: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 2104/11/23|

Lineare Diskriminanzfunktionen

Page 22: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 2204/11/23|

Lineare Diskriminanzfunktionen

Page 23: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 2304/11/23|

Lineare Diskriminanzfunktionen

Page 24: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 2404/11/23|

Lineare Diskriminanzfunktionen

Page 25: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 2504/11/23|

Lineare Diskriminanzfunktionen

Page 26: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 2604/11/23|

Lineare Diskriminanzfunktionen

Page 27: Metriken für Nearest Neighbour-Verfahren Lineare Diskriminanzfunktionen Maschinelles Lernen

Seite 2704/11/23|

Lineare Diskriminanzfunktionen