vorlesung "intelligente systeme" 1 0. intelligente systeme – beispiele und fähigkeiten...

141
Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien Analysator Erkennung Kategorisierung, Klassifikation, Kategorienbildung: Abbildung von Daten auf semantische Strukturen Zusammenhangsfindung zwischen Daten Prognose Zusammenhangsfindung zwischen jüngeren und älteren Daten aus aufgezeichneten Daten Zusammenhang auf aktuelle und zukünftige Daten anwenden Lernfähigkeit Anpassung an Änderungen Mustererkennung Data Mining Regression Maschinelles Lernen

Upload: erwin-lange

Post on 06-Apr-2015

111 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 1

0. Intelligente Systeme – Beispiele und Fähigkeiten

Benötigte Technologien

Analysator Erkennung

Kategorisierung, Klassifikation, Kategorienbildung:Abbildung von Daten auf semantische Strukturen

Zusammenhangsfindung zwischen Daten Prognose

Zusammenhangsfindung zwischen jüngeren und älteren Daten aus aufgezeichneten Daten

Zusammenhang auf aktuelle und zukünftige Daten anwenden Lernfähigkeit

Anpassung an Änderungen

MustererkennungData Mining

Regression

MaschinellesLernen

Page 2: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 2

0. Intelligente Systeme – Beispiele und Fähigkeiten

Werkzeuge

Mustererkennung Klassifikatoren

Lineare Klassifikatoren Künstliche Neuronale Netze Support-Vektor-Maschinen Hidden-Markov-Modelle …

Clustering-Verfahren K-Means Self-Organizing Maps …

Page 3: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 3

0. Intelligente Systeme – Beispiele und Fähigkeiten

Werkzeuge

Merkmale Verdichtung

Hauptkomponenten-Transformation Fourier-Transformation …

Auswahl Receiver Operation Characteristics Curve Kullback-Leiber …

Regression Lineare Regression Neuronale Netze Kernel (Support Vektor) Regression Genetische Programmierung

Page 4: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 4

1. Leistung von Erkennungssystemen

Intelligenz

Intelligenz (lat.: intelligentia = "Einsicht, Erkenntnisvermögen", intellegere = "verstehen") bezeichnet im weitesten Sinne die Fähigkeit zum Erkennen von Zusammenhängen und zum Finden von optimalen Problemlösungen.

Künstliche Intelligenz (KI) Nachbildung menschlicher Intelligenzleistungen in Software. Technischer Einsatz in intelligenten Systemen.

Anwendungsbereiche: Optimierungsprobleme (Routenplanung, Netzwerke), Umgang mit natürlicher Sprache (Spracherkennung, automatisches Übersetzen, Internet-

Suchmaschinen), Datenanalyse (Data Mining, Business Intelligence) Umgang mit natürlichen Signalen (Bildverstehen und Mustererkennung).

Page 5: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 5

Komponentenfähigkeiten

Analysator

Erkennung

Prognose Lernfähigkeit

Regelungs/Handlungssystem Optimierung Handlung/Aktion ableiten Regelung Adaptivität

Sensoren Kommunikation

Ziel-system

1

Regelungs/ Handlungssystem

2

Analy-sator

4

Sensoren3

Welt

-

Situations-information

AbweichungZielsetzung

Aktionen

Signale

Daten

1. Leistung von Erkennungssystemen

Page 6: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 6

Gesichtsdetektion

1. Leistung von Erkennungssystemen

Page 7: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 7

Intelligente Systeme und deren Aufgabe

Klasse wj

Klasse wk

Klasse wl

Beschreibungs-(Zustands-)raum

C

ZugänglicherMusterraum

P

Beobachtungs- oderMeßraum

F

Gj+j

Gk+k

Gl+l

p3

p1

p2

p4

m1

m2

m3

Abbildung 1 Abbildung 2

Informationsgewinnung

M+M

Erste Aufgabe eines intelligenten Systems: Informationsgewinnung

1. Leistung von Erkennungssystemen

Page 8: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 8

p(x|s)

s1

s2

x

Intelligente Systeme und deren Aufgabe

Erste Aufgabe eines intelligenten Systems: Informationsgewinnung

Zustand Z1

do/ emit x:s1

Zustand Z3

do/ emit x:s3

Zustand Z2

do/ emit x:s2 x

15

15

11

11

12

1213

13

14

14 9

9

10

10

Stochstischer Prozess

„Glücksräder“

Erkenner Zustand

1. Leistung von Erkennungssystemen

Page 9: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 9

2. Ein Beispiel für Erkennungssysteme

Nebenbemerkung

Histogramm und Wahrscheinlichkeitsdichte

Wahrscheinlichkeitsdichte: relative Häufigkeit pro Intervall

Histogramm von x

xV

ork

om

me

nsa

na

zah

l (fr

eq

ue

ncy

) k

20 30 40 50 60 700

51

01

5

Stichprobe mit 50 Versuchen

Stichprobe: Führe N Versuche aus, miss jedes mal die Größe x.

Histogramm:Teile die Größe x in Intervalle mit Breite x. Zähle Anzahl in jedem Intervall.

Trage die Anzahl gegen das Intervall auf.

20 70xx xxxxxxx xxxxx x x

20 70

xx xxxxxxx xxxxx x x

Page 10: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 10

2. Ein Beispiel für Erkennungssysteme

Nebenbemerkung

Histogramm und WahrscheinlichkeitsdichteWahrscheinlichkeitsdichte : relative Häufigkeit pro Intervall= (Vorkommensanzahl/Stichprobenumfang)/Intervallbreite = (k/N)/x= relative Häufigkeit / Intervallbreite = h/ x

Histogramm von x

x

Vo

rko

mm

en

san

aza

hl (

fre

qu

en

cy)

k

20 30 40 50 60 70

05

10

15

Histogram von x

x

Wa

hrs

che

inlic

hke

itsd

ich

te

20 30 40 50 60 70

0.0

00

.02

0.0

40

.06

W-Dichte = (7/50) / 5 = 0.028

Page 11: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 11

2. Ein Beispiel für Erkennungssysteme

Nebenbemerkung

Histogramm und Wahrscheinlichkeitsdichte

Histogramm von x

x

Wa

hrs

che

inlic

hke

itsd

ich

te

20 30 40 50 60 70

0.0

00

.02

0.0

40

.06

Wahrscheinlichkeitsdichten x Balkenbreiten = 1

Mit zunehmender Stichprobengröße Balkenbreite immer kleiner, so dass im unendlichen Fall die Balkenbreite unendlich klein ist.

Histogramm von x

Den

sity

20 30 40 50 60 70 80

0.00

0.02

0.04

Page 12: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 12

2. Ein Beispiel für Erkennungssysteme

Nebenbemerkung

Wahrscheinlichkeitsdichte

Ist gleichbedeutend mit

b

ax

dxxpbXaP

22lim

0

xXxPxp

xpxXPx

0 0,5 1,0 1,5 2,0

0,10

0,05

0,00 x

p(x)

Page 13: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 13

2. Ein Beispiel für Erkennungssysteme

Nebenbemerkung

Wahrscheinlichkeitsdichte

ergibt

ergibt

Page 14: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 14

2. Ein Beispiel für Erkennungssysteme

Nebenbemerkung

Körpergröße nach Einkommen (D, über 18a)

Page 15: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 15

2. Ein Beispiel für Erkennungssysteme

Nebenbemerkung

Körpergröße nach Geschlecht (D, über 18a)Größe F M

<150 cm 0,6% 0,1%

150-154 cm 4% 0,1%

155-159 cm 12,7% 0,3%

160-164 cm 27% 2,3%

165-169 cm 29,1% 9%

170-174 cm 17,6% 19,2%

175-179 cm 6,9% 26,1%

180-184 cm 1,8% 23,9%

185-189 cm 0,2% 12,8%

>190 cm <0,1% 6,3%

Page 16: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 16

2. Ein Beispiel für Erkennungssysteme

Nebenbemerkung

Körpergröße nach Bundesland (D, über 18a)

Page 17: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 17

3. Statistische Fundamente

Bayes´sche EntscheidungstheorieWie treffe ich die optimale Entscheidung bei unvollständiger Information ?

A-priori-Wahrscheinlichkeiten

Ein betrachtetes System befindet sich in einem “wahren Zustand” c, z.B. c=c1 (normal) oder c=c2 (Zündaussetzer). Diese können sich zufällig abwechseln und treten mit den Wahrscheinlichkeiten P(c1) und P(c2) auf: A-priori-Wahrscheinlichkeiten. P(c1) + P(c2) =1, wenn keine weiteren Zustände.

Fall 1: Keine weitere Information als P(c1) und P(c2) -> Entscheidungsregel über nächsten Zustand:

c1, wenn P(c1) > P(c2) , sonst c2.

Page 18: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 18

3. Statistische Fundamente

Bayes´sche EntscheidungstheorieWie treffe ich die optimale Entscheidung bei unvollständiger Information ?

Verbund-Wahrscheinlichkeiten und bedingte Wahrscheinlichkeiten

Zusatzinformation: B ist aufgetreten.

Wahrscheinlichkeit von A, wenn B aufgetreten ist: bedingtBeispiel: P(1,70m < h < 1,80m | Frau) = 0,2, P(Frau) = P(Mann) = 0,5

P(1,70m < h < 1,80m , Frau) = 0,2 * 0,5 = 0,1

Verbund-Wahrscheinlichkeit P(A,B) von A und B ist Wahrscheinlichkeit, dass A und B gleichzeitig auftreten.

Bedingte Wahrscheinlichkeit P(A|B) ist Wahrscheinlichkeit, dass A auftritt unter der Bedingung, dass B aufgetreten ist.

Gilt auch für Wahrscheinlichkeitsdichten

)(

),()|(;

)(

),()|(

AP

BAPABP

BP

BAPBAP

)(

),()|(

i

ii cP

cxpcxp

)()|()()|(),( APABPBPBAPBAP

)|( BAP

B ist fest!

B ist fest! A ist fest!

Page 19: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 19

3. Statistische Fundamente

Bayes´sche EntscheidungstheorieWie treffe ich die optimale Entscheidung bei unvollständiger Information ?

Verbund-Wahrscheinlichkeiten und bedingte Wahrscheinlichkeiten

Verbund-Wahrscheinlichkeit P(A,B) von A und B ist Wahrscheinlichkeit, dass A und B gleichzeitig auftreten.

Größe, bezüglich derer Dichte berechnet wird, muss variabel sein.

Daher lautet Verbundwahrscheinlichkeitsdichte

)()|()()|(),( xpxcPcPcxpcxp iiii

)()|()()|(),(

)()|()()|(),(

xPxcPcPcxPcxP

APABPBPBAPBAP

iiii

B ist fest! A ist fest!

ist fest! ist fest!

Page 20: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 20

3. Statistische Fundamente

Bayes´sche EntscheidungstheorieWie treffe ich die optimale Entscheidung bei unvollständiger Information ?

Wahrscheinlichkeitsdichte

22lim

0

xXxPxp

xpxXPx

0 0,5 1,0 1,5 2,0

0,10

0,05

0,00 x

p(x) x variabel

1

dxxp

Page 21: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 21

3. Statistische Fundamente

Bayes´sche EntscheidungstheorieWie treffe ich die optimale Entscheidung bei unvollständiger Information ?

Klassenbedingte Wahrscheinlichkeitsdichtefunktion p(x|c)

Information x über das System (z.B. das Drehmoment M4) mit verschiedenen Ausprägungen in verschiedenen Zuständen (Klassen) c.Klassenbedingte Wahrscheinlichkeitsdichtefunktion p(x|c).

Fall 2: Wir verfügen über weitere Information x.

p(x|c)

c1

c2

x

Wahrscheinlichkeitsdichte für das Vorliegen eines Wertes des Merkmals x, wenn das System in Zustand c ist.Die Fläche unter der Kurve ist jeweils 1.

Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience

Page 22: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 22

3. Statistische Fundamente

Bayes´sche EntscheidungstheorieWie treffe ich die optimale Entscheidung bei unvollständiger Information ?

Fall 2: Wir verfügen über weitere Information x, also die Wahrscheinlichkeitsdichtefunktionen p(x|ci) für die verschiedenen Klassen und den aktuellen Wert von Merkmal x unseres Systems sowiedie A-priori-Wahrscheinlichkeiten der Klassen P(ci).

Dann ist die verknüpfte Wahrscheinlichkeitsdichte, dass das System in Zustand ci ist und dabei den Merkmalswert x hat: p(ci,x) = P(ci|x)p(x) = p(x|ci)P(ci).

Von Interesse P(ci|x). Mittels Bayes´scher Formel

i

iiii

i cPcxpxpxp

cPcxpxcP )()|()(mit

)(

)()|()|(

Wahrscheinlichkeitsdichte von Merkmal x

Wahrscheinlichkeit für Klasse ci unter der Bedingung, dass ein Wert x vorliegt

Wahrscheinlichkeitsdichte von Merkmal x, unter der Bed., dass Klasse ci vorliegt

Wahrscheinlichkeit für Klasse ci

Page 23: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 23

3. Statistische Fundamente

Bayes´sche EntscheidungstheorieA posteriori Wahrscheinlichkeit, dass Klasse ci vorliegt, wenn das Merkmal

die Ausprägung x hat:

i

iiii

i cPcxpxpxp

cPcxpxcP )()|()(mit

)(

)()|()|(

p(x|c)

c1

c2

x

P(c|x)

c1

c2

)()|()()|(

)()|()|(

2211

111 cPcxpcPcxp

cPcxpxcP

)()|()()|(

)()|()|(

2211

222 cPcxpcPcxp

cPcxpxcP

P(c1) = 1/3

P(c2) = 2/3

Likelihood Prior

Evidence

x

Posterior

Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience

Page 24: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 24

3. Statistische Fundamente

Bayes´sche EntscheidungstheorieWie treffe ich die optimale Entscheidung bei unvollständiger Information ?

Fall 2: Entscheide c1 wenn P(c1|x) > P(c2|x), sonst c2.

P(c|x)

c1

c2

x

P(c1|x=14)=0.08

P(c2|x=14)=0.92

c1 c2c1c2

Page 25: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 25

p(x|s)

s1

s2

x

3. Statistische Fundamente

Erkennungssysteme und deren Aufgabe

Informationsgewinnung

Zustand Z1

do/ emit x:s1

Zustand Z3

do/ emit x:s3

Zustand Z2

do/ emit x:s2 x

15

15

11

11

12

1213

13

14

14 9

9

10

10

Stochstischer Prozess

„Glücksräder“

Erkenner Zustand

Page 26: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 26

3. Statistische Fundamente

Mehr als ein Merkmal: Grundlagen

Numerische Merkmale und Merkmalsvektor

Ein Merkmal x Zwei Merkmale x1 und x2

20 70xx xxxxxxx xxxxx x x

Ein-dimensionaler Merkmalsraum

Merkmal x1

Me

rkm

al

x 2

x

xxxxx

xx x

xx

x

xxx

x

x

xxx

x

x x x

xx

x xx

x

x

xx

x

x

xx

x

x

x

x

Stichprobe: Menge der Merkmals-ausprägungen

i

ii x

xx

2

1ktor Merkmalsve

Merkmal x

Zwei-dimensionaler Merkmalsraum

Skalare

Vektoren

Page 27: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 27

Merkmalsraum

Bild von Objekten unterschiedlicherGröße und Form

Maximale Abmessung l

For

mfa

ktor

f

xxx

x xx

x

+++

++ ++Merkmalsraum

fi

li

*

Meßraum: Grauwerteder Pixel einesKamerasensors

Merkmalsauswahl: Merkmalsvariable Formfaktor (f) und maximale Abmessung (l)

xi

Jeder Merkmalsvektor xi= [fi, li]T repräsentiert ein Muster.Wegen der statistischen Prozesse bei derMusterentstehung und beim Meßprozesswerden Merkmale als “random variables” und Merkmalsvektoren als “random vectors”betrachtet.

3. Statistische Fundamente

Mehr als ein Merkmal: Grundlagen

Page 28: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 28

Merkmalsraum

Wahrscheinlichkeitsdichtefunktion

3. Statistische Fundamente

Mehr als ein Merkmal: Dichte und Dichtefunktion

Merkmal x1

Merkm

al x 2

Wa

hrs

ch

.

Merkmal x1

Me

rkm

al

x 2

x

xxxxx

xx x

xx

x

xxx

x

x

xxx

x

x x x

xx

x xx

x

x

xx

x

x

xx

x

x

x

x

Stichprobe

i

ii x

xx

2

1ktor Merkmalsve

Nxxx

,,, 21

jcxpxp |,

jcxp |

2

222111

0

22,

22lim

xXxxXxPxp

Dichte: relative Häufigkeit imKästchen, geteilt durchKästchenfläche

Page 29: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 29

Merkmalsraum

Wahrscheinlichkeitsdichtefunktion

3. Statistische Fundamente

Mehr als ein Merkmal: Korrelation und Kovarianz jcxp |

Zwei unterschiedliche stochastische Größen (z.B. Merkmale)Maßzahl für montonen Zusammenhang zwischen

),K( : und 2121 xxxx

21 und xx

0),K(

0),K(

0),K(

21

21

21

xx

xx

xx wenn gleichsinniger Zusammenhang zw.

wenn gegensinniger Zusammenhang zw.

wenn kein Zusammenhang zw.

21 und xx

21 und xx

21 und xx

)()(),K( 221121 xExxExExx

Die Größe von K hängt von den Maßeinheiten von ab.Daher Invarianz durch Normierung mit Standardabweichung: Korrelation C

21 und xx

2

21

2121 )()(mit

)()(

),K(),C( xExEx

xx

xxxx

Page 30: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 30

Merkmalsraum

3. Statistische Fundamente

Mehr als ein Merkmal, mehrere Klassen

Merkmal x1

Merkmal x 2

Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience

Page 31: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 31

Merkmalsraum

3. Statistische Fundamente

Mehr als ein Merkmal, mehrere Klassen

Merkmal x1

Merkmal x 2

Endliche Menge von Klassen{c1,c2,…,cC} mit zugehörigen Wahrscheinlichkeitsdichten

Bayes Formel für a posterioriWahrscheinlichkeit

Entscheidungsregel:

)|( jcxp

mit )(

)()|()|(

xp

cPcxpxcP jj

j

C

jjj cPcxpxp

1

)()|()(

)|()|(

:ij wenn , Entscheide

xcPxcP

c

ji

i

x1T

x 2T

xT

)|( 1 TxcP

)|( 2 xcP

)|( 3 xcP

)|( 4 xcP

)|( xcP j

Page 32: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 32

Merkmalsraum

3. Statistische Fundamente

Entscheidungsflächen und -funktionen

Merkmal x1

Merkmal x 2

Entscheidungsregel:

)|()|(

:ij wenn , Entscheide

xcPxcP

c

ji

i

Entscheidungsflächen sindGrenzflächen zwischen den Regionen

Teilt Merkmalsraum in Regionen

ij )|()|(

derer innerhalb , i xcPxcP

R

ji

R4

R3

R2

R1x

1T

x 2T

xT

1)|()|( 1

1

jxcPxcP

Rx

TjT

T

Page 33: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 33

Merkmalsraum

3. Statistische Fundamente

Entscheidungsflächen und -funktionen

Entscheidungsregel:

Entscheidungsregel gilt auch für monotone Funktionen g (Entscheidungs-funktionen) von P:

)|()|(

:ij wenn , Entscheide

xcPxcP

c

ji

i

)(ln)|(ln)(:alternativ

),()|()(:alternativ

,)()|(

)()|()|()(

)()( :ij wenn , Entscheide

1

iii

iii

C

jjj

iiii

jii

cPcxpxg

cPcxpxg

cPcxp

cPcxpxcPxg

xgxgc

(konst. Nenner weglassen)

(logarithmieren)

Page 34: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 34

Merkmalsraum

3. Statistische Fundamente

Entscheidungsflächen und -funktionen

Bei zwei Kategorien (Klassen) Entscheidungsregel

Kann vereinfacht werden zu einer einzigen Entscheidungsfunktion

deren Vorzeichen über die Klassenzugehörigkeit entscheidet:

Bequeme Wahl von g:

).()( wenn , entscheide

und )()( wenn , Entscheide

212

211

xgxgc

xgxgc

)()()xg( 21 xgxg

.0)( wenn , entscheide

und 0)( wenn , Entscheide

2

1

xgc

xgc

)(

)(ln

)|(

)|(ln)(

mit alternativ ,)|()|()(

2

1

2

1

21

cP

cP

cxp

cxpxg

xcPxcPxg

)(ln)|(ln)( iii cPcxpxg

Page 35: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 35

Merkmalsraum

3. Statistische Fundamente

Entscheidungsflächen und -funktionen

Modellfunktion für klassenbedingte Wahrscheinlichkeitsdichte: NormalverteilungBisher ein-dimensional:

Jetzt mehr-dimensional:

2

2

2

)(

2

1)(

x

exp

)()(2

1

2/12/

1

)2(

1)(

xx

d

T

exp

dxxpxdxxpx )()(,)( 22

xdxpxx

xdxpx

T

)())((

,)(

Merkmal x1

Merkmal x 2

Wa

hrs

ch

.

lklkllkkkl

nnnn

dxdxxpxpxx

dxxpx

)()())((

,)(

Page 36: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 36

Merkmalsraum

3. Statistische Fundamente

Entscheidungsflächen und -funktionen

NormalverteilungJetzt mehr-dimensional:

)()(2

1

2/12/

1

)2(

1)(

xx

d

T

exp

xdxpxx

xdxpx

T

)())((

,)(

Merkmal x1

Merkmal x 2

Wa

hrs

ch

.

lklkllkkkl

nnnn

dxdxxpxpxx

dxxpx

)()())((

,)(

Ellipsoide-Hyper : tSchwerpunk vomAbstands konstantenFlächen

definit-semi positiv h, symmetrisc :Matrix- Kovarianz :

tSchwerpunk :

von Vektors des Distanz-s Mahalanobi )()( 12 xxxr T

Page 37: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 37

Merkmalsraum

3. Statistische Fundamente

Entscheidungsflächen und -funktionen

Beispiel: Annahme einer mehr-dimensionalen Normalverteilung Berechnung Schwerpunkt und Kovarianzmatrix aus Stichprobe

3

3

2

1

21 ,,...,, Stichprobe R

x

x

x

xxxxX

i

i

i

iN

N

ii

N

ii

N

ii

N

ii

emp

emp

emp

emp

xN

xN

xN

xN

xdxpx

13

12

11

13

2

1

1

1

1

1)(

Schwerpunktder

Verteilung Empirischer Schwerpunkt der Stichprobe

Page 38: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 38

Merkmalsraum

3. Statistische Fundamente

Entscheidungsflächen und -funktionen

Beispiel: Annahme einer mehr-dimensionalen Normalverteilung Berechnung empirischer Schwerpunkt und empirische Kovarianzmatrix aus Stichprobe

N

iempi

N

iempiempi

N

iempiempi

N

iempiempi

N

iempi

N

iempiempi

N

iempiempi

N

iempiempi

N

iempi

xxxxx

xxxxx

xxxxx

N

1

233

13322

13311

13322

1

222

12211

13311

12211

1

211

)())(())((

))(()())((

))(())(()(

1

N

i

Tempiempiemp

T xxN

xdxpxx1

))((1

)())((

Im Fall drei-dimensionaler Vektoren:

)()(2

1

2/12/

1

)2(

1)(

empempT

emp xx

empd

Schätz exp

Geschätzte Normalverteilung:

Page 39: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 39

Merkmalsraum

3. Statistische Fundamente

Entscheidungsflächen und -funktionen

Benötigt wird die Inverse der Kovarianzmatrix

Analytische Matrix-Inversion z.B. mittels adjungierter Matrix

)()(2

1

2/12/

1

)2(

1)(

empempT

emp xx

empd

Schätz exp

Geschätzte Normalverteilung:

Page 40: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 40

Merkmalsraum

3. Statistische Fundamente

Entscheidungsflächen und -funktionen

Rekursive, numerische Schätzung des empirischen Schwerpunkts und der Inversen der Kovarianzmatrix aus Stichprobe durch Rekursion

)()(2

1

2/12/

1

)2(

1)(

empempT

emp xx

empd

Schätz exp

Geschätzte Normalverteilung:

Aus: H.Burkhardt, Inst. F. Informatik, Uni Freiburg: Mustererkennung

Page 41: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 41

Merkmalsraum

3. Statistische Fundamente

Schätzung Varianz (unabh. tats. Verteilung) Quelle: Wikipedia

Page 42: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 42

Merkmalsraum

3. Statistische Fundamente

Entscheidungsflächen und -funktionen

Bei Normalverteilung wegen e-Funktion Wahl von ln-Entscheidungsfunktion:

Entscheidungsfläche beim Zweiklassenproblem:

ist quadratische Form.Für zwei-dimensionale Merkmalsvektoren

)(ln)|(ln)( iii cPcxpxg )()(2

1

2/12/

1

)2(

1)(

iiT

i xx

idi exp

)(lnln2

12ln

2)()(

2

1)( 1

iiiiT

ii cPd

xxxg

)()( 21 xgxg

)(lnln2

1)()(

2

1)(lnln

2

1)()(

2

1222

122111

111 cPxxcPxx TT

Page 43: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 43

Merkmalsraum

3. Statistische Fundamente

Entscheidungsflächen und -funktionenEntscheidungsfläche beim Zweiklassenproblem:

Zweiklassenproblem bei Normalverteilungen einfachster Fall:1.Merkmale unkorreliert -> Kovarianzen (Nichtdiagonalelemente der Kovarianzmatrix) sind Null2.Merkmalsvarianzen (Diagonalelemente der Kovarianzmatrix) für beide Klassen gleich3.A-priori-Wahrscheinlichkeiten für beide Klassen gleich

)(ln2ln)()()(ln2ln)()( 2221

221111

11 cPxxcPxx TT

)()()()( 2211 xxxx TT

Mittelsenkrechte zwischen den Schwerpunkten

Page 44: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 44

Merkmalsraum

3. Statistische Fundamente

Entscheidungsflächen und -funktionen

Normalverteilung, 2 KategorienEntscheidungsfunktionen:Lineare Entscheidungsfunktion: Entscheidungsfläche Hyperebene

2120102121 ktor Normalenvemit 0)()(0)()( nwwxwwxgxg TT

ein-dim. Merkm.-Raum zwei-dim. Merkm.-Raum drei-dim. Merkm.-Raum

Ii

2

Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience

Page 45: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 45

Merkmalsraum

3. Statistische Fundamente

Entscheidungsflächen und -funktionen

Normalverteilung, 2 KategorienEntscheidungsfunktionen:Entscheidungsfunktion

Entscheidungsflächen: Hyperquadriken

)(

)(ln

)|(

)|(ln)(

2

1

2

1

cP

cP

cxp

cxpxg

i

iiT

ii

d

xxcxp

ln2

12ln

2

)()(2

1)|(ln 1

0)(ln)(lnln2

1ln

2

1)()(

2

1)()(

2

121212

1221

111 cPcPxxxx TT

Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience

Page 46: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 46

Merkmalsraum

3. Statistische Fundamente

Entscheidungsflächen und -funktionen

Normalverteilung, 2 KategorienEntscheidungsflächen: Hyperquadriken

Ebenen

Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience

0)(ln)(lnln2

1ln

2

1)()(

2

1)()(

2

121212

1221

111 cPcPxxxx TT

Page 47: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 47

Merkmalsraum

3. Statistische Fundamente

Entscheidungsflächen und -funktionen

Normalverteilung, 2 KategorienEntscheidungsflächen: Hyperquadriken

Paraboloide Ellipsoide

Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience

0)(ln)(lnln2

1ln

2

1)()(

2

1)()(

2

121212

1221

111 cPcPxxxx TT

Page 48: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 48

Merkmalsraum

3. Statistische Fundamente

Entscheidungsflächen und -funktionen

Normalverteilung, 2 KategorienEntscheidungsflächen: Hyperquadriken

Hyperboloide Kugeln

Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience

0)(ln)(lnln2

1ln

2

1)()(

2

1)()(

2

121212

1221

111 cPcPxxxx TT

Page 49: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 49

Merkmalsraum

3. Statistische Fundamente

Wie weiter?

Voraussetzung bisher:A priori Wahrscheinlichkeiten und klassen-bedingte

Wahrscheinlichkeitsdichten bekannt.

Realität:Nur Stichproben gegeben.

Ansätze:1. Parametrische Techniken: Annahme bestimmter parametrisierter

Wahrscheinlichkeitsdichtefunktionenund Schätzung der Parameterwerte anhand Stichprobe, Einsetzen in Bayes Framework.A) Maximum-Likelihood SchätzungB) Bayes Learning

2. Nicht-parametrische Techniken3. Direkte Bestimmung der Parameter der Entscheidungsflächen anhand

Stichprobe.

)|( icxp)( icP

Page 50: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 50

Merkmalsraum

3. Statistische Fundamente

Wie weiter?

Möglichkeit 1 bei gegebener Stichprobe: Schätzung der pdf und a-priori-Wahrsch.

Aus Stichprobe:Bildung Histogramm, relative Häufigkeiten h(ci)

Modellbildung:Annahme einer Modellfunktionenklasse für klassenbedingte Wahrscheinlichkeitsdichte, z.B. GaussfunktionSchätzung der Parameter der Funktion -> Instanz der Funktionenklasse, die das Histogramm am besten approximiert (Schätzfunktion der klassenbedingten Wahrscheinlichkeitsdichte):

Anwendung Bayes:Benutze als Näherung für und relative Häufigk. H(c i) für P(ci) und wende Bayes´sche Entscheidungsregel an:

)|( iS cxp

)|( iS cxp

)|( icxp

)|()|(

:ij wenn , Entscheide

xcPxcP

c

jSiS

i

)(

)()|()|(

xp

cHcxpxcP

S

iiSiS

Page 51: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 51

Merkmalsraum

Geschätzte pdf und apw

3. Statistische Fundamente

Wie weiter?Möglichkeit 1 bei gegebener Stichprobe: Schätzung der pdf und a-priori-Wahrsch.

Merkmal x1

Merkm

al x 2

Wa

hrs

ch

.

Merkmal x1

Me

rkm

al

x 2

x

xxxxx

xx x

xx

x

xxx

x

x

xxx

x

x x x

xx

x xx

x

x

xx

x

x

xx

x

x

x

x

Stichprobe Njjj

j xxxc

,,,: 21 )(,| jSjS cPcxp

Anwendung Bayes Entscheidungsregel: Entscheidungsfläche

Page 52: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 52

Merkmalsraum

3. Statistische Fundamente

Wie weiter?Möglichkeit 2 bei gegebener Stichprobe: Finde eine Entscheidungsfläche, welche

die Stichprobenvektoren einer Klasse von denen der anderen Klassen trennt.

Merkmal x1

Me

rkm

al

x 2

x

xxxxx

xx x

xx

x

xxx

x

x

xxx

x

x x x

xx

x xx

x

x

xx

x

x

xx

x

x

x

xx

x xxxxx

xxx

xxxx

x

x

x

xx

xx x

xx

xxxx

xx

x

x

xx

x

x

x

x

xx

x

Page 53: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 53

+

+

Überwachte Methoden

l

h

xxx

x xx

x

+++

++ ++

Gerade TrennlinieKlasse 1

Klasse 2*

l

hx

xx

x xx

x

+++

++ ++

TrennkurveKlasse 1

Klasse 2

xx

xxx

xx

x

xx

x

+

++++

++

++ ++

++

++

+x

xx

Lineare Klassifikatoren Einschichtiges Perceptron Kleinste Quadrate Klass. Lineare Support Vektor Maschine

Nichtlineare Klassifikatoren Mehrschicht-Perceptron logistisch polynom radiale Basisfunktionen Support-Vektor-Maschinen

4. Entscheidungsflächen und -funktionen

Page 54: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 54

5. Lineare Klassifikatoren

Grundlagen Das Perzeptron Lineare Support Vektor Maschine Nicht-lineare Klassen und Mehrklassen-Ansatz Kleinste Quadrate lineare Klassifikatoren Stochastische Approximation und der LMS Algorithmus Schätzung mittels Quadratfehlersumme Mehrklassen-Verallgemeinerung

Page 55: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 55

Grundlagen

5. Lineare Klassifikatoren

Page 56: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 56

Der Merkmalsraum wird durch Hyperebenen aufgeteilt.Vorteil: Einfachheit und geringer Berechnungsaufwand.Nachteile: Zugrundeliegende statistische Verteilungen der Trainingsmuster werden

nicht vollständig genutzt. Nur linear separierbare Klassen werden korrekt klassifiziert.

Entscheidungs-Hyperebene:

Eine Entscheidungs-Hyperebene teilt den Merkmalsraum in zwei Halbräume:Punkte (Vektoren) von Halbraum 1 Klasse 1 Punkte von Halbraum 2 Klasse 2.

Beschreibung Hyperebene im N-dimensionalen Merkmalsraum (Vektoren x) durch Normalenvektor n = [n1, n2,..., nN]T und senkrechter Abstand d zum Ursprung:HNF: nTx = d

äquivalent Entscheidungs-Hyperebene definiert durch den Gewichtsvektor w = [w1, w2,..., wN]T und w0, bezeichnet als Schwellwert:g(x) = wT x + w0 =! 0

Bestimme w und w0 so, dass Merkmalsvektoren x verschiedener Klassen ein unterschiedliches Vorzeichen von g(x) ergeben.

5. Lineare Klassifikatoren

Page 57: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 57

Zweidimensionaler Fall: Geometrie der Entscheidungs-Linie (-Hyperebene)

Merkmalsraum

x1

x2

dx

z

Das Vorzeichen von g(x) gibt die Klassenzugehörigkeit an.

Wie werden die unbekannten Gewichtswerte w1, w2,..., wN und w0 berechnet?

dw

w w

0

12

22

5. Lineare Klassifikatoren

0wxwxg T 00 wxwT

Entscheidungshyperebene

Entscheidungsfunktion

zg x

w w

( )

12

22

2

1

w

ww

00 wxwT

00 wxwT

Page 58: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 58

Lineare Klassifikatoren

Das Perzeptron Die Perzeptron-Kostenfunktion Der Perzeptron Algorithmus Bemerkungen zum Perzeptron Algorithmus Eine Variation des Perzeptron-Lernschemas Arbeitsweise des Perzeptrons

Page 59: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 59

Der Perzeptron Algorithmus

Allgemeines Lösungsmuster:

Gesucht: Lösung eines Problems

Gegeben: • Ein Lösungsraum (gebildet durch Menge möglicher Lösungen: Lösungskandidaten)

• Ein Kriterium, das die Lösung kennzeichnet.

Mustervorgehen: • Ordne jedem Lösungskandidaten einen Wert derart zu, dass der Wert am kleinsten ist, wenn das Kriterium erfüllt ist: “Kostenfunktion”

Lösungssuche -> Minimumsuche• Wende vorhandene Lösungsmuster zur Minimumsuche an.

5. Lineare Klassifikatoren

Page 60: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 60

Der Perzeptron Algorithmus

Annahme: Es liegen zwei Klassen c1 and c2 vor, die linear separierbar sind. Es existiert eine Entscheidungs-Hyperebene w x + w0= 0 derart, daß

20

10

0

0

cxwxw

cxwxwT

T

Umformulierung mit erweiterten N+1-dimensionalen Vektoren:x´ x, 1]T und w´ w, w0]T ergibt

2

1

0

0

cxxw

cxxwT

T

Die Aufgabe wird als Minimierungsproblem der Perzeptron-Kostenfunktion formuliert.

5. Lineare Klassifikatoren

Page 61: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 61

Der Perzeptron Algorithmus

Gesucht: Gewichtsvektor und Schwellwert , die für alle Stichprobenvektoren

erfüllen, bzw.

Gegeben: • Lösungsraum: Menge aller und bzw. • Lösungskriterium: Menge der durch und falsch klassifizierten Stichprobenvektoren ist leer.

Mustervorgehen: • Wahl der Kostenfunktion

5. Lineare Klassifikatoren

20

10

0

0

cxwxw

cxwxwT

T

w

0w

w

0w

0ww

2

1

0

0

cxxw

cxxwT

T

w

wJ

Page 62: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 62

Kostenfunktion (Anzahl Fehler)

Yx

YwJ

nvektorenStichprobeerten klassifizifalsch der Menge : 1

Page 63: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 63

Kostenfunktion (Perzeptron)

Yx

Tx xwwJ

Page 64: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 64

Kostenfunktion (quadratisch)

Page 65: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 65

Die Perzeptron-Kostenfunktion

Y sei diejenige Untermenge der Trainingsvektoren, welche durch die Hyperebene (definiert durch Gewichtsvektor w´) fehlklassifiziert werden. Die Variable x wird so gewählt, dass x = -1 wenn x c1 und x = +1 wenn x c2.

J ist dann stets positiv und wird dann Null, wenn Y eine leere Menge ist, d.h., wenn es keine Fehlklassifikation gibt.J ist stetig und stückweise linear. Nur wenn sich die Anzahl der fehlklassifizierten Vektoren ändert, gibt es eine Diskontituität.

Für die Minimierung von J wird ein iteratives Schema ähnlich der Gradientenabstiegsmethode verwendet.

5. Lineare Klassifikatoren

Yx

Tx xwwJ

Page 66: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 66

Gradientenmethode für die Perzeptron-Kostenfunktion

5. Lineare Klassifikatoren

Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience

1w

2w)(wJ

Konvention (zur Reduktion des Schreibaufwandes): Erweiterte Vektoren ohne Strich

Page 67: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 67

)(

)()()1(

kwwk w

wJkwkw

k: Iterationsindex, kLernrate (positiv)

Der Perzeptron-Algorithmus

Iterative Anpassung des Gewichtsvektors entlang dem Gradienten der Kostenfunktion:

(1) ist nicht definiert an Unstetigkeitsstellen von J.An allen Unstetigkeitsstellen von J gilt:

Yx

xYx

Tx x

w

wJxwwJ

)(

Substitution der rechten Seite von (2) in (1) ergibt:

(1)

(2)

Yx

xk xkwkw

)()1(

wodurch der Perzeptron-Algorithmus an allen Punkten definiert ist.

5. Lineare Klassifikatoren

Page 68: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 68

Geometrische Interpretation für den 2d Merkmalsraum

w´(k)

Trennlinie im Schritt k

x1

x2

w´(k+1)

Trennlinie im Schritt k+1

w wurde in die Richtung von x gedreht. bestimmt die Stärke der Drehung.

Letzter Schritt des Perzeptron-Algorithmus:Nur noch ein einziger Punkt x fehlklassifiziert.

5. Lineare Klassifikatoren

Page 69: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 69

Bemerkungen zum Perzeptron-Algorithmus

1. Der Perzeptron-Algorithmus konvergiert zu einer Lösung in einer endlichen Anzahl von Schritten, vorausgesetzt, daß die Folge k richtig gewählt wird. Es kann gezeigt werden, dass dies der Fall ist, wenn gilt:

t

kk

t

t

kk

t1

2

1

lim und lim

Ein Beispiel einer Folge, welche obige Bedingung erfüllt, ist k = c/k, da

divergent für r <= 1, aber konvergent für r >1.

2. Die Konvergenzgeschwindigkeit hängt von der Folge kab.

3. Die Lösung ist nicht eindeutig, da es immer eine Schar von Hyperebenen gibt, welche zwei linear separierbare Klassen trennt.

5. Lineare Klassifikatoren

t

krt k1

1lim

Page 70: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 70

Eine Variation des Perzepton LernschemasBisher: Gesamte Trainingsvektormenge in einem Trainingsschritt.Neu: Ein einziger Trainingsvektor in einem Trainingsschritt und Wiederholung für alle Vektoren der Trainingsmenge: “Trainingsepoche”. Die Trainingsepochen weden wiederholt, bis Konvergenz erreicht ist, d.h., wenn alle Trainingsvektoren korrekt klassifiziert werden.

sonstkwkw

xkwundcxwennxkwkw

xkwundcxwennxkwkw

kT

kk

kT

kk

)()1(

0)()()1(

0)()()1(

)(2)()(

)(1)()(

Dieses Schema ist Mitglied der “Belohnungs- und Bestrafungs-”Schemata.Es konvergiert ebenso in einer endlichen Anzahl von Iterationen.

Wiederhole, bis Konvergenz erreicht ist { Wiederhole für alle Trainingsvektoren {

} }

5. Lineare Klassifikatoren

Page 71: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 71

Perzeptronalgorithmus

Page 72: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 72

Perzeptronalgorithmus

Page 73: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 73

Perzeptronalgorithmus

Page 74: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 74

Perzeptronalgorithmus

Page 75: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 75

Der innere Teil kann mit c1=1 und c2=-1 geschrieben werden als:

Wenn , dann

Lineare Support Vektor Maschine

Alternative Betrachtungsweise:

Perzeptron-Algorithmus mit erweiterten Vektoren:

sonstkwkw

xkwundcxwennxkwkw

xkwundcxwennxkwkw

kT

kk

kT

kk

)()1(

0)()()1(

0)()()1(

)(2)()(

)(1)()(

Wiederhole, bis Konvergenz erreicht ist { Wiederhole für alle Trainingsvektoren {

} }

0 iT

i xwc

ii xckwkw )()1(

Page 76: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 76

Wenn , dann

Lineare Support Vektor Maschine

Wiederhole, bis Konvergenz erreicht ist { Wiederhole für alle Trainingsvektoren { } }

0 iT

i xwc

ii xckwkw )()1(

Die Lösung ist dann eine Linearkombination der Stichprobenvektoren

Einsetzen in die Gleichung für die Entscheidungsebene

ergibt

und die Entscheidungsfunktion lautet dann

Die Lern(update)-regel lautet dann im Perzeptron-Algorithmus entsprechend:

0mit jj

jjj xcw

00 wxwT

00 wxxcj

Tjjj

0)( wxxcxgj

Tjjj

Wenn , dann00

wxxcc

ji

Tjjji

1 i

ki

k

0 iT

i xwc

ii xckwkw )()1(

Page 77: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 77

Lineare Support Vektor Maschine

x1

x 2x

xx

x xx

x

+++

++ ++

Klasse 1

Klasse 2+

00 wxwT

10 wxwT

10 wxwT

10 wxwT

10 wxwT

w

w

xgz

)(

0wxwxg T

.

. z

Zueinander parallele Ebenen, welche Vektoren beider Klassen trennen: Gleicher Normalenvektor, unterschiedliche Schwellwerte:

oder

Bestimmung von und so, dass der Abstand zwischen den parallelen Ebenen maximal wird, d.h. minimiere .

0:;0: 2211 wxwEwxwE TT

1:;1: 0201 wxwEwxwE TT

w

0w

d

wd

2

w

Nebenbedingung: korrekte Trennung der Vektoren der beiden Klassen:

2010

2010

1,1 und

1,1

cxwxwcxwxw

cxwxwcxwxw

iiT

iiT

iiT

iiT

Maximaler Rand

Page 78: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 78

Lineare Support Vektor Maschine

Bestimmung von und so, dass der Abstand zwischen den parallelen Ebenen maximal wird, d.h. minimiere oder .

w

0ww

d 2

w

Nebenbedingung: korrekte Trennung der Vektoren der beiden Klassen:

Die Nebenbedingungen können vereinfacht werden:

Mit den nummerischen Klassenlabeln c1=1 und c2=-1 erhalten wir schließlich die folgende Optimierungsaufgabe:

Minimiere unter den Randbedingungen

Lösung durch „Quadratische Programmierung“ Bibliotheken

2010

2010

1,1 und

1 ,1

cxwxwcxwxw

cxwxwcxwxw

iiT

iiT

iiT

iiT

2010 1 und 1 cxwxwcxwxw iiT

iiT

2w

2

2

1w 210 ,1 ccxwxwc ii

Ti

Name Lizenz Beschreibung

CVXOPT GLP Sprache: C, Python; API: Python

OpenOpt BSD Numerisches Optimierungsframework in Python

QuadProg GPL2 Sprache: R, Algorithmus von Goldfarb und Idnani (1982, 1983)

Quadprog++ GPLv3 C++, Algorithmus von Goldfarb und Idnani (1982, 1983)

Page 79: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 79

Minimiere unter den Randbedingungen

Ansatz zur Quadratischen Programmierung: Lagrange-Theorie:

Lösung ist Optimum der Langrange-Funktion:

Optimierung einer Funktion unter den k Randbedingungen :

Bilde die Lagrange-Funktion L und finde das Optimum von L.

Notwendige Bedingung: stationäre Punkte von L:

Lineare Support Vektor Maschine

Lösung Supportvektormaschine durch Quadratische Programmierung

Aufgabe:

2

2

1w 210 ,1 ccxwxwc ii

Ti

i

iT

iiT wxwcwwwL 1

2

1, 0

xf kjxg j ...,,1,0

k

jjj xgxfxL

1

,

kjxgxL statjjjx,...,1,0 und 0mit 0,

statxx,

Page 80: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 80

Optimum der Langrange-Funktion:

Lineare Support Vektor Maschine

i

iT

iiT wxwcwwwL 1

2

1, 0

0

, und 0

, und 0

,0,

0,

wL

w

wL

w

wLwL

w

jij

Tijiji

ii

ii

iii

jij

Tijiji

ii

i

Tiiiii

i

Tiii

i

Tiii

iiii

iii

xxcc

wcxxcc

wxxccxcxcL

xcwc

,

0,

0

2

1

2

1

12

1

2

1 und 0

Einsetzen in L ergibt

0 und 0unter 2

1

,

i

iiiji

jT

ijijii

i cxxccL Optimiere

Duale Form => Quadratische Optimierungsaufgabe: rein konvex

Page 81: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 81

Lineare Support Vektor Maschine

0 und 0unter 2

1

,

i

iiiji

jT

ijijii

i cxxccL Optimiere

=> Quadratische Optimierungsaufgabe: rein konvex

jj

Tijji

i

xxccL

1

Page 82: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 82

Das Perzeptron im Betrieb

Gewichtsvektor w und Schwellwert w0 wurden vom Lernalgorithmus gefunden.Die Klassifikationsprozedur lautet dann:

20

10

:0

:0

czuxzuordnewxwWenn

czuxzuordnewxwWennT

T

Dies kann als Netzwerk interpretiert werden:

x1o

x2o...xNo

w1

w2

.wN

w0

f

Die Elemente des Merkmalsvektorswerden auf die Eingangsknoten gegeben.Jedes wird multipliziert mit den entsprechenden Gewichten der Synapsen.Die Produkte werden zusammen mit dem Schwellwert aufsummiert.Das Ergebnis wird von einer Aktivierungsfunktionf verarbeitet (z.B. +1 wenn Ergebnis > 0, -1 sonst).

Dieses grundlegende Netzwerk wird als Perzeptron oder Neuron bezeichnet.

5. Lineare Klassifikatoren

Page 83: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 83

5. Lineare Klassifikatoren

sonstkwkw

xkwundcxwennxkwkw

xkwundcxwennxkwkw

kT

kk

kT

kk

)()1(

0)()()1(

0)()()1(

)(2)()(

)(1)()(

Wiederhole, bis Konvergenz erreicht ist { Wiederhole für alle Trainingsvektoren {

} }

2

1

0

1

cxwenn

cxwennxwsigny

t

ttconv

T

Perzeptron-Lernphase: Bestimmung des erweiterten Gewichtsvektors

Perzeptron-Betriebsphase: Klassifikation eines (erweiterten) Merkmalsvektors

x1o

x2o...xNo

w1

w2

.wN

w0

f

Nach Konvergenz

Page 84: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 84

Lineare Klassifikatoren

Aufstieg und Fall des Perzeptrons

1957 – Frank Rosenblatt entwickelt Konzept des Perzeptron

1958 – Konzept-Vorstellung

1960 – Konzept-Umsetzung an der Cornell University, Ithaca, New York (USA)

1962 – Zusammenfassung der Ergebnisse in „Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms”

1969 – Beweis durch Marvin Minsky und Seymour Papert, dass ein einstufiges Perzeptron den XOR-Operator nicht darstellen kann.

Page 85: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 85

Nicht-lineare Klassifikatoren

Das XOR-Problem Das Zweischicht-Perzeptron Eigenschaften des Zweischicht-Perzeptrons Prozedur zum Auffinden geeigneter Abbildungen mit Perzeptrons Der Backpropagation-Algorithmus Bemerkungen zum Backpropagation-Algorithmus Freiheitsgrade beim Backpropagation-Algorithmus Nicht-lineare Support-Vektor-Maschine

Page 86: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 86

In vielen praktischen Fällen sind auch optimale lineare Klassifikatoren unzureichend.Einfachstes Beispiel: Das XOR Problem.Bool´sche Operationen können als Klassifikationen aufgefasst werden:Abhängig vom binären Eingangsvektor ist der Ausgang entweder 1 (Klasse A) oder 0 (Klasse b).

X1 X2 AND(X1, X2) Klasse OR(X1, X2) Klasse XOR(X1, X2) Klasse0 0 0 B 0 B 0 B0 1 0 B 1 A 1 A1 0 0 B 1 A 1 A1 1 1 A 1 A 0 B

1,0),,,,( 21 il xxxxx

0 1

x2

1

x1

B

BB

A

0 1

x2

1

x1

A

AB

A

0 1

x2

1

x1

A

AB

B

Nicht-lineare Klassifikatoren

Page 87: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 87

Das zweischichtige PerzeptronWir betrachten zunächst das OR-Gatter:

x10

x2

1

x1

A

AB

A

Die OR-Separierung wird dargestellt durch folgendePerzeptron-Struktur:

x1o

x2o

1

1

-1/2

f

0 1

x2

1

x1

A

AB

B

Das XOR GatterEine offensichtliche Lösung des XOR-Problems wäre, zwei Entscheidungslinien g1(x) and g2(x) einzuzeichnen.Dann ist Klasse A auf der - Seite von g1(x) und auf der + Seite von g2(x)und Klasse B auf der + Seite von g1(x) und auf der - Seite von g2(x).Eine geeignete Kombination der Ergebnisse der beiden linearen Klassifikatoren würde also die Aufgabe erfüllen. g1(x)

g2(x)

+-+

-

Nicht-lineare Klassifikatoren: Mehrschicht-Perzeptron

Page 88: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 88

Anderer Blickwinkel als Basis für Verallgemeinerung:

Realisierung zweier Entscheidungslinien (Hyperebenen) durch Training zweier Perzeptrons mit Eingängen x1, x2 und entsprechend berechneten Gewichten.Die Perzeptrons wurden trainiert, die Ausgänge yi = f(gi(x)), i=1,2 zu liefern, Aktivierungsfunktion f: Sprungfunktion mit Werten 0 und 1. In der folgenden Tabelle sind die Ausgänge mit ihren entsprechenden Eingängen gezeigt:

(x1 x2) (y1 y2) Klasse(0 0) (0 0) B (0)(0 1) (0 1) A (1)(1 0) (0 1) A (1)(1 1) (1 1) B (0)

Betrachtet man (x1, x2) als Vektor x und (y1, y2) als Vektor y, definiert dies eine Abbildungvon Vektor x auf Vektor y.Entscheidung über die Zugehörigkeit zu Klasse A oder B anhand der transformierten Daten y:

x10

y2

1

y1

A

B

BDie Abbildung überführt linear nicht separierbares Problem im Ursprungsraum in ein linear separierbares im Bildraum.

Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron

1

Page 89: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 89

Eigenschaften des Zweischicht-Perzeptrons

Die erste Schicht führt eine Transformation der Bereiche des Eingangsraumes (x1,x2) auf den + und - Seiten der geraden Entscheidungslinien g2: x1+x2-1/2=0 und g1: x1+x2-3/2=0 durch auf die Vertizes (Ecken) des Einheitsquadrates im Ausgangsraum (y1,y2).

x10

y2

1

y1

A

B

B

1

Die zweite Schicht führt eine Abbildung der Bereiche des (y1,y2)-Raumes auf den + und - Seiten der geraden Entscheidungslinie g3: -y1+y2-1/2=0 durch auf die Ausgangswerte 0 und 1.

+-

x1o1

1

y1

y2

x2o

1

1

-1/2

f

-3/2

f-1/2

f

Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron

0 1

x2

1

x1

A

AB

B

g1(x)

g2(x)

+-+

-

-1

+1

Page 90: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 90

Dies führt zum Zweischicht-Perzeptron, welches das XOR-Problem löst:

Dieses kann weiter verallgemeinert werden auf das allgemeine Zweischicht-Perzeptron oder Zweischicht-Feedforward-Netzwerk:

x1o

x2o...xNo

O y1

O y2

.

.O yM

O

w1

.

.wN

w0

f

Dabei bezeichnet jeder Knoten folgendeStruktur:

f

1

00

Sprungfunktion

x1o1

1

-1

+1

x2o

1

1

-1/2

f

-3/2

f-1/2

f

Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron

Page 91: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 91

x1o

x2o...xNo

O y1

O y2

.

.O yM

O

Neuronen der ersten Schicht: Abbildung des Eingangsraumes auf die Vertizes eines Hyperkubus im M-dimensionalen Raum der Ausgangswerte der versteckten Neuronen. =>Jeder Eingangsvektor x wird auf einen binären Vektor y abgebildet. Komponenten yi des Abbild-Vektors y von Vektor x werden durch den Gewichtsvektor wi bestimmt.

Wir betrachten den Fall dreier versteckter Neuronen: Drei Hyperebenen g1, g2, g3:

Der Merkmalsraum wird in Polyeder unterteilt (Volumina, die durch Entscheidungs-Hyperebenen begrenzt werden), welche auf die Vertizes eines dreidimensionalen Kubus abgebildet werden, welche durch Tripel der binären Werte y1, y2, y3 definiert werden.

g1

g3

g2

+-

+-+-

111

011010

110

001 000 100

Befindet sich x auf der positiven Seite der Ebene, welche durch wi definiert ist, hat yi den Wert 1 und wenn x auf der negativen Seite der Ebene liegt, die durch wi definiert ist, hat yi den Wert 0.

000 100

110

111

001

011

101Zweite Schicht: Entscheidungshyperebene, welche die Vertizes in zwei Klassen aufteilt. Im vorliegenden Fall werden die Gebiete 111, 110, 101 und 100 in die gleiche Klasse eingeteilt.

Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron

Page 92: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 92

Ein Zweischicht-Perzeptron kann Klassen unterteilen, die aus Vereinigung polyedrischer Bereiche bestehen.Liegen Vereinigungen solcher Bereiche vor, wird eine weitere Schicht benötigt.

x1o

x2o...xNo

O y1,2

O y2,2

.

.O yL,2

O

O y1,1

O y2,1

.

.O yM,1

Das Mehrschicht-Perzeptron löst alle Klassifikationsaufgaben, bei denen die Klassen im Merkmalsraum durch Vereinigungen von Polyedern, Vereinigungen solcher Vereinigungen, ..., gebildet werden, wenn die entsprechende Anzahl von Schichten zur Verfügung steht.

Das Perzeptron kann auch erweitert werden, um Mehrklassenprobleme zu lösen.

:O

Class wj

Class wk

Class wl

Gj

Gk

Gl

p3

p1

p2

p4

m1

m2

m3

Merkm

alsraum

Mer

kmal

srau

mK

lass

enzu

gehö

rigke

its-

raum

Klassenzugehörigkeits-

raum

Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron

Page 93: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 93

Anmerkungen:Struktur zur nicht-linearen Abbildung von Merkmalsvektoren auf Klassenzugehörigkeitsvektoren: Das Mehrschicht-Perzeptron.

Verbleibende, noch zu bestimmenden Freiheitsgrade: Anzahl der Schichten,Anzahl der Neuronen pro Schicht,Aktivierungsfunktion,Gewichtswerte.

Verbleibende Frage:Bei gegebenen Merkmalen und bekannten Klassenzugehörigkeiten der Stichproben-Vektoren:Welches ist die beste Anordnung von Neuronen und Gewichtsvektoren, die eine gegebene Klassifikationsaufgabe lösen?

Hilfe seitens der Mathematik: Für jedes kontinuierliche Abbildungsproblem kann ein Zweischicht-Perzeptron mit einer nicht-linearen Aktivierungsfunktion und einer hinreichenden Anzahl Neuronen in der versteckten Schicht gefunden werden, welches die Abbildung mit beliebiger Genauigkeit annähert. => Freiheit, einen Satz von Aktivierungsfunktionen zu wählen, der eine einfache Lösung ermöglicht.

Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron

Page 94: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 94

Auffinden einer geeigneten Abbildung mit PerzeptronsEinmal wieder Optimierungsprozedur:Minimierung der Differenz zwischen realem Ausgang des Perzeptrons (vorausgesagte Klassenzugehörigkeit) und dem gewünschten Ausgang entsprechend der bekannten Klassenzugehörigkeiten der verfügbaren Stichprobe.

Definition einer Kostenfunktion der Differenz zwischen realem und gewünschtem Ausgang.z.B. Summe der Fehlerquadrate.

Minimierung der Kostenfunktion bezüglich der Perzeptron-Parameter.Vereinfachung: Definiere eine Aktivierungsfunktion.Dann braucht die Minimierung nur bezüglich der Gewichtswerte durchgeführt werden.

Minimierung impliziert die Nutzung der Ableitungen der Aktivierungsfunktion.Wird die Sprungfunktion benutzt, tritt eine Unstetigkeit in der Ableitung auf.

Wir ersetzen daher die Sprungfunktion durch die stetig differenzierbare logistische Funktion.

axexf

1

1)(

x

f Die logistische Funktion ist eine aufgeweichte Sprungfunktion,wobei a die Steigung bei x=0 bestimmt und

Damit ist die Klassenzugehörigkeit nicht mehr scharf 0 oder 1.

tionSprungfunkfa

lim

1

Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron

Page 95: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 95

Nun kann der “geeignetste” Klassifikator durch Minimierung einer Kostenfunktion bezüglich der Gewichtswerte gefunden werden.

Geometrische Betrachtungsweise:Alle Gewichte (aller Schichten) spannen einen Raum auf. Die Kostenfunktion bildet dann eine Fläche über diesem Raum. => Globales Minimum dieser Fläche für die gegebene Stichprobe gesucht.

Da nicht-lineare Aktivierungsfunktionen vorliegen, wird zur Suche ein iteratives Schema benutzt. Der verbreitetste Ansatz ist die Gradientenabstiegsmethode:Starte mit einem Zufalls-Gewichtsvektor w.Berechne den Gradienten der Fläche bei w.Bewege w in Richtung entgegen dem Gradienten.Wiederhole die obigen Schritte, bis ein Minimum erreicht ist, d.h. der Gradient einen Schwellwert unterschreitet. Es sei w der Gewichtsvektor von Neuron n in Schicht l:

ln

ln

ln

lnM

ln

ln

ln wkwkw

w

w

w

w

)()1(istdann1

0

Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron

Page 96: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 96

321

0

lundnmit

w

w

w

w

lnM

ln

ln

ln

Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptronx1o

x2o...xNo

O

O 21 ->y2

1

O 22 ->y2

1

.

.O 2

A ->y21

:O

l=1

l=L

Neuron 2 in Schicht 3Korrektur-Inkrement mit Kostenfunktion J:

ln

ln w

Jw

Kostenfunktion: Summe der Abweichungen des tatsächlichen vom gewünschten Ausgang für alle K Stichprobenvektoren:

K

k

kJ1

)(

: Summe der Fehlerquadrate über alle M Ausgangsneuronen:

M

mmm kykyk

1

2)(ˆ)(2

1)(

K

kln

ln w

k

w

J

1

)(ln

ln

ln

ln w

v

v

k

w

k

)()(

ln

A

a

la

lna

ln wywv 0

1

1

)(

1

)(

)(

)(

)(

1

1

11

0

1

1

kyky

ky

w

kv

w

kv

w

v l

ln

l

lj

lj

lj

lj

ln

ln

l

Kettenregel: o

o . . . o

w1

w2

.wN

w0

f y

Aktivierung Neuron n in Schicht l

y1

yM

O 31 ->y3

1

O 32 ->y3

1

.

.O 3

A ->y31

Page 97: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 97

Neuron n aus Schicht l-1. Ausgang für Stichprobenvektor k: ynl-1(k).

Gewichtswert zu Neuron j aus der nachfolgenden Schicht l: w jnl.

Dann ist das Argument dieses Neurons j aus Schicht l:

klkymitkywwkywkv ln

n

ln

ljn

lj

n

n

ln

ljn

lj

ll

,1)()()()( 00

10

1

111

)(ˆ)(, kykyLl nLn

)()(,1 1 kxkyl nn

In der Ausgangsschicht ist

An der Eingangsschicht gilt

Definition für gegebenes Abweichungsmaß )()(

)(k

kv

k lnl

n

K

k

lln

ln kykw

1

1 )()( Schließlich erhalten wir: Diese Beziehung gilt für jede

differenzierbare Kostenfunktion.

Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron o

o . . . o Wn0

l-1

n f

Schicht l-1

1ln 1l

ny

o . .

o . . o

wj0l

j f

Schicht l

lj l

jyljnw

Page 98: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 98

Die Berechnungen beginnen an der Ausgangsschicht l=L und propagieren rückwärts durch die Schichten l=L-1, L-2, ..., 1. Bei Benutzung des Quadratfehler-Distanzmaßes erhalten wir:

M

mmm kykyk

1

2)(ˆ)(2

1)(

M

mm

Lm kykvfk

1

2)(ˆ))((

2

1)(

)()(ˆ)()( kvfkykvk Lmm

Lm

Lj

Aus wird

)()(

)(k

kv

k lnl

n

Von folgt

(1) l = L: Fehler für Muster k an Ausgangsschicht

(2) l < L: Schwieriger wegen Einfluss von auf alle der nächsten Schicht Nochmals Kettenregel:

Nach längerer Algebra erhält man folgende Gleichung:

)()()( 1

1

1 kvfwkk lm

n

n

lnm

ln

lm

l

Dies vervollständigt den Gleichungssatz des Backpropagation Algorithmus.

)(1 kv ls )(kv l

s

lm

mln

lm

lm

ln kv

kv

kv

k

kv

k

111 )(

)(

)(

)(

)(

)(

Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron

Aktivierungsfunktion

Ableitung der Aktivierungsfunktion

lm

mln

lml

nln kv

kvkk

11

1

)(

)()()(

Page 99: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 99

Der Backpropagation Gleichungssatz

)()()()( kvfkykvk Lmm

Lm

Lj

)()()()()()( kykvkmitkvfkk mLm

Lm

Lm

Lm

Lj

)()()( 1

1

1 kvfwkk lm

n

n

lnm

ln

lm

l

ln

n

lnm

ln

lm

lm

lm

lm

Lm

Lm

Lm

wk

kvfk

kvfk

1

1

111

)(

)()(

))(()(

ln

n

lnm

ln

lm

lm

lm

lm wkmitkvfk

1

1111 )()()(

Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron

K

k

lln

ln kykw

1

1 )()(

ln

ln

ln wkwkw

)()1(

Fehler-Rückpropagierung Gewichtsmodifikation

Page 100: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 100

Der Backpropagation Gleichungssatz

ln

n

lnm

ln

lm

lm

lm

lm

Lm

Lm

Lm

wk

kvfk

kvfk

1

1

111

)(

)()(

))(()(

Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron

K

k

lln

ln kykw

1

1 )()(

ln

ln

ln wkwkw

)()1(

Fehler-Rückpropagierung Gewichtsmodifikation

o

o . . . o wn0

l-1

n f

Schicht l-1

1ln 1l

ny

wj0l

j f

Schicht l

lj l

jyljnw

o . .

o . . o

Page 101: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 101

Der Backpropagation Algorithmus

Unter der Annahme der logistischen Funktion als Aktivierungsfunktion:

1. InitialisierungInitialisiere die Gewichte des Netzwerks mit kleinen Zufallszahlen. Benutze z.B. einen Pseudozufallszahlengenerator.

2. Vorwärts-BerechnungBerechne für jeden Merkmalsvektor x(i) der Trainingsmenge alle vj

l(i), yjl(i)=f(vj

l(i)) unddie Kostenfunktion J sowie j

l(i) für die momentanen Schätzwerte der Gewichte.

3. Rückwärts-BerechnungBerechne für jedes i die j

l-1(i) und aktualisiere die Gewichte für alle Schichten entsprechend:

Wiederhole Schritte 2 und 3, bis der Wert von J zufriedenstellend klein ist.

ln

n

lln

lj

lj

lj

lj

iyiw

woldwneww

1

1 )()(

)()(

))(1)(()(1

1)( xfxfxf

exf

ax

Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron

Page 102: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 102

Bemerkungen zum Backpropagation AlgorithmusAusgangspunkt Mehrschicht-Perzeptrons mit Stufenfunktionen als Aktivierungsfunktionen: Operatoren zur Aufteilung des Merkmalsraums in Volumina, welche Klassenzugehörigkeiten repräsentieren. Volumina waren allgemeine Vereinigungen von Polyedern, begrenzt durch Entscheidungs-Hyperebenen.

Lösungsweg Für eine gegebene endliche Stichprobe (Merkmalsvektoren mit bekannter Klassenzugehörigkeit) existiert i.A. eine unbegrenzte Anzahl möglicher Mehrschicht-Perzeptron-Realisierungen, welche die Klassifikationsaufgabe lösen. Suche nach einer eindeutigen (der besten) Lösung: Minimum einer Kostenfunktion; Wahl: Fehlerquadratsumme. Für mathematische Formulierung: Ersatz der Stufenfunktion durch die logistische Funktion als Aktivierungsfunktion. Optimierungsprozedur zur Bestimmung der Gewichtwerte für eine gegebene Stichprobe: den Backpropagation Algorithmus.

AllgemeingültigkeitSatz von Kolmogoroff aus der Mathematik: Abbildungsoperatoren mit einer versteckten Schicht und nicht-linearer Abbildungsfunktion sind in der Lage, jegliche stetig differenzierbare Abbildung zu realisieren. Daraus folgt, dass wir eine einfache Methode gefunden haben, einen universellen Mustererkenner zu konstruieren.

Nicht-lineare Klassifikatoren : Mehrschicht-Perzeptron

Page 103: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 103

Mehrschicht-Perzeptron

Ausgangspunkt für Konstruktion nicht-linearer Klassifikatoren war XOR-Problem.Lösung: Vektor-Abbildung x auf y: in x nicht-lineares Problem -> linear separierbares in y f: Aktivierungsfunktion undgi(x): Linearkombination der Eingänge eines jeden Neurons.

xf

xf

xf

xgf

xgf

xgf

y

y

y

ymityx

3

2

1

3

2

1

3

2

1

)(

)(

)(

Dies ist ein Funktionenapproximationsproblem mit einem Satz Funktionen einer ausgewählten Funktionenklasse.

Nicht-lineare Klassifikatoren : Verallgemeinerung

0,1,0

0,1,1

1,1,0

0 1

1

x1

x2x1o

x2o

f

f f

f

y1

y2

y3

y1

y2

y3-1-1

00

1

1

3/2

-1/2

-1/2

1

1

13*9.0

0,0,0

0,0,1

1,0,0

1,0,1

1,1,1

tion Stufenfunk :f

Page 104: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 104

Verallgemeinerte nicht-lineare KlassifikationNicht-lineare Klassifikatoren : Verallgemeinerung

Bilde die Daten mit irgend welchen Funktionen in einen höher-dimensionalen Merkmalsraum ab,in welchem ein linearer Klassifikator die Stichprobe korrekt trennt.

+

+

x1

x 2

xxx

x xx

x

+++

++ ++

Trennkurve

Klasse 1

Klasse 2

xx

xxx

xx

x

xx

x

+

++++

++

++ ++

++

++

+x

xx

+

+

++ ++

+++ +

++

+

+++

+

+x

xx

xxx

x

xx

xx

x

x x

xx

x

xx xx

y1

y3

y2

Trennebene

xyx

0 1 x1

xx x x x o oo oo xx x x xx

0 1 y1=x1

x

xx

xxxxx

oo

ooo

y2=x1x1

TT xxxxfyxfyx 1111221111 ,,

BeispielTrenngerade

00 wywT

0 x

Page 105: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 105

Im Ursprungsraum beide Klassen durch eine nicht-lineare Hyperfläche (x)=0 trennbar, im Bildraum durch Hyperebene : Approximation der nicht-linearen Fläche (x) mit einer Linearkombination der f(x).f muss nicht-linear sein, sonst nur Translation, Skalierung und Rotation (ungenügend).

Verallgemeinerte nicht-lineare Klassifikation

Verallgemeinerung: Merkmalsvektoren im d-dimensionalen Raum Rd, die zu zwei Klassen gehören, die nicht linear trennbar sind. Gegeben seien k nicht-lineare Aktivierungsfuktionen f1, f2, ..., fk, welche eine Abbildung definieren:

Gesucht: Menge von Funktionen f1, f2, ..., fk, so dassdie Klassen linear separierbar sind im k-dimensiona-len Raum der Vektoren y durch eine Hyperebene

für die

)(

)(

)(

2

1

xf

xf

xf

ymit

k

2010 0 und 0 cxywwcxyww TT

k

jjj xfwwx

10 )()(

Dies ist ein Funktionenapproximationsproblem mit einem Satz Funktionen einer ausgewählten Funktionenklasse.

Nicht-lineare Klassifikatoren : Verallgemeinerung

Bilde die Daten mit irgend welchen Funktionen in einen höher-dimensionalen Merkmalsraum ab,in welchem ein linearer Klassifikator die Stichprobe korrekt trennt.

00 wywT

kl RyRx

00 0 wywxwyw TT

Page 106: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 106

Dies entspricht einem Zweischicht-Netzwerk mit Aktivierungsfunktionen f1, f2, ..., fk.Die Äquivalenz wird leicht erkannt im (künstlichen) Fall jeweils eines Ein- und Ausgangsneurons:

O f1

O f2

.

.O fM

OOx y

M

jjjjj wxwfwy

1,0,1,2 )(

w1,1

w1,2

.

w1,M

w2,1

w2,2

.

w2,M

Das bislang betrachtete Perzeptron benutzte als Funktionenklasse die logistischen Funktionen:

y

xw0

Zwei weitere Klassen haben in der Mustererkennung spezielle Bedeutung:Polynome Gaußfunktionen

Polynomklassifikatoren Radiale-Basisfunktionen-Netze

L

l

L

l

L

llll

L

lmmllmll xwxxwxwwxg

1

1

1 1

2

10)(

L

l

cxcx

ll

ll

exwwxg1

2

)()(

0

2

)(

Nicht-lineare Klassifikatoren : Verallgemeinerung

Page 107: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 107

Nicht-lineare Klassifikatoren : SVM

Höher-dimensionaler Merkmalsraum :Es können komplexe Funktionen durch Schichtstruktur linearer Funktionenoder nicht-lineare Basisfunktionen abgebildet werden.

Nachteile:Fluch der DimensionalitätBerechnungskomplexität hoch-dimensionaler Vektoren

Lösung:Darstellung komplexer Funktionen in dualer Form:

Benutzung von Kernelfunktionen ,

deren Wert das Skalarprodukt der Bildwerte der Argumente ist.

0crrcrfi

iT

ii

2121, rrrrK T

0, crrKcrfi

iii

Page 108: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 108

Nächster-Nachbar-Klassifikator

Nächste-Nachbar-Regel

Gegeben sei eine Stichprobe aus N Mustervektoren (Prototypen) und zugehörigen Klassenzugehörigkeiten (Label)

Ein unbekanntes Muster ist zu klassifizieren. Regel: Es wird ihm die Klasse des ihm nächstliegenden Prototypen zugeordnet.

Wirkung im Merkmalsraum:Aufteilung in Voronoi-Zellen

Große Zellen (grobe Auflösung)wo Musterdichte gering

Kleine Zellen (feine Auflösung)wo Musterdichte hoch

Nicht-parametrische Methoden

)},(),...,,(),,{( 2211 NN CxCxCx

Klasse 1 Klasse 2

Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience

Page 109: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 109

K-Nächste-Nachbar-Klassifikator

Gegeben sei eine Stichprobe aus N Mustervektoren (Prototypen) und zugehörigen Klassenzugehörigkeiten (Label)

Ein unbekanntes Muster ist zu klassifizieren. Regel: Eine Hyperkugel wird um herum solange vergrößert, bis k Prototypen darin enthalten sind. Es wird die Klasse der einfachen Mehrheit dieser k nächsten Prototypen zugeordnet.

Zwei-dmensionaler Merkmalsraum,

Zwei-Klassenproblem,k=5

Nicht-parametrische Methoden

)},(),...,,(),,{( 2211 NN CxCxCx

Klasse 1 Klasse 2

Graphik aus Duda, Hart, Stork: Pattern Classification 2nd edition, Wiley-Interscience

Page 110: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 110

K-Nächste-Nachbar-Klassifikator

Vergleich mit Bayes:

Entscheidungsfehler E

Für k=3, großes N und kleinen Bayes-Fehler gute Approximation für Bayes.

Weitere Verbesserung im Limes für größeres k.

Vorteil: Kein Training erforderlichNachteil: Komplexität hoch: Speicherbedarf O(N),

Abstandsberechnung O(Dimension), Suche kleinster Abstand O(d*N2) bis O(d*N*lnN).

=> Effizienzsteigerung durch Verdichtung der Stichprobe

Nicht-parametrische Methoden

)},(),...,,(),,{( 2211 NN CxCxCx

23

1

3

2

BayesBayesNN

BayesNNBayes

EEE

EEE

Page 111: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 111

Nächste-Nachbar-Klassifikator

Effizienzsteigerung durch Verdichtung der Stichprobe

Kein Beitrag eines Prototypen xi zur Klassifikation, wenn seine Voronoi-Zelle nur Nachbarzellen mit seiner eigenen Klassenzugehörigkeit besitzt.

Elimination überflüssiger Elemente in der Stichprobe:Falls im Voronoi-Diagramm die Nachbarzellen der Zelle von xi die

gleiche Klassenzugehörigkeit wie aufweisen, kann der Prototyp xi aus der Stichprobe entfernt werden, ohne dass die Fehlerrate des NN-Klassifikators verändert wird.

Nicht-parametrische Methoden

Page 112: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 112

Nächste-Nachbar-Klassifikator

Effizienzsteigerung durch Verdichtung der Stichprobe

Nicht-parametrische Methoden

Page 113: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 113

Klassifikation

Bei der Gesichtserkennung haben wir für jede Person eine Menge an Stichproben-mustern (z.B. Grauwertbilder) mit be-kannter Klassenzugehörigkeit (z.B. Name als Klassenlabel). Rechts ist ein Zweiklassenproblem (Identifikation) dargestellt.

Bei der Konstruktion eines Klassifikators ist die erste Frage: Was ist die beste Menge an Merkmalen (aus Messungen im Bild zu extrahieren) um dem Klassifikator eine richtige und robuste Klassifikation zu ermöglichen?

Die einfachste Wahl der direkten Verwendung der Grauwerte aller Pixel ist keine gute Wahl, da sie einen 64K-komponentigen Merkmalsvektor für 256x256 pixel Bilder erzeugt und der Merlmalsvektor selbst bei Verschiebungen von nur einem Pixel wesentlich gedreht wird.

Person P

P nicht P

Merkmalsvorverarbeitung und -auswahl

Page 114: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 114

Zunächst wird alles verfügbare a priori Wissen genutzt, wie z.B.:

Korrigiere zuerst alle Verzerrungen, die bekannt sind oder in den Mustern selbst gemessen werden können.

Eliminiere dann sämtliches Rauschen und alle Störungen, die nicht vom Objekt herrühren. Entferne Elemente aus den Mustern, die innerhalb einer Klasse stark variieren können oder instabil sind (z.B. hochfrequ. Komp. in Gesichtserkennung).

Nach den obigen Filterungen und Transformationen folgt eine eventuelle Vorverarbeitung der Stichprobe mittels Entfernung von Ausreissern, Datennormierung und Substituierung fehlender Daten.

Letztlich werden robuste, meßbare Merkmale mit hoher Trennbarkeit ausgewählt durch entweder• Nutzung von Modellwissen oder• Statistische Analyse

Merkmalsvorverarbeitung und -auswahl

Page 115: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 115

Vorverarbeitung durch Entfernung von AusreißernAusreißer: Punkt, der weit entfernt liegt vom Mittelwert einer Zufallsvariablen. Mögliche Ursachen:• Meßfehler,• Stichprobenwert aus dem „Außenbereich“ der Verteilung erwischt,• Stichprobe besitzt lange „Außenbereiche”.

Um das Problem anzugehen, sollte eine hinreichend große Stichprobe vorliegen, um • statistisch signifikant Mittelwert und Standardabweichung berechnen zu können,• eine gute Schätzung der Verteilung zu ermöglichen.

Für eine normalverteilte Zufallsvariable mit Standardabwei-chung , deckt die Fläche um 2 um den Mittelwert 95% und um 3 99% aller Punkte ab.Noch weiter entfernte Punkte sind höchstwahrscheinlich Fehl-messungen und erzeugen beim Training große Fehler. Solche Punkte sollten entfernt werden.

Ist die Anzahl der Ausreißer nicht klein, kann dies durch eine breite Verteilungsfunktion bedingt sein. Dann gibt die Quadratfehlersummen-Kostenfunktion den außen-liegenden Werten zuviel Gewicht (wegen der Quadrierung) undes sollte eine geeignetere Kostenfunktion (Kreuz-Entropie) gewählt werden.

x

p

x

p

xm

xm

xo

xoxm+

xm+2

x

p

xm xo

Merkmalsvorverarbeitung und -auswahl

Page 116: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 116

Vorverarbeitung durch DatennormierungDer Meßprozeß zur Extraktion von Primärmerkmalen aus den Mustern kann in sehr unterschiedlichen dynamischen Bereichen für die verschiedenen Merkmale resultieren. So kann beim Punktschweißen die Schweißspannung von 0 V bis 1 kV variieren, der Schweißstrom (bei einer Konstantstromsteuerung) lediglich von 1,8 kA bis 1,9 kA.

Problem: Merkmale mit großen Werten haben mehr Einfluß auf die Kostenfunktion als Merkmale mit kleinen Werten, was nicht unbedingt ihre Signifikanz widerspiegelt.

Lösung: Normierung der Merkmale derart, dass die Werte aller Merkmale in ähnlichen Bereichen liegen.

Maßnahme: Normierung mit den jeweiligen Schätzwerten von Mittelwert und Varianz:Angenommen, wir haben eine Stichprobe aus N Daten des Merkmals f, dann

Nach der Normierung haben alle Merkmale den Mittelwert Null und Einheitsvarianz.

2

2

1

2

1

ˆ:

1

1...,,2,1,

1

f

ffifi

N

iffif

N

ifif

xxxxvonNormierung

xxN

undLfxN

x

Merkmalsvorverarbeitung und -auswahl

Page 117: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 117

Die obige Methode ist linear.

Sind die Daten nicht gleichmäßig um den Mittelwert verteilt, sind nicht-lineare Normierungen angezeigt. Diese können logarithmische oder logistische Funktionen sein, welche die Daten in vorgegebene Intervalle abbilden.

Das softmax scaling ist ein weit verbreiteter Ansatz:

Dies begrenzt den Bereich auf das Intervall [0,1]. Für kleine Werte des Arguments ergibt sich wieder eine lineare Methode. Der Grad der nicht-linearen Stauchung hängt vom Wert von und vom Parameter r ab.

2

1

1ˆ:

1

1...,,2,1,

12

1

2

1

f

ffi

r

xxfi

N

iffif

N

ifif

e

xxvonNormierung

xxN

undLfxN

x

Merkmalsvorverarbeitung und -auswahl

Page 118: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 118

Vorverarbeitung durch Ergänzung fehlender Daten

Problem:Manchmal ist die Anzahl verfügbarer Daten nicht für alle Merkmale gleich (z.B. asynchrone Messungen unterschiedlicher Frequenz). Für das Training wird jedoch die gleiche Anzahl von Daten für alle Merkmale benötigt.

Lösung:� Wenn wir über viele Trainingsdaten verfügen und nur einige Messungen von Merkmalswerten fehlen, können Merkmalsvektoren mit fehlenden Elementen aus dem Trainingsdatensatz herausgenommen werden. � Wenn wir uns den Luxus des Wegwerfens von Merkmalsvektoren nicht leisten können, müssen wir die fehlenden Werte durch Schätzwerte ersetzen:

• Mittelwert der verfügbaren Merkmalswerte, • Interpolationswert zwischen Vorgänger und Nachfolger • Schätzwert aus der zugrundeliegenden Verteilung (wenn verfügbar)

Merkmalsvorverarbeitung und -auswahl

Page 119: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 119

1. Einzelmerkmale

Um einen ersten Eindruck von den ausgewählten Merkmalen zu erhalten, ist es nützlich, die Trennfähigkeit eines jeden einzelnen Merkmals zu betrachten.

Dieses Vorgehen filtert Merkmale heraus, die keine Information über Klassenzugehörigkeiten enthalten.

2. Merkmalskombination

Danach ist die beste Kombination der übrig gebliebenen Merkmale zu einem Merkmalsvektor zu betrachten.

Merkmalsvorverarbeitung und -auswahl

Bewertung und Auswahl von Merkmalen

Page 120: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 120

Einzelmerkmals-Auswahl: t-Test für die MerkmalsauswahlAngenommen, wir haben ein Zweiklassenproblem und es sei das betrachtete Merkmal eine Zufallsvariable, dann lautet die Aufgabe, die folgenden Hypothesen zu testen:H1: Die Merkmalswerte unterscheiden sich nicht wesentlich für unterschiedliche Klassen.H0: Die Merkmalswerte unterscheiden sich wesentlich für unterschiedliche Klassen.H0 ist dabei die Nullhypothese und H1 die Alternativhypothese.

Angenommen, Merkmal x gehört zu einer bekannten Familie von Wahrscheinlichkeitsverteilungsfunktionen mit einem unbekannten Parameter µ. Im Falle Gaußscher Verteilungen kann µ der Mittelwert oder die Varianz sein.

Wenn bekannt ist, daß die Varianz denselben Wert hat, lautet die Frage, ob sich die Mittelwerte µ1 und µ2 des Merkmals x für die beiden Klassen wesentlich unterscheiden.

H1: µ = µ1 - µ2 0, H0: µ = µ1 - µ2 = 0

Werden die Werte von x für die Klasse 1 mit X und für Klasse 2 mit Y bezeichnet, definieren wir Z=X-Y.Dann können wir die Stichprobe für z verwenden, um auf die µ Hypothese hin zu testen und einen t-Test durchführen mit

YXYXN

ZN

iii

1

1

Merkmalsvorverarbeitung und -auswahl

Page 121: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 121

Prüfung bislang auf wesentlichen Unterschied der Mittelwerte eines Merkmals zweier Klassen: Merkmale mit ungefähr gleichem Mittelwert werden ausgeschlossen. Maß für Unterscheidungsfähigkeit eines Merkmals: ROC (Zusätzliche Betrachtung des Überlapps der Wahrscheinlichkeitsverteilungsfunktionen für die beiden Klassen).Wir können einen Schwellwert zwischen beiden Klassen definieren:

Klassentrennbarkeit : Receiver operating characteristics Kurve

x

p

Xm Ym x

p

Schwellwert

Klasse1 Klasse2

Wahrscheinlichkeit einer falschen Entscheidung über die Klasse1-Zugehörigkeit: Fläche unter der oberen Kurve rechts vom Schwellwert; Wahrscheinlichkeit einer korrekten Entscheidung 1- . Entsprechend für Klasse2: und 1-. Die Variation des Schwellwerts ergibt die ROC Kurve:Bei vollständigem Überlapp ist 1- (Diagonale), ohne Überlapp ist 1- = 1 unabhängig von , ansonsten erhalten wir eine Kurve wie im Diagramm. Die Fläche zwischen dieser Kurve und der Dia-gonale ist ein Überlapp-Maß zwischen 0 und 0,5.Die ROC Kurve: Durchfahren des Wertebereichs von x mit dem Schwellwert und Berechnung und Auftragung von = 1- im Diagramm.

1-

1

1

A

Merkmalsvorverarbeitung und -auswahl

Klasse1 Klasse2

Page 122: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 122

Merkmalsvektor-KlassentrennbarkeitsmaßeDie bisherigen Betrachtungen sind nicht geeignet, die Korrelationen zwischen Merkmalen zu berücksichtigen, die üblicherweise bestehen und die Unterscheidungseffizienz eines Merkmalsvektors beeinflussen.

1. Divergenz (Kullback-Leibler)Gegeben seien zwei Klassen c1 und c2. Gemäß der Bayes´schen Regel wird ein Merkmalsvektor x zugeordnet zu c1 wenn P(c1|x) > P(c2|x).

Unterscheidbarkeit für eine Merkmalsausprägung x: x=ln[p(c1|x)/p(c2|x)]. Mittelwerte von :

Symmetrische Kombination: Divergenz d

xdcxp

cxpcxpDxd

cxp

cxpcxpD

)1|(

)2|(ln)2|( und

)2|(

)1|(ln)1|( 2112

Merkmalsvorverarbeitung und -auswahl

xdcxp

cxpcxpcxpd

)2|(

)1|(ln)2|()1|(12

Page 123: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 123

Merkmalsvektor-KlassentrennbarkeitsmaßeDivergenz bei Normalverteilungen

Für mehrdimensionale Gaussfunktionen mit Mittelwertvektoren und Kovarianzmartizen

xdcxp

cxpcxpcxpd

)2|(

)1|(ln)2|()1|(12

xx

d

T

exp1

2

1

2

1)(

2121

22221

11221

kk

k

k

])[(

)],()[(22

iii

jjiiij

xE

xxE

Merkmalsvorverarbeitung und -auswahl

Page 124: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 124

Mit ist Divergenz

dann gleich

was sich im eindimensionalen Fall reduziert zu

Verallgemeinerung auf Mehrklassen-TrennbarkeitsmaßM: Anzahl der Klassen

)()(2

12

2

121

1

2

1

1211

1

22

1

112 TIspurd

22

21

2212

2

21

21

22

12

11)(

2

12

2

1

d

xx T

exp1

2

1

2

1)(

xdcxp

cxpcxpcxpd

)2|(

)1|(ln)2|()1|(12

Merkmalsvorverarbeitung und -auswahl

M

i

M

jijji dPPd

1 1

)()(

Page 125: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 125

2. Fishers discriminant ratio

Das FDR Maß basiert auf der sogenannten Streumatrix-Methode. Für Zweiklassenprobleme in einer Dimension (ein Merkmal) hat die FDR folgende Form:

Für Mehrklassenprobleme können mittelnde Formen der FDR benutzt werden:

wobei die Indizes i und j sich auf Mittelwert und Varianz (des betrachteten Merkmals) für die Klassen ci und cj beziehen.

3. Weitere Klassentrennbarkeitsmaße

Chernoff Rand und Brattcharrya Distanz.Die Mahalanobis-Distanz ist ein Spezialfall von (1.), wobei die Wahrscheinlichkeitsverteilungsfunktionen gleiche Kovarianzmatrizen besitzen.

22

21

221

FDR

M

ij ji

jiM

i

FDR22

2

1

Merkmalsvorverarbeitung und -auswahl

Page 126: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 126

4. Visualisierung des Merkmalsraumes mit entsprechenden Werkzeugen

http://quickcog.phytec.de/

Merkmalsvorverarbeitung und -auswahl

Page 127: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 127

MerkmalsvektorauswahlUm den optimalen Merkmalsvektor aufzufinden, könnten wir eine vollständige Suche unter allen Kombinationen von l Merkmalen aus m möglichen durchführen. Wir würden die beste Kombination bezüglich eines bestimmten Trennbarkeitsmaßes suchen.Für große Werte von m kann dies ein ernsthaftes kombinatorisches Problem werden, da

Beispiel: vollständige Suche nach Kombination der 5 besten Merkmale von 20 ergibt 15504 zu untersuchende Kombinationen.

Aus diesem Grund gibt es viele Suchtechniken wie - Sequential forward selection

1. Bestes Einzelmerkmal M12. Beste Kombination von M1 mit einem weiteren Merkmal: M1,M23. Beste Kombination von M1,M2 mit einem weiteren Merkmal: M1,M2,M3… bis gewünschte Leistung erreicht ist.Anzahl zu untersuchender Kombinationen: l+(l-1)+(l-2)+…+(l-m-1).

- Genetische Algorithmen

)!(!

!:

lml

m

l

mVektorenmöglicherGesamtzahl

Merkmalsauswahl

Page 128: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 128

MerkmalserzeugungMerkmale können rohe Meßwerte der zugrundeliegenden Muster sein. Dies kann zu sehr hochdimensionalen Merkmalsvektoren führen mit stark korrelierten Merkmalen und folgedessen Redundanz der Information. Die Aufgabe der Merkmalserzeugung ist die Beseitigung dieser Redundanzen durch Transformationen der rohen Meßwerte auf neue Koordinaten und die Auswahl nur solcher Koordinaten als neue Merkmale, die den höchsten Grad an Information beinhalten. Dies sollte zu einer Kompression der klassifikationsrelevanten Information in eine relativ kleine Anzahl von Merkmalen führen. Z.B. genügt bei der Gesichtserkennung eine Transformation auf ein System aus 50 „Eigengesichtern“ um alle Gesichter mit ausreichender Genauigkeit zu beschreiben, während die Ursprungsbilder aus z.B. 65536 Werten bestehen.

Lineare TransformationenKarhunen-Loève (Eigenvektor-Zerlegung)SingulärwertzerlegungFourier-TransformationHadamard TransformationWavelet Transformation...SignaleigenschaftenInvariante Momente, Textur, Rauhigkeit,....

AnwendungsbeispielQualitätskontrolle beimWiderstands-PunktschweißenInkl.Merkmalserzeugung undMerkmalsauswahl

Merkmalsauswahl

Page 129: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 129

Hauptkomponenten-Transformation

x1

x 2

h

h

x´ 1

x´2x´ 2

Zwei ursprüngliche Merkmale x1 und x2 sind der Stichprobenverteilung nicht gut angepasst.Besser x1´ und x2´ : Zur Beschreibung genügt x1´:Linearer Unterraum von x1, x2.

Page 130: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 130

x1

x 2

h

h

x´ 1x´

2x´ 2

1. Verschiebung in den Schwerpunkt

2. Drehung auf Richtung maximaler Varianz

Hauptkomponenten-Transformation

Page 131: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 131

x1

x 2

h

h

1.5

8.4,

4

9.3,

9.2

2.3,

1.2

2,

9.0

1.1,,,, 54321 xxxxx

13

1.13,

9.11

8.11,

11

9.10,

2.10

9.9,

9.8

2.9,

1.8

8,

9.6

1.7,,,,,, 1211109876 xxxxxxx

6.7

6.7

91

91

12

1Sx

0,00

2,00

4,00

6,00

8,00

10,00

12,00

14,00

0,00 5,00 10,00 15,00

Hauptkomponenten-Transformation

Page 132: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 132

1. Allgemeines Vorgehen Muster-Stichprobe Schätzung Schwerpunkt

 

Empirische Kovarianz-Matrix 

Hauptachsen und Hauptachsenabschnitte

durch Diagonalisierung von K und davon Eigenwerte, Eigenvektoren 

X x xN[ ,..., ]

1x Ri

m x

Nxs i

i

N

1

1 y x x y Ri i s i

m: Y y yN[ ,..., ]

1 Y Rm N

Ti

N

ii

T yyN

YYN

K

11

1

1

1K Rm m

a i i

iii aaK

| |a i 1

Hauptkomponenten-Transformation

Page 133: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 133

0,00

2,00

4,00

6,00

8,00

10,00

12,00

14,00

0,00 5,00 10,00 15,00x1

x 2

h

h

13

1.13,

9.11

8.11,

11

9.10,

2.10

9.9,

9.8

2.9,

1.8

8,

9.6

1.7,,,,,, 1211109876 xxxxxxx

6.7

6.7

91

91

12

1Sx

4.5

5.5

3.4

2.4

4.3

3.3

6.2

3.2

3.1

6.1

5.0

4.0

7.0

5.0

5.2

8.2

6.3

7.3

7.4

4.4

5.5

6.5

7.6

5.6... 1221 SSS xxxxxxY

8.16

63.16

63.16

5.16

84.184

94.182

94.182

54.181

11

1TYYK

Muster-Stichprobe

Schätzung Schwerpunkt

Empirische Kovarianz-Matrix

y x x y Ri i s i

m: Y y yN[ ,..., ]

1

x

Nxs i

i

N

1

1

1.5

8.4,

4

9.3,

9.2

2.3,

1.2

2,

9.0

1.1,,,, 54321 xxxxx

Hauptkomponenten-Transformation

Page 134: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 134

Hauptachsen und Hauptachsenabschnitte

x1

x 2

h

a i i

0,00

2,00

4,00

6,00

8,00

10,00

12,00

14,00

0,00 5,00 10,00 15,00

Empirische Kovarianz-Matrix

iii aaK

0...

100

0

10

001

,0det 22

11

n

nnn aaaIIK

71.0

7.0,

7.0

71.00 21 aaaIK ii

1. Charakteristisches Polynom null setzen: Nullstellen sind gesuchte Eigenwerte.

2. Eigenvektoren durch Einsetzen in und Lösen von

Hauptkomponenten-Transformation

8.16

63.16

63.16

5.16

84.184

94.182

94.182

54.181

11

1TYYK

28.33,019.063.164

8.165.16

2

8.165.160

8.16

63.16

63.16

5.16det 21

22

2,1

!

Page 135: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 135

2. Singulärwert-Zerlegung SVD von Y  

3. Eigenwert-Zerlegung von   

Y s u vs ii

r

i iT

1

s s sr1 2 0 ...

u v orthonormiert u R v Ri i i

mi

N, , ,

Y s v usT

ii

r

i iT

1

Y Y s u us sT

ii

r

i iT

2

1

Y Y Rs sT m m

Y Y Y Y Y Y u s us

Na us s

T T

s sT

s sT

i i i ii

i i

22

1 ,

Y YT

Y Y s v v RTi i i

T N N 2

Y Y v s vTi i i

2

Y v s u s a as

YvYv

Yvi i i i i ii

ii

i

!

| |

1

Hauptkomponenten-TransformationX x xN[ ,..., ]

1

x Ri

m y x x y Ri i s i

m: Y y yN[ ,..., ]

1 Y Rm N

Page 136: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 136

4. Vorgehen zur Lösung der PCA

1.

2. I)

II)

III)

wenn N > m, dann I),wenn N < m, dann III)

 Bemerkung:

X x Ys

KN

YY aTEW m m

i i

1

1 ,

Y s u vs

Na u

SVD m N

i i i ii

i i

, , ,

2

1

Y Y Y Y v vN

aY v

Y vT

EW N NT

i i i ii

ii

i

1

,| |

!

Y Y y yT

i j i j,

Hauptkomponenten-TransformationX x xN[ ,..., ]

1

x Ri

m y x x y Ri i s i

m: Y y yN[ ,..., ]

1 Y Rm N

Page 137: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 137

Jede m x n – Matrix mit m > n kann geschrieben werden als Produkt einer m x m, spalten-normalen Matrix , einer positiv semi-definiten n x n Diagonalmatrix und der Transponierten einer n x n normalen Matrix .

A

U

W

V

IVVVVUUundwww

w

w

w

WmitVWUA TTTn

n

T

0,...,,,

.00

....

0.0

0.0

212

1

Page 138: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 138

Hauptachsen und Hauptachsenabschnitte• Sortieren nach Hauptachsenabschnitten (relative Relevanz)• Abschneiden ab Schwellwert• Zugehörige Eigenvektoren: Hauptkomponenten (neue Basis)

a i

i

x

Nxs i

i

N

1

1

“Durchschnitts-gesicht”

1a

2a

,..., 21 aa

“Eigengesichter”

Hauptkomponenten-Transformation

5. Beispiel: Eigengesichter

Page 139: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 139

Merkmalsgewinnung:• Subtraktion des Schwerpunkts vom Eingangsmuster • Projektion des Ergebnisses auf die Hauptkomponenten

sNN

NN

s

xacacacx

axcaxcaxc

xxx

2211

2211 ,,,

Hauptkomponenten-Transformation

Page 140: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 140

Einbringen von a priori Wissen

Bisher: Erlernen einer Abbildung

Anhand einer bekannten Stichprobe

Jetzt: Nutzung von a priori Wissen

a) Nur bestimmte zeitliche Abfolgen sind möglichZeitdiskrete Prozesse: Hidden-Markov-Modelle

b) Kausale Zusammenhänge sind bekannt oder vermutet: Bayesian Belief Networks

c) Randbedingungen für die Lösung sind bekannt: Kostenfunktion-Regularisierung

|1|5|7|8|3|4|

Muster Klassenzugehörigkeit

|1|0|0|

Muster 1 Klassenzugehörigkeit 1

Muster N Klassenzugehörigkeit N

.:

Page 141: Vorlesung "Intelligente Systeme" 1 0. Intelligente Systeme – Beispiele und Fähigkeiten Benötigte Technologien  Analysator Erkennung  Kategorisierung,

Vorlesung "Intelligente Systeme" 141

Literatur

R. O. Duda, P. E. Hart, D. G. Stork:Pattern Classification, 2nd ed.,Wiley, New York 2001

C. M. Bishop:Pattern Recognition and Machine Learning,Springer, Berlin 2004

Weitere Literaturangaben unterhttp://www.iwi.hs-karlsruhe.de/~lino0001/BeschrIntelliSys.htm