radiale basis-funktionen

40
Radiale Basis- funktionen AS2-5

Upload: jorn

Post on 24-Feb-2016

35 views

Category:

Documents


0 download

DESCRIPTION

Radiale Basis-funktionen. AS2-5. Lernen in RBF-Netzen. Approximation & Klassifikation mit RBF. support vector -Maschinen. Anwendung RBF-Netze. Radiale Basisfunktionen. Motivation: lokale Cluster-Klassenbildung.  i = { x | S(| x – x i |) > w 0 }. Radiale Basisfunktionen. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Radiale Basis-funktionen

Radiale Basis-funktionen

AS2-5

Page 2: Radiale Basis-funktionen

Lernen in RBF-Netzensupport vector-Maschinen

Approximation & Klassifikation mit RBF

Anwendung RBF-Netze

Page 3: Radiale Basis-funktionen

Radiale Basisfunktionen

Aufgabe: lokale Klassenbildung

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 3 -

i = { x | S(|x–xi|) > w0}

Page 4: Radiale Basis-funktionen

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 4 -

Klassifikation und RBF

Motivation: lokale Cluster-Klassenbildung

i = { x | S(|x–xi|) > w0}

wo

xi

Page 5: Radiale Basis-funktionen

Radiale Basisfunktionen

Definition Glockenfunktionen

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 5 -

Funktion SG mit den Eigenschaften

SG(z) > 0, SG(–) = SG() = 0,

0 < <

Es ex. ein a>0 mit SG(z) nicht anwachsend z

[a,), nicht abfallend z (–,a)

Also ist SG(a) globales Maximum.

dx)x(SG

Page 6: Radiale Basis-funktionen

Glockenfunktionen

BeispieleKombination von Quetschfunktionen

SG(x1,..,xn) = max ( 0, 1+ -1 ) mit b(xi) =

Ableitungen von Quetschfunktionen

SG (x) =

Produkte von Glockenfunktionen

SG(x1,..,xn) = SG(x1) ×× SG(xn)

allgemeine Radiale Basisfunktionen

SG(x) = h(|x|), x n , h(.) streng monoton fallend

aus Intervallen zusammengesetzte Funktionen

SG(z) = (1–z2)2n im Intervall z[–1,+1], sonst null. Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 6 -

1)0(S21)x1(S)x1(S

Q

iQiQ

xSQ

1

( )n

ii

b x

Page 7: Radiale Basis-funktionen

RBF-Netze

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 7 -

x1

x2

xn

y1

y2

ym

f1

f2

Typisch: 2-Schichten Netzwerk

Aktivitätnicht normiert

fi(x) = w yk kk

m

1 = w Sk k

k

m

( ) x

1

mit Sk(ck,x) = ek ( )c x 2

2 2s

normiert

fi(x) = w yk kk

m

1 =

w S

S

k kk

m

jj

m

( )

( )

x

x

1

1

Page 8: Radiale Basis-funktionen

Radiale Basisfunktionen

Aktivität Normiertes RBF-Netzwerk

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 8 -

y (x) = f(x) = i wi (x,ci) mit iS~ i ii i

k kk

S ( , )S ( , )

S ( , )

x cx cx c

Schicht 1 Schicht 2

· · ·

Normierung · · ·

X1

xn

S1(X)

Sn(X)

y(X)Si

/

/

Page 9: Radiale Basis-funktionen

RBF maximaler Information

Welche Basisfunktionen hat maximale Information ?H(p*) = maxp H(p(x)) x , p*(x) = ?

NB1: p(x) dx = 1 oder g1(x):= p(x)dx – 1 = 0

NB2: s2 = x2= -∞+∞

p(x) x2 dx oder g2(x):= -∞+∞

p(x)x2dx – s2= 0

Ansatz Lagrange-Funktion

L(p, 1,2) := H(p) + 1g1(p) + 2g2(p)

= 0, = 0 (Rechnung Kap.5.2)

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 9 -

L p*p

i

i

L

Ergebnis p*(x) = A exp(–x2/2s2) Gauß'sche Glockenkurve

Page 10: Radiale Basis-funktionen

RBF maximaler Information

Basisfunktionen maximaler Information (Entropie)H(p*) = maxp H(p) x [0,1], p*(x) = ?

NB: 01p(x) dx = 1 oder g(x):= 0

1p(x)dx – 1 = 0 ausreichende NB

Ansatz Lagrange-Funktion

L(p,) := H(p) + g(p)

= 0 = , = 0

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 10 -

L pp

L

Ergebnis: p*(x) = const Uniforme Verteilung

L pp

(Rechnung analog Kap.5.2)

Page 11: Radiale Basis-funktionen

y

p(y)

w*

p(y)

y

p(x)

y = S(x)

Ausgabefunktion maximaler Information[-,+] x [0,1] Max. Information bei uniformer pdf !

Wie ? (Rechnung Anhang A.4)Wenn S‘(x) = p(x) ist H(y) = max.

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 11 -

Einstellung von S(x) mittels w

F1S (z)

1 exp( z)

0z wx w

Page 12: Radiale Basis-funktionen

Parzen Window - Methode

Approximation durch Überlagerung von Basisfunktionen

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 12 -

Nlim N 0,

s n

Nlim N N

s

Perfekte Approximation bei abnehmender Breite s, wobei

Page 13: Radiale Basis-funktionen

Parzen Window

Approximation durch Überlagerung von Basisfunktionen

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 13 -

Page 14: Radiale Basis-funktionen

Normierung der Variablen

Problem

PCA etc. problematisch bei heterogenen Variablen,z.B. (x1 [cm], x2[Pascal], x3 [°C])Welche Einheiten pro Dimension?

Welche Relation sollen die Einheiten zueinander haben ?

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 14 -

Page 15: Radiale Basis-funktionen

Normierung der Variablen

Lösung einheitliche Transformation aller Variablendurch Skalierung S, Drehung D, Verschiebung V

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 15 -

x z = SDVx = Mx

d2 = z2 = zTz = xTMTMx

d2 = (x–c)TC–1(x–c)Mahalanobis-Abstand

RBF-AusgabefunktionSG(x) = A exp((x–c)TC–1(x–c))

Page 16: Radiale Basis-funktionen

Klassifikation mit RBF-Netzen

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 16 -

Beste Klassifizierung

Suche Klasse wi so, daß p(wk|x) = maxi p(wi|x) Bayes-Klassifizierung

Wir wissen: p(wi|x) =

Annahme: Gaußverteilte Abweichungen der x von den Klassenprototypen ci,

also p(ci,x) = A =: S(ci,x)

i i

jj

p( , ) p( , )p( ) p( , )w w

w

x xx x

2( )i22e

s

c x

Bayes-Klassifizierung mit NN:

Suche Klasse wk so, daß mit yi =

yk = maxi yi winner take all

RBF Suche Maximum

x1

x2

xn

y1

y2

ym

i i

j jj

S ( , )S ( , )

c xc x

Page 17: Radiale Basis-funktionen

Klassifikation mit winner-take-all

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 17 -

Zwei-Schichten-NetzwerkSuche Klasse k so, dass mit fi = iwiyi

fi = maxk fk

x1

x2

xn

y1

y2

yn

f1

f2

Suche Maximum der Aktivität

Ein-Schicht-Netzwerk

Suche Klasse k so, dass mit yi = S(ci,x) / jS(cj,x)

yk = maxi yi

x1

x2

xn

y1y2

yn

Lernen nur der Gewichte für yi bzw. fi

Page 18: Radiale Basis-funktionen

Lernen in RBF-Netzensupport vector-Maschinen

Approximation & Klassifikation mit RBF

Anwendung RBF-Netze

Page 19: Radiale Basis-funktionen

Lernverfahren

Ansätze

Schichtweise Einzelanpassung Anpassen der ersten Schicht (Zentrum +Breite) Anpassen der zweiten Schicht (Gewichte)

Gesamtanpassung, z.B. durch Backpropagation

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 19 -

Page 20: Radiale Basis-funktionen

Anpassung der ersten Schicht

Phasen1. initiale Verteilung (Anzahl, Lage und Form) der Glockenfunktionen2. iterative Adaption der RBF-Parameter an die Trainingsdaten

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 20 -

Initiale Verteilung Bekannte Trainingsdaten

Clustersuche, RBF-Zentren = Clusterzentren; RBF-Breite = Clusterstreuung Unbekannte Trainingsdaten

• Sukzessiver Netzaufbau• Überdeckung durch Fehlerminimierung • Überdeckung durch regelmäßiges Raster• Clusteranalyse durch Kohonen-Netze

Page 21: Radiale Basis-funktionen

Anpassung der ersten Schicht

Initiale Verteilung Sukzessiver, fehlerorientierter Netzaufbau

Start mit einem Neuron

Füge ein neues Neuron hinzu für jedes Beispiel mit hohem Fehler (Abweichung vom gewünschten Netz-Ausgabewert)

Verändere die Parameter bei den Nachbarn so, daß der Fehler verringert wird (Einpassen des neuen Neurons)

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 21 -

Das Netzwerk wächst solange, bis der Approximationsfehler auf das gewünschte Maß

zurückgegangen ist.

Page 22: Radiale Basis-funktionen

Anpassung der ersten Schicht

Initiale Verteilung Adaptiver und sukzessiver Netzaufbau für Abdeckung einer Testverteilung

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 22 -

Page 23: Radiale Basis-funktionen

RBF-Probleme

Sigmoidale Ausgabefkt auch für Extrapolation,

RBF-Ausgabefkt nur für Intrapolation.

Problem: Vorhersage durch untrainierte RBF-Neuronen

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 23 -

Page 24: Radiale Basis-funktionen

Anpassung der zweiten Schicht

Normiertes RBF-Netz

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 24 -

y (x) = (x) = i wivi mit vi = (x,ci) iS~

Schicht 1 Schicht 2

· · ·

Normierung · · ·

X1

xn

S1(X)

Sn(X)

y(X)Si

/

/

w(t) = w(t–1) – (t)(wTv– (x)) 2v

vWidrow-Hoff Lernregel f̂

Page 25: Radiale Basis-funktionen

Anpassung der zweiten Schicht

TLMSE: Eigenvektor fitting w(t) = w(t-1) – (t) y [x(t) w(t-1)y] negative Oja Lernregel

mit Mittelwertskorrektur y = (x-x0)Tw

Minimisierung der Entropie

w(t) = w(t1) – grad H(y(w))

Approximation von p(x) mit Parzen Windows:

Rechnungw(t) = w(t1) (y-yk) (x xk) Hebb'sche Regel Ausgabe y, frühere Ein/Ausgabe k

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 25 -

Page 26: Radiale Basis-funktionen

Lernen in RBF-Netzensupport vector-Maschinen

Approximation & Klassifikation mit RBF

Anwendung RBF-Netze

Page 27: Radiale Basis-funktionen

Gesamtanpassung

Lernen mit Backpropagation

Zielfunktion R(M) = (f(x,M)–F(x))2= r(x,M)

1.Schicht: Lernen der RBF-Koeffizienten Mij durch

Gradientenalgorithmus

Mkij(t+1) = Mk

ij(t) r(x,Mk)

2. Schicht: Standard, z.B. BP

Klassifikation durch support vector-Maschinen

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 27 -- 27 -

kijM

Page 28: Radiale Basis-funktionen

Gesamtanpassung: nicht-lin. Separierung

Klassifikation

Idee: Verwenden von RBF für lineare Separierung

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 28 -

Hyperfläche

x2 x1

Hyperebene

z2

z1

Einbettung

Page 29: Radiale Basis-funktionen

Gesamtanpassung: Einbettung

Einbettung in einen Hyperraum

Ziel Klassifikation mit linearer Separierung

fi(z) = sgn(wiTz + b) =

Mittel Einbettungsfunktion finden: Muster x z, Prototyp ci w

fi(x) = sgn((ci)Tx) + b) =

= sgn( K(ci,x) + b) mit K(ci,x) = (ci)Tx) kernel function

nicht notwendig, es reicht die skalare Funktion K(ci,x).

Warum ?Beispiel !

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 29 -

sonst 1- Klasseaus wenn1 iz

sonst 1- Klasseaus wenn1 ix

Page 30: Radiale Basis-funktionen

Gesamtanpassung: Einbettung

Mercer‘s theoremSei eine Funktion K(x,y) gegeben.

Erfüllt sie die Bedingung > 0

für alle Funktionen g mit < , so wird sie „positiv definierte Kernfunktion“ (positiv definite kernel) genannt und es gibt eine Funktion (x) mit K(x,y) = (x)Ty), einem Skalarprodukt in einem hochdimensionalen Raum.

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 30 -

dxdy)y(g)x(g)y,x(K

dx)x(g 2

Typische Kernfunktionen

K(x,y) = Gaußfunktion K(x,y) = (xTy +1)d Polynom vom Grad d K(x,y) = tanh(xTy –q) Multi-layer-Perzeptron

a2||

eyx

Page 31: Radiale Basis-funktionen

Gesamtanpassung: opt. lin.Separierung

Ziel für lin. Separierung: Klassifikationsfehler minimieren

R(a) = ½|fa(z) – y| dp(z,y) kontinuierl. Fall

Re(a) = 1/N ½|fa(zi) – yi| diskreter Fall

beim Training mit N Mustern.

Erreichbar im diskreten Fall mit Mindestwahrscheinlichkeit 1– R(a) < Re(a) + f( , ) Vapnik 1979

mit f(a,b) =

bei beliebiger Klassifkation fa(z) und gegebener „Diagnosevariabilität“ h

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 31 -

Nh

Nlog

Nbaa /)4(log)1)/2(log(

Page 32: Radiale Basis-funktionen

Gesamtanpassung

„Diagnosevariabilität“ h VC-Dimensionh = maximale Anzahl der Punkte, die durch die

Diagnosemaschine auf 2h Arten in zwei Klassen geteilt werden können.

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 32 -

Beispiel h = 3 Punkte, 23=8 Diagnosearten möglich. h < 4

b a

c

A={}, B={a,b,c}

A={a}, B={b,c}

A={a,b}, B={c}

A={a,c}, B={b}

A

Bsowie 4 Möglichkeiten bei Umbenennung AB,

BA

Page 33: Radiale Basis-funktionen

Gesamtanpassung: support vector machineForderung für lin. Separierung„Lege die Hyperebene so, dass sie maximalen Abstand zu allen Grenzpunkten hat“

| wTzi + b | = 1 Mindestabstand = 1

fw,b(zi) = sgn(wTzi + b) yi {+1,–1} Klassifizierung

(wTzi + b) yi > 1

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 33 -

(wTzi + b) yi > 1 – i Minimierung des strukturellen RisikosSchlupfvariable

imin

!

Page 34: Radiale Basis-funktionen

Gesamtanpassung : support vector machineAnsatz support vector – Maschine

Alle Muster sind in in einem Cluster: | zi–a| < r Kugelradius Endliche Beschreibung der Trennung |w| < A h < r2A2 + 1 Vapnik 1995

Reduzierung des Klassifizierungsfehlers durch Beschränkung von h

Neues Ziel: Minimierung von

T(w, i) = ½ w2 +

mit NB g(w,i) = 1 – (wTzi + b)yi – i = 0

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 34 -

N

1ii

Page 35: Radiale Basis-funktionen

Gesamtanpassung : support vector machine

AnsatzLagrangefunktion

L(w,1,..,N) = T(w, i) +

L = w – = 0 oder w =

Bestimmung der i durch Maximierung von

W(a) = –½ w2 quadrat. Optimierung

mit NB 0<i <,i 1,...,N und 0

i 0 : zi = Support-Vektoren Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 35 -

N

1ii )i,(g w

w

N

1iiii y z

N

1iiii y z

N

1ii

N

1iii y

Page 36: Radiale Basis-funktionen

Gesamtanpassung : support vector machine

Ergebnis: Klassifizierung mit

f(x) = sgn(wTz + b) = sgn( K(ci,x) +b ) 2-Schicht-RBF-Netz

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 36 -

N

1iii y

Beispiel Supportvektorenlin. Separierung entspricht nicht-lin. Separierung

Page 37: Radiale Basis-funktionen

Lernen in RBF-Netzensupport vector-Maschinen

Approximation & Klassifikation mit RBF

Anwendung RBF-Netze

Page 38: Radiale Basis-funktionen

support vector - Maschine

Ergebnisse

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 38 -

Daten Klassifikations-Fehlerrate

US Postal Service

Klass. RBF

RBF mit SV Zentren

Reine SV-Maschine

Training (7291 Muster)

1,7 % 0,0 % 0,0 %

Test (2007 Muster)

6,7 % 4,9 % 4,2 %

Frage: Warum ist diese Gegenüberstellung problematisch ?

Page 39: Radiale Basis-funktionen

Erkennen von 3D-Figuren

Training Feste Figur xi aus 6 Punkten, 40-100 Random-Projekt. auf 2D-Fläche

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 39 -

P1

P2

P4

P3P6 P5

q

q

· · ·

x1(1)x2(1)

x1(6)x2(6)

x10(1)

x20(6)

· · ·

· · ·

M

1

X = X0

TestErkenne Figurtyp + Winkel q und

q [0°,30°,60°,..,360°] [0°,30°,60°,..,180°]

Poggio, Edelman 1990

M Trainingsmuster = M hidden units

6x12=78 Standardwinkel

Page 40: Radiale Basis-funktionen

Erkennen von 3D-Figuren

Ergebnisse Erkennungsleistung

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 40 -

Kodierung und Trainingszahl Abstand zum Objekt

Bereichsgröße Ausgabefehler u. Bereichsgröße

Würfel vs. Oktaeder bei 40 Trainingsmustern / RBFs