retele neuronale - curs 81 retele cu functii de baza radiale (retele rbf) arhitectura si functionare...
Post on 21-Dec-2015
278 Views
Preview:
TRANSCRIPT
Retele neuronale - curs 8 1
Retele cu functii de baza radiale (retele RBF)
• Arhitectura si functionare
• Puterea de reprezentare
• Algoritmi de invatare
Retele neuronale - curs 8 2
Arhitectura si functionareRBF - “Radial Basis Function”:
Arhitectura: – Doua nivele de unitati
functionale– Functii de agregare:
• Unitati ascunse: distanta dintre vectorul de intrare si cel al ponderilor corespunzatoare unitatii ascunse
• Unitati de iesire: suma ponderata
N K M
C W
centri ponderi
N
i
kii
kk cxCXCXG1
2)(),(
OBS: unitatile ascunse nu au asociat
prag de activare
Retele neuronale - curs 8 3
Functii de activare
Functiile de activare pentru unitatile ascunse au simetrie radiala:
– Unitatile ascunse genereaza un semnal de iesire semnificativ doar pentru vectori de intrare suficient de apropiati de centrii corespunzatori
Functia de activare pentru unitatile de iesire este de regula o functie liniara
N K M
C W
centers weights
Retele neuronale - curs 8 4
Functii cu simetrie radiala
Exemple:
-3 -2 -1 1 2 3
0.2
0.4
0.6
0.8
1
223
222
221
/1)(
)/(1)(
))2/(exp()(
uug
uug
uug
g1 (σ=1)
g2 (σ=1)
g3 (σ=1)
Obs: parametrul σ controleaza largimea graficului
Retele neuronale - curs 8 5
FunctionareCalculul semnalului de iesire:
)( ,
,1 ,)(
01
01
kki
K
kkiki
i
K
k
kiki
CXgzwzwy
MiwCXgwy
N K M
C W
Centers matrix Weight matrix
Vectorii Ck pot fi interpretati ca prototipuri ale datelor de intrare;
- doar vectorii de intrare similari cu vectorul de ponderi asociat unitatii ascunse poate activa unitatea ascunsa corespunzatoare
- pentru un vector de intrare dat, semnalul produs de retea este determinat de catre unitatile ascunse al caror centru este suficient de apropiat de vectorul de intrare
Retele neuronale - curs 8 6
FunctionareFiecare unitate ascunsa este
“sensibila” la semnalele de intrare provenite dintr-o regiune a spatiului de intrare aflata in vecinatatea centrului. Aceasta regiune este denumita camp receptiv
Dimensiunea campului receptiv depinde de σ
2
2
2exp)(
u
ug
-3 -2 -1 1 2 3
0.2
0.4
0.6
0.8
1
2σ
-3 -2 -1 1 2 3
0.2
0.4
0.6
0.8
1
σ =1.5
σ =0.5
σ =1
Retele neuronale - curs 8 7
Functionare• Campurile receptive ale unitatilor
ascunse trebuie sa asigure o “acoperire” a spatiului de intrare
• O buna acoperire a spatiului de intrare asigura o buna capacitate de aproximare
• Valori prea mici sau prea mari ale largimii functiilor radiale conduc la acoperiri inadecvate
-10 -7.5 -5 -2.5 2.5 5 7.5 10
0.2
0.4
0.6
0.8
1
-10 -7.5 -5 -2.5 2.5 5 7.5 10
0.2
0.4
0.6
0.8
1
-10 -7.5 -5 -2.5 2.5 5 7.5 10
0.2
0.4
0.6
0.8
1
subacoperire supraacoperire
acoperire adecvata
Retele neuronale - curs 8 8
Putere de reprezentareExemple (caz particular) : retea RBF pentru reprezentarea lui XOR• 2 unitati de intrare• 4 unitati ascunse• 1 unitate de iesire
01
1
0
Centrii:
u.a. 1: (0,0)
u.a. 2: (1,0)
u.a. 3: (0,1)
u.a. 4: (1,1)
Ponderi:
w1: 0
w2: 1
w3: 1
w4: 0
Functie de activare:
g(u)=1 if u=0
g(u)=0 if u<>0
Aceasta abordare nu poate fi aplicata pentru probleme generale de aproximare
Retele neuronale - curs 8 9
Putere de reprezentare
Retelele RBF sunt aproximatori universali:
o retea cu N intrari si M iesiri poate aproxima orice functie definita pe RN, cu valori in RM, cu o acuratete care depinde de numarul de unitati ascunse
Suportul teoretic al retelelor RBF este reprezentat de:• Teoria aproximarii• Teoria regularizarii (determinarea atat a functiilor de baza
(nucleu) cat si a parametrilor acestora astfel incat sa fie optimizata eroarea si un termen de regularizare care se refera la proprietati ale functiilor de baza – de exemplu netezime).
Retele neuronale - curs 8 10
AplicabiliteRetelele RBF sunt aplicate pentru clase de probleme similare celor
pentru care sunt aplicate retelele feef-forward cu functii sigmoidale:
• Aproximare
• Clasificare
• Predictie
Retele neuronale - curs 8 11
AntrenareParametri adaptivi:• Centrii (prototipurile) corespunzatoare unitatilor ascunse• Largimile campurilor receptive (parametrii functiilor de activare
cu simetrie radiala)• Ponderile asociate conexiunilor dintre nivelul ascuns si cel de
iesire
Variante de antrenare:• Antrenarea simultana a tuturor parametrilor (similara
algoritmului BackPropagation – doar regulile de ajustare ale centrilor se modifica)– Obs: aceleasi dezavantaje ale algoritmului BackPropagation
• Antrenare separata a parametrilor: – centri, largimi, ponderi
Retele neuronale - curs 8 12
AntrenareAntrenare separata :Set de antrenare: {(x1,d1), …, (xL,dL)}
1. Estimarea centrilor• K=L (nr de centri = nr de exemple),
• Ck=xk (vezi exemplul cu XOR)
• K<L : centri sunt stabiliti prin • selectie aleatoare din setul de antrenare
• selectie sistematica din setul de antrenare (Orthogonal Least Squares - metoda celor mai mici patrate ortogonale)
• utilizand o metoda de grupare
Retele neuronale - curs 8 13
AntrenareOrthogonal Least Squares:
• Selectie incrementala a centrilor astfel incat eroarea sa fie minimizata cat mai mult
• Noul centru este ale astfel incat sa fie ortogonal pe spatiul gnerat de catre centrii selectati (procesul este bazat pe metoda de ortogonalizare Gram-Schmidt)
• Abordarea este corelata cu regresia de tip “ridge”
Retele neuronale - curs 8 14
AntrenareGrupare (clustering):
• Se urmareste identificarea a K clase in setul de date de antrenare {X1,…,XL} astfel incat datele din fiecare clasa sa fie suficient de similare pe cand datele din clase diferite sa fie suficient de diferite
• Fiecare clasa va avea un reprezentant (e.g. media datelor din clasa) care va fi considerat centrul clasei
• Algoritmii pentru determinarea reprezentantilor clasei sunt cunoscuti sub numele de algoritmi partitionali (realizeaza o partitionare a spatiului de intrare)
• Algoritm clasic: K-means
Retele neuronale - curs 8 15
Antrenare
K-means:
• Se porneste de la centri initializati aleator
• Proces iterativ:– Se asigneaza datele la clase
folosind criteriul distantei minime (sau a celui mai apropiat centru)
– Se recalculeaza centrii ca fiind medii ale elementelor asignate fiecarei clase
Retele neuronale - curs 8 16
Antrenare
K-means:
• Ck:=(rand(min,max),…,rand(min,max)), k=1..K
• REPEAT– FOR l:=1,L
Determina k(l) astfel incat d(Xl,Ck(l)) <=d(Xl,Ck) Asigneaza Xl clasei k(l)– Calculeaza Ck: = media elementelor ce au fost asignate clasei kUNTIL “nu s-au mai efectuat modificari ale centrilor”
Obs: • Centrii nu sunt de regula vectori din setul de antrenare • Numarul de clase trebuie cunoscut de la inceput.
Retele neuronale - curs 8 17
Antrenare
Varianta incrementala:
• Se porneste cu un numar mic de centri initializati aleator
• Se parcurge setul de antrenare:
– Daca exista un centru suficient de similar cu data de intrare atunci componentele centrului respectiv se modifica pentru a asigura asimilarea datei de intrare in clasa aferenta centrului.
– Daca data de intrare este diferita de toti centrii atunci este adaugat un nou centru (unitate ascunsa) care este initializat chiar cu data de intrare analizata.
Retele neuronale - curs 8 18
Antrenare
Varianta incrementala:
OR UNTIL
:
1:
:;1: ELSE
)(: THEN ),( IF
),(),(incat astfel },...,1{* determina
DO L1,:l FOR
REPEAT
0:
..1;..1max),(min,:
:
max
0
***
*
0
tt
t
tt
XCKK
CXCCCXd
CXdCXdKk
t
KkNirandC
KK
lK
klkkkl
klkl
ki
Retele neuronale - curs 8 19
Antrenare
Estimarea largimilor campurilor receptive.
Reguli euristice:
jmm
j
jkk
kjjkk
CmCCCCdm
σ
CCCCdσ
dK
d
de centri apropiati mai cei:,...,),,(1
]1,5.0[, deapropiat mai cel centrul),,(
centri dintre maxima distanta ,2
1
1
maxmax
Retele neuronale - curs 8 20
Antrenare
Estimarea ponderilor conexiunilor dintre nivelul ascuns si cel de iesire:
• Problema este echivalenta cu cea a antrenarii unei retele cu un singur nivel de unitati functionale liniare
• Variante:– Aplicarea unor instrumente din algebra liniara– Aplicarea algoritmului Widrow-Hoff
Retele neuronale - curs 8 21
Retele RBF vs. retele BPRetele RBF:
• 1 nivel ascuns
• Functii de agregare bazate pe distante (pt. nivelul ascuns)
• Functii de activare cu simetrie radiala (pt. nivelul ascuns)
• Unitati de iesire cu functie liniara
• Antrenare separata a parametrilor adaptivi
• Similare cu tehnicile de aproximare locala
Retele BP:
• Mai multe nivele ascunse
• Functii de agregare bazate pe suma ponderata
• Functii de activare sigmoidale (pt. nivelul ascuns)
• Unitati de iesire liniare sau neliniare
• Antrenare simultana a parametrilor adaptivi
• Similare cu tehnicile de aproximare globala
top related