Download - Sztuczne sieci neuronowe - aplikacje w analizie danych eksperymentalnych

Sztuczne sieci neuronowe- aplikacje w analizie danych eksperymentalnych

11/05/2009

Robert Sulej

Robert Sulej Sztuczne sieci neuronowe – aplikacje w analizie danych eksperymentalnych 11/05/2009

• typy sieci - MLP, data clustering, SOM

• struktura sieci feed-forward MLP - neurony, warstwy, funkcje

• uczenie sieci „z nauczycielem” - algorytmy optymalizacji wag

• zastosowania sieci MLP - klasyfikacja, aproksymacja

- wymiarowość / statystyka danych uczących / rozmiary sieci

- problem wariancji / obciążenia odpowiedzi sieci

- błędy systematyczne

- inne ograniczenia

• uczenie bez nauczyciela: sieci SOM (self-organising maps)

Plan prezentacji

Sieci uczone „z nauczycielem”

MLP – multi-layer perceptron

• historycznie bazuje na biologicznych inspiracjach; obecnie dobrze opisana matematycznie

…bez tajemnic, jednak pewne wyczucie możliwości jest konieczne;

• większość aplikacji korzysta z tego modelu;• możliwe konfiguracje z i bez sprzężenia zwrotnego (recursive i feed-forward);• dziesiątki algorytmów uczących i implementacji;

RBF – radial basis functions

Cascade Correlation…

Uczenie bez nadzoru

• algorytmy Winner Takes All, Winner Takes Most – klastrowanie danych;

• Self Organizing Maps – geometryczna rekonstrukcja;


Typy sieci

. . .

wektor wejściowy*:in = [in1, ..., inK]

in1

Out ← odpowiedź sieci

warstwy ukryte

neuron wyjściowy

sieć feed-forward MLPneuron

...

x1

x2

x3

xM

fakt()

out

w1

w2

w3

wM

w0

. . .

inK

Out = Net(in, W)odpowiedź sieci – deterministyczna funkcja wektora wejściowego


Struktura sieci

*opis przypadków przez stałą liczbę zmiennych


Struktura sieci

x1

x2

out = fakt()

> 0

[w1, w2]w0/||w||

< 0

neuron – funkcje aktywacji

• w sieci z jedną warstwą ukrytą - jeden neuron ukryty wnosi:- jedną hiperpłaszczyznę do podziału przestrzeni wejść sieci- jedną funkcję bazową do odpowiedź sieci

Uczenie sieci „z nauczycielem”


N

iii OutTgt

N 1

e1

,E InW

pożądana odpowiedź sieci faktyczna odpowiedź sieci

algorytmy iteracyjne:• gradientowe – wiele odmian: back-prop, gradienty sprzężone, L-M, …• stochastyczne – alg. genetyczne, symulowane wyżarzanie• bayesowskie

- minimalizacja f-cji błędu w przestrzeni wag sieci

w(5)

( w )

Uczenie sieci „z nauczycielem”


algorytmy iteracyjne:

• gradientowe • stochastyczne

• bayesowskie

w(0)

w(1)

w(2)

w(3)

w(4)

w1

w2

w3

[ p(w|In) ]

w1 w1 w1

p p p

Aplikacje sieci feed-forward MLP

Out = Net(x, W)

odpowiedź sieci - deterministyczna funkcja zmiennej wejściowej (lub wektora)

• aproksymacja funkcji:

lub Out = Net(x, W)


• estymacja parametru:

Out = Net(in = [x1, …, xn], W)



• klasyfikacja:

L

iiki

kk

p

pGOut

11

sig1sig1sig

,,g

,,g,,P,Net

ininWin

rozkłady gęstości prawdopodobieństwa

prawdopodobieństwo a priori



zadania klasyfikacji:

N

iOutiTgti

OutTgtxy OutTgt

NR

1

1

zadania estymacji:

wsp. korelacji liniowej:

Tgt

Out

– zmienny próg selekcji

Miary oceny wyników


wzrost

Out

tło(odpowiedź docelowa 0.05)

sygnał(odpowiedź docelowa 0.95)

FPTP

TP

FNTP

TP

sprawność [%]

trafność [%]

wzrost • trafność selekcji: • sprawność selekcji:

zadania klasyfikacji:

N

iOutiTgti

OutTgtxy OutTgt

NR

1

1

zadania estymacji:

wsp. korelacji liniowej:

Tgt

Out

TP - true positive, Nsig(Out > )FN - false negative, Nsig(Out ≤ ) FP - false positive, Nbkg(Out > )

– zmienny próg selekcji





sprawność [%]

trafność [%]

(zadania klasyfikacji)

zbiór uczący ↔ zbiór testowy

błąd systematyczny - oszacowanie+ - maksimum sygnału wg klasyfikatorao - rzeczywiste maksimum sygnału

A: zmiana progu selekcji () nie wpływa na wartość centralną wyznaczanej wielkości

+

A mały błąd systematyczny

cecha 1

cech

a 2

> 0,5> 0,8

> 0,9

+

o

B znaczny błąd systematyczny

cecha 1

cech

a 2

> 0,5> 0,8

> 0,9

B: wartość centralna zmienia się wraz ze zmianą progu selekcji

o



COMPASS – selekcja D0

Nauka bez Monte Carlo


zbiór uczący – dane rzeczywiste

tło (Out=0.05)– wrong charge combination– tylko tło kombinatoryczne

„sygnał” (Out=0.95)– good charge combination- zdarzenia tła + zdarzenia D0

zmienne wejściowe – kinematyka zdarzeńtest – rozkład masy niezmienniczej


Nadmierne dopasowanie do danych uczących

- jak osiągnąć:

• duży rozmiar wektorów wejściowych• mała liczba wektorów uczących*• duża liczba neuronów ukrytych• długa nauka

* w zadaniu klasyfikacji – wystarczy w jednej z klas przypadków


Nadmierne dopasowanie do danych uczących

te same rozkłady,różna statystyka

Rxy = 0,459 Rxy = 0,165 Rxy = 0,0009

odpowiedź sieci

zmienne wejściowe

Selekcja zmiennych


Reprezentacja danych

• usunięcie nietypowych przypadków, normalizacja

• usunięcie symetrii

• wyrównanie rozkładów

• analiza składowych niezależnych

optymalizacja wag

• algorytm gradientów sprzężonych• algorytm quick-prop• dowolny inny algorytmInicjalizacja

(sieć o niewielkiej strukturze początkowej)

Inicjalizacja(sieć o niewielkiej strukturze początkowej)

Rozbudowa struktury(wstępny trening neuronów-kandydatów)

akceptacja neuronu brak modyfikacji

Rozbudowa struktury(wstępny trening neuronów-kandydatów)

akceptacja neuronu brak modyfikacji

optymalizacja wag

Redukcja strukturyRedukcja struktury

optymalizacja wag

stabilizacja?

KoniecKoniec

Redukcja struktury

• łączenie par neuronów:

• usuwanie neuronów o stałej odpowiedzi:

• usuwanie neuronów o nieistotnych wagach wejściowych:

* działanie sieci nie zostaje zaburzone *

AB

BA

N

i

Bi

Ai

BA

AB too

N

221

2

22

2

1

cr

o

d

N

N

ijj

jout

iout

,11

1w

w

Przebieg błędu sieci w funkcji iteracji trening neuronów-kandydatów

N

T

Optymalizacja struktury



Optymalizacja strukturyRedukcja struktury

AB

BA

N

i

Bi

Ai

BA

AB too

N

221

2

22

2

1

c

ro

d

N

N

ijj

jout

iout

,11

1w

w

• łączenie par neuronów:

• usuwanie neuronów o nieistotnych wagach wejściowych:

• usuwanie neuronów o stałej odpowiedzi:

∙∙

∙∙

∙

∙

∙∙

∙∙ ∙

° °

°

°

°°

°

x1

x2

l1

l2

∙∙

∙∙∙

∙∙

∙

∙∙ ∙

° °

°

°

°°

°

x1

°

x2

l2

l1


Optymalizacja strukturyprzykładowe zadanie

13-8, dynamiczna struktura 17-7, statyczna struktura 20-10, statyczna struktura

zbiór uczący

w(t) = x – wwinner(t)

wn(t+1) = wn(t) + (t) fs(n – winner) w (t)

dla n ϵ < 1; N >:

x = X<rnd>

X = [x1,…,xM] - zbiór wektorów (np. współrzędne hitów)

W = [w1,…,wN] - wektory wag neuronów

dla m ϵ < 1; M >:

N > M

dla t ϵ < 1; max_iter >:

x

x

x

x

x

x

x

x

x

współczynnik szybkości nauki„funkcja sąsiedztwa”

Nauka „bez nauczyciela”: Self-Organizing Maps



Self-Organizing Maps – dane– – 1-wymiarowa sieć SOM


Dziękuję za uwagę

0L:

1M:

1E:

fPow4(out) = (tgt – out)4fMSE(out) = (tgt – out)2

CC (sygnał)

tło


Download - Sztuczne sieci neuronowe - aplikacje w analizie danych eksperymentalnych

Top Related