metodi di ottimizzazione per le reti neurali - dii.unisi.itagnetis/grippo1.pdf · metodi di tipo...

22
Metodi di ottimizzazione per le reti neurali L. Grippo DIS, Universit` a di Roma “La Sapienza” M. Sciandrone IASI, Consiglio Nazionale delle Ricerche, Roma Generalit` a sulle reti neurali Addestramento di reti multistrato Addestramento di reti“Radial Basis” Metodi incrementali 1

Upload: vuongduong

Post on 17-Feb-2019

218 views

Category:

Documents


0 download

TRANSCRIPT

Metodi di ottimizzazioneper le reti neurali

L. Grippo

DIS, Universita di Roma “La Sapienza”

M. Sciandrone

IASI, Consiglio Nazionale delle Ricerche, Roma

• Generalita sulle reti neurali

• Addestramento di reti multistrato

• Addestramento di reti“Radial Basis”

• Metodi incrementali

1

Generalita sulle reti neurali

• Cos’e una rete neurale?

• Il neurone formale

• Classificazione delle architetture

• Apprendimento e generalizzazione

• Metodi di ottimizzazione per l’addestramento

• Applicazioni delle reti neurali

• Reti neurali e Ricerca Operativa

2

Cos’e una rete neurale?

Da un punto di vista “ fisico ”:una rete neurale e un processore distribuitocostituito dalla interconnessione di unita com-putazionali elementari ( neuroni ) con due carat-teristiche fondamentali:∗

• la “conoscenza” e acquisita dall’ambienteesterno attraverso un processo di“ apprendimento ” o di “ adattamento ”

• la conoscenza e immagazzinata nei parametridella rete e, in particolare, nei “ pesi ”associati alle connessioni.

Il “ connessionismo ” si contrappone alla con-cezione “ logico-simbolica ” tipica dellaIntelligenza Artificiale.†∗cfr. S. Haykin, Neural Networks, Prentice Hall,1999†cfr. D. Parisi, Intervista sulle reti neurali, Il Mulino, 1989

3

Da un punto di vista “ matematico ” ∗ :data una funzione G : X → Y, nota attraversoun insieme di coppie

{(xp, G(xp)) : xp ∈ X, p = 1, . . . , P}una rete neurale e un particolare modello diapprossimazione di G:

F(·, w) : X → Y

dipendente da un vettore di parametri w

(tipicamente nonlineare rispetto ai parametri).

Da un punto di vista “ statistico ”†, una reteneurale e un particolare modello di classifi-cazione o di regressione ( non lineare ).

∗sulla matematica dell’approssimazione “neurale”cfr.:

A.Pinkus, Approximation Theory of the MLP model inNeural Networks,Acta Numerica, 1999, pp. 143-195†per un inquadramento delle reti neurali nell’ambitodei metodi di inferenza statistica cfr.

T.Hastie, R.Tibshirani and J.Friedman, The Elementsof Statistical Learning. Data mining, Inference and Pre-diction, Springer 2001

4

Il neurone formale

Modello semplificato del neurone biologico

proposto da McCulloch e Pitts (1947).

Dispositivo a soglia che ha

• uscita 1 se la somma algebrica pesata degli

ingressi supera un valore di soglia θ,

• uscita -1 altrimenti.

Ossia

y = h

M∑

i=1

wixi − θ

dove:

• y ∈ {−1,1} uscita

• xi ∈ R ingressi (anche xi ∈ {0,1})• wi ∈ R pesi

• θ ∈ R soglia

• h : R → R funzione di attivazione:

h(t) ={

1 t ≥ 0

−1 t < 0.

Il neurone formale puo realizzare le operazioni

logiche NOT, AND, OR.

5

Schema di neurone formale

6

Si puo porre

y(x) = sign(wT x − θ).

Fissati w, θ, il neurone puo essere interpretatocome un classificatore lineare , che assegna ilvettore x alla classe A oppure alla classe B inbase al valore di y(x), ossia, ad es.:

x ∈ A se y(x) = 1, x ∈ B se y(x) = −1.

I parametri w, θ possono essere determinati apartire da un insieme di campioni xp di cui enota la classificazione dp ∈ {−1,1}, risolvendo(se possibile) rispetto a (w, θ) il sistema

(xp)T w − θ ≥ 0, se xp ∈ A,

(xp)Tw − θ < 0, se xp ∈ B.

p = 1, . . . , P.

Ci si puo ricondurre alla soluzione di unsistema di disequazioni lineari in w, θ cheammette soluzione se e solo se

Conv({xp : dp = 1})∩Conv({xp : dp = −1}) = ∅.

7

Insiemi di campioni linearmente separabili.

Il neurone (addestrato sui campioni) definisce

un iperpiano di separazione.

8

Una rete costituita da un singolo strato di neu-roni formali e stata denominata Perceptron(Rosenblatt) (1962) ed e stato proposto unalgoritmo per il calcolo dei pesi, noto come( “Perceptron learning rule” ) che fornisce inun numero finito di iterazioni i parametri w, θse i campioni sono linearmente separabili,aggiustando i pesi in corrispondenza a ciascunesempio.

L’algoritmo e riconducibile a un metodo dirilassamento per la soluzione iterativa disistemi di disequazioni lineari (Agmon(1954),Motzkin - Schoenberg(1954)).La complessita e esponenziale e si puo averenon convergenza se i campioni appartengonoa insiemi non separabili linearmente.

Il problema puo essere risolto in tempo polino-miale utilizzando un metodo interno di pro-grammazione lineare per risolvere un problemadi ammissibilita oppure per minimizzare il mas-simo errore o la somma dei valori assoluti deglierrori.

9

Un’impostazione alternativa e quella di sosti-

tuire la funzione di attivazione sign con una

funzione continuamente differenziabile g di tipo

sigmoidale, ossia una funzione monotona

crescente tale che:

limt→−∞ g(t) = −1, lim

t→∞ g(t) = 1,

come, ad esempio

tanh(t) =et − e−t

et + e−t,

e minimizzare l’errore quadratico.

Gli algoritmi utilizzabili sono casi particolari di

quelli che verranno considerati in seguito.

10

Le limitazioni del Perceptron sono state messein luce da Minsky e Papert (1969), che hannomostrato l’esistenza di semplici problemi di clas-sificazione che non possono essere risolti dalPerceptron. Un esempio noto e il problemadell’OR esclusivo (XOR).

L’effetto del libro di Minsky e Papert e statoquello di far decadere l’interesse iniziale versole reti neurali.Era noto che le limitazioni del perceptron pote-vano essere superate, in linea di principio, col-legando fra loro in modo opportuno dei neu-roni formali o effettuando delle trasformazioninon lineari degli ingressi. Non erano tuttaviadisponibili algoritmi di addestramento per il cal-colo dei parametri.

11

Una rinascita dell’interesse verso le reti neurali

e stata in gran parte determinata dal lavoro di

Rumelhart, Hinton e Williams (1986) che

hanno proposto un algoritmo di addestramento

per reti di neuroni formali, noto come metodo

della backpropagation, essenzialmente basato

sul metodo del gradiente.

Gli sviluppi successivi hanno portato allo sviluppo

di un’area di ricerca interdisciplinare, in cui

sono stati integrati contributi di vari settori.∗In particolare sono stati riscoperti e sviluppati

risultati significativi sulla statistica dell’apprendi-

mento (Vapnik-Chervonenkis) (1971).

∗Tra i (numerosi) libri a carattere introduttivo sisegnalano:

C.Bishop, Neural Networks for Pattern Recognition,Oxford, 1995S.Haykin, Neural Networks, Prentice Hall, 1999

12

Classificazione delle architetture

Due classi principali:

Reti feedforwardReti acicliche strutturate in diversi strati.Si distinguono:

• Reti feedforward a un solo strato:Perceptron;

• Reti feedforward multistratoMultilayer Perceptron (MLP);Reti “Radial Basis Functions” (RBF)(1 solo strato nascosto);

(“Reti di Kolmogorov”)(?).

Reti ricorsiveE presente almeno un ciclo di controreazione(feedback). Molte strutture diverse.Tipicamente dinamiche .

13

Nel seguito si fara riferimento solo a reti

feedforward

14

Apprendimento e generalizzazione

L’apprendimento e il processo mediante il quale

vengono determinati i parametri liberi di una

rete. Due paradigmi fondamentali:

• apprendimento supervisionato:

i parametri della rete vengono determinati,

attraverso un processo di addestramento,

sulla base di un insieme ( training set ) di

esempi, consistenti in coppie {(xp, dp)}(ingresso, uscita desiderata)

• apprendimento non supervisionato

la rete e dotata di capacita di auto-organiz-

zazione ed e in grado di classificare gli in-

gressi attraverso tecniche di clustering

Nel seguito si fara riferimento solo a

problemi di apprendimento supervisionato

15

La capacita di generalizzazione di una rete

addestrata e la capacita di fornire una risposta

corretta a nuovi ingressi (non presentati nella

fase di addestramento).

Lo scopo ultimo dell’addestramento e quello

di costruire un modello del processo

che genera i dati e non di interpolare i dati

di training.

Per una data struttura, la complessita del mo-

dello (numero di parametri liberi) deve essere

posta in relazione con il numero di campioni

disponibili.

Per uno studio teorico della generalizzazione neiprocessi di apprendimento supervisionato cfr.:

H.White, Artificial Neural Networks, Blackwell 1992

N. Vapnik, The Nature of Statistical Learning Theory,Springer 1995

N. Vapnik, Statistical Learning Theory, Wiley 1998

16

Metodi di ottimizzazione per l’addestramento

I problemi di addestramento supervisionato per retifeedforward possono essere ricondotti a problemi diottimizzazione . Sono di interesse:

• metodi di ottimizzazione non vincolata (MLP,RBF)

metodi di tipo batch:(i parametri vengono aggiornati dopo una presentazionedi tutto il training set)– metodi per problemi fortemente nonlineari e

malcondizionati (metodi non monotoni)– metodi per problemi a grande dimensione– metodi di decomposizione– metodi iterativi per problemi di minimi quadrati

metodi incrementali (on-line)(i parametri vengono aggiornati in corrispondenza a ognisingolo pattern del training set)–approssimazione stocastica–filtro di Kalman–metodi ibridi batch-online–metodi di decomposizione dell’errore

• metodi programmazione quadratica (SVM)– metodi interni– metodi di proiezione– metodi di decomposizione

• metodi di ottimizzazione globale

17

Applicazioni delle reti neurali

Applicazioni tipiche delle reti neurali:

• classificazione

– riconoscimento di configurazioni

– elaborazione di immagini

– sistemi di allarme

– diagnostica medica

– problemi di data mining

• approssimazione di funzioni

– modellistica di processi industriali complessi

– progettazione ottima

– analisi di serie temporali

– previsioni finanziarie

• controllo di processi

• Robotica

• controllo ottimo (Zoppoli)

• filtraggio

• calcolo

–euristiche per problemi combinatori

• modellistica del sistema nervoso

18

Reti neurali e Ricerca Operativa

Numeri speciali sulle Reti Neurali su:Computers and Operations Research,The Journal of Intelligent Manufacturing,Decision Support Systems,International Journal of Forecasting,European Journal of Operations Research.

Principali settori di interesse:

Modellistica di problemi di Management

Firm Failure Prediction

Bank Failure Prediction

Investment Analysis

Human Resource Management

Stock Price Prediction

Property Pricing

Student Success

Marketing

Project Management

Decision Making

Exchange Rate Prediction

Portfolio Management...

19

Euristiche neurali per problemi di ottimizzazione

Combinatorial Optimization

Traveling Salesman Problem

Shortest Path Problem

Linear Programming

Mixed Integer Programming

Nonlinear Programming

Vehicle Routing

Multi-Criteria Decision Making

Markov Analysis

Scheduling

Manufacturing

Facility Location

Distance Estimation

Matching

Model Analysis

Process Control

Selection of an OR Technique

Neuro-dynamic Programming (Bertsekas-Tsitslikis)

Metodi di ottimizzazione per l’addestramento

20

21

“Neural network researchers constantly

reinvent the wheel known to statisticians

for decades”

“Neural networks do what every good

“new” theory does: they encompass and

generalise the previous statistical techniques”

22