metodi di ottimizzazione per le reti neurali - dii.unisi.itagnetis/grippo1.pdf · metodi di tipo...
TRANSCRIPT
Metodi di ottimizzazioneper le reti neurali
L. Grippo
DIS, Universita di Roma “La Sapienza”
M. Sciandrone
IASI, Consiglio Nazionale delle Ricerche, Roma
• Generalita sulle reti neurali
• Addestramento di reti multistrato
• Addestramento di reti“Radial Basis”
• Metodi incrementali
1
Generalita sulle reti neurali
• Cos’e una rete neurale?
• Il neurone formale
• Classificazione delle architetture
• Apprendimento e generalizzazione
• Metodi di ottimizzazione per l’addestramento
• Applicazioni delle reti neurali
• Reti neurali e Ricerca Operativa
2
Cos’e una rete neurale?
Da un punto di vista “ fisico ”:una rete neurale e un processore distribuitocostituito dalla interconnessione di unita com-putazionali elementari ( neuroni ) con due carat-teristiche fondamentali:∗
• la “conoscenza” e acquisita dall’ambienteesterno attraverso un processo di“ apprendimento ” o di “ adattamento ”
• la conoscenza e immagazzinata nei parametridella rete e, in particolare, nei “ pesi ”associati alle connessioni.
Il “ connessionismo ” si contrappone alla con-cezione “ logico-simbolica ” tipica dellaIntelligenza Artificiale.†∗cfr. S. Haykin, Neural Networks, Prentice Hall,1999†cfr. D. Parisi, Intervista sulle reti neurali, Il Mulino, 1989
3
Da un punto di vista “ matematico ” ∗ :data una funzione G : X → Y, nota attraversoun insieme di coppie
{(xp, G(xp)) : xp ∈ X, p = 1, . . . , P}una rete neurale e un particolare modello diapprossimazione di G:
F(·, w) : X → Y
dipendente da un vettore di parametri w
(tipicamente nonlineare rispetto ai parametri).
Da un punto di vista “ statistico ”†, una reteneurale e un particolare modello di classifi-cazione o di regressione ( non lineare ).
∗sulla matematica dell’approssimazione “neurale”cfr.:
A.Pinkus, Approximation Theory of the MLP model inNeural Networks,Acta Numerica, 1999, pp. 143-195†per un inquadramento delle reti neurali nell’ambitodei metodi di inferenza statistica cfr.
T.Hastie, R.Tibshirani and J.Friedman, The Elementsof Statistical Learning. Data mining, Inference and Pre-diction, Springer 2001
4
Il neurone formale
Modello semplificato del neurone biologico
proposto da McCulloch e Pitts (1947).
Dispositivo a soglia che ha
• uscita 1 se la somma algebrica pesata degli
ingressi supera un valore di soglia θ,
• uscita -1 altrimenti.
Ossia
y = h
M∑
i=1
wixi − θ
dove:
• y ∈ {−1,1} uscita
• xi ∈ R ingressi (anche xi ∈ {0,1})• wi ∈ R pesi
• θ ∈ R soglia
• h : R → R funzione di attivazione:
h(t) ={
1 t ≥ 0
−1 t < 0.
Il neurone formale puo realizzare le operazioni
logiche NOT, AND, OR.
5
Si puo porre
y(x) = sign(wT x − θ).
Fissati w, θ, il neurone puo essere interpretatocome un classificatore lineare , che assegna ilvettore x alla classe A oppure alla classe B inbase al valore di y(x), ossia, ad es.:
x ∈ A se y(x) = 1, x ∈ B se y(x) = −1.
I parametri w, θ possono essere determinati apartire da un insieme di campioni xp di cui enota la classificazione dp ∈ {−1,1}, risolvendo(se possibile) rispetto a (w, θ) il sistema
(xp)T w − θ ≥ 0, se xp ∈ A,
(xp)Tw − θ < 0, se xp ∈ B.
p = 1, . . . , P.
Ci si puo ricondurre alla soluzione di unsistema di disequazioni lineari in w, θ cheammette soluzione se e solo se
Conv({xp : dp = 1})∩Conv({xp : dp = −1}) = ∅.
7
Insiemi di campioni linearmente separabili.
Il neurone (addestrato sui campioni) definisce
un iperpiano di separazione.
8
Una rete costituita da un singolo strato di neu-roni formali e stata denominata Perceptron(Rosenblatt) (1962) ed e stato proposto unalgoritmo per il calcolo dei pesi, noto come( “Perceptron learning rule” ) che fornisce inun numero finito di iterazioni i parametri w, θse i campioni sono linearmente separabili,aggiustando i pesi in corrispondenza a ciascunesempio.
L’algoritmo e riconducibile a un metodo dirilassamento per la soluzione iterativa disistemi di disequazioni lineari (Agmon(1954),Motzkin - Schoenberg(1954)).La complessita e esponenziale e si puo averenon convergenza se i campioni appartengonoa insiemi non separabili linearmente.
Il problema puo essere risolto in tempo polino-miale utilizzando un metodo interno di pro-grammazione lineare per risolvere un problemadi ammissibilita oppure per minimizzare il mas-simo errore o la somma dei valori assoluti deglierrori.
9
Un’impostazione alternativa e quella di sosti-
tuire la funzione di attivazione sign con una
funzione continuamente differenziabile g di tipo
sigmoidale, ossia una funzione monotona
crescente tale che:
limt→−∞ g(t) = −1, lim
t→∞ g(t) = 1,
come, ad esempio
tanh(t) =et − e−t
et + e−t,
e minimizzare l’errore quadratico.
Gli algoritmi utilizzabili sono casi particolari di
quelli che verranno considerati in seguito.
10
Le limitazioni del Perceptron sono state messein luce da Minsky e Papert (1969), che hannomostrato l’esistenza di semplici problemi di clas-sificazione che non possono essere risolti dalPerceptron. Un esempio noto e il problemadell’OR esclusivo (XOR).
L’effetto del libro di Minsky e Papert e statoquello di far decadere l’interesse iniziale versole reti neurali.Era noto che le limitazioni del perceptron pote-vano essere superate, in linea di principio, col-legando fra loro in modo opportuno dei neu-roni formali o effettuando delle trasformazioninon lineari degli ingressi. Non erano tuttaviadisponibili algoritmi di addestramento per il cal-colo dei parametri.
11
Una rinascita dell’interesse verso le reti neurali
e stata in gran parte determinata dal lavoro di
Rumelhart, Hinton e Williams (1986) che
hanno proposto un algoritmo di addestramento
per reti di neuroni formali, noto come metodo
della backpropagation, essenzialmente basato
sul metodo del gradiente.
Gli sviluppi successivi hanno portato allo sviluppo
di un’area di ricerca interdisciplinare, in cui
sono stati integrati contributi di vari settori.∗In particolare sono stati riscoperti e sviluppati
risultati significativi sulla statistica dell’apprendi-
mento (Vapnik-Chervonenkis) (1971).
∗Tra i (numerosi) libri a carattere introduttivo sisegnalano:
C.Bishop, Neural Networks for Pattern Recognition,Oxford, 1995S.Haykin, Neural Networks, Prentice Hall, 1999
12
Classificazione delle architetture
Due classi principali:
Reti feedforwardReti acicliche strutturate in diversi strati.Si distinguono:
• Reti feedforward a un solo strato:Perceptron;
• Reti feedforward multistratoMultilayer Perceptron (MLP);Reti “Radial Basis Functions” (RBF)(1 solo strato nascosto);
(“Reti di Kolmogorov”)(?).
Reti ricorsiveE presente almeno un ciclo di controreazione(feedback). Molte strutture diverse.Tipicamente dinamiche .
13
Apprendimento e generalizzazione
L’apprendimento e il processo mediante il quale
vengono determinati i parametri liberi di una
rete. Due paradigmi fondamentali:
• apprendimento supervisionato:
i parametri della rete vengono determinati,
attraverso un processo di addestramento,
sulla base di un insieme ( training set ) di
esempi, consistenti in coppie {(xp, dp)}(ingresso, uscita desiderata)
• apprendimento non supervisionato
la rete e dotata di capacita di auto-organiz-
zazione ed e in grado di classificare gli in-
gressi attraverso tecniche di clustering
Nel seguito si fara riferimento solo a
problemi di apprendimento supervisionato
15
La capacita di generalizzazione di una rete
addestrata e la capacita di fornire una risposta
corretta a nuovi ingressi (non presentati nella
fase di addestramento).
Lo scopo ultimo dell’addestramento e quello
di costruire un modello del processo
che genera i dati e non di interpolare i dati
di training.
Per una data struttura, la complessita del mo-
dello (numero di parametri liberi) deve essere
posta in relazione con il numero di campioni
disponibili.
Per uno studio teorico della generalizzazione neiprocessi di apprendimento supervisionato cfr.:
H.White, Artificial Neural Networks, Blackwell 1992
N. Vapnik, The Nature of Statistical Learning Theory,Springer 1995
N. Vapnik, Statistical Learning Theory, Wiley 1998
16
Metodi di ottimizzazione per l’addestramento
I problemi di addestramento supervisionato per retifeedforward possono essere ricondotti a problemi diottimizzazione . Sono di interesse:
• metodi di ottimizzazione non vincolata (MLP,RBF)
metodi di tipo batch:(i parametri vengono aggiornati dopo una presentazionedi tutto il training set)– metodi per problemi fortemente nonlineari e
malcondizionati (metodi non monotoni)– metodi per problemi a grande dimensione– metodi di decomposizione– metodi iterativi per problemi di minimi quadrati
metodi incrementali (on-line)(i parametri vengono aggiornati in corrispondenza a ognisingolo pattern del training set)–approssimazione stocastica–filtro di Kalman–metodi ibridi batch-online–metodi di decomposizione dell’errore
• metodi programmazione quadratica (SVM)– metodi interni– metodi di proiezione– metodi di decomposizione
• metodi di ottimizzazione globale
17
Applicazioni delle reti neurali
Applicazioni tipiche delle reti neurali:
• classificazione
– riconoscimento di configurazioni
– elaborazione di immagini
– sistemi di allarme
– diagnostica medica
– problemi di data mining
• approssimazione di funzioni
– modellistica di processi industriali complessi
– progettazione ottima
– analisi di serie temporali
– previsioni finanziarie
• controllo di processi
• Robotica
• controllo ottimo (Zoppoli)
• filtraggio
• calcolo
–euristiche per problemi combinatori
• modellistica del sistema nervoso
18
Reti neurali e Ricerca Operativa
Numeri speciali sulle Reti Neurali su:Computers and Operations Research,The Journal of Intelligent Manufacturing,Decision Support Systems,International Journal of Forecasting,European Journal of Operations Research.
Principali settori di interesse:
Modellistica di problemi di Management
Firm Failure Prediction
Bank Failure Prediction
Investment Analysis
Human Resource Management
Stock Price Prediction
Property Pricing
Student Success
Marketing
Project Management
Decision Making
Exchange Rate Prediction
Portfolio Management...
19
Euristiche neurali per problemi di ottimizzazione
Combinatorial Optimization
Traveling Salesman Problem
Shortest Path Problem
Linear Programming
Mixed Integer Programming
Nonlinear Programming
Vehicle Routing
Multi-Criteria Decision Making
Markov Analysis
Scheduling
Manufacturing
Facility Location
Distance Estimation
Matching
Model Analysis
Process Control
Selection of an OR Technique
Neuro-dynamic Programming (Bertsekas-Tsitslikis)
Metodi di ottimizzazione per l’addestramento
20