introduzione alle reti neurali artificiali

17
1. IL MONDO SOTTO-SIMBOLICO G li odierni sistemi di elaborazione del- l’informazione hanno compiuto prodigi che sono sotto gli occhi di tutti. Le macchine hanno automatizzato perfettamente pro- cessi considerati tipicamente di pertinenza umana, quali recuperare informazione in un archivio ed eseguire calcoli. Con l’intelligen- za artificiale si sono spinte verso l’automa- zione del ragionamento simbolico, fino ai si- stemi esperti, in grado di modellare e ren- dere fruibile la conoscenza di esperti in spe- cifici settori. Ma nonostante i formidabili ri- sultati conseguiti nell’automazione di alcu- ni processi intelligenti, soprattutto di alto li- vello, le macchine offrono ancora un com- portamento piuttosto primitivo e incompa- rabile con l’uomo nella simulazione della maggioranza dei processi percettivi. La dif- ficoltà di automatizzare tali processi è spes- so trascurata per il fatto che già nel mondo animale sono presenti capacità percettive talvolta straordinarie. Tali capacità, svilup- pate in secoli di processi evolutivi, risultano difficili da replicare usando i modelli di cal- colo simbolico alla base degli attuali elabo- ratori. Si consideri, per esempio, il problema della descrizione dell’informazione presente in un’immagine che richiede la localizzazione e il riconoscimento di oggetti significativi per l’uomo. Tale processo richiede la capacità di segmentazione che, tuttavia, non può aver luogo solo con operazioni di basso livello ba- sate, per esempio, sul rilievo di variazioni di luminosità. La segmentazione in una scena non può prescindere da processi cognitivi in grado di esibire competenza sugli oggetti e, più generalmente, del mondo oggetto dell’e- laborazione. Inoltre, soprattutto nel mondo tridimensionale, gli oggetti si propongono con molteplici viste e, di nuovo, la loro perce- zione, sembra richiedere modelli ben più so- fisticati di semplici comparazioni con oggetti di un dizionario. L’analisi attenta della nozio- ne di similarità di oggetti o quotidiane acqui- sizioni quali, per esempio, “la facciata di una casa” (Figura 1) indicano lo sviluppo di com- petenze che non sono basate su elaborazio- ne simbolica e ragionamenti qualitativi di dif- MONDO DIGITALE • n.4 - dicembre 2003 Nonostante gli straordinari successi dell'elaborazione dell'informazione, che stanno esercitando un impatto di portata storica nella vita quotidiana, competenze percettive quali localizzare un oggetto in una scena, ricono- scere la voce in ordinarie condizioni reali, prendere decisioni basate sul “senso comune”, risultano ancora compiti estremamente difficili per le macchine. Nel seguito, viene presentato un quadro generale dell'elabora- zione neurale: successi, fallimenti e prospettive applicative. Marco Gori INTRODUZIONE ALLE RETI NEURALI ARTIFICIALI 4 3.6

Upload: fausto-intilla

Post on 29-May-2015

2.489 views

Category:

Technology


4 download

DESCRIPTION

Introduzione Alle Reti Neurali Artificiali (Marco Gori)

TRANSCRIPT

Page 1: Introduzione Alle Reti Neurali Artificiali

1. IL MONDO SOTTO-SIMBOLICO

G li odierni sistemi di elaborazione del-l’informazione hanno compiuto prodigi

che sono sotto gli occhi di tutti. Le macchinehanno automatizzato perfettamente pro-cessi considerati tipicamente di pertinenzaumana, quali recuperare informazione in unarchivio ed eseguire calcoli. Con l’intelligen-za artificiale si sono spinte verso l’automa-zione del ragionamento simbolico, fino ai si-stemi esperti, in grado di modellare e ren-dere fruibile la conoscenza di esperti in spe-cifici settori. Ma nonostante i formidabili ri-sultati conseguiti nell’automazione di alcu-ni processi intelligenti, soprattutto di alto li-vello, le macchine offrono ancora un com-portamento piuttosto primitivo e incompa-rabile con l’uomo nella simulazione dellamaggioranza dei processi percettivi. La dif-ficoltà di automatizzare tali processi è spes-so trascurata per il fatto che già nel mondoanimale sono presenti capacità percettivetalvolta straordinarie. Tali capacità, svilup-pate in secoli di processi evolutivi, risultanodifficili da replicare usando i modelli di cal-

colo simbolico alla base degli attuali elabo-ratori.Si consideri, per esempio, il problema delladescrizione dell’informazione presente inun’immagine che richiede la localizzazione eil riconoscimento di oggetti significativi perl’uomo. Tale processo richiede la capacità disegmentazione che, tuttavia, non può averluogo solo con operazioni di basso livello ba-sate, per esempio, sul rilievo di variazioni diluminosità. La segmentazione in una scenanon può prescindere da processi cognitivi ingrado di esibire competenza sugli oggetti e,più generalmente, del mondo oggetto dell’e-laborazione. Inoltre, soprattutto nel mondotridimensionale, gli oggetti si propongonocon molteplici viste e, di nuovo, la loro perce-zione, sembra richiedere modelli ben più so-fisticati di semplici comparazioni con oggettidi un dizionario. L’analisi attenta della nozio-ne di similarità di oggetti o quotidiane acqui-sizioni quali, per esempio, “la facciata di unacasa” (Figura 1) indicano lo sviluppo di com-petenze che non sono basate su elaborazio-ne simbolica e ragionamenti qualitativi di dif-

M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3

Nonostante gli straordinari successi dell'elaborazione dell'informazione,

che stanno esercitando un impatto di portata storica nella vita quotidiana,

competenze percettive quali localizzare un oggetto in una scena, ricono-

scere la voce in ordinarie condizioni reali, prendere decisioni basate sul

“senso comune”, risultano ancora compiti estremamente difficili per le

macchine. Nel seguito, viene presentato un quadro generale dell'elabora-

zione neurale: successi, fallimenti e prospettive applicative.

Marco Gori

INTRODUZIONE ALLE RETINEURALI ARTIFICIALI

4

3.6

Page 2: Introduzione Alle Reti Neurali Artificiali

ficile formalizzazione. L’esempio indicato infigura 1 illustra, inoltre, un livello di sofistica-zione dell’analisi umana delle scene che ri-sulta molto difficile da trasferire alle macchi-ne: con uno sguardo attento si riconosce fa-cilmente che le case nella scena sono, inrealtà, miniature. La foto ritrae un paesaggiodi un piccolo paese della montagna pistoiesein occasione del Natale, ma discernere ilmondo artificiale miniaturizzato dal mondoreale è un compito realmente arduo per lemacchine. Il problema del riconoscimentoautomatico della voce offre difficoltà simili. Ilsegnale vocale rappresentato in figura 2, as-sieme al suo spettrogramma, illustra alcuniaspetti della difficoltà del problema. Si pre-senta di nuovo il problema della segmenta-zione; anche in questo caso non si può fareaffidamento su elementari elaborazioni dibasso livello del segnale, quale per esempioil controllo del livello per separare le parole.Infatti, basta per esempio la presenza di oc-clusive sorde all’interno di una parola per ilfallimento della segmentazione; la parolacompute (si veda, a tal proposito, il segnalecorrispondente a una sua pronuncia in figura2) verrebbe, infatti, spezzata in due parti perla presenza dell’occlusiva sorda “p”. Per viadell’enorme variabilità dovuta alla velocità dipronuncia, alla prosodia, al parlatore e a va-rie altre condizioni di rumore, le parole, inol-tre, non sono facilmente rappresentabili me-diante un dizionario di centroidi, ovvero di“istanze medie” di riferimento delle paroledel dizionario.I problemi menzionati si presentano ormai inmolteplici applicazioni nelle quali l’elabora-zione di informazione multimediale assumeun ruolo sempre più rilevante. Si pensi, peresempio, alla navigazione autonoma di unrobot, ai data base visuali, alla definizione diinterfacce personalizzate, alla gestione di im-magini di documenti, alla concezione di mo-delli per l’estrazione di informazione dalweb. I problemi menzionati, assieme ad altri,hanno in comune il fatto che non sembranonaturalmente affrontabili mediante soluzionibasate su elaborazione simbolica. L’informa-zione da elaborare si presenta con una codifi-ca a cui non è semplice attaccare significato.Il prodigio della scienza dei calcolatori pro-viene tipicamente dalla conoscenza del si-

gnificato degli ingressi e dalla loro conse-guente elaborazione mediante algoritmi.Non è, tuttavia, sempre possibile, o comun-que verosimile, associare agli ingressi un si-gnificato e una conseguente caratterizzazio-ne simbolica1. Serve, dunque, dotare i calco-latori di processi computazionali che non sia-no necessariamente basati sulla metaforadell’algoritmo, secondo cui la soluzione di unproblema avviene mediante un processo co-struttivo atto ad esplicitare, simbolicamente,le elaborazioni sugli ingressi caratterizzatisimbolicamente. Per alcuni problemi, questoapproccio non appare naturale e risulta didifficile, se non impossibile, formalizzazione.

M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3

1

5

0

0

0

1

FIGURA 2Segnalee spettrogrammarelativo allapronuncia del verbo“to compute"

FIGURA 1Un paesaggio della montagna pistoiese durante il Natale

Segmentazione spuria

Compute

0.0a 0.1a 0.2a 0.3a 0.5a 0.6a 0.7a0.4a

p

1 Nelle scienze cognitive questo problema è notocome the symbol ground problem.

Page 3: Introduzione Alle Reti Neurali Artificiali

2. LA METAFORANEUROBIOLOGICA

Allo stato attuale, a differenza delle macchine,l’uomo è un ottimo esempio di “sistema” ingrado di elaborare informazione sotto-simbo-liche. Tali elaborazioni, come ogni altro pro-cesso cognitivo, hanno sede nel cervello, unacomplessa struttura neurobiologica, attual-mente decifrata in modo piuttosto accuratoper quanto riguarda gli aspetti anatomici. Ènoto che c’è un “mattone elementare” che ca-ratterizza tutte le strutture cerebrali, una cel-lula, denominata neurone, che è sede di pro-cessi elettrochimici responsabili per la gene-razione di campi elettromagnetici. Come è il-lustrato in figura 3, i neuroni sono composti

da un corpo detto soma e da due tipi di dira-mazioni: i dentriti e il cilindrasse o assone.Nel cervello umano sono presenti tipica-mente oltre 100 miliardi di neuroni, ciascu-no interconnesso a circa altri 10.000. Nelleinterconnessioni ha luogo la sinapsi, unprocesso elettrochimico atto a rinforzare oinibire l’interazione cellulare. I segnali rile-vabili hanno un potenziale dell’ordine di al-cune decine di millVolt e si presentano co-me treni di impulsi con frequenza intorno ai100 Hz, con opportune modulazioni. Sononoti modelli sofisticati che esprimono il po-tenziale della cella (attivazione) in funzionedel potenziale delle celle interconnesse. Èopinione condivisa da ricercatori nel mondodelle scienze cognitive che i segnali elettricipresenti nei neuroni siano alla base dell’ela-borazione dell’informazione a livello cere-brale. Le capacità cognitive sarebbero, dun-que, in relazione all’elaborazione dei segna-li presenti nei neuroni. Inoltre, c’è evidenzasperimentale per sostenere che la strutturacerebrale e le sinapsi siano influenzate dal-la vita degli individui, dalle loro esperienze,dall’apprendimento di compiti specifici. È ilparticolare pattern di interconnessioni e laforza delle connessioni sinaptiche che defi-nisce le proprietà funzionali di una partico-lare porzione del cervello. Si è, infatti, verifi-cato sperimentalmente che le funzioni co-gnitive risiedono in particolari zone e chetali funzioni possono essere perdute a se-guito della “rottura” dei legami sinaptici ed

M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3

1

0

0

0

1

6

FIGURA 3Neurone e sua struttura cellulare con soma, dentriti e connessioni sinaptiche

FIGURA 4Organizzazione del

cervello umano esua localizzazione

funzionale [13]

SomaAssone

Sinapsi

Dentriti

Areaprefrontale

Area premotoria

Corteccia uditivaprimaria

Corteccia motoriaprimaria

Solco centrale

Area del gusto

Corteccia primariasomoestetica

Area di associazionesomoestetica

Area di associazioneuditiva

Area motoria della parola(area di Broca)

Area di associazionevisiva

Corteccia visiva

Area sensoriale della parola(area di Wernicke)

Page 4: Introduzione Alle Reti Neurali Artificiali

eventualmente recuperate, almeno in parte,con successivi processi di apprendimentoatti a instaurare nuovi pattern di intercon-nessione sinaptica (Figura 4).Dato che la struttura cerebrale e il compor-tamento elettromagnetico delle singolecelle neuronali sono noti, i ricercatori si so-no ben preso chiesti se si possono operareinduzioni sui comportamenti collettivi del-le cellule neuronali, e dunque del cervelloumano, e se si possono trarre utili suggeri-menti e ispirazioni per la costruzione dimacchine in grado di replicare compiti con-notati da una forte componente di elabora-zione sotto-simbolica, attualmente di diffi-cile soluzione per i calcolatori. Il lavoro diMcCulloch & Pitts [8] è forse il primo signi-ficativo passo in questa direzione, la primaanalisi completa, soprattutto dal punto divista formale, che fa intuire come sempliciunità con sinapsi eccitatorie e inibitorie econ apposita soglia siano in grado, in virtùdi un processo collettivo, di rappresentarecomplesse proposizioni. E questo sembraindurli a un certo ottimismo anche per lepossibili implicazioni sulla comprensionedei processi cognitivi umani: “Mind no lon-

ger goes more ghostly than a ghost”. Tut-tavia il lavoro di McCulluch e Pitt sembraessere stato più rilevante per gli sviluppinel settore dei calcolatori che non dellescienze cognitive. Carpire i segreti dellamente dall’osservazione dell’attivazionecerebrale è una sfida affascinante, ma que-sto problema di reverse engineering sem-bra essere terribilmente intrappolato nellacomplessità del sistema neuronale umano.Si tratta sostanzialmente di indurre regola-rità e leggi dall’osservazione, come in altrisettori delle scienze. Questo problemapossiede, tuttavia, un’infinità di sfaccetta-ture e, soprattutto, richiede un processo diinduzione che sembra inerentemente in-trappolato nella complessità dei sistemi di-namici oggetto dello studio. Inferire regoledagli esempi sembra essere difficile anchein casi elementari; si pensi, a titolo diesempio, al problema dell’inferenza indut-tiva di grammatiche, che consiste nel de-terminare la grammatica che genera un lin-guaggio presentato mediante esempi.Sfortunatamente, questo problema è in-

trattabile perfino in caso di semplici gram-matiche [3].Era, tuttavia, ben chiaro ai padri dell’informa-tica che non è necessaria una perfetta emula-zione dei processi neurobiologici per l’emer-genza di capacità cognitive. Molti modelliconnessionistici sono, infatti, solo ispirati dalparadigma biologico a livello di unità neuro-nale e si basano sulla struttura indicata in fi-gura 3, dove si eredita il principio che l’attiva-zione neuronale (potenziale associato all’u-nità) è soggetta a eccitazioni e inibizioni dal-le unità connesse. In particolare, l’attivazio-ne dell’unità i dipende dall’attivazione dellagenerica unità j mediante un parametro as-sociato alla connessione tra le due unità, chemodella il principio elettrochimico della sina-psi. In seguito, sarà illustrato come l’utilizzodi modelli di calcolo basati su reti neurali ar-tificiali sia in grado di esibire quello che LotfiZadeh ha definito softcomputing secondocui il requisito “trova sempre la soluzioneesatta” diventa “trova spesso una soluzioneapprossimata”.La ricerca sulle reti neurali artificiali si è evo-luta attraverso alterne vicende. Sin dagli al-bori dell’informatica, l’elaborazione basatasu algoritmi e i modelli neurali centrati sul-l’apprendimento da esempi si sono sviluppa-ti in parallelo. Verso la fine degli anni ’60,Marvin Minsky e Simon Paper [10] pubblica-no “Perceptrons”, un libro che analizza congrande lucidità ed elegante formalizzazionele capacità computazionali del percettrone diRosenblatt. La comunità scientifica recepisceprincipalmente l’analisi critica del percettro-ne e segue una fase di stagnazione che siprotrae fino agli inizi degli anni ’80. L’interes-se rifiorisce, in particolare, per i lavori di Hop-field e del Parallel Distributed Research Cen-

ter sulle reti neurali multistrato con l’algorit-mo di apprendimento Backpropagation. Al-tre tappe importanti della ricerca nel settoresono riassunte nella tabella 1.

3. ARCHITETTURE NEURALI

Le neuroscienze hanno permesso di stabili-re che la struttura cerebrale è caratterizzatadalla presenza di cellule neuronali con com-portamenti vari e, soprattutto, da pattern diinterconnessioni neuronali diversi a secon-

M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3

1

7

0

0

0

1

Page 5: Introduzione Alle Reti Neurali Artificiali

do del compito cognitivo. Per i modelli artifi-ciali è stata seguita una metafora simile: so-no stati studiati diversi tipi di neuroni e di-verse architetture associandovi le modalitàdi elaborazione concepite per implementa-re un determinato compito cognitivo. In fi-gura 5 sono illustrati i due tipici neuroni ar-tificiali che risultano, attualmente, i più in-teressanti dal punto di vista applicativo. Ilprimo, denominato neurone sigmoidale, èl’evoluzione del percettrone di Rosenblatt[11], in cui il processo di decisione ha luogomediante una funzione a gradino, invece,della funzione sigmoidale illustrata. Questineuroni si eccitano per punti che sono si-tuati sopra il piano di separazione, dove siannulla l’attivazione, e si inibiscono perpunti situati al di sotto. Le unità del secondotipo si eccitano per punti contigui al centro(wia; wib; wic) e si inibiscono quando ci si al-lontana, con una velocità commisurata alparametro radiale σi.È interessante notare che nei neuroni biolo-gici l’attivazione ha la tipica forma di “untreno” di impulsi. La dipendenza dalle con-nessioni sinaptiche illustrata in figura 5 ha

effettivamente una genesi biologica, mal’attivazione deve interpretarsi come la fre-quenza di treni di impulsi più che come unvalore assoluto di potenziale. Sono stati an-che studiati modelli formali, denominatispiking neurons che producono, a differen-za dei due precedenti tipi di neuroni, treni diimpulsi come i neuroni biologici. Gli studisulle aggregazioni di tali neuroni e sui mo-delli di apprendimento costituiscono un in-teressante settore di ricerca che, tuttavia,non ha, ad oggi, prodotto risultati applicati-vi paragonabili a quelli conseguiti con i mo-delli semplificati in figura 5.

3.1. I percettroniI singoli neuroni descritti in precedenza pos-sono essere utilizzati per il calcolo di sempli-ci predicati, ma non possono certamentesoddisfare molte significative esigenze reali. Per esempio, è immediato verificare che ineuroni sigmoidali non possono calcolaretutte le funzioni booleane di due variabili. Inparticolare, le funzioni x1 ⊗ x2 e –––––

x1 ⊗ x2 nonsono linearmente separabili, mentre, come èillustrato in figura 6 A, lo sono tutte le 14 altre

M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3

1

0

0

0

1

8

I era Eventi significativi

1943 McCulloch and Pitts, formalizzazione del neurone artificiale [8]

1949 D. Hebb e l’apprendimento per auto-organizzazione [6]

1956 “Dartmouth Summer Research Project on AI” con (Minsky, McCarty,Rochester, Shannon)

1960 Widrow: ADALINE [14]

1962 Il perceptron di Rosenblatt [11]

1969 “Perceptrons”, Minsky & Papert (edizione espansa [10])

70s Periodo “buio”: degni di nota gli associatori di Anderson, i modelli perapprendimento senza supervisione di Kohonen, gli studi di Grossberg

II era Eventi significativi

1982 Reti di Hopfield: memorie associative e soluzione di problemi [7]

1986 PDP e diffusione di Backpropagation [12]

1987 La prima conferenza significativa dell'IEEE a San Diego (II era)

1989 I chip neurali si affacciano sul mercato: Analog VLSI and Neural Systems [9]

1990 J. Pollack e le reti neurali che elaborano strutture dati

1994 Prima Conferenza Mondiale sull’Intelligenza Computazionale (Orlando)

1994 Nasce il progetto NeuroCOLT (Computational Learning Theory)

2001 L’IEEE approva la creazione della “Neural Networks Society”

TABELLA 1Alcuni eventi

significativi chehanno marcato la

storia delle retineurali artificiali

Page 6: Introduzione Alle Reti Neurali Artificiali

rimanenti. Più complesso è stabilire il com-portamento del neurone di Rosenblatt nelcaso di interessanti compiti cognitivi, quali ilriconoscimento di forme.Nella figura 6 B l’immagine è pre-elaboratamediante l’operatore di pre-processing Φ(x)che fornisce feature significative. Tale condi-zione impone, ovviamente, che il dominiodell’operatore sia limitato in modo da stabili-re feature locali presenti nell’immagine indi-pendentemente da traslazioni e rotazioni. In-dipendentemente dalla scelta dell’operato-re, Minsky & Papert [10] hanno dimostratoche alcuni predicati topologici importanti,quali stabilire la connessione di una figura,non possono essere calcolati. Nella secondametà degli anni ’80, grazie soprattutto aglistudi del Parallel Distributed Processing re-

search group, sono state studiate, in modosistematico, architetture neurali con architet-tura a grafo aciclico, in cui è definito un ordi-namento parziale sui vertici. In tali architet-ture, un neurone può avere per genitori siaunità che ingressi (per esempio, il nodo 4, inFigura 7 A). Lo schema di calcolo si basa sulla“propagazione in avanti” delle attivazioni deineuroni seguendo l’ordinamento parziale delgrafo aciclico.Per reti multi-strato lo schema di calcolo si ri-duce a una pipe sui livelli. Tali architettureerano, in realtà, già state concepite agli inizi

M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3

1

9

0

0

0

1

FIGURA 5Due classici esempidi neuroni artificiali

xi xii i

l

l

– – –

bi

ai ai

σi

xa

x

x

x x

xb xc xa xb xc

wia wib wic wia wib wic

A B

FIGURA 6Due esempi delle limitazioni del percettrone. A Funzioni booleane a due variabili;B Un percettrone con il compito di stabilire se la figura elaborata è connessa

0 1 0 1 0 1 0 1

1 1 1 1

1 1 1 1

1 1 1 1

1 1 1 1

0 1 0 1 0 1 0 1

0 1 0 1 0 1 0 1

0 1 0 1 0 1 0 1

xφ (x)

A

B

Page 7: Introduzione Alle Reti Neurali Artificiali

degli anni ’60 e non differiscono sostanzial-mente dallo schema illustrato in figura 6 B.Tuttavia, in quegli anni, si faceva riferimentoa una sola unità neuronale in cui aveva luogol’apprendimento e le altre unità erano sem-plicemente il risultato di una pre-elaborazio-ne definita in modo esplicito, senza appren-dimento. Nelle reti neurali di figura 7 le unitàsono tutte uguali e sia la precedente elabora-zione in avanti che l’apprendimento hannoluogo in modo omogeneo sui neuroni.È stato dimostrato che le reti neurali feed-for-

word hanno un potere computazionale uni-versale, ovvero sono in grado di calcolareogni funzione di ragionevole interesse prati-

co con un numero sufficientemente grande dineuroni. Purtroppo, non sono disponibiliconcrete indicazioni di progetto, ma la pro-prietà di computazione universale può esse-re facilmente compresa almeno in due casinotevoli.1. Funzioni booleane

È facile rendersi conto che le reti feedforwardpossono realizzare ogni funzione booleana.Infatti, ogni funzione booleana si può espri-mere in prima forma canonica. A titolo diesempio, in figura 8 è illustrata la realizzazio-ne della funzione XOR.2. Funzioni di appartenenza

Una funzioni di appartenenza è tale che fU(u) =1 se e solo se u ∈ U [fU(u) = 0 ⇔ u ∈ U].Per domini convessi (Figura 9) l’uscita si puòdeterminare come AND di opportuni neuronidello strato nascosto. Per domini non con-nessi (Figura 10) e/o concavi l’uscita si puòdeterminare come l’OR di opportune unitànascoste (3 strati - eccetto l’ingresso). Si notiche questo metodo si basa su un processocostruttivo e che, dunque, non si può conclu-dere che servono necessariamente due strati

M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3

1

0

0

0

1

10

FIGURA 7A Rete feedforward con struttura a grafo aciclico. B Rete multistrato

x4 = σ (w43 x34+ w42 x2 + w4c xc)

7

5

21

3

6

a b c

Calcolo a “pipe”

A B

FIGURA 8Realizzazione mediante percettrone multistrato della funzione booleana XOR

5 x5

x4

x4

x3

x3

u1

u1

u2

u2

3

3

4

4

1

1 1

11

2

FIGURA 9Tre unità nascoste che originano i tre iperpianinecessari per definire il dominio convesso

3

3

4

4

6

5

5

1 2

Page 8: Introduzione Alle Reti Neurali Artificiali

nascosti per il calcolo di tali funzioni di ap-partenenza. Simili elaborazioni si possonoeseguire anche usando neuroni a simmetriaradiale di figura 5 B.

3.2 Reti neurali ricorsiveLe architetture neurali descritte in prece-denza presuppongono schemi di “calcolo inavanti”, basati su un ordinamento delleunità. Come per le funzioni booleane, la pre-senza di cicli conduce a elaborazioni piùcomplesse che coinvolgono sequenze e nonsingoli pattern. Una tipica situazione in cuirisulta naturale un’elaborazione sequenzia-le è quella del riconoscimento di fonemi illu-strata in figura 11.L’elaborazione è sincronizzata in corrispon-denza a ogni frame. I neuroni sono ancora deltipo illustrato in figura 5, ma oltre agli ingres-si provenienti dal frame corrente, ai neuronidello strato nascosto afferiscono anche co-me ingresso il valore delle uscite relative alframe precedente.Le reti neurali ricorsive presentano stretteconnessioni con gli automi, ma il calcolo cheha luogo nelle unità neuronali ha natura con-tinua e non discreta. In virtù di tale natura, lereti neurali ricorsive presentano anche una

M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3

1

11

0

0

0

1

FIGURA 11A Architettura di una generica rete ricorsiva. B Una rete neurale ricorsiva

FIGURA 10Domini nonconnessi possonoessere ottenuti, peresempio, con duestrati nascosti

11

11

10

10

8

8

9

9

3

3

3

4

4

4

5

5

5

u1

T1

T1

u1

u1

u2

u1 u2

u2

T2

T2

u2

6 6

6

7

7

7

3 4 5 6 7

Stato

Ritardo

Tempo

Frequenza

Rete multistrato

Rete multistrato

A

B

Page 9: Introduzione Alle Reti Neurali Artificiali

forte connessione con i sistemi dinamici li-neari, anche se la loro struttura dinamica èorientata a processi decisionali.Le reti ricorsive non elaborano solo sequenzema, direttamente, anche grafi i cui nodi con-tengono un vettore di numeri reali. Si potreb-be sempre ricondurre l’elaborazione di strut-ture a quella di opportune sequenze. Tutta-via, rappresentando un grafo come una se-quenza si nascondono caratteristiche discri-minanti per l’apprendimento. Inoltre, si puòmostrare che la riduzione a lunghe sequenzederivante dalla codifica di strutture a grafo instringhe rende il problema dell’apprendi-mento da esempi più costoso. L’elaborazio-ne su grafi ha luogo estendendo il concettodi calcolo dello stato in un automa a stati fini-ti dal caso di sequenze a quello di alberi e,più generalmente, di grafi aciclici ordinati [5].Per le architetture illustrate l’aggiornamen-to dello stato avviene in modo sincrono ri-spetto all’alimentazione di un nuovo ingres-so della sequenza o della struttura dati. Lastruttura di una rete neurale ricorsiva può,tuttavia, operare anche elaborazioni se-quenziali, mediante aggiornamento dellostato, di ingressi tenuti fissi. L’esempio piùclassico è quello delle reti di Hopfield, illu-strate in figura 12. Si noti che l’uscita di ognineurone è connessa a tutti gli altri e che nonc’è connessione locale. Nell’esempio illu-

strato in figura un’immagine, che raffiguraun pattern corrotto da rumore, viene pre-sentata in ingresso alla rete ricorsiva. L’in-gresso è costituito dai pixel dell’immagineo, più in generale, da una forma de-campio-nata a risoluzione più bassa dell’originale.Con opportune scelte dei pesi delle connes-sioni2, mantenendo l’ingresso costante, larete ricorsiva procede ad aggiornamentidelle attivazioni dei neuroni finché, dopouna fase di rilassamento, raggiunge un pun-to di equilibrio. Com’è illustrato in figura, ilpunto di equilibrio corrisponde all’immagi-ne filtrata dal rumore. In pratica, una rete diHopfield con N ingressi, permette in modoaffidabile di memorizzare un numero di pat-tern intorno a 0, 15N e può, pertanto, essereutilizzata come memoria associativa.

4. APPRENDIMENTO DA ESEMPI

Nelle reti neurali artificiali, le architetture il-lustrate nel paragrafo precedente, assiemeai corrispondenti schemi computazionali,sono di scarso interesse senza il paradigmacentrale dell’apprendimento, che viene ispi-rato a corrispondente paradigma neurobi-liogico. Apprendere in una rete neurale arti-ficiale corrisponde a modificare il valore deipesi delle connessioni sinaptiche. Tale pro-cesso è influenzato dagli esempi che con-corrono a sviluppare concetti. I dati e l’inte-razione con l’ambiente concorrono con di-versi protocolli allo sviluppo di competenzecognitive. In particolare, si individuano trediverse modalità di apprendimento a secon-da del ruolo esercitato dal supervisore delconcetto: l’apprendimento con supervisio-ne, l’apprendimento con rinforzo e l’appren-dimento senza supervisione.

4.1. Protocolli di apprendimentoNell’apprendimento con supervisione e conrinforzo, la rete neurale deve sviluppare unconcetto sulla base delle interazioni con unsupervisore, che provvede a istruire la rete,fornendo informazioni sul concetto.Si consideri, per esempio, il problema della

M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3

1

0

0

0

1

12

2 In particolare, la matrice delle connessioni è sim-metrica.

FIGURA 12Rete di Hopfield utilizzata come memoria associativa per filtrare il rumore

Page 10: Introduzione Alle Reti Neurali Artificiali

classificazione di insetti illustrato in figura13. La rete neurale esibisce la sua classifica-zione e interagisce con il supervisore chepuò fornire un’informazione completa o par-ziale sul concetto. Quando l’informazione èparziale si parla di “apprendimento conrinforzo”; tale informazione deve essere uti-lizzata nell’apprendimento per rinforzarecomportamenti corretti e penalizzare quelliche originano errori.Nell’“apprendimento con supervisione”, in-vece, il supervisore fornisce l’informazionecompleta sul concetto, definendo, in questocaso, esattamente la classe di appartenenza.L’apprendimento di un concetto non richiedenecessariamente l’interazione con un super-visore e può aver luogo anche medianteun’auto-organizzazione degli esempi. Ap-prendere senza supervisione significa aggre-gare esempi simili in regioni neuronali topo-logicamente vicine. In figura 14 è illustratal’auto-organizzazione di esempi di classi di-verse e l’eccitazione dei neuroni spazialmen-te correlati al concetto. Mentre per i due pre-cedenti protocolli di apprendimento la varia-zione delle connessioni sinaptiche avvienecercando di ottimizzare l’errore rispetto al-l’informazione fornita dal supervisore: inquesto caso, l’apprendimento è guidato dacriteri di “similarità” nei dati.In generale, i tre protocolli di apprendimentodescritti sono formulabili come ottimizzazio-ne di una funzione dei pesi della rete neurale.Nel caso dell’apprendimento con rinforzo edell’apprendimento con supervisione, perrendere il comportamento della rete neuraleconforme alla supervisione occorre minimiz-zare una funzione di errore che dipende dallascelta dei pesi e misura l’errore rispetto alleinformazioni del supervisore. Nel caso del-l’apprendimento senza supervisione, l’auto-organizzazione per similarità dei dati può an-cora, generalmente, formularsi come l’otti-mizzazione di una funzione di armonia. Il pro-blema di ottimizzare funzioni in grossi spazi ègeneralmente difficile per la potenziale pre-senza di minimi locali, che può rendere ineffi-caci le classiche euristiche di ottimizzazionebasate sulla tecnica di massima discesa delgradiente.Il corretto funzionamento di una neurale sul-l’insieme di apprendimento non offre, ovvia-

mente, garanzia di un altrettanto soddisfa-cente funzionamento su altri dati relativi allostesso concetto, ma non utilizzati nella fasedi apprendimento (insieme di test). Inoltre, èevidente che l’architettura della rete neuralegioca un ruolo fondamentale per l’efficienzadella fase di apprendimento. Si consideri, adesempio, il caso delle reti feedforward e il lo-ro comportamento al variare del numero del-le unità nascoste. In virtù della loro capacitàuniversale di approssimazione, tali reti pos-sono calcolare ogni concetto. Quando il nu-mero delle unità nascoste cresce, non soloaumenta il potere computazionale, ma sipuò dimostrare che il problema della pre-senza dei minimi locali diventa progressiva-mente meno rilevante. Tuttavia, al crescere

M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3

1

13

0

0

0

1

FIGURA 13Il paradigma di apprendimento con supervisione e con rinforzo

FIGURA 14Apprendimentosenza supervisione

Mosca

Ragno

Zanzara

Altro

Sbagliato!

È un ragno!!!

Page 11: Introduzione Alle Reti Neurali Artificiali

della dimensione della rete la capacità di ge-neralizzare su nuovi esempi tende a diminui-re dato che il fitting sull’insieme di apprendi-mento ha luogo in un enorme spazio di para-metri vincolati solo da pochi esempi. Questoorigina una sorta di principio di indetermina-zione dell’apprendimento secondo il qualenon è possibile al variare dei pesi della reteneurale ottenere funzioni di errore senza mi-nimi locali ed eccellente generalizzazioneper nuovi esempi.

4.2. Algoritmi di apprendimentoLa formulazione dell’apprendimento comeottimizzazione della funzione errore rispettoalla supervisione permette di attingere all’e-norme letteratura di analisi numerica per laricerca degli algoritmi più opportuni. Tutta-via, dato che in pratica si opera con reti neu-rali che possono raggiungere centinaia di mi-gliaia di variabili3, si restringe di solito l’at-tenzione all’uso dell’euristica di massima di-scesa del gradiente che, essendo una tecnicadel primo ordine permette di limitare spazioe tempo di calcolo. Algoritmi di apprendi-mento direttamente basati su tecniche itera-tive, come il gradiente, prendono il nome dialgoritmi di tipo batch. In tali algoritmi, la va-riazione dei pesi avviene solo dopo aver ela-borato tutti gli esempi dell’insieme di ap-prendimento. Si possono, però, concepire al-goritmi nei quali i pesi sono aggiornati in cor-rispondenza della presentazione di ogniesempio (algoritmi di tipo on-line).L’entità di variazione dei pesi in corrispon-denza degli esempi può condurre, in questocaso, a enfatizzare il comportamento corret-to sugli “ultimi” esempi presentati, dimenti-cando i vecchi esempi su cui la rete aveva ap-preso. È evidente che tale entità deve ancheessere commisurata alla numerosità dell’in-sieme di apprendimento. Un aspetto partico-larmente rilevante degli algoritmi di appren-dimento, che è talvolta sottovalutato, è costi-tuito dalle proprietà di località spaziale etemporale che sono tipicamente gradite per

motivi di efficienza computazionale. Si richie-de, in sostanza, che lo schema di aggiorna-mento dei pesi preveda, per ogni neurone,l’uso di informazione disponibile per mezzodelle sole unità che sono direttamente colle-gate (località spaziale) e che tale informazio-ne sia riferita solo all’istante di tempo prece-dente (località temporale).Per reti ricorsive con architettura generica ri-sulta difficile concepire schemi di apprendi-mento in grado di coniugare entrambe que-ste proprietà, mentre questo è possibile perarchitetture speciali, quali ad esempio quelladi figura 11 B, in cui le connessioni che produ-cono la ricorsività sono solo locali ai neuroni.Nei protocolli di apprendimento, considera-ti fino a questo punto, si è assunto che l’ap-prendimento consiste solo nella variazionedei pesi e che questo ha luogo a partire dauna rete neurale con architettura predefini-ta. Il principio di indeterminazione, prece-dentemente menzionato, suggerisce, tutta-via, che la definizione stessa dell’architettu-ra possa ragionevolmente costituire ogget-to del processo di apprendimento. Tale as-sunzione, che ha solide basi neurobiologi-che, conduce dunque allo studio di algorit-mi atti creare e cancellare connessioni si-naptiche oltre che a variarne il peso corri-spondente. Sono stati concepiti algoritmi digrowing e di pruning delle connessioni ba-sati tipicamente sul principio della sensibi-lità dei pesi rispetto al comportamento del-la rete. Sono stati anche proposti algoritmigenetici per sviluppare l’architettura ade-guata a un certo “task”. Infine, la supervi-sione può essere fornita in modo più sofisti-cato mediante uno schema di insegnamen-to, che mira a presentare il desiderato tar-get in modo progressivo.

5. PROBLEM SOLVING

L’architettura ricorsiva della rete di Hopfielddescritta nel paragrafo 3 è stata oggetto dimolti studi non soltanto per le sue proprietàdi memoria associativa, ma anche perchében si presta alla soluzione di molti interes-santi problemi di soddisfacimento di vincoli,che hanno spesso natura combinatoriale. Perillustrare questa interessante proprietà siconsideri il classico problema di scacchi di al-

M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3

1

0

0

0

1

14

3 In alcuni esperimenti di riconoscimento vocale,nel gruppo di ricerca di Herve Bourlard (IDIAP,Svizzera) sono state utilizzate reti neurali con cir-ca un milione di pesi.

Page 12: Introduzione Alle Reti Neurali Artificiali

locare 8 regine su una scacchiera in configu-razione di non attacco, ovvero in modo taleche non si mangino4 (Figura 15).Questo è un problema di soddisfacimentodi vincoli. Occorre, infatti, che, per ogni re-gina, non siano presenti regine sulla stessariga, la stessa colonna e le due diagonali.La soluzione del problema si ottiene me-diante una rete ricorsiva con un numero dineuroni pari al numero di caselle dellascacchiera. L’eccitazione di un neurone cor-risponde alla presenza della regina sullacasella, l’inibizione corrisponde, invece, al-la casella vuota. Per risolvere il problemaoccorre tradurre i vincoli del problema incorrispondenti vincoli sul valore delle atti-vazioni dei 64 neuroni. Le connessioni dellarete neurale, solo inibitorie, si costruisconoassociando a ogni neurone un peso negati-vo proveniente dai neuroni associati allecaselle che si trovano sulla stessa riga, sul-la stessa colonna e sulle stesse due diago-nali cui appartiene la casella associata alneurone in oggetto. Non ci sono, dunque,auto-connessioni e, inoltre, la matrice deipesi è simmetrica; se l’unità i è connessaall’unità j da un peso wij allora vale anche ilviceversa, cioè wji = wij. Si noti che a diffe-renza del caso in cui la rete di Hopfield ope-ra da memoria associativa, in questo casonon ci sono ingressi collegati e che la codi-fica del problema è tradotta nel pattern diinterconnessioni. Si può dimostrare checon un simile insieme di collegamenti, par-tendo da una qualunque configurazioneiniziale, la dinamica della rete neurale evol-ve verso un punto stabile in cui la soluzionerappresenta configurazioni con regine inposizione di “non attacco”. Tuttavia, par-tendo da una configurazione casuale, l’evo-luzione della dinamica della rete non ga-rantisce che tutte le 8 regine siano piazzatesulla scacchiera. Si può anche dimostrareche l’evoluzione della dinamica corrispon-de alla minimizzazione di una funzioneenergia e che i suoi minimi globali corri-

spondono a soluzioni del problema. Comenel caso dell’apprendimento tuttavia, lafunzione può essere popolata da minimi lo-cali, offrendo pertanto soluzioni spurie. Lasoluzione sommariamente illustrata per ilproblema delle 8 regine può essere estesacon metodologie generali per risolvere ge-nerici problemi di soddisfacimento di vin-coli, tipicamente molto complessi dal pun-to di vista computazionale quali, per esem-pio, il problema del commesso viaggiatoree il knapsack. Le soluzioni offerte da que-sto approccio sono estremamente efficientioltre a permettere una computazione paral-lela per ogni passo del processo dinamico.Il problema fondamentale, tuttavia, è che,come per l’apprendimento, si hanno talvol-ta soluzioni sub-ottime che possono non ri-sultare soddisfacenti. In sostanza, con so-luzioni basate su reti di Hopfield, una volta“programmate” le connessioni per codifica-re il problema da risolvere, si può ancheconseguire in modo efficiente una soluzio-ne per problemi intrattabili, ma questo nonè ovviamente garantito5.

6. LE APPLICAZIONI

Uno dei motivi del successo delle reti neuraliartificiali è probabilmente da ricercarsi nel lo-ro massiccio utilizzo in innumerevoli applica-zioni. Il paradigma di apprendimento daesempi su cui si basano permette, infatti, diaffrontare problemi di natura anche molto di-

M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3

1

15

0

0

0

1

4 La generalizzazione di questo problema al caso di N regine è stato per anni oggetto di congetture. Si ritenevasi trattasse di un problema computazionalmente intrattabile, ma a metà degli anni novanta si è dimostratoche esiste una soluzione polinomiale per la determinazione di una configurazione.

5 Si tratta, in sostanza, di una delle caratteristiche fondamentali del softcomputing menzionata nel paragrafo 2.

FIGURA 15Il problema delle 8regine e la suasoluzione medianteuna rete di Hopfield

Neuroni di riga

Neuroni di colonna

Neuroni diagonali

Neuroni diagonali

Page 13: Introduzione Alle Reti Neurali Artificiali

versa e di fornire soluzioni con uno sforzo re-lativamente limitato.Questo è anche stato reso possibile dallagrande diffusione di pacchetti software perla simulazione dei modelli più importanti. Iprincipali modelli neurali sono oggi disponi-bili anche in molti tool per data mining di-sponibili nei principali sistemi per basi didati quali il DB2 (Database2). Oltre alla si-mulazione software, sono state studiate di-verse soluzioni per l’implementazione inhardware di architetture neurali e dei corri-spondenti algoritmi di apprendimento. Mol-ti studi si sono concentrati su come utilizza-re gli attuali modelli di calcolo parallelo perl’implementazione dello schema neurale,intrinsecamente parallelo. Sono fiorite in-numerevoli soluzioni nei laboratori di ricer-ca che hanno avuto anche un certo impattocommerciale permettendo lo sviluppo di ac-celeratori neurali per integrare le capacità dicalcolo di elaboratori tradizionali. Tali acce-leratori sono tipicamente gestite da alcunisimulatori commerciali. L’impressionanteevoluzione dei microprocessori che ha avu-to luogo anche negli anni ’90 ha, tuttavia,sostanzialmente ridimensionato l’impor-tanza di tali soluzioni.Si è anche assistito alla nascita di chip neura-li analogici in grado di implementare i para-digmi di calcolo direttamente con variabilianalogiche, senza bisogno di codifica discre-ta. In particolare, è degno di nota l’INTEL80170, sviluppato nei laboratori INTEL all’ini-zio degli anni novanta. Studi simili sono staticomputi soprattutto da Synaptics, (ObjectRecognizer Chip) e, in Italia, (TOTEM) dellaNeuriCam.Uno dei problemi che ha, tuttavia, limitato losviluppo di chip tipo l’INTEL 80170 è la limita-ta precisione disponibile, che costituisce unproblema soprattutto per gli algoritmi di ap-prendimento.

6.1. Applicazioni al riconoscimentodi formePer illustrare la metodologia alla base dimolte delle applicazioni riportate in tabella2, si consideri il caso del riconoscimento disimboli grafici, eventualmente corrotti darumore. Occorre pre-elaborare il pattern inmodo da fornirne una rappresentazione più

compatta da utilizzare in ingresso alla reteneurale. La limitazione del numero degli in-gressi risulta particolarmente importanteper limitare il numero degli esempi necessa-ri per una corretta generalizzazione delle re-te a nuovi esempi.Nella figura 16, è illustrato l’uso di un percet-trone multistrato per la classificazione di lo-go aziendali in 4 categorie. La rete ha 256 in-gressi e 4 uscite, codificate in modo esclusi-vo, ovvero (1; 0; 0; 0); (0; 1; 0; 0); (0; 0; 1; 0);(0; 0; 0; 1). Il numero di neuroni nascosti sidetermina per tentativi utilizzando un test divalidazione statistica.Il percettrone multistrato dimostra eccellenticapacità di discriminazione di classi, ma nonrisulta efficace per attribuire un livello di con-fidenza nella sua decisione.In altri termini, mentre molte applicazionine hanno dimostrato la grande efficacia nel-la discriminazione di classi note a priori, si èormai accumulata evidenza sperimentale esupporto teorico per concludere che il per-cettrone non è in grado di attribuire in modoaffidabile un peso alle sue decisioni. Que-sto rende tale rete neurale usata come clas-sificatore inadatta a problemi in cui è neces-sario un comportamento di reiezione di pat-tern che non appartengono alle classi pre-stabilite.Sempre usando il percettrone multistrato, sipuò ovviare a questo inconveniente median-te la configurazione ad autoassociatore illu-strata in figura 17.

6.2. Sistemi ibridiMolte delle applicazioni delle reti neurali aproblemi reali richiedono un’opportuna or-ganizzazione di sistema e non semplicemen-te l’utilizzo diretto dei modelli descritti inquesto articolo. Per esempio, l’estrazionedell’informazione da una fattura acquisitamediante uno scanner richiede un opportu-no sistema per la gestione documentale, do-ve le reti neurali possono giocare un ruolostrategico in alcune parti critiche.A titolo di esempio, si consideri il problemadel riconoscimento di targhe automobilisti-che acquisite mediante ordinarie telecamerein ambiente autostradale. Tale applicazioneè, per esempio, interessante per le società digestione del traffico autostradale in corri-

M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3

1

0

0

0

1

16

Page 14: Introduzione Alle Reti Neurali Artificiali

M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3

1

17

0

0

0

1

Settore applicativo Prodotto

Marketing Airline Marketing Assistant, BehavHeuristics Inc

Add-ins per Microsoft Excel, NeuroXL, 1998

AREAS, valutazione automatica immobili, HNCSoftware

Previsioni finanziarie Neurodimension www.nd.com, 1991

NetProfit (profittaker.con), Neur. Appl. Corp. Appl.

Optical Character Recognition Audre Neural Network, Audre Rec. Systems Appl.

OmniPage 6.0 and 7.0 Pro for Windows, Caere

OmniPage 6.0 Pro for MacOS

AnyFax OCR engine

FaxMaster, Delrina Technology Inc.

VeriFone Oynx, lettore di assegni, Synaptics

Riconoscimento caratteri QuickStroke, ric. caratt. cinesi, Synapticsmanoscritti

Teleform: ric. caratteri per fax, Cardiff SoftwareApplication, 1991

Riconoscimento manoscritti Apple Newton 120, Appleon-line

Lexicus Longhand, Lexicus (Motorola)

Nasi elettronici AromaScan electronic nose, AromaScan

Bloodhound Electronic Nose, Bloodhound Sensors Ltd

e-NOSE 4000 electronic nose, Neotronics Scientific

Controllo di qualità cibi test qualità birra Anheuser-Busch

Bond portfolio management Global Bond, Econostat Ltd.

Controllo frodi (assegni) Dunn and Bradstreet

Controllo frodi (carte credito) Falcon, HNC Software

Nestor In.

Verifica firma Check Signature Verification System, NeuroMetricVision System Inc.

Gestione rischio Colleague, Aquarius, HNC Software

Predizione del consumo elettrico Bayernwerk AG Application

Controllo chip microelettr. INTEL

Controllo qualità gomme Dunlop

Cancellazione di eco AT&T/Lucent

Riconoscimento di banconote BANK, D.F. Elettronica

Riconoscimento di targhe PLARE, Società Autostrade e DII (Università di Siena)

TABELLA 2Una lista di applicazioni di reti neurali che hanno dato origine a prodotti apparsi sul mercato

Page 15: Introduzione Alle Reti Neurali Artificiali

spondenza delle stazioni di esazione a segui-ti di infrazioni in impianti automatici.In figura 18, è illustrata l’architettura com-plessiva di un sistema per il riconoscimentodi targhe in sperimentazione presso il Di-partimento di Ingegneria dell’Informazionedell’Università di Siena. Il sistema è com-posto da moduli sviluppati con tecnologianeurale (in rosa), da moduli basati su clas-sici approcci di elaborazione delle immagi-ni e da motori inferenziali. Un modulo dicontrollo provvede a sincronizzare le ope-razioni dei moduli slave delegati ad assol-vere le funzioni di segmentazione della tar-ga, dei caratteri e riconoscimento dei carat-teri. Altri moduli esprimono vincoli gram-maticali sulle stringhe possibili oltre a unaprobabilità a priori che si presenti una datatarga. Il riconoscimento dei caratteri, checostituisce ovviamente l’attività critica, èbasato su due moduli. Il primo contienepercettroni multistrato con struttura ad au-toassociatore, che modellano le classi atte-

se. La struttura può integrarsi dinamica-mente quando si presenta una eventualealtra classe. Tale modulo ha la funzione distabilire una lista di classi candidate, men-tre il modulo a fianco, basato su percettronimultistrato con struttura a classificatore,serve a raffinare la decisione.Tali classificatori sono tipicamente invocatidal modulo centrale quando i candidati si ri-feriscono a classi tipicamente molto confu-se. In tal caso, appositi classificatori assol-vono unicamente al compito di eliminarel’ambiguità derivante da classi molto confu-se. Si noti che tali classificatori possonooperare sulla stessa finestra di elaborazio-ne del modulo precedente, ma anche su op-portune finestre, decise dal modulo centra-le, per enfatizzare le parti del pattern dovesi localizzano verosimilmente le differenze.È anche interessante notare che il processodi segmentazione dei caratteri è raffinatodagli autoassociatori che posizionano la fi-nestra in un intorno della posizione indicata

M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3

1

0

0

0

1

18

Classe 1

Classe 2

Classe 3

Classe 4

256

4N

FIGURA 17Autoassociatori

neurali

FIGURA 16Classificazione

di loghi aziendalicon un percettrone

multistrato

Distanze Classe 1 Classe 2 Classe 3 Classe 4

Page 16: Introduzione Alle Reti Neurali Artificiali

dal modulo di segmentazione, a seguito dielaborazioni atte a stabilire la zona di mas-sima risonanza.

7. LIMITI E PROSPETTIVEDI RICERCA

La ricerca nel settore delle reti neurali artifi-ciali ha raggiunto un certo grado di maturitàsia per quanto riguarda lo sviluppo sistema-tico delle metodologie fondamentali che il lo-ro utilizzo in ambito applicativo. La compren-sione dei limiti fondamentali sembra essereun passo fondamentale per lo sviluppo ulte-riore del settore. Soprattutto in ambito appli-cativo, tali tecnologie sono state utilizzatetalvolta in modo acritico confidando sul prin-cipio che la “forza bruta” derivante dall’im-pressionante sviluppo della microelettronicae il sogno della computazione inerentementeparallela potessero coniugarsi con l’appren-dimento automatico per risolvere importantiproblemi aperti con significativo risvolto ap-plicativo. Un’analisi teorica dettagliata sug-gerisce la presenza di enormi ostacoli per unulteriore sviluppo di approcci basati sugli at-tuali schemi di apprendimento automatico.Alcuni interessanti limiti erano già stati se-gnalati da Marvin Minsky nella sua edizioneespansa di Perceptrons [10]. In particolare,Minsky aveva già individuato problemi legati

all’euristica del gradiente, alla base di moltischemi di ottimizzazione utilizzati per le retineurali e dettati dall’esigenza di ottimizzarein spazi di enorme dimensione. Una volta for-mulato nell’ambito dell’apprendimento neu-rale, la complessità inerente di un problemasi rivela in termini della dimensione dellospazio dei pesi e della forma della superficieerrore da ottimizzare. L’ostacolo fondamen-tale per l’euristica del gradiente è dovuto allapresenza di minimi locali sub-ottimi che in-trappolano gli algoritmi di apprendimento.Per problemi complessi, l’esplosione del nu-mero di tali minimi locali rende inverosimilela determinazione di soluzioni efficienti. Si ègià accumulata evidenza teorica e sperimen-tale che, a fronte di problemi “complessi”, laforma della superficie errore si “regolarizza”e diminuisce la presenza di minimi sub-ottimiall’aumentare della dimensione dello spaziodei pesi. Tuttavia, tale aumento di dimensio-ne non solo conduce a un incremento di com-plessità nel calcolo del gradiente, ma intro-duce il problema addizionale dell’over-trai-ning, secondo cui l’apprendimento in pre-senza di spazi dei parametri troppo grossinon garantisce una corretta generalizzazionea nuovi esempi. È forse il momento di co-struire teorie computazionali dell’apprendi-mento adatte al calcolo neurale, tipicamentedefinito nel continuo, invece, che nel tradi-

M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3

1

19

0

0

0

1

FIGURA 18Architetturadel sistema per ilriconoscimento ditarghe

Segmentazione della targa

Segmentazione caratteri Adattamento segm

entazione

Stringa riconosciuta

Vincoligrammaticali

Probabilitàa priori

Sistemadi controllo

a regoleAB 416 CV

A B 0

Page 17: Introduzione Alle Reti Neurali Artificiali

zionale contesto discreto. Il PAC (Probably

Approximately Correct) learning, ampiamen-te utilizzato fin qui per la comprensione dellacomplessità, sembra piuttosto sterile e nonappare molto efficace per la comprensione ditipici contesti applicativi6. Sembra, inoltre,importante procedere nella direzione di svi-luppare architetture e algoritmi di apprendi-mento nel contesto di ingressi strutturati, op-portunamente rappresentati. Questo favori-sce per altro lo sviluppo di integrazioni piùforti tra modelli simboli e sotto-simbolici esembra suggerire, in generale, la formulazio-ne di teorie più generali per il trattamento didati continui. A tal proposito, Margaret Bo-den, con riferimento alla novella del “Magodi Oz” scrive “[...] the pretty creature was visi-

bly the same horse, changing colour as it

trotted along. ... AI is one beast, like the Wi-

zard’s pony”, [4] proponendo il parallelo deicolori del pony con i diversi colori dell’intelli-genza artificiale. Servono forse nuove inte-ressanti miscele di colori, servono schemiper modellare in modo più naturale l’incer-tezza, serve comprendere più a fondo l’ingre-diente evoluzionistico delle specie per coniu-garlo con l’apprendimento automatico. E an-che gli schemi di apprendimento devono ve-rosimilmente risultare meno rigidi e, soprat-tutto, devono risultare attivi, permettendoun’interazione tra la macchina che apprendee il suo supervisore7. Forse non importa il“colore” del pony; le reti neurali, e più in ge-nerale la computational intelligence, devonointegrarsi in modo più forte con i classici mo-delli simbolici. L’ibrido può non solo risultarevincente nelle applicazioni, ma può originarenuove miscele di colori, ben distinte dai com-ponenti.

Bibliografia[1] Ablameyko S., Goras L., Gori M., Piuri V.: Limita-

tions and Future Trends in Neural Computation.IOS Publishing, (Eds 2003).

[2] Anderson J., Rosenfeld E.: Neurocomputing:

Foundations of Research. MIT Press, Cambrid-ge, (Eds. 1988).

[3] Angluin D., Smith C.: Inductive inference:Theory and methods. Computing Surveys, Vol.15, n. 3, 1983, p. 237-269.

[4] Boden M.: Horses of a different colour? In Artifi-

cial Intelligence and Neural Networks. V. Honavarand L. Uhr, Eds. Academic Press, 1994, p. 3-19.

[5] Frasconi P., Gori M., Sperduti A.: A general fra-mework for adaptive processing of data struc-tures. IEEE Transactions on Neural Networks,Vol. 9, 1998, p. 768-786.

[6] Hebb D.: The Organization of Behavior. Wiley,

New York, 1949. Partially reprinted in [Andersonand Rosenfeld, 1988].

[7] Hopfield J.: Neural networks and physical sy-stems with emergent collective computationalabilities. Proceedings of the National Academy

of Sciences, USA, Vol. 79, 1982, p. 2554-2558.Also in Neurocomputing, The MIT Press, 1988.

[8] McCulloch W., Pitts W.: A logical calculus ofideas immanent in nervous activity. Bulletin of

Mathematical Biophysics, Vol. 5, 1943. Reprin-ted in [Anderson and Rosenfeld, 1988].

[9] Mead C.: Analog VLSI and Neural Systems. Ad-dison Wesley, Reading, 1989.

[10] Minsky M., Papert S.: Perceptrons - Expanded

Edition. MIT Press, Cambridge, 1988.

[11] Rosenblatt F.: Principles of Neurodynamics:

Perceptrons and the Theory of Brain Mechani-

sm. Spartan Books, Washington D.C, 1962.

[12] Rumelhart D., Hinton G., Williams R.: Learning

internal representations by error propagation.In Parallel Distributed Processing, D. Rumelhartand J. McClelland, Eds. Vol. 1. MIT Press, Cam-bridge, Chapter, Vol. 8, 1986, p. 318-362. Re-printed in [Anderson and Rosenfeld, 1988].

[13] Seeley R., Stephens T., Tate P.: Essentials of

Anatomy and Physiology, McGraw-Hill, 2002.

[14] Widrow B., Hoff M.: Adaptive switching circuits.In IRE WESCON Convention Record. IRE, NewYork, Vol. 4, 1960, p. 96-104.

MARCO GORI è professore ordinario all’Università diSiena presso il Dipartimento di Ingegneria del-l’Informazione. Ha ottenuto il Dottorato di ricercaall’Università di Bologna, completando la formazio-ne presso la “School of Computer Science” di Mc-Gill University, Montreal. I suoi interessi di ricercariguardano l’intelligenza artificiale e le sue applica-zioni. È attualmente chair del capitolo italiano dellaNeural Networks Society ed è presidente dell’Asso-ciazione Italiana Intelligenza [email protected]

M O N D O D I G I T A L E • n . 4 - d i c e m b r e 2 0 0 3

1

0

0

0

1

20

6 Per lo stato dell’arte sui limiti e sulle prospettive del calcolo neurale sipuò far riferimento a Ablameyko et al. [1].

7 La ricerca nel settore del learning from queries and examples ha già for-nito promettenti indicazioni di riduzione di complessità, ma sembra an-cora essere in una fase incipiente, soprattutto per le ricadute applicative.