· web viewl’idea di servirsi dei sottotitoli come ausilio nell’educazione linguistica dei...

Capitolo 3: I Sistemi di Riconoscimento Vocale per l’Integrazione Sociale

dei Soggetti Audiolesi: il Progetto VOICE dell’Unione

Europea

Nelle prime due parti del nostro lavoro abbiamo evocato l’educazione verbale dei soggetti

audiolesi (dal passato fino ai tempi più recenti). Vorremmo ora dedicare l’ultimo capitolo

di questa tesi all’impegno sempre crescente, da parte della collettività, nei confronti della

loro integrazione sociale.

Il miglioramento della qualità della vita di chi soffre di sordità (e di problemi di

comunicazione in generale) è infatti sempre più al centro delle odierne tematiche di

discussione in numerosi convegni e congressi1.

Noteremo, nel corso del capitolo, quanto l’informatica ed i nuovi supporti tecnologici

possano fare in questo campo, specialmente se sostenuti dallo studio dei bisogni degli

audiolesi e da scienze che, come la fonetica, favoriscono un più mirato sviluppo di sistemi

informativi di ausilio ai soggetti sordi. I risultati raggiunti finora sono infatti stati resi

possibili grazie all’impegno ed agli sforzi congiunti di studiosi e ricercatori provenienti dai

più disparati settori e dalle più diverse aree scientifiche ed umanistiche.

È inoltre importante far notare che le stesse iniziative volte all’integrazione sociale dei

sordi possono il più delle volte costituire un beneficio anche per la loro educazione2, come

avremo modo di mostrare nel corso del capitolo.

A tale scopo, illustreremo proprio una di queste iniziative, e per la precisione il progetto

VOICE: GIVING A VOICE TO THE DEAF, BY DEVELOPING AWARENESS OF

VOICE TO TEXT RECOGNITION CAPABILITIES.

L’intento del progetto, sviluppato dal Centro Comune di Ricerca della Commissione

Europea, sito di Ispra (VA), è quello di servirsi delle nuove scoperte in campo informatico

1Riporteremo nelle prossime pagine alcune informazioni relative alle attività di tipo assistenziale (programmi di azione, progetti, conferenze) svolte nell’ambito dell’Unione Europea.2Tutto questo sta a sottolineare la pur celata omogeneità dell’argomento da noi trattato che a tutta prima può sembrare, oltre che molto vasto, anche molto differenziato nelle aree che lo compongono.

Error: Reference source not found

e tecnologico (nel nostro caso i sistemi di riconoscimento vocale) per venire incontro ai

bisogni ed alle necessità delle persone sorde.

Dopo una descrizione del progetto e delle sue finalità3, prenderemo in esame i sistemi di

riconoscimento vocale (la loro storia, il loro funzionamento, i diversi tipi di sistemi

attualmente in commercio, ecc.) per concentrarci su uno di questi in particolare:

NATURALLY SPEAKING della DRAGON SYSTEMS INC., ovvero il prodotto

utilizzato nell’ambito del progetto VOICE. Di questo prodotto illustreremo principalmente

(grazie alla preziosa collaborazione della ditta FBL Software House di Mortara - Pavia) gli

aspetti tecnici, sottolineando così l’importanza dell'elemento fonetico nella costituzione

iniziale di tali sistemi.

Daremo inoltre dei chiarimenti riguardanti la dettatura al computer, fornendo così un

piccolo “manuale utente” con alcuni consigli ed esempi pratici sul modo di pronunciare le

pause e le parole, al fine di ottenere un risultato di riconoscimento della voce il più

possibile vicino alla perfezione; un tale risultato è indispensabile nel caso di persone che

ricorrano a questi sistemi per la produzione di sottotitoli automatici a beneficio delle

persone non udenti.

Concluderemo infine il capitolo con la descrizione dell’aiuto che tali sistemi possono dare

ai sordi non solo per la loro integrazione sociale, ma anche per la loro educazione, in

particolar modo nell’apprendimento della lingua.

Molte delle fonti a cui abbiamo attinto per questo terzo capitolo non sono monografie

voluminose, bensì articoli di riviste, e resoconti di convegni e incontri tenutisi

sull’argomento, quali ad esempio gli atti dei congressi TIDE (Technology for Inclusive

Design and Equality) di Helsinki e IFIP (International Federation for Information

Processing) di Vienna e Budapest.

Molte delle informazioni sono inoltre state raccolte in seguito ai colloqui con i

collaboratori del progetto, alle diverse sessioni di lavoro al Centro Comune di Ricerca, sito

di Ispra (VA), ed alle ricerche svolte consultando lo stesso sito Internet del progetto

VOICE, citato per esteso in bibliografia e consultabile da chiunque vi fosse interessato.

3Il resoconto della nostra esperienza personale come collaboratrice a VOICE, esperienza che spazia dall’addestramento del sistema di riconoscimento vocale (principalmente in lingua inglese) all’esposizione del progetto nel corso del WORLD COMPUTER CONGRESS IFIP ’98, tenutosi a Vienna e a Budapest tra il 31 agosto ed il 4 settembre del 1998, è riportato in appendice 2.


3.1 Il progetto VOICE: GIVING A VOICE TO THE DEAF, BY DEVELOPING

AWARENESS OF VOICE TO TEXT RECOGNITION CAPABILITIES

Illustreremo in questo paragrafo il progetto VOICE: GIVING A VOICE TO THE DEAF,

BY DEVELOPING AWARENESS OF VOICE TO TEXT RECOGNITION

CAPABILITIES, progetto iniziato nell’anno 1996 nell’ambito del JRC-ISIS4, Centro

Comune di Ricerca della Commissione Europea, sito di Ispra, provincia di Varese.

Cercheremo di illustrare in maniera separata le varie aree del progetto VOICE e i diversi

ambiti in cui esso opera, per darne delle spiegazioni il più possibile chiare e dettagliate. Si

tenga però presente che questi ambiti si intrecciano l’uno con l'altro e che ogni area del

progetto richiederà in ogni momento e in maniera indiscutibile il coinvolgimento di tutte

le altre.

3.1.1 Le origini del progetto

Le ricerche e le statistiche ci dimostrano che i disabili (sia fisici che sensoriali) e gli

anziani costituiscono, rispetto al totale della popolazione europea, un numero abbastanza

consistente5. In particolar modo,

“Nella Comunità Europea vi sono oggi tra 60 e 80 milioni di persone disabili o

anziane.”6

L’Unione Europea è consapevole dei problemi7, dei bisogni e delle necessità di anziani e

disabili, e da anni si impegna concretamente nel tentativo di abbattere (o perlomeno

ridurre) le barriere che si oppongono alla loro integrazione culturale e sociale. Le attività

di tipo assistenziale (che nell’abbattimento di tali barriere vedono il proprio obiettivo)

sono, più in particolare, portate avanti dalle seguenti Direzioni Generali della

Commissione Europea:

4Joint Research Centre - Institute for Systems, Informatics and Safety.5Se a questi si aggiungono inoltre tutti gli immigrati di madre lingua straniera, possiamo convenire che moltissime sono in Europa le persone con problemi di integrazione e comunicazione, le quali di conseguenza rischiano (e nei casi peggiori subiscono) un certo isolamento dalla società.6Direzioni Generali III e XIII (a cura di); I&T Magazine, n°19, Aprile 1996, pag.13. 7Questi problemi vanno dalle difficoltà di comunicazione a quelle (per i giovani) di formazione, inserimento nella scuola e nel mondo del lavoro.


x Direzione Generale Occupazione, Relazioni Industriali e Affari Sociali (DGV);

x Direzione Generale Telecomunicazioni, Mercato dell’Informazione e Valorizzazione

della Ricerca (DGXIII).

La DGV ha sostenuto e finanziato, nell’ambito del programma di azione denominato

HELIOS (anni '80-'90), attività e progetti volti a migliorare la condizione sociale delle

persone handicappate per quanto riguarda la loro istruzione, formazione ed autonomia.

Ha inoltre organizzato diverse conferenze, con lo scopo di suscitare l’interesse e la

conoscenza pubblica sulle esigenze degli handicappati e sul modo di soddisfare queste

esigenze (anche e in misura sempre maggiore grazie all’ausilio delle tecnologie

informatiche).

La DGXIII intende, nell’ambito del programma di azione TIDE - Technology

Initiative for Disabled and Elderly People (anni '90), facilitare le normali attività

quotidiane (a casa, a scuola, sul lavoro, negli spostamenti, ecc.) delle persone anziane e

disabili, e favorire la loro partecipazione alle attività sociali ed economiche della

comunità. TIDE è una iniziativa di Ricerca e Sviluppo portata avanti dall’Unione

Europea nel campo della “tecnologia assistenziale”; il suo obiettivo è cioè quello di

mettere a servizio delle persone anziane e disabili le nuove tecnologie

dell’informazione e della comunicazione, finanziando, anno per anno, progetti che

propongano soluzioni innovative nel campo della videotelefonia, del telelavoro, delle

telecomunicazioni in generale. VOICE è uno di questi progetti8.

Il progetto VOICE è stato proposto e viene sviluppato nell’ambito del JRC-ISIS, Joint

Research Centre - Institute for Systems, Informatics and Safety9, sito di Ispra, provincia di

Varese. Lo scopo è quello di mettere a frutto le esperienze acquisite nel campo informatico

e tecnologico, a vantaggio delle persone che da questo campo possono trarre enormi

benefici.

VOICE mira alla risoluzione dei problemi di comunicazione di disabili, stranieri ed

anziani principalmente grazie allo sviluppo ed alla diffusione di sistemi di

8Informazioni più dettagliate sulle Direzioni Generali V e XIII, sui programmi HELIOS e TIDE, e sui progetti da questi finanziati, sono reperibili nelle pubblicazioni: Programma HELIOS (a cura di); Helios, n° 3, 1993, Direzione Generale XIII (a cura di); XIII Magazine, n° 8, ottobre 1992, e Direzioni Generali III e XIII (a cura di); I&T Magazine, op.cit..9JRC è il Centro Comune di Ricerca dell’Unione Europea ed ha il compito di portare avanti attività di Ricerca e Sviluppo nei settori informatico, nucleare, ecologico, biochimico, ecc., con attenzione sempre maggiore al campo delle disabilità.


riconoscimento vocale per la conversione da discorso parlato a testo scritto, ed è in

particolar modo rivolto a chi soffre di sordità.

Per lo sviluppo di un simile progetto, JRC-ISIS si avvale della collaborazione di

associazioni di sordi, ditte, scuole ed università, centri di ricerca. Nel paragrafo 3.1.2.2

avremo modo di fornire alcune indicazioni sui collaboratori di VOICE e sui loro ruoli

all’interno di esso. Innanzi tutto, però, intendiamo definire in modo esaustivo le finalità

del progetto.

3.1.2 Finalità del progetto

L’obiettivo principale di VOICE consiste nell’indagare i modi in cui l’informatica e la

tecnologia possono essere di aiuto ad anziani e disabili e, in particolare, i modi in cui

il riconoscimento vocale può migliorare la vita degli audiolesi. Da quest’obiettivo

principale si diramano tutte le attività che vengono svolte nell’ambito di VOICE sotto la

coordinazione di JRC-ISIS, e che elencheremo nei paragrafi seguenti.

3.1.2.1 Lo sviluppo di “sistemi sottotitolatori”, a partire dai comuni sistemi di

riconoscimento vocale

I sistemi di riconoscimento vocale sono già abbastanza diffusi sul mercato, e vengono

principalmente commercializzati per permettere la creazione di documenti senza dover

ricorrere all’uso della tastiera. Basterà parlare in un microfono collegato ad un PC per

veder comparire per iscritto sullo schermo ciò che si è detto (ovviamente solo dopo aver

addestrato il sistema a riconoscere il nostro profilo vocale). Questi sistemi sono

solitamente di aiuto, in ambito ospedaliero, a medici e radiologi nella compilazione delle

loro diagnosi, o in qualsiasi altro ambito lavorativo, per esempio a segretarie che

desiderino sveltire la preparazione di lettere o contratti.

L’utilizzo di tali sistemi potrebbe però costituire un enorme aiuto anche per persone che

soffrono di forme di disabilità sia fisica che sensoriale10, in particolar modo di sordità.

10Immaginiamo ad esempio il beneficio che ne trarrebbe un disabile motorio nel manovrare vocalmente i comandi di una carrozzella o la tastiera di un PC. A questo proposito, il ricorso al riconoscimento vocale potrebbe risultare vantaggioso anche per un non vedente, come alternativa all’utilizzo di una tastiera Braille.


Le difficoltà di un sordo nei confronti di molti strumenti di comunicazione comunemente

utilizzati dalla totalità delle persone (come il telefono o la televisione) sono infatti enormi.

La produzione di sottotitoli mediante i sistemi di riconoscimento vocale potrebbe risolvere

o perlomeno ridurre i suoi problemi di comunicazione e di conseguenza di integrazione

sociale11.

Il progetto VOICE si sta impegnando proprio nello sviluppo e nella realizzazione

pratica di dispositivi basati sull'uso di un PC e che, a partire dai comuni e già

esistenti sistemi di riconoscimento vocale per la conversione da voce a testo, siano in

grado di fornire la sottotitolazione automatica di:

x lezioni scolastiche;

x conferenze;

x film e videocassette;

x trasmissioni televisive in differita ed in diretta;

x conversazioni telefoniche;

x semplici conversazioni.

In realtà, il vero scopo di VOICE non è la produzione o la commercializzazione di un

prodotto finito e perfettamente funzionante nel campo della sottotitolazione automatica,

ma lo sviluppo di un prototipo che dimostri la possibilità di sottotitolare lezioni,

conferenze, e tutte le altre attività di comunicazione precedentemente citate,

fornendo simultaneamente sullo schermo del PC, insieme ai sottotitoli, un'immagine

visuale (l'immagine televisiva nel caso di trasmissioni televisive, o il volto dello

speaker nel caso di lezioni o conferenze), per permettere al sordo l'ulteriore ausilio

della lettura labiale. Vediamo adesso in dettaglio le aree di sottotitolazione.

a Lezioni scolastiche e conferenze, conversazioni.

Durante lezioni scolastiche, conferenze, o semplici conversazioni, le parole del professore

o dello speaker, oltre a pervenire al destinatario mediante il sonoro, verranno convertite in

testo scritto e compariranno, insieme all’immagine visuale, sullo schermo di un PC, con la

11Ci riferiremo d’ora in avanti quasi solamente alla categoria dei sordi, ma si tenga presente che enormi benefici derivano dal riconoscimento vocale anche, come già accennato, a persone anziane, straniere, o soggette ad altre forme di disabilità.


possibilità di essere proiettate ed ingrandite nel caso ci si trovi in un’aula o in ambienti

spaziosi. Naturalmente, chiunque intenda ottenere un simile risultato dovrà innanzi tutto

addestrare il sistema al riconoscimento del proprio profilo vocale (operazione che, come

vedremo nei prossimi paragrafi, richiede almeno una mezz'ora di tempo e un ambiente non

troppo rumoroso e caotico12); dopodiché, dovrà parlare chiaramente e non troppo

velocemente13 in un microfono collegato al suddetto PC.

Nel caso qualche alunno (in classe) o qualche partecipante (in una conferenza) desiderasse

prendere la parola ma non avesse registrato il proprio profilo vocale sul sistema, sarà lo

stesso professore, oppure l’oratore, oppure un apposito interprete (che abbia compiuto la

sopra descritta operazione di addestramento) a ripetere o riassumere la domanda o

l'intervento, per garantirne la sottotitolazione.

In questo modo verrà data alle persone sorde la possibilità di partecipare attivamente a

lezioni, convegni o incontri, alla stessa stregua di qualsiasi persona normoudente.

a Trasmissioni televisive in differita e in diretta, film e videocassette14.

Il procedimento è lo stesso: parlare in un microfono collegato ad un PC, sul quale sia

installato un sistema di riconoscimento vocale appositamente adattato per la generazione

di sottotitoli, come mostra la figura alla pagina seguente:

12In Cosi, Piero; Falavigna, Daniele; Mian, Gian Antonio; Omologo, Maurizio; A Comparison Between Mel-Scale Cepstrum and Auditory Model Representation for Noisy Speech Recognition , in “Quaderni del Centro di Studio per le Ricerche di Fonetica” del Consiglio Nazionale delle Ricerche, vol. IX, 1990, Edizioni Libreria Progetto, Padova, pag. 260, si legge: “Speech recognition can suffer significant degradations in adverse environments, especially when test and training are performed on data pronounced in different noise conditions.” / “Il riconoscimento vocale può subire, in un ambiente avverso, dei considerevoli peggioramenti, specialmente quando test e addestramento vengono effettuati su dati pronunciati in diverse condizioni di rumore”. Paragonando alla situazione attuale l’affermazione appena riportata, dobbiamo purtroppo constatare che gli inconvenienti derivanti al riconoscimento vocale dai rumori di fondo, benchè notevolmente ridotti, non sono ancora stati del tutto eliminati. 13 Per imparare a regolare la propria velocità di “dettatura” sarà sufficiente seguire sul video i sottotitoli forniti dal sistema; la situazione non è dissimile da quella di un insegnante che, dettando ai suoi alunni, impari ad aumentare o rallentare la propria velocità di dettatura in funzione del movimento delle penne di questi. 14 In questo caso, la novità non consiste nella sottotitolazione in sè (in Italia, ad esempio, la sottotitolazione di trasmissioni televisive e di filmati su videocassetta risale, come vedremo in 3.5, a più di dieci anni fa), quanto nell’utilizzo del riconoscimento vocale per rendere automatica questa sottotitolazione e permetterne così la realizzazione in diretta.


Fonte: http://voice.jrc.it/

Nel caso di film, videocassette e trasmissioni in differita ci si potrebbe servire di un

interprete, di una persona cioè che abbia addestrato il computer, che ascolti i dialoghi ed

i testi parlati, e ne ripeta il contenuto o ne faccia un riassunto, parlando al microfono in

maniera chiara e moderata. Nel caso invece di trasmissioni in diretta, potrà essere sia un

interprete del tipo sopra descritto, oppure lo stesso conduttore televisivo o giornalista

(nel caso di telegiornali) ad addestrare il sistema e a parlare nell'apposito microfono.

L'intera operazione darà sullo schermo (come sempre), oltre al sonoro e all’immagine

visuale, la striscia di sottotitoli15.

Il vantaggio di una diffusione della sottotitolazione automatica in ambito televisivo,

video amatoriale e cinematografico comporterà un innegabile beneficio non solo per le

persone con problemi di comunicazione (che potranno assistere ad un maggior numero

di programmi sottotitolati), ma anche per i fornitori di tali servizi (grazie ad una

riduzione dei costi di sottotitolazione).

c) Conversazioni telefoniche.

Il telefono è forse il servizio di telecomunicazione più usato: centinaia di milioni di

persone al mondo vi sono abbonate. Al sordo, però, questo utilissimo apparecchio risulta

pressoché inutile.

Si è pensato a diverse soluzioni, come ad esempio i DTS (Dispositivi Telefonici per Sordi,

per la trasmissione di messaggi testuali). Diversi fattori, però, scoraggiano l’uso di questi

dispositivi, ad esempio il loro costo e il fatto che non solo l’utente sordo, bensì chiunque

desideri contattarlo, dovrà acquistare un simile apparecchio.

15Per le trasmissioni in diretta bisognerà, ovviamente, essere disposti ad accettare un riconoscimento vocale non perfetto e perciò una sottotitolatura non priva di errori.


Applicare invece un sistema di riconoscimento vocale al telefono di una persona sorda non

comporterebbe altro che collegarvi un comunissimo PC (spesso già disponibile in casa),

con la sola aggiunta del programma software per la generazione di sottotitoli:

Fonte: http://voice.jrc.it/

L’utente sordo potrebbe così ricevere telefonate da chiunque, e da qualunque telefono

ordinario. La risposta potrebbe essere inviata oralmente (nel caso l’utente non presenti

problemi di linguaggio) oppure digitando il messaggio sulla tastiera del PC (che in

questo caso arriverebbe all'interlocutore in forma sonora mediante un sistema di sintesi

vocale).

Gli ostacoli nella realizzazione di questo progetto sono però ancora molti, e le ricerche

per tentare di abbatterli sono in pieno fermento.

La qualità del riconoscimento vocale sulla linea telefonica è ancora scarsa, specialmente

a causa dei rumori di fondo e del tipo di registro usato nelle conversazioni telefoniche

(ripetizioni, intercalari, esitazioni, espressioni colloquiali e gergali, ecc.). Inoltre, non si

dimentichi che chi desidera chiamare una persona in possesso di un telefono così

riadattato dovrà prima addestrare il sistema al riconoscimento del proprio profilo

vocale, e necessiterà un riscontro visivo di ciò che compare sul PC dell'utente sordo, per

correggersi nel caso di errori di riconoscimento.

Il raggiungimento della meta prefissata, come si può notare, è in quest’ambito ancora

lontano, ma i continui studi e la collaborazione del JRC-ISIS con altri istituti di

ricerca16 lasciano sperare nella futura risoluzione di almeno una parte di questi

problemi.

16 I centri di ricerca, gli istituti e le ditte partner del progetto VOICE sono elencati per esteso nelle pagine del sito Internet del progetto.


È importante a questo punto precisare che i sopra descritti sistemi di riconoscimento

vocale, appositamente riadattati per la generazione di sottotitoli, non sono solo una

fantasia: un prototipo dimostrativo, come avremo modo di vedere più dettagliatamente nel

corso del paragrafo 3.2, è stato sviluppato dalla ditta FBL di Mortara - Pavia (che

collabora al progetto VOICE), ed è già in sperimentazione presso alcune scuole e

associazioni di sordi; si sta aspettando con impazienza il loro resoconto sui risultati della

sperimentazione.

Il progetto VOICE sta dunque riscuotendo i primi successi, ma molto va ancora fatto per il

raggiungimento di obiettivi più concreti.

E’ necessario infatti avvicinare produttori e consumatori dei sistemi di riconoscimento

vocale17, stimolando tra questi una collaborazione dinamica e costruttiva. I primi

necessitano infatti non solo di competenza tecnica, ma anche di sensibilità nei confronti

delle disabilità, e di un'adeguata conoscenza, per lo sviluppo di prodotti via via migliori,

dei bisogni e delle necessità dei secondi. Questi ultimi andranno a loro volta messi a

conoscenza dell’esistenza e dell’efficienza dei sistemi “sottotitolatori”, e motivati sia al

loro utilizzo che a fornire valutazioni sui benefici ottenuti18.

Solo da questa azione congiunta potranno nascere prodotti che in misura sempre maggiore

rispondano alle esigenze dei loro utenti, come ci mostra la figura riportata alla pagina

seguente:

17 Dove per produttori intendiamo le case fornitrici di programmi software e per consumatori intendiamo le scuole, le associazioni di sordi, ecc., ovvero tutti gli utenti (sia effettivi che potenziali) dei sistemi “sottotitolatori”.18 Si noti inoltre che tra i potenziali utenti dei sistemi “sottotitolatori” le associazioni di sordi sono probabilmente quelle meno esigenti e più disposte a tollerare errori ed imperfezioni, ma sono al tempo stesso quelle più attente e pronte a fornire interessanti critiche e suggerimenti. Il loro coinvolgimento risulta perciò quasi indispensabile, specialmente nelle prime fasi dello sviluppo di tali sistemi.


Questo tema ci ricollega direttamente al secondo gruppo di attività svolte sotto la

coordinazione del JRC-ISIS all’interno del progetto VOICE: le attività di

sensibilizzazione.

3.1.2.2 La sensibilizzazione della collettività a riguardo del progetto

Abbiamo appena visto quanto sia importante avvicinare i produttori e i consumatori dei

sistemi di riconoscimento vocale. In generale, è di fondamentale importanza sensibilizzare

le associazioni di disabili, i fornitori di servizi, gli enti di ricerca e le università, gli enti

pubblici e l’intera collettività, per diffondere la conoscenza, l’importanza e l’utilità di tali

sistemi. I concetti chiave diventano, a questo punto, la sensibilizzazione e la

disseminazione di informazioni.

Vediamo dunque il JRC-ISIS intraprendere, come parte integrante del progetto VOICE,

una vera e propria campagna di sensibilizzazione relativa ai problemi delle persone

disabili (in particolar modo sorde) a scuola, nella società e, in poche parole, in ogni

momento della loro vita quotidiana. Questa campagna viene da ormai quasi due anni

portata avanti mediante l'organizzazione di incontri e la partecipazione a conferenze,

durante le quali vengono presentati il prototipo dimostrativo di sottotitolazione automatica

e l’intero progetto VOICE. Da circa un anno, inoltre, parte dell'incontro o della conferenza

in questione viene sottotitolata in diretta ed in tempo reale.

Daremo qui di seguito una panoramica sullo stato di avanzamento del progetto VOICE,

elencandone cronologicamente gli incontri e le fasi più importanti19:

x primo trimestre 1997: sviluppo del primo prototipo dimostrativo per la generazione di

sottotitoli;

x marzo 1997: presentazione del progetto nel corso di HANDIMATICA '97 a Bologna;

19 Tutte queste informazioni, insieme alle descrizioni più dettagliate di alcuni degli incontri elencati, sono reperibili sul sito Internet del progetto VOICE, all'indirizzo fornito in bibliografia.


x aprile-maggio 1997: presentazione del prototipo20 ai professori di alcune scuole

lombarde e ad alcune associazioni dei sordi;

x 29 e 30 maggio 1997: presentazione del prototipo nel corso del convegno LA

DISABILITA' NELL’UNIVERSITA': INTEGRAZIONE E DIRITTO ALLO

STUDIO, tenutosi all'Università di Padova. Proprio durante questo convegno è stata

data al pubblico la prima dimostrazione pratica di sottotitolazione in diretta21;

x 14 giugno 1997: presentazione del prototipo nel corso dell'assemblea generale dei soci

ALFA (Associazione Lombarda Famiglie Audiolesi) di Milano;

x 5-8 novembre 1997: presentazione del progetto nel corso del Convegno Nazionale

IDD '97 (Informatica, Didattica e Disabilità), organizzato dal CNR (Consiglio

Nazionale delle Ricerche) di Firenze22 e tenutosi nel Palazzo dei Congressi di Bologna;

x 20 febbraio 1998: presentazione del nuovo e più efficace prototipo23 nel corso

dell’incontro VOICE-SCUOLE intitolato SISTEMI DI RICONOSCIMENTO

VOCALE, APPLICAZIONI IN CAMPO SCOLASTICO, tenutosi al JRC di Ispra

(VA);

x 18 aprile 1998: presentazione del prototipo nel corso dell’incontro VOICE-SCUOLE,

tenutosi nell'aula multimediale dell’ ITSOS (Istituto Tecnico Statale di Comunicazione

Multimediale) di Milano, uno degli istituti che ha aderito a VOICE prestandosi per la

sperimentazione, in una classe, del sistema “sottotitolatore”;

x 19 aprile 1998: presentazione del prototipo in occasione della festa dell’associazione

AFA (Associazione Famiglie Audiolesi) di Cantù (CO);

20 Quando parliamo di presentazione del prototipo sottointendiamo anche una presentazione dell’intero progetto VOICE.21 Precisiamo che quello presentato è ancora il primo prototipo dimostrativo, basato su un sistema che permette il riconoscimento di una parola per volta. A partire da questa data, comunque, in quasi tutti gli incontri almeno una piccola parte dell’intervento verrà sottotitolata in diretta. 22 Ha sede a Firenze il Gruppo Fibre Ottiche - CNR IROE, che svolge attività di ricerca nel campo di sensori a fibre ottiche per applicazioni biomediche, industriali, ambientali, ecc.. Inoltre l’Area della Ricerca del CNR di Firenze è responsabile di attività e servizi quali l’organizzazione di Congressi e Seminari. 23 Basato sul riconoscimento di intere frasi alla volta.


x 9 maggio 1998: presentazione del prototipo in occasione dell’OPEN DAY

SCHUMAN (ovvero del quarantottesimo anniversitario della dichiarazione di Robert

Schuman24), tenutosi presso il JRC di Ispra (VA);

x 28 maggio 1998: presentazione del prototipo presso l’Istituto Professionale per i

Servizi Turistici e Commerciali P. Sraffa di Crema, nel corso del primo simposio

ACCAMATICA;

x 30 maggio 1998: presentazione del prototipo nel corso dell'assemblea generale dei soci

ALFA (Associazione Lombarda Famiglie Audiolesi) di Milano;

x 23-25 giugno 1998: presentazione del prototipo nel corso del III congresso TIDE

(Technology for Inclusive Design and Equality) dal titolo IMPROVING THE

QUALITY OF LIFE FOR THE EUROPEAN CITIZEN, tenutosi al Marina Congress

Center di Helsinki;

x 26 giugno: presentazione del prototipo nel corso del seminario LE TECNOLOGIE

DIGITALI PER NUOVI SERVIZI MULTIMEDIALI PER DISABILI, tenutosi a

Roma, presso la sede della Rai in viale Mazzini 14. Durante quest’incontro non viene

effettuata alcuna operazione di sottotitolazione automatica, ma viene discussa in

maniera più concreta la questione dei sottotitoli in televisione;

x 31 agosto-4 settembre 1998: presentazione del prototipo nel corso del XV congresso

IFIP (International Federation for Information Processing), sezione ICCHP (6th

International Conference on Computers Helping People with Special Needs), tenutosi

presso le Facoltà di Tecnologia delle Università di Vienna e Budapest. Di questo

congresso daremo un resoconto più dettagliato in appendice 2;

x 26-28 novembre 1998: presentazione del prototipo nel corso di HANDIMATICA '98 a

Bologna.

24 Il 9 maggio 1950 Robert Schuman (1886-1963), uomo politico francese e ministro degli Esteri dal 1948 al 1953, propone con una dichiarazione la formazione della CECA (Comunità Economica del Carbone e dell’Acciaio); la sua proposta verrà realizzata l’anno successivo, con il Trattato di Parigi. Si legge infatti nell’introduzione della pubblicazione: Office for Official Publications (a cura di); The European Community in Maps, 1974, “[...] the Declaration by Robert Schuman, French Minister for Foreign Affairs, on 9 May 1950, proved to be the real starting point for the uniting of Europe. [...] The first stage was the signing on 18 April 1951 in Paris of the Treaty establishing the European Coal and Steel Community (ECSC), which came into being in 1952 and was the first European organization of a federal type.” / “[...] la Dichiarazione del 9 maggio 1950 di Robert Schuman, ministro degli Affari Esteri francese, si è rivelata come il vero punto di partenza per l’unione dell’Europa. [...] Il primo passo fu la firma, il 18 aprile 1951 a Parigi, del Trattato che istituiva la Comunità Europea del Carbone e dell’Acciaio (CECA), la quale divenne realtà nel 1952 e fu la prima organizzazione europea di tipo federale.”


x 19-22 febbraio 1999: presentazione del prototipo nel corso di ABILITY '99 a Torino,

Lingotto Fiere.

x 15-17 marzo 1999: presentazione del prototipo a Pavia, nel corso del seminario a cura

della ASL (Azienda Sanitaria Locale) di Pavia, rivolto in particolar modo agli

insegnanti, ai terapisti della riabilitazione e ai membri di associazioni di audiolesi.

La situazione è al momento quanto mai incoraggiante: sistemi sottotitolatori (dello

stesso tipo di quello sviluppato al JRC di Ispra grazie alla ditta FBL) sono stati

installati nella sede dell’associazione ALFA di Milano e, come già accennato

precedentemente, nelle scuole che si sono prestate per la sperimentazione in classe del

sistema. Ogni incontro, inoltre, attira l'interesse di persone nuove. Il progetto VOICE,

insomma, pare essere perfettamente riuscito nel raggiungimento quotidiano di uno dei

suoi principali obiettivi: il proprio ampliamento ed il coinvolgimento di un numero

sempre maggiore di partecipanti.

A questo proposito vorremmo ora concentrarci brevemente proprio sui partners di

VOICE: abbiamo infatti più volte sottolineato la loro importanza per la messa in moto

e lo sviluppo del progetto. Vediamone ora i compiti specifici.

Associazioni come ALFA (Associazione Lombarda Famiglie Audiolesi), CECOEV

(Centro Comunicare è Vivere), AFA (Associazione Famiglie Audiolesi) e, in parte,

altri enti e associazioni, tra i quali ENS (Ente Nazionale Sordi), hanno fornito, oltre

che valutazioni sui prototipi finora realizzati, anche importanti informazioni

sull’argomento sordità e studi specifici sui bisogni degli audiolesi (ad esempio

l’importanza dei sottotitoli, ecc.). Hanno inoltre svolto un’efficace attività di

divulgazione del progetto VOICE, organizzando nelle loro sedi incontri sul tema e

dimostrazioni pratiche del prototipo, facendo così conoscere il riconoscimento vocale

ai sordi e a chi sta loro vicino.

Le scuole (per la precisione l’Istituto Tecnico Statale di Comunicazione Multimediale

ITSOS di Milano, il Liceo Scientifico Omodeo di Mortara (PV), il Liceo Scientifico

Oriani di Ravenna, il Liceo Artistico Frattini di Varese, la Direzione Didattica 2 di

Arona e la Scuola Elementare e Materna, 1° Circolo, di Cantù - Como) si sono rese

disponibili, oltre che per la sperimentazione in classe del prototipo, anche per la

diffusione delle conoscenze su VOICE e sul riconoscimento vocale in generale.


La collaborazione tra JRC-ISIS e le scuole sopra elencate ha portato alla costituzione

di VOICE-SCUOLE, un sottogruppo del progetto VOICE.

VOICE-SCUOLE agisce principalmente tramite incontri, le finalità dei quali sono lo

studio dei bisogni dei ragazzi sordi in campo scolastico e la sensibilizzazione delle

autorità scolastiche e dell'opinione pubblica sulle potenzialità dei disabili, sulle loro

difficoltà, sulle possibilità di aiutarli grazie all’informatica e alla tecnologia. Gli

incontri tenutisi finora hanno portato ad azioni concrete, quali la decisione di diverse

scuole di prestarsi per la sperimentazione del prototipo per un supporto ai professori

nell'insegnamento delle lingue straniere o in classi con studenti sordi.

Per quanto riguarda le ditte che collaborano a VOICE, citiamo la FBL di Mortara -

Pavia (in quanto responsabile dello sviluppo del prototipo sottotitolatore e della

consulenza sugli aspetti tecnici di questo), e la NET di Colorno (PR) (per la sua opera

di incoraggiamento alla diffusione dei sistemi di riconoscimento vocale e dei supporti

informatici in generale); le altre ditte partner sono reperibili sulle pagine del sito

Internet del progetto.

L’importanza per il progetto VOICE delle attività di sensibilizzazione e diffusione di

informazioni è stata a questo punto chiarita in maniera piuttosto dettagliata. Non si

dimentichi però che questo tipo di attività può essere reso ancor più efficiente grazie ai

nuovi mezzi informatici presenti sul mercato, quali ad esempio Internet. Proprio

Internet è il nucleo del terzo gruppo di attività organizzate e svolte dal progetto

VOICE.

3.1.2.3 L’incoraggiamento all’uso di Internet

VOICE è nato come un insieme di attività svolte al fine di combattere tutto ciò che può

impedire oppure ostacolare l’integrazione dei soggetti sordi nella società, e la loro

possibilità di comunicare. Il JRC-ISIS, che coordina il progetto, si serve, per la

riduzione e (se possibile) l’abolizione di tali ostacoli e barriere, dell’esperienza

acquisita nel settore informatico.

Gli orientamenti seguiti dal JRC-ISIS in questo senso sono:


x la fornitura di sottotitoli;

x l’incoraggiamento all’uso di Internet.

Del primo orientamento abbiamo già ampiamente discusso; ci concentreremo ora sul

secondo.

L’importanza di Internet come mezzo di comunicazione è ormai indiscussa: milioni di

persone in tutto il mondo si servono quotidianamente di Internet e della posta

elettronica per scambiarsi messaggi e informazioni in brevissimo tempo e senza limiti

di distanza. Immaginiamo a questo punto il supporto che questo mezzo potrebbe

fornire alle persone sorde, mettendole in grado di comunicare tra di loro e con persone

udenti, senza alcun tipo di limitazione o svantaggio.

Il progetto VOICE, con l’aiuto dei partner precedentemente citati, si propone dunque

di stimolare ed accrescere l’utilizzo di Internet come mezzo di comunicazione tra le

persone sorde, incoraggiandone innanzi tutto la diffusione nelle scuole, dove questo

mezzo può avere valore oltre che comunicativo, anche pedagogico25.

Ma Internet non è solo un potente mezzo di comunicazione: può essere visto infatti

anche come “pozzo di informazioni”, ovvero come sterminato centro di raccolta di dati

e notizie, a cui chiunque può accedere, da qualunque parte del mondo e in qualunque

momento della giornata. Consapevole di ciò, il JRC-ISIS ha deciso nell’ambito del

progetto VOICE di impegnarsi per la costituzione di un VOICE FORUM su Internet.

Per VOICE FORUM intendiamo uno spazio, all’interno del sito Internet di VOICE,

che funga da punto di incontro per chiunque (tecnico, disabile o semplice interessato)

voglia comunicare o raccogliere informazioni riguardanti il progetto, il mondo della

disabilità, quello dell’informatica, ecc.. Il VOICE FORUM, proprio come l’intero

progetto VOICE, è aperto a tutti. Le associazioni di sordi, le scuole e le ditte coinvolte

sono già presenti, all’interno del sito Internet di VOICE, con i loro dati principali

(indirizzo, finalità, ecc.), ma il FORUM costituirà uno spazio dedicato ad uno scambio

di informazioni ancora più dinamico: le associazioni dei sordi potranno rendere noti i

propri bisogni e le proprie necessità (potenziando allo stesso tempo la propria voce), le

ditte potranno trarne spunto per il miglioramento dei propri prodotti, le scuole

potranno comunicare le proprie esperienze nell’uso dei sistemi di riconoscimento

25 A questo proposito consigliamo a chi sia interessato ad approfondire quest’argomento, di consultare le pagine Internet del sito di VOICE dedicate all'operazione Netd@ys, che proprio nella diffusione di Internet come mezzo comunicativo e pedagogico vede il suo obiettivo centrale.


vocale in classe e chiedere consigli o suggerimenti, e così via, fino a fare del VOICE

FORUM un ulteriore passo nell'abbattimento delle barriere tra sordi e udenti, e tra

sordi e società dell'informazione.


3.2 Aspetti tecnici del riconoscimento vocale

Il presente paragrafo intende illustrare il riconoscimento vocale da un punto di vista più

tecnico rispetto al paragrafo precedente. Riporteremo pertanto qualche breve accenno

storico sui sistemi di riconoscimento vocale, ed una descrizione delle caratteristiche di tali

sistemi e del loro funzionamento. Passeremo poi alla presentazione ed allo studio di

Dragon NaturallySpeaking (il sistema di riconoscimento vocale utilizzato nell’ambito del

progetto VOICE) e della applicazione aggiuntiva NSVideo (sviluppata dalla ditta FBL di

Mortara nel corso della sua collaborazione al progetto, per rendere i sistemi di

riconoscimento vocale più consoni alla sottotitolazione di conferenze, lezioni,

conversazioni, ecc.). Dal momento che proprio alla ditta FBL ci siamo rivolti per dei

chiarimenti e delle dimostrazioni pratiche sul processo di riconoscimento del parlato da

parte del sistema NaturallySpeaking26, forniremo inoltre qualche informazione sulla stessa

ditta e sulle sue esperienze nel campo del riconoscimento vocale.

3.2.1 I sistemi di riconoscimento vocale: storia e funzionamento

“Il riconoscimento del parlato, cioè la possibilità per un calcolatore di poter accettare

comandi direttamente a voce e non per mezzo della tastiera o comunque di un sistema

tattile, è sempre stato uno dei sogni di scienziati e gente comune.

Sfortunatamente, già dopo i primi studi ci si accorse che questo compito non era affatto

banale.”27

Con queste parole inizia un articolo sui sistemi di riconoscimento vocale, pubblicato di

recente su una rivista di informatica. In effetti, i primi esperimenti per la costituzione di

sistemi di riconoscimento vocale risalgono a perecchie decine di anni fa:

“Già negli anni '50 furono progettati alcuni interessanti sistemi per il riconoscimento

automatico di un vocabolario limitato di parole.”28

26Altre fonti a cui abbiamo fatto riferimento per questa parte del paragrafo saranno la presentazione del progetto VOICE reperibile negli atti del congresso IFIP ’98, ed il manuale utente del prodotto Dragon NaturallySpeaking (citati per esteso in bibliografia).27 Codogno, Maurizio; Il Riconoscimento del Parlato: Concetti di Base, in “Developing Software & Solutions”, n° 49, febbraio 1998, pag.16.28Meo, Angelo Raffaele; La voce sintetizzata - La Comunicazione Vocale tra l’Uomo e la Macchina, in “Go”, 1984, pag.8.


In realtà, l’idea di un computer in grado di riconoscere la voce umana era, per quanto

affascinante, altrettanto difficile da realizzare. Diversi fattori ostacolavano (e in parte

ancora oggi ostacolano) infatti il riconoscimento del parlato da parte di un calcolatore. Si

tratta di fattori di ordine sia umano (la variabilità della voce umana) che tecnico (le

capacità del calcolatore).

Per quanto riguarda il primo tipo di fattori, possiamo notare come la voce umana sia

caratterizzata da parametri molto variabili; questi parametri sono differenti non solo a

seconda della persona (età, sesso, provenienza, ecc.), ma variano anche per una stessa

persona (ad esempio, in relazione allo stato di salute, allo stato d’animo, ecc.). Le seguenti

righe riassumono bene il problema appena esposto:

“Che cosa rende il riconoscimento del parlato così difficile?

Alcuni problemi sono evidenti. La voce varia con l’età, il sesso e l’origine geografica del

parlatore. A questi fattori che generano differenze tra diverse persone, occorre

aggiungere i fattori che introducono delle variabilità nella voce di una stessa persona.

Stress, fatica, salute ed emozioni influenzano la voce di un individuo.”29

Inoltre, quando i fonemi (a ognuno dei quali corrispondono, a livello teorico, una

particolare posizione degli organi articolatori ed una particolare realizzazione acustica)

sono pronunciati in sequenza, ovvero all’interno di una parola o di una frase, avviene un

fenomeno definito coarticolazione30, che rende il parlato ancora più variabile:

“[...] il tratto vocale è in movimento continuo mentre si parla e perciò la posizione della

mascella, dei denti e delle labbra sono influenzate dalla loro posizione precedente e da

quella seguente. Questo fenomeno è chiamato coarticolazione ed è una delle

caratteristiche del parlato che più contribuisce alla sua varianza.”31

29 Edman, Tom; Il Riconoscimento Automatico della Voce, versione italiana di Speech Recognition, in “Scientific Honeyweller”, vol.3, n° 3, settembre 1982, pag.38.30 Il fenomeno della coarticolazione è uno degli ostacoli che ancora oggi creano difficoltà nel riconoscimento del parlato da parte dei computer. La maggior parte degli articoli sul riconoscimento vocale dedica almeno qualche riga alla descrizione di questo fenomeno.31 Edman, Tom, op.cit., pag.40.


Questo fenomeno si manifesta sia all’interno di una parola, sia tra una parola e l’altra, con

il risultato che “[...] spesso non vi sono confini tra le varie parole pronunciate, [...]” 32 e che “[...] una

parola sconfina nell’altra [...]”33.

Per concludere il discorso sulla variabilità della voce e del parlato di una persona,

riportiamo alcune righe che ne elencano brevemente i fattori causali:

“Each phoneme has, in theory, a unique acoustic realization that can be characterized by

a set of distinctive features. Unfortunately, the detection and identification is made a

difficult task by several factors, like: the influence a phoneme has on adjacent phonemes;

the phonological variations of different speakers due to their language, dialect, accent,

individual habits; the allophonic variations introduced by a speaker for the same

phoneme.”34

Passiamo ora al secondo tipo di fattori che ostacolano il riconoscimento del parlato da

parte di un calcolatore: questi fattori sono relativi ai limiti del calcolatore stesso. Mentre

infatti l’apparato umano di ricezione è in grado di risolvere le ambiguità che si vengono a

creare a causa della enorme variabilità dei parametri caratterizzanti la produzione dei

suoni, un computer non è in grado di fare tutto ciò. Questo perchè, come leggiamo:

“[...] l’apparato umano di ricezione, quasi a compensare la grossolanità dell’apparato di

trasmissione, è così raffinato da operare quella separazione e il riconoscimento del

contenuto globale del messaggio. [...] E’ il cervello che esegue la maggior parte del

lavoro di interpretazione del messaggio attraverso la conoscenza degli elementi

fondamentali del linguaggio - il lessico, la sintassi, la semantica - e della logica di chi

parla e di come si sviluppa il discorso - la pragmatica. Gli algoritmi utilizzati dal cervello

sono sconosciuti, ma molto probabilmente la loro complessità sarebbe proibitiva per

qualunque calcolatore.”35

32 Ibid., pag.40.33 Ibid., pag.40.34 Rivoira, Silvano; Speech Recognition Systems: Trends and Issues, in “Algoritmy '83”, Atti del Convegno, Vysoke Tatry - Strbske Pleso, 11-15 aprile 1983, pag. 380. “Ogni fonema ha, teoricamente, un’unica realizzazione acustica, caratterizzata da un set di tratti distintivi. Sfortunatamente, la percezione e l’identificazione vengono rese difficili da diversi fattori, quali: l’influenza esercitata da un fonema sui fonemi adiacenti; le variazioni fonologiche di diversi parlanti, dovute alla loro lingua, al loro dialetto, al loro accento, alle loro abitudini individuali; le variazioni allofoniche di diversi parlanti per uno stesso fonema.”35Meo, Angelo Raffaele; op.cit., pag. 8.


Il riconoscimento automatico del parlato si fa inoltre ancora più difficile se un calcolatore,

con tutti i suoi limiti, si deve confrontare, in aggiunta al problema della variabilità di voce

e parlato, anche con quello dell’ampiezza e complessità del vocabolario da riconoscere, e

con quello di eventuali rumori di fondo che disturbino il processo di riconoscimento.

Relativamente al primo caso, possiamo affermare che la probabilità di riconoscere

esattamente la parola pronunciata è inversamente proporzionale all’ampiezza del

vocabolario per il riconoscimento del quale il calcolatore è predisposto36.

Questo limita notevolmente il risultato del riconoscimento, specialmente in considerazione

del fatto che:

“Una persona colta può avere un vocabolario di circa 100.000 parole conosciute, ed un

vocabolario parlato di 3.000-8.000 parole.

Oltre a ciò, il numero di frasi differenti che possono essere formate con tale vocabolario

è, ovviamente, enorme.”37

I limiti del calcolatore riguardano in questo caso specifico la potenza e la capacità di

memoria38.

Relativamente al secondo caso, ovvero quello dei rumori di fondo, questi disturbi possono

essere ridotti grazie all’utilizzo di filtri e di microfoni di alta qualità, migliorando così la

qualità del riconoscimento stesso.

Al giorno d’oggi, molti dei problemi inerenti il riconoscimento vocale sono stati risolti; è

comunque vero che i fattori di tipo umano non possono essere modificati, nè tantomeno

eliminati: la voce ed il parlato delle persone sono e rimangono variabili per definizione. I

36 Come vedremo più avanti, infatti, i primi sistemi di riconoscimento vocale permettevano il riconoscimento di un numero estremamente limitato di vocaboli (a volte solo una decina).37 Edman, Tom; op.cit., pag.38.38 Un aumento delle prestazioni dei calcolatori in questo senso corrisponderà in futuro (come vedremo nelle pagine seguenti) alla possibilità di riconoscere vocabolari più ampii e con un minor margine di errore; non solo: l’avvento di processori via via più potenti permetterà una notevole riduzione nei tempi di risposta, allargando di conseguenza il campo di utilizzo del riconoscimento vocale.


progressi ottenuti nel campo del riconoscimento vocale derivano dunque non tanto da una

rimozione dei problemi, quanto da una attenuazione della loro influenza, grazie ad un

miglioramento delle prestazioni dei sistemi atti al riconoscimento della voce. Forniremo

ora uno sguardo generale sull’evoluzione informatica in questo campo, ovvero sulle fasi di

questo miglioramento.

Come già accennato, i primissimi sistemi di riconoscimento vocale risalgono agli anni '50.

Si tratta però di sistemi rudimentali, frutto di esperimenti isolati, e in grado di riconoscere

(con risultati modesti) non più di una decina di vocaboli:

“La tecnica adottata (‘pattern matching’) non consentì di andare oltre una decina di

parole riconosciute (generalmente i nomi dei dieci numeri da 0 a 9) con una percentuale

di errore dell’ordine di 1-3 per cento.”39

Dei sostanziali miglioramenti nella ricerca in questo campo si sono avuti negli anni '70, in

particolar modo negli Stati Uniti, grazie all’impegno della Defence Advanced Research

Projects Agency (DARPA). Diversi laboratori di ricerca, sia industriali che universitari,

ricevono, in questi anni, dei finanziamenti dalla DARPA per portare avanti gli

esperimenti.

“A lot of research activities were produced, mainly in U.S.A., by the speech

understanding project sponsored by the Defence Advanced Research Projects Agency

from 1971 to 1975.

Important contributions were also carried out by different countries all over the world,

such as U.S.S.R., Japan, Canada, India, France, Germany, U.K., Sweden, Belgium,

Poland and Italy.”40

Uno dei risultati di questi esperimenti è, ad esempio, HARPY, un dispositivo di

riconoscimento della voce progettato nell’università americana Carnegie-Mellon.

39 Meo, Angelo Raffaele; op.cit., pag.8.40 Rivoira, Silvano; Speech Recognition Systems: Trends and Issues, op.cit., pag. 376. “Una intensa attività di ricerca è stata compiuta, principalmente negli U.S.A., nel corso del progetto sul riconoscimento del parlato finanziato dalla Defence Advanced Research Projects Agency tra il 1971 e il 1975.41 Importanti contributi sono inoltre stati forniti da diverse nazioni in tutto il mondo, come ad esempio l’U.R.S.S., il Giappone, il Canada, l’India, la Francia, la Germania, il Regno Unito, la Svezia, il Belgio, la Polonia e l’Italia.”


Con l’inizio degli anni '80, le ricerche sul riconoscimento vocale proseguono, ma tendono

a spostarsi sempre più dall’ambiente accademico a quello industriale e commerciale, cioè

dai laboratori universitari alle aziende tecnologiche ed ai gruppi di imprenditori scientifici.

Tutti si aspettano, come naturale conseguenza, sviluppi significativi nella tecnologia del

riconoscimento:

“[...] per il fatto che sta avvenendo nell’ambiente industriale anzichè in quello

accademico, il fenomeno sarà pilotato dall’obiettivo di offrire un prodotto e di avere un

ritorno dell’investimento, e fornirà perciò probabilmente risultati meno concettuali ma

più pratici.”41

In effetti, in seguito a queste ricerche, i sistemi per il riconoscimento del parlato

cominciano a trovare applicazione in prodotti militari, industriali e di automazione

dell’ufficio, per operazioni quali il comando di macchine utensili, la programmazione

vocale di calcolatori, ecc. I risultati raggiunti suscitano però un eccessivo ottimismo, al

punto da portare gli stessi ricercatori a credere che nel giro di qualche anno sia possibile

lanciare sul mercato elettrodomestici con comandi vocali, oppure sistemi automatici di

dettatura testi.

In realtà, le prestazioni dei dispositivi per il riconoscimento del parlato fino ad allora

sviluppati sono piuttosto modeste.

Di norma, la maggior parte di questi dispositivi:

x presenta vocabolari limitati: questo significa che, a seconda del sistema, il numero di

parole riconosciute può variare da una o poche decine (ad esempio numeri e parole

chiave) a qualche centinaio;

x è speaker-dependent (dipendente dal parlatore): è perciò necessaria, prima dell’utilizzo

del dispositivo, una fase preliminare di addestramento, che permetta allo stesso

dispositivo la memorizzazione del profilo vocale (cioè della pronuncia) dell’utente;

41 Edman, Tom; op.cit., pag. 47.


x opera in parlato discontinuo: riconosce quindi le parole solo se isolate, ovvero

intervallate da una pausa;

x non è abbastanza veloce nei tempi di risposta;

x non è abbastanza affidabile nel risultato del riconoscimento: il disturbo dei rumori di

fondo e la qualità ancora modesta dei motori di riconoscimento sono la causa di errori

ancora troppo frequenti.

Inoltre, questi dispositivi non sono ancora abbastanza diffusi, ed i loro costi (sia di

realizzazione, che di acquisto) sono ancora eccessivi se paragonati alle prestazioni

fornite; riportiamo qui di seguito alcuni brani (tratti da una rivista di inizio anni '80)

che illustrano con una visione di insieme lo stato di avanzamento delle ricerche sul

riconoscimento vocale, ed i limiti da noi appena elencati:

“[...] i sistemi commerciali lasciano all’utente il compito di segmentare la frase in

parole, e gli richiedono di far precedere e seguire ogni parola da una adeguata pausa

di silenzio. Infine, i sistemi commerciali rinunciano a grandi vocabolari; la maggior

parte hanno vocabolari di non più di 100 parole e il funzionamento ottimale si ha con

un quinto di tale dimensione.”42

“Finora i dispositivi commerciali di riconoscimento della voce non hanno rimunerato

finanziariamente i loro sviluppatori o produttori. Nessun fabbricante di questi dispositivi

ha finora tratto profitti e la maggior parte di essi sono ancora nel settore solo perchè

hanno alle spalle una grande e diversificata azienda multinazionale. All’inizio del 1982,

infatti, la più vecchia azienda produttrice di riconoscitori della voce, la Heuristics Inc., ha

dichiarato fallimento, mentre la casa madre dell’attuale leader del mercato ha dichiarato

che il 1982 deve portare profitti, altrimenti...

[...]

Il prezzo relativamente alto e interfacce difficili hanno certo deluso gli utenti coraggiosi

e scoraggiato quelli timidi. Ma la ragione più probabile è che non sono state trovate

42 Ibid., pag.41-42.


abbastanza applicazioni in cui la voce presenta persuasivi vantaggi sui sistemi

competitvi.”43

Le prospettive per il futuro sono, comunque, positive: nonostante il fallimento di

importanti aziende come la Heuristics Inc., infatti, le ricerche nel campo del

riconoscimento vocale continuano in molte altre compagnie, quali la Texas Instruments

Inc., la Digital Equipment Corp., la Hewlett-Packard Co., ecc.. Anche al di fuori degli

Stati Uniti (Giappone, Gran Bretagna, Francia, Italia, ecc.) vengono portate avanti attività

di ricerca e vengono sviluppati dispositivi di riconoscimento del parlato. Con il graduale

miglioramento dei risultati forniti dai dispositivi sviluppati, si comincia inoltre a pensare a

nuove applicazioni del riconoscimento vocale:

“L’interesse generale dei dispositivi per il riconoscimento automatico della voce è

raramente messo in discussione. Ci sono delle applicazioni in cui la voce è solo un mezzo

più comodo, altre in cui diventa il solo mezzo a disposizione.”44

Situazioni di questo tipo si presentano in ambito lavorativo (dove non sempre le mani e gli

occhi sono liberi e consentono l’utilizzo della tastiera di un computer), ma anche e sempre

più spesso nel caso di persone impossibilitate all’uso delle mani a causa di qualche forma

di disabilità:

“For anyone with disabled hands, and that includes not only amputees but arthritis

sufferers, then it could be very liberating indeed, allowing access to hitherto unavailable

technology.”45

Tuttavia, l’utilizzo del riconoscimento vocale per la dettatura di testi (in ambito

lavorativo) e per la sottotitolazione alle persone sorde (in ambito assistenziale) è ancora

lontano. Alcuni ostacoli impediscono ancora la sua diffusione in questo senso:

“[...] some obstacles must be overcome if S.R.S. are to have a major impact in

commercial markets. The systems must:

43 Ibid., pag.47.44 Ibid., pag.47.45 A.A.V.V.; Supersoft’s Voicedrive, in “Personal Computer World”, agosto 1984, pag.133. “Per chiunque soffra di disabilità alle mani, ovvero non solo persone che hanno subito amputazioni, ma anche soggette ad artrite, questo potrebbe essere molto confortante, e consentire l’accesso a tecnologie fino ad oggi non fruibili.”


x adapt to multiple users;

x handle natural, continuous speech;

x accommodate a vocabulary of 5.000 to 10.000 words;

x adapt to different task domains;

x have a reduced cost.”46

Per il superamento di questi ostacoli (o per lo meno parte di essi), bisogna aspettare

l’inizio degli anni '90. In questi anni assistiamo a continui e sbalorditivi progressi in

campo informatico e tecnologico; altrettanto continue e sbalorditive sono le evoluzioni

nell’ambito specifico del riconoscimento vocale; vediamo infatti nascere dei sistemi:

x con dizionari molto estesi (i prodotti più recenti vantano dizionari di decine di migliaia

di vocaboli);

x sempre speaker-dependent (dipendenti dal parlatore), ma di qualità decisamente

superiore rispetto ai sistemi dipendenti dal parlatore sviluppati negli anni '80: la fase di

addestramento del profilo vocale è più semplice e veloce, ed i risultati ottenuti nel

riconoscimento al termine di questa fase rasentano la perfezione;

x speaker-independent (indipendenti dal parlatore): sistemi di questo tipo non richiedono

addestramento da parte dell’utente, ma di conseguenza garantiscono una minore

precisione nel riconoscimento rispetto ai sistemi dipendenti dal parlatore, e sono perciò

ancora poco diffusi;

46 Rivoira, Silvano; Speech Recognition Systems: Trends and Issues, op.cit., pag.384: “[...] è necessario superare alcuni ostacoli, se si desidera che i sistemi di riconoscimento vocale abbiano un impatto maggiore sul mercato. Questi sistemi devono:48 - essere multiutente;49 - riconoscere un parlato naturale, continuo;50 - avere un vocabolario che contenga dalle 5.000 alle 10.000 parole;51 - essere utilizzabili per diverse mansioni in diversi ambiti operativi;52 - essere meno costosi.”


x operanti in parlato continuo: questo significa che l’utente può ottenere il

riconoscimento di frasi intere, e per di più pronunciate in modo del tutto naturale e

senza pause tra le parole47;

x operanti in parlato spontaneo: simili sistemi riconoscono il parlato di tutti i giorni,

“[...] con tutti gli ‘ehmmm...’ e gli ‘ah...’ che rendono il tutto estremamente difficoltoso. Inutile dire

che lo stato dell’arte di questi ultimi sistemi è più arretrato di quello dei primi.”48

x veloci nei tempi di risposta;

x efficienti nel riconoscimento (si parla di oltre il 90% di riconoscimento esatto), grazie

all’alta qualità non solo dei motori di riconoscimento, ma anche dei microfoni, in

grado di ridurre al minimo l’influenza dei rumori di fondo, e di consentire la dettatura

automatica di un testo anche in ambienti discretamente rumorosi;

x dotati di interfacce che ne rendono l’uso semplice ed accessibile per qualsiasi tipo di

utente49;

x economicamente accessibili: i prezzi variano notevolmente a seconda del prodotto e

della versione dello stesso; un software per il riconoscimento automatico della voce tra

i più recenti ed efficienti si può comunque già acquistare con poche centinaia di

migliaia di lire;

47 I sistemi operanti in parlato discontinuo o discreto non perdono comunque la loro importanza: utilizzati in ambiti che richiedano il riconoscimento di dizionari limitati (refertazioni radiologiche, comandi vocali a macchinari o supporti tecnologici per disabili fisici e motori), essi permettono un riconoscimento senza precedenti, il tutto con l’impiego di hardware dotati di potenza e memoria non eccessive.48 Codogno, Maurizio; Il riconoscimento del parlato: concetti di base, op.cit., pag.16.49 Per dimostrare l’importanza dell’interfaccia nel rendere un sistema di riconoscimento vocale user-friendly, ovvero semplice da usare anche per utenti inesperti, riportiamo la seguente affermazione da: Fanciulli, Marco; Suggerimenti per la Costruzione di un’Interfaccia Vocale, in “Developing Software & Solutions”, n° 49, febbraio 1998, pag. 32: “Che cosa deve indicare l’interfaccia? Dovrebbe quantomeno indicare lo stato in cui si trova il motore di riconoscimento. Ad esempio è opportuno che si possa intuire facilmente quando è possibile pronunciare una frase, quando invece il sistema è impegnato nel riconoscimento di una frase precedente e gli esiti del riconoscimento (magari fornendo anche una trascrizione di quanto riconosciuto [...] ).”


Particolari successi nel campo del riconoscimento vocale sono stati ottenuti in questi

anni dalle compagnie IBM e Dragon Systems: entrambe hanno lanciato sul mercato

validissimi sistemi, sia per il riconoscimento in parlato discreto (ad esempio

VoiceType Dictation di IBM e DragonDictate di Dragon Systems) che per il

riconoscimento in parlato continuo (ad esempio MedSpeak o ViaVoice di IBM e

Dragon NaturallySpeaking di Dragon Systems). Sviluppi interessanti si hanno però

anche in altre compagnie, ad esempio la Philips e la Learnout & Hauspie; molte

ricerche si orientano inoltre verso il riconoscimento in ambito telefonico, ecc.50.

Insomma, possiamo dire che al giorno d’oggi i sistemi di riconoscimento vocale sono

ampiamente diffusi e comunemente utilizzati in diversi ambiti, al punto che si è tornati

a parlare (e questa volta in maniera meno sognante e più concreta) di rivoluzione

informatica, e di elettrodomestici, o addirittura automobili, che rispondono a comandi

vocali:

“Il riconoscimento vocale, ovvero la tecnologia che consente al personal computer di

tradurre in testo le parole pronunciate a voce, sarà infatti la chiave di volta in tutti i

procedimenti per tradurre dal parlato allo scritto.

E permetterà l’accadere di una rivoluzione: la quasi scomparsa della tastiera, poichè

molti comandi che diamo al computer oggi tramite i tasti potranno essere comunicati a

voce.

[...] l’applicazione più importante è quella che consente ad un computer [...] di ‘obbedire’

ad ordini vocali. Il ‘range’ di utilizzo di una simile possibilità è enorme: basta pensare

agli autoveicoli le cui funzioni accessorie possono essere comandate direttamente dalla

voce del conducente (‘accendi i fari...’), [...] ai telefonini che già ora sono in grado di

comporre numeri telefonici semplicemente dicendo il nome della persona a cui si vuole

telefonare. Ma le applicazioni sono infinite. Dalla gestione della casa (‘accendi le luci in

soggiorno’) alle attività industriali, fino al controllo di apparecchiature complesse in

campo medico-chirurgico o in campo spaziale. [...]”51

50 Alcune interessanti panoramiche sui sistemi di riconoscimento vocale attualmente più diffusi sul mercato, con brevi descrizioni sulle loro prestazioni, si possono trovare nei seguenti articoli: Codogno, Maurizio; Il Riconoscimento del Parlato: Concetti di Base, op. cit., pag.22; De Sanctis, Francesco; Quando Computer e Voce si Incontrano..., in “Computer, Internet e altro”, n° 7, 19 novembre 1998, pagg.36-37.51 De Sanctis, Francesco; op.cit., pagg.36-37.


Una cosa è comunque certa: utilizzare un sistema di riconoscimento vocale è diventato al

giorno d’oggi estremamente facile e vantaggioso, e se per il futuro ci si prefiggono scopi

come il miglioramento dei livelli di precisione e l’ampliamento dei dizionari di questi

sistemi è altrettanto vero che un enorme obiettivo è già stato raggiunto: l’utilizzo del

riconoscimento vocale per le funzioni di dettatura di testi (una volta vista come

irraggiungibile ed oggi definita “scontata”52), e di sottotitolazione di conversazioni in

presenza di persone sorde (attualmente ancora in via di sperimentazione). Il tutto “con le

potenzialità e gli strumenti di un normale PC.”53

Come abbiamo potuto vedere, i sistemi di riconoscimento vocale subiscono nel corso degli

anni delle evoluzioni e degli sviluppi stupefacenti. Vorremmo ora spendere qualche parola

per illustrare le loro tecniche di funzionamento, evitando tuttavia di trattare l’argomento

troppo dettagliatamente. Prenderemo pertanto ad esempio i sistemi di tipo speaker-

dependent (ovvero quelli ancora oggi più diffusi), e ci limiteremo ad esporre i criteri di

base che ne regolano il funzionamento.

Innanzi tutto, abbiamo la fase di addestramento: ogni utente deve addestrare il sistema al

riconoscimento della propria voce. Nei sistemi più datati questa fase consisteva nel

ripetere più volte ogni parola del vocabolario, mentre al giorno d’oggi consiste nella

lettura, frase per frase o paragrafo per paragrafo, di un brano predefinito. Importante per la

fase di addestramento è :

che questa venga compiuta in un ambiente il più possibile vicino a quello in cui

verrà utilizzato il sistema;

che durante questa fase l’utente parli in modo naturale, esattamente come parlerà

durante il normale utilizzo del sistema, evitando cioè di pronunciare le parole in maniera

marcatamente artificiale (e questo avviene quando ci si sforza di parlare in modo

eccessivamente chiaro e attento): un modo di parlare naturale e rilassato migliorerà le

prestazioni del riconoscimento.

52 Ibid., pag.37.53 Ibid., pag.37.


In secondo luogo, abbiamo la prima fase di utilizzo del sistema, che si può suddividere in

due grandi momenti: l’acquisizione e l’elaborazione del dato vocale ricevuto in entrata.

L’acquisizione del segnale vocale (la singola parola nel caso di un parlato discreto, e

l’intera frase nel caso di un parlato continuo) equivale alla rilevazione di inizio e fine di

tale segnale (per questo si richiede all’utente di intervallare le parole o le frasi, a seconda,

con delle brevi pause), effettuata mediante un microfono di buona qualità54, in grado di

discriminare il discorso dal rumore di fondo.

Una volta acquisito, il segnale vocale viene elaborato, ovvero trasformato in un dato che

il calcolatore possa utilizzare: uno dei momenti di questa elaborazione consiste nell’analisi

di energia e frequenza del segnale.

In ultimo, abbiamo la seconda fase di utilizzo del sistema, cioè il vero e proprio

riconoscimento del parlato, che funziona secondo il principio del confronto e dell’analisi

statistica. Per quanto riguarda il primo, la sopra spiegata fase di addestramento crea e

immette nel sistema, per ogni parola o frase pronunciata dall’utente, dei modelli o sagome

di riferimento55, che verranno confrontati con i dati in entrata pronunciati durante l’utilizzo

del sistema stesso. Come leggiamo nelle seguenti righe:

“[...] il riconoscimento avviene trovando il miglior accoppiamento tra il pattern acustico

della parola in esame ed un membro di un gruppo di parole di riferimento (‘sagome’), il

cui spettro è registrato nella memoria della macchina.”56

Questo procedimento viene definito pattern matching (confronto delle sagome).

Con il passare degli anni, naturalmente, le tecniche di riconoscimento si sono via via

perfezionate, fino a consentire (come visto nelle pagine precedenti) un ampliamento dei

dizionari, una riduzione nei tempi di risposta, ed un miglioramento nell’affidabilità dei

sistemi. In ogni caso, il criterio di base che sottostà a tutte queste tecniche, sebbene

54 Solitamente un microfono per distanza ravvicinata e a cancellazione di rumore, che permetta, come si legge in De Sanctis, Francesco; op.cit., pag.37: “[...] un percorso pulito per i dati audio, [...]”.55 Ovvero delle sequenze fonemiche.56 Edman, Tom; op.cit., pag.42.


migliorato e perfezionato, rimane sempre quello appena esposto, ovvero quello del

confronto, che ancora oggi viene definito nel seguente modo:

“[...] la fase di addestramento produce dei prototipi, (template), delle parole possibili; in

fase di riconoscimento si prendono i parametri della parola incognita e si misura quale

dei parametri è il più ‘vicino’.”57

Per quanto riguarda invece l’analisi statistica, possiamo dire che si tratta di uno dei

parametri utilizzati dal sistema durante la fase del confronto, per individuare la parola

pronunciata dall’utente; il tutto sulla base del contesto in cui questa parola è inserita. Si

noti come, nel caso di un tale sistema, basarsi sul contesto significhi basarsi non sul

significato, bensì sulla probabilità che una data parola ha di comparire in una data

sequenza58. A questo proposito riportiamo qualche indicazione sul processo di

riconoscimento del sistema ViaVoice, l’ultimo prodotto in casa IBM per il riconoscimento

del parlato continuo:

“[...] prima identifica tutte le parole candidate, poi analizza le probabilità delle sequenze

delle parole secondo un modello del linguaggio. [...]

[...] una parola viene individuata basandosi sulla parola che precede e su quella che

segue. [...] Successivamente, viene eseguito un ulteriore match acustico, con un modello

acustico a grana più fine, in modo da produrre una lista ordinata di parole candidate.

Infine il decoder, sulla base dei risultati dei match precedenti, ricerca la sequenza più

probabile di parole: questa sequenza rappresenta la frase compresa dal sistema.”59

Concludiamo ora il discorso sulle tecniche di funzionamento dei sistemi di riconoscimento

vocale, sottolineando che se a queste tecniche (sempre più valide ed efficienti)

aggiungiamo l’esperienza e la padronanza che un utente può acquisire nell’utilizzo di tali

57 Codogno, Maurizio; op.cit., pag.18.58 Nel caso di un sistema in parlato discontinuo, il calcolo statistico si riduce all’analisi della frequenza d’uso di una determinata parola: una parola con un’elevata frequenza d’uso verrà preferita, durante la fase del confronto, ad una parola simile ma con minore frequenza d’uso. Viene comunque tenuto conto, anche se in minima parte rispetto a un sistema in parlato continuo, della relazione tra la parola in questione e quella o quelle immediatamente precedenti. In questo senso, si può dire che il parlato continuo riprende e perfeziona dei principi già in parte presenti nel parlato discontinuo.59 D’Auria, Silvana; Grimaldi, Nino; Architettura e Funzionamento del ViaVoice, in “Developing Software & Solutions”, n° 49, febbraio 1998, pagg. 21-22.


sistemi, i risultati ottenuti nel riconoscimento del parlato possono raggiungere livelli di

precisione sbalorditivi. Si tratta pertanto di un lavoro congiunto tra sistema e utente:

“[...] ogni corretto riconoscimento costituisce un rinforzo, in quanto sia l’utente che il

dispositivo tendono a condizionarsi sottilmente l’un l’altro.”60

D’altra parte, sebbene non recentissima, è comunque significativa l’esperienza personale

di utilizzo di un sistema di riconoscimento vocale narrataci in queste ultime righe61:

“I found that the ‘hit rate’ or accuracy of the system improved with experience. This is

partly a result of training the computer and part of training the human. As I became used

to the system’s limitations I developed a more relaxed way of talking to it.

At first one is inclined to speak too loudly and with exaggerated emphasis (the way some

people talk to children); as this is not natural, it’s also difficult to keep consistent, and

thus gives poor results. In similar fashion, one must learn not to ‘snap’ at it when it gets a

word wrong; that alters your pronunciation too and leads to a vicious circle which is only

terminated by bursting a blood vessel.”62

3.2.2 I sistemi di riconoscimento vocale: l’esperienza della FBL software house

FBL, contrada della torre n° 16, 27036 Mortara (PV): si tratta di una software house che

dal 1992 si occupa della distribuzione di applicazioni “voice-controlled” per personal

computer. L'esperienza acquisita in questo campo ha avvicinato la FBL al mondo

ospedaliero ed a quello della disabilità. Le installazioni di applicazioni del tipo sopra

60 Edman, Tom; op.cit., pag.48.61 Per quanto riguarda invece la nostra esperienza personale (esperienza recentissima e derivante dall’utilizzo del sistema di riconoscimento vocale nell’ambito del progetto VOICE), ad essa sono dedicati i paragrafi 3.3 e 3.4 del presente capitolo.62 A.A.V.V.; Supersoft’s Voicedrive, op.cit., pag.133: “Ho notato che i risultati, ovvero la precisione, del sistema miglioravano con l’esperienza. Questo è la conseguenza dell’addestramento in parte del computer, e in parte dell’uomo. Nel momento in cui mi sono adeguato ai limiti del sistema, il mio modo di parlare è diventato più rilassato.69 Da principio si tende a parlare ad alta voce ed esagerando nell’enfatizzare (come si è talvolta soliti fare con i bambini); ciò non rispetta però il modo naturale di parlare, e dà pertanto degli scarsi risultati. Allo stesso tempo bisogna imparare a non perdere il controllo quando il sistema sbaglia il riconoscimento di una parola, perchè anche ciò altera la pronuncia di una persona, e porta ad un circolo vizioso che ha fine solo quando a questa persona saltano i nervi.”


descritto (nel caso specifico su macchine per disabili motori63) aumentano ogni anno: dal

1992 (anno, per l’appunto, delle prime installazioni) ad oggi se ne contano alcune

centinaia.

Ultimamente, la crescente diffusione dei sistemi di riconoscimento vocale, insieme al

miglioramento della loro qualità (e, di conseguenza, dei risultati da loro forniti) ha

avvicinato sempre più la FBL al mondo della sordità: la possibilità di sottotitolare

conversazioni mediante riconoscimento vocale appariva infatti in modo sempre maggiore

come una possibilità realizzabile a breve termine.

L'incontro della ditta con il Centro Comune di Ricerca, sito di Ispra, ha evidenziato, nel

desiderio di entrambi di mettere l'informatica al servizio dei disabili (i sordi in particolar

modo), un importante interesse comune. Da questo interesse comune è nato il progetto

VOICE, per il quale proprio la FBL ha sviluppato il software aggiuntivo NS Video64.

Ripercorreremo ora l’approdo dei primi sistemi di riconoscimento vocale alla ditta di

Mortara, le tappe del loro addestramento iniziale (ovvero la costituzione del loro

dizionario) e l'evoluzione di questi sistemi in versioni più potenti ed innovative.

Il primo contatto della FBL con i sistemi di riconoscimento vocale risale, come già

accennato, al 1992. Due sono a quel momento le maggiori case produttrici di questo tipo

di sistemi: la IBM e la Dragon Systems Inc., che svilupperanno via via, in modo pressoché

parallelo, le nuove versioni dei loro prodotti.

Nel 1992, i prodotti offerti da queste due case sono rispettivamente: un sistema IBM ad

uso radiologico (e quindi con un dizionario ristretto) su stazione di lavoro di tipo Risk, ed

un sistema Dragon operante su personal computer. Se paragonate al loro prezzo, le

prestazioni di questi sistemi sono ancora decisamente scarse. Per un costo vicino al

centinaio di milioni (inclusivo di hardware e software) ci troviamo infatti di fronte alle

seguenti funzionalità:

x un riconoscimento vocale in parlato discontinuo o discreto (disjointed speech): come

già spiegato in 3.2.1, un sistema di questo tipo riconosce una parola alla volta, e lo

speaker deve pertanto intervallare ogni parola con una pausa, per permetterne

l'elaborazione ed il riconoscimento;

63 Applicazioni controllabili a voce per personal computer sono inoltre sempre più diffuse anche come ausilio ai non vedenti: esse includono la possibilità di consultare agende telefoniche elettroniche e di comporre numeri telefonici, il tutto per mezzo di comandi vocali. 64 Come avremo modo di vedere in 3.2.4, NS Video è un vero e proprio sistema di sottotitolazione automatica.


x una produttività di 20-30 parole al minuto (ovvero simile a quella di una normale

segretaria che batte al computer sotto dettatura);

x un dizionario italiano di circa 7.000 parole (cioè ancora piuttosto limitato).

Ogni anno riserva comunque in questo campo cambiamenti ed evoluzioni: negli anni

1993 e 1994 entrambi i prodotti diventano infatti un sistema operante sotto Windows.

Da questo punto in avanti concentreremo la nostra attenzione sull’esperienza acquisita

dalla FBL Software House relativamente ai sistemi sviluppati dalla Dragon Systems

(ovvero DragonDictate e le sue seguenti evoluzioni), a partire dalla creazione dei

dizionari di tali sistemi.

Tra il 1993 e il 1994 la ditta FBL collabora con Dragon Systems Inc. allo sviluppo di

un dizionario della lingua italiana di 32.000 termini. Analizziamo ora le fasi della

creazione di questo dizionario.

La prima fase dell'intera operazione consiste nella raccolta di un elevato numero di

vocaboli. Si tratta di cinquanta milioni di termini, presi dai testi dei maggiori

quotidiani (a cui sono state in precedenza tolte le parti irrilevanti ai fini della nostra

analisi: foto; messaggi con un alto livello di ripetitività, come le inserzioni

pubblicitarie e gli inserti dedicati a cinema e spettacoli), delle maggiori riviste e di

alcuni libri di autori italiani. Quest'enorme quantitativo di dati non viene raccolto

casualmente, ma secondo un determinato criterio: il campione di parole selezionato

dovrà infatti rappresentare la lingua italiana corrente, quella comunemente usata65.

La seconda fase è quella di pulizia dei testi raccolti, che verranno scremati della loro

punteggiatura: si tratta di un'operazione relativamente semplice.

Il passo successivo sarà invece una vera e propria operazione di selezione. I testi

raccolti verranno analizzati da un apposito elaboratore, che selezionerà le parole in

base alla loro frequenza d'uso. Si tratta di un calcolo statistico, grazie al quale viene

determinata la percentuale con cui una certa parola ricorre all’interno di un certo testo.

Il risultato di quest'analisi permette di stabilire quali sono le parole generalmente più

utilizzate nella lingua italiana (nel caso specifico della creazione di dizionario per il

65 Proprio a questo fine i supporti scelti per la raccolta di queste parole sono i maggiori quotidiani, le maggiori riviste, i libri di autori italiani contemporanei. I suddetti supporti includono anche espressioni e termini colloquiali utilizzati nell’ambito della lingua orale; ecco perchè questa non è stata presa in considerazione in quanto tale, nel corso della raccolta di vocaboli per la creazione del dizionario del sistema.


sistema Dragon Dictate, sono state selezionate le 32.000 parole più utilizzate),

operazione che ci consente di passare alla fase successiva: quella dell'addestramento.

Lo scopo di questa fase è la vera e propria immissione, nel sistema, delle parole

selezionate, per poterne ottenere il futuro riconoscimento. La FBL si è occupata di

raccogliere 50 persone (di cui 25 maschi e 25 femmine) suddivise per fasce di età: le

persone di età compresa tra i 20 e i 30 anni con una percentuale del 50%, quelle di età

compresa tra i 30 e di 40 anni con una percentuale del 30%, e infine quelle di età

superiore ai 40 anni con una percentuale del 20 %66.

A queste persone è spettato il compito di addestrare, ovvero di pronunciare in un

microfono collegato al computer, le parole selezionate (ad ogni persona sono state

sottoposte fino a 3.000 parole)67.

Con quest’ultima fase termina l’intera operazione68: il dizionario è finalmente completo. Il

sistema è ora in grado di operare, ovvero di eseguire il riconoscimento vocale delle parole

che gli sono state “insegnate”.

Si ricordi che quello sin qui descritto è un sistema di riconoscimento vocale in parlato

discreto, che richiede cioè la dettatura di una parola alla volta, intervallata da una pausa69.

Simili sistemi offrono all'utente una produttività in dettatura tra le cinquanta e le settanta

parole al minuto70 (mentre anche le segretarie più veloci non superano le 40 parole al

66 Questa suddivisione è tutt'altro che casuale: il peso maggiore è stato dato alla fascia di età compresa tra i 20 e i 30 anni, perché proprio a questa fascia sono indirizzate le previsioni di maggiore utenza dei sistemi di riconoscimento vocale.67 Non c'è da stupirsi, a questo punto, se l'intera operazione di creazione del dizionario di Dragon Dictate è durata per quasi un anno.68 Operazioni di questo tipo (raccolta e selezione di vocaboli, registrazione di questi da parte di persone a loro volta accuratamente selezionate, ecc.) per la costituzione e la valutazione di sistemi di riconoscimento vocale sono state effettuate già in precedenza: un esempio dettagliato ci viene fornito in: Castagneri, Giuseppe; Vagges, Kyriaki; The Italian National Database for Speech Recognition, in “Quaderni del Centro di Studio per le Ricerche di Fonetica” del Consiglio Nazionale delle Ricerche, vol. IX, 1990, Edizioni Libreria Progetto, Padova, pag. 230, dove si legge: “Large speech databeses are essential both for testing and evaluating automatic voice recognition and synthesis systems [...]” / “Ampi databese di linguaggio sono essenziali sia per i test che per le valutazioni su sistemi di riconoscimento e sintesi vocale automatica [...]” e ancora: “The object of this long-term project is to begin the collection of a large corpus of italian speech. It is the first joint effort in Italy that meets the needs of a variety of groups active in the field of speech science and speech technology.” / “Lo scopo di questo progetto a lungo termine è iniziare la raccolta di un vasto corpus della lingua italiana. Si tratta del primo sforzo congiunto, in Italia, che viene incontro ai bisogni di una varietà di gruppi operanti nel campo della scienza del linguaggio e della tecnologia del linguaggio.”69 Si tenga presente che ogni fase dell’operazione di creazione del dizionario, dalla raccolta e selezione dei vocaboli all’immissione di questi nel sistema, è stata eseguita in funzione di questa modalità di riconoscimento.70 Si noti come questa prestazione sia già migliorata rispetto alle 20-30 parole al minuto riconosciute dai sistemi precedenti.


minuto), ma non hanno avuto un enorme successo in ambito commerciale: le persone

preferiscono una produttività lievemente inferiore, piuttosto che dover dettare un testo

separando ogni parola con una pausa. Il vero successo del parlato discreto si è invece

riscontrato nel caso di persone impossibilitate all'uso della tastiera, ovvero i disabili

motori, i quali hanno tratto da Dragon Dictate dei benefici fino ad allora insperati.

Nell'anno 1997 si ha un nuovo enorme passo in avanti. Si diffondono infatti sul mercato i

sistemi di riconoscimento vocale in parlato continuo (continuous speech): questi

permetteranno di dettare, come già visto in 3.2.1, non più solo una parola alla volta, bensì

intere frasi. La loro produttività raggiunge dalle 100 alle 140-150 parole al minuto, ma,

soprattutto, il modo di dettare diventa più naturale e più fluido, con un miglioramento

abissale rispetto al parlato discreto. Questo in quanto la pausa che dà il via

all’elaborazione ed al riconoscimento del testo andrà posta non più tra una parola e l'altra,

ma semplicemente alla fine di una frase o di un periodo.

L'addestramento iniziale del sistema consisterà a questo punto nella lettura, da parte di

diverse persone, non più di parole singole, ma di frasi prestabilite e già campionate nel

sistema, scelte in base ai suoni che contengono, alla frequenza d'uso ed all'ordine delle

parole che le compongono. Il parlato continuo infatti riconosce una determinata parola in

funzione non solo di se stessa, ma anche della parola o delle parole che la precedono e la

seguono. Questo sistema dà cioè importanza (come già visto precedentemente), oltre che

alla frequenza con cui una parola viene pronunciata, anche alla sequenza in cui questa è

posta, ed effettua, nell'elaborazione del parlato, un calcolo statistico frase per frase.

Ma di questo parleremo più tardi. Per ora ci basti aggiungere che tali sistemi raggiungono,

una volta addestrati dall'utente che se ne dovrà servire, dei livelli di riconoscimento

superiori al 95%, con un obiettivo, dichiarato dal produttore, del 98%. Questo fa del

parlato continuo un sistema decisamente più efficace e richiesto sul mercato, in particolar

modo in ambiti commerciali e medici71.

Come tutti i progressi compiuti fin dal 1992, anche l'evoluzione da parlato discreto a

parlato continuo72 si svolge in parallelo tra le due case produttrici IBM e Dragon. Come

71 Il parlato discreto comunque esiste ancora, ed è molto usato nel caso di disabili motori (come già accennato in 3.2.1) o di persone con problemi di articolazione, che non necessitano di dettare lunghe frasi o grandi quantitativi di vocaboli.72 E’ bene precisare che i miglioramenti nelle prestazioni del riconoscimento vocale vanno imputati non solo ad evoluzioni dei sistemi di riconoscimento vocale in versioni sempre più nuove e funzionali, ma anche al miglioramento delle componenti hardware di tali prodotti, ovvero allo sviluppo di processori via via più potenti, che permettono una sempre maggiore velocità del processo di riconoscimento.


già chiarito, però, noi abbiamo scelto di concentrarci esclusivamente sul prodotto della

casa Dragon, ovvero Dragon NaturallySpeaking, il sistema di riconoscimento vocale

utilizzato attualmente nell'ambito del progetto VOICE.

3.2.3 Dragon NaturallySpeaking - caratteristiche e funzionamento

La maggior parte degli utenti di sistemi di riconoscimento vocale ignora solitamente le

complesse operazioni non solo informatiche, ma anche e specialmente di riconoscimento

del suono, che portano al funzionamento di questi. Con la spiegazione che segue ci

proponiamo pertanto di addentrarci nei sistemi di riconoscimento vocale, e di chiarire al

lettore, più che le modalità di impiego di questi73, i veri e propri passi che dalla pronuncia

di una parola o di una frase portano alla comparsa di queste sul video di un computer.

Dopo una breve descrizione dei requisiti e delle funzioni di Dragon NaturallySpeaking

passeremo quindi ad illustrare nel modo più chiaro possibile il processo di elaborazione e

riconoscimento testi di questo sistema.

3.2.3.1 Caratteristiche del sistema di riconoscimento vocale Dragon NaturallySpeaking

Dragon NaturallySpeaking è un sistema di riconoscimento vocale continuo di uso generale

ad ampio vocabolario e ad alta precisione di riconoscimento, “[...] che consente di pronunciare

le parole anziché digitarle alla tastiera migliorando notevolmente la produttività .”74 Grazie a questo

sistema, è possibile dettare anche interi paragrafi tutti d'un fiato; eventuali correzioni

potranno essere apportate utilizzando solo comandi vocali. Anche il puntatore del mouse

potrà essere controllato a voce.

Le informazioni generali ci ricordano che si tratta di un sistema:

x in parlato continuo: “È possibile parlare al computer in modo naturale e in tono discorsivo, senza

pause tra le parole. Le parole pronunciate vengono immediatamente visualizzate sullo schermo del

computer, [...]”75;

73 Reperibili d'altra parte in qualsiasi manuale utente e, per comodità, ulteriormente esemplificate nei paragrafi 3.3 e 3.4.74 Dragon Systems Inc. (a cura di ); Dragon NaturallySpeaking Professional, documentazione divulgativa.75 Ibid.


x con un’alta precisione di riconoscimento: “Dopo aver adattato Dragon NaturallySpeaking

alla propria voce, è possibile ottenere una precisione di riconoscimento di oltre il 95%. Il programma

si adegua automaticamente ad accenti e pronunce individuali.”76;

x e corredato di vocabolari estesi: “ Il riconoscimento è immediato per la maggior parte delle

parole di uso comune. Il vocabolario attivo di 50.000 parole contiene termini e nomi ricavati da

un'ampia gamma di argomenti ed è supportato dal vocabolario di riserva di 220.000 parole. [...] Si

possono aggiungere nuove parole anche pronunciandole e specificandone l'ortografia [...]”77.

Per l'installazione di un simile sistema, i requisiti minimi necessari saranno:

x innanzi tutto, un PC di buona potenza (si consiglia un PC IBM compatibile con

processore Pentium di 166 MHz MMX come minimo), con Windows '95;

x una scheda audio di buona qualità (dal momento che questa costituirà la base per gli

input acustici);

x una buona memoria RAM (almeno 64 Mbyte)78.

All'acquisto del sistema di riconoscimento vocale, il prodotto è abitualmente corredato di

un microfono di alta qualità.

Una volta installato, il sistema è pronto per essere dapprima addestrato ed in seguito

utilizzato dall'utente. L'addestramento, come più volte accennato, consiste nella lettura,

frase per frase, di un testo fornito dal sistema, in base alle istruzioni che compaiono sul

video del PC (per la versione italiana si tratta di alcuni spezzoni tratti da Pinocchio di

Carlo Collodi79, mentre per quella inglese i brani scelti sono tratti da 3001, The Final

Odyssey, di Arthur C. Clarke).

Terminato l'addestramento, l'unico pensiero dell'utente è solitamente quello di gettarsi a

capofitto in una prima prova di dettatura, e con occhio attento analizzare il brano parola

per parola per scovare eventuali errori di riconoscimento. A pochi però verrà in mente di

chiedersi come questo “miracolo dell'informatica e della tecnologia” abbia potuto

compiersi.

76 Ibid.77 Ibid.78 Informazioni più dettagliate e definizioni più complesse sarebbero in una tesi di questo tipo eccessive, ma chiunque le potrà reperire nei manuali utente del prodotto.79 Quest'opera, per l’ampiezza del vocabolario e per il registro che presenta (un linguaggio piuttosto corrente) pare infatti rispondere perfettamente alle esigenze dell’operazione di addestramento.


Nelle prossime pagine ci apprestiamo per l' appunto a spiegare l'intero procedimento. A

patto però che il lettore aggiunga all'informatica ed alla tecnologia un'altra fondamentale

componente del processo di riconoscimento: la scienza dei suoni, la fonetica.

3.2.3.2 Funzionamento del sistema di riconoscimento vocale Dragon Naturallyspeaking

Per illustrare nel migliore dei modi i passi che portano dalla pronuncia di una parola al suo

riconoscimento da parte di Dragon NaturallySpeaking abbiamo pensato di avvalerci di un

esempio pratico. Ci siamo pertanto recati alla sede della ditta FBL per una dettagliata

lezione sul riconoscimento vocale.

Per prima cosa, ci è stato chiesto di pronunciare una parola al microfono collegato al PC,

senza aver preventivamente addestrato il sistema.

La parola da noi scelta è stata (una scelta puramente casuale, a parte per il fatto che questa

parola richiama l'intero tema del nostro capitolo 3): sottotitolazione.

Alla pronuncia di questa parola, sul video del computer compare la seguente schermata:


Questa figura ci mostra quattro diversi tipi di analisi compiuti dal sistema di

riconoscimento vocale sulla parola da noi pronunciata.

Innanzi tutto, il sistema ricerca all'interno di questa parola dei punti significativi, e ne

stabilisce l'altezza (parte superiore della figura) ed il volume (parte immediatamente

inferiore): esso analizza perciò ogni variazione significativa di frequenza (misurata in Hz)

e di intensità (misurata in dB) avvenuta nel corso della pronuncia della parola.

Le parti centrale e inferiore della figura ci mostrano invece, rispettivamente, lo

spettrogramma e la forma dell'onda della parola sottotitolazione.

A questo punto, in base ai dati raccolti, il sistema cerca di stabilire quali suoni, quali

fonemi sono stati pronunciati: questo è possibile grazie ad un algoritmo, che permette al

sistema di associare ad ogni suono, a cui corrispondono una particolare frequenza ed una

particolare intensità, un determinato fonema. Nel nostro caso, la sequenza di fonemi

identificata da Dragon NaturallySpeaking in seguito alla pronuncia della parola

sottotitolazione è: SB OO T2 TH OO TH II TH OO L1 AA TS IJ OC NH EO.

Nella figura che segue possiamo vedere come questa sequenza viene visualizzata sullo

schermo del computer:

È bene precisare che il computer non conosce le leggi della fonetica, se non

meccanicamente. Esso non saprà riconoscere o distinguere un suono fricativo da un suono

occlusivo, oppure un suono bilabiale da un suono velare, ecc.. In poche parole, per

distinguere un fonema dall'altro, il sistema di riconoscimento vocale non si basa

sull'analisi di dati come il modo e il luogo di articolazione, ecc., bensì sulle proprie

formule algoritmiche e sulla misurazione scientifica, in Hertz e decibel, del suono "udito".


A testimonianza di ciò riportiamo, nella figura seguente, la tabella dei fonemi presente nel

sistema:

Come si potrà notare, questa non è la tabella dei simboli fonetici che siamo soliti trovare

nei dizionari, o nei manuali di fonetica. Ad ogni fonema corrisponde infatti, in questa

tabella, non il consueto simbolo, bensì una coppia di simboli, di norma due lettere, ma

anche (più raramente) una lettera ed un numero. Il primo simbolo è il risultato di una

analisi più generale del fonema, il secondo di una analisi più dettagliata. Accanto alla


coppia di simboli, viene fornita la definizione per iscritto del fonema in questione.

Vediamo qualche esempio:

x IJ - la prima lettera indica che il fonema in questione è una variante di /i/; - la seconda lettera indica che si tratta di un suono con valore consonantico;

- la definizione: “the "I" sound followed by vocalic sound as in "

Alessandria" or

"Biella"”.

Il simbolo corrispondente nell'Alfabeto Fonetico Internazionale è: /j/, e sta ad

indicare che si tratta di una i-semiconsonantica, o approssimante palatale.

x NG - la prima lettera indica che si tratta di una variante di /n/;

- la seconda evidenzia l'aspetto velare di questo fonema.;

- la definizione: “the "NG" sound as in "Bengasi" or "Kong"”.

Il simbolo corrispondente nell'Alfabeto Fonetico Internazionale è: /÷/, e sta ad

indicare che si tratta di una nasale velare.

x P2 - la lettera indica che si tratta del fonema /p/;

- il numero indica che il suono in questione è doppio;

- la definizione: “the "PP" sound as in "nippon" or "Giappone"”.

Il simbolo corrispondente nell'Alfabeto Fonetico Internazionale è: /p/, occlusiva

bilabiale sorda (in questo caso specifico, raddoppiata).

Come si può vedere, la tabella e le definizioni presenti nel sistema sono molto meno

precise e dettagliate di quelle a noi solitamente conosciute. Le capacità di misurazione

scientifica del sistema consentono però in ogni caso l'individuazione quasi sempre esatta

del fonema pronunciato.

Torniamo ora alle fasi del processo di riconoscimento della parola sottotitolazione80.

Il sistema ha identificato, come abbiamo già visto, una particolare sequenza di fonemi.

Premettendo che per ogni parola caricata in memoria81 esiste una sequenza fonemica

standard già definita (come risultato della fase iniziale di creazione del dizionario del

sistema), il passo successivo all’identificazione della sequenza fonemica sarà il tentativo,

80 Questo discorso riprende in modo più esemplificativo la descrizione generale del processo di riconoscimento esposta al termine del paragrafo 3.2.1.81 Abbiamo parlato di un dizionario complessivo di 220.000 parole; a seconda delle edizioni, però, questo dizionario può raggiungere anche le 380.000 parole.


da parte del sistema, di associare la sequenza fonemica appena identificata, ovvero la

parola da riconoscere, ad una parola già esistente nel suo dizionario.

1 Nel presente caso esemplificativo, ovvero la pronuncia della sola parola

sottotitolazione, non ci è stato chiesto di effettuare l’addestramento del sistema; questa

parola è stata, nonostante ciò, riconosciuta esattamente. Questo perchè la fase di

addestramento non è la conditio sine qua non per la riuscita del processo di

riconoscimento vocale: essa semplicemente ne migliora i risultati. E’ comunque vero che

una persona che non abbia addestrato il sistema non potrà mai sperare di ottenere gli stessi

sorprendenti risultati di una persona che abbia invece compiuto tale operazione (e che

continui l'addestramento correggendo di volta in volta gli errori di riconoscimento e

memorizzando giorno dopo giorno nuove parole).

Esaminiamo a questo punto il caso di un utente che abbia compiuto l'operazione di

addestramento, che abbia cioè creato il proprio profilo vocale. Durante l’addestramento, il

sistema va a modificare leggermente le proprie sequenze fonemiche; i suoi modelli

standard vengono confrontati con quelli proposti dall'utente nella lettura del brano

predefinito, e tutte le differenze di pronuncia vengono assunte e memorizzate82. Si

vengono così a creare le sagome di cui abbiamo parlato in 3.2.1.

Nel momento in cui l’utente pronuncia una parola, il sistema ne compie una analisi ed

elabora una sequenza fonemica, da confrontare (vedi il principio del confronto esposto in

3.2.1) con le proprie sequenze fonemiche interne, riadattate in base al profilo vocale

dell'utente stesso (le sagome). Il risultato di questo confronto sarà, con una probabilità del

95-98%, la parola pronunciata.

Inoltre, dal momento che stiamo parlando di un sistema di riconoscimento vocale in

parlato continuo, in grado cioè di riconoscere non solo delle parole singole ma anche e

specialmente delle serie di parole, dobbiamo aggiungere che il sistema ha a disposizione

un ultimo tipo di analisi a cui fare riferimento per il riconoscimento esatto di una data

parola: l'analisi statistica (vedi 3.2.1) del contesto. Il più delle volte non esisterà, infatti,

una sola sequenza fonemica interna simile a quella appena identificata: ne esisteranno

svariate, ognuna delle quali corrispondente ad una parola diversa.

La capacità del sistema di basarsi sul contesto permetterà, fra le svariate parole

potenzialmente riconosciute, l'individuazione di quella effettivamente pronunciata

82 In poche parole, la pronuncia dell'utente modifica durante la fase di addestramento la sequenza fonemica preesistente di ogni parola, ed è a questa nuova serie di sequenze fonemiche che il sistema farà riferimento, d'ora in avanti, per l'identificazione della parola dettata.


dall'utente. Questa capacità è dovuta non all'intelligenza del computer, o alla sua

conoscenza delle leggi grammaticali, bensì ad un algoritmo presente nel sistema: a

seconda della frequenza d'uso di una data parola e della sua posizione all'interno di un

periodo, questa avrà una probabilità statisticamente superiore o inferiore, rispetto alle altre

parole individuate, di essere la parola pronunciata83.

Riassumiamo ora tutte le fasi del processo di riconoscimento di una parola:

1 l'utente pronuncia una parola;

2 il sistema elabora in seguito alle prime analisi una sequenza di fonemi;

3 il sistema cerca tra le parole caricate in memoria84 quelle maggiormente simili alla

sequenza elaborata;

4 il sistema cerca di stabilire in base al contesto, cioè in base a calcoli statistici sulla

frequenza d'uso delle parole trovate, quale tra queste sia la parola pronunciata

dall'utente;

5 la parola scelta compare sul video del computer.

Esiste comunque la possibilità (seppure limitata) di un errore di riconoscimento. In questo

caso, l'utente chiederà al sistema la possibilità di correggere l'errore: nella finestra di

correzione compariranno allora le altre parole individuate dal sistema, in alternativa a

quella riconosciuta. Se neanche tra queste vi fosse la parola pronunciata, l'utente potrà

introdurla nella memoria del sistema, consentendone così l'esatto riconoscimento d'ora in

avanti. A questo argomento sarà dedicata parte del paragrafo successivo.

83 Diamo un esempio pratico: nella pronuncia dell'espressione io ho mangiato, il verbo verrà riconosciuto esattamente e scritto correttamente (cioè con l' ‘h’) non perché il sistema sappia coniugare i verbi, ma perché, statisticamente, il termine mangiato viene preceduto più spesso da ho che da o.84 Ad ognuna di queste è associata una particolare sequenza fonemica, cioè una sagoma di riferimento prodotta durante l’addestramento.


3.2.4 L’applicazione aggiuntiva NS Video

Come premesso all'inizio del paragrafo, daremo ora un accenno all'applicazione NS

Video; spiegheremo il perchè della nascita di questa applicazione e ne elencheremo le

principali caratteristiche85.

Dopo alcuni primi contatti nel corso del 1995, nel 1996 ha inizio la collaborazione tra

JRC-ISIS ed FBL Software House, per lo sviluppo del progetto VOICE. Fin dall'inizio di

questa collaborazione le ricerche sono volte alla conversione dei comuni sistemi di

riconoscimento vocale in sistemi sottotitolatori. L'idea è quella di servirsi di

equipaggiamenti hardware e software già diffusi e commercializzati, facilmente reperibili

e non eccessivamente costosi. I concetti chiave sono, in ogni momento della ricerca:

x for any user (alla portata di tutti);

x design for all (design di interesse e di utilità per tutti);

x ease of use (facilità d'uso);

x low price (bassi costi)86.

Per rispettare le quattro sopraelencate condizioni, si pensa allo sviluppo di un software

aggiuntivo, da integrare a questi sistemi; operazione che diventerà, come già visto, uno dei

principali obiettivi87 del progetto.

Proprio a tal fine (e per la precisione verso la fine dell'anno 1997) viene sviluppata la

versione del prototipo dimostratore attualmente utilizzata per le presentazioni del progetto.

Questa versione non è altro che il prodotto Dragon NaturallySpeaking integrato

dall'applicazione NS Video.

NS Video consiste dunque in un programma specifico da integrare a Dragon

NaturallySpeaking, ed è nato nell'ambito del progetto VOICE, con lo scopo di far

fronte alla necessità di offrire un sistema per la sottotitolazione di conferenze e altri

tipi di conversazioni, che sia user-friendlier (ovvero più semplice all'uso) rispetto ad

un normale sistema di riconoscimento vocale.

85 Per quanto riguarda il funzionamento di NS Video dal punto di vista del processo di riconoscimento vocale, non vi è differenza alcuna rispetto a NaturallySpeaking, dal momento che il primo è semplicemente un'applicazione aggiuntiva del secondo, e non un altro tipo di sistema di riconoscimento vocale. Non ripeteremo quindi i concetti riguardanti questo processo, già esposti in 3.2.3.86 Questi concetti vengono fin dall'inizio formulati in lingua inglese, in quanto il progetto VOICE ha carattere internazionale e viene presentato più volte in paesi stranieri.87 A partire da questo, si dirameranno gli altri numerosi obiettivi di VOICE.


L'intero pacchetto del sistema sottotitolatore comprenderà dunque, oltre al prodotto

Dragon NaturallySpeaking (ed al corrispondente equipaggiamento precedentemente

descritto):

una buona scheda video (la base per gli input visivi);

una videocamera (per riprendere il volto dello speaker o le immagini

dell'ambiente circostante);

un proiettore (quest'ultimo, nel caso di lezioni o conferenze, permette la

proiezione su grande schermo delle immagini riprese dalla videocamera)88;

il programma specifico NS Video sviluppato dalla ditta FBL (questo programma,

come appena accennato nelle pagine precedenti, trasforma un comune sistema di

riconoscimento vocale in un sistema sottotitolatore).

NS Video è semplice da utilizzare e comodo da seguire per ogni tipo di utente: il testo

sottotitolato compare nella parte inferiore del video del PC; il carattere, il colore e le

dimensioni della scritta possono essere cambiati dall'utente.

Nell'ambito del progetto VOICE è stata adottata un'impostazione di massimo tre righe: il

carattere è di colore giallo su sfondo nero, e le sue dimensioni consentono di seguire i

sottotitoli senza difficoltà anche ad una discreta distanza. Non c'è pericolo di vedere una

parola divisa tra due righe: la funzione "a capo" è appositamente regolata per rispettare

l'interezza delle parole.

Per entrare nell'applicazione NS Video i passi sono semplici e ben guidati: "cliccando"

(per utilizzare un termine tecnico) sulle icone indicate, si entrerà in pochi secondi

nell’applicazione.

Anche l'accensione e lo spegnimento del microfono, così come l'attivazione e la

disattivazione dell'operazione di sottotitolazione, vengono comandate cliccando col mouse

sull'apposito pulsante. Non ci dilungheremo ulteriormente, per il momento, sul modo di

impiego e sulla gestione ottimale del sistema sottotitolatore: a quest'argomento sarà infatti

dedicata parte del paragrafo successivo.

88 Della sottotitolazione di conferenze, lezioni scolastiche, trasmissioni televisive ecc. e della loro modalità di svolgimento abbiamo già parlato opportunamente in 3.1.2.1.


3.3. Per un utilizzo ottimale di Dragon NaturallySpeaking e di NS Video

Abbiamo visto finora come NS Video sia un’applicazione del sistema di riconoscimento

vocale Dragon NaturallySpeaking. Una buona padronanza di questo “sistema

sottotitolatore” presuppone perciò due diverse aree di competenza da parte dell'utente: la

prima riguarda esclusivamente l’utilizzo della “barra degli strumenti” presente in NS

Video, che, come brevemente descritto alla fine di 3.2.4, consiste nella conoscenza di

poche icone sulle quali “cliccare” con il mouse del computer, e non presenta per l’utente

alcun tipo di problema; la seconda è invece relativa all’utilizzo, o meglio alla gestione del

sistema di riconoscimento vocale vero e proprio, ed è di questo che parleremo nel presente

paragrafo.

3.3.1. Pausa e gestione della pausa

Abbiamo analizzato dettagliatamente, in 3.2.3.2, il funzionamento di Dragon

NaturallySpeaking, tralasciando però un elemento fondamentale ai fini dell’elaborazione

del parlato da parte del sistema: la pausa. Data questa sua funzione così importante, una

corretta gestione della pausa da parte dell’utente diventa quindi fondamentale per una

corretta gestione dell'intero sistema89.

Analizziamo ora più approfonditamente quest’elemento così importante. Il Dizionario di

Linguistica di Gian Luigi Beccaria ci dà la seguente definizione di pausa:

“Interruzione della fonia o catena fonica. La pausa può dipendere a) da ragioni

fisiologiche (respiro) o b) da esigenze di riprogrammazione del discorso (nel qual caso si

parla anche di “esitazione”), ma spesso svolge anche c) un ruolo funzionale, quando

segnala i confini tra i costituenti sintattici. [...] Oltre a riflettere l’importanza del confine

sintattico, la durata (nonché la frequenza) delle pause è in funzione della velocità di

elocuzione, sulla quale possono influire anche fattori prettamente individuali. [...]”90.

89 Proprio per questo, un utente che nel parlare pronunci perfettamente ogni parola, ma non rispetti le pause necessarie al sistema per elaborare cosa è stato detto, otterrà da questo degli scarsi risultati.90 Beccaria, Gian Luigi (a cura di); Dizionario di Linguistica e di Filologia, Metrica, Retorica , Giulio Einaudi Editore S.p.A., Torino, 1994, pag. 552.


Come leggiamo inoltre in un saggio di Sergio Cigada,

“Poiché, per ragioni fisiologiche, l’enunciato fonetico deve essere diviso in segmenti

separati da brevi pause, ma d'altra parte la collocazione di queste pause non è

strettamente obbligatoria, ed esse possono essere alquanto anticipate o posticipate a

piacimento, si potrà far ricorso anche a tali pause - dette ‘tratti demarcativi’ - per inserire

in due linee sintagmatiche perfettamente identiche due (o più) tipi di scansione diversi,

ed attribuire quindi ai due diversi sistemi demarcativi due valori simbolici (o semantici)

diversi.

Così le due frasi

a) <<Luigi dice: - Piero domani non viene ->>

b) <<Luigi - dice Piero - domani non viene>>

sono costituite esattamente della stessa sequenza fonemica, eppure comunicano

informazioni linguistiche nettamente differenziate.”91

La pausa, dunque, non è un elemento irrilevante o casuale all’interno di un discorso; al

contrario, ad essa sono assegnate delle funzioni ben precise92. Ogni giorno, senza

accorgercene, utilizziamo nel parlare questo “piccolo stratagemma”, per:

x prendere fiato;

x prendere tempo;

x specificare meglio, a livello sovrasegmentale, un’espressione che altrimenti

presenterebbe delle ambiguità.

Nel momento in cui ricorriamo ad un sistema di riconoscimento vocale, la pausa non

solo non perde la sua importanza (essa infatti conserva le funzioni sopraelencate), ma

acquista anche un’ulteriore, indispensabile funzione: essa permette al sistema

l’elaborazione del testo appena dettato. Si richiede pertanto all’utente un utilizzo

della pausa più consapevole di quanto non avvenga in una normale situazione di

conversazione.

Il tutto viene accentuato, quando l'utente si trovi “alle prese” con l’applicazione

aggiuntiva NS Video: NS Video è infatti stato studiato e viene utilizzato come

91 Cigada, Sergio; Il Linguaggio Metafonologico e le sue Applicazioni Stilistica e Linguistica , in “Il Linguaggio Metafonologico, Ricerche sulle Tecniche Retoriche nell'Opera Narrativa di G. Cazotte, M.G. Lewis, E.A.Poe, G.Flaubert, O.Wilde”, Editrice La Scuola, Brescia, 1989, pag. 13.92 Le funzioni della pausa e l’importanza della punteggiatura, sia attualmente che nel corso della storia, sono il tema di numerosi lavori. Citiamo, a titolo di esempio, Tognelli, Jole; Introduzione all’“Ars Punctuandi”, Edizioni dell’Ateneo, Roma, 1963; e Parkes, Malcolm Beckwith; Pause and Effect: an Introduction to the History of Punctuation in the West, Scolar Press, Aldershot, 1992.


strumento di sottotitolazione. Si presuppone quindi che lo speaker non pronunci

esplicitamente, all’interno del suo discorso, i segni di punteggiatura93; egli deve essere

in grado di rendere il discorso comprensibile per chi lo leggerà sullo schermo94. Deve

cioè segmentare il testo attraverso una buona gestione delle pause (ad ogni pausa

effettuata comparirà infatti sullo schermo ciò che è stato detto a partire dalla fine dalla

pausa precedente). In poche parole, utilizzare NS Video è come utilizzare un sistema

di riconoscimento vocale più difficile, che richiede cioè all’utente una ancora

maggiore consapevolezza nel modo di parlare e di collocare le pause.

La pausa è quindi un elemento importante in un discorso parlato, diventa fondamentale nel

ricorso ad un comune sistema di riconoscimento vocale, ma assume una rilevanza assoluta

nel caso di NS Video: analizzare la funzione della pausa in un sistema di riconoscimento

vocale ed in NS Video da un punto di vista tecnico darà un’ulteriore conferma a questa

affermazione.

Nel caso di dettatura mediante sistema di riconoscimento vocale, la pausa non è l’unico

elemento che permette al sistema di elaborare il testo pronunciato: nel momento in cui

l’utente prima di una pausa pronuncia un segno di punteggiatura, egli dà al sistema un

chiaro comando affinché questo inizi l’elaborazione del testo. L’utente potrà quindi

pronunciare frasi anche discretamente lunghe. A patto che queste vengano concluse con un

segno di punteggiatura, il sistema le elaborerà e le mostrerà sul monitor in una sola volta95.

Nel caso specifico di sottotitolazione con NS Video però, come già spiegato, la

punteggiatura non viene pronunciata: la pausa diventerà l’unico elemento in grado di

dare al sistema l'input per l’elaborazione96.

A questo punto si potrebbe pensare che l’intero procedimento sia troppo complesso e

perciò irrealizzabile in una situazione reale: all’utente di un sistema di riconoscimento

vocale ed in particolar modo di NS Video viene chiesto di pronunciare correttamente frasi

non troppo corte (il sistema di riconoscimento vocale opera secondo calcoli statistici97 e

rischia di dare risultati meno soddisfacenti se costretto a riconoscere parola per parola), ma

93 In particolar modo le virgole ed i punti, ovvero i segni di punteggiatura più usati.94 Si tenga presente che i sottotitoli sono destinati a persone non udenti; la comprensibilità del messaggio scritto assume quindi un ruolo fondamentale.95 Nel caso di frasi eccessivamente lunghe però, il riconoscimento è difficoltoso e rischia di fallire: ecco perché anche il silenzio, la pausa, sono in grado di inviare al sistema il comando di elaborazione.96 Proprio in questo consiste la peculiarità di un programma come NS Video: essere in grado di riconoscere la pausa, ed esclusivamente in funzione di questa dare l'avvio al processo di riconoscimento.97 Concetto esposto in 3.2.3.2.


neanche frasi troppo lunghe (il loro riconoscimento diventa difficoltoso); inoltre, gli si

impone un controllo della pausazione che rischia di far perdere ad un intero discorso la sua

naturale scorrevolezza e di conseguenza il suo valore dal punto di vista del contenuto.

In realtà, qualsiasi utente è già in grado dopo poche sedute di dettare e parlare con

naturalezza. L’elocuzione non risulta meccanica, ma semplicemente rallentata98.

D’altra parte, non abbiamo ancora specificato la durata della pausa:

x l’intervallo di tempo che deve trascorrere prima che il sistema inizi l’elaborazione del

testo è regolabile a seconda del programma, e nel caso di NS Video si attesta intorno ai

200/250 m.sec.;

x il tempo richiesto per l’elaborazione del testo appena pronunciato dipende dalla sua

complessità, ma non supera a sua volta i 250 m.sec;

x il tempo richiesto per la comparsa, sul display del computer, del testo elaborato,

allunga l’operazione fino ad un massimo di 600/700 m.sec.

La figura seguente chiarisce ulteriormente la struttura della pausa, e ne mostra la

collocazione:

Insomma, prima che l’utente abbia ricominciato a dettare non sarà passato, la maggior

parte delle volte, più di un secondo99.

3.3.2. Pronuncia di parole e gruppi di parole

A differenza del sistema di riconoscimento vocale, NS Video non permette all’utente di

correggere il testo dettato mediante comandi vocali. In NS Video, l’unico modo per

operare delle correzioni è quello di ripetersi. Nel caso di una frase che non compare sullo

98 In alcuni casi, l'utente non presenta, fin dalla prima seduta, problemi nel gestire il proprio discorso, e la velocità di elocuzione risulta perfettamente fluida e naturale.99 Le prestazioni dipendono dal processore del computer: saranno ad esempio migliori con un processore PII 266 Mhz.


schermo perché troppo lunga, occorrerà ripetere la stessa, spezzandola ove più opportuno

con una pausa. Nel caso (quello più frequente) di una o più parole mal riconosciute,

l’utente dovrà ripeterle, ma prestando maggiore attenzione alla loro pronuncia.

Il manuale utente di Dragon NaturallySpeaking100 spiega in maniera chiara e completa i

requisiti del sistema, la sua procedura di installazione, ecc., ed è molto dettagliato

nell’esposizione di tutti i comandi che lo controllano (eseguibili, a scelta, vocalmente o

mediante digitazione sulla tastiera). Esso non fornisce però esempi specifici sulla

pronuncia ottimale di parole o sequenze di parole.

Qualche informazione di questo tipo è reperibile nel file elettronico Leggimi, nella

Panoramica multimediale e nella Guida in linea dello stesso sistema Dragon

NaturallySpeaking. Queste ultime due offrono inoltre alcuni esempi multimediali di

dettatura o correzione. Tuttavia, anche in questo caso l’unico vero consiglio pratico sulla

pronuncia delle parole è il seguente:

“Se durante le pause si nota che Dragon NaturallySpeaking inserisce parole superflue nel

documento, quali ‘e’, ‘in’, ‘su’, ecc., ciò potrebbe indicare che il programma rileva il

respiro dell’utente e lo interpreta come input vocale. Provare a spostare il microfono di

poco più lontano dall’angolo della bocca. [...]”101.

Proprio a questo proposito abbiamo pensato di fornire una breve lista di errori più o meno

sistematici di riconoscimento vocale nelle lingue italiana e inglese, insieme a dei consigli

per evitare questi errori. Questa lista non ha pretese di completezza; vuole semplicemente

fornire un ragguaglio in più all’utente che per la prima volta si appresta all’utilizzo di un

sistema di riconoscimento vocale102, e che non si accontenta dell’unico suggerimento

contenuto nel manuale di avvio: “Parlare in un tono normale, alla velocità consueta ed enunciare

chiaramente ciascuna parola.”103.

100 Si ricordi ancor una volta che Dragon NaturallySpeaking è il sistema di riconoscimento vocale a partire dal quale è stata sviluppata l'applicazione NS Video, e che il procedimento di riconoscimento è il medesimo in entrambe le situazioni. È questo il motivo (oltre al fatto che non esiste ancora un manuale utente relativo a NS Video) per cui, parlando di NS Video, ci riferiamo al manuale utente di Dragon NaturallySpeaking.101 Dragon Systems Inc. (a cura di); Dragon NaturallySpeaking - Leggimi, file elettronico, voce “dettatura” (per aprire questo file basta "cliccare" sull'icona "Leggimi" nel gruppo di programmi Dragon NaturallySpeaking del menu avvio).102 Evitare il più possibile gli errori di riconoscimento vocale è fondamentale nell'utilizzo di NS Video, che non permette di effettuare correzioni e, come precedentemente accennato, è destinato alla produzione di sottotitoli per persone non udenti. 103 Dragon Systems Inc. (a cura di); Dragon NaturallySpeaking - Manuale di Avvio, manuale utente, pag. 19.


Nel corso della nostra esperienza personale di addestramento e di utilizzo di Dragon

NaturallySpeaking e di NS Video ci siamo imbattuti in errori di riconoscimento ricorrenti

o comunque particolari; ne abbiamo annotati alcuni e ci apprestiamo a descrivere il modo

da noi adottato per correggerli104.

3.3.2.1 Errori incontrati nel riconoscimento della lingua italiana

Come visto alla pagina precedente, il sistema rileva talvolta il respiro di una persona e lo

interpreta come input vocale: nel corso della dettatura di un documento potrebbero perciò

comparire, prima o dopo la pronuncia di una parola, delle parole superflue; questo succede

solitamente nella pronuncia di un comando vocale, quando, ad esempio:

1 alla pronuncia del comando punto il sistema visualizza il corrispondente segno di

punteggiatura, seguito dall’articolo un;

2 alla pronuncia del comando apri parentesi oppure chiudi parentesi il sistema visualizza

la parentesi (rispettivamente aperta oppure chiusa), seguita dalla preposizione in.

Il fenomeno non è però circoscritto ai comandi vocali: anche la pronuncia di una parola

può dare come risultato l’inserimento nel documento di una particella superflua, ad

esempio: il verbo elaborare può essere riconosciuto dal sistema come e elaborare.

Il consiglio che possiamo dare, in questi casi, è quello di fare attenzione a non allungare la

pronuncia dei foni con dei respiri o dei sospiri.

Un secondo tipo di errori di riconoscimento è relativo alla perdita dell’iniziale maiuscola

nella pronuncia di toponimi composti da due parole: Stati Uniti; Regno Unito; Paesi Bassi;

ecc. In questo caso, intervallare le due parole del toponimo con una pausa105 non farà altro

che comandare al sistema di interpretarle separatamente e non come parti di uno stesso

composto; esse verranno pertanto visualizzate sullo schermo del computer con la lettera

minuscola: stati uniti; regno unito; paesi bassi. La soluzione del problema consiste nel

104 Riferendoci a quanto detto alla nota 102, dobbiamo aggiungere che quando una pronuncia attenta non basta ad evitare gli errori di riconoscimento, l’utente dovrà terminare l’applicazione NS Video e correggere questi errori in NaturallySpeaking, memorizzando le correzioni nel sistema. E’ questo il motivo per cui 3.3.2.1 e 3.3.2.2 forniscono, in aggiunta ai consigli sulla pronuncia delle parole, anche delle indicazioni sul modo di correggere eventuali errori in NaturallySpeaking.105 Molte persone, al primo approccio con un sistema di riconoscimento vocale, tendono a staccare bene le parole, convinte che questo sia il modo per ottenere dal sistema i risultati migliori.


pronunciare queste parole senza pausa tra loro: il sistema (nel cui dizionario è

memorizzata la maggior parte dei toponimi) le interpreterà e le trascriverà correttamente.

Come possiamo vedere, anche in questi casi è di fondamentale importanza saper gestire

correttamente le pause.

Un terzo tipo di errori di riconoscimento si verifica quando il sistema confonde due parole

foneticamente simili tra loro. Nella lingua italiana questa situazione si persenta molto

spesso nel caso di parole brevi, quali gli articoli, le preposizioni e le congiunzioni. Esempi

relativi a questo caso sono parole come la [la] e da [da], oppure o [o] e fu [fu]. Solitamente, per correggere questi errori non basta una pronuncia più accorta della parola

mal riconosciuta: l’utente dovrà eseguire l’addestramento specifico delle due alternative

confuse dal sistema, facendo attenzione a distinguerne bene la pronuncia. Durante questo

tipo di addestramento il sistema chiede all’utente di pronunciare al microfono prima l’una

e poi l’altra alternativa. Questo dà al sistema un ulteriore indizio per il riconoscimento

esatto delle due alternative in questione, indizio che sarà memorizzato e utilizzato d’ora in

avanti per il processo di riconoscimento.

Affinché l’intera operazione non risulti inutile o addirittura controproducente, l’utente

dovrà pronunciare le due alternative nello stesso identico modo in cui le pronuncerà nel

corso della dettatura al computer. Se in fase di addestramento, perciò, l’utente evidenzia o

accentua la pronuncia di un determinato fonema o una particolare accentazione della

parola, dovrà ricordarsi di mantenerla invariata106 anche in fase di utilizzo del sistema. Un

buon addestramento da parte dell’utente non esclude quindi una pronuncia ed un modo di

dettare accorto e consapevole, anzi, queste due funzioni sono pressoché complementari.

L’ultimo gruppo di errori relativi alla lingua italiana che andremo ad esporre riguarda la

mancata distinzione, da parte del sistema, di parole o coppie di parole la cui struttura

fonetica sia simile o addirittura identica. Rientrano in questo gruppo errori come:

esempio 1 a) in diretta [indiÇr«tta]b) indiretta [indiÇr«tta]

esempio 2 a) ed alle [edÇalle]

b) e dalle [eÇdalle]

106 Alcune sedute sono sufficienti all'utente per imparare a compiere queste operazioni con naturalezza e senza sforzo.


In entrambi gli esempi presentati, la pronuncia delle alternative a) e b) può essere distinta

esclusivamente attraverso la pausa.

Nell’esempio 1, essa sarà presente solo in a), per evidenziare la separazione tra le due

parole in e diretta. Non vi sarà invece alcuna pausa in b), dal momento che indiretta è una

parola unica.

Nell’esempio 2, la pausa sarà presente sia in a) che in b), e la sua collocazione avrà il

compito di indicare il punto di stacco tra le due parole: ritorna ancora una volta

l’importanza della pausa.

Immaginiamo però una situazione reale di conversazione: le parole vengono pronunciate

non singolarmente, ma in sequenza, come parte di un continuum e con una certa velocità

di elocuzione107. In questo caso chi parla tenderà a non porre pause tra le parole: mentre

per un normale interlocutore (che per la comprensione del messaggio si baserà sul contesto

e su analisi di tipo semantico), una situazione di questo tipo non presenterà particolari

problemi, per un sistema di riconoscimento vocale (i cui unici punti di riferimento sono la

sequenza fonemica ed il calcolo della frequenza con cui determinate sequenze di parole

compaiono in un discorso) commettere degli errori di riconoscimento sarà inevitabile.

Per risolvere questo tipo di problema sarà quindi necessario, relativamente agli esempi 1 e

2, addestrare appositamente le alternative a) e b) ricorrendo alla pausa per cercare di

distinguerle il più possibile. In fase di utilizzo del sistema, poi, occorrerà rispettare la

pronuncia e la collocazione delle pause eseguita durante l’addestramento: in questo modo

si garantirà per il futuro il corretto riconoscimento, da parte del sistema, delle parole

addestrate.

3.3.2.2. Errori incontrati nel riconoscimento della lingua inglese

Occorre innanzi tutto notare l’inevitabilità di errori di riconoscimento nel caso di parole

omofone, parole cioè come sea e see [siÉ], allowed e aloud [\Çla¬d], ecc..

In questo caso non si tratta di pronunciare le parole distinguendone meglio la pronuncia,

dal momento che la pronuncia è la medesima. A volte il sistema identifica la parola esatta

in base al contesto, ma questo non sempre avviene. L’unico modo per cercare di evitare

107 In alcuni casi il fenomeno è talmente accentuato da venire definito con l'espressione “mangiarsi le parole”.


l’errore diventa allora quello di addestrare l’intera frase che si intende pronunciare, così

che il sistema la memorizzi108.

Altri errori riguardano il riconoscimento di parole la cui pronuncia si differenzia per uno o

pochi fonemi. È il caso di parole come deaf [def] e death [de ], oppure during [Çdj¬\rö÷] e hearing [Çhö\rö÷].Spesso, pronunciare in modo più chiaro e distinto la parola mal riconosciuta è già

sufficiente per eliminare l’errore; quando però questo non basti, l’utente dovrà addestrare

appositamente le due parole confuse dal sistema, così che questo ne assuma e memorizzi le

(seppure minime) differenze.

Vediamo ora un caso simile, quello cioè in cui la pronuncia di una parola è molto vicina (a

volte persino identica) alla pronuncia di una coppia di parole. Anche in questo caso la

soluzione di un errore di riconoscimento risiede in una pronuncia più attenta da parte

dell’utente oppure, quando questo non basti, in un addestramento delle due alternative

confuse dal sistema. Riportiamo tre esempi pratici che rientrano in questo caso:

esempio 1 a) all the [Ç¿Él¶\]b) although [¿ÉlÇ¶\¬]

esempio 2 a) an important [¾nömÇp¿Étnt]b) unimportant [ÃnömÇp ¿Étnt]

esempio 3 a) in different [önÇdöfr\nt]b) indifferent [önÇdöfr\nt]

Nei primi due esempi, la pronuncia di a) e b) si differenzia per un solo fonema.

Un sistema di riconoscimento vocale, come visto in 3.2.3.2, si basa, per il riconoscimento

delle parole, su procedimenti meccanici e su calcoli statistici, non certo sulla

comprensione del testo e sull’analisi semantica delle parole che lo compongono. Un errore

di riconoscimento nel caso di due parole molto simili dal punto di vista fonetico è perciò

ammissibile.

Immaginiamo ora, come per la lingua italiana, una situazione reale di conversazione: le

parole, come già detto, vengono pronunciate come parte di un continuum e con una certa

velocità di elocuzione. Consideriamo inoltre il fenomeno della coarticolazione, ovvero la

108 Questo vale però solo nel caso si debba pronunciare un discorso già preparato in precedenza (ad esempio per una conferenza o una lezione). Sotto questo aspetto dunque, il riconoscimento vocale di testi liberi presenta ancora dei limiti.


naturale influenza esercitata reciprocamente tra foni contigui, e forniamo, in aggiunta a

quanto detto a questo proposito in 3.2.1, ancora qualche definizione di questo fenomeno:

“During speech production the articulators move relatively slowly from one position to

another. The articulators often do not reach their ‘target’ positions due to contextual

effect of neighboring phones: this is called coarticulation.”109

“E’ ben noto che nel parlato ciò che noi percepiamo come sequenza di suoni distinti (cioè

di fonemi) è in realtà un ‘continuum’. Basta osservare il segnale acustico o i movimenti

articolatori per rendersi conto che essi non sono segmentabili in unità discrete

corrispondenti ai fonemi percepiti, non solo, anche le porzioni di segnale che riusciamo

con sicurezza ad associare ad un determinato fonema variano sistematicamente in

funzione del contesto precedente e seguente: l’assenza di confini segmentali ben definiti

e le influenze reciproche tra un fonema e l’altro sono definiti nella letteratura come effetti

della coarticolazione.”110

In situazioni del tipo sopra descritto, la pronuncia delle singole parole può subire delle

lievi modifiche; quella di due parole già simili foneticamente può avvicinarsi

ulteriormente, talvolta fino a coincidere. L'errore di riconoscimento da parte del sistema

diventerà a questo punto quasi inevitabile111, a meno che l’utente non presti una maggiore

attenzione alla propria pronuncia.

Analizziamo in cosa consista, negli esempi 1 e 2, questa maggiore attenzione alla

pronuncia:

esempio 1 a) all the

109 “Durante la produzione del suono, gli articolatori si spostano in modo relativamente lento da una posizione all’altra. Spesso gli articolatori non raggiungono la loro posizione predefinita a causa dell’influenza di tipo contestuale data dai suoni adiacenti: questo fenomeno è detto coarticolazione.”; De Mori, Renato; Cosi, Piero; Palakal, Mathew J.; Perceptual Models for Automatic Speech Recognition Systems, in “Quaderni del Centro di Studio per le Ricerche di Fonetica” del Consiglio Nazionale delle Ricerche, vol. IX, 1990, Edizioni Libreria Progetto, Padova, pag. 4.110 Farnetani, Edda; Articolazione e Coarticolazione nello Sviluppo Fonologico, in “Quaderni del Centro di Studio per le Ricerche di Fonetica” del Consiglio Nazionale delle Ricerche, vol. IX, 1990, Edizioni Libreria Progetto, Padova, pag. 78.111 A questo proposito, in Vagges, Kyriaki; Cosi, Piero; Coarticolazionie e Sintesi della Voce, in “Quaderni del Centro di Studio per le Ricerche di Fonetica” del Consiglio Nazionale delle Ricerche, vol. IX, 1990, Edizioni Libreria Progetto, Padova, pag. 266, si parla di “[...] difficoltà che vengono generalmente incontrate nella progettazione di sistemi automatici di riconoscimento fonetico causate da fenomeni coarticolatori, cioè da quei fenomeni in grado di modificare le caratteristiche acustiche dei segmenti fonici a seconda del contesto fonetico in cui essi appaiono. [...] Anche se le caratteristiche acustiche dei vari fonemi componenti una determinata lingua sono state relativamente bene identificate e quantizzate, il processo con cui vengono modificate nella produzione fluente della parola rimane ancora non perfettamente descritto. La coarticolazione dei vari fonemi rende infatti estremamente difficile la caratterizzazione univoca delle loro rappresentazioni nello spazio dei parametri acustici estratti con le abituali tecniche di analisi.”


b) although

nel caso a): pronunciare con tono più deciso la /\/ di the e ritardare leggermente la

pronuncia di questa parola, rispetto a quella di all, ponendo uno stacco più netto tra le

due parole;

nel caso b): pronunciare la parola con fluidità, accentuando il dittongo /\¬/ per

distinguerlo dal fonema /\/ del caso a).

esempio 2 a) an important

b) unimportant

nel caso a): pronunciare con chiarezza la /¾/ di an e distanziare lievemente questa

parola da important per evidenziare il fatto che si tratta di due parole;

nel caso b): pronunciare la parola con continuità, evidenziando il fonema /Ã/, senza

peraltro accentarlo.

In tutta probabilità, comunque, una pronuncia più accorta da parte dell’utente non basterà

ad evitare gli errori di riconoscimento: le alternative a) e b) andranno allora, in entrambi

gli esempi, addestrate appositamente.

L'esempio 3 si differenzia leggermente dai primi due: la pronuncia della variante a) è

assolutamente identica, fin dall’inizio, a quella della variante b). In una situazione di

conversazione reale, inoltre, anche l’unico elemento che separa le due alternative, ovvero

una leggera pausa tra in e different, viene a mancare. L’unico modo per cercare di

risolvere questo problema è quello di addestrare a) e b) accentuando, nel caso di a), questa

pausa, e continuare ad accentuarla ogni volta che si pronuncia in different al microfono del

computer112.

Si rende ora opportuna una precisazione relativa agli esempi 2 e 3. In entrambi questi

esempi, il significato di a) si oppone significativamente a quello di b); nell’esempio 2 si

tratta addirittura di due significati contrari.

Il rischio di un mancato riconoscimento (che anche dopo un opportuno addestramento non

viene totalmente eliminato) è in questi casi particolarmente grave, specialmente se ci si

trova nel corso di una lezione o conferenza: un errore di questo tipo può infatti stravolgere

il significato di un intero periodo.

112 Come visto in 3.3.2.1, relativamente all’esempio 1 dell’ultimo gruppo di errori analizzato, lo stesso tipo di problema si presenta anche nella lingua italiana.


Si consiglia allora ad un utente che abbia acquisito un certo livello di esperienza e

prontezza nel gestire il sistema, di variare leggermente il suo discorso: an important

potrebbe diventare a very important..., in different potrebbe diventare in quite different...,

e così via. In questo modo si elimina, senza bisogno di impiegare altri accorgimenti, la

causa prima dell’errore di riconoscimento.


3.4 Esempi pratici sull’utilizzo di Dragon NaturallySpeaking

Nei precedenti paragrafi abbiamo spiegato il funzionamento dei sistemi di riconoscimento

vocale, focalizzando la nostra attenzione sul sistema Dragon NaturallySpeaking e sulla sua

applicazione aggiuntiva NS Video: abbiamo inoltre fornito dei consigli sul loro utilizzo

(pausazione, ritmo di dettatura, pronuncia delle parole, ecc.), a sostegno di un utente che

per la prima volta ricorra ad essi, sia per la semplice dettatura di un testo che per tenere un

discorso sottotitolato in presenza di persone sorde. Intendiamo ora dare un esempio pratico

di dettatura al computer in lingua italiana ed inglese. Percorreremo le fasi di dettatura di

un brano, dalla selezione delle parole mal riconosciute, alla loro correzione, al loro

ulteriore addestramento, il tutto attraverso dei semplici comandi che, ribadiamo, possono

essere eseguiti vocalmente oppure mediante l’utilizzo del mouse del computer.

Proporremo inoltre le immagini che compaiono sullo schermo del computer nel corso di

queste operazioni. Speriamo in questo modo di chiarire i restanti dubbi in merito

all’utilizzo di sistemi di questo tipo, affinchè il lettore si senta invogliato a sperimentarli

ed a ricorrervi in maniera sempre più regolare. Vincere la diffidenza nei confronti del

riconoscimento vocale è infatti uno dei primi passi per estendere il suo impiego anche al

mondo della disabilità, con tutti i benefici che ciò comporta. Per le nostre “prove pratiche

di dettatura” ci serviremo delle versioni italiana ed inglese del manuale di avvio di Dragon

NaturallySpeaking113: trascriveremo innanzi tutto il brano che intendiamo dettare al

computer, dopodichè eseguiremo la dettatura e correggeremo gli eventuali errori di

riconoscimento, riportando passo per passo le schermate di NaturallySpeaking, così come

ci appaiono sul video del computer.

3.4.1 Esempio pratico di dettatura in lingua italiana

Il brano che ci apprestiamo a dettare è tratto dalla versione italiana del manuale di avvio di

Dragon NaturallySpeaking, e fornisce indicazioni sul corretto posizionamento del

microfono da parte dell’utente, al fine di ottenere i migliori risultati di riconoscimento

vocale:

113Abbiamo scelto questo testo semplicemente per restare in linea con i contenuti del paragrafo; in realtà, avremmo potuto dettare un qualsiasi brano o una qualsiasi frase inventata sul momento.


“Posizionamento del microfono

Il corretto posizionamento del microfono è uno dei fattori principali per garantire un riconoscimento vocale ottimale.

Per trovare la posizione giusta del microfono:

1 Premere la griglia in gommapiuma con le dita per individuare i lati piatti del microfono.

2 Accertarsi che il lato contrassegnato da un puntino colorato sia orientato verso la bocca.

3 Posizionare il microfono a una distanza di circa due centimetri dall’angolo della bocca. Non porlo a contatto con la bocca, ma leggermente scostato da essa.

Indossare il microfono sul capo e posizionarlo con cura e sempre allo stesso modo ogni volta che si detta.”114

Iniziamo la dettatura del brano, senza però preoccuparci del carattere grassetto o di altre

proprietà del testo (ciò che ci interessa analizzare in questa sede è il risultato del

riconoscimento vocale, e non l’impostazione del brano dettato).

Al termine della dettatura, la finestra di Dragon NaturallySpeaking è la seguente:

Come possiamo vedere, gli errori di riconoscimento sono tre:

1 ‘il atti’ al posto di ‘i lati’;

2 ‘spostato’ al posto di ‘scostato’;

3 ‘posizionare uno’ al posto di ‘posizionarlo’.

Procediamo alla correzione del primo errore:

114 Dragon Systems Inc. (a cura di); Dragon NaturallySpeaking - Manuale di avvio, op.cit., pag.10.


Come possiamo vedere, la correzione consiste in questo caso nel selezionare l’espressione

mal riconosciuta (figura precedente), e nel ripeterla prestando una maggiore cura alla

pronuncia (figura seguente):


Nel secondo caso, questo procedimento non è sufficiente per ottenere la correzione

dell’errore: una ripetizione più curata della parola ‘spostato’ dà come risultato

dapprima ‘su costato’, e poi ‘se costato’; dovremo allora selezionare il termine

mal riconosciuto, e pronunciare il comando ‘correggi testo’ per chiederne una correzione

più approfondita. Sullo schermo del computer comperirà la seguente finestra:


A questo punto digiteremo la parola corretta nella parte superiore della finestra di

correzione. Nel nostro caso, prima di aver terminato la digitazione, ci accorgeremo che il

termine ‘scostato’ è già presente nel vocabolario di NaturallySpeaking, e ci viene

proposto come alternativa n°5 alla parola ‘spostato’ riconosciuta dal sistema.

Selezioneremo pertanto l’alternativa n°5 , e ne chiederemo l’addestramento specifico

pronunciando ‘click su addestra’.


La figura seguente ci mostra l’addestramento della parola ‘scostato’:

La figura alla pagina seguente ci mostra invece l’addestramento della parola

‘spostato’:


Come si può notare dalle due figure precedenti, un semplice click (vocale o manuale, a

scelta) sul pulsante ‘registra’ permette la memorizzazione, da parte del sistema, del nostro

modo di pronunciare le due alternative ‘scostato’ e ‘spostato’. A questo punto, un

click sul pulsante ‘fine’ ci riporterà alla finestra di correzione iniziale, dalla quale basterà

un click su ‘ok’ per ritornare alla finestra di dettatura.

Siamo pronti per la correzione dell’ultimo errore di riconoscimento: anche in questo caso,

una ripetizione più attenta della parola ‘posizionarlo’ non è sufficiente per la

correzione dell’errore. Procediamo pertanto con la selezione di ‘posizionare uno’,

seguita dal comando ‘correggi testo’. Digitiamo il termine ‘posizionarlo’ nella

finestra di correzione e ci rendiamo conto che tale termine non era presente nella memoria

del sistema, dal momento che questo (come mostra l’immagine seguente) non ci fornisce

parole alternative:


Il passo successivo è, come per il caso precedente, l’addestramento specifico di

‘posizionare uno’ e di ‘posizionarlo’. Ancora una volta, il percorso guidato dal

pulsante ‘fine’ al pulsante ‘ok’ ci permetterà di tornare alla finestra di dettatura, riportata

alla pagina che segue:


Come possiamo vedere, tutti gli errori sono stati corretti; la loro memorizzazione da parte

del sistema ne faciliterà inoltre un corretto riconoscimento d’ora in avanti.


3.4.2 Esempio pratico di dettatura in lingua inglese

Anche per la prova di dettaura in lingua inglese ci serviremo delle istruzioni sul

posizionamento del microfono tratte dal manuale di avvio di NaturallySpeaking. Ci

riferiremo pertanto alla versione inglese di tale manuale. Il brano è il seguente:

“Positioning your microphone

Positioning and using the microphone correctly is one of the most important steps you can take to ensure optimal recognition accuracy.

To position the microphone:

1 Squeeze the foam rubber muffler so that you feel the flat sides of the microphone element.

2 Make sure the side marked with a small coloured dot points toward your mouth.

3 Position the microphone element a thumb’s width (half an inch or less) from the corner of your mouth. The element should not touch your mouth, but it can be very close.

Give yourself some time to get used to wearing the microphone, and position it consistently every time you use it.”115

Iniziamo la dettatura, esattamente come in 3.4.1. Ne risulterà la seguente finestra:

115 Dragon Systems Inc. (a cura di); Dragon NaturallySpeaking - Getting Started, manuale utente, pag.10.


Come possiamo notare, gli errori di riconoscimento sono diversi a seconda della lingua:

questo perchè ogni lingua presenta le sue particolarità nella pronuncia dei vocaboli; ogni

lingua presenta cioè dei fonemi o delle sequenze di fonemi (come visto in 3.3.2.1 e

3.3.2.2) il cui riconoscimento da parte del sistema risulta difficoltoso. Nel nostro caso, gli

errori di riconoscimento riscontrati sono i seguenti:

1 ‘film’ al posto di ‘foam’;

2 ‘to word’ invece di ‘toward’;

3 ‘thumbs’ al posto di ‘thumb’s’;

4 ‘sometime’ al posto di ‘some time’.

Per la correzione del primo errore, selezioniamo innanzi tutto la parola mal riconosciuta:


Una prima ripetizione della parola ‘foam’ dà come risultato ‘photo’; una seconda

ripetizione visualizza sul video del computer il termine ‘vote’: è pertanto necessaria una

correzione più approfondita dell’errore. Il comando vocale ‘correct that’ apre la finestra di

correzione, nella quale digiteremo la parola corretta ‘foam’. Le prossime due figure

mostrano i passi appena spiegati, ovvero l’apertura della finestra di correzione:


e la digitazione della parola corretta, riportata alla pagina seguente:


Il comando vocale ‘click train’ avvia l’addestramento specifico delle due parole confuse

dal sistema, ovvero della parola ‘foam’:


e della parola ‘film’:


Per memorizzare questo addestramento e (di conseguenza) la correzione dell’errore, e

ritornare così alla finestra di dettatura, basterà pronunciare in sequenza i comandi vocali

‘click done’ e ‘click ok’116.

116 Ricordiamo ancora una volta che lo stesso risultato si può ottenere anche cliccando con il mouse del computer sui pulsanti corrispondenti.


Passiamo ora alla correzione del secondo errore di riconoscimento; selezioniamo

l’espressione errata ‘to word’:


Ripetiamo la parola ‘toward’, curando meglio la pronuncia; non si rende questa volta

necessario proseguire nelle successive fasi di correzione, dal momento che la parola viene

subito riconosciuta senza errori, come ci mostra la figura seguente:


Per quanto riguarda il terzo errore non esiste invece una vera e propria possibilità di

correzione: ‘thumbs’ e ‘thumb’s’ sono infatti parole omofone, ed il sistema, che nel

processo di riconoscimento non compie analisi di tipo semantico117, non è in grado di

117 Come leggiamo infatti in: Edman, Tom; Il Riconoscimento Automatico della Voce, op.cit., pag.42,: “Sistemi di questo tipo ignorano evidentemente di che cosa si parla. Infatti essi funzionano ugualmente bene con ogni tipo di segnale acustico di breve durata, purchè esso abbia una larghezza di banda simile a quella del parlato.”


distinguere due parole la cui pronuncia è identica. In questo caso ci limiteremo, come

indicano le due figure seguenti, a selezionare l’errore di riconoscimento, aprire la finestra

di correzione e digitare in essa l’espressione corretta: il comando ‘click ok’ ci riporterà

alla finestra di dettatura.

Vediamo innanzi tutto la selezione dell’errore:


Vediamo ora la digitazione, nella apposita finestra, dell’espressione corretta:


Al termine di queste operazioni, l’errore sarà stato corretto (nella finestra di dettatura

comparirà la parola ‘thumb’s’), ma non memorizzato: data infatti l’omofonia tra le due

parole, un addestramento della loro pronuncia sarebbe inutile118, ed è per questo motivo

che non possiamo parlare di una correzione vera e propria.

L’ultimo errore di riconoscimento è analogo al secondo: entrambi derivano infatti non

dall’incapacità del sistema al riconoscimento esatto della parola pronunciata, bensì da una

pronuncia poco chiara da parte dell’utente. Anche questo caso, dunque, si distingue per la

semplicità e la velocità del processo di correzione, che consiste nel selezionare l’errore:

118 A questo proposito si consiglia, nel caso che la parola ‘thumb’s’ sia contenuta in un testo da pronunciare nel corso di una lezione o di una conferenza (e non in un semplice brano da dettare al computer), l’addestramento specifico dell’espressione ‘a thumb’s width’, o addirittura dell’intera frase contenente questa espressione.


e nel ripetere l’espressione corretta, prestando una maggiore attenzione nel pronunciarla:


Come abbiamo potuto vedere, l’utilizzo di un sistema di riconoscimento vocale non

presenta, dal punto di vista pratico, particolari problemi; anche il ricorso ad una lingua

piuttosto che un’altra non influisce sui risultati del riconoscimento. L’unica vera difficoltà

risiede invece nella conoscenza, da parte dell’utente, della lingua in questione (in

particolar modo della pronuncia dei vocaboli): gli esempi forniti in questo paragrafo

dimostrano infatti quanto sia importante una pronuncia corretta e attenta per consentire al

sistema un riconoscimento il più possibile fluido e regolare.


3.5 L’aspetto educativo dei sistemi sottotitolatori

Abbiamo illustrato in 3.1 l’utilità dei sistemi sottotitolatori per quanto riguarda

l’integrazione sociale dei soggetti audiolesi. La sottotitolazione di lezioni scolastiche,

conferenze, programmi televisivi e telefonate permetterebbe infatti a questi la

partecipazione ad ogni momento della vita quotidiana (scolastico, lavorativo e ricreativo)

in pari misura rispetto a qualsiasi persona normoudente. Si presuppone però, per la

fruizione dei sottotitoli, una buona conoscenza del codice linguistico (ovvero l’essere in

grado sia di leggere che di comprendere il contenuto della sottotitolazione). Si potrebbe

dunque pensare che i sistemi sottotitolatori siano destinati esclusivamente a persone adulte,

o che per lo meno abbiano una buona padronanza della propria lingua madre119.

Noi intendiamo invece evidenziare che questi sistemi hanno anche una funzione educativa,

destinata ai soggetti più giovani; tale funzione permetterà di ampliare il loro bagaglio

lessicale e migliorare le loro capacità di lettura e scrittura.

3.5.1 L’importanza dei sottotitoli per l’apprendimento della lingua nei bambini sordi

L’aspetto forse più grave della sordità, al di là del deficit uditivo in sè, si riscontra

nell’effetto inibitorio che questa (specie se insorta dalla nascita) esercita sulle capacità

comunicative di chi ne soffre. Essa compromette infatti, come già visto nel capitolo 2, non

solo la capacità articolatoria del soggetto audioleso (il quale, in mancanza di un feedback

acustico120, non sarà in grado di controllare ed organizzare i suoni emessi dal proprio

apparato fonatorio), bensì anche la sua produzione linguistica, ovvero l’apprendimento

della lingua parlata e scritta. A questo proposito si legge, in un articolo sulla riabilitazione

del bambino sordo:

“Nel bambino sordo prelinguale [...] è fortemente compromessa la comunicazione

linguistica, in quanto la disabilità del canale uditivo-verbale fonatorio impedisce

119 Il discorso può comunque essere esteso anche ad una lingua straniera. In generale, la buona padronanza di una qualsiasi lingua permetterà all’utente del sistema sottotitolatore di seguire i sottotitoli forniti in quella stessa lingua.120 Per feedback acustico si intende la possibilità, per un bambino normoudente, di ascoltare i suoni da lui prodotti ed associarli a determinati movimenti del proprio apparato fono-articolatorio. Nei primi mesi di vita, il feedback acustico è fondamentale per lo sviluppo fonologico del bambino, ovvero per la sua acquisizione della capacità di emettere fonemi. Questi argomenti sono per esempio sviluppati in: Lanticina, Margherita; Apprendimento della Lettura e della Scrittura nel Bambino Ipoacusico , tesi di diploma in Corso di Specializzazione Polivalente per l’Insegnamento agli Alunni di Handicap Psicofisico, Uditivo, Visivo; Provveditorato agli Studi di Como, A.A. 1989-1990.


l’acquisizione della competenza linguistica, che di norma s’innesca uditivamente per

l’ascolto della lingua parlata dal gruppo di appartenenza.”121

Mentre un bambino normoudente ha, fin dai primi mesi di vita, la possibilità di completare

gli insegnamenti trasmessigli dagli adulti con una molteplicità di informazioni ricevute in

maniera inconsapevole e spontanea dall’ambiente circostante (conversazioni, radio,

televisione, ecc.), un bambino sordo profondo dalla nascita, non può usufruire di questo

“bagno sonoro” per la naturale aquisizione del linguaggio: tutto ciò che egli apprende sarà

dato dagli insegnamenti ricevuti, e non da informazioni percepite indirettamente ed

acquisite spontaneamente attraverso l’ambiente che lo circonda. La sua comprensione del

linguaggio e la sua produzione linguistica (sia parlata che scritta) risentiranno di questa

incompletezza di informazioni sonore e ne risulteranno pertanto danneggiate122. Per

consentire al bambino sordo un input di informazioni lessicali e linguistiche il più

possibile vicino a quello di un bambino udente, si rende allora necessario sostituire il

canale di immissione di tali informazioni, e passare quindi dal canale uditivo a quello

visivo123.

La possibilità di sfogliare riviste e fumetti accompagnati da figure e immagini colorate,

anche quando il bambino non sia ancora in grado di leggere correttamente, costituisce già

un primo passo per l’acquisizione di informazioni mediante canale visivo. La

sottotitolazione di conversazioni, trasmissioni televisive e, in età scolare, di lezioni

scolastiche, costituirà un ulteriore e ancor più valido supporto per un migliore e più

121 Schindler, O.; Vernero, I; Utari, C.; Schindler, A.; Stato dell’Arte della Riabilitazione logopedica del Bambino Sordo, in “Riabilitazione oggi”, anno XV, n° 7, settembre 1998, pag.14.122 Come afferma Sacks, Oliver; nel suo libro Vedere voci: un Viaggio nel Mondo dei Sordi, op.cit, la mancanza dell’udito riduce la quantità di stimoli acquisibili naturalmente, con conseguenze negative sull’acquisizione del linguaggio; egli scrive, a pag. 84: “Mancano le capacità linguistiche, in sostanza la competenza linguistica; una mancanza che è tanto lessicale quanto grammaticale, ed è particolarmente frequente e accentuata negli scolari sordi prelinguistici.”. L’autore, in seguito a diverse visite in scuole e famiglie di bambini sordi, è molto colpito dalla povertà del vocabolario di questi, e dalle loro difficoltà nella lettura e nella scrittura: ritiene pertanto compito degli insegnanti e dei familiari di un bambino sordo cercare di rendere l’ambiente che lo circonda il più possibile ricco di stimoli ed inviti alla comunicazione.123 Ancora una volta prendiamo spunto dal libro Vedere voci di Sacks, Oliver: la possibilità di compensare un senso con un altro viene confermata a pag.135, dove si legge: “[...] un senso è potenziato per ‘rimpiazzarne’ un altro assente [...]”. Alla stessa pagina, nella nota 61, si legge: “E’ intuizione di antica data che la perdita dell’udito può dare luogo a una ‘compensazione’ visiva; ciò non può essere ascritto solo all’uso dei Segni. Tutti i sordi - anche quelli postlinguistici, che sono dentro il mondo della lingua vocale - acquisiscono un certo potenziamento della sensibilità visiva, si spostano verso un atteggiamento più visivo [...]”. Puntare sul canale visivo per l’immissione di informazioni lessicali e linguistiche può quindi ricoprire un ruolo di particolare importanza nell’apprendimento e nel consolidamento della competenza linguistica da parte di un bambino sordo.


completo apprendimento della lingua da parte del bambino audioleso, ignaro del

mondo sonoro che lo circonda.

Sulla funzione educativa dei sottotitoli per il miglioramento della competenza linguistica

da parte dei bambini sordi sono stati compiuti alcuni studi: intendiamo portare uno di

questi studi a sostegno delle nostre affermazioni.

3.5.2 Uno studio approfondito sulla funzione educativa dei sottotitoli per i bambini sordi

L’idea di servirsi dei sottotitoli come ausilio nell’educazione linguistica dei bambini sordi

non è nuova: essa nasce, in Italia, in seguito all’istituzione della pagina 777 del servizio

RAI Televideo nel 1986124. Con questa pagina, l’emittente televisiva RAI si avvicina alle

esigenze degli spettatori sordi, ed offre loro la possibilità di seguire film sottotitolati. La

stessa RAI propone, nel 1988, una ricerca sull’utilizzo di film sottotitolati nell’educazione

linguistica dei bambini sordi. Questa ricerca viene compiuta in collaborazione con

l’Istituto di Psicologia del CNR di Roma e l’Istituto Nazionale Sordomuti di Genova, ed

ha lo scopo di dimostrare che la visione di film sottotitolati da parte di bambini

audiolesi può portare a rapidi e sorprendenti progressi nell’apprendimento della

lingua scritta. Nel corso della ricerca vengono presentati ad una trentina circa di alunni

audiolesi (suddivisi in due gruppi: seconda e terza elementare il primo, quarta e quinta

elementare il secondo), e con intervalli di una settimana, dei film con sottotitoli graduati125

prodotti dal servizio RAI Televideo nel giugno 1987. Al termine di ogni presentazione i

bambini vengono invitati a rispondere per iscritto ad una serie di domande sulla trama del

film in questione. Di settimana in settimana è possibile assistere a progressi significativi

nella produzione scritta di questi alunni: il vocabolario si arricchisce, l’uso dei tempi

verbali diventa via via più corretto, gli errori di ortografia diminuiscono, compaiono

strutture linguistiche che prima non venivano utilizzate, lo stile (da confuso che era) si fa

più semplice e chiaro. In generale, si riscontra al termine della ricerca una maggiore

padronanza delle regole linguistiche da parte di questi bambini, unita al piacere di scrivere

e ad una migliore comprensione dei film con sottotitotoli da loro seguiti. Maria Pia Conte,

124 Queste ed altre informazioni relative al servizio RAI Televideo sono reperibili alla seguente pagina Internet: http://www2.telematica.it/sottotit.htm125 Presentare dei film con sottotitoli graduati significa mostrare, nel corso delle sedute, dei film sottotitolati in misura progressivamente meno semplificata, fino ad arrivare alla normale sottotitolazione trasmessa dalla pagina 777 di Televideo.


neuropsichiatra di Genova e autrice della relazione finale sui risultati della ricerca, scrive,

nelle ultime righe di tale relazione:

“L’effetto della sottotitolazione di programmi televisivi, quindi, già così determinante in

sè, diventa ancora più vasto per l’effetto a cascata che determina suscitando nei ragazzi

interesse nei confronti di tutte le forme di lingua scritta e competenza per poterne godere

i contenuti.”126

Questa affermazione sottolinea quindi la doppia funzione dei sottotitoli a favore delle

persone sorde: da un lato, la possibilità di seguire un certo numero di programmi televisivi

al pari di una persona normoudente (integrazione sociale); dall’altro, l’ausilio dato

nell’apprendimento e nel consolidamento della competenza linguistica (educazione)127. La

funzione di educazione inoltre, non si limita (come si potrebbe pensare) a bambini la cui

conoscenza della lingua e la capacità di lettura abbiano già raggiunto un discreto livello: la

durata del film proposto, il grado di complessità ed il tempo di permanenza dei sottotitoli

sullo schermo possono essere modificati a seconda delle esigenze dei bambini a cui il film

viene proposto. Come scrive infatti Maria Pia Conte:

“Per lavorare con bambini che non raggiungono queste capacità pensiamo siano necessari

films più brevi, sull’ordine dei 5-10 minuti con sottotitoli di livello simile a quelli

utilizzati in ‘Bongo’128 e della stessa durata di permanenza sullo schermo.”129

3.5.3 I “sistemi sottotitolatori”: un aiuto in più

Grazie agli enormi progressi compiuti negli ultimi anni nel campo del riconoscimento

vocale, è oggi possibile ampliare il discorso della sottotitolazione. Come visto nel corso di

questo capitolo infatti, la semplice integrazione di un particolare programma software (NS

Video) ad un comune sistema di riconoscimento vocale in parlato continuo (Dragon

126 Conte, Maria Pia; Film con Sottotitoli Graduati - Effetti sulla Comprensione della Trama e sulla Produzione di Testi Scritti in Bambini e Ragazzi Sordi, Rapporto Tecnico, Roma: Istituto di Psicologia del CNR e Rai-Televideo, 1988, pag.13.127 Dell’importanza educativa dei sottotitoli si parla anche in: Favia, Maria Luisa; Maragna, Simonetta; Una Scuola oltre le Parole, Manuale per l’Istruzione dei Sordi , op.cit., cap. 5; Caselli, Maria Cristina; Maragna, Simonetta; Pagliari Rampelli, Laura; Volterra, Virginia; Linguaggio e Sordità: Parole e Segni per l’Educazione dei Sordi, op.cit., cap. 7.128 ‘Bongo’ è uno dei film utilizzati nel corso della ricerca; si tratta, per la precisione, di uno dei primi film mostrati al gruppo dei bambini che frequentano la seconda e la terza elementare.129Conte, Maria Pia; Film con Sottotitoli Graduati - Effetti sulla Comprensione della Trama e sulla Produzione di Testi Scritti in Bambini e Ragazzi Sordi, op.cit., pag.6.


NaturallySpeaking), ha permesso la creazione di un vero e proprio sistema di

sottotitolazione, utilizzabile in situazioni di diverso tipo, come per esempio una

conversazione, una lezione, una conferenza. In questo modo, la possibilità di ricorrere alla

sottotitolazione viene estesa ad una molteplicità di momenti della vita quotidiana di una

persona audiolesa. Questo significa, per un adulto, un maggiore coinvolgimento nella

società e, per un bambino, un impulso sempre costante per la graduale assimilazione delle

strutture linguistiche. Grazie allo sviluppo dei sistemi sottotitolatori viene pertanto

potenziata non solo l’integrazione sociale bensì anche l’educazione delle persone

sorde, fin dai primi anni di vita.

Naturalmente non intendiamo proporre, con questa affermazione, i sistemi sottotitolatori

come strumenti educativi a sé: questi sistemi non vanno intesi come una alternativa alle

odierne metodiche di riabilitazione e insegnamento del linguaggio per i bambini sordi. Se

comunque affiancati ad un bambino audioleso in casa, a scuola, oppure anche nel corso di

una seduta logopedica, essi possono costituire un valido e concreto supporto per il

miglioramento della sua competenza linguistica.


3.6 Conclusioni

Presentando in questo capitolo il progetto VOICE abbiamo mostrato concretamente al

lettore uno dei diversi modi in cui informatica e tecnologia possono associarsi ad altre

scienze nel supporto alle persone disabili. Dal momento che VOICE si basa sulla

diffusione dei sistemi di riconoscimento vocale, abbiamo preso in esame questi sistemi,

cercando di valutarne la validità dal punto di vista sia tecnico che sociale.

Nel primo caso, abbiamo illustrato il loro funzionamento (ovvero i passi che dalla

pronuncia di un testo portano alla comparsa di questo sul video del computer) e la loro

semplicità d’uso da parte di un qualsiasi utente, anche inesperto.

Nel secondo caso, abbiamo esposto i benefici che sistemi di questo tipo possono portare

alle persone audiolese, alle quali, per l’appunto, il progetto VOICE si rivolge. Si tratta di

benefici relativi da un lato all’integrazione sociale, e dall’altro all’educazione linguistica

di queste persone. In realtà, comunque, questi due ambiti sono strettamente correlati,

poichè proprio in ambito educativo (ovvero nelle scuole) inizia l’integrazione dei sordi (e

dei disabili in generale). Come leggiamo infatti nel resoconto di una conferenza

sull’integrazione dei disabili nelle scuole, organizzata dal gruppo BRUSH (Brussels

Support for the Handicapped) e tenuta a La Hulpe (Belgio) nel febbraio 1987:

“DEFINITIONS OF INTEGRATION

[...]

1. Integration, or mainstreaming, is a process of increasing the participation of children, young

people and adults in the social, educational, professional, creative and recreational life of

mainstream provision and services, whether as

- consumers

- workers, or

- managers.

2. This process represents a long-term enrichment of the quality of life for everyone,

whatever their abilities or disabilities.

[...]

ARGUMENTS IN FAVOUR OF INTEGRATION

[...]

1. Support for the principle of integration rests on the right of people with disabilities to the same

opportunities for self-fulfilment as other people.

[...]


3. If we agree with integration after school, then surely the right place to begin that

integration is in school, or before it at a pre-school level.

[...] ”130

Queste definizioni e argomentazioni di Mark Vaughan, allora membro del CSIE (Centre

for Studies on Integrated Education), un istituto autonomo di beneficenza, risalgono a più

di dieci anni fa, ma si possono ancora oggi considerare estremamente valide ed attuali.

Per concludere, desideriamo infine riportare alcune righe tratte dal sito Internet Deaf

World Web: in queste righe troviamo l’opinione nei confronti del riconoscimento vocale,

espressa dalle persone che vi sono più direttamente interessate, ovvero le persone sorde.

Queste vedono nell’informatica e nella tecnologia un sostegno sempre crescente per la

risoluzione di molti dei problemi delle persone disabili, e accolgono con entusiasmo ogni

nuova scoperta in questo campo:

“With the advent of microcomputers, the deaf are on the threshold of a technological

quantum leap which will finally close the gap between themselves and the hearing world.

Text-to-voice technology is already here: computers are capable of synthesizing speech

whenever words are typed out. Voice-to-text technology is in the process of being

perfected; the deaf will eventually be able to read on the computer screen what others are

saying by voice.”131

130 Brussels Support for the Handicapped (a cura di); Seminar on Integrated Education for the Disabled, Atti del Convegno, La Hulpe, 7 febbraio 1987, pagg. 24-25:138 “DEFINIZIONI DI INTEGRAZIONE139 [...]

140 1. Integrazione, o ‘mainstreaming’, è un processo che consiste nell’incrementare la partecipazione di bambini, adolescenti e adulti alla vita sociale, educativa, professionale, creativa e ricreativa, ed a prodotti e servizi comuni in generale, in qualità di

141 - consumatori 142 - lavoratori, o 143 - manager

144 2. Questo processo rappresenterà un arricchimento a lungo termine della qualità della vita di ognuno, indipendentemente dalle sue abilità o disabilità.145 [...]146 ARGOMENTI A FAVORE DELL’INTEGRAZIONE147 1. Il sostegno al principio dell’integrazione si basa sul diritto delle persone disabili di avere le stesse opportunità di autorealizzazione rispetto alle altre persone.148 [...]

149 3. Se siamo concordi con l’integrazione dopo la scuola, a maggior ragione concorderemo con il fatto che il periodo più indicato per l’inizio del processo di integrazione è quello della scuola, o addirittura quello prescolastico.”

131 Questa definizione è reperibile al seguente indirizzo Internet:151 Technology and the Deaf, Deaf World Web, http://dww.deafworldweb.org//pub/c/rjc/rjctech.html.152 “Con l’avvento del microcomputer, i sordi sono arrivati sulla soglia di un progresso tecnologico enorme, che colmerà finalmente il divario tra sé ed il mondo degli udenti. Le tecnologie di sintesi vocale sono già una realtà: i computer sono in grado di sintetizzare un discorso, ogni qualvolta le parole vengano digitate sulla tastiera. Le tecnologie di riconoscimento vocale vengono gradualmente perfezionate: i sordi potranno finalmente leggere sullo schermo del computer ciò che gli altri dicono a voce.”


Si tratta di affermazioni recenti, che esaltano i numerosi benefici derivanti dal

coinvolgimento di informatica e tecnologia nell’ambito assistenziale. Tutto ciò a conferma

dell’importanza e della validità di cui si ricoprono iniziative come il progetto VOICE, che

da due anni e a livello internazionale si impegna, attraverso lo sviluppo di nuove soluzioni

informatiche, per il miglioramento della vita delle persone sorde.

Considerazioni finali

Abbiamo in questa tesi analizzato il rapporto tra la scienza dei suoni (la fonetica) e il

mondo della sordità, in tre diverse situazioni.

La prima situazione è relativa al passato, e mostra come fin dai primi tentativi di

educazione verbale di soggetti sordi, sebbene non esistesse ancora propriamente la scienza

della fonetica (di cui si parla ufficialmente dalla seconda metà del diciannovesimo secolo),

la conoscenza e lo studio della produzione dei suoni fossero alla base di ogni intervento

inteso a fornire al sordo la capacità di comunicare oralmente. Già i primi educatori dei

sordi, infatti, invitavano i loro alunni ad osservare bene l’articolazione dei fonemi sulle

proprie labbra, e li esercitavano a percepire le vibrazioni create nella pronuncia di ciascun

suono facendosi porre una mano sulla gola o sul petto. Il sordo veniva così portato ad

imitare l’esempio dell’educatore, impostando la forma delle labbra e la posizione della

lingua alla ricerca del medesimo effetto vibratorio e, quando non ne fosse in grado, veniva

aiutato dall’educatore stesso al posizionamento corretto degli organi articolatori, con

l’ausilio di strumenti appositi o adattati alla necessità.

La seconda situazione si riferisce al presente, alla situazione attuale di educazione verbale

dei sordi. Questa si svolge con metodiche via via più efficaci e interdisciplinari, e viene

sostenuta da terapie sempre più complete, che permettono di contenere nel limite del

possibile i danni causati dalla perdita dell’udito. Alla base di questi interventi vi è


comunque uno studio approfondito della percezione (visiva ed uditiva) dei suoni, della

loro articolazione e produzione, dei caratteri che li compongono.

La terza situazione, infine, è relativa a un campo di intervento proiettato nel futuro, ovvero

al campo dell’informatica e al suo ruolo nel miglioramento della vita degli audiolesi dal

punto di vista dell’integrazione sociale. In questo senso, la fonetica fornisce i fondamenti

per una corretta ed efficiente interazione verbale uomo-macchina, cioè per la conversione

di comunicazioni orali in testi scritti, in sottotitoli automatici di cui il sordo potrà presto (si

spera) usufruire in buona parte delle situazioni di vita quotidiana.

Il vasto e complesso mondo della sordità e l’importante ruolo che la fonetica, nei diversi

suoi aspetti, assume all’interno di questo, sono dunque il filo conduttore dell’intera tesi.

Grazie allo sviluppo di questo tema, è stato tuttavia possibile arrivare ad un ancor più

importante insegnamento relativo alla fonetica: essa è da sempre profondamente legata ad

uno degli aspetti più importanti della vita dell’uomo, la comunicazione, e questo legame si

rafforza e si consolida sempre di più col passare del tempo, andando ad includere e toccare

ogni nuova e più sofisticata modalità comunicativa dall’uomo stesso escogitata.


· web viewl’idea di servirsi dei sottotitoli come ausilio nell’educazione linguistica dei...

Documents