1 la refertazione vocale assistita al computer: quali sviluppi cortina dampezzo – venerdì 25...
Post on 01-May-2015
219 Views
Preview:
TRANSCRIPT
11
La refertazione vocale assistita al computer: quali sviluppi
Cortina d’Ampezzo – Venerdì 25 maggio, 2007
2
La tecnologia ASR►Concettualmente semplice da comprendere ed
utilizzare: un software di riconoscimento vocale riconosce ciò che già
conosce, tramite un’operazione di confronto tra ciò che ascolta e quanto aveva già ascoltato.
►È altrettanto complesso e sofisticato per produrre risultati eccellenti in tempo reale Gestisce un alto grado di variabilità del segnale audio
“speech” Si basa sul confronto di entità analogiche da parte di
strumenti digitali
3
Architettura di un motore ASR
Context o Topic
Input vocaleConversione A/D
&Feature Calculation
Ricerca o Classificazione
Referenze acustiche
Vocabolario (Lexicon)
Modello statistico di linguaggio
(Language model)
Frase riconosciuta
4
L’alta variabilità del segnale audio costringerebbe all’utilizzo di un numero di variabili enorme:
Si utilizza una procedura di semplificazione e combinazione delle variabili, pur descrivendo i dati con una accuratezza sufficiente.
Feature calculation
Elaborazione molto lenta Generalizzazione e
impoverimento dati acquisiti
Context o Topic
Input vocaleConversione A/D
&Feature Calculation
Ricerca o Classificazione
Referenze acustiche
Vocabolario (Lexicon)
Modello statistico di linguaggio
(Language model)
Frase riconosciuta
5
Referenze Acustiche
► Il modello acustico contiene le informazioni sulla pronuncia dei fonemi.
► Serve per calcolare la distanza tra i vettori calcolati ed i vettori campione contenuti nel modello.
► I moderni sistemi di riconoscimento vocale analizzano i fonemi in un contesto destro-sinistro
Context o Topic
Input vocaleConversione A/D
&Feature Calculation
Ricerca o Classificazione
Referenze acustiche
Vocabolario (Lexicon)
Modello statistico di linguaggio
(Language model)
Frase riconosciuta
6
Hidden Markov Models► Modello statistico utilizzato per il riconoscimento delle
sequenze di fonemi.► Calcola la pronuncia di una unità acustica (triphone) oltre a
velocità e frequenza. ► Modello semplice e robusto per il quale esistono potenti
algoritmi di ottimizzazione.
Context o Topic
Input vocaleConversione A/D
&Feature Calculation
Ricerca o Classificazione
Referenze acustiche
Vocabolario (Lexicon)
Modello statistico di linguaggio
(Language model)
Frase riconosciuta
7
ConText o Topic
► Lexicon: tutte le parole che devono essere riconosciute con informazioni relative alla loro pronuncia.
Lesioni lacunari ischemiche il corrispondenza di...
Lesioni lacunari ischemiche in corrispondenza di...
►Language Model o modello statistico di linguaggio
CORPUSReferto
1Mil. di paroleArticolo “il”, 50.000 occorrenze: 5%
Preposizione “in”, 4.000 occorrenze: 0,4%
Context o Topic
Input vocaleConversione A/D
&Feature Calculation
Ricerca o Classificazione
Referenze acustiche
Vocabolario (Lexicon)
Modello statistico di linguaggio
(Language model)
Frase riconosciuta
8
Ricerca o classificazione
► Intende trovare la sequenza di parole più probabile, all’interno di tutte le sequenze possibili.
1. Analisi dei singoli fonemi, calcolando la distanza tra i vettori calcolati ed i vettori campione (referenze acustiche)
2. Il Lexicon o vocabolario cerca le parole di senso compiuto tra le combinazioni possibili di fonemi
3. Il Language Model utilizza i risultati per ricercare ipotesi di concatenazione di parole
► Durante il processo le numerose ipotesi ai vari livelli vengono valutate o ignorate, a seconda che siano ritenute valide o meno, mostrando al termine del processo l’ipotesi più probabile (e le n più probabili tra le alternative). Il tutto in tempo reale. Context o Topic
Input vocaleConversione A/D
&Feature Calculation
Ricerca o Classificazione
Referenze acustiche
Vocabolario (Lexicon)
Modello statistico di linguaggio
(Language model)
Frase riconosciuta
9
L’efficienza va oltre l’accuratezza
► Un futuro in cui le tecnologie più sofisticate saranno controllate da interfacce naturali è già disponibile.
► Solo combinando ergonomia e tecnologia, è possibile il raggiungimento degli obiettivi che le soluzioni di refertazione vocale si prefiggono: riduzione dei costi e dei tempi con significativo aumento della produttività. Sovraccarico di lavoro per il medico, con la refertazione vocale diretta: 20
sec. max a referto. * La maggior parte del tempo è spesa nelle fasi precedenti alla dettatura
dell’esame da refertare.L’ergonomia del sistema incide almeno quanto l’accuratezza.
► Alte prestazioni ed un'interfaccia ergonomica per una soluzione che si adatti alle proprie abitudini lavorative.
(*) Tali valori diminuiscono in funzione dell’esperienza acquisita sul nuovo processo di refertazione.
10
Campi multipliUn futuro in cui le tecnologie più sofisticate saranno controllate da interfacce naturali è già disponibile.
11
Il futuro della refertazione è adesso
►I professionisti offriranno un servizio migliore, quanto più i sistemi potranno consentire condivisione di informazioni e libertà di movimento.
►Le nuove tecnologie consentono questo cambiamento purché supportate da competenza ed esperienza nel settore.
12
Sistema phSyncro/phWare
Intranet VPN
Intranet VPN
Disaster RecoveryServerDatabase
ControlPanelWorkStation
Remote Site
Remote Site
WorkStations
WorkStations
Nodo
Nodo
13
Potenziali aree di sviluppo
► Correzione del rumore. Database di possibili rumori di fondo (campionamento).
► Dispositivi di dettatura. Diverse aziende, tra cui Microsoft, concordano nell’affermare che utilizzando più microfoni (microphone array) aumentano le possibilità di distinzione tra rumori di fondo e parlato.
► Controllo del movimento delle corde vocali. Questa teoria in fase di studio presso i laboratori Laurence Livermore utilizza tecnologie radar per identificare il movimento delle corde vocali.
► Natural language understanding. L’unione del Natural Language Processing (NLP) e riconoscimento vocale in continuo rappresenta un interessante sviluppo per aggiungere valore al processo clinico tramite estrazione automatica di contenuti e dati clinici esatti da una dettatura in testo libero.
14
Un futuro luminoso: oltre il 100% dell’accuratezza?
► Non più trascrizione letterale, ma interpretazione del significato. Grammatiche per la formattazione automatica di misure, numeri, date,
ecc... Varianti ortografiche Gestione esitazioni Brevi ripetizioni Tosse Punteggiatura automatica
► Maggiore accuratezza + maggiore capacità di calcolo = maggiore capacità di disambiguazione, e quindi vocabolari più ampi, multidisciplinari.
15
Caveat emptor!
“La tecnologia ASR dovrebbe riconoscere qualsiasi parola pronunciata.” - Chi crede che basti pronunciare una qualsiasi parola itaiana e questa verrà trascritta sarà deluso.
► Valutazione in ambiente reale dai reali utilizzatori.► Leggere un referto e dettare un referto sono procedure diverse.► Test in presenza di rumori di fondo.► Disambiguazione di parole brevi (monosillabe) - The Short Word
Phenomenom► In generale i sistemi di riconoscimento vocale mostrano le
prestazioni più alte nei domini in cui le applicazioni sono state create: se utilizziamo un vocabolario di Corrispondenza Generale per dettare un referto Radiologico, probabilmente i risultati saranno scarsi. Ma non si dimostra nulla.
16
Grazie
G.S.T. S.r.l.Via Maccani, 5438100 TRENTO – ItalyPhone +39 0461 431333Fax +39 0461 431334
FilialeCentro Torri Bianche . Palazzo QuerciaVia Torri Bianche, 920059 Vimercate (MI) – ItalyPhone +39 039 608 4252
http://www.gsttn.itMarco BiraghiDirettore Generale mobile +39 335 7272911
e-mail: mbiraghi@gsttn.it
top related