scarica il booklet degli abstract in formato .pdf

In memoria di Edda Farnetani

CONTESTO COMUNICATIVO E VARIABILITÀ NELLA PRODUZIONE E PERCEZIONE DELLA LINGUA

7° convegno AISV

26-28 gennaio 2011

Università del Salento

Sala Conferenze - Rettorato Piazza Tancredi 7, 73100 Lecce

ABSTRACT BOOKLET*

* La versione degli abstract contenuti nel presente booklet è anteriore rispetto al

processo di revisione

COMUNICAZIONI ORALI 26 Gennaio 2011

L’età percepita

M. Pettorino, A. Giannini

Università degli Studi di Napoli “L'Orientale”

Numerose ricerche sperimentali hanno confermato che esiste una relazione tra voce ed età del parlante. L’accuratezza di giudizio dipende da molti fattori, come ad esempio il tipo di parlato (letto vs spontaneo), la quantità di informazione fornita dal campione di voce/parlato, la velocità di eloquio, il sesso, l’età, la condizione fisiologica e psicologica del parlante, nonché l’età dell’ascoltatore [Hollien and Shipp 1972, Ptacek and Sander 1966, Ramig and Ringel 1983; Linville 1987; Linville 2004; Winkler and Brückl 2003; Schötz 2005]. Scopo di questo lavoro è verificare su base percettiva con quale approssimazione sia possibile identificare l’età del parlante e se vi siano delle differenze di valutazione imputabili al sesso e all’età dell’ascoltatore. Inoltre intendiamo verificare, mediante analisi spettrografica, quanto la velocità di articolazione e la velocità di eloquio incidano sul riconoscimento dell’età del parlante. Il corpus di questo lavoro è stato ottenuto nel modo seguente. Da un articolo di giornale è stata selezionata una frase della durata di circa 7 secondi. Il testo, privo di punteggiatura, è stato fatto leggere a 23 parlanti di sesso maschile, tutti italofoni di area campana, suddivisi in sei fasce d’età. Il corpus è stato oggetto di due test percettivi da parte di 177 ascoltatori non esperti, 90 donne e 87 uomini, selezionati in base alla fascia d’età di appartenenza. Nel primo test l’ascoltatore doveva indicare quale fosse la voce più giovane tra due voci. Nel secondo test agli ascoltatori veniva chiesto di indicare, su una apposita scheda, l’età di ciascun parlante. I primi risultati relativi ai test percettivi hanno evidenziato che:

1. La voce contiene dei tratti acustici relativi all’età del parlante e percettivamente tali caratteristiche sono identificabili dall’ascoltatore.

2. Il test comparativo, in cui l’ascoltatore doveva individuare tra due voci quale fosse la più giovane/vecchia, dimostra che il riconoscimento è corretto con una altissima probabilità (88%).

3. Gli ascoltatori più giovani (16-35 anni) riconoscono l’età del parlante meglio che gli ascoltatori più anziani. Al contrario, nessuna differenza è stata notata per quanto riguarda il sesso degli ascoltatori.

4. Il secondo test dimostra che l’età del parlante tende ad essere sovrastimata per la fascia più giovane (16-25) e sottostimata per quelle più anziane (46 in su).

Sulla base di questi primi risultati ci sembra di poter dire che è possibile riconoscere con buona approssimazione l’età del parlante su base esclusivamente percettiva. Il nostro intento è quello di poter mettere a punto una procedura che possa guidare alla scelta di ascoltatori in grado di fornire i migliori risultati. A tale fine cercheremo di stabilire se e quanto incida nel riconoscimento di una voce l’altezza e il peso del parlante e se, come alcuni affermano, gli ascoltatori valutano meglio i parlanti appartenenti alla loro stessa fascia d’età. Infine, poiché alcuni degli ascoltatori (ricordiamo tutti non esperti) per il lavoro che svolgono (due insegnanti, un barista, un’accompagnatrice turistica, un medico, un assistente universitario) hanno un contatto audio-visivo con numerose persone, estrapoleremo i loro risultati per verificare se anche questa variabile sia significativa e incida, quindi, nella scelta degli ascoltatori.

Allo stato dei fatti possiamo dire che, per ricavare l’età del parlante esclusivamente su base percettiva, sarebbe opportuno:

1. scegliere ascoltatori di età compresa tra i 16 e i 35 anni di età;

2. condurre una serie di test di tipo comparativo in cui una stessa voce di età nota viene messa a confronto di volta in volta con voci appartenenti a tutte le fasce di età;

3. i risultati della prima serie di test permetteranno di restringere il campo ad alcune fasce di età. Sull’intervallo così individuato andrà effettuato il secondo test, che permetterà di delimitare ulteriormente la fascia di età del parlante.

Altre possibili indicazioni verranno date alla luce degli altri dati che stiamo attualmente analizzando. Una simile procedura, dopo le opportune verifiche, può risultare utile per diverse applicazioni, quali l’identificazione del parlante in ambito forense, la tutela dei minori nella navigazione sul web, o in tutti quei casi in cui il soggetto non sia in grado di fornire i propri dati anagrafici (ambito medico, sociale, assistenziale per gli immigrati, etc).

Bibliografia:

Hollien, H. &Shipp, T. (1972), Speaking fundamental frequency and chronological age in males, Journal of Speech and Hearing Research, 15:155-159

Linville, S. E. (1987), Acoustic-perceptual studies of aging voice in women, Journal of voice, 1 (1), pp. 44-48

Linville, S.E. ( 2004), The Aging Voice, American Speech-Language Hearing Association, pp. 12-21

Ptacek, P. H., Sander, E. K. (1966), Age recognition from voice, Journal of Speech and Hearing Research, 9:273-

277

Susanne Schötz, “Effects of Stimulus Duration and Type on Perception of Female and Male Speaker Age”, Proceedings, FONETIK 2005, Department of Linguistics, Göteborg University.

R. Winkler, M. Brückl,W. Sendlmeier, “The Aging Voice: an Acoustic, Electroglottographic and Perceptive Analysis of Male and Female Voices, Proceedings 15th ICPhS Barcelona, 2003.

I segnali discorsivi fra parlato e trasmesso. Polisemia sovrasegmentale e pragmatica.

I. Tempesta, A. Bitonti

Università del Salento

L’ efficienza e l’efficacia della comunicazione, oltre che dalla grammatica linguistica del testo, dipendono, per buona parte, dai mezzi pragmatici e sovrasegmentali cui si fa ricorso in un’interazione. I segnali discorsivi, la cui connotazione sociolinguistica risulta ancora poco esplorata in italiano, rappresentano uno dei mezzi più usati per esprimere importanti funzioni interattive, testuali, cognitive. Si tratta, com’è noto, di elementi di varia natura grammaticale (congiunzioni, avverbi, interiezioni, forme verbali, ecc.), in molti casi desemantizzati, che, anche se non incidono sulle condizioni di verità e non contribuiscono al contenuto della proposizione, svolgono importanti funzioni pragmatiche, interattive e testuali che possono coinvolgere anche il contenuto proposizionale. Sono strettamente correlati alla situazione enunciativa, caratterizzati dalla polifunzionalità, in quanto operano su più livelli e servono, soprattutto, a indicare atteggiamenti modali ed emozionali.

L'uso dei connettivi presenta interessanti modalità se confrontiamo due diverse modalità diamesiche della comunicazione, il parlato e il trasmesso. Nel nostro contributo si analizzano le presenze, il valore polisemico, definito non solo dalla forma linguistica ma anche dalla collocazione nel testo, dall’intonazione nel parlato, dalla rappresentazione grafica nel trasmesso, dei segnali. L’esame riguarda, in particolare, eh, ah, allora, che, in un corpus di dati meridionali (40 interazioni spontanee con 539 segnali rilevati) e 40 stati di Facebook (su chat, posta elettronica, bacheca), appaiono fra i più ricorrenti e fortemente polisemici.

Il linguaggio di Facebook è un amalgama di norme, condensa in sé tratti dello scritto e ancor più del parlato, è uno scritto trasmesso, che, grazie alle chat, si avvicina al parlato trasmesso, dia logicamente sincronico. Come si realizza la trasmissione dell’informazione discorsiva nei due tipi di comunicazione, faccia a faccia e a distanza? Oltre all’analisi pragmalinguistica si esaminano, per i dati del parlato, alcuni aspetti del profilo sovrasegmentale per studiare le diverse realizzazioni di una stessa forma linguistica in relazione a funzioni e contesti diversi.

Sia eh, che ah e allora svolgono vari ruoli. Eh svolge soprattutto funzione interattiva, esprimendo cooperazione, accordo. Serve anche a richiedere accordo, con tonia interrogativa Eh? Con la stessa tonia può diventare però una richiesta di spiegazione eh? In questi casi è il contesto e alcuni caratteri della vocale che permettono di decodificare il significato del segnale.

Pochi sono i casi di cumuli, sequenze di segnali discorsivi in cui ogni segnale mantiene una funzione diversa, con eh: eh, niente, con l’espressione di un accordo seguita da un riempitivo; eh, no con l’espressione di un’esitazione seguita da un disaccordo. Poco numerose anche le catene di segnali, sequenze in cui i diversi segnali discorsivi svolgono funzioni simili. Molte catene riguardano l’accordo: eh, sì; eh, va bbene. Queste catene, come eh, sì, servono anche a sottolineare il contenuto proposizionale e a metterlo in rilievo. Ripetute alcune richieste di conferma: eh?intesi?

Ah si ritrova soprattutto con funzione metatestuale, come focalizzatore, come segnale che regola e indirizza l’elaborazione dell’informazione a livello cognitivo.

Nei casi in cui ah ricorra con altro segnale, si tratta quasi sempre di catene formate da segnali con la stessa funzione, in genere cooperativa o rafforzativa: ah, vedi; ah, va bbè; ah, ecco.

Allora, cui sono stati dedicati vari studi non solo in italiano, ha, nei dati qui esaminati, una forte ricorrenza e una notevole polisemia pragmatica. L’analisi di alcune caratteristiche timbriche e temporali delle vocali, oltre che del contesto comunicativo è servita a definire un quadro di possibili realizzazioni in relazione a diverse funzioni e obiettivi perlocutori.

Allora compare sia come interattivo, sia come metatestuale. Come interattivo, si presenta come richiesta di accordo con tonia interrogativa allora? nella chiusura di turno, svolgendo anche la funzione di controllo della corretta ricezione e di passaggio di turno. Ma allora, con varie tonie, compare frequentemente anche in attacco di turno, esprimendo accordo e presa di turno. Allora è usato inoltre come riempitivo. Nel gruppo metatestuale allora ricorre come demarcativo, che serve a segnalare l’articolazione delle varie parti del testo, il rapporto tra gli argomenti e i temi trattati nell’interazione.

Pochi sono i casi in cui allora è prodotto con altri segnali. In questi casi si tratta di cumuli in cui i segnali hanno funzione diverse, ad es. no, allora, a differenza di ah, che ricorre soprattutto in catene.

L’analisi tiene conto della variazione sociolinguistica, mettendo in evidenza analogie e differenze fra i diversi gruppi di età e di genere. Ne deriva un quadro, ricco e variegato, delle modalità di produzione, su più livelli, di queste parti della lingua, che svolgono un ruolo, certo non ancillare, per la comunicazione.

Bibliografia:

C. Bazzanella, Segnali discorsivi e sviluppi conversazionali, in F. Albano Leoni, R. Giordano, a cura di, Italiano parlato. Analisi di un dialogo, Liguori, Napoli, 2005, pp. 137-157.

B. Gili Fivela, C. Bazzanella, Fenomeni di intensità nell'italiano parlato, F. Cesati, Firenze, 2009.

C.Bosisio, B.Cambiaghi, E.Piemontese, F.Santulli (a cura di), Aspetti linguistici della comunicazione pubblica e istituzionale , Guerra, Perugia, 2007.

D. Crystal, Language an the Internet, University Press, Cambridge, 2001.

N. Dittmar, Konstruktionen mit also im Deut-schen und mit allora im Italienischen: synchron und diachron in Construction Grammar, in New Perspectives for the study of German and English, International Conference at the Christian-Albrechts-University of Kiel, 18-20 febbraio 2010.

E. Magno Caldognetto, P. Cosi (a cura di), Atti XI Giornate di Studio del G.F.S., Unipress, Padova, 2001.

M. Pettorino, A. Giannini, M. Vallone, R. Savy (a cura di), La comunicazione parlata, Liguori, Napoli, 2008.

E. Pistolesi, Il parlar spedito. L’italiano di chat, e.mail e sms, Esedra, Padova, 2004.

How are segmentation cues modulated by communicative context?

L. White, L. Wiget, O. Rauch, S. L. Mattys

Scuola Internazionale Superiore di Studi Avanzati, Trieste

Segmentation research asks how listeners locate word boundaries in the ongoing speech stream. Sub-lexical segmentation cues include lexical stress, word-initial lengthening and phonotactic transition probabilities (e.g. Cutler & Norris, 1988; Quené, 1992; Saffran, Newport & Aslin, 1996). Lexical segmentation mechanisms arise from competition between word candidates compatible with sections of the speech stream and from inferences based on semantic and syntactic expectations (e.g. Dahan & Brent, 1999). Not all segmentation cues are exploited in perception at all times, however. In optimal listening conditions, listeners rely on lexical identity and syntactic/semantic structure, and pay less attention to sub-lexical cues. Where lexical and contextual information is unhelpful, sub-lexical cues such as phonotactics and initial lengthening become more important. Stress seems, in English, to be a last-resort cue when other sources of information are compromised, such as in noisy or whispered speech (e.g. Cutler & Butterfield, 1992).

The occurrence and interpretation of segmentation cues has largely been investigated using carefully articulated read speech. This neglects one of the most fundamental aspects of natural conversational speech, the fact that it is goal-directed and interactive. Conversational speech tends to be highly contextualized, with the production and interpretation of utterances being dependent on a quasi-mutual understanding of the foregoing interaction. In particular, the degree of articulatory effort in a speaker's utterances – hyperarticulation vs hypoarticulation – has been held to vary as a function of communicative and situational demands.

Such findings suggest consequences for the production and interpretation of speech segmentation cues. In particular, cues that are highly salient due to hyperarticulation in non-contextualised speech may be reduced or absent where lexical content is predictable. This predictably could arise as a result of expectation derived from the structure and meaning of the foregoing utterance, or, more straightforwardly, as a result of repetition of words or phrases.

We report development of a set of corpora designed to examine the production and perception of segmentation cues in natural conversational speech. To elicit spontaneous speech whilst controlling boundary-relevant properties, we adapted the Edinburgh Map Task methodology, in which two speakers interact conversationally regarding a route around landmarks on a map (Anderson, Bader, et al., 1991). Landmark names were one-word or two-word phrases, paired with similar phrases contrasting in potential segmentation cues, e.g. cross-boundary allophony: 8 near-homophonous phrase pairs (e.g., “great anchor” vs “grey tanker”) and 8 matched non-ambiguous phrase pairs (e.g., “bright anchor” vs “dry tanker”).

Assessment of the map corpus alongside a parallel corpus of read speech (landmark-carrying utterances subsequently re-recorded by the same speakers) allows us to: (1) compare the realisation of word-boundary relevant information in the two styles; (2) test listeners’ utilisation of segmentation cues present in spontaneous speech through perceptual experiments, both off-line rating tasks and on-line cross-modal priming experiments.

Our initial analyses focused on timing cues to juncture. We observed word-initial lengthening in read and spontaneous speech, although the difference in consonant duration between initial and final positions was greater for ambiguous read tokens (such as “great anchor”vs ”grey tanker”), indicating relative hypoarticulation in spontaneous speech. Furthermore, perceptual data indicated that such tokens in spontaneous, but not read, speech became more ambiguous with repetition. These results support the notion of the spontaneous speech context as relatively adverse for segmentation compared with careful laboratory speech, at least at the phonetic level.

We further report how listeners’ exploitation for segmentation of cross-boundary phonotactic regularities and of lexical predictability is modulated by communicative context. Results suggest that the use of sub-lexical cues such as phonotactics is strongly affected by the sum of segmentation information available to listeners at any point.

References:

Anderson, A., Bader, M. et al. (1991). The HCRC Map Task Corpus. Language and Speech, 34, 351-366.

Cutler, A., & Butterfield, S. (1992). Rhythmic cues to speech segmentation: Evidence from juncture misperception. Journal of Memory and Language, 31, 218–236.

Cutler, A., & Norris, D. G. (1988). The role of stressed syllables in segmentation for lexical access. Journal of Experimental Psychology: Human Perception and Performance, 14, 113–121.

Dahan, D., & Brent, M. R. (1999). On the discovery of novel wordlike units from utterances: An artificial-language study with implications for native-language acquisition. Journal of Experimental Psychology: General, 128, 165–185.

Quené, H. (1992). Durational cues for word segmentation in Dutch. Journal of Phonetics, 20, 331-350.

Saffran, J.R., Newport, E.L., & Aslin, R.N. (1996) Word segmentation: The role of distributional cues. Journal of Memory and Language 35, 606-621.

Automatic speech segmentation for Italian: tools, models, evaluation, and applications

F. Cangemi*, F. Cutugno^, B. Ludusan^, D. Seppi°, D. Van Compernolle°

*Université de Provence, Aix-en-Provence, France; ^Università degli Studi di Napoli “Federico II”, Napoli, Italy; °Katholieke Universiteit Leuven, Leuven, Belgium

The main aim of this work is to train and make available a set of statistical models that can be used for the automatic segmentation of Italian speech into phones. In this way, we foster the diffusion of tools, such as the automatic segmenter, in those research fields that can take considerable advantage from it (e.g. linguistics). The automatic segmentation of speech, and of Italian speech in particular, has reached high levels of sophistication and very good performance since the early 90s (e.g. [Wesenick and Kipp (1996)] and [Angelini et al. (1993)]). Nevertheless, its day-to-day usage has languished; we can identify three main reasons for that: first, dealing with some aspects of state-of-the-art speech technology, such as the fine-tuning of the training of statistical models, requires a fair amount of technical knowledge; second, resources such as the material for training the models, the lexicon, etc. can be expensive and not always of public domain; third, out-of-the-box, mainly commercial speech recognition tools can be expensive too, which brings us back to the previous points, where the users has to collect/buy their data and train their models by themselves.

With the current proposal, we try to solve this problem: already trained models, a compiled version of the automatic aligner, a script to convert the segmentation into Praat format, and the necessary documentation will be made available to the user. The idea is to provide a compact set of the necessary instruments to quickly and reliably force align a set of audio files while, at the same time, hiding all the technical details from the inexperienced user.

The models we share have been trained using an open-source toolkit for automatic speech recognition, SPRAAK [Demuynck et al. (2008)], that can be easily obtained and installed; the automatic aligner being itself part of the toolkit. SPRAAK is based on hidden Markov models (HMM) that offer, at present, the most reliable way of modelling phones and triphones. More specifically, models with three states and shared Gaussians were trained using a Viterbi training algorithm. As front end, Mel Frequency Cepstral Coefficients (MFCC) with first and second order derivatives were extracted and after that they were reduced in number and decorrelated. Vocal tract length normalization allows to normalize the recordings from speakers of different genders.

For this work, the HMMs were trained by using almost eight hours of speech opportunely selected from the free Italian database CLIPS [Savy and Cutugno (2009)]. Noisy recordings, reverberated speech, overlapping with other speakers or music, and recordings having a quality lower than 16kHz - 16 bits were eliminated. We therefore focused on clean, high quality speech, such as read speech acquired with a close-talk microphone. Phonetic units were grouped in several classes which try to guarantee acoustic variability and, at the same time, robustness of the models. By ignoring all rare realizations present in CLIPS, we finally counted around 40 different classes.

A first, preliminary evaluation of the automatic phonemic segmentation was performed on a small corpus of read, clean speech collected and manually segmented by one of the authors. The evaluation consists in the measurement of the average distance between the automatic markers and the manual reference. As we are evaluating the results of a forced alignment procedure, we have no insertions or deletions errors. The evaluation method employed here, i.e. clustering together and counting the automatic markers falling within a certain threshold from the reference, has been widely used in the literature (e.g. [Wesenick and Kipp (1996)], and [Angelini et al. (1993)]). The results obtained show that more than 90% of the total 405 phone boundaries are placed within 20ms from their corresponding manual marker, while more than 99% of them are within 30ms. The maximum error is of about 40ms. This performance is definitely in line with other systems tested on Italian [Angelini et al. (1993)], but has to be validated on larger test-sets.

To better understand the quality of the models and of the system, we will describe in this paper a research study (which will be presented at length in another paper submitted at this conference) where the automatic segmentation has played a fundamental role in terms of spared time and resources. The focus on a specific study allowed the evaluation of the automatic phonetic segmentation with respect to another, more interesting metric, namely the quality of the final results of that study.

Specifically, a set of read sentences uttered in assertive modality with different focus patterns was collected. The contrastive narrow focus was placed either on the Subject Noun Phrase, on the Verb Phrase, or on the Object Noun Phrase. Each utterance was segmented manually and automatically, then both segmentations served independently as input for the extraction of Local Phone Rate (LPR) curves. For this, we employed a revised version of the formula proposed in [Pfitzinger (2001)], where LPR is essentially defined as the number of phones falling in a sliding window. As expected, the LPR function sets showed clearly different patterns for the three focus conditions: focus-initial sentences had slower phone rates at the beginning of the utterance than focus-final sentences, for example.

An important aspect for the goal of this paper is the fact that no apparent difference was noticed between the LPR curve sets derived from the manual and the automatic segmentations. A quantitative evaluation of the results was nevertheless performed. A two sample F-test for equal variances was employed to determine whether the two LPR

function sets were significantly different. The test was applied to the pairs of curves (manual vs automatic segmentation) separately for each of the three types of focus. The results of the tests showed that the null hypothesis could not be rejected at the 0.1% significance level for any type of focus. These figures further corroborate the hypothesis that, for this kind of application, the automatic alignment is a fast and reliable substitute for manual segmentation.

References:

Angelini B., F. Brugnara, D. Falavigna, D. Giuliani, R. Gretter, and M. Omologo, "Automatic Segmentation and Labeling of English and Italian Speech Databases", in Proc. of EUROSPEECH, Berlin, 1993, pages 653-656.

Demuynck K., J. Roelens, D. Van Compernolle and P. Wambacq, "SPRAAK: an open source SPeech Recognition and Automatic Annotation Kit", in Proc. of INTERSPEECH, Brisbane, 2008, pages 495-499.

Pfitzinger, H., "Phonetische Analyse der Sprechgeschwindigkeit", in Forschungsberichte des Instituts für Phonetik und Sprachliche Kommunikation der Universität München, München, 2001, pages 117-264.

Wesenick M.-B. and A. Kipp, "Estimating The Quality Of Phonetic Transcriptions And Segmentations Of Speech Signals", in Proc. of ICSLP, Philadelphia, 1996, pages 129-132.

Savy R. and F. Cutugno, "CLIPS: diatopic, diamesic and diaphasic variations of spoken Italian", in Proc. of the Corpus Linguistics Conference, Liverpool, 2009.

Un sistema a costo minimo per il miglioramento qualitativo del parlato nelle comunicazioni viva voce

Danilo Comminiello*, Aurelio Uncini*, Albenzio Cirillo^, Antonino Barone°, Mauro Falcone^

*Università di Roma “La Sapienza”; ^Fondazione Ugo Bordoni; °Iscom- MiSE

L’apparato uditivo sfrutta la componente binaurale, ed in particolare i ritardi e la quindi la fase dei segnali audio che arrivano alle nostre orecchie, per distinguere una specifica voce immersa in un contesto di rumori ed altre conversazioni sovrapposte a quella di nostro interesse. Questa caratteristica umana di saper separare i suoni nello spazio è stata studiata a fondo, cercando di riconoscere, e quindi ricreare su sistemi dedicati, i processi che ne permettono il funzionamento, in modo da migliorare la “qualità” del segnale audio.

Effettuare una teleconferenza o, più in generale, far uso di sistemi viva-voce senza alcun tipo di elaborazione del segnale acquisito dal microfono, è improponibile poiché la presenza di rumore o di sorgenti interferenti sovrapposte al segnale vocale principale, renderebbe complicato preservare l’intelligibilità di quest’ultimo, compromettendo qualsiasi comunicazione.

Nel corso degli ultimi anni sono state sviluppate diverse tecniche che traggono origine dagli studi sull’apparato binaurale umano. Utilizzando una schiera di microfoni è possibile elaborare i relativi segnali secondo la tecnica di beamforming, combinandoli un’unica forma d’onda in cui è esaltato il segnale vocale proveniente da una specifica direzione e, pertanto, vengono attenuati i rumori provenienti dalle altre. Il beamforming può essere interpretato come il risultato di un filtro spaziale, in quanto prevede un trattamento del suono differente a seconda del punto nello spazio dove questo viene acquisito. Gli studi presenti in letteratura mostrano come l’efficacia del beamforming cresca all’aumentare del numero di microfoni utilizzati nella schiera microfonica. Tuttavia vi è ancora necessità di creare algoritmi di beamforming sempre più robusti alle variazioni dovute allo spostamento del parlatore e alle condizioni di rumore.

In questo lavoro verrà proposta una tecnica originale di beamforming adattata ad una schiera “minima” ovvero di soli due microfoni, nell’ottica di verificare le prestazioni di un sistema compatto per il miglioramento della qualità del segnale vocale nei sistemi viva-voce.

Un classico sistema di beamforming è il Generalized Sidelobe Canceller (GSC), composto da un beamformer delay-and-sum (DSB), che ha lo scopo di focalizzare la sorgente vocale principale, e da un blocco di cancellazione adattativa del rumore (ANC), che riduce la potenza del rumore di fondo nel segnale di uscita. La parte ANC nelle applicazioni viva-voce comporta l’utilizzo di filtri digitali FIR dell’ordine di centinaia o anche migliaia di tappi, i cui valori devono essere stimati adattativamente in modo da ridurre il rumore quanto più possibile. La scelta dell’algoritmo adattativo è la parte critica di un sistema GSC, in quanto deve essere garantita una stima rapida ed efficace dei valori del filtro. Generalmente l’adattamento nell’ANC utilizza algoritmi basati sulla minimizzazione dell’errore quadratico medio, come il least mean square (LMS) e il normalized LMS (NLMS). Tuttavia questi algoritmi mostrano una lenta convergenza per filtri molto lunghi, a tal punto che l’adattamento diventa impraticabile in tempo reale. La famiglia di algoritmi basati sulla proiezione affine (affine projection algorithms, APA) mostra invece velocità di convergenza migliori, e complessità computazionale gestibile. L’algoritmo adattativo proposto nel nostro sistema è il variable step size block exact affine projection algorithm (VSS-BEAPA). Il VSS-BEAPA è l’esatta trasposizione nel dominio della frequenza dell’algoritmo APA, potenziato da passo di adattamento variabile che permette di considerare scenari dove la risposta impulsiva viene sotto-stimata, come spesso accade nelle applicazioni viva voce.

Il sistema proposto è dunque formato da un’interfaccia microfonica ed un beamformer GSC con filtro VSS-BEAPA. Inoltre sono valutati anche i benefici derivanti dall’inserimento di un post-filter che ha lo scopo di ridurre ulteriormente il rumore di fondo presente nel segnale acquisito.

La valutazione del sistema è condotta rispetto a diverse condizioni di lavoro e quindi rispetto a specifiche problematiche che possiamo così riassumere: presenza di rumore di fondo ambientale, presenza di sorgente interferente con il parlante, presenza di effetto eco dovuto al “ritorno di segnale” nella catena comunicativa.

Il set up sperimentale è allestito in una camera riverberante di ampie dimensioni ed è costituito da una coppia di microfoni professionali, un busto con bocca artificiale per la simulazione del parlante, un sistema di diffusione acustica professionale per la produzione del segnale di rumore ambientale, di uno o due altoparlanti monitor per la simulazione degli interferenti e per la realizzazione del sistema di diffusione del segnale di ritorno.

Il segnale vocale di riferimento è costituito da 2 brevi frasi pronunciate da 4 parlatori professionisti. Vengono utilizzati tre tipologie di rumore di fondo: rumore bianco (o colorato); rumore di tipo “auto motive”; rumore di tipo “cocktail party”, ciascuno a quattro livelli diversi in modo da avere un rapporto segnale rumore di 6, 12, 18, 24 dB. I segnali interferenti sono invece costituiti da ulteriori segnali vocali o da trasmissioni radiotelevisive.

Sono valutate inoltre due distanze intermicrofoniche a 10cm e 30cm circa, mentre la posizione del parlante è valutata a due distanze diverse di 30cm e 80 cm dai microfoni ed a tre angolazioni diverse pari a -30°, 0° e +30° rispetto

al fronte dei microfoni. Per la valutazione delle interferenze si è invece utilizzata la stessa configurazione posizionando l’interferente in posizioni randomiche rispetto a quella del parlante.

Infine per la valutazione dell’eco dovuto al “ritorno di segnale” nella configurazione precedente si è aggiunto un sistema di simulazione del segnale “far end”, sistema che simula diversi ritardi temporali ed eventuali distorsioni assimilabili alla catena di comunicazione.

Le prestazioni sul miglioramento della qualità del segnale derivato dall’utilizzo del sistema proposto sono in prima analisi valutate attraverso la stima del rapporto SNR, la stima oggettiva di un indice di intelligibilità, ed infine attraverso l’ascolto informale da parte di esperti.

Bibliografia:

[1] D. H. Johnson and D.E. Dudgeon, Array Signal Processing - Concepts and Techniques, Englewood Cliffs: Prentice Hall, 1993.

[2] S. Quackenbush, T. Barnwell, and M. Clements, Objective Measures of Speech Quality, Prentice-Hall, NJ, 1988.

RHYTHMIC INDEX ELABORATOR (RIE) come strumento di indagine della struttura ritmica. Un’applicazione al pisano semi-spontaneo vs. letto.

M. A. Taranto, C. Bertini, P. M. Bertinetto

Scuola Normale Superiore, Pisa

Lo scopo principale di questa comunicazione è di presentare le potenzialità di un nuovo strumento di calcolo dell’andamento ritmico di una lingua naturale, utilizzando come indice ritmico il CCI, ideato da Bertinetto & Bertini (2008 e seguenti). Sulla base di quanto fatto in precedenza da Mairano & Romano (2009) con Correlatore, è stato sviluppato in Delphi 2007 un eseguibile realizzato ad hoc per l’elaborazione di tale indice, chiamato Rhythmic Index Elaborator (RIE). Le potenzialità di tale strumento sono state testate su un corpus di italiano letto vs. semi-spontaneo.

Gli studi sulla struttura ritmica delle lingue naturali hanno raccolto l’attenzione di molti studiosi a partire dagli anni quaranta. Nell’ultimo decennio, la ricerca ha trovato nuovo impulso, portando ad un proliferare di proposte di algoritmi di calcolo a partire da Ramus et al. (1999, 2002): PVI presentato (Low & Grabe 2000), VARCO (Dellwo 2004) CCI (Bertinetto & Bertini 2008) e altri.

La ricerca condotta in questo lavoro non intende affrontare problemi strettamente teorici, ma soprattutto presentare un eseguibile per il calcolo automatico del CCI, sfruttato per confrontare le caratteristiche ritmiche di due differenti contesti comunicativi della varietà pisana: il parlato semi-spontaneo e il parlato letto. È noto, infatti, che la differente modalità di elocuzione influisce sulle strategie discorsive dei locutori e quindi sulle loro inclinazioni ritmiche.

RIE, oltre a ridurre i costi (in termini di tempo di calcolo) del correlato ritmico, non impone limitazioni sul tipo di trascrizioni utilizzate (permettendo l’ingresso di dati provenienti da differenti corpora), aggiorna automaticamente la categoria del segmento (C/V) su dati che presentano solo trascrizioni fonetiche (utilizzando l’opzione di inserimento di caratteri speciali), permette l’inserimento di note personalizzate per individuare segmenti rilevanti (geminate, dittonghi, rafforzamenti fono sintattici, ecc.), consente di modificare e inserire l’etichettatura dei dati a posteriori, ecc. Esiste una sezione riepilogativa nella quale si possono editare contemporaneamente tutte le porzioni di frasi analizzate e filtrare i dati inseriti (come ad esempio il raggruppamento di dati per categorie di velocità, varietà, genere, ecc.). L’applicazione fornisce i grafici nei quali vengono visualizzati i risultati delle interrogazioni eseguite sui dati. Inoltre, è possibile lavorare su un modello in formato xls, i cui dati possono essere importati all’interno della banca dati del programma. Al momento RIE si limita a calcolare solo il CCI, ma si prevede l’implementazione del programma per il calcolo di altri correlati ritmici, mantenendo le stesse funzionalità per l’utente.

Lo studio preliminare è stato effettuato su dati provenienti dalla variante pisana dell’italiano contenuti nella banca-dati AVIP/API, e da un corpus di dati di parlato letto raccolti e segmentati dagli autori stessi. Crucialmente, alcuni degli informatori sono stati registrati in entrambi i contesti comunicativi, anche leggendo le stesse parti di enunciato prodotte in un primo momento in modo spontaneo. Complessivamente sono stati elaborati circa 8000 segmenti vocalici e consonantici estratti da 14 parlanti. Le porzioni di enunciato sono state opportunamente selezionate secondo specifici criteri. In particolare, sono state individuate sezioni di parlato sufficientemente estese e coerenti sul piano della fluidità di eloquio.

L’osservazione della collocazione dei dati sul piano cartesiano, avente come valore di ascissa e di ordinata il calcolo del CCI rispettivamente per le vocali e per le consonanti, consente di interpretare le variabili oggetto di indagine. La collocazione dei dati in analisi occupa una posizione prossima alla bisettrice dello spazio cartesiano, cioè si colloca nella zona in cui le fluttuazioni di durata delle vocali e delle consonanti sono sostanzialmente comparabili, com’è tipico delle lingue “a controllo” (secondo la terminologia di Bertinetto & Bertini 2008). Il confronto tra l’andamento ritmico di pisano letto vs. semi-spontaneo mostra in particolare, accanto all’assenza di variazione nei valori vocalici dell’indice, una certa differenza nei valori consonantici, evidenziando un minor grado di variazione nella durata degli intervalli consonantici del parlato letto rispetto al semi-spontaneo.

Nella prosecuzione della ricerca (attualmente in corso), ci proponiamo di correlare gli andamenti ritmici alle diverse velocità di elocuzione, tanto per il parlato letto quanto per il parlato semi-spontaneo. È infatti noto (Dellwo 2004, Bertinetto & Bertini 2008) che la velocità esercita un forte impatto sul comportamento ritmico.

Bibliografia:

Bertinetto, P.M. & Bertini, C (2008). On modeling the rhythm of natural languages. In P.A. Barbosa, S. Madureira and C. Reis (eds.), Proceedings of Speech Prosody 2008, 4th Conference on Speech Prosody, Campinas 6-9 maggio 2008, Campinas (Brazil), São Paulo: Capes, Fapesp, CNPq - Campinas: IEL, Unicamp, Motorola, Editora RG, cdrom, 427-430.

Dellwo, V. (2004). Rhythm and speech rate: A variation coefficient for ∆C. In Karnowski P. and Szigeti, I. (eds.), Language and language processing, Frankfurt am Main: Peter Lang, 231-241.

Dellwo V. & Wagner, P (2003). Relations between language rhythm and speech rate. In Proceedings of the 15th ICPhS, Barcelona, Spain, 3-9 agosto 2003, 471-474.

Low, E.L. & Grabe, E. & Nolan, F. (2000). Quantitative Characterizations of Speech Rhythm: Syllable-Timing in Singapore English. Language and Speech 43 (4), 377-401.

Mairano, P. & Romano, A. (2009). Un confronto tra diverse metriche ritmiche usando Correlatore. Atti del V Convegno AISV, Zurigo, Svizzera, 4-6 febbraio 2009, 79-100.

Ramus, F. & Nespor, M. & Mehler, J. (1999). Correlates of linguistic rhythm in the speech signal. Cognition 73, 265-292.

Ramus, F., 2002. Acoustic correlates of linguistic rhythm: Perspectives. Atti di Speech Prosody 2002 (Aix-en-Provence, Farnce), 115-120.

Beyond F0: sentence modality and speech rate

F. Cangemi, M. D'Imperio

Université de Provence & Laboratoire Parole et Langage, Aix-en-Provence, France

Until recent years, researchers mainly regarded speech rate as a phonetic feature falling outside the scope of the core form-function relations in language. In many cases, e.g. in the study of intrinsic phone durations, speech rate has been considered as an unpredictable source of measurement error to be controlled for or, in worst cases, to be simply normalized. Other scholars see speech rate as an idiosyncratic feature (thus potentially useful in speaker verification applications) or as related to paralinguistic dimensions (as in the case of emotional speech). Speech rate has also been considered as an acoustic cue to stylistic variation or, from the perspective of conversational analysis, as a resource for turn management, but efforts to put speech rate in direct relation with core modules of language structure remain quite rare and, moreover, they usually lack explicitness. The hypothesis of a link between speech rate and pragmatic meaning, for example, has only been asistematically foreshadowed in isolated studies [1], on few languages [2,3], or as a byproduct of analyses focused on other acoustic cues [1,3,4].

In this paper we present a production experiment on the effects of sentence modality (i.e. declarative vs. yes/no question) on speech rate in Neapolitan Italian, which is also the variety examined in [1,4]. Since focalization is relevant both to pragmatic interpretation and speech rate (through accenting and consequent lengthening phenomena), different focus patterns were also included in the experimental design. Hence we designed a set of sentences explicitly suited for speech rate analysis while, as we already said, the studies cited above were mainly designed for the analysis of other cues ([1,4] for F0, [3] for spectral properties). 30 Neapolitan Italian speakers read the target sentences in the two different modalities and with different focus patterns (i.e. with narrow focus either on the Subject, the Verb or the Object). The corpus was segmented using a new tool (which will be presented at length in another paper submitted at this conference) for forced alignment of Italian speech.

Previous studies showed that sentence modality affects speech rate in different ways, either at the level of the entire utterance or on localized portions of the sentence (e.g. the focused phrase and the last syllable). In the first part of the study, these findings are compared with our results: for the two sentence modalities, there is no difference in the duration of the entire utterance (contra [4], which found that questions are longer than statements, and contra [2], which found the opposite pattern); the focus constituent also appear to have the same duration in both modalities (contra [4], in which questions have shorter focalized phrases); the last syllable is longer in questions (as in [4], but contra [3]; results in [2] are instead less clear-cut). In particular, in our data set, it is the final vowel (rather than the final syllable) which is significantly longer in questions.

These results clearly indicate that speech rate varies across modality in complicate ways: the finding that question and statements have the same mean duration but a significantly different final vowel duration, for example, clearly points to the necessity of studying speech rate in a less discrete and localized way.

For this reason, in the second part of the study we employed a different metric for the assessment of speech rate, in order to capture global patterns of variation rather than punctual differences localized on specific parts of the utterance. This is in line with current developments in the analysis of other acoustic cues, as showed by recent quantitative studies on F0 using Functional Data Analysis [6].

We hypothesized that the two modalities show globally different speech rate patterns (that is, which cannot be localized on a single point in the utterance), and we provided a first qualitative verification of this hypothesis. In order to do so, for each of the segmented utterances we extracted Local Phone Rate functions, revising some of the algorithms proposed in [5]. This yielded a continuous representation of phone duration, whose course was plotted (separately for the two modalities) over normalized time. The results are in line with our hypothesis: the speech rate functions of the two modalities follow a different path during the entire course of the utterance.

These results allow us to draw conclusions at different levels. First of all, and most importantly, the existence of a link between speech rate and pragmatic contrasts is confirmed. Moreover, it seems that sentence modality affects speech rate in a global (rather than local) way; in this case, the traditional discrete measurement of phone, syllable, phrase and utterance duration is not perfectly suited for the study of speech rate relationships with pragmatic meaning. Other metrics, global in nature (as the Local Phone Rate), could be more useful for research in this field.

On the other hand, much work remains to be done. First of all, we still need to master reliable statistical techniques for the analysis of functional data in linguistics, though some studies are now beginning to address this issue directly ([6,7]). Moreover, as for any other cue pointing to structural contrasts, production studies as the one presented here ought to be complemented by perception studies in order to achieve a better understanding of speech processing. Once the basic mechanisms in production and perception are sketched, the use of more spontaneous speech material could also represent an important phase of the theory validation process. And last but not least, as for the case of intonation, an important question to address is whether the exploration of this link between pragmatics (sentence modality) and

phonetics (speech rate) could benefit from a more abstract phonological representation. We plan to address all these issues in future research.

References:

[1] Maturi, P. (1988), L’intonazione delle frasi dichiarative ed interrogative nella varietà napoletana dell’Italiano, Rivista Italiana di Acustica, 12, pp. 13-30.

[2] van Heuven, V. & van Zanten, E. (2005), Speech rate as a secondary prosodic characteristic of polarity questions in three languages, Speech Communication, 47, pp. 87–99.

[3] Smith, C. L. (2002), Prosodic Finality and Sentence Type in French, Language and Speech, 45 (2), pp. 141–178.

[4] Petrone, C. (2008), Le rôle de la variabilité phonétique dans la représentation des contours intonatifs et de leur sens, PhD Thesis, Université Aix-Marseille I

[5] Pfitzinger, H. (2001), Phonetische Analyse der Sprechgeschwindigkeit, Forschungs-berichte des Instituts für Phonetik und Sprachliche Kommunikation der Universität München, pp. 117-264.

[6] AA. VV. (2010), Automatic and Data Driven Pitch Contour Manipulation with Functional Data Analysis, Speech Prosody 2010, 100954, pp. 1-4.

[7] AA. VV. (in preparation), Joint analysis of F0 and speech rate with FDA.

Ritmo. Due linee di ricerca e alcune verifiche

A. De Dominicis

Università della Tuscia, Viterbo

1. Introduzione: ritmo come proprietà del sistema o risorsa della conversazione

Nella letteratura scientifica si distinguono due approcci al tema del ritmo linguistico. Il primo e più antico si fonda sull’ipotesi dell’esistenza di tipi (o classi) ritmici, di natura non continua. Per il secondo, invece, il ritmo non è una proprietà costante del sistema linguistico. È una proprietà dell’interazione conversazionale e serve – tra le altre risorse linguistiche – a gestire cooperazione e conflitto tra i parlanti. Di conseguenza, il ritmo non ha caratteri stabili, ma può variare in ragione delle funzioni conversazionali che contrae.

L’ipotesi dei tipi ritmici risale agli anni 40 (cfr. Lloyd James 1940; Pike 1945; Abercrombie 1967; Fuare & Hirst & Chafcouloff 1980; Dauer 1983). Si tratta, come è noto, di una classificazione binaria in lingue a ritmo isosillabico/isoaccentuale (cui si aggiunse più tardi un terzo tipo, detto isomorico). Tuttavia, non ha trovato riscontro chiaro nei numerosi tentativi di conferma sperimentale (cfr. ad es. Shen & Peterson 1962; Bolinger 1965; O’Connor 1965; Uldall 1971; Lea 1974; Lehiste 1977; Donovan & Darwin 1979; Roach 1982; Wenk & Wiolland 1982; Borzone de Manrique & Signorini 1983; Dauer 1983; Drake & Palmer 1993). Un’ipotesi meno marcata è quella secondo cui l’impressione percettiva per cui un dato sistema linguistico presenta un ritmo di natura discreta nasca, invece, dal convergere di alcune proprietà fonologiche tipiche di quella lingua. Sono stati così identificati dei clusters di proprietà fonologiche dalla cui interazione scaturirebbe l’effetto percettivo isosillabico/isoaccentuale (cfr. ad es. Dasher & Bolinger 1982; Nespor & Vogel 1986; Dauer 1987; Bertinetto 1981, 1989; Nespor 1990; Ramus & Nespor & Mehler 1999). La tipologia linguistica che ne deriva, per conseguenza, perde il suo carattere discreto e i vari sistemi linguistici si distribuiscono, piuttosto, lungo un continuum.

Anche l’ipotesi del PVI (cfr. Low & Grabe 1995; Low & Grabe & Nolan 2000; Grabe & Low & Ee 2002; Grabe & Low 2003; Patel & Daniele 2003) si fonda sull’idea che il ritmo costituisca una proprietà intrinseca del sistema, anche se assume come oggetto rilevante per la verifica empirica un materiale assai strutturato, come il calcolo della variabilità degli intervalli vocalici e intervocalici. Infine, sempre in questo filone di ricerca (ma con rilevanza anche per quanto riguarda l’ipotesi del ritmo come effetto conversazionale), si può ricordare la modellizzazione del ritmo in termini di un Oscillatore Adattativo (Port & Cummins & Gasser 1995).

L’ipotesi del ritmo come risorsa non del sistema linguistico, ma degli scopi e funzioni conversazionali nasce nell’ambito degli studi di Analisi Conversazionale, e ne rappresenta le caratteristiche in termini gestaltici. Recentemente, ha subito un nuovo impulso nei lavori dedicati ai cosiddetti phonetic details (cfr. Sacks & Schegloff & Jefferson 1974; Erickson 1982; Erickson & Shultz 1982; Smith 1988; Cutler 1991; Couper-Kulhen 1989, 1990, 1993, 2001; Buder 1986, 1991, 1996; Auer et al. 1999; Buder & Eriksson 1997, 1999; Local 2003; Fon 2006; House 2007; Reed 2010).

La caratteristica più rilevante della rappresentazione del ritmo in questo paradigma è la sua possibilità di variare nel corso dell’interazione. Non si tratta, quindi, di una proprietà intrinseca del sistema, ma di una risorsa tattica del parlante. Una dimostrazione in tal senso è fornita dallo studio di Brown & Weishar 2010, che analizza la variabilità dei piedi metrici nel parlato spontaneo (eterometria del discorso), in analogia con i fenomeni di alternanza metrica della musica (cfr. anche Bertinetto 1989; Russo & Barry 2008; Arvaniti 2009). Mentre, gli studi sul ritmo come fenomeno di entrainment (Cummins & Port 1998; Port 2003; Cummins 2009) mostrano come l’interazione comunicativa possa indurre disturbi, alterazioni o rafforzamenti dello stile ritmico di un parlante.

2. Verifiche sperimentali

2.1. Corpus

In questo paper si elicitano due corpora: un’interazione collaborativa (da soggetti con il compito di sincronizzarsi con una registrazione) e un’interazione polemica con sovrapposizione di turni di parola (la cosiddetta lite tra Vittorio Sgarbi e Mike Bongiorno avvenuta durante una puntata della trasmissione Telemike del 1991).

2.2. Metodologia

Vengono misurati gli intervalli (la distanza temporale) tra sillabe prominenti e la durata delle sillabe toniche e atone. Inoltre, vengono identificati i piedi metrici così generati per classificarli in base alla costituenza sillabica (piedi binari e ternari) e alla posizione della testa (trochei, giambi, dattili). Le prime misure servono a verificare l’eventuale tipologia isocronica (accentuale vs. sillabica) e la sua variazione nei diversi turni del corpus; la classificazione dei piedi metrici e la loro variazione eventuale rappresenta un’ulteriore verifica dell’ipotesi eterometrica e della sua eventuali proprietà

conversazionali.

2.3. Attese sperimentali

Nel corpus collaborativo si prevede di rinvenire un grado di integrazione ritmica elevato: cioè massimo grado di isocronia e piedi di tipo costante. In quello polemico, invece, ci si attende un minimo grado di integrazione ritmica: cioè anisocronia e piedi metrici di tipo alternante (hemiole).

2.4. Risultati

Al momento è stato analizzato solo il corpus polemico. I risultati sono stati sottoposti a verifiche statistiche e confermano le attese sperimentali. Gli interlocutori non presentano un modello ritmico stabile (a tendenza isoccentuale o isosillabica, ad esempio). Al contrario, mutano la metrica del turno di parola in funzione dei loro scopi conversazionali: in particolare, possono mutuare la metrica dell’interlocutore, oppure quella opposta allo scopo di prendere il sopravvento, interromperne il ritmo o agevolarlo.

In dettaglio, all’inizio della conversazione (quando cioè essa non ha ancora assunto i caratteri di una lite) i due interlocutori adottano strategie ritmiche opposte: per cinque turni al ritmo tendenzialmente isoaccentuale dell’uno segue quello isosillabico del turno di parola dell’antagonista. Chiude la schermaglia un turno di Sgarbi in cui non si presenta alcuna isocronia ritmica: caso estremo di strategia polemica (forse per sabotare il ritmo di Mike).

Poi segue una sovrapposizione di turni di parola in cui entrambi i parlanti tendono a una metrica isoaccentuale condivisa e alla sincronizzazione delle durate interaccentuali. L’identità ritmica è una risorsa conversazionale che serve non a interrompere lo scontro, ma a tentare una diversa strategia di successo. Infatti, ad essa segue immediatamente una seconda sovrapposizione di turni in cui la situazione si rovescia. Si tratta di turni anisocroni, ma con una singolarità: i due si impegnano in una sorta di “staffetta” ritmica, nella quale l’intervallo interaccentuale dell’uno riprende la tendenza a crescere o a decrescere dell’intervallo precedente dell’altro parlante.

Poi riprende la strategia di opposizione ritmica: un turno di Mike tende all’isoaccentualità e quello seguente di Sgarbi all’isosillabicità (delle toniche). Segue una sovrapposizione di turni in cui entrambi i parlanti tendono a una metrica isosillabica condivisa, e addirittura i confini sillabici del parlato dei due tendono a sovrapporsi, ad essere isotopi.

Poi Mike produce un turno con isoaccentuale e chiude con uno a tendenza isosillabica (delle toniche).

L’empatia verso la rabbia e l’empatia verso la tristezza. Analisi delle risposte comportamentali vocali non verbali.

Federica Biassoni, Rita Ciceri, Lisa Boga

Laboratorio di Psicologia della Comunicazione, Università Cattolica di Milano

Introduzione

La maggior parte dei lavori presenti in letteratura sul tema dell’empatia prende in esame l’esperienza di empatizzare con emozioni di tristezza, dolore, sofferenza; assai meno indagato il fenomeno dell’empatia nei confronti di emozioni di diverso genere. Inoltre, i punti di vista più frequentemente utilizzati sono quelli della psicologia dello sviluppo, della psicologia sociale, della psicologia clinica e, più recentemente, delle neuroscienze. Il presente lavoro si propone di indagare il fenomeno dell’empatia dal punto di vista della psicologia della comunicazione, a partire dalla fruizione di stimoli narrativi emotivamente connotati e attraverso da un’analisi del comportamento vocale. In particolare si è scelto di focalizzarsi su:

• eventuali differenze tra reazione empatica ad una manifestazione di rabbia e reazione empatica ad una manifestazione di tristezza;

• il ruolo del contesto in cui si manifesta l’espressione di empatia, con particolare riferimento alla presenza/assenza del target dell’empatia.

Obiettivi

Gli obiettivi della ricerca sono:

1. verificare se a risposte empatiche diverse sul piano del vissuto emotivo corrispondano manifestazioni comportamentali differenti a livello vocale non verbale;

2. verificare se livelli diversi di presenza del target del’empatia influenzino le modalità vocali di espressione dell’empatia.

Ipotesi

Considerate la diversa natura e la diversa funzione delle emozioni di rabbia e di tristezza (Scherer, 2005), si ipotizza che esse suscitino reazioni empatiche differenti, sia per natura dell’emozione provata dal soggetto empatizzante, in particolare rispetto alla dimensione di attivazione/de-attivazione, sia per il tipo di reazioni comportamentali ad esse connesse, sul piano del comportamento vocale non verbale (Campos et al., 1994). A partire dai medesimi presupposti si ritiene inoltre che l’espressione del proprio vissuto empatico al target stesso dell’empatia oppure a un terzo soggetto sia caratterizzata da modalità comportamentali diverse.

Procedura

La procedura sperimentale può essere così sintetizzata:

4. fase 1: creazione degli stimoli narrativi (uno connotato dalla manifestazione di rabbia, l’altro dalla manifestazione di tristezza) da sottoporre ai soggetti e verifica della capacità di indurre empatia degli stimoli stessi;

5. fase 2: somministrazione individuale dello stimolo ai 62 partecipanti alla ricerca;

6. fase 3: raccolta dei dati vocali: si provvedeva a registrare una baseline dell’eloquio del soggetto in condizione emotivamente neutra; dopo la lettura dello stimolo narrativo i soggetti ricevevano quindi una duplice consegna: a) “Hai appena letto il racconto dell’esperienza di una persona; immagina ora che questa persona si trovi qui, davanti a te: esprimi ad alta voce commenti ed osservazioni che ti vengono in mente”; b) “Ora immagina di incontrare qualcuno e di raccontargli ciò che hai letto”.

7. fase 4: estrazione e analisi dei dati: tutte le verbalizzazioni dei soggetti sono state audioregistate e in seguito sottoposte ad analisi acustica digitalizzata. I parametri presi in considerazione sono stati:

o 5 relativi al tempo: durata totale del segmento vocale e durata totale delle pause, numero di pause, velocità di eloquio e di articolazione;

o 4 relativi alla frequenza: media, deviazione standard e valori inferiore e superiore del range delle frequenze;

o 4 relativi all’intensità: media, deviazione standard e valori inferiore e superiore del range dell’intensità.

Disegno sperimentale

Le variabili manipolate erano due:

1. emozione espressa dal target di empatia (rabbia vs tristezza, variabile between subjects)

2. livello di presenza del target di empatia (il soggetto sperimentale comunica la propria esperienza empatica direttamente al target vs il soggetto narra la propria esperienza empatica ad un terzo interlocutore, variabile within subjects).

I soggetti erano quindi assegnati alla condizione “empatia nei confronti della rabbia” oppure alla condizione “empatia nei confronti della tristezza”; a partire dallo stimolo narrativo, ciascun soggetto rispondeva poi a entrambe le consegne.

Risultati

I dati hanno messo in luce il ruolo sia dell’emozione espressa dal target dell’empatia sia del livello di presenza del target stesso.

In estrema sintesi, i risultati mostrano che l’eloquio prodotto in condizione di empatia per la rabbia, rispetto a quello prodotto in condizione di empatia per la tristezza, risulta più controllato (minor frequenza ed intensità medie, minore variabilità dell’intensità) e intervallato da pause (ritmo di eloquio meno sostenuto) di quello prodotto in condizione emotivamente neutra; nel confronto con l’eloquio prodotto in condizione di empatia per la tristezza risulta invece più breve (minor durata totale del parlato) ma meno frammentato da pause (quindi caratterizzato da un più elevato ritmo di eloquio). L’eloquio che caratterizza le risposte empatiche alla tristezza appare, nel confronto con la condizione emotivamente neutra, più controllato ed intervallato da pause, analogamente a quanto avviene in condizione di empatia con la rabbia; il confronto con quest’ultima, tuttavia, evidenzia che l’eloquio in risposta ad una manifestazione di tristezza ha maggiore durata e ritmo inferiore, essendo caratterizzato da un maggior numero di pause.

Il confronto tra l’eloquio prodotto rispondendo direttamente al target oppure ri-narrando ad un terzo interlocutore mette in luce altri elementi. Innanzitutto l’eloquio prodotto nelle risposte dirette al target di empatiarisulta avere durata inferiore ed essere più continuo, meno interrotto da pause e disfluenze; è inoltre caratterizzato da una intensità media inferiore e da una minor variabilità del profilo intonativo; a livello percettivo un eloquio con tali caratteristiche appare più controllato: di breve durata ma continuo, scarsamente frammentato da pause e contrassegnato da un volume medio-basso e da un profilo intonativo regolare, con ridotta variabilità.

Discussione e conclusioni

Per quanto riguarda il tipo di emozione all’origine dell’esperienza empatica, i dati mettono in luce due differenti tipi di eloquio in risposta alla manifestazione di emozioni diverse. Pur condividendo alcune caratteristiche, emergono degli elementi distintivi che, a nostro avviso, sono tutti riconducibili a diverse configurazioni di azione stimolate dalle due emozioni prese in esame. Si ritiene infatti che gli elementi distintivi dell’eloquio empatico verso la rabbia rappresentino la manifestazione di un maggior livello di attivazione da parte del soggetto parlante; al contrario, le caratteristiche vocali dell’eloquio prodotto in risposta alla tristezza definiscono un parlato di maggior durata ma altamente frammentato da pause, confermando l’ipotesi di un eloquio che rispecchia processi di elaborazione cognitiva sottostanti.

Per quanto riguarda l’influenza del livello di presenza del target di empatia, si conferma che l’eloquio che delle risposte al target appare molto più diretto; le caratteristiche vocali di tale eloquio indicano un più elevato grado di committment da parte del parlante. La narrazione, di contro, è contraddistinta da modalità più descrittive e meno appellative e dalla tendenza dei locutori a esibire una maggior distanza emotiva dal proprio interlocutore.

Sentence function and tonal semantics in Greek

A. Botinis, A. Bakakou-Orphanou, A. Chaida

Laboratory of Phonetics and Experimental Linguistics, University of Athens, Greece

In the present study we report a production experiment, which was carried out in order to investigate tonal structure and its semantic distinctions across speakers and sentences in an initiative-response communicative context. A main questions is addressed: what is the tonal effect of the response semantic content in relation to the initiative semantic content? Two additional questions were addressed with reference to tonal boundaries between the initiative and the response, as well as the response reaction time with reference to agreement vs. disagreement of the semantic content between the initiative and the response.

In general, spoken sentences are basically distinguished by form and function. Regarding form, sentences may have a basic classification, such as “declarative”, “interrogative” and “imperative”. Regarding function, sentences may also have a basic classification, such as “statement”, “question” and “command”. In most languages, including Greek, the form of a sentence is usually associated with a variety of morphological and syntactic markers, such as question initiators, e.g. wh-words, syntactic transformations, e.g. word order inversions, or a combination of several of these markers, including prosodic ones. Furthermore, there may be one-to-one correspondence between form and function, i.e. an affirmative sentence may function as a statement, but this correspondence is most usually far from regular. In fact, an declarative sentence in Greek may have several functions, such as statement, question and command, along with expectation, advise, urge, and many more distinctions and functions, yet to be investigated and documented.

However, apart from form and function, another dimension, which has not drown particular attention, at least concerning prosodic research, is the structure of sentences and their communicative effect in the development of spoken dialogues. It is assumed, that verbal communication involves both speaker(s) and listener(s). Α major communicative distinction among partners is between “initiative” and “response”, where one speaker is taking the lead to the development of a topic and the other(s) respond accordingly. This initiative-response dimension may interchange among partners, with reference to the development of several aspects of one or several topics. A basic characteristic in this initiative-response context is the relative restriction of the response with reference to a variety of linguistic factors, such as morphological, syntactic, semantic and prosodic ones.

Another major communicative distinction among partners is between “agreement” and “disagreement”. Oftentimes, a response agreement is denoted by a simple “yes” or in combination with various linguistic units with similar semantic content of the initiative with reference to the same or another aspect of the topic. Similarly, a response disagreement is denoted by a simple “no”, which may be combined with various linguistic units in relation to the initiative and the topic development. However, in many cultures, including Greek, despite the wide use of verbal agreement, a direct verbal disagreement is usually avoided and thus other verbal strategies are used.

Given a wide variety of relative restrictions with regards to verbal communication, an imminent question is raised with reference to the prosodic means and the distinction between agreement and disagreement. Presumably. prosody caries a heavy functional load with regards to the above question, especially in the absence of any other linguistic markers, such as morphology or syntax. Α sentence may have a variety of functions in Greek with no other linguistic means but prosody and this is most evident in polar questions, where any other means are grammatically excluded. Accordingly, prosody is assumed to have a heavy functional load with regards to both sentence type distinctions and functions, as well as communicative functions across sentence boundaries in the development and structuring of spoken communication.

With reference to the questions posed, a production experiment was carried out, in the context of two sentence initiative-response communication roles, where one speaker initiated the dialogue with the first sentence and another speaker responded with the second sentence. The initiative sentence was one of the four main sentence type distinctions in Greek, i.e. statement, polar question, wh-question and command, and the response sentence was either in agreement or disagreement with reference to the semantic content of the corresponding initiative sentence.

Six female and six male speakers, in their twenties, grown up and educated in Athens, produced a corpus of a set of sentences, in a random order, five times, in pairs. The production corpus consisted of four pairs of initiative-response sentences, according to which one speaker produced the initiative sentence and another speaker the response sentence. In each pair, the response sentence was either in agreement or disagreement with the semantic content of the initiative sentence, with the same morphosyntactic stracture, without any additional agreement or disagreement formal linguistic markers.

Tonal measurements (F0) were taken at the tonal offset of the initiative sentences as well as at the tonal onset of the response sentences. Response reaction time was also measured, defined as the time interval between the end of the initiative sentences and the beginning of the response sentences. Moreover, in order to investigate the prosodic realisation of agreement and disagreement the response utterances were closely examined, with two tonal measurements per syllable.

Preliminary results indicate that response onset pitch is in all cases higher than initiative offset pitch. This difference seems to be even bigger for the semantic response of agreement. Concerning sentence-type initiatives, this response onset - initiative offset pitch difference was diminished for the case of wh-question, exceptionally. No significant difference was noted concerning reaction time. Furthermore, prominent focus realisations seem to denote agreement-disagreement differences. It seems that the agreement or disagreement response is underlined by focus placement, mainly on the verb, when no other linguistic factor is used. Figures 1 and 2 show the intonation contours of the discourse by two female speakers, based on a command initiative.

Figure 1. Example of an intonation contour based on a command initiative and agreement response, by two female speakers.

Figure 2. Example of an intonation contour based on a command initiative and disagreement response, by two female speakers.

More detailed results regarding acoustic and statistical analysis will be presented in the full-paper, based on the recordings by six pairs of speakers, males and females.

The present investigation is within the framework of a larger study, with reference to the main phonetic characteristics and structures at various levels, including sentence and text, in Greek.

Analisi gerarchica degli inviluppi spettrali differ enziali di una voce emotiva

G. Salvi*, F. Tesser^, E. Zovato°, P. Cosi^

*KTH, School of Computer Science and Communication, Dept. of Speech, Music and Hearing, Stockholm, Sweden; ^Istituto di Scienze e Tecnologie della Cognizione, Consiglio Nazionale delle Ricerche, Padova, Italia;

*Loquendo S.p.A., Torino, Italia

La comunicazione delle emozioni con la voce si manifesta tramite variazioni di vari parametri acustici. I parametri prosodici come intonazione, durata e intensità sono tra i più significativi. Altri correlati delle emozioni nella voce sono quelli che riguardano l'analisi spettrale come la posizione delle formanti, la distribuzione della energia spettrale e il rumore spettrale.

I parametri legati al timbro vocale appartengono a questa categoria. Questi sono importanti per sistemi di voice conversion o per i nuovi sistemi di sintesi vocale statistica parametrica HMM, nei quali il timbro vocale può essere modificato e modellato tramite metodi statistici che analizzano dati reali presenti in corpora vocali. Tuttavia i modelli utilizzati in questi sistemi sono spesso complessi e difficili da interpretare.

L' intenzione di questo articolo è di analizzare le variazioni spettrali di timbro vocale tra due opposti stili emotivi (felice e triste) e uno stile neutro di riferimento. Lo scopo non è solo quello di studiare questo fenomeno nella voce di uno speaker reale, ma anche quello di suggerire nuove strategie per migliorare la parte di analisi e predizione timbrica dei sistemi di voice conversion e sintesi statistica parametrica.

In questo articolo il timbro vocale è rappresentato dai coefficienti mel-cepstrali estratti dai corrispondenti frame del segnale vocale. L'analisi mel-cepstrale (Imai, 1983) è stata scelta in quanto estrae i coefficienti minimizzando l'errore di rappresentazione dell'inviluppo spettrale direttamente da un dominio percettivamente significativo.

Per poter analizzare la variazione di timbro tra stile neutro ed emotivo è stato registrato un corpus di tipo “parallelo”, nel quale lo stesso testo è pronunciato con diversi stili emotivi (neutro, felice e triste).

Per effettuare un confronto tra frame coerenti il database è stato allineato tramite una procedura di DTW (Dynamic Time Warping). La diversità del timbro tra lo stile neutro ed emotivo è stata valutata tramite l'approccio differenziale: la differenza tra i due vettori mel-cepstrali corrispondenti rappresenta la variazione dell'inviluppo spettrale tra timbro emotivo e neutro. Questo metodo ha il vantaggio di eliminare fattori costanti relativi allo speaker o al canale di trasmissione che non vogliono essere presi in considerazione in questa analisi.

Un'altra proprietà significativa dell'analisi differenziale deriva dalla teoria dei sistemi omomorfi-ci. La trasformazione mel-cepstrale trasforma le convoluzioni in somme. L'inviluppo spettrale derivato dal mel-cepstrum differenziale corrisponde quindi alla risposta in frequenza di un filtro che trasforma ilo timbro vocale neutro in timbro vocale emotivo.

Per eseguire l'analisi sui dati è stata utilizzata una analisi di tipo cluster. Per ogni fonema è stata calcolata la statistica di primo e secondo ordine dei vettori rappresentanti le differenze mel-cepstrali.

I dati statistici sono stati poi analizzati tramite un metodo di raggruppamento gerarchico (Johnson, 1967). Il vantaggio della analisi di tipo gerarchico rispetto ad altri metodi (ad esempio basati su partizionamento o densità) è la sua proprietà di poter visualizzare i parametri in diversi livelli di dettaglio. Questa proprietà è idonea all’analisi esplorativa dei dati che è tra gli scopi di questo articolo.

Il clustering è basato sulla distanza Bhattacharyya (Mak & Barnard, 2006), che tiene conto della diversità tra due distribuzioni prendendo in considerazione le statistiche di primo e secondo ordine. I risultati del raggruppamento gerarchico sono due dendogrammi, uno per la transizione neutro-felice e uno per neutro-triste, che identificano la vicinanza tra i vari cluster fonetici.

Il metodo è stato applicato ai dati registrati da uno speaker maschile al quale è stato chiesto di leggere lo stesso testo utilizzando i tre diversi stili espressivi.

In primo luogo i risultati dell'analisi mostrano che i dendogrammi risultanti sono una buona rappresentazione della matrice delle distanze tra coppie di cluster.

I due dendogrammi risultanti mostrano che al vertice di entrambi c'è la separazione tra fonemi vocalizzati e non vocalizzati. Le successive partizioni sono diverse tra i due alberi ma si possono ritrovare alcune similitudini. Il coefficiente Variation of Information è stato utilizzato per quantificare la differenza tra i due dendogrammi.

Per analizzare le differenze anche dal punto di vista acustico, sono stati esaminati gli inviluppi spettrali medi di ogni fonema. Da questa analisi si può osservare il diverso e opposto comportamento in bassa frequenza delle due categorie emotive: gli inviluppi neutro-triste presentano una amplificazione in bassa frequenza, mentre al contrario quelli neutro-felice presentano una attenuazione. Questo fenomeno è confermato da studi sulla distribuzione spettrale nella voce emotiva.

Per i fonemi vocalizzati questa caratteristica è spiegata anche dallo spostamento delle armoniche dovute al diverso valore di pitch per le diverse emozioni (più basso per la voce triste più alto per la voce felice). Altri dettagli si possono vedere attorno ai 4000 Hz; sopra questa frequenza infatti i comportamenti dei fonemi vocalizzati e quelli non vocalizzati sembrano avere lo stesso comportamento.

Bibliografia:

S. Imai, “Cepstral analysis synthesis on the mel frequency scale,” in IEEE ICASSP, vol. 8, 1983, pp. 93–96.

S. C. Johnson, “Hierarchical clustering schemes,” Psychometrika, vol. 32, no. 3, pp. 241–254, Sep. 1967.

B. Mak and E. Barnard, “Phone clustering using the bhattacharyya distance,” in ICSLP96, vol. 4, 1996, pp. 2005–2008.

Sintesi vocale espressiva applicata in un agente virtuale conversazionale

E. Zovato, P. L. Salza, M. Danieli

Loquendo S.p.A. - Torino

Lo scopo del presente lavoro è descrivere l’adattamento del sistema di sintesi vocale Loquendo TTS (LTTS) realizzato in un’applicazione di agente virtuale conversazionale (avatar), nell’ambito del progetto europeo COMPANIONS. Il progetto ha l’obiettivo di sviluppare un sistema di dialogo basato su un agente conversazionale con capacità di simulare, attraverso più modalità, un comportamento coerente con lo stato emozionale dell’utente. Lo scenario di questa applicazione prevede che l’utente possa interagire con l’agente virtuale, discutendo della propria giornata di lavoro (“How was your day?”) (Cavazza, Santos de la Camara, Turunen, 2010). L’analisi di tipo semantico e acustico del messaggio verbale dell’utente permette di riconoscere con un certo grado di accuratezza il suo stato emozionale. Il sistema può discriminare tra due valori di valenza (positiva/negativa) e due valori di attivazione (attiva/passiva). Inoltre genera delle risposte facendo riferimento a un modello emozionale semplice ma efficace. In base allo stato emozionale riconosciuto, viene scelta la strategia più appropriata in termini di contenuto del messaggio verbale, stile di eloquio, espressioni facciali e gestualità dell’avatar. Inoltre sono previsti due tipi di risposta: una breve, che può essere attivata direttamente dai moduli deputati al riconoscimento dello stato emozionale dell’utente, ed una più articolata, che prevede elaborazioni più complesse da parte dei moduli che gestiscono le varie fasi del dialogo.

In questo quadro, il nostro lavoro si è concentrato nell’adattamento e sviluppo del sistema di sintesi vocale LTTS, che si basa sulla tecnologia di selezione di unità acustiche non uniformi, coerentemente con i requisiti dell’applicazione, primo fra tutti quello di poter generare parlato con caratteristiche espressive, mantenendo buoni livelli di intelligibilità e naturalezza. Per soddisfare tali requisiti, abbiamo proposto diverse strategie da usare nei vari contesti del dialogo. In particolare, è stata sfruttata la capacità del sistema di sintesi di generare espressioni marcate di buona qualità acustica corrispondenti a determinati atti linguistici, come ad esempio saluti, ringraziamenti, approvazioni, scuse, ecc. Per la lingua presa in considerazione nel progetto, l’Inglese britannico, il sistema di sintesi LTTS prevede un database vocale di circa cinquecento espressioni di uso comune, registrate con lo stile espressivo più appropriato e opportunamente classificate ed etichettate (Zovato, Tini Brunozzi & Danieli, 2008). Di grande efficacia è anche la possibilità di generare messaggi non verbali, come ad esempio, risate, esitazioni, colpi di tosse, ecc. che concorrono a comunicare un particolare atteggiamento emotivo nei confronti dell’utente. Anche in tal caso, il sistema prevede l’utilizzo di un database contenente queste unità e le rispettive etichette. Queste funzionalità del sistema di sintesi sono utili quando sia necessario generare una risposta verbale o non verbale di tipo breve, che abbia la funzione di riconoscere ed eventualmente condividere lo stato emozionale dell’utente. Tuttavia, anche nel caso in cui la risposta del sistema debba essere più articolata, è richiesta la generazione di parlato espressivo. In questo caso abbiamo scelto di lavorare sulla modifica di alcune caratteristiche prosodiche e acustiche del segnale, con lo scopo di ottenere stili espressivi distinguibili dallo stile neutro fornito come default dal sistema di sintesi. In questa fase sperimentale, sono stati considerati due stili emozionali: allegro e triste. Diversi studi hanno evidenziato che questi stili sono ben distinti dal punto di vista acustico, con correlazioni opposte per quanto riguarda alcuni parametri, anche a livello sopra-segmentale (Johnston & Scherer, 2000; Magno Caldognetto, 2002). Sulla base di questi studi, sono state applicate delle tecniche di analisi-sintesi su segnali di tipo “neutro” in modo da ottenere nuovi segnali con caratteristiche riconducibili ai due stili emozionali considerati (Boula de Mareil, Célérier, Toen, 2002). La trasformazione è stata applicata ai parametri di F0 (media ed escursione), intensità, durata segmentale e distribuzione dell’energia di banda.

Questi parametri, inizialmente ottenuti nella fase di analisi, sono stati ricalcolati coerentemente con le variazioni tipiche dei due stili emozionali considerati. Ad esempio, lo stile allegro è caratterizzato da maggiori escursioni di F0, lo stile triste da minore velocità di eloquio (Zovato, Salza, Sandri & Quazza, 2004). Nella fase di sintesi sono state applicate tecniche di filtraggio e di manipolazione sincrona con il pitch, per poter imporre le versioni modificate dei parametri. L’obiettivo finale è quello di ottenere un repertorio di unità acustiche “espressive” utilizzabili in modo contestuale. Infatti, sono stati introdotti dei meccanismi di marcatura del testo in modo da poter selezionare in modo esplicito lo stile di eloquio da applicare. I primi esperimenti indicano che i due stili sono riconoscibili, anche se quello triste sembra più efficace sia per distanza dallo stile neutro che per qualità acustica.

Bibliografia:

Boula de Mareil, P., Célérier, P. & Toen J (2002)., Generation of emotions by a morphing technique in English, French and Spanish, in Proceedings of Speech Prosody 2002, Aix en Provence, pp. 187-190.

Cavazza, M., Santos de la Camara, R. Turunen, M., & the COMPANIONS Consortium (2010). How was your day? A Companion ECA, Proc. of 9th Int. Conf. on Autonomous Agents and Multiagent Systems (AAMAS 2010), van der Hoek, Kaminka, Lespérance, Luck and Sen (eds.), May, 10–14, 2010, Toronto, Canada, pp. 1629-30.

Magno Caldognetto, E. (2002). I correlati fonetici delle emozioni, in Passioni, emozioni, affetti, (C. Bazzanella & P. Kobau), McGraw-Hill, pp. 197-213.

Johnstone, T. & Scherer, K.R. (2000). Vocal Communication of Emotion, in Lewis, M., Haviland, J. (Eds.), Handbook of emotions, second ed., Guilford, New York, pp. 220-235

Zovato, E., Salza, P. L., Sandri, S., Quazza, S. (2004). Uno studio sui correlati acustico-prosodici in realizzazioni di parlato espressivo, Atti del I Congresso Nazionale AISV 2004, Padova, Dicembre 2004

Zovato, E., Tini Brunozzi, F. & Danieli, M. (2008). Interplay between pragmatic and acoustic level to embody expressive cues in a text-to-speech system, Proceedings of 2008 Artificial Intelligence and Social Behaviour (AISB) Symposium, March 2008, Edinburgh, Scotland

Correzione statistica dell’allineamento forzato di corpora per sistemi di sintesi concatenativi basata su informazioni contestuali

C. Zito*, F. Tesser^, M. Nicolao^°, P. Cosi^

*Università di Pisa; ^Istituto di Scienze e Tecnologie della Cognizione, Consiglio Nazionale delle Ricerche, Padova; °Speech and Hearing Research Group, University of Sheffield, United Kingdom

I sistemi di sintesi vocale da testo o Text-to-Speech (TTS) di ultima generazione, sono in grado di ottenere buoni risultati per quanto riguarda la naturalezza e intelligibilità della voce prodotta. In particolare, poiché la maggior parte dei TTS è realizzata a partire da materiale audio preregistrato (corpus-based TTS), la buona qualità di un sistema dipende dalla qualità del corpus e dalla bontà del processo di addestramento.

Tra i vari tipi di corpus-based TTS, quelli a sintesi concatenativa per selezione di unità sono tra i più sensibili alla dimensione e alla qualità dei database di voci registrate. Durante la creazione della voce, infatti, ogni emissione registrata è frazionata in uno o più segmenti: foni, sillabe, morfemi, parole, frasi o periodi completi. I campioni sonori identificati vengono successivamente indicizzati nel database e durante la fase di sintesi, l’emissione finale viene generata sulla base di un algoritmo di decisione ad albero pesato che identifica la miglior sequenza tra i campioni candidati scelti dal database [1]. La fase di segmentazione gioca un ruolo cruciale nella naturalezza della voce sintetizzata da sistemi a selezione di unità perché definisce i limiti temporali di ogni singolo campione vocale all’interno dei file audio che compongono il corpus. Un allineamento poco accurato del corpus produce campioni vocali non integri oppure inquinati dalla presenza di suoni appartenenti a unità adiacenti causando una perdita di intelligibilità e chiarezza dell’audio prodotto dal sistema.

In questo studio è proposto un metodo statistico basato su alberi di regressione [2] per la predizione di valori correttivi per il miglioramento della segmentazione di un corpus registrato da un unico parlatore (speaker-dependent) con l’obiettivo di incrementare la naturalezza e intelligibilità in un TTS con sintesi concatenativa. L’approccio da noi proposto per ottenere un allineamento più accurato si può riassumere in due fasi ben distinte: (1) identificazione di classi di unità fonetiche con caratteristiche dipendenti dal contesto, ad esempio la classe che identifica le vocali presenti nel nucleo di una parola monosillabica; e (2) costruzione di un modello di regressione che associ ad ogni classe identificata il valore dell’errore medio commesso dal sistema automatico di riconoscimento vocale, usato per la segmentazione. L’idea di base è identificare e ridurre il più possibile l’errore sistematico commesso da un sistema di segmentazione automatico quando esegue l’allineamento forzato di corpora registrati dallo stesso speaker.

Nella fase di segmentazione normalmente si impiega un riconoscitore vocale basato sui modelli di Markov nascosti (Hidden Markov Models, HMM) [3] modificato appositamente per eseguire un “allineamento forzato” a cui seguono solitamente interventi di correzione manuali che sono spesso costosi in termini di energie e tempo. Inoltre, i sistemi di sintesi basati su corpus sono registrati da un unico (o pochi) speaker e l’utilizzo di sistemi di riconoscimento vocali con modelli acustici speaker-independant e dizionari general-purpose non sono in grado di sfruttare tale caratteristica a meno di utilizzare una successiva fase di adattamento al parlatore.

Il modello da noi proposto ha richiesto la definizione di un corpus di frasi che garantisse una buona copertura dei fonemi della lingua italiana in diverse situazioni contestuali e, per ogni speaker, un allineamento forzato di riferimento che fosse il più accurato possibile. A questo scopo, un corpus è stato creato “ad hoc” insieme a una segmentazione molto precisa. Questo materiale è stato poi utilizzato, seguendo una procedura ben nota [4], per creare un prototipo per un sistema di sintesi a selezione di unità.

Durante la creazione della voce, non è stata utilizzata la segmentazione fornita ma una nuova è stata ricalcolata automaticamente con un allineamento forzato basato su HMMs precedentemente addestrati ed infine corretta in base al modello creato. Questo modello prende il nome di modello di correzione di boundary di unità fonetiche dipendenti dal contesto (Context-Dependent Units Boundary Correction Model), dove con boundary si intende l’istante che identifica, nella linea temporale del file audio, la transizione tra due fonemi adiacenti.

La fase di apprendimento del modello di correzione è stata effettuata off-line rispetto alla costruzione della voce utilizzando solo una parte delle frasi che costituiscono l’intero corpus e mettendo in relazione gli allineamenti automatici con quelli precisi forniti con il corpus. Per valutare la bontà del modello creato, è stato utilizzato un punto di vista statistico cercando di individuare in che misura si riduce l’errore tra la segmentazione automatica di frasi sconosciute al modello e l’allineamento di riferimento che si suppone sia il risultato ottimale.

I risultati riportati dimostrano che la correzione statistica con informazioni dipendenti dal contesto influisce positivamente sull’allineamento, soprattutto dove l’errore prodotto dal sistema di segmentazione automatica è determinato da proprietà acustiche legate alle caratteristiche fonetiche sempre presenti nello speaker.

Il modello di regressione proposto in questo lavoro è stato costruito tentando di massimizzare le prestazioni valutate con i valori di Root Mean Square Error (RMSE) e di correlazione tra il segnale desiderato (che traccia l’andamento dell’errore sistematico per ogni categoria di fonemi contestualizzati) e il segnale predetto. I migliori risultati si sono

ottenuti con valori di RMSE pari al 0,0403 e una correlazione del 0,4438. Sul test set formato da circa 3000 unità fonetiche, l’applicazione del modello permette di ridurre l’errore totale rispetto all’allineamento di riferimento di circa il 12%, con prestazioni generalmente positive anche nelle singole classi di fonemi dipendenti dal contesto. I dati raccolti hanno comunque evidenziato che le prestazioni del sistema (in termini di percentuali di correzione dell’errore) sono fortemente limitate da quei fonemi dove il riconoscitore vocale esegue una segmentazione troppo accurata. Quando gli errori generati sono infatti inferiori al centesimo di secondo e con distribuzione casuale, difficilmente possono essere modellati con il nostro approccio.

In conclusione, il lavoro che qui presentiamo offre una prima analisi di un modello sensibile alle caratteristiche speaker-dependent, robusto ad informazioni mancanti e rumorose, e di semplice realizzazione che potrebbe essere utilizzato in alternativa a costosi sistemi di speaker-adaptation e a ripetute sessioni di correzione manuale.

Bibliografia:

[1] A. Hunt and Alan W Black, “Unit selection in a concatenative speech synthesis system using a large speech database”, ICASSP, vol. 1, pp. 373–376, 1996.

[2] Breiman et al., “Classification and Regression Trees”, Wadsworth Press, 1984.

[3] Lawrence R. Rabiner, “A tutorial on Hidden Markov Models and selected applications in speech recognition,” Proceedings of the IEEE, vol. 2, no. 77, pp. 257–286.

[4] Alan W Black, Christina L. Bennett, Benjamin C. Blanchard, John Kominek, Brian Langner, Kishore Prahallad, and Arthur Toth, “CMU Blizzard 2007: A hybrid acoustic unit selection system from statistically predicted parameters,” The Blizzard Challenge, August 2007.

I tratti sovrasegmentali delle lingue dei segni. Il caso dell’individuazione dei costituenti

C. Bertone

Università Ca' Foscari, Venezia

Nelle lingue dei segni gli aspetti prosodici dell’eloquio sono affidati alle espressioni del volto, alle posture, alla durata dell’articolazione dei segni. Nella Lingua dei Segni Italiana (LIS) fanno parte dei tratti sovrasegmentali anche alcuni movimenti delle labbra ed emissioni di suono che accompagnano la produzione di segni. I tratti sovrasegmentali hanno un ruolo nella fonologia della LIS poiché partecipano come tratto distintivo di diversi segni (ad es. LAVORO PRESTITO) (Franchi 1987), nella morfologia (ad es. la direzione dello sguardo segnala le persone grammaticali o alcune modificazioni del nome o degli aggettivi sono affidate ai tratti sovrasegmentali (Lerose 2009)), nella sintassi (ad es. la distinzione tra frasi dichiarative e interrogative polari è affidata all’espressione del volto ed alla postura, come pure le frasi esclamative, condizionali, relative etc.).

La LIS affida molte informazioni ai tratti sovrasegmentali così il loro ruolo diventa determinante ai fini dello studio della sintassi perché concorre alla definizione delle categorie grammaticali, esse infatti assumono lo stesso ruolo dell’intonazione della voce nelle lingue orali, infatti marcano determinanti, costituenti, ed evidenziano e fissano la funzione di un segno o di un gruppo di segni assumendo un ruolo rilevante nella comprensione di un enunciato. L’uso di tali tratti per marcare funzioni sintattiche e grammaticali non è una peculiarità specifica della LIS ma anche di altre lingue dei segni (Sandler 2010).

Il mio intervento focalizzerà l’attenzione sulla tipologia dei tratti e sulla procedura con la quale è possibile eseguire l’identificazione dei costituenti nella frase attraverso le posture e le espressioni del volto (Bertone 2007). L’evidenziazione di specifici tratti sovrasegmentali coestensivi ad un segno o a gruppi di segni è stata resa possibile grazie all’impiego di software specifici per la glossatura delle frasi nelle lingue dei segni (SignStream e poi Elan). Le differenti espressioni del volto e posture che marcano specifici costituenti, hanno formato l’evidenza che hanno reso possibile l’identificazione di diversi aspetti funzionali. In primo luogo la distinzione tra il sintagma nominale e il sintagma verbale, e successivamente la posizione degli aggettivi attributivi e predicativi. Negli esempi seguenti, costituiti da glosse tratte da filmati, è possibile osservare come il segno per ANTICO nelle frasi (1) e (2) possa essere categorizzato prima come aggettivo e poi come predicato grazie a specifici tratti sovrasegmentali che vengono coarticolati coestensivamente ai segni.

I tratti testa all’indietro e sopracciglia sollevate evidenziano il costituente nominale. I tratti sovrasegmentali distintivi per i costituenti non ricorrono con la stessa intensità, essi dipendono da segnante a segnante e la loro modalità può essere differente anche rispetto al contesto, tuttavia, fatta eccezione per alcuni specifici tratti (ad es. la tensione delle guance che veicola il significato di un referente già citato) tutti gli altri tratti, consistenti principalmente dall’inarcamento delle sopracciglia e dallo spostamento della testa indietro, non ricorrono in una maniera omogenea tale da classificarli come identificativi del sintagma nominale o del sintagma verbale, tuttavia durante l’articolazione della frase è possibile osservare una cesura netta tra le espressioni del primo e del secondo costituente.

La suddivisione dei costituenti in questa coppia di frasi permette di evidenziare innanzitutto l’assenza della copula e quindi la funzione del segno ANTICO che nella frase (1), facendo parte del sintagma verbale costituisce un predicato, mentre nella frase (2), essendo marcata dagli stessi tratti sovrasegmentali del nome, modifica in maniera diretta il nome per questo può essere categorizzato come un aggettivo attributivo. In secondo luogo questo meccanismo consente di definire il ruolo dell’indicazione che, come evidenziato dati tratti sovrasegmentali, appartiene al costituente nominale e per questo può essere identificato come determinante del sintagma nominale piuttosto che come pronome del sintagma verbale.

testa all’indietro

sopracc. sollev. testa in asse

(1) mano dominanate.: MOBILEi ANTICO mano non dominante: Indicazi Il mobile è antico



(2) mano dominanate.: MOBILEi ANTICO Indicazi ROTTO Il mobile antico è rotto

Gli elementi prosodici, permettono di distinguere se un elemento costituisce una modificazione diretta o indiretta del nome.

I tratti sovrasegmentali nelle frasi (3) e (4) mostrano come il termine ANTICO modifichi direttamente il nome (frase 3) perché interno al sintagma nominale, oppure costituisce una modificazione indiretta interna però al costituente nominale (frase 4) come si può evidenziare dall’estensione del tratto testa all’indietro che è coestensivo al sintagma nominale ed al suo modificatore (Bertone 2007). La presenza di un unico tratto sovrasegmentale sulla modificazione diretta ha conseguenze anche sulla definizione della gerarchia degli aggettivi attributivi del SN in accordo con le posizioni di Scott (2002) e Cinque (1994).

Bibliografia:

Bertone C., 2007. La struttura del sintagma determinante nella Lingua dei Segni Italiana, LIS. Tesi di dottorato. Dipartimento di Scienze del Linguaggio, Ca’ Foscari, Venezia.

Cinque, G. (2005a) “Deriving Greenberg’s Universal 20 and Its Exceptions”. Linguistic Inquiry, 36, 315-332.

Franchi M.L. (1987) “Componenti non manuali”. In Volterra V. (a cura di) (a cura di) La Lingua Italiana dei Segni. La comunicazione visivo-gestuale dei sordi. il Mulino, Bologna, pp.159-179.

Le Rose L. (2009) “Tipi di avverbio in LIS” . In Bertone C., Cardinaletti A. (a cura di) Alcuni capitoli della grammatica della LIS. Atti dell’Incontro di studio “La grammatica della Lingua dei segni italiana”. Venezia, 16 e 17 maggio 2007. Pp 43-60.

Scott, G.J. (2002) “Stacked Adjectival Modification and Structure of Nominal Phrases. In G. Cinque (a cura di), Functional Structure in DP and IP: The Cartography of Syntactic Structures, vol. 1, 91-120. New York: Oxford University Press.



(3) MOBILE CINA ANTICO indicaz. ROTTO Il mobile cinese antico è rotto testa all’indietro

sopracc. sollev. guance contratte testa in asse

(4) MOBILE CINA, ANTICO indicaz. ROTTO Il mobile cinese, che è antico, è rotto

Percezione del parlato ed effetto McGurk: uno studio elettrofisiologico

B. Sisinni, M. Grimaldi

CRIL & Università del Salento, Lecce

Percepire il linguaggio significa elaborare il segnale acustico e processare l’informazione che deriva dall’articolazione dei suoni prodotti dal parlante. Poter usufruire dell’informazione articolatoria facilita la percezione del linguaggio sia quando il segnale acustico è degradato (Grant & Seitz, 2000) che quando è coperto da rumore (Sumby & Pollack, 1954). L’informazione articolatoria, tuttavia, non è esclusivamente un elemento aggiuntivo che facilita la percezione. E’ stato osservato, infatti, che anche quando il segnale acustico è perfettamente udibile, l’informazione visiva gioca un ruolo fondamentale, come dimostrato dall’effetto McGurk (McGurk & MacDonald, 1976). Tale effetto si verifica quando doppiando un volto che articola la sillaba /ga/ con l’audio /ba/, ciò che si percepisce è una terza sillaba /da/, derivante dalla fusione dell’informazione acustica e di quella visiva. Questo effetto illusorio può essere considerato un fenomeno di integrazione multisensoriale, generato dalla fusione di input unimodali differenti, audio e video.

Visioni opposte circa l’integrazione multisensoriale sono state fornite dalle teorie sulla percezione del linguaggio. La teoria motoria della percezione (Liberman & Mattingly, 1985) sostiene che le informazioni unimodali, rispettivamente quella uditiva e quella visiva, sarebbero processate in maniera simultanea e automatica, in un modulo unico dedicato esclusivamente all’elaborazione del linguaggio. L’effetto McGurk viene letto come un esempio di integrazione sincrona e temporalmente precoce del segnale acustico e del segnale visivo. Al contrario, il Fuzzy Logical Model of Perception (Massaro, 1987) sostiene che la percezione del linguaggio possa essere divisa in tre fasi differenti: la valutazione, l’integrazione e la decisione. Il segnale acustico e visivo non sarebbero quindi fusi in maniera subitanea, ma solo nella fase di integrazione. Secondo questa teoria l’effetto McGurk sarebbe il risultato di un’integrazione a posteriori, che ha luogo solo dopo la valutazione indipendente e parallela degli input unimodali.

Numerosi studi comportamentali (cf. Soto-Faraco et al. 2004) hanno spesso dimostrato che il modo in cui avviene l’integrazione degli input unimodali sia automatico e inconsapevole, in linea con la teoria motoria della percezione, in quanto l’incongruenza fra stimolo audio e video, in linea generale, non viene notata dai soggetti. Sembrerebbe, infatti, che il conflitto fra gli stimoli unimodali differenti si risolva in favore di un percetto unitario senza che i soggetti siano consci della differenza fra ciò che vedono e ciò che ascoltano. Di recente Soto-Faraco & Alsius (2007) hanno ottenuto risultati divergenti rispetto a quelli precedenti. Utilizzando stimoli audio e video dissociati temporalmente, è stato osservato che i soggetti sperimentali, pur consapevoli dell’asincronia fra il segnale audio e l’inizio dell’articolazione, percepissero l’effetto illusorio di integrazione. Questo risultato è stato replicato anche in Soto-Faraco & Alsius (2009) dove gli autori hanno affermato che il concetto di integrazione multisensoriale, intesa come inconsapevole, andrebbe probabilmente rivisto poiché sembrerebbe che un certo grado di consapevolezza circa la discrepanza degli input unimodali sia presente nei soggetti, per lo meno inizialmente, sebbene il percetto risultante sia poi frutto della loro integrazione.

Un metodo efficace per indagare l’integrazione multisensoriale generata dall’effetto McGurk è la registrazione dei potenziali evento correlati (Event Related Potentials, ERPs) attraverso l’analisi della componente Mismatch Negativity (MMN, Näätänen et al., 1997). Questa componente si elicita in paradigmi oddball, dove stimoli uditivi frequenti detti standard, vengono saltuariamente sostituiti da stimoli più rari, detti devianti. Tale componente può essere elicitata senza che il soggetto presti attenzione agli stimoli ed ha una latenza precoce pari a 150-250ms dopo l’onset dello stimolo acustico. La sua distribuzione sullo scalpo è fronto-centrale, con una maggiore ampiezza nell’emisfero sinistro quando gli stimoli rappresentano suoni linguistici.

Già altri studi hanno utilizzato la MMN per verificare l’integrazione dell’effetto McGurk, confermando che essa avviene a latenze precoci, nelle aree cerebrali attese, a sostegno di quanto affermato dalla Motor Theory of Speech Perception (Colin et al., 2002, Colin et al., 2004, Saint-Amour et al., 2007). Da questi studi si evince che l’informazione visiva, che di per sé non evocherebbe MMN, se associata ad un’informazione acustica idonea, genera un nuovo percetto dalla valenza fonetica.

Tuttavia, se nella maggior parte degli studi l’area cerebrale addetta all’integrazione multisensoriale sembra essere il solco sopra-temporale sinistro, in un recente lavoro di Bernstein et al. (2008), risulterebbe che l’area cerebrale critica per l’integrazione audiovisiva del linguaggio sia la corteccia parietale.

Questo studio, indagando il fenomeno dell’effetto McGurk attraverso la MMN, si prefigge di fornire un ulteriore tassello alla comprensione dei processi neurofisiologici sottesi all’integrazione multisensoriale audio-visiva.

Per fare ciò, ad un gruppo di 10 soggetti sperimentali sono stati somministrati come standard stimoli audio-video /ba/ e come devianti stimoli audio/ba/-video/ga/. Nello stimolo deviante, ciò che differisce dallo stimolo standard è il solo video, per cui, da un punto di vista acustico non ci si dovrebbe attendere alcuna MMN. La stessa tipologia di stimoli è stata presentata anche senza audio, per verificare se stimoli esclusivamente visivi evocassero componenti MMN simili a quelle evocate dagli stimoli uditivi e se, eventualmente, l’attività cerebrale derivata dalla sola percezione

visiva degli stimoli potesse influenzare il processamento dello speech

I risultati ottenuti sembrano essere controversi rispetto alla visione predominante e sembrano invece corroborare le recenti ipotesi avanzate in Soto-Faraco & Alsius (2007, 2009). Sebbene tutti i soggetti abbiano dichiarato di percepire /da/, non è stata riscontrata nessuna risposta elettrofisiologica simile ad una MMN uditiva. Al contrario, nella latenza tipica della MMN, una componente ERP positiva è presente nell’area frontale ed una componente negativa è presente nell’area occipitale deputata al processamento di stimoli visivi. Quest’ultimo dato potrebbe essere legato al fatto che i soggetti abbiano effettivamente processato le proprietà articolatorie dello stimolo deviante. Considerando come onset anche l’instante di tempo in cui comincia l’articolazione dello stimolo deviante, si possono notare componenti negative sia nell’area frontale che in quella occipitale. La presenza di componenti negative si attesta inoltre nella condizione solo video, sempre considerando come onset l’inizio dei movimenti articolatori. Infine, la zona della corteccia cerebrale maggiormente attivata sembra essere quella della corteccia parietale, che si suppone sia dedicata al processamento dell’interfaccia motorio-uditiva del parlato (Hickok & Poeppel 2000).

Questi dati sembrano supportare le recenti ipotesi sull’integrazione multisensoriale, in quanto gli stimoli unimodali parrebbero processati in maniera indipendente l’uno dall’altro, suggerendo che l’integrazione avvenga principalmente a livello della corteccia parietale.

Bibliografia:

Bernstein, L. E., Auer Jr, E. T., Wagner, M., Ponton, C. W., (2008), Spatiotemporal dynamics of audiovisual speech processing; NeuroImage, 39, 423-435.

Colin, C., Radeau, M., Soquet, A., Demolin, D., Colin, F., Deltenre, P., (2002), Mismatch negativity evoked by the McGurk-MacDonald effect: a phonetic representation within short-term memory, Clinical Neurophysiology, 113, 495-506.

Grant, K.W., Seitz, P.F., (2000), The use of visible speech cues for improving auditoru detection of spoken sentences, Journal of the Acoustical Society of America, 108, 1197-1208.

Hickok G. and Poeppel D., (2000), Towards a functional neuroanatomy of speech perception, Trends in Cognitive Science, 4, 4 (1): 131-138.

Liberman, A. M., I. G. Mattingly, (1985), The motor theory of speech perception revised, Cognition, 21, 1-36.

Massaro, D.W., (1987), Speech Perception by ear and eye: a paradigm of psycholinguistic inquiry, Hillsdale, NJ, Lawrence Erlbaum Associates.

Massaro, D.W., (2001), Speech perception, in N. M. Smelser & P.B. Baltes (Eds.), & W. Kintsch (Section Ed.), International Encyclopedia of Social and Behavioural Science, Amsterdam, The Netherlands, Elsevier, 14870-14875.

McGurk, H., MacDonald, J., (1976), Hearing lips and seeing voices, Nature, 264, 746-748.

Näätänen, R., Lehtokoski A., Lennes, M., Cheour-Luhtanen, M., Houtilanen, M., Iivonen, A., Vainio, M., Alku, P., Ilmoniemi, R.J., Luuk, A., Allik, J., Sinkkonen, J., Alho, K., (1997), Language-specific phoneme representations revealed by electric and magnetic brain responses, Nature, 385, 432-434.

Saint-Amour, D., De Sanctis, P., Molholm, S., Ritter, W., Foxe, J.J., (2007), Seeing voices: High-density electrical mapping and source-analysis of the multisensory mismatch negativity evoked during the McGurk illusion, Neuropsychologia, 45(3), 587-597.

Soto-Faraco, S., Navarra, J., Alsius, A., (2004), Assessing automaticità on Audiovisual Speech Integration: Evidence from the Speeded Classification Task, Cognition, 92, B13-B23.

Soto-Faraco, S., Alsius, A., (2007), Consious access to the uni-sensory components in cross-modal illusion, Neuroreport, 18, 347-350.

Soto-Faraco, S., Alsius, A., (2009), Deconstructing the McGurk-MacDonald illusion, Journal of Experimental Psychology: Human Perception and Performance, 35(2), 580-587.

Sumby, W.H., Pollack, I., (1954), Visual contribution to speech intelligibility in noise, Journal of the Acoustical Society of America, 26, 212-215.

Lunghezza e frequenza: quale parametro per la prominenza?

G. Marotta*, A. Molino*, C. Bertini^

*Università di Pisa; ^Scuola Normale Superiore, Pisa

Pur essendo un aspetto costante della comunicazione parlata, gli studi dedicati al tema della prominenza non sono stati finora molto numerosi in Italia; la stessa definizione del termine risulta ancora alquanto ambigua. Negli studi precedenti, la questione è stata affrontata sul piano articolatorio (cfr. Avesani et al. 2006; 2009), oppure su quello acustico, nel tentativo di proporre un algoritmo per il riconoscimento automatico delle prominenze accentuali (cfr. Tamburini 2009). Una prospettiva più ampia, che mira ad individuare diverse classi tipi di prominenza è stata avanzata in Marotta e Sardelli (2007), in cui in particolare i Pitch Accents delle sillabe prominenti di tipo semantico sono state utilizzate come parametro di differenziazione diatopica tra parlanti italiani. La considerazione della variabilità diatopica in riferimento all’espressione della prominenza è stata indagata anche in Marotta, Calamai e Sardelli (2004), in cui veniva effettuato un confronto su base acustica, tra varietà toscane (pisano versus fiorentino), in relazione ai parametri di durata e F0. Sulla stessa linea di ricerca, una verifica percettiva su alcune vocali toscane è reperibile anche in Calamai e Ricci (2005).

In questo lavoro sulla prominenza, indagata sia sul piano della produzione che su quello della percezione, l’indagine sperimentale è stata condotta tenendo presente la variabile diatopica. Infatti, sono stati presi in considerazione alcuni campioni di parlato spontaneo relativi a tre varietà di italiano regionale – pisano, crotonese e vastese - per verificare:

• la presenza dei due parametri di durata e F0 nell’espressione della prominenza nelle tre varietà considerate;

• la maggiore rilevanza dell’uno o dell’altro parametro nella percezione della prominenza.

Grazie ad una analisi di tipo uditivo, abbiamo provveduto ad evidenziare un congruo numero di vocali toniche prominenti, vocali toniche non prominenti e vocali atone.

L’analisi acustica ha confermato una differenza statisticamente significativa tra le vocali prominenti e quelle non prominenti per quanto riguarda il parametro della durata, mentre per la frequenza, i dati sono meno sistematici, essendo correlati al tipo di segmento vocalico di volta in volta considerato.

Una parte dei materiali analizzati è stata quindi utilizzata per la messa a punto di un esperimento percettivo in cui si intendeva valutare il peso dei due parametri in esame. Nel dettaglio, sono state utilizzate come stimoli alcune parole (tutte della stessa categoria morfologica, cioè nomi) sia corrispondenti all’originale prodotto dai parlanti registrati che modificati, o per durata (-30 msec. e – 60 msec.) della vocale prominente o per valori di F0 (innalzamento o abbassamento del pitch) dellos tesso segmento vocalico. Gli stimoli, sia originali che modificati, sono stati presentati in coppia agli ascoltatori, i quali dovevano valutare se i due stimoli erano uguali o diversi. Hanno preso parte all’esperimento 41 soggetti italiani, di età compresa tra i 18 e i 57 anni, di diversa provenienza regionale, di cui 19 con buona educazione musicale.

I dati percettivi raccolti mostrano in primo luogo che l’educazione musicale è un parametro significativo, dal momento che le percentuali di errore sono nettamente maggiori nel caso dei soggetti privi di educazione musicale, sia per quanto riguarda il parametro di durata (47,09% per i soggetti con educazione musicale vs. 54,46% per il resto dei partecipanti) che, soprattutto, per quello della frequenza (14,52% per i soggetti con competenze in ambito musicale vs. 34,67% per il resto degli ascoltatori).

In secondo luogo, emergono percentuali di errore minori nel caso delle variazioni di frequenza; ad esempio, due stimoli nei quali l’andamento del pitch nella vocale prominente sia invertito vengono percepiti come diversi più di quanto non accade con due stimoli di diversa durata.

In terzo luogo, gli stimoli relativi alla varietà crotonese sono stati percepiti meglio di quelli relativi alle varietà di Pisa e Vasto; le ragioni di questa asimmetria sono a nostro avviso da ricercarsi nella diversa natura e durata degli stimoli di riferimento.

I dati raccolti costituiscono un primo punto di partenza per una ricerca a più ampio spettro; sono pertanto da considerarsi quale prima e parziale risposta ai molti e complessi quesiti che si pongono in rapporto all’espressione ed alla percezione della prominenza.

Bibliografia:

AVESANI, C., VAYRA, M., ZMARICH, C. (2009), “Coordinazione vocale – consonante e prominenza accentuale. La sfida della Articulatory Phonology”, in Linguistica e modelli tecnologici di ricerca, Roma, Bulzoni, pp. 353-386.

CALAMAI , S., RICCI, I. (2005), “Sulla percezione dei confini vocalici in Toscana: primi risultati”, in Cosi, P. (cur.), Atti del I Convegno Nazionale AISV, CD-rom, Torriana (RN), EDK Editore.

GILI FIVELA , B. (2004), “La percezione degli accenti: il ruolo dell’allineamento e dello “scaling” dei bersagli tonali”, in Cosi, P. (a cura di), Atti del I Convegno Nazionale AISV, Padova 2004, CD-rom, Brescia, EDK Editore, pp. 313 – 326.

LEHISTE, I. (1976), “Influence of fundamental frequency pattern on the perception of duration”, in Journal of Phonetics, n.4, pp. 113 – 117.

MAROTTA, G., CALAMAI , S., SARDELLI, E. (2004), “Non di sola lunghezza. La modulazione di F0 come indice socio-fonetico”, in Costituzione, gestione e restauro di corpora vocali. Atti delle XIV Giornate del GFS, a cura di A. De Dominicis, L. Mori e M. Stefani, Roma, Esagrafica, pp. 210-215.

MAROTTA, G., SARDELLI, E. (2007), “Prosodic parameters for the detection of regional varieties in Italian”, in Proceedings of the International Congress of Phonetic Sciences, Saarbrücken, August 6-10, 2007, pp. 682 – 704.

MAROTTA, G., SARDELLI, E. (2009), “Prosodiatopia: parametri prosodici per un modello di riconoscimento diatopico”, in G. Ferrari, M. Mosca (a cura di), Linguistica e modelli tecnologici di ricerca. Atti del Convegno della SLI, Vercelli, settembre 2005, Roma, Bulzoni, pp. 411 – 436.

TAMBURINI , F (2009), “Prominenza frasale e tipologia prosodica: un approccio acustico”, in G. Ferrari, M. Mosca (a cura di), Linguistica e modelli tecnologici di ricerca. Atti del Convegno della SLI, Vercelli, settembre 2005, Roma, Bulzoni, pp. 437 – 455.

VAN DOMMELEN, W. (1993), “Does dynamic F0 increase perceived duration? New light on an old issue”, in Journal of Phonetics, n.21, pp. 367 – 386.

Durata e lunghezza consonantica di geminate e rafforzate nelle varietà d’italiano

R. Savy, R. Giordano

Università di Salerno

Il lavoro presenta i primi risultati di una verifica sociolinguistica su alcuni aspetti della variazione fonetico-fonologica e del processo di standardizzazione fonologica riguardante le consonanti lunghe e rafforzate dell'italiano.

In italiano, la lunghezza consonantica, attiva solo in contesto intervocalico, ha storicamente avuto e continua ad avere un elevato rendimento funzionale, ma costituisce un’area di estrema variabilità del sistema fonetico-fonologico ( cfr. per esempio, D'Achille 2006; Maturi 2006; Schmid 1999; Mioni 1993; Canepari 1992, 2003; Sabatini 1985, Lepschy e Lepschy 1981): il tratto è proprio delle varietà centrali, attraverso le quali è passato nel modello standard, e delle centromeridionali (nonché delle rispettive originarie aree dialettali); è invece assente nei dialetti settentrionali e, pertanto, la sua resa è incerta e oscillante nelle corrispondenti varietà regionali di italiano.

Nel caso delle cosiddette ‘rafforzate’ (/tʦ/, /dʦ/, /ʦʦ/, /ʦʦ/, /ʦʦ/), invece, la lunghezza non viene intesa come tratto fonologico distintivo, ma esclusivamente come forma fonetica prototipica, derivata etimologicamente da nessi consonantici (C-C) e semivocalici (C-sV). Anche in questo caso, nello standard e nelle varietà centromeridionali la realizzazione è lunga, mentre nel settentrione è frequentemente breve.

I risultati di un precedente lavoro, basato prevalentemente su indagine uditiva e mirato a verificare l'attuale fase dell'evoluzione delle dinamiche di elaborazione della fonologia verso lo standard, mostrano che la resa lunga di tali consonanti è quantitativamente ormai pressoché uniforme in tutta Italia, almeno nel parlato controllato (nello specifico, nel parlato letto) delle varietà colte, fatta eccezione per una minoritaria residua traccia di pronunce regionali nelle varietà settentrionali e in quella sarda. Fenomeni di degeminazione sembrano interessare unicamente alcuni fonemi (in primo luogo le consonanti liquide laterali /ll/, /ʦʦ/, l’occlusiva bilabiale sonora /bb/ e la nasale palatale /ʦʦ/) soprattutto in forme lessicali specifiche (ad esempio le preposizioni articolate, per le quali è facile ipotizzare una trasparente forma sottostante non intervocalica, es. ‘della’ = ‘de+la’). L’esame uditivo induce, inoltre, a ritenere possibile una certa variabilità nella combinazione e nella modulazione dei parametri fonetici ai quali è correlato l'effetto percettivo di lunghezza.

Il presente lavoro è, dunque, mirato ad una verifica acustico-strumentale delle opposizioni di lunghezza di consonanti ‘geminate’ e ‘rafforzate’, affidata all’analisi di alcuni parametri indicati come correlati fonetici della lunghezza in diversi studi (cfr. Lisker 1958, Maddieson 1985, Lahiri & Hankamer 1988, Lehiste et al. 1973, Loporcaro 1992, Giovanardi & Di Benedetto 1998, Romano 2003, Loporcaro et al. 2005, Gili Fivela et al. 2007, in stampa):

a) durata assoluta del segmento consonantico (C);

b) rapporto tra durata C / durata V precedente (Vp) e C precedente (Cp);

c) intensità.

Il materiale è costituito dalle liste di frasi del corpus di italiano parlato CLIPS (Albano Leoni et al. 2007; Savy, Cutugno 2010), la cui stratificazione diatopica propone un campione delle pronunce neo-standard regionali colte distribuite su tutto il territorio nazionale (Sobrero, Tempesta 2007). La lista è composta da venti frasi di diversa lunghezza ed è stata letta da novanta parlanti (6 per ciascuna delle 15 località costituenti). Sono state analizzate 38 occorrenze di consonanti geminate e 15 di consonanti rafforzate per ciascun parlante, per un totale di circa 5000 foni (il dettaglio è riassunto in tabella).

n° di occorrenze

analizzate n° di varietà regionali

n° parlanti per

varietà totale

Totale occorrenze analizzate

C lunghe 38 15 6 3420

C rafforzate

15 15 6 1350 4770

Il campione di dati è stato analizzato per classi fonematiche e per macroaree geografiche (la divisione in 5 gruppi è basata sulla classificazione di Pellegrini, ripresa anche in Bruni 1984 e Loporcaro 2009): Settentrionale, Centrale, Meridionale mediana, Meridionale estrema, Sarda. I dati ottenuti dall’analisi uditiva sono stati suddivisi in tre categorie: 1) realizzazione lunga, 2) realizzazione breve, 3) realizzazione incerta.

I risultati, al momento ancora parziali ed in fase di elaborazione:

- confermano l’attesa variabilità del solo dato di durata del fono consonantico, certamente dipendente da fattori di esecuzione (come la velocità d’eloquio), ma non casualmente correlata a fattori diatopici: in particolare la durata di C-

lunghe e soprattutto C-rafforzate è sistematicamente minore in area settentrionale-occidentale;

- mostrano una correlazione sistematica tra durata relativa C/Vp e C/Cp e area geografica.

Il ruolo dell’intensità è, allo stato attuale, ancora da indagare.

Bibliografia:

Albano Leoni, F., Cutugno, F., Savy, R. [eds.], 2007, Il corpus CLIPS (Corpora e Lessici di Italiano Parlato e Scritto), http://www.clips.unina.it

Bruni F., 1984, Italiano. Elementi di storia della lingua e della cultura, Torino, UTET.

Canepari L., 2003, MaPI. Bologna, Zanichelli.

Endo R. & Bertinetto P.M., 1999, “Caratteristiche prosodiche delle così dette "rafforzate " italiane”. In R. Delmonte (a cura di), Aspetti computazionali in fonetica, linguistica e didattica delle lingue: modelli e algoritmi. Atti delle IX Giornate di Studio del "Gruppo di Fonetica Sperimentale" dell'AIA (Venezia, 1998), Roma, Esagrafica, 243-255.

Gili Fivela B., D'Apolito S., Stella A., Sigona F., in stampa, “Domain initial strengthening: dati acustici ed articolatori relativi a due varietà di italiano”, in Atti del VI Convegno Nazionale AISV, Napoli, 3-5 febbraio 2010.

Gili Fivela B., Zmarich C., Perrier P., Savariaux C., Tisato G., 2007, Acoustic and kinematic correlates of phonological length contrast in italian consonants, Proceedings of the 16th International Congress of Phonetic Sciences, Saarbrücken (G), 6-10 August 2007, 469-472.

Giovanardi, M. & Di Benedetto, M.G., 1998, “Acoustic analysis of singleton and geminate fricatives in Italian”, WEB-SLS. The European Student Journal of Language and Speech, http://www.essex.ac.uk/web-sls/papers/98-01.html

Lahiri, A. & Hankamer, J., 1988, “The timing of geminate consonants”, Journal of Phonetics, 16, 327-338.

Lehiste I., Morton K., Tatham M., 1973, “An instrumental study of consonant gemination”, Journal of Phonetics, 2.1, 131-148.

Lisker L., 1958, “The Tamil occlusives: short vs. long or voiced vs. voiceless”, lndian Linguistics, Tumer Jubilee Volume, l, 294-301.

Loporcaro M., 2009, Profilo linguistico dei dialetti italiani, Roma, Laterza.

Loporcaro, M., 1992, “On the analysis of geminates in Standard Italian and Italian dialects”. In Hurch, B., Rhodes, R. A. (eds), Natural Phonology: The State of the Art, Trends in Linguistics, Mouton de Guyter, Berlin, pp.153-187.

Loporcaro, M.; Paciaroni, T.; Schmid, S., 2005, “Consonanti geminate in un dialetto lombardo alpino”, in P. Cosi (a c. d.) Misura dei parametri, Atti del I Convegno Nazionale dell’Associazione Italiana di Scienze della Voce, Padova, 2-4 dicembre 2004, 597-618.

Maddieson I., 1985, “Phonetic cues of syllabification”, Phonetic Linguistics, (V. Fromkin. editor) New York: Academic Press

Romano, A., 2003, “Indici acustici di alcune geminate iniziali salentine”, in La coarticolazione. Atti delle XIII Giornate di studio del gruppo di fonetica sperimentale (G. Marotta & N. Nocchi, editors), Roma: Edizioni ETS, 233-241.

Savy, R., Cutugno, F., 2010, “CLIPS: diatopic, diamesic and diaphasic variations of spoken Italian Proceedings of 5th Corpus Linguistics Conference, http://ucrel.lancs.ac.uk/publications/cl2009/, article 213..

Schmid S., 1999, Fonetica e fonologia dell'italiano. Torino, Paravia.

Sobrero A., 1988, Italiano regionale, LRL 4: 732-748.

Sobrero A., Tempesta I., 2007, “Definizione delle caratteristiche generali del corpus: informatori, località”, Documento di Progetto. http://www.clips.unina.it/it/documenti.jsp

Caratteristiche spettrali di ostruenti palatali in alcune varietà romanze

S. Schmid

Università di Zurigo, Svizzera

Le occlusive palatali [c ʦ] costituiscono delle consonanti marcate tipologicamente, data la loro scarsa frequenza nelle lingue del mondo rispetto ai canonici luoghi di articolazione bilabiale, denti-alveolare e velare (Maddieson & Precoda 1991). In ambito romanzo esse compaiono comunque non solo nelle varietà reto-romanze come il vallader (Schmid 2010), ma anche in alcune aree laterali del dominio italo-romanzo, come mostrano ad esempio il dialetto piemontese della Valsesia (Romano et al. 2005) oppure il dialetto calabrese di San Giovanni in Fiore (Mele & Schmid 2009). Diacronicamente, tali consonanti sono sorte o per la palatalizzazione di C-/G- davanti a A oppure come esiti dei gruppi consonantici CL-/PL- (per una sintesi pan-romanza v. Romano 2007).

La marcatezza tipologica delle occlusive palatali si può attribuire da un lato a una difficoltà fisiologica legata alla loro produzione (si tratta di un luogo di articolazione massimamente distante dal rispettivo articolatore attivo), dall’altro alla loro scarsa distinguibilità percettiva: in effetti, [c ʦ] si confondono facilmente con le affricate palato-alveolari [ʦ ʦ], nelle quali esse sono confluite in molte varietà italo-romanze settentrionali (Schmid 2010).

Per determinare il modo e il luogo di articolazione delle occlusive palatali si può cercare di provvedere ad una loro caratterizzazione acustica sul piano temporale e su quello spettrale. Sul piano temporale, il rapporto tra la fase di rilascio e la durata totale dei segmenti dovrebbe permettere di attribuire le consonanti sotto esame o alla classe delle occlusive oppure a quella delle affricate. Dai dati disponibili per il dialetto di San Giovanni e per il vallader (Mele & Schmid 2009, Schmid 2010) risulta in effetti che le ostruenti palatali hanno una struttura temporale più simile a quella delle affricate palato-alveolari che non a quella delle occlusive velari. Ciononostante va notato che Ladefoged (1971: 41) considerava [c ʦ] come occlusive, aggiungendo semplicemente che esse hanno un carattere “more affricated” dovuto all’estensione del contatto creato dagli articolatori.

Per una caratterizzazione spettrale delle consonanti in questione si possono invece adottare diversi metodi di analisi. Un primo metodo si rifà alla teoria dei loci e considera le transizioni delle strutture formantiche nelle vocali successive: una variante di questo metodo è stata applicata con successo alle ostruenti palatali piemontesi da Romano et al. (2005). Un metodo alternativo analizza invece le proprietà spettrali intrinseche del rumore di rilascio, sfruttando quindi la durata relativamente lunga di questa fase di articolazione. Secondo l’analisi contrastiva di Gordon et al. (2002), sarebbe sufficiente adottare il parametro del ‘centro di gravità’ (introdotto da Forrest et al. 1988) per poter distinguere tra i vari luoghi di articolazione. In ambito romanzo, tale metodo ha fornito risultati soddisfacenti per il dialetto di San Giovanni in Fiore, soprattutto se si analizzano i quattro locutori separatamente (Mele & Schmid 2009), ma non ha permesso di distinguere le ostruenti palatali dalle palato-alveolari nel vallader (Schmid 2010).

La presente ricerca estende da un lato l’analisi spettrale delle ostruenti palatali a nuove varietà italo-romanze come il dialetto ligure di Falcinello studiato da Badiale (2007). Dall’altro lato viene allargato il ventaglio dei parametri di analisi, ripristinando altri due aspetti dell’inviluppo spettrale già esaminati da Forrest et al. (1988), ovvero la kurtosi e l’obliquità (ingl. skewness). In altre parole si intende verificare se per la caratterizzazione acustica del rumore di rilascio sia pertinente non soltanto il centro di gravità (ovvero il centroïde spettrale calcolato come media aritmetica delle frequenze presenti nello spettro), ma anche il carattere più o meno acuto o piatto dei picchi spettrali (kurtosi) nonché la distribuzione dell’energia rispetto alla media delle frequenze spettrali (obliquità).

Le prime analisi dei dati di Falcinello mostrano in effetti un quadro piuttosto chiaro per i valori di obliquità (skewness) che sono positivi per i tre luoghi di articolazione presi in considerazione (palato-alveolare, palatale, velare); ma ciò che è rilevante è che i valori aumentano in modo proporzionale alla posteriorità (ʦ=0.47, c=1.86, k=5.53). Per quanto riguarda la kurtosi, i dati di Falcinello sono ancora più chiari (ʦ=2.86, c=5.60, k=58.24), corroborando l’affermazione di Forrest et al. (1988: 119) secondo qui questo parametro risulta essere “the primary feature that distinguishes the velar stops from the other places of articulation”. Le future direzioni di ricerca puntano a replicare risultati simili con dati di altri dialetti e a valutare meglio il peso relativo dei tre parametri spettrali presi in esame (centro di gravità, kurtosi e obliquità) mediante un’analisi fattoriale.

Bibliografia:

Badiale, R. (2007), Il dialetto di Falcinello, PhThesis, Univ. of Zurich, Switzerland.

Forrest, K., Weismer, G., Milenkovic, P. & R. Dougall (1988), Statistical analysis of word-initial word-final voiceless obstruents: Preliminary data, Journal of the Acoustical Society of America, 84,115-123.

Gordon, M., Barthmaier, P. & Sands, K. (2002), A cross-linguistic acoustic study of voiceless fricatives, Journal of the International Phonetic Association, 32, 141-174.

Ladefoged, P. (1971), Preliminaries to linguistic phonetics, Chicago: The University of Chicago Press.

Maddieson, I. & Precoda, K. (1991), Updating UPSID, UCLA Working Papers in Phonetics, 74, 104-114.

Mele, B. & Schmid, S. (2009), Le occlusive palatali nel dialetto di San Giovanni in Fiore (CS), in La fonetica sperimentale. Metodo e applicazioni (Atti del 4° Convegno AISV) (L. Romito et al., editors), Torriana: EDK Editore, 349-371.

Romano, A., Molino, G. & Rivoira, M. (2005), Caratteristiche acustiche e articolatorie delle occlusive palatali: alcuni esempi da dialetti del Piemonte e di altre aree italo-romanze, in Misura dei parametri. Aspetti tecnologici ed implicazioni nei modelli linguistici (Atti del 1° Convegno AISV. Padova, Italia, 2-4 dicembre 2004) (P. Cosi, editor), Torriana: EDK Editore, 389-428.

Romano, A. (2007), La fonetica sperimentale e gli atlanti linguistici: la sintesi romanza di ‘Pidochio’ e lo studio degli esiti palatali, in Temas de dialectología (J. Dorta, editor), La Laguna-Tenerife: Instituto de Estudios Canarios, 179-204.

Schmid, S. (2010), Les occlusives palatales du vallader, in Actes du XXVe Congrès International de Linguistique et de Philologie Romanes. Tome II (M. Iliescu et al., editors), Tübingen: Niemeyer, 185-194.

/r/ uvulari in un parlante bilingue: una analisi ar ticolatoria preliminare basata su immagini ecografiche

Lorenzo Spreafico, Alessandro Vietti

Libera Università di Bolzano

Da un punto di vista fonetico la classe di suoni /r/ è particolarmente eterogenea e comprende perlomeno approssimanti, fricative, monovibranti e polivibranti realizzate apicalmente o uvularmente. Nonostante questa complessità, tuttavia, i suoni /r/ identificano unùnica classe fonologica, soprattutto perché i suoi membri mostrano distribuzioni contestuali abbastanza simili. Làlta variabilità della classe è spesso motivata rifacendosi al fatto che taluni suoi membri sono suoni piuttosto instabili. E` il caso delle polivibranti: infatti affinché queste abbiano luogo è necessario che si verifichi e venga rispettata una complicata combinazione di condizioni articolatorie e aerodinamiche (Solé 2002, Recasens 1999).

Peraltro il piano articolatorio associato alle /r/ è spesso di difficile ricostruzione sulla base del solo dato acustico, soprattutto perché configurazioni simili degli organi fonatori possono generare profili spettrali differenti. Lo testimoniano gli studi sulle /r/ retroflesse o retratte dellìnglese americano (entrambe mostrano un abbassamento di F3), oppure ancora quelli sul continuum tra /r/ coronali e dorsali in svedese (Engstrand, Frid, Lindblom 2007). Lèterogeneità della classe e lo spettro delle variazioni richiedono perciò làpprofondimento delle analisi, soprattutto dal punto di vista articolatorio.

In questa ricerca si presentano allora i primi risultati di una descrizione articolatoria preliminare delle /r/ basata sulla tecnica UTI (Ultrasound Tongue Imaging). Lánalisi è fondata su dati strumentali elicitati in condizioni di laboratorio impiegando stimoli che consistono di parole pronunciate da uno stesso parlante bilingue (italiano, tedesco) contenenti istanze di /r/ in differenti contesti (VRV, CRV, VRC).

I dati impiegati per lánalisi sono ricavati dalle immagini ecografiche sagittali della lingua registrate con un ecografo Merlin 1101alla frequenza di trenta fotogrammi al secondo impiegando un trasduttore 8561 con centro di frequenza di 5 MHz e ampiezza del campo di 120°. Per garantire la comparabilità e la piena visualizzazione dellàrea velare e uvulare il trasduttore impiegato per la rilevazione dei dati è stato montato su un elmetto stabilizzatore leggermente orientato verso lìstmo delle fauci.

I dati elicitati, che ammontano a circa 200 occorrenze, sono stati impiegati per unànalisi parallela dei valori acustici e articolatori. Anzitutto ciascuna produzione è stata classificata sulla base del dato acustico e dunque riportata a una di cinque possibili classi di foni differenziate per modo di articolazione: approssimante, fricativa, monovibrante, polivibrante, vocale rotacizzata (non si è resa necessaria alcuna differenziazione relativa al luogo di articolazione perché lìnformante ha prodotto solo foni uvulari, sia in tedesco che in italiano, sebbene in questùltimo caso la realizzazione standard attesa sarebbe stata apicale). Quindi ciascuna immagine ecografica relativa allàrticolazione di /r/ è stata analizzata per mezzo di un sistema automatico di rilevazione del profilo linguale (Articulate Assistant Advance, 2.10) che ha consentito di tracciare e ricavare le coordinate relative alla configurazione della lingua in dato istante.

Laddove possibile la selezione dei frames da cui ricavare i profili linguali è stata fatta coincidere con la fase di chiusura per monovibranti e polivibranti, oppure con quella di tenuta (per come identificabili sulla base del dato acustico) per tutti gli altri foni così. Muovendo dalle rilevazioni è stato ricostruito un profilo linguale medio per le produzioni di ciascuna classe di fono identificata in ognuna delle due lingue considerate. Le coordinate medie di ciascuna classe sono infine state esportate per una comparazione grafica.

I risultati della comparazione mostrano la produzioni di profili linguali differenti per la realizzazione di uno stesso tipo di fono nelle due lingue. Più in generale: il confronto interlinguistico evidenzia che le realizzazioni di /r/ in italiano presentano una marcata tendenza allìnnalzamento del post-dorso della lingua cui si accompagna la produzione di un solco marcato nella zona del pre-dorso. Per quanto riguarda il tedesco, invece, si evidenzia un profilo marcatamente piatto della lingua, soprattutto per le fricative (figura 1, 2), e spesso indipendentemente dallìntorno fonetico.

Inoltre, poiché polivibranti e monovibranti mostrano un ampio tasso di variazione per quanto riguarda la parte frontale della lingua, e poiché la loro articolazione pare essere più influenzata dallíntorno fonetico, soprattutto nel caso di vocali, si è operata anche lànalisi di un sottocampione di rotacismi uvulari in diversi contesti vocalici e consonantici che ha permesso di identificare possibili invarianti articolatorie nella realizzazione di /r/, così come possibili effetti di coarticolazione, come mostrato nella figura 3, dove i profili tracciati si riferiscono a possibili sottoclassi articolatorie di polivibranti italiane ([aRRo], [fRe], [tRʦ]).

Fig. 1, 2: fricative uvular per il tedesco e l´italiano

Fig. 3: sottoclassi articolatorie per le polivibranti italiane

Bibliografia:

Engstrand, O., Frid, J. & Lindblom, B. (2007). A perceptual bridge between coronal and dorsal /r/. In M-J. Solé, P. Speeter Beddor & M. Ohala (Eds.), Experimental approaches to phonology, Oxford: Oxford University Press, 175-191.

Gick, B., Campbell, F., Oh, S. & Tamburri-Watt, L. (2006). Toward universal in the gestural organization of syllables: A cross-linguistic study of liquids. Journal of Phonetics, 34, 49-72.

Recasens, D. & Pallarès, M. (1999). A study of /r/ and /r/ in the light of the ‘DAC’ coarticulation model, Journal of Phonetics, 27, 143-170.

Scobbie, J.M., Wrench, A.A. & van der Linden, M. (2008). Head-probe stabilisation in ultrasound tongue imaging using a headset to permit natural head movement. Proceedings of the Eighth International Seminar on Speech Production (ISSP), Strasbourg.

Solè, M-J (2002). Aerodynamic characteristics of trills and phonological patterning. Journal of Phonetics, 30, pp.655-688.

Stone, M., Epstein, M.A. & Iskarous, K. (2004). Functional segments in tongue movement. Clinical linguistics and phonetics, 18, 507-521.

Zharkova, N. & Hewlett, N. (2009). Measuring lingual coarticulation from midsagittal tongue contours: Description and example calculations using English /t/ and //. Journal of Phonetics, 37, 248-256.

L'influenza del sistema nativo sull'intonazione della lingua straniera: analisi articolatoria dell'allineamento tonale

Antonio Stella

CRIL & Università del Salento, Lecce

La produzione del corretto andamento intonativo è un obiettivo molto difficile da raggiungere per i discenti di una L2, dato che i fattori che interessano la prosodia non sono facilmente controllabili e sono profondamente influenzati dal sistema fonetico/fonologico nativo. In [1] sono riportati i risultati di differenti studi sulla produzione dell'intonazione di una L2: si distingue tra errori di tipo fonologico (uso di una categoria invece di un’altra; ad es. un’ascesa anziché una discesa) ed errori di tipo fonetico (differente implementazione di una stessa categoria; ad es. un’ascesa di F0 con inclinazione differente). Inoltre, [2], [3] e [4] mostrano che i discenti di una L2 acquisiscono le caratteristiche fonologiche prima di quelle fonetiche, le quali sono prodotte correttamente solo da parlanti con alta competenza.

Tra le caratteristiche fonetiche, una frequente sorgente di errori nelle produzioni in una L2 è rappresentata dall'allineamento tonale, ossia la sincronia tra i target tonali e il materiale segmentale. In [5] si evidenzia come il corretto allineamento di un pitch accent in una L2 sia molto difficile da apprendere: l’autrice conduce un esperimento sulla produzione di accenti prenucleari LH prodotti in greco da madrelingua olandesi con alta competenza del greco come L2 e rileva che 4 soggetti su 5 implementano la categoria fonologica della L2 utilizzando le caratteristiche di allineamento proprie della lingua madre.

L’allineamento tonale è stato ampiamente studiato a livello acustico soprattutto in produzioni in lingua materna, sia in accenti ascendenti (cfr. [6], [7], [8], [9], [10]) che discendenti (cfr. [11]), con l’obiettivo di evidenziare una stabilità nell’ancoraggio dei toni ai segmenti; in molti casi, però, fattori quali la struttura sillabica o la velocità di elocuzione non hanno reso possibile l’individuazione di pattern di allineamento stabili per tutti i target tonali. Recenti studi hanno affrontato il problema dal punto di vista articolatorio (cfr. [12], [13], [14], [15], [16]) dimostrando che la determinazione dell’allineamento in relazione ai gesti articolatori, piuttosto che a eventi acustici, sembra essere più precisa per l’identificazione della categoria fonologica: ad esempio, in [13] si evidenzia che nell’italiano di Napoli, il target alto nell’accento L*+H è allineato con la massima costrizione del gesto, mentre nell’accento L+H* il target alto è allineato con il suo picco di velocità.

Lo studio dell'allineamento tonale dal punto di vista articolatorio rappresenta quindi una linea di ricerca utile alla comprensione dello status fonologico degli accenti, e in riferimento allo studio dell'apprendimento di una L2, potrebbe rivelarsi utile per determinare la relazione tra padronanza delle caratteristiche prosodiche e grado di competenza. Il presente contributo è parte di un’indagine più ampia che ha come obiettivo proprio uno studio acustico, articolatorio e percettivo delle differenze nell’allineamento dei target tonali in enunciati con differenti tipi di focus in italiano e in tedesco, nelle produzioni di parlanti di area leccese con differenti livelli di competenza del tedesco L2.

In questo lavoro sono analizzate soltanto le produzioni con focus contrastivo, che si differenziano nell’italiano parlato a Lecce e nel tedesco standard anche per l’allineamento tonale: in italiano è utilizzato un accento H*+L che, in maniera impressionistica, ha il target basso iniziale (L1) allineato con l’inizio della sillaba accentata, il picco (H) allineato con l’inizio del nucleo sillabico e il successivo target basso (L2) che ricade solitamente all’interno della stessa sillaba o nel fono successivo, creando una ripida discesa di F0 (Fig. 1). Nel tedesco standard, tutti e tre i target sono allineati più in ritardo rispetto all’italiano: L1 ricade all’interno della sillaba accentata, mentre H è posizionato alla fine del nucleo sillabico; il tono poi scende nuovamente facendo ricadere L2 molto al di fuori della sillaba tonica (Fig. 2).

L’ipotesi è che solo i parlanti con alta competenza siano in grado di allineare correttamente i target tonali nelle produzioni in tedesco, mentre i parlanti con bassa competenza producano le categorie tonali proprie del sistema nativo, realizzando le caratteristiche fonetiche native. Inoltre, se si dovesse riscontrare tale differenza tra i due gruppi, si potrebbe ipotizzare l’esistenza di un livello di competenza intermedio, nel quale le differenze nell’allineamento tonale seguano dei pattern di modificazione graduali o parziali.

Per questi esperimenti sono stati creati 2 corpora (uno per lingua) formati da 4 minidialoghi, ognuno composto da due coppie domanda/risposta che elicitano una risposta con focus largo e una con focus contrastivo; il pitch accent prodotto per i due tipi di focus occorre sulla sillaba [ma.l] o [mal] in pseudo-parole parossitone o proparossitone inserite in frasi cornice con struttura accentuale e numero di sillabe controllati per garantire la comparazione delle produzioni nelle due lingue. Ogni parlante ha prodotto 7 ripetizioni di ogni corpus a due velocità di elocuzione (normale e veloce).

Un primo studio acustico è già stato svolto in un altro lavoro su 4 soggetti (2 con alta e 2 con bassa competenza) e ha permesso di corroborare le ipotesi avanzate: si è dimostrato che effettivamente i target L1 (Fig. 3) e H (Fig. 4) sono implementati più a destra solo nelle produzioni in tedesco dei parlanti con alta competenza (parlanti 3 e 4, boxplot rossi), mentre i parlanti con bassa competenza (parlanti 1 e 2, boxplot verdi) hanno un comportamento differente: il parlante 2 allinea entrambi i target allo stesso modo in italiano e in tedesco; il parlante 1, invece, allinea soltanto il target L1 allo stesso modo in entrambe le lingue, mentre modifica l’implementazione del target H, coerentemente con quanto osservato nei parlanti con alta competenza. Le produzioni del parlante 2 sembrano quindi corroborare l’ipotesi

riguardante l’esistenza di un grado di competenza intermedio, per il quale avviene solo lo spostamento del picco di F0, probabilmente per la sua maggiore salienza acustica e percettiva; tale affermazione necessita comunque di ulteriori indagini su un maggior numero di soggetti.

In questa sede verranno presentati i risultati dello studio articolatorio, il quale si pone l'obiettivo di verificare se le modificazioni nell’allineamento si riflettano sui punti di ancoraggio con i gesti articolatori e sulle relazioni di fase tra gesti tonali, vocalici e consonantici. Fino a questo momento, due parlanti che avevano partecipato all’esperimento acustico hanno preso parte anche all’esperimento articolatorio: il parlante 2, con competenza intermedia, e il parlante 3 con alta competenza. È prevista l’acquisizione di dati relativi ad almeno un parlante con bassa competenza. I dati articolatori sono stati acquisiti utilizzando l’articulografo AG500.

L’analisi delle caratteristiche dell’allineamento per i dati ottenuti finora è stata condotta sulla latenza tra i target tonali e i tracciati di 3 articolatori: labbro inferiore (relativo al gesto consonantico di [m]), punta della lingua (relativo al gesto consonantico di [l]) e dorso della lingua (relativo al gesto vocalico [i]-[a]).

I primi risultati mostrano che ciò che avviene a livello acustico si riflette anche a livello articolatorio: il parlante con competenza intermedia modifica solo l’allineamento di H nelle produzioni in tedesco, mentre allinea il target L1 allo stesso modo in entrambe le lingue; al contrario, il parlante con competenza alta sposta entrambi i target tonali verso destra (vedi Tab.1).

Figure

Fig. 1: Realizzazione del focus contrastivo in pseudoparola proparossitona nell’italiano parlato a Lecce. Le etichette acustiche si riferiscono alla parola in focus (C0 e V0 indicano la sillaba accentata) nella produzione "No, la NINANINA beve la coca".

Fig. 2: Realizzazione del focus contrastivo in parola proparossitona nel tedesco standard. Le etichette acustiche si riferiscono alla parola in focus (C0 e V0 indicano la sillaba accentata) nella produzione "Nein, die NINANINA bedeckt die Tische".

Italiano

Tedesco

Fig. 3: Latenza del target L1 dall’onset della sillaba (indicato dalla linea orizzontale). Il pannello a sinistra si riferisce alle produzioni in italiano, quello a destra alle produzioni in tedesco. I boxplot verdi si riferiscono ai parlanti con bassa competenza, quelli rossi ai parlanti con alta competenza.

Italiano

Tedesco

Fig. 4: Latenza del target H dall’onset della sillaba (la linea orizzontale indica la distanza di 100 ms dopo l'onset della sillaba). Il pannello a sinistra si riferisce alle produzioni in italiano, quello a destra alle produzioni in tedesco. I boxplot verdi si riferiscono ai parlanti con bassa competenza, quelli rossi ai parlanti con alta competenza.

Tabelle

Parlante con competenza intermedia Parlante con competenza alta

Italiano Max costrizione sulla

sillaba tonica Italiano

Picco di velocità del gesto di chiusura sulla

sillaba tonica L1

Tedesco Max costrizione sulla

sillaba tonica

L1

Tedesco Massima apertura sulla

sillaba tonica

Italiano Max apertura sulla sillaba tonica

Italiano Massima apertura sulla

sillaba tonica

H

Tedesco Picco di velocità del

gesto di apertura sulla sillaba post-tonica

H

Tedesco Massima costrizione

sulla sillaba post-tonica

Tab. 1: Punti di ancoraggio dei target tonali L1 e H con il livello articolatorio nelle produzioni in italiano e in tedesco dei 2 parlanti.

Bibliografia:

[1] Mennen, I. (2007), Phonological and phonetic influences in non-native intonation, in J. Trouvain and U. Gut (eds), Non-native Prosody: Phonetic Descriptions and Teaching Practice, The Hague: Mouton De Gruyter, 53-76.

[2] Ueyama, M. & Jun, S.-A. (1996), Focus realization in Japanese English and Korean English intonation, in UCLA Working Papers in Phonetics, 94.

[3] Ueyama, M. (1997), The phonology and phonetics of second language intonation: the case of “Japanese English", in Proceedings of the 5th European Speech Conference, 2411-2414.

[4] Jun, S.-A. & Oh, M. (2000), Acquisition of second language intonation, in Proceedings of International Conference on Spoken Language Processing, 4, 76–79.

[5] Mennen, I. (2004), Bi-directional interference in the intonation of Dutch speakers of Greek, in Journal of Phonetics, 32, 543-563.

[6] Caspers, J., & van Heuven, V. J. (1993), Effects of time pressure on the phonetic realization of the Dutch accent-lending pitch rise and fall, in Phonetica, 50, 161-171.

[7] Prieto, P., van Santen, J. & Hirschberg, J. (1995), Tonal alignment patterns in Spanish, in Journal of Phonetics, 23, 429-451.

[8] Arvaniti, A., Ladd, D. R. & Mennen, I. (1998), Stability of tonal alignment: the case of Greek prenuclear accents, in Journal of Phonetics, 26, 3-25.

[9] Ladd, D. R., Mennen, I. & Schepman, A. (2000), Phonological conditioning of peak alignment in rising pitch accents in Dutch, in Journal of Acoustical Society of America, 107, 2685-2696.

[10] Prieto, P. & Torreira, F. (2007), The segmental anchoring hypothesis revisited: Syllable structure and speech rate effects on peak timing in Spanish, in Journal of Phonetics, 35, 473-500.

[11] Prieto, P. (2009), Tonal alignment patterns in Catalan nuclear falls, in Lingua, 119, 865-880.

[12] D'Imperio, M., Nguyen, N. & Munhall, K. G. (2003), An articulatory hypothesis for the alignment of tonal targets in Italian, in Proceedings of 15th International Congress of Phonetic Sciences, Barcelona, 253-256.

[13] D'Imperio, M., Espesser, R., Loevenbruck, H., Menezes, C., Nguyen, N. & Welby, P. (2007), Are tones aligned with articulatory events? Evidence from Italian and French, in Papers in Laboratory Phonology IX (J. Cole, J. I. Hualde, editors), Mouton de Gruyter, 577-608.

[14] Prieto, P., Mücke, D., Becker, J. & Grice, M. (2007), Coordination patterns between pitch movements and oral gestures in Catalan, in Proceedings of the XVIth International Congress of Phonetic Sciences (J. Tourvain and W. J. Barry, editors), Pirrot GmbH, Dudweiler, 989-992.

[15] Mücke, D., Grice, M., Becker, J. & Hermes, A. (2009a), Sources of variation in tonal alignment: evidence from acoustic and kinematic data, in Journal of Phonetics, 37 (3), 321–338.

[16] Mücke, D., Nam, H., Prieto P. & Goldstein, L. (2009b), Coupling of tone and constriction gestures in Catalan and German, presentazione poster alla conferenza Phonetics and phonology in Iberia 2009, Las Palmas de Gran Canaria.

Accento straniero e affidabilità del messaggio. Un'indagine acustico-percettiva

M. Pettorino, A. De Meo, E. Pellegrino, L. Salvati, M. Vitale

Unversità di Napoli “L'Orientale”

Una ricerca di due studiosi della University of Chicago, Shiri Lev-Ari e Boaz Keysar, dal titolo “Why don't we believe non-native speakers? The influence of accent on credibility”, recentemente apparsa sul Journal of Experimental Social Psychology (n. 46, 2010, 1093–1096), ha suscitato un ampio dibattito sulla stampa generalista. Lo studio affronta il tema dell’esistenza di un rapporto tra accento straniero e affidabilità del messaggio. Secondo gli autori, una volta annullata la variabilità dovuta a pregiudizi di natura socio-culturale, il parlato prodotto da non nativi risulta meno credibile a causa delle difficoltà di decodifica che l'ascoltatore incontra (“We propose that people believe non-native speakers less, simply because they are harder to understand”). Un’analisi attenta dei dati forniti da questo studio rivela a nostro parere diversi problemi di ordine metodologico-procedurale, tra i quali:

1. il tipo di input utilizzato (60 frasi-curiosità del tipo “A giraffe can go without water longer than a camel can”), che a nostro avviso conduce inevitabilmente a risposte vero-falso del tutto casuali;

2. la non omogeneità dei soggetti coinvolti negli esperimenti: parlanti di diverse lingue materne e con diverso grado di accento straniero in inglese (15 parlanti nativi inglesi; 15 stranieri con accento lieve di madrelingua polacca, turca e austriaco-tedesca; 15 stranieri con accento marcato di madrelingua coreana, turca e italiana);

3. una metodologia sperimentale poco affidabile: all'ascoltatore era richiesto di indicare la risposta su una linea di 14 cm, con il polo 0 corrispondente a “assolutamente falso” e il polo 14 ad “assolutamente vero” e la misura veniva materialmente rilevata in centimetri;

4. una assoluta mancanza di analisi acustica del parlato input;

5. una lettura impropria dei dati, in quanto i risultati riportati nell’articolo mostrano uno scarto irrisorio tra i gruppi di soggetti coinvolti, con valori di affidabilità misurata in centimetri pari a 6,84 per un accento straniero marcato, 6,95 per un accento straniero lieve e 7,59 per un accento madrelingua. Rispetto ai due estremi della scala di affidabilità, quindi, tali valori si collocano tutti in una zona centrale, di una ampiezza massima di 65 decimillimetri. Eppure, nonostante tali risultati, gli autori traggono conclusioni a supporto della tesi di partenza: “These results have important implications for how people perceive non-native speakers of a language, particularly as mobility increases in the modern world, leading millions of people to be non-native speakers of the language they use daily. Accent might reduce the credibility of non-native job seekers, eyewitnesses, reporters or news anchors”.

Poiché il tema ci è sembrato di grande interesse e attualità, con ricadute importanti anche di tipo socio-culturale, abbiamo ritenuto opportuno riproporre la ricerca, seguendo una metodologia più rigorosa. A questo scopo abbiamo avviato una serie di indagini sperimentali acustico-percettive, tese a verificare l'esistenza di una connessione tra prodotto fonico caratterizzato da accento straniero e affidabilità del contenuto testuale e a identificarne i correlati acustici.

A tal fine è stato utilizzato un corpus costituito da brevi notizie, sia vere sia false, tutte proposte come vere a uno speaker italiano e a due speaker stranieri di madrelingua cinese, entrambi apprendenti di italiano lingua straniera con livello di competenza B2 del Common European Framework of Reference for Languages, di cui uno con accento straniero marcato e l’altro lieve. Le notizie, redatte in italiano, sono state lette e registrate in uno studio radiofonico, e successivamente montate in modo da realizzare quattro radiogiornali del tutto verosimili, secondo i canoni standard dei notiziari radiofonici, inclusa la sigla di apertura e quella di chiusura. La scelta di confezionare il corpus sotto la veste di radiogiornale è stata determinata dalla volontà di rimarcare la natura di puro “speakeraggio” da parte del locutore, evitando così che nell’ascoltatore il giudizio sull’affidabilità della notizia potesse essere influenzato da eventuali pregiudizi o stereotipi di natura socioculturale nei confronti della comunità sinofona immigrata. Ciascuna notizia è stata letta sia dal parlante italiano sia dai due parlanti stranieri. I quattro radiogiornali hanno costituito l’oggetto di test percettivi, che sono stati somministrati a 100 ascoltatori italiani e stranieri di diverse lingue materne e con diversi livelli di competenza dell’italiano lingua straniera. Agli ascoltatori è stato chiesto di indicare, immediatamente dopo aver ascoltato ciascuna notizia, se questa fosse da ritenere vera o falsa. Sulla base dei risultati del test, gli enunciati statisticamente riconosciuti come più/meno affidabili sono stati oggetto dell’analisi spettroacustica per verificare l’esistenza di specifici correlati acustici del diverso grado di affidabilità, con particolare attenzione ai tratti soprasegmentali. L’elaborazione dei dati è in corso e prevede, in particolare, il confronto tra gli enunciati prodotti dal parlante italiano madrelingua e i corrispondenti enunciati prodotti dai due parlanti cinesi, con accento marcato e lieve. I risultati saranno discussi nel dettaglio.

Consonantal and vocalic gestures in the articulation of italian glide /w/ at different syllable positions

C. Zmarich§, P. Van Lieshout°, A. Namasivayam°, A. Limanni°, V. Galatà*§, G. Tisato§

§Istituto di Scienze e Tecnologie della Cognizione (ISTC), C.N.R. di Padova; °University of Toronto, Toronto (Canada); *Istituto di Ricerche sulle Attività Terziarie (IRAT)

This project focuses on the articulatory investigation of the consonantal glides (G) of Italian in legal diphthongs, i.e. /j/ and /w/. From a phonological point of view, four glides exist in Italian: /j/ and /w/ in word-initial position preceding the vowel (V) (respectively it. “iodio” and “uomo”); /ĭ/ and /ŭ/ following the vowel /a/ ( respectively it. “daino” and “auto”). They are also known under the name of “semiconsonanti” when they form diphthongs with the following V (as in ”iodio” and “uomo”), and “semivocali” when they form diphthongs with the previous vowel (as in ”daino” and “auto”, see Bertinetto & Loporcaro 2005, Gili Fivela & Bertinetto 1999, Marotta 1988, Nespor 1993, Schmid 1999).

For both Phonology and Phonetics, glides still present a number of open questions, ranging from the definition of the necessary and sufficient features for their identification (Chitoran & Nevins, 2008) to their characterization on the acoustic and articulatory level of speech production (Gick, 2003). This situation is even more problematic when Italian glides are taken into account.

The attempts to distinguish them from prototypical consonants and vowels has always oscillated between a featural position and a structural position. Proponents of the first view assume that glides like /w/ and possibly /j/ are less vocalic than /i/ and /u/ because they have a greater constriction degree than corresponding vowels (Nevins & Chitoran, 2008). Others capitalize on different features, like the absence of a stable acoustic or articulatory target position, but this is more controversial (see Maddieson, 2008). Proponents of the second (structural) view assume that the difference with vowels is not due to a different feature value of glides but to a different timing relationship between their constituting gestures with the ones of the syllabic nuclei (Gick, 2003). This is a process that can be modelled in the gestural theory of speech production (Goldstein et al., 2003): glides are said to be composed of two types of gestures, C-gestures (consonantal in nature) and V-gestures (vocalic in nature), which are phased with respect to each other in fixed, language specific patterns, and the phase degree depends also on the syllabic position. In English, C-gesture of the initial allophones (of glides), is greater in magnitude than C-gesture in final allophones, and it temporally precedes the V-gesture, whereas in final allophones, C-and V-gestures are closely together. Ambisyllabic allophones behave someway in between initial and final allophones. In other words, final allophones are more vowel-like and initial allophones are more consonant-like (Gick, 2003).

Phonetically, glides have mostly been studied by means of acoustic analysis, which does not provide clear information on the actual gestural configurations of their production. Movement studies so far are rare, and for Italian there is only one preliminary articulatory study conducted by means of the Reading EPG system (Calamai & Bertinetto, 2006). However, due to limitations in the number of electrodes that are contacted by the tongue during glide productions and a relatively low sampling frequency (100 Hz), EPG is not particularly suited for studying articulatory behaviours in glides. In addition, EPG does not indicate which part of the tongue contacts the palate. In contrast, 3D articulography (EMA) provides access to kinematic data with a higher sampling rate (200 Hz) and a superior spatial resolution making it a better tool for this particular type of research (van Lieshout, Merrick, Goldstein, 2008).

Although in our experiment we studied both Italian glides [j] and [w], we will present here only preliminary results regarding the labiovelar glide [w]. Our experiment started from the assumption put forward by Gick (2003), that [w] has two designated articulatory features, i.e. [dorsal] and [labial], and they are different in nature (dorsal gesture is considered vocalic and labial gesture is consonantal). In terms of EMA measurements, the articulators involved for [w] are upper and lower lip (C-gestures) and Tongue Dorsum (V-gesture). We will verify if the vocalic or consonantal nature of the glide as a function of a different syllabic context (see table below) will depend on the timing or phasing relationships between the C- and V- gestures, on the magnitude of the C-gesture, or on both.

We used an EMA 3D system at the Oral Dynamics Lab (ODL), University of Toronto, where we recorded 10 young adults, fluent speakers of Italian as first language (8 f and 2 m, average age 32 years), but only data from 3 subjects will be presented here, chosen for the completeness of their data and the clarity of their pronunciation. We studied, using articulatory (EMA) as well as acoustic (PRAAT) measures, segmental series like the following:

segments changing

syllabic status

contextual

vowels

hiatus (V.V)

onglide (GV)

unambiguous VG at word boundary

ambiguous VG/GV at word boundary (due to resyllabification)

offglide (VG)

hiatus (V.V)

u/w a tua /’tu.a/

attuale /at.’twa.le/

ma # uadi

/’ma ‘wa.di/

babau # alto

/ba.’baʦwʦ’al.to/

auto /aw.to/

baule

/ba.’u.le/

These phonetic sequences all form legal words and legal phrases in Italian. They are characterized by the same stress pattern (always tonic), and even the new sequences resulting from resyllabification at word boundaries represent legal phonotactic sequences in Italian. In order to favour resyllabification, two rates of delivery were requested from the experimental subjects: at their normal, comfortable or habitual rate, subjects were expected to produce a glottal stop /?/ between the vowel ending the previous word and the vowel beginning the following word, while at the high speech rate (sustainable without errors), subjects were expected to perform resyllabification. All words and phrases were inserted in the carrier phrase “dico x chiaramente” (I say x clearly). In addition, we asked subjects to pronounce in isolation all the vowels that were used in these words, again embedded in the same carrier phrase. All the sequences were presented in random order to the participants on a computer screen and each item was repeated 6 times over the entire session. Prior to starting the task, participants were asked to complete a short questionnaire about general demographic data and their first and (if applicable) second language(s).

By adapting a set of measures from INTERFACE (Tisato et al., 2005), we performed some preliminary kinematic analyses, by selecting Lip Aperture (i.e. the vertical difference between Upper and Lower Lip), Tongue Dorsum (=Back) horizontal, and a combined measure (similar to lips) for the vertical movement of Tongue Dorsum (i.e. the distance between nose coil and tongue dorsum coil). We look for any difference between the phasing of the minimal Lip Aperture and maximal backing of Tongue Dorsum for [w] on-glides and off-glides, in the normal as well as in the fast productions. We expect to find significant differences at normal rate between on-glide and off-glide /w/ gestures, based on the timing or phasing relationships between the C- and the V- gestures constituting the glide. Specifically, off-glides compared to on-glide are expected to show a reduction in magnitude of the C-gesture and a relative temporal lag of the C-gesture with respect to the V-gesture, together with more lag variability, due to the greater instability of the VC phasing with respect to CV phasing. Non-ambiguous V.GV at word boundary and ambiguous VG/GV at word boundary (due to resyllabification) are expected to differentiate only at fast rate, when ambiguous VG/GV at word boundary could undertake resyllabification, by creating a new and more stable GV syllable.

From the temporal position of the two kinematic peaks for [w] (i.e. the two valleys for maximal labial and tongue backing - horizontal - constrictions) with respect to the vowel nucleus, it seems that, as in English, the “vocalic” gesture of the glide (performed by the tongue dorsum) is always closer to the vowel nucleus than the “consonantal” gesture (performed by the lips). In other words, final allophones (of glides), compared to initial ones, show a temporal lag of the C-gesture with respect to the V-gesture (for initial allophones the sequence is reversed), with ambisyllabic allophones (or segments candidates to resyllabification) behaving in between. Further analyses will be presented at the conference will regard the variations in magnitude of the C-gesture according to the position of the glide with respect to the vowel (on- or off-).

References:

Bertinetto, P.M.& Loporcaro, M. (2005), "The sound pattern of Standard Italian, as compared with the varieties spoken in Florence, Milan and Rome", Journal of the International Phonetic Association, 35, 131-151.

Calamai S. & Bertinetto P. M. (2006), Per uno studio articolatorio dei legamenti palatale, labio-velare e labio-palatale dell’italiano, in V. Giordani, V. Bruseghini, P. Cosi (a cura di), Atti del III Convegno Nazionale dell’Associazione Italiana di Scienze della Voce (AISV), Trento, 29-30/11-1/12/2006, EDK Editore srl, Torriana (RN), 2006, 43-56.

Chitoran & Nevins (2008), Introduction, Lingua, 118, 1900-1905.

Gick B. (2003), Articulatory correlates of ambisillabicity in English glides and liquids, in J. Local, R. Ogden & R. Temple, Phonetic interpretation. Papers in Laboratory Phonology VI, Cambridge University Press, Cambridge (UK), 222-236.

Gili Fivela B. & Bertinetto P.M. (1999), Incontri vocalici tra prefisso e radice (iato o dittongo?), Archivio Glottologico Italiano, vol. LXXXIV, 2, 129-172.

Maddieson I., (2008), Glides and germination, Lingua, 118, 1926-1936

Marotta G. (1988), The Italian dipthongs and the autosegmental framework”, in P.M. Bertinetto & M.Loporcaro (Eds.), Certamen Phonologicum, I°, Torino: Rosenberg & Sellier, 389-420.

Nespor M. (1993), Fonologia, Bologna: Il Mulino

Schmid S. (1999), Fonetica e Fonologia dell’Italiano, Paravia: Torino.

Tisato G., Cosi P., Drioli C., Tesser F. (2005), “InterFace: New Tool for Building Emotive/Expressive Talking Heads”, Proc. of INTERSPEECH 2005, Lisbon, Portugal, 2005, pp. 781-784. http://www2.pd.istc.cnr.it/INTERFACE/

van Lieshout P.H.H.M., Merrick G, Goldstein L. (2008), An articulatory phonology perspective on rhotic articulation problems: A descriptive case study, Asia Pacific Journal of Speech, Language, and Hearing 11 (4): 283-303.

Sulla costituenza prosodica: prominenze metriche frasali senza prominenza intonativa

G. Bocci*, C. Avesani^

*Università di Siena; ^Istituto di Scienze e Tecnologie della Cognizione (ISTC), C.N.R. di Padova

INTRODUZIONE

In inglese, il materiale informativamente “dato” richiede di essere privo di prominenze prosodiche intonative e metriche al di sopra di parola (ad es. Bolinger 1968, Ladd 1996, German et al. 2004) . La definizione formale di Givenness (Scharzschild 1999) ha portato alla formulazione del requisito di destress/deaccent Given (Féry & Samek-Lodovici 2004): il materiale given deve essere prosodicamente non prominente. L’assenza di prominenze metriche e intonative sul materiale all’interno del dominio del focus è stato analizzato come un effetto di tale requisito (v. Selkirk 2007). Un’eccezione è costituita dai casi di focus annidati. Beaver et. al. (2007) hanno mostrato, infatti, che un focus annidato all’interno del dominio di un altro focus è portatore di una speciale prominenza metrica, caratterizzata da un aumento della durata e dell’intensità sulla tonica, a cui solo opzionalmente può associarsi un accento compresso.

Sebbene un meccanismo di destress/deaccent Given analogo a quello dell’inglese non sia attestato in Italiano (v. Swerts et al. 2002), nella letteratura sull’interfaccia sintassi-prosodia nelle lingue romanze è stato proposto che il materiale postfocale, in quanto anaforico, sia invisibile prosodicamente ed escluso dall’assegnazione delle prominenze (v. Vallduví 1992, Szendröi 2001). Tuttavia, la ricerca sperimentale ha mostrato che in molte varietà romanze gli elementi postfocali non sono privi di prominenze, ma associati ad accenti compressi (v. Frota 2000, D’Imperio 2000, Grice et al. 2005). Anche per la varietà di italiano parlata a Siena, dove il contorno postfocale appare sistematicamente basso e piatto, è stato proposto che il materiale postfocale non sia extraprosodico, ma portatore di prominenze metriche associate con un accento L* (Bocci in corso di pubblicazione).

ESPERIMENTO

Se la presenza di prominenze compresse ha mostrato che i costituenti postfocali in italiano non possono essere extraprosodici, rimane da stabilire quale sia la loro rappresentazione metrica. In questo lavoro, intendiamo chiarire: i) se il materiale postfocale è scandito prosodicamente, a differenza di quanto proposto da Selkirk (2007) per l’inglese; ii) se riceve prominenze metriche frasali; iii) se l’assegnazione delle prominenze in tali contesti dipende esclusivamente da proprietà semantiche come nel caso dei focus annidati in inglese o se segue da requisiti generali di buona formazione prosodica (v. Selkirk 1995).

Per rispondere a queste domande, abbiamo condotto un esperimento di produzione. 7 parlanti di area senese e fiorentina hanno letto 24 brevi sceneggiature (x 5 ripetizioni) in cui le condizioni sintattiche e semantico-pragmatiche erano state controllate. Le condizioni delle frasi target sono esemplificate nella Tab. 1. In A1, la frase è in focus ampio (FA), mentre l’ultima parola è un focus ristretto di nuova informazione (FI) in A2 e contrastivo (FC) in A3. In B1, la prima parola è in FC e ciò che segue è parte del background e given. Nelle condizioni C, la prima parola è in FC come in B1, mentre l’ultima parola è un topic a destra.

1 [Ermanno vorrebb invita Romana]FA

2 Ermanno vorrebb invita [Romana]FI A

3 Ermanno vorrebb invita [Romana]F

B 1 [Ermanno]FC vorrebb invita Romana

1 [Ermanno]FC la invita [Romana]TC

2 [Gli vorrebb invita [Romana]T

Tabella 1 Condizioni sintattiche e semantico-pragmatiche

Nelle condizioni A, l’infinito si trova all’interno del costituente focalizzato in A1, o, come in A2 e A3, all’interno della proiezione del focus (indipendentemente verificata). In A, come atteso, l’infinito risulta scandito assieme all’oggetto e non costituisce una testa metrica di costituente prosodico. Ai fini delle analisi, abbiamo considerato solo i casi in A in cui all’infinito fosse associato un accento prenucleare. Nelle condizioni B e C, ciò che segue il focus è caratterizzato da un analogo contorno basso e piatto. In B, ipotizziamo che l’infinito formi con l’oggetto un costituente prosodico la cui testa è assegnata a quest’ultimo, come in A. In C, ci aspettiamo che se la scansione prosodica non è sospesa in contesto postfocale, l’ultima parola formi, in quanto topic, un Sintagma Intonativo separato dal resto del background. Se questo avviene, ci aspettiamo che l’infinito subisca un processo di allungamento finale. Inoltre, se le prominenze metriche frasali sono assegnate anche in contesto postfocale, ci aspettiamo che l’infinito in B diventi testa del costituente prosodico costituito dal verbo flesso e dall’infinito, che altrimenti rimarrebbe enclitico. Se l’infinito in C è portatore di prominenza metrica frasale, ipotizziamo che sia caratterizzato da un aumento nella durata della sillaba e

della vocale tonica; da traiettorie formantiche più estreme (v. Avesani et al. 2007) e da fenomeni di enfasi spettrale (v. Sluijter et al. 1995, Heldner 2003).

Le frasi target sono state trascritte in ToBI e l’infinito (“invitare” in tutte le condizioni) è stato segmentato a livello di fonema. Di questa parola sono state misurate, inoltre, le durate della sillaba e della vocale finale e le durate della sillaba e della vocale tonica. Della vocale tonica sono state misurate anche una serie proprietà acustiche riguardanti f0, le traiettorie di F1 e F2, l’intensità globale, e diverse misure di enfasi spettrale, quali lo spectral tilt calcolato come la differenza in dB tra la 1° armonica e la componente più forte in F2 (H1-A2) e lo spectral balance, definito come la differenza di intensità tra la banda B1 (0-500 Hz) e B3 (1-2 kHz).

Al momento sono stati analizzati i dati di 2 soggetti, mentre l’analisi dei restanti dati è ancora in corso. I risultati parziali confermano pienamente tutte le ipotesi formulate. Per quanto riguarda le proprietà di f0 su “invitare”, C e B non si distinguono mai, e solo A differisce. Al contrario, riguardo alle proprietà acustiche collegate alla prominenza metrica, solo C si distingue. In C, infatti, l’infinito subisce un significativo processo di allungamento al confine, mentre la vocale tonica risulta più lunga (v. Fig. 1), le sue traiettorie formantiche sono più estreme (v. Fig. 2 per F1) ed è soggetta ad enfasi spettrale (v. Fig. 3). “Invitare” in C, sebbene given e privo di prominenza intonativa visibile, risulta, in quanto testa metrica, più prominente metricamente che in A, dove è accentato e interpretato all’interno della proiezione di focus.

Alla luce dei risultati conclusivi, discuteremo lo statuto metrico dei costituenti postfocali, le implicazioni per il sistema prosodico dell’italiano e l’interfaccia sintassi-fonologia. Se i risultati parziali saranno confermati, potremo concludere che il materiale postfocale non è in alcun modo extrametrico e che le prominenze metriche frasali, a differenza di quanto osservato per l’inglese, sono assegnate per effetto di requisiti di buona formazione prosodica anche a materiale given e anaforico. In questo senso, l’assegnazione di prominenza risulterebbe mediata dal sistema fonologico e non direttamente correlata alla salienza pragmatica.

Bibliografia:

AVESANI, C., Vayra, M., and Zmarich, C. 2007. On the articulatory bases of prominence in Italian. Proceedings of the XVIth International Congress of Phonetic. Saarbrucken.

BEAVER, D., Clark, B., Jaeger, T. F., e Wolters, M. 2007. When semantics meets phonetics : Acoustical studies of second-occurrence focus. Language, 83:245-276.

BOCCI, G. in corso di pubblicazione The syntax-prosody interface from a cartographic perspective: evidence from Italian. Amsterdam, Philadelphia: John Benjamins.

BOLINGER, D.L. 1972. Accent Is Predictable (If You're a Mind-Reader). Language, 48:633-644.

D'IMPERIO, M. P. 2000. The role of perception in tonal targets and their alignment, PhD. Dissertation, Ohio State University.

FÉRY, C., e Samek-Lodovici, V. 2006. Focus Projection and Prosodic Prominence in Nested Foci. Language, 82.

FROTA, S. 2000. Prosody and focus in European Portuguese : phonological phrasing and intonation: Outstanding dissertations in linguistics. New York ; London: Garland Pub.

GERMAN, J., Pierrehumbert, J., and Kaufmann, S. 2006. Evidence for phonological constraints on nuclear accent placement. Language, 82:151-168.

GRICE, M., D'Imperio, M. P., Savino, M., and Avesani, C. 2005. Towards a strategy for ToBI labelling varieties of Italian. In Prosodic Typology: The Phonology of Intonation and Phrasing, ed. S.-A. Jun. New York: Oxford University Press.

HELDNER, M. 2003. On the reliability of overall intensity and spectral emphasis as acoustic correlates of focal accents in Swedish. Journal of Phonetics, 31(1):39-62.

LADD, D. R. 1996. Intonational Phonology. Cambridge: Cambridge University Press.

SCHWARZSCHILD, R. 1999. Giveness, Avoid-F and other constraints on the placement of accent. Natural Language Semantics, 7:141-177.

SELKIRK, E. 1995. Sentence Prosody: Intonation, Stress and Phrasing. In The Handbook of Phonological Theory, a cura di A. Goldsmith, 550-569. Cambridge, Mass.: Blackwell.

SELKIRK, E. 2007. Contrastive focus, givenness and phrase stress. Ms. University of Massachusetts.

SLUIJTER, A. M. C., e van Heuven, V. J. 1995. Effects of focus distribution, pitch accent and lexical stress on the temporal organization of syllables in Dutch. Phonetica, 52, 71–89.

SWERTS, M., Krahmer E. e Avesani C, 2002. Prosodic marking of information status in Dutch and Italian: a comparative analysis. Journal of Phonetics, 30(4):629-654.

SZENDRÖI, K. 2001. Focus and the Syntax-Phonology Interface. Ph.D. Dissertation, University College London.

VALLDUVÍ , E. 1992. The Informational Component. New York: Garland.

Troncamento e intonazione dei vocativi in Italia centromeridionale

M. M. Vanrell*^, T. Cabrè^

*Universitat Pompeu Fabra; ^Universitat Autonoma de Barcelona

I vocativi di alcune lingue romanze come l’algherese, il corso, il sardo o i dialetti dell’Italia Meridionale possono sperimentare un processo di troncamento (v. alcuni esempi in (1)), in cui sia la sequenza eliminata che quella conservata possono presentare lunghezze diverse. Alcuni esempi tratti dall’algherese sono: [Cá][ rmine], [Marí][a], [Pasqualí][no].

(1)

Dati di Pittau (1952) sul sardo:

Préddu (nome proprio) > Pre’ Mariánzela (nome proprio) > Maria’

Tzú, -a (zio/a) > tzi’ María (nome proprio) > Mari’

Dati di Floricic (2002) sul corso:

Babbu (babbo) > O Ba’ Nipoti (nipote)> O Nipó

Fiddolu (figlioccio) > O Fiddó Frateddu (fratello) > O Fraté

Dati di Alber (2009) sulle varietà meridionali di italiano:

Bárbara > Bá Salvatóre > Salvató

Carméla > Carmé Antonélla > Antoné

Il troncamento nei vocativi è definito sulla base di due posizioni prominenti: la sillaba iniziale e la sillaba accentata (Beckman 1998). Secondo Alber (2009), i vocativi troncati mantengono la catena che va dal primo segmento alla vocale accentata. Il materiale cancellato è atono e, quindi, non prominente dal punto di vista psicolinguistico (Beckman 1998). Questo fenomeno non è proprio solo dei vocativi, ma si ha anche negli imperativi come quelli illustrati in (2) per l’algherese, l’italiano meridionale e il sardo.

(2)

Esempi ottenuti da comunicazioni personali di Luca Scala e Filippo Melis:

Algherese Italiano parlato in Sardegna

Sardo

escólta (ascolta) > escó fái > fá nára (di) > ná

míra (guarda)> mí vái > vá trúbba (spicciati)> trú

dóna (dai) > dó stái > stá míra (guarda) > mí

Gli imperativi ed i vocativi hanno una funzione pragmatica simile e possono presentare un’affissazione flessiva minima, tendenza generale comune a varie lingue indoeuropee. Nelle lingue flessive, quindi, esiste una tendenza diffusa a presentare forme ridotte fino la radice sia nei vocativi che nell’imperativo (Palmer 1955) (v. (2)). A nostro parere, tale mancanza di flessione è compensata dalla presenza di contorni intonativi specifici che esprimono la forza illocutiva [sebbene nelle lingue come l’algherese, il corso, il sardo o di dialetti italiani del sud, la forza vocativa si possa manifestare anche per mezzo della particella o (v. alcuni dati a (1))].

È proprio lo stretto rapporto fra morfologia e intonazione nei vocativi che motiva la nostra ricerca, i cui obiettivi sono: 1) determinare i limiti segmentali del processo di apocope dei vocativi in algherese, sardo logudorese e nel dialetto salentino e 2) studiare i diversi schemi intonativi dei vocativi a seconda del loro grado d’insistenza. Con questo

Dati di Kuen (1932) e Prieto e Cabré (2008) sul catalano di Alghero: Pàuru! (nome proprio) > Pa! Ròsa! ( nome proprio ) > Rò! Barbarína! ( nome proprio ) > Barbarí! Tarésa! ( nome proprio ) > Taré!

Antòni! ( nome proprio ) > Antò! Ríta! ( nome proprio ) > Arrí!

Fabio! ( nome proprio ) > o Fà! Juàn! ( nome proprio ) > o Juà!

obiettivo abbiamo raccolto dati dell’algherese, del sardo logudorese e del dialetto salentino (varietà centromeridionale e varietà della Grecìa Salentina) per mezzo del questionario usato da Prieto e Cabré (2008). Secondo tale questionario, i parlanti devono immedesimarsi in diverse situazioni e produrre frasi coerenti con lo stimolo. In particolare, i parlanti devono immaginare di entrare in casa di un amico/parente e, non riuscendo a vederlo, lo devono chiamare dalla porta d’ingresso. Trascorsi 10 secondi senza ricevere risposta, devono immaginare che sia in giardino e chiamarlo nuovamente. Con tale metodo sono stati ottenuti 467 vocativi (316 per l’algherese, 111 per il sardo logudorese, 40 per il salentino). I vocativi in questione sono stati trascritti ortograficamente, foneticamente e prosodicamente secondo il sistema ToBI (Prieto et al. 2010 per il catalano e, per le altre lingue oggetto del presente studio, è stato adottato un sistema provvisorio d’annotazione ToBI).

Le conclusioni della ricerca sono le seguenti:

6. L’unico schema intonativo comune a tutte quattro le lingue è il calling contour o vocative chant( L+H* M% in ToBI). Sono stati individuati anche altri schemi intonativi, caratteristici di una o più varietà linguistiche, ma non di tutte.

7. Entrambe le varietà di salentino usano gli stessi schemi intonativi, sebbene nella varietà della Grecìa Salentina non si abbia apocope.

8. Il processo di troncamento si ha in algherese, in sardo logudorese e in salentino centromeridionale, ma non nella Grecìa salentina. La nostra ipotesi è, quindi, che tale mancanza di troncamento sia dovuta all’influenza del griko.

9. In algherese e in sardo logudorese, l’apocope può comportare uno spostamento dell’accento tonale dalla sillaba tonica alla prima sillaba del nome nei vocativi d’insistenza. Tale fenomeno è, invece, poco frequente in salentino.

In definitiva, il troncamento delimitato dalla sillaba iniziale e dalla sillaba accentata si ha in tutte le varietà oggetto del presente studio ad eccezione di quella parlata nella Grecìa Salentina. Per quanto riguarda gli schemi intonativi, algherese e sardo logudorese da una parte e salentino centromeridionale e della Grecìa Salentina dall’altra hanno possibilità simili di configurazioni nucleari. Nel nostro intervento, presenteremo i risultati dell’analisi quantitativa e qualitativa dei dati raccolti e, inoltre, una riflessione sull’interazione tra la forma vocativa ottenuta dal processo di apocope e i diversi schemi intonativi che possono assumere.

Bibliografia:

Alber, B. 2010. An Exploration of Truncation in Italian. Rutgers Working Papers in Linguistics.

Beckman, J. 1997. Positional Faithfulness. Doctoral dissertation, University of Massachusetts,.

Cabré, T. i Vanrell, M.M. 2008. “Accent i entonació en els vocatius de l’alguerès”. XXXV Col·loqui de la Societat d’Onomàstica, Sala del Consell Comunal, l’Alguer (Sardenya), 10-11 de maig de 2008.

Floricic, F. 2002. Le Vocatif et la périphérie du système des cas: exemples tirés des domaines roman et slave.

Palmer, L.R. 1955. Introducción al latín, Barcelona: Ariel, 1988.

Prieto, P; Aguilar, L.; Mascaró, I.; Torres, F.J.; Vanrell, M.M. 2009. “L'etiquetatge prosòdic Cat_ToBI ”Estudios de Fonética Experimental, vol. XVIII. 287-309. ISSN 1575-5533.

Prieto, P. i Cabré, T. (coords.). 2008. Atles interactiu de l'entonació del català. Lloc web: http://prosodia.upf.edu/atlesentonacio/

Verso una ridefinizione dei confini linguistici dialettali: uno studio fonetico-fonologico in alcuni centri della Calabria

L. Romito, M. Renzelli, A. Tarasi, A. Talarico

Università della Calabria

Le partizioni linguistiche di un territorio rappresentano il punto di partenza per ogni descrizione dei sistemi linguistici. L’introduzione in dialettologia del concetto di isoglossa (cfr. Merlo 1933) si fonda sulla individuazione di confini, sulla presenza o assenza di fenomeni linguistici definiti e usati come caratterizzanti. Oggi questo concetto costituisce l’oggetto di un forte dibattito teorico. Infatti pur continuando ad essere utile la ricerca di tratti comuni atti a identificare zone di omogeneità linguistica, non possono essere ignorate le obiezioni che mettono in luce la non conformità di alcuni aspetti, spesso anche molto rilevanti, che dimostrano che la diffusione di alcuni fenomeni linguistici può, contemporaneamente, creare zone omogenee (cfr. il corridoio linguistico Trumper 1997) e altre in cui uno stesso fenomeno segue dei percorsi differenti e la cui determinazione e spiegazione è molto diversa (eventi catastrofici naturali quali terremoti o maremoti cfr Trumper et al. 2000). Ciò porta inevitabilmente a dei quadri molto disomogenei (relativamente alla presenza di un particolare fenomeno) e ad una grandissima variabilità.

La letteratura dialettologica degli ultimi decenni ha rivolto particolare attenzione a territori fortemente ricchi e variegati e a ciò devono essere aggiunti studi di sociolinguistica sulla lingua parlata da emigrati interni e immigrati europei o extraeuropei dove spesso la L2 è costituita proprio da un dialetto.

Tra i primi studi dialettologici aventi come oggetto il territorio calabrese vi fu quello di Lausberg (1939); mentre la prima creazione di una mappa dialettale dei confini linguistici è stata oggetto di indagine negli anni ’70 negli studi di Gerhard Rohlfs in cui si tracciava un’area di confine che divideva la Calabria dialettale in una zona meridionale (o greca) ed una settentrionale (o latina) basandosi anche su aspetti sostratistici e su tutte le macrodifferenze che ne possono derivare da un punto di vista linguistico. Attraverso un’analisi sui differenti sistemi vocalici esistenti Falcone (1976) propose invece una tripartizione della Calabria.

La questione della identificazione di precise aree dialettali è stata affrontata, negli anni novanta, anche da Trumper il quale, analizzando diversi parametri quali ad esempio quelli fonologici (vocalismo sardo vs vocalismo siciliano, assimilazione del nesso di nasale + occlusiva sonora: mb>mm, nd>nn), morfologici (differenze nella morfologia verbale) e sintattici (realizzazione di strategie infinitivali) presenti in Calabria, ha individuato una ripartizione della regione in quattro parti.

Partendo dai risultati ottenuti negli studi sopracitati, il presente contributo si ripropone di fornire una nuova e aggiornata mappa linguistica volta ad una analisi acustica e ad una classificazione degli attuali confini linguistici calabresi. Si intende fare luce sulla fondatezza del concetto di isoglossa inteso fino ad ora dalla precedente letteratura dialettologica calabrese, verificando in particolar modo la sua attendibilità e verosimiglianza nell’epoca attuale. Ci si domanda quindi se sono ancora realmente esistenti ed attuali i confini linguistici netti o se dovrà essere necessario tracciarne di nuovi, osservando eventuali cambiamenti rispetto ai dati forniti dalle ricerche passate e con essi le dinamiche linguistiche di isoglosse in una stessa regione e in uno spazio temporale di circa 40 anni.

Negli ultimi anni è infatti sempre più diffuso il fenomeno del contatto linguistico, ovvero un contatto per periodi più o meno prolungati tra lingue, o varietà di esse, diverse che si succedono in quanto codici usati da differenti parlanti di una certa area geografica, più o meno estesa e più o meno omogenea.

L’odierna società è oramai fortemente globalizzata e per diverse esigenze si è spesso costretti a spostamenti attraverso i quali si entra in contatto con diversi sistemi linguistici. Alla luce di questa realtà ci si chiede dunque se sia ancora possibile individuare con esattezza precise isoglosse in un territorio già linguisticamente molto complesso (dialetti, italiano regionale, lingue minoritarie e lingue straniere) quale quello della Calabria.

La risposta a tale quesito ci sarà fornita da un’analisi linguistica al livello fonetico-fonologico di registrazioni di parlanti calabresi. È previsto uno studio diacronico in cui saranno comparate registrazioni del passato a partire dagli anni ‘60 presenti nell’archivio sonoro calabrese e registrazioni attuali, nonché uno studio sincronico dove si analizzeranno diversi parametri proprio nelle aree di confine linguistico.

Stressed vowel duration in Italian: what paroxytones and proparoxytones have in common

S. Canalis*, L. Garrapa*^

*Università di Padova; ^CRIL & Università del Salento

Introduction. The aim of this paper is twofold: first – on the phonetic side – it reports the results of an experiment on stressed vowel duration in Italian, examining its variation across paroxytones and proparoxytones. Second – on the phonological side – it provides a new account of the metrical structure of Italian words which is able to capture and explain our empirical results.

Data and problems. Vowel duration is not contrastive in Italian. Yet, stress position and syllable structure cause fairly remarkable durational differences. Stress position is restricted to one of the last three syllables of the word, and a consensus exists about several phonetic and phonological properties of final and penultimate stress: penultimate stressed vowels in open syllables are lengthened, whereas stress on the word-final vowel does not cause lengthening. Penultimate stress is the most common pattern (indeed, it is usually assumed to be the unmarked option), while final stress is the least frequent one.

On the contrary, various aspects of antepenultimate stress are debated, both from a phonetic and a phonological standpoint. Vowels in antepenultimate stressed open syllables are significantly longer than unstressed vowels and vowels in closed syllables, but there is no consensus as to whether (not to say why) penultimate and antepenultimate stressed vowels differ in duration, although the former have often been reported to be slightly longer than the latter. Some authors explain this as a word compression effect (e.g. Vayra et al. 1984, Marotta 1985, van der Veer 2006), but D’Imperio & Rosenthall (1999) challenge this explanation (for example they observe that penultimate syllable duration stays the same when word length increases by adding syllables to the left of the word), and argue that vowel length is “phonological” in paroxytones (to form a bimoraic foot) and “phonetic” in proparoxytones (the result of stressing the head of a disyllabic foot; cf. also Kramer 2009). As for the metrical representation to adopt for proparoxytones, other authors assume that their final syllable is extrametrical (den Os & Kager 1986), or use ternary feet (Nespor 1993). The facts are further complicated by a tendency to shift stress position from the penultimate to the antepenultimate (1): this phenomenon is at odds with the above-mentioned unmarked status of penultimate stress, and furthermore it is unclear why it is mainly restricted to trisyllables. This tendency even gives rise to some alternations: for a small number of paroxytonic disyllabic words, the addition of a prefix causes stress shift (2), although prefixes never have lexical stress in Italian.

Experiment and results. A test was conducted to measure durational differences between paroxytones and proparoxytones. Five Italian speakers produced a set of paroxytones and proparoxytones within a carrier sentence; each paroxytone was identical to the first two syllables of a proparoxytone (e.g. créde [ʦkreʦde] ‘(s/he)believes’ / crédere [ʦkreʦdere] ‘to believe’). Duration of tonic and post-tonic vowels was measured. At first sight, the results seem to be somewhat inconclusive with regard to the existence of durational differences between paroxytones and proparoxytones: for 2 speakers the stressed vowel is longer in paroxytones than in proparoxytones (p < 0.05, paired samples t-test), but the other 3 speakers show no statistically significant differences. However, a much more uniform behaviouR emerges if relative duration (calculated as the ratio between the duration of the stressed vowel and that of its following vowel) rather than absolute duration is measured: for each speaker’s paroxytone and proparoxytone mean ratios, their difference is never statistically significant. The data also show that in proparoxytones the final vowel is significantly longer than the penultimate.

Analysis and proposal. Stress, even more than other phonological categories, is not an absolute property, but a relative one: a vowel is not ‘long’ or ‘short’ in itself, but only with respect to its neighbouring vowels. If relative values are taken into account, as we propose, a systematic pattern is found which allows to unify vowel duration of antepenultimate and penultimate stressed vowels: albeit stressed vowel in proparoxytones may (but don’t have to) be shorter than in paroxytones, their partial shortening is regularly counterbalanced by a proportional shortening of the following vowel.

Given this symmetry between paroxytones and proparoxytones, and the significant durational difference between the penultimate and final vowels of proparoxytones, a metrical representation which adopts the syllabic trochee for both, and a final degenerate foot for proparoxytones seems to be the most suited to account for our experimental findings (e.g. créde as (σH σ), crédere as (σH σ)(σJ); the degenerate foot is independently motivated in Italian by the presence of stressed monosyllables). This solution in its turn can explain the otherwise puzzling tendency to stress trisyllables on the first syllable, in spite of penultimate stress being the least marked option in the rest of the lexicon: although it creates a degenerate foot, antepenultimate stress allows to parse all syllables of a trisyllable into feet (in OT terms, PARSE is ranked above FOOT-BINARITY ).

References:

D’Imperio, Mariapaola & Sam Rosenthall. 1999. ‘Phonetics and phonology of Italian main stress’. Phonology 16: 1-28.

Kramer, Martin. 2009. The Phonology of Italian. Cambridge, Cambridge University Press.

Marotta, Giovanna. 1985. Modelli e misure ritmiche. La durata vocalica in italiano. Bologna, Zanichelli.

Nespor, Marina. 1993. Fonologia. Bologna, Il Mulino.

den Os, Els & Rene Kager. 1986. ‘Extrametricality and stress in Spanish and Italian’. Lingua 69: 23-48.

Vayra, Mario, Cinzia Avesani & Carol Fowler. 1984. ‘Patterns of temporal compression in spoken Italian’. In M. van den Broecke, A. Cohen (eds), Proceedings of the X International Congress of Phonetic Sciences. Dordrecht, Foris: 540-546.

van der Veer, Bart. 2006. The Italian ‘mobile diphthongs’: A test case for experimental phonetics and phonological theory. Utrecht, LOT.

Examples

(1) stress position in standard Italian common non-standard pronunciation

edíle édile ‘building’ (attr.)

rubríca rúbrica ‘address book’

obéso óbeso ‘obese’

cadúco cáduco ‘transient’

carísma cárisma ‘charisma’

(2) fído ‘trustworthy’ ínfido ‘untrustworthy’

pári ‘even’ díspari ‘odd’

próbo ‘honest, rightful’ ímprobo ‘dishonest, immoral’

Prominenze accentuali di frasi italiane nella percezione di un gruppo di studenti universitari

A.Romano*, P. Mairano*^ *LFSAG – Laboratorio di Fonetica Sperimentale “Arturo Genre” - Università degli Studi di Torino;

^GIPSA-Lab – Université Stendhal, Grenoble 3 (Francia)

SOMMARIO

La percezione dell’accento italiano da parte di uditori italofoni è già stata approfonditamente indagata in dipendenza dalle condizioni acustiche di realizzazione degli accenti all’interno di frase (Bertinetto 1980, Farnetani & Kori 1982). Non sono mancati tuttavia, in anni recenti, lavori orientati all’esplorazione di nuove condizioni (Gili Fivela 2004, Boula de Mareüil et alii 2004, Alfano et alii 2007) associati a una rinnovata attenzione agli aspetti uditivi del parlato nella manualistica internazionale (cfr. Rookes & Willson 2000, Pisoni & Remez 2005) e in interessanti contributi che hanno individuato nella percezione della prosodia un terreno di lavoro ancora molto promettente (Albano Leoni 2001, Romano 2005, Marotta in c. di p.).

Nell’ambito di una ricerca sulla caratterizzazione ritmico-prosodica delle lingue, abbiamo condotto alcuni esperimenti di percezione su un campione di frasi italiane sui quali erano state svolte alcune verifiche acustiche preliminari.

I risultati qui descritti rappresentano solo quelli relativi alla prima sezione di una batteria di test miranti a valutare la corrispondenza tra proprietà ritmico-accentuali di brani di parlato in lingue diverse e capacità discriminatorie sull’asse della distinzione tra lingue iso-accentuali e lingue iso-sillabiche (sul modello di quelli condotti in altre ricerche, cfr. il recente lavoro di Arvaniti & Ross 2010) da parte di soggetti senza conoscenze linguistiche esplicite su questi temi. Il test è stato eseguito da 40 uditori, tutti studenti universitari di facoltà umanistiche, sulla base dell’ascolto, in condizioni di laboratorio e in completa autonomia, di 5 frasi italiane prodotte da uno speaker professionista e basate su testi provenienti da annunci giornalistici di tipo scientifico o, in un caso, da una domanda di contenuti più colloquiali.

Le frasi presentavano un numero di sillabe compreso tra 26 e 34 ed erano caratterizzate da un numero variabile di prominenze accentuali in parte discordanti da quelle attese sulla base di una preliminare analisi prosodica di tipo metrico (cfr. Liberman & Prince 1977, Halle & Vergnaud 1987)1.

Fig. 1. Esempio di attribuzione delle prominenze alle diverse sillabe della frase “Gli affreschi dell'antica parrocchiale di San Marco sono ora al museo Borgogna di Vercelli.” offerta come esempio da seguire nello svolgimento

del compito e riproposta in alto nelle diverse schermate visualizzate in successione per ciascuna frase.

L’ascolto dei file sonori era amministrato da un’interfaccia A/V predisposta su PC mediante uno script HTML/Java che offriva condizioni grafiche tali da permettere l’attribuzione di uno o due pesi a ciascuna delle sillabe della frase disposte in sequenza lineare (v. Fig. 1).

Nelle modalità con cui è stato condotto finora l’esperimento, non sono stati imposti limiti temporali ma erano previste possibilità di correzione multipla nelle scelte fatte sulla stessa frase solo prima del passaggio alla frase seguente; l’ascolto di ogni frase poteva inoltre essere ripetuto a piacimento fino al completamento del compito. Non

1 La scansione prosodica attesa avrebbe infatti dovuto condurre alla presenza di un solo accento di frase, di un numero di gruppi

accentuali variabile tra due e quattro e di un numero di accenti di parola attesi compreso tra 7 e 10. In particolare, facciamo notare come in quest’ambito, nonostante un’intensa teorizzazione, i cui riflessi sono ben visibili anche nella manualistica nazionale (cfr. Nespor 1993, De Dominicis 2003), non si sia ancora provveduto a spostare le valutazioni sul piano dell’interfaccia fonetico-fonologica e, in considerazione delle possibilità di osservazione strumentale, a condurre uno studio sugli indici acustici associati alla realizzazione di queste gerarchie di prominenza. Omettiamo qui il dettaglio delle griglie metriche predisposte, riportando soltanto il testo delle frasi che sono state oggetto delle valutazioni: 1. In diversi paesi africani, il tenore di vita si sta innalzando rapidamente. 2. L'uomo ha riconosciuto sin da tempi antichissimi l'importanza dell'acqua per la vita. 3. Allo stato solido è nota come ghiaccio, allo stato aeriforme è nota come vapore acqueo. 4. Sono note anche altre due forme solide, quella del ghiaccio vetroso e quella del solido amorfo. 5. Perché non proviamo a risolvere il problema insieme, invece di litigare?

sono stati misurati tempi di reazione né si è tenuto conto finora delle posizioni in cui più frequentemente sono avvenuti i ripensamenti.

Per ogni frase le istruzioni visualizzate erano: “Ascolta il campione sonoro (cliccando sull'altoparlante) e indica dove senti gli accenti; ti viene chiesto di segnare 2 tipi di accento: sul primo livello (in basso) devi segnare tutti gli accenti che senti, sul secondo livello (in alto) solo gli accenti più prominenti.”

Lo spoglio dei dati memorizzati durante il test, che includevano una parte anagrafica per discriminare i soggetti in base al loro livello di consapevolezza linguistica, ha incoraggiato a escludere provvisoriamente dalle valutazioni finali i risultati di cinque soggetti che non erano di lingua madre italiana e che potranno essere considerati, separatamente da questi, insieme a quelli di altri venti soggetti stranieri (cui è stato sottoposto il test in un’altra sede universitaria), che non sono stati finora spogliati e che saranno oggetto di un altro studio.

Per questo lavoro, quindi, soltanto le risposte di 35 soggetti sono state considerate.

Per ogni frase sono stati ricavate matrici cumulate che hanno permesso un trattamento quantitativo automatizzato e l’osservazione d’istogrammi con la somma complessiva dei pesi che ciascuna sillaba ha ricevuto (distinguendo le attribuzioni di peso 1 o 2), mentre per ogni soggetto è stato definito un punteggio in base alla corrispondenza con le attese (ridefinite in base all’enunciato reale prodotto dallo speaker, valutato da due fonetisti estranei).

Sommariamente, possiamo testimoniare che, nonostante l’impressione più o meno buona che i singoli test potevano dare – rivelando in molti casi notevoli distorsioni tra quanto previsto (e palesemente presente secondo alcuni) e quanto segnalato nelle risposte dei soggetti, talvolta anche in totale controtendenza rispetto al dato oggettivo – complessivamente i risultati sono buoni e confermano le attese. Ad es., per la prima frase del campione i risultati sono riassunti schematicamente in Fig. 2. Tutte le sillabe, tranne una, hanno ricevuto almeno un giudizio di prominenza (forte, in legenda “molto”, o debole, in legenda “poco”), anche in casi in cui la sillaba era assolutamente ridotta (e quindi assolutamente non prominente). Complessivamente però i risultati confermano una generale corrispondenza tra le sensazioni di prominenza e le attese (con punteggi individuali distribuiti tra il 25 e il 93%).

In particolare spiccano i giudizi di prominenza attribuiti alle posizioni interessate da accenti lessicali primari o secondari, con tendenza a lasciare affiorare un peso maggiore alle posizioni interessate dalla presenza di accenti di gruppo (t=2,85, ngl=30; 0,001<p< 0,01). Non così invece nel caso delle sillabe interessate da accento di frase, riconosciute anch’esse prominenti, ma con score in genere più bassi (in media 22, contro 25 della prominenza massima riconosciuta, coincidente di solito col primo accento di gruppo).

0

5

10

15

20

25

In di ver

si pa e si a fri

ca ni il te no re di vi ta si

sta in nal

zan do ra pi da

men te

.

molto

poco

Fig. 2. Istogramma dei giudizi di prominenza ricevuti da ciascuna sillaba della frase “L'uomo ha riconosciuto sin da tempi antichissimi l'importanza dell'acqua per la vita.”

Quanto alle sequenze di parametri acustici che sembrano maggiormente associate a questi giudizi, sembrerebbe che le durate giochino un ruolo importante (a conferma dei risultati dei numerosi studi citati in bibliografia), ma solo in associazione con le altre grandezze (in particolare f0), tranne che nel caso delle sillabe nucleari. In modo sperimentale è stata valutata la correlazione tra le sequenze di giudizi di prominenza e di valori di durata, f0 e intensità, mostrando come solo nel caso dei primi la correlazione si presenti mediamente positiva (seppur con valori generalmente bassi). I risultati individuali mostrano un indice di correlazione attorno a 10 nel caso delle migliori prestazioni e intorno a -4 nel caso delle peggiori. Il dato più interessante è tuttavia nel valore che l’indice assume nel confronto tra le sequenze di valori misurati e i dati della matrice complessiva, che si presenta nettamente superiore (tra 51,7 e 59): l’andamento della sequenza del cumulo dei giudizi tende a riprodurre quello dei valori effettivi della caratterizzazione acustica. Sembra quindi che solo la percezione generale di questi fenomeni rappresenti una riproduzione delle condizioni di realizzazione fonetica delle gerarchie teoriche, mentre il dato individuale, dimostrandosi naturalmente più tranchant (come peraltro richiesto dalle condizioni di test), sembra più soggetto al condizionamento delle attese (in base alle conoscenze

individuali) e tende a distribuirsi secondo previsioni di tipo essenzialmente fonologico (o, in alcuni casi, addirittura ortografico).

BIBLIOGRAFIA:

Albano Leoni F. (2001). Il ruolo dell’udito nella comunicazione linguistica. Il caso della prosodia. Rivista di Linguistica, 13, 45-68.

Alfano I., Llisterri J. & Savy R. (2007). The perception of Italian and Spanish lexical stress: A first cross-linguistic study. Proceedings of the 16th International Congress of Phonetic Sciences (Saarbrücken, 2007), 1793-1796.

Arvaniti A. & Ross T. (2010). “Rhythm classes and speech perception”. Proceedings of Speech Prosody 2010 (Chicago, maggio 2010), 100887: 1-4.

Bertinetto P.M. (1976). L'accento secondario nella fonologia italiana: analisi teorica e sperimentale. In Simone R. et al. (a cura di), Studi di Fonetica e Fonologia (Atti del Convegno Internazionale di Studi di Fonetica e Fonologia della SLI, Padova, 1973), Roma, Bulzoni, 189-235.

Bertinetto P.M. (1980). The perception of stress by Italian speakers. Journal of Phonetics, 8, 385-395.

Bertinetto P.M. (1981). Strutture prosodiche dell'italiano. Accademia della Crusca, Firenze.

Boula de Mareüil P., Marotta G. & Adda-Decker M. (2004). Contribution of prosody to the perception of Spanish/Italian accents. In B. Bel & I. Marlien (a cura di), Speech Prosody 2004 (Nara-Giappone, 2004), 681-684.

Cosi P. (1999). Auditory Modeling and Neural Networks. In G. Chollet et alii, A Course on Speech Processing, Recognition, and Artificial Neural Networks. Berlino, Springer.

De Dominicis A. (2003). Fonologia. Roma, Carocci.

Farnetani E. & Kori Sh. (1982). Lexical stress in spoken sentences: a study on duration and vowel formant pattern. Quaderni del Centro di Studio per le Ricerche di Fonetica del CNR, I, 106-133.

Felloni M.C. & Avesani D. (2010). La percezione della interrogativa globale nell'italiano regionale di Parma. Com. presentata al VI convegno AISV (Napoli, 2010), in c. di pubbl.

Garde P. (1968). L'accent. Paris, Presses Universitaires de France.

Gili Fivela B. (2004). La percezione degli accenti: il ruolo dell’allineamento e dello ‘scaling’ dei bersagli tonali. In P. Cosi (a cura di), Atti del I Convegno Nazionale AISV (Padova, 2004), Brescia, EDK Editore.

Halle M. & Vergnaud J.R. (1987). An Essay on Stress. Cambridge Mass., MIT Press.

Hayes B. (1995) Metrical Stress Theory. Principles and Cases Studies. Chicago, University of Chicago Press.

Klatt D.H. (1979). Speech perception. A model of acoustic phonetic analysis and lexical access. Journal of Phonetics, 7, 279-312.

Halle M. & Vergnaud J.R. (1987). Liberman M. & Prince A. (1977). On Stress and Linguistic Rhythm. Linguistic Inquiry, 8/2, 249-336.

McQueen J. & Cutler A. (1997). Cognitive processes in speech perception. In W.J. Hardcastle & J. Laver (a cura di), The Handbook of Phonetic Sciences, Oxford, Blackwell, 566-585.

Marotta G. (in c. di p.). “Aspetti percettivi dei tratti prosodici”. Materiali presentati al Convegno di Studi Catalani (Bologna, 2008) e ai 3i Phonetici Phonologici Dies (Bolzano, 2009).

Nespor M. (1993). Fonologia. Bologna, Il Mulino.

Peperkamp, S., Dupoux, E. & Sebastián-Gallés, N. (1999), Perception of stress by French, Spanish and bilingual subjects. Proceedings of Eurospeech '99 - 6th European Conference on Speech Communication and Technology (Budapest, 1999), 2683-2686.

Pisoni D.B. & Remez R.E. (a cura di) (2005). The Handbook of Speech Perception. Cambridge, Blackwell.

Romano A. (2005). Utilisation des données AMPER pour une description de la variation linguistique : tests de perception et contrôles statistiques. Géolinguistique, no. 3 hors série, 39-64.

Rookes P. & Willson J. (2000). La percezione. Bologna, il Mulino.

Studdert-Kennedy, M. (1976). “Speech perception”. In N.J. Lass (a cura di), Contemporary Issues in Experimental Phonetics, New York, Academic Press.

SESSIONE POSTER 1 27 Gennaio 2011

Il deficit visivo come competenza nella percezione linguistica: uno studio pilota

L. Romito, M. Renzelli

Università della Calabria

Come è noto, la comunicazione verbale tra due o più persone rappresenta un’interazione particolarmente complessa.

Erroneamente si potrebbe ritenere che l’intero atto linguistico preveda semplicemente un parlante che traduca in parole i propri pensieri ed un ascoltatore che, avvalendosi di un mero processo passivo, compia una decodifica acustica dei suoni emessi. In realtà i meccanismi che stanno alla base della comunicazione umana sono molto più complicati, al punto tale da non essere stati ancora del tutto compresi.

Già dagli anni ’90 (cfr. Lindblom) la linguistica e la psicologia hanno concentrato i propri studi sulla particolare importanza che riveste il ruolo dell’ascoltatore. Il processo percettivo può essere definito come processo attivo dove chi ascolta non si serve solo ed esclusivamente di informazioni interne al segnale (suoni emessi), ma anche di dati ad esso del tutto esterni quali ad esempio conoscenze ed aspettative dell’ascoltatore sulla lingua usata dal parlante e sull’ambiente e circostanze in cui si colloca il testo stesso ovvero contesto linguistico (o verbale) nel primo caso ed extra-linguistico (o situazionale) nel secondo (in questo caso quindi per contesto si intende una serie di dati a disposizione dell’ascoltatore e non invece l’articolata classificazione presente in Hymes 1967). Nella testa del parlante si trovano intenzioni, pensieri, sensazioni ecc., tutte entità in sé compiute che egli mette in appositi pacchetti che poi spedisce al destinatario. Quest’ultimo compie le stesse operazioni del mittente, ma questa volta nella direzione contraria.

Normalmente inoltre tutti gli ascoltatori “vedenti” nel corso delle conversazioni faccia a faccia traggono enormi vantaggi, per la percezione e la corretta interpretazione del parlato, dai cosiddetti tratti para-linguistici, ovvero gesti e movimenti del corpo, del capo e degli occhi, ai quali si affida parte del proprio intento comunicativo. Quello dell’ascoltatore è quindi un ruolo decisamente attivo, interpretativo e ricostruttivo.

All’interno di simili riflessioni si può ipotizzare che soggetti non vedenti, ovvero privi della possibilità di avvalersi di ogni elemento visivo nella percezione del parlato, abbiano quasi certamente sviluppato particolari sensibilità e capacità interpretativo-ricostruttive compensative, spendibili ad esempio nell’ambito delle trascrizioni forensi dove nella maggior parte dei casi l’attività di ascolto riserva molteplici problemi legati prevalentemente al segnale particolarmente degradato e coperto da fattori acustici di disturbo.

La cecità comporterebbe dunque un più alto livello di percezione linguistica data la grande fiducia che si ripone nel segnale sonoro. Quest’affermazione trova riscontro anche in recenti studi condotti nel campo delle neuroscienze sul tema della plasticità neuronale nei ciechi: una specifica area sensoriale del cervello umano è capace di adottare una nuova funzione, se privata del tutto o in buona parte del suo normale stimolo sensoriale (ad esempio in soggetti nati ciechi o che comunque lo sono diventati in giovanissima età le aree cerebrali visive risultano disponibili alla codificazione di stimoli provenienti da altri canali sensoriali, come ad esempio quello uditivo la cui analisi è ridondante e quindi maggiormente accurata (cfr. Rokem 2009).

Partendo dunque dall’ipotesi di una concreta competenza aggiuntiva nella percezione linguistica nei non vedenti, il lavoro che presentiamo si ripropone di verificare la validità di una simile affermazione attraverso due esperimenti percettivi di trascrizione di segnale sonoro. I campioni scelti sono costituiti da un gruppo di ascoltatori non vedenti ed un gruppo di controllo formato da studenti universitari normovedenti. Fanno parte del primo gruppo 10 soggetti ciechi di ambo i sessi ed in possesso di Laurea che hanno frequentato un corso sperimentale di formazione (primo in Italia) per perito fonico trascrittore in ambito forense per disabili visivi.

Le prove da somministrare (i campioni non hanno subito alcun precedente addestramento e non possiedono alcuna conoscenza pregressa dell’argomento, del materiale sonoro e dei parlanti che compaiono) sono le seguenti:

Esperimento 1: trascrizione di una batteria di 4 porzioni di segnale vocale registrato a difficoltà differenti e qualità differenti in un ambiente piccolo e parzialmente chiuso quale un’autovettura in movimento in cui ha luogo una conversazione tra amici caratterizzata da uno stile informale ed un parlato quasi costantemente ipoarticolato contraddistinto da fattori acustici di disturbo della percezione come ad esempio segnali competitivi sovrapposti vocali e musicali e diversi tipi di rumori ambientali.

Esperimento 2: trascrizione di materiale vocale opportunamente mascherato con del rumore. Il test prevede la somministrazione di parole mascherate inserite all’interno di singole frasi cornice estrapolate da brani del giornalismo e della letteratura e quindi decontestualizzate. Quasi tutte le frasi oggetto della prova sono caratterizzate da una bassissima prevedibilità (es.“Una saliera che conteneva cianuro”, dove ‘cianuro’ è la parola mascherata).

Il fattore che differenzia i due tipi di prova è l’elemento contestuale: presente nel primo test e quasi totalmente assente nel secondo. Nell’esperimento 1 si intende infatti analizzare principalmente una percezione di tipo globale e dell’intera situazione comunicativa: trattandosi di segnale facente parte di una conversazione, la presenza dell’elemento

contestuale fa sì che il segnale non venga veicolato completamente dai dati acustici e il segmento foneticamente alterato possa essere riconoscibile e dunque prevedibile grazie alla sua occorrenza nel contesto. Nell’esperimento 2 invece non avendo a disposizione l’informazione contestuale, utile nella decodifica del parlato e soprattutto nel parlato di bassa qualità, si intende valutare la capacità di mera percezione del dato acustico.

Le fasi preventivate nel nostro studio comprendono una analisi e una valutazione degli errori nelle risposte ottenute da parte del campione di non vedenti e di normovedenti, riguardo le differenti tipologie di test. Si prevede sia un’analisi di tipo statistico-numerico volta a fornire dati quantitativi (numerici e percentuali) del segnale trascritto correttamente sia un’analisi maggiormente dettagliata, di tipo linguistico, volta invece ad indagare su aspetti qualitativi degli errori commessi.

DUE TECNICHE DI VOCODING PER LA SINTESI DI PARLATO EMOTIVO MEDIANTE TRASFORMAZIONE DEL TIMBRO VOCALE

F. Tesser*, E. Zovato^, M. Nicolao*, P. Cosi*

* Istituto di Scienze e Tecnologie della Cognizione, CNR, Padova; ^ Loquendo SpA, Torino

Lo studio delle emozioni e della loro comunicazione attraverso la voce ha suscitato un crescente interesse in molti ricercatori negli ultimi anni.

Molti lavori recenti sono focalizzati sullo studio dei correlati psico-acustici delle emozioni nella voce. Tra questi si possono identificare due diversi gruppi di parametri: quelli prosodici e quelli legati al timbro vocale. Ritmo, velocità di eloquio, intonazione e intensità appartengono al primo gruppo, mentre formanti e distribuzione dell'energia spettrale appartengono al secondo.

Questo lavoro si focalizza sul timbro vocale, facendo parte di un più ampio progetto riguardante anche la prosodia. In particolare, il lavoro, oggetto di questo articolo, è stato motivato dalla necessità di valutare due diverse tecniche di vocoding nel contesto di esperimenti di trasformazione del timbro vocale volti a simulare alcune caratteristiche del parlato emotivo.

Il sistema di trasformazione del timbro vocale utilizzato prende come riferimento i lavori sviluppati nell'ambito delle tecniche di “voice conversion”. Solitamente queste tecniche sono utilizzate per convertire l'identità del parlatore, ma vari esperimenti sono stati eseguiti anche nell'ambito della trasformazione della voce in senso emozionale.

Un sistema di voice conversion è composto da due parti fondamentali: stima della funzione di trasformazione e sistema di re-sintesi del segnale.

La prima parte si occupa di predire i parametri psico-acustici della voce da simulare (target) partendo da quelli della voce originale (source). Questo modulo deve in pratica stimare la funzione di trasformazione dei parametri.

Il secondo modulo deve essere in grado di analizzare e re-sintetizzare la voce modificando i parametri psico-acustici sui quali si è intervenuto. Questi sistemi di elaborazione dei segnali sono chiamati vocoder e si basano su modelli di diversa complessità della voce e dei suoi parametri fondamentali. In questo articolo sono analizzate due tecniche di vocoding: il Phase Vocoder e il filtro MLSA (Mel Log Spectrum Approximation).

La funzione di conversione è stata stimata utilizzando tecniche statistiche che ricavano la trasformazione ottima analizzando dati reali. Per questo motivo è stato registrato un corpus “parallelo”, che contiene le registrazioni dello stesso testo letto dallo stesso speaker ma con diversi stili emotivi. Le emozioni prese in considerazione sono felicità e tristezza, con l'aggiunta di uno stile neutro di riferimento.

In questo lavoro il timbro vocale è rappresentato dagli inviluppi spettrali ricavati dall'analisi mel-cepstrale (Imai, 1983); il timbro vocale di un frame di segnale vocale è quindi rappresentato dal corrispondente vettore di coefficienti mel-cepstrali.

Al fine di poter confrontare tra di loro frame che corrispondono alla stessa parte segmentale all'interno di due file audio (uno emotivo e uno neutro) contenenti lo stesso contenuto semantico, è stata utilizzata una procedura di allineamento tramite DTW (Dynamic Time Warping).

In tal modo sono state selezionate le coppie di vettori mel-cepstrali coerenti utilizzate per addestrare la funzione di trasformazione tra lo stile neutro e quello emotivo di riferimento, seguendo la procedura suggerita da Stylianou et al. (Stylianou et al., 1998). Questa funzione è calcolata attraverso la soluzione di un sistema di equazioni sovra-determinato e si basa su una rappresentazione dello spazio acustico di partenza tramite un modello GMM.

Uno svantaggio di questa predizione frame per frame è la mancanza di coerenza dinamica. Una prima soluzione a questo problema consiste nell’aggiungere le derivate prima e seconda dei coefficienti mel-cepstrali all'interno della procedura di training. Valutazioni oggettive su esperimenti con e senza i coefficienti dinamici mostrano un minore errore di predizione nel primo caso.

Partendo dagli inviluppi spettrali predetti, sono stati sperimentate due tecniche di vocoding per re-sintetizzare il segnale con il timbro vocale modificato: Phase Vocoder implementato tramite FFT (Portnoff, 1976) e filtro MLSA (Imai, 1983).

La prima tecnica si basa sulla rappresentazione spettrale dei frame ricavati dal segnale vocale (STFT) e permette di manipolare il segnale audio sia nel dominio temporale che spettrale. Per modificare il timbro vocale, l’inviluppo spettrale predetto è imposto nel modulo di ogni frame STFT.

La seconda tecnica si basa sul modello filtro-sorgente della produzione vocale, il filtro MLSA può essere controllato direttamente con i coefficienti mel-cepstrali e la sua risposta in frequenza corrisponde al corrispondente inviluppo spettrale. Per modificare il timbro vocale due filtri MLSA sono utilizzati in uno schema di sbiancamento e successiva

rimodellazione dello spettro.

Le due tecniche e le due trasformazioni (neutro-triste, neutro-felice) sono state valutate tramite un test soggettivo di ascolto che prende in considerazione la naturalezza della trasformazione e la percezione delle emozioni. Il test è stato proposto tramite un'interfaccia web. I risultati mostrano che le elaborazioni effettuate conservano un buon grado di naturalezza in entrambi i casi. Riguardo alla percezione delle emozioni si evince che la trasformazione neutro-triste ha risultati migliori rispetto a quella tra neutro e felice. Inoltre la tristezza è percepita meglio quando la conversione è effettuata con il filtro MLSA.

BIBLIOGRAFIA:

S. Imai, “Cepstral analysis synthesis on the mel frequency scale,” in IEEE ICASSP, vol. 8, 1983, pp. 93–96.

Y. Stylianou, O. Cappé , and E. Moulines, “Continuous probabilistic transform for voice conversion,” IEEE Transactions on Speech and Audio Processing, vol. 6, no. 2, pp. 131–142, 1998.

M. Portnoff, “Implementation of the digital phase vocoder using the fast Fourier transform,” IEEE Transactions on acoustics, speech and signal processing, vol. 24, no. 3, p. 243248, 1976.

Comparing SPHINX vs. SONIC in an Italian Children’s speech recognition system

M. Nicolao, P. Cosi

Istituto di Scienze e Tecnologie della Cognizione, CNR, Padova

During last few years, many different Automatic Speech Recognition frameworks have been developed for research purposes. Our previous experiences showed that both CSLR SONIC2 and CMU SPHINX3 are very versatile and powerful. Encouraged by the good results we obtained, this two systems are now compared in another important task of speech recognition: children’s speech recognition.

In this work, SPHINX was applied to build from scratch an Automatic Speech Recognizer (ASR) for Italian children’s speech and the results were compared to those obtained by using SONIC both in previous and in new experiments, performed in order to uniform experimental conditions.

This report describes the complete training process and the evaluation methodology regarding a speaker-independent phonetic-recognition task. First, we briefly describe the system architectures and their differences, and then we analyze the task, the corpus and the techniques adopted to face the problem. The scores of multiple recognition tests in terms of Phonetic Error Rate (PER) and an analysis on the usability and on differences of the two systems are shown in the final discussion.

Specifically, children’s speech recognition task for Italian was conducted using the complete training and testing set of the FBK4 Italian Children’s Speech Corpus 10. The entire dataset consists of audio recordings collected from 171 children (85 females and 86 males) aged between 7 and 13, who were all native speakers from the northern part of Italy. Each child provided approximately 50-60 read sentences, which were extracted from age-appropriate literature. The corpus is divided into a training set, consisting of 129 speakers (64 females and 65 males), and a test set, consisting of 42 speakers (21 females and 21 males), balanced by gender and age. Both systems have been trained on the same training data and several phoneme-level recognitions have been performed.

The ASR systems considered in our comparison are indeed different, but they are still comparable due to several aspects. They use statistical models of the human speech production; both audio and word sequences are modeled in order to fit the data of the training corpus. They use Hidden Markov Models (HMM) to describe the acoustic feature space and Finite State Grammars or Markov chains to model the structure of language.

CSLR SONIC is a complete toolkit for research and development of new algorithms for continuous speech recognition 11. The software has been under development at the Center for Spoken Language Research (CSLR) of the University of Colorado since March of 2001. It allows for two modes of speech recognition: keywords or Finite-State-Grammar decoding and N-gram Language Model decoding. It also incorporates speaker adaptations in the recognition process, such as unsupervised Maximum Likelihood Linear Regression (MLLR) and Structural MAP Linear Regression (SMAPLR), as well as normalization methods of adaptation in training such as Vocal Tract Length Normalization (VTLN), cepstral mean and variance normalization and Speaker-Adaptive Training (SAT). Furthermore, the adopted software version has an acoustic feature representation known as Perceptual Minimum Variance Distortionless Response (PMVDR) cepstral coefficients. These coefficients provide improved accuracy over the traditional MFCC parameters by better tracking the upper envelope of the speech spectrum.

The CMU SPHINX system is an open-source project 12, which provides a complete set of functions to develop complex Automatic Speech Recognition systems. This software was developed by Carnegie Mellon University at Pittsburgh and several options for the decoder software to perform large vocabulary recognition, phoneme recognition, or N-best list generation are available. The MLLR, VTLN and MAP adaptation methods are also implemented in this software. These techniques are substantially the same as those in SONIC and the results confirm that the recognition improvement is comparable. The PMDVR features are not implemented in the system, so conventional MFCC are used to parameterize the spectrum of the speech.

In order to assess the recognition results, the Phonetic Error Rate was utilized. This is defined as the sum of deletion, substitution and insertion percentage of phonemes in the ASR output text with respect to a reference transcription. Ideally, a hand-labeled reference would be preferable, because it would be corrected at phonetic level to take into account of children’s speech phonetic mistakes. Because such annotation was not available in this corpus, the phonetic sequences obtained by Viterbi alignments of the word-level orthographic transcription were used as reference data, see 13 for further details. Though, some relaxations in the meaning of phoneme-recognition correctness were adopted.

Choosing whether a phoneme has to be considered incorrectly recognized could be a problem in the assessment process. In this test, a full phoneme set, but some simplifications were also evaluated to deal with some children’s

2 The CSLR SONIC speech recognition system is available for research use from the University of Colorado (http://cslr.colorado.edu) 3 The CMU SPHINX system (training software + decoder) is available at (http://cmusphinx.sourceforge.net/)

4 FBK is the Bruno Kessler Foundation, ex ITC-IRST (http://www.fbk.eu/)

common mispronunciations. Eventually, recognition outputs have been evaluated using a 40-AU (38-AU for SPHINX) set along with a reduced 33-AU set (i.e. stressed and unstressed vowels merged) and a 29-AU set with additional phonetic simplification (i.e. geminates merged into single phonemes).

Overall results are in Table 2. Extra-test results are also shown, because, even if the system configurations are not comparable, these represent the best performance of each system.

Table 2: (a) PER scores of comparable configuration of SONIC and SPHINX ASR. (b) The extra-test PER score comparison.

Word-level training

SONIC SPHINX (a) Test

40AU 33AU 29AU 38AU 33AU 29AU

Baseline 21.9% 17.2% 15.0% 29.8% 22.1% 19.2%

Best score 19.0% 14.6% 12.4% 28.2% 20.0% 17.2%

(b) Extra Test

VTLN + SAT + SMAPLR Phoneme-level training

transcription

Baseline 21.9% 17.2% 15.0% 28.2% 21.2% 18.6%

Best score 18.8% 14.4% 12.2% 25.7% 18.8% 16.4%

In these testing conditions, SONIC turned out to have the best overall performances and it obtained a minimum PER of 12.4% with VTLN and SMAPLR adaptation. On the other hand, SPHINX turned out to be the easiest system to train and to test but its performances (PER of 17.2% with comparable adaptations) are some percentage points lower than SONIC.

Finally, a marginal consideration could be added. Even if SONIC results to have the best overall performances, nonetheless, it has begun to be less attractive than SPHINX for research purpose because its libraries are a close piece of software, there is no more development support and the so good PMVDR are no more included in its distribution.

References:

10. Gerosa M., Giuliani D. and Brugnara F., “Acoustic variability and automatic recognition of children's speech.” Speech Communication, 49:847-860, 2007.

11. Pellom, B., Hacioglu, K., “SONIC: Technical Report TR-CSLR-2001-01”, Center for Spoken Language Research, University of Colorado, Boulder, 2004.

12. Lee, K. F., Hon, H. W., Reddy, R., “An overview of the SPHINX speech recognition system”, IEEE Trans. on Acoustics, Speech, and Signal Proc., 38:35-45, 1990.

13. Cosi, P., Hosom, J. P., “High Performance General Purpose Phonetic Recognition for Italian”, Proc. ICSLP 2000, 2:527-530, Beijing, 2000.

Vocali pensate e classificazione del segnale elettroencefalografico

P. Mattana*, G. Costantini^, A. Paoloni°, M. Grimal di ~

* Università “La Sapienza”, Roma; ^ Università “Tor Vergata”, Roma; ° Fondazione Ugo Bordoni, Roma; ~ Cril, Università del Salento

Settori pioneristici nel campo delle neuroscienze cognitive stanno rivolgendo sempre maggiore attenzione alla produzione del parlato. L’obiettivo rivoluzionario di queste ricerche consiste nel tentativo di sviluppare una tecnologia avanzata che permetta ai parlanti di comunicare in modo silente, senza produrre segnale vocale. In sostanza si cerca di decodificare il segnale connesso con la voce prima che esso diventi segnale vocale. Ciò si potrebbe rivelare molto utile (a) in ambienti rumorosi, (b) per la trasmissione di informazioni riservate (operazioni di polizia o azioni di guerra), (c) per ridurre l’inquinamento acustico, (d) per permettere a soggetti patologici di comunicare anche quando hanno perso l’uso dell’apparato vocale. In sintesi, questi tentativi cercano di ‘catturare’ il segnale connesso con il parlato a due diversi livelli: (1) a livello della laringe e dei muscoli orofacciali, registrando il segnale elettromiografico [1,5,8,11]; (2) a livello della corteccia cerebrale, registrando il segnale neurofisiologico [2,7,9,10], per poi provare a decodificarli e sintetizzarli tramite sistemi artificiali.

Questa ricerca si colloca all’interno della seconda tipologia di esperimenti, in quanto si propone inizialmente di decodificare, tramite opportune registrazioni EEG, il segnale connesso ad alcune vocali dell’italiano pensate ma non realizzate acusticamente. Una volta raggiunto questo obiettivo, in futuro si potrà anche pensare di addestrare un sistema artificiale di reti neurali che traduca il segnale neurofisiologico in voce.

9 soggetti volontari, 6 uomini e 3 donne, età media 28.5 (ʦ9.0), tutti destrimani e con un grado di istruzione universitaria hanno preso parte all’esperimento. Ai soggetti, seduti comodamente su una sedia all’interno di una stanza insonorizzata alla distanza di 1m da uno schermo LCD di 19”, e dopo un opportuno addestramento, è stato chiesto, in due trial separati, di svolgere i compiti descritti nella Tabella 1:

Vocali

Trial 1

Pensare di produrre

Trial 2

Articolare senza emettere suono

/i/, /a/, /u/

Tabella 1: protocollo sperimentale.

Per facilitare il compito, ad ogni tipo vocalico è stato associato un simbolo, come illustrato in Figura 1:

Figura 1: bocca aperta = /a/, bocca con labbra protruse = /u/, bocca con labbra tese = /i/. La comparsa della croce sullo schermo indica al soggetto che deve fissare il simbolo senza svolgere nessun compito.

I due tipi di trial così organizzati permettono di offrire parametri solidi per il processo di decodifica del segnale EEG, oltre che all’analisi statistica dei dati, in quanto nel trial 1 si ipotizza una minore attivazione, per esempio, della corteccia motoria di quanto non avvenga con il trial 2. Anche la comparsa del simbolo + sullo schermo è funzionale alla successiva decodifica del segnale, perché permette di fare un confronto netto fra stati mentali/articolatori connessi agli stimoli e stati neutri. Per eliminare nei soggetti l’effetto di ‘attesa’, gli stimoli sono stati presentati in modo randomizzato. Ogni trial inizia con un pre-stimolo di 1 sec. in cui il soggetto deve fissare lo schermo vuoto. Successivamente viene presentato lo stimolo per due secondi nei quali il soggetto deve svolgere i due diversi compiti proposti. Quindi apparirà una schermata nera ad indicare la fine del trial. In totale sono state registrate 50 ripetizioni per ciascuno dei 4 compiti per un totale di 200 trial a soggetto.

Per le registrazioni EEG è stata utilizzata una cuffia a 64 elettrodi della Brain Product, montaggio 10-20, di cui due elettrodi come referenze sui lobi, 2 per EOG e 2 ground. Il software utilizzato per la registrazione dei segnali EEG è

a u i

Brain Vision Recorder, mentre per la somministrazione degli stimoli è stato adottato il software Presentation. Uno apposito script in linguaggio ASCII è stato realizzato per la somministrazione degli stimoli. I parametri per la registrazione sono stati i seguenti: Sampling Rate 2500 Hz, baseline correction attiva. Al momento delle registrazioni è stato applicato un unico filtro volto a eliminare la frequenza di rete (noise-gate1-45Hz ).

Durante le registrazioni si è tentato di mantenere l'impedenza sotto la soglia dei 5 kΩ, ma non sempre è stato possibile per tutti i 64 elettrodi, quindi durante il settaggio delle impedenze si è posta maggiore attenzione per i sensori C3, C4, Cz ed Fz, ovvero quelli che nella letteratura specifica sono maggiormente utilizzati per la successiva analisi del segnale. Tuttavia, una volta acquisiti i dati, la possibilità di registrazione del segnale EEG a 64 ci permetterà di fare esplorazioni mirate alla individuazione del cluster di sensori direttamente connessi al segnale prodotto dagli stimoli del protocollo, che, in genere, dovrebbero essere quelli collocati sui lobi fronto-temporali e sulla corteccia motoria.

La finestra di pre-analisi, piuttosto ampia, è stata definita in termini di tempo con una durata di 3000 millisecondi (da -1000 a 2000 sempre rispetto all’apparire dello stimolo).

In sintesi, abbiamo ottenuto 50 campioni per ogni tipo di stimolo per entrambi i tipi di trial . Le registrazioni hanno avuto una durata di 30 minuti per soggetto per un totale di 2700 minuti di registrazione. Rispetto alla letteratura specifica passata in rassegna, questo lavoro si caratterizza per una maggiore quantità di dati raccolta, che supera del 50% quella degli studi precedenti. Inoltre sono stati registrati un numero doppio di soggetti rispetto alla media. Infine, per la prima volta in questo tipo di studi viene utilizzata una cuffia a 64 canali.

I dati ottenuti verranno analizzati mediante l'utilizzo del software EEGLab. Intanto sono stati rigettati i segnali con false partenze, ed è stato effettuato l’Average per ogni tipo di stimolo e per ogni soggetto sia per C3, C4, Cz ed Fz, sia per tutti gli altri 64 elettrodi. A questa fase seguirà la rimozione degli artefatti e l’applicazione di filtri offline. A seguire verranno effettuato il Grand Average per ciascuno stimolo, così da individuare i pattern ipotizzati fra l’atto si pensare/articolare le vocali e il segnale EEG prodotto.

Ad una prima ispezione visiva del segnale EEG prodotto nei due trial, sembra sia apprezzabile una differenza tra il segnale generato dalla sola attività di pensiero rispetto a quello prodotto dall’articolazione silente delle vocali. Ancora più interessante è il fatto che già a livello di analisi visiva del segnale si può cogliere una distinzione sia tra i diversi tipi vocalici, sia fra l’atto di pensiero e l’articolazione silente. Ci aspettiamo che l’analisi statistica dei dati filtrati confermi l’analisi impressionistica qui esposta. Ipotizziamo quindi che anche per le vocali solo pensate si possa giungere in qualche modo all’individuazione di pattern neurofisiologici specifici.

Se le ipotesi protocollari saranno supportate dai dati, in futuro si potrà pensare di utilizzare le invarianti neurali individuate (connesse con le invarianti motorie specifiche dei suoni testati) per addestrare un classificatore. Per fare ciò sarà anche necessario individuare un algoritmo che possa fornire prestazioni sufficientemente precise.

Bibliografia:

[1] A. Chan, K. Englehart,B. Hudgins, D.Lovely, Hidden markov model classification of myoelectric signals in speech, in Engineering in Medicine and Biology Magazine, IEEE, (2002), 21:143–146.

[2] C.S. DaSalla, H. Kambarab, M. Sato, Y. Koike, Single-trial classification of vowel speech imagery using common spatial patterns, in Neural Networks Neural 22, (2009), 1334-1339.

[3] M. De Vos, S. Ri`es, K. Vanderperren, B. Vanrumste1, F.-X. Alario, S. Van Huffel, and B. Burle Removal of Muscle Artifacts from EEG Recordings of Spoken Language Production, in Neuroinform, (2010), 8:135–150

[4] B. Denby, T. Shultz, K. Honda, T. Hueber, J.M. Gilbert, Silent speech interfaces, in Speech Communication 52, (2010), 270–287.

[5] S.C. Jou, T. Schultz, K. Walliczek, F. Kraft, A. Waibel ,Towards continuous speech recognition using surface electromyography, in INTERSPE ECH-2006, 17-21 September, Pittsburgh.

[6] Kròger B.J, Kannampuzha J., Neuschaefer-Rube C. (2009), Towards a neurocomputational model of speech production and perception, Speech Communication, 51, 9: 793-809.

[7] Guenther, F. (in press), A Neural Theory of Speech Acquisition and Production, in M. Grimaldi, L. Craighero, “Is a Neural Theory of Language Possible?”, Special Issue of Journal of Neurolingusitics.

[8] Jorgensen, C., Lee, D., and Agabon, S. (2003), Sub auditory speech recognition based on emg/epg signals. In Proceedings of the International Joint Conference on Neural Networks.

[9] Porbadnigk, A. (2008), Eeg-based speech recognition: Impact of experimental design on performance. Institut für Algorithmen und Kognitive Systeme, Universität Karlsruhe (TH), Karlsruhe, Germany.

[10] L. Waibel, M. Western, T. Schultz, K. Den, Unspoken Speech Speech Recognition Based On Electroencephalography,(2006) Universit¨at Karlsruhe (TH), Karlsruhe, Germany http://www.cs.cmu.edu/~tanja/Papers/DA-Wester.pdf

[11] M.Walliczek, F. Kraft, S.C. Jou, T. Schultz, A. Waibel,(2006), Subword unit based non-audible speech recognition using surface electromyography, In INTERSPEECH-2006, 17-21 September, Pittsburgh.

Un Tool Innovativo per il Calcolo di uno STI Single-Sided, Orientato ad Applicazioni Forensi

G. Costantini*, A. Paoloni^, M. Todisco*

* Università “Tor Vergata”, Roma; ^ Fondazione Ugo Bordoni, Roma

Il segnale vocale reso disponibile dalle operazioni di intercettazione è sempre, in misura più o meno significativa, degradato o disturbato; ciò significa che il trasferimento delle informazioni è limitato e a volte può rendere impossibile la sua comprensione. Questo può essere dovuto a fattori connessi con l’oratore, l'ascoltatore e il tipo di discorso, ma nella maggior parte delle situazioni è dovuta alle limitazioni imposte dalla trasmissione del segnale dalla bocca del parlante all'orecchio di chi ascolta.

Durante la trasmissione, il degrado si traduce in una diminuzione del contenuto informativo del segnale vocale, come le limitazioni in bande frequenziali, diminuzione della dinamica, aggiunta di componenti di distorsione, aumento del rapporto segnale/rumore.

Tutti questi aspetti sono stati studiati in letteratura [1, 2, 3, 4] e sono stati proposti diversi metodi per valutarne l’intelligibilità residua. Uno dei metodi più accurati per la misura dell’intelligibilità è lo Speech Transmission Index (STI) [5] basato sulla misura della Modulation Transfer Function (MTF) [5].

Per calcolare lo STI si fa solitamente ricorso ad un segnale test con caratteristiche simili alla voce umana, per frequenze comprese tra 125 e 8000 Hz.

Le caratteristiche acustiche dell’ambiente e il rumore di fondo determinano una riduzione delle MTF del segnale test, dalla sua emissione alla sua ricezione e di conseguenza una riduzione dello STI. Le metodologie di misura e le tecniche per il calcolo di MTF e STI sono regolate dalla normativa IEC-60268-16 (2003).

L’indice STI è un valido indicatore dell’intelligibilità media del parlato, adatto per misurare oggettivamente l’intelligibilità di un canale di trasmissione ma utilizza un approccio di tipo Double-Sided, ovvero un metodo che si basa su di un confronto tra il segnale vocale pulito e il segnale trasmesso. In un contesto forense, questo approccio non è utilizzabile, perché il perito ha solo la versione rumorosa del segnale, quella che proviene da intercettazioni ambientali o telefoniche. È indispensabile , quindi, poter valutare l’intelligibilità con un approccio di tipo Single-Sided, cioè basato sul solo segnale rumoroso.

Partendo da due lavori precedenti [6,7], che utilizzano un innovativo algoritmo per il calcolo di uno STI Single-Sided, è stata sviluppata in ambiente MatLab [8] un’applicazione per sistemi Windows, che calcola localmente lo STI a partire da un segnale vocale rumoroso, operando uno short-time STI su finestre temporali di 500 ms. Tale applicazione è disponibile in rete e può essere scaricata all’indirizzo [9].

Per avere un’idea globale dell’intelligibilità del segnale considerato, l’applicazione calcola una statistica sui valori di STI ottenuti, ricavando media, varianza e distribuzione.

In Figura 1 è mostrata l’interfaccia utente, in Figura 2 è mostrato l’istogramma dei valori di intelligibilità calcolati dall’algoritmo. In ascisse i valori di intelligibilità e in ordinate la percentuale di tempo in cui detti valori si sono osservati. Dall’esame della figura 2 si ricava l’informazione che per il 40% dei frame l’intelligibilità è pressoché nulla (tra il 10 e il 20%).

Considerazioni conclusive

Per una valutazione approfondita della validità del metodo proposto nella misura dell’intelligibilità è necessario confrontare i valori ottenuti da gruppi di ascolto e quelli forniti dal sistema su un numero sufficientemente elevato di casi diversi. In particolare è opportuno valutare quali sono i risultati del sistema quando la scarsa intelligibilità deve essere attribuita alla riverberazione ambientale, a rumore di tipo moltiplicativo (saturazione) o ad altri tipi di disturbo. Lim iratamente ai confronti già effettuati si evidenzia una buona correlazione tra i valori di intelligibilità ottenuta dal gruppo di ascolto e le valutazioni dl sistema.

Figura 1: Single-Sided Intelligibility Measures (SSIM), interfaccia utente.

Figura 2: Single-Sided Intelligibility Measures (SSIM), finestra della statistica.

Riferimenti:

14. Herman J.M. Steeneken, “The Measurement of Speech Intelligibility “, TNO Human Factors, Soesterberg, the Netherlands, May 2002.

15. Ma J., Hu y., Loizou C.: “Objective measures for predicting speech intelligibility in moist conditions based on new band importance functions” JASA 125, May 2009.

16. Nobuhiko Kitawaki, and Takeshi Yamada “Subjective and Objective Quality Assessment for Noise Reduced Speech”, ETSI Workshop on Speech and Noise in Wideband Communication, May 2007, Sophia Antipolis, France

17. W. M. Liu, K. A. Jellyman, N. W. D. Evans, and J. S. D. Mason “Assessment of Objective Quality Measures for Speech Intelligibility”, INTERSPEECH 2008, 9th Annual Conference of the International Speech Communication Association Brisbane, Australia September 22-26, 2008

18. Payton K. L. “A method to determine the speech transmission index from speech waveforms”, JASA 106, 3637-3648, 1999.

19. Giovanni Costantini, Andrea Paoloni, Massimiliano Todisco: Misura Oggettiva dell’Intelligibilità del Parlato in Applicazioni Forensi, 6o Convegno Nazionale AISV - Associazione Italiana di Scienze della Voce, Napoli, Italy, February 3-6, 2010.

20. Giovanni Costantini, Andrea Paoloni, Massimiliano Todisco: Objective Speech Intelligibility Measures Based on Speech Transmission Index for Forensic Applications, 39th International AES Conference on Audio Forensics: Practices and Challenges, Hillerød, Denmark, June 17–19, 2010, pp. 182-188.

21. MatLab, documentation available on the web at: http://www.mathworks.com/products/matlab/

22. Single-Sided Intelligibility Measures (SSIM), application and documentation available on the web at: http://www.cirlab-masp.uniroma2.it/paoloni/SSIM/

Architettura collaborative per la cancellazione d’eco non lineare

D. Comminiello*, A. Uncini*, A. Cirillo^, A. Barone°, M. Falcone^

* Università “La Sapienza”, Roma; ^Fondazione Ugo Bordoni, Roma;°Iscom- MiSE

Preservare la qualità e la naturalezza della conversazione è uno dei compiti più difficili che i sistemi di comunicazione viva-voce devono soddisfare. Uno tra i più importanti fenomeni di disturbo alla comunicazione è l’effetto di eco acustica. In una teleconferenza in viva-voce, il segnale generato ad uno dei capi della comunicazione (far end) viene emesso dall’altoparlante dell’altro partecipante alla teleconferenza (near end). Conseguentemente questo viene catturato dal microfono del lato near end, tornando quindi indietro al far end e generando lo sgradevole effetto di eco per quest’ultimo.

In questo scenario la qualità del segnale degrada diversamente in relazione al tipo di sistemi di rete e ai terminali utilizzati dagli utenti. Allo scopo di migliorare la qualità del segnale vocale e l’intelligibilità della comunicazione, è raccomandabile, ed è anzi a volte necessario, utilizzare sistemi efficaci di cancellazione d’eco acustica.

La cancellazione dell’eco è stata ampiamente studiata nei recenti anni, ed oggi è comunemente implementata in software nei processori digitali dei più diffusi sistemi di teleconferenza. Un cancellatore d’eco è costituito principalmente da un filtro adattativo. Questo ha il compito di stimare la componente d’eco per poterla poi cancellare, sottraendola dal segnale acquisito dal microfono al lato near end.

Sono tuttavia molte le difficoltà che permangono nel soddisfare i requisiti di qualità necessari per una comunicazione ottimale. Un serio problema è la presenza di non linearità nel percorso di eco: ad esempio nei sistemi commerciali di comunicazione viva-voce è sempre più diffuso l’utilizzo di altoparlanti a basso costo, i quali introducono non linearità importanti quali distorsioni del trasduttore magnetico o vibrazioni dell’involucro, tipicamente in plastica, dell’altoparlante. Un normale cancellatore d’eco acustica trascura tali non linearità, conseguentemente si può avere una forte degradazione dell’intelligibilità del segnale vocale. E’ dunque auspicabile l’utilizzo di un cancellatore d’eco acustica non lineare che sia capace di risolvere anche questa specifica famiglia di problemi.

L’efficacia del sistema di non-linear acoustic echo canceller (NAEC) proposto risiede in tre caratteristiche principali: l’utilizzo di un filtro mediante una functional link network (FLN) per la simulazione della non linearità prodotta dall’altoparlante, di un ulteriore filtro proporzionato con passo di adattamento variabile per la stima dell’eco acustica eseguito in parallelo, e infine la combinazione convessa dei due filtri che determina la struttura collaborativa del NAEC.

La FLN è una rete neurale artificiale a singolo strato che ha il ruolo di classificare la non linearità, introdotta ad esempio dagli altoparlanti, per poterla simulare. Grazie all’assenza di strati nascosti, l’FLN è in grado di effettuare un filtraggio adattativo computazionalmente efficace. La FLN elabora il pattern di ingresso direttamente tramite un blocco di espansione funzionale che proietta il pattern di ingresso in uno spazio di dimensione maggiore, generando così un pattern maggiormente descrittivo, i cui elementi vengono combinati linearmente dopo essere stati opportunamente pesati. Il vettore dei pesi viene aggiornato secondo una regola di adattamento iterativa. Il vantaggio principale delle FLN rispetto ad altre strutture adattative che simulano la non linearità consiste in un aumento della velocità di convergenza e in una diminuzione del costo computazionale.

La seconda importante caratteristica del sistema proposto è il filtro adattativo lineare, la cui scelta è di primaria importanza in quanto può aumentare in modo considerevole le prestazioni del NAEC. Nell’architettura proposta introduciamo un filtro con adattamento variable step size improved proporzionate normalized least mean square (VIP-NLMS), che prende in considerazione i vincoli di sparsità degli algoritmi proporzionati. Gli algortimi proporzionati sono basati fondamentalmente sull’assunzione che la risposta impulsiva acustica è di natura sparsa, e ciò è spesso verificato nelle applicazioni di cancellazione dell’eco. Per questo motivo questa classe di algoritmi introduce un peso proporzionato a ciascun coefficiente del filtro ottenendo così una convergenza migliore rispetto agli algoritmi standard. Oltre ai vincoli di sparsità, il VIP-NLMS prevede anche l’utilizzo di un passo di adattamento variabile utile in situazioni di sotto-stima della risposta impulsiva, situazione tipica negli scenari di cancellazione dell’eco.

La terza caratteristica fondamentale è la combinazione convessa dei due filtri in modo da realizzare un’architettura collaborativa robusta ad ogni genere di non linearità. Questo tipo di combinazione introduce un peso che bilancia i due filtri. L’utilizzo di questa combinazione è dovuta al fatto che per bassi livelli di non linearità un NAEC può introdurre un rumore di gradiente che determina una diminuzione delle prestazioni. Utilizzando la struttura proposta il NAEC fornisce risultati ottimali a prescindere dal tipo di non linearità.

La valutazione del sistema è condotta rispetto a diverse condizioni di eco e di non linearità. Queste sono simulate attraverso l’acquisizione del segnale, la sua elaborazione in tempo reale e la sua riproduzione su altoparlanti “monitor” in quanto la non linearità dovuto agli altoparlanti è simulata dal sistema di elaborazione.

Il set up sperimentale è allestito in una camera riverberante di ampie dimensioni ed è costituito da una coppia di

microfoni professionali, un busto con bocca artificiale per la simulazione del parlante, un sistema di diffusione acustica professionale per la produzione del segnale di rumore ambientale, di uno o due altoparlanti monitor per la simulazione degli interferenti e per la realizzazione del sistema di diffusione del segnale di ritorno.

Il segnale vocale di riferimento è costituito da 2 brevi frasi pronunciate da 4 parlatori professionisti.

I ritardi introdotti, i livelli del segnale di ritorno e le non linearità sono scelte tra i valori e le configurazioni tipiche che simulano sistemi e terminali di teleconferenza.

Le prestazioni sul miglioramento della qualità del segnale derivato dall’utilizzo del sistema proposto sono in prima analisi valutate attraverso la stima del rapporto SNR, la stima oggettiva di un indice di intelligibilità, ed infine attraverso l’ascolto informale da parte di esperti.

Riferimenti:

[1] N. Birkett and R. A. Goubran, “Limitations of handsfree acoustic echo cancellers due to nonlinear loudspeaker distortion and enclosure vibration effects,” in IEEE ASSP Workshop on Appl. Of Signal Processing to Aud. And Acoustics, New Paltz, New York, October 1995.

[2] L. A. Azpicueta-Ruiz, M. Zeller, J. Arenas-Garcia, and W. Kellermann, “Novel schemes for nonlinear acoustic echo cancellation based on filter combinations,” in Proc. of ICASSP ’09, Taipei, April 2009, pp. 193–196.

Contesto, Deissi e Anafora nel racconto di un video privo di appigli dialogici. Un’analisi comparativa tra due sistemi linguistici:

Italiano e Lis (Lingua dei Segni Italiana).

M. Roccaforte

Università “La Sapienza”, Roma

Questo studio si inserisce all’interno di un lavoro di analisi comparativa Italiano-Lis (Lingua dei Segni Italiana) in collaborazione con l’ISTC-CNR di Roma che si occupa di linguaggio e sordità. Lo scopo è di indagare l’uso di riferimenti deittici tra due sistemi linguistici molto diversi: la LIS (Lingua dei Segni Italiana) e l’Italiano. L’atto di raccontare, infatti, può svelare molto sulle competenze linguistiche di chi lo produce, e se è vero che non possiamo entrare nella mente di chi articola il racconto, per scrutarne i passaggi e le rappresentazioni mentali alla base della sua esposizione, possiamo però osservare le manifestazioni superficiali di quei processi: le pause, le esitazioni, il tono della voce, i drawls e soprattutto i gesti, lo sguardo, il linguaggio corporeo che corredano la sua esposizione. Lo scopo del lavoro è cercare di entrare nelle pieghe più interne dell’atto del narrare, osservare concretamente e empiricamente quasi come un’istantanea della realtà, il modo in cui un piccolo gruppo di persone ha riferito di qualcosa di cui aveva avuto esperienza prevalentemente visiva, dedicandoci ai riferimenti deittici, anaforici e agli atteggiamenti paralinguistici degli intervistati nel corso della propria “versione dei fatti”. Per farlo punteremo a un’analisi sommaria, ma tuttavia contestualizzata del fenomeno della deissi “tout court” ovvero applicata non solo al linguaggio ma anche alla voce, ai movimenti corporei, alla gestualità allo sguardo di persone riprese nell’atto di raccontare qualcosa. L’esperimento ha coinvolto dodici soggetti a cui abbiamo chiesto di vedere un filmato e di riferirlo a chi quel filmato non lo aveva mai visto. Il video in questione della durata di circa sei minuti è il “Pear film” prodotto dall’Università della California- Berkeley e utilizzato in precedenti ricerche interlinguistiche su aspetti linguistici e cognitivi della narrazione in diverse culture (Chafe 1980). Le caratteristiche del film sono diverse, precisiamo che il filmato nasce in California con un obiettivo linguistico-antropologico, ma tuttavia si è ottimamente prestato per il nostro studio, in quanto una delle caratteristiche del video è la predominanza di informazioni visive, i suoni ci sono ma non sono linguistici (si tratta più che altro di rumori tipici della campagna e di suoni strettamente legati allo svolgimento della storia). Un’altra peculiarità è nella presenza nel film di una serie di spunti che inducono alla produzione di deissi negli intervistati, ma che si è osservato inducono in determinate occasioni all’ausilio della gestualità e di particolari atteggiamenti dello sguardo. Insomma una storia breve, semplice nel contenuto, ma al contempo per nulla facile da riferire, anche perché priva di quei suggerimenti che solo una qualche forma di dialogo può fornire. Il Pear film, è stato mostrato due volte. Le persone intervistate sono state 7 donne e 5 uomini tra i 29 e i 60 anni. Per l’analisi delle parti orali si è scelto di dare trascrizione Jeffersoniana per tenere in considerazione le pause, le riprese, le esitazioni e i falsi attacchi propri del parlato e anche perché consente di annotare i comportamenti extralinguistici.

SESSIONE POSTER 2 28 Gennaio 2011

Il ruolo di allineamento, durata e scaling nella percezione del focus contrastivo: un confronto tra catalano, italiano e spagnolo

M. M. Vanrell*^, A. Stella°, B. Gili Fivela°, P. Pr ieto*~

*Universitat Pompeu Fabra; ^ Universitat Autonoma de Barcelona; ° CRIL & Università del Salento; ~ Institució Catalana de Recerca i Estudies Acançats

Sembra che ci sia una tendenza crosslinguistica a realizzare il focus contrastivo con un picco anticipato rispetto alle realizzazioni con focus ampio (Estebas-Vilaplana 2000 per il CAT centrale, Gili-Fivela 2008 e Stella e Gili-Fivela 2009 per l’IT di Pisa e Lecce; De la Mota 1995 per lo SPA). Ad esempio, in CAT e in SPA (De la Mota 1995; Nibert 2000; Face-Prieto 2007; Hualde 2002; Hualde 2003), gli accenti con focus ampio sono prodotti con un picco di F0 ritardato (L+>H*) rispetto agli accenti con focus contrastivo (L+H*), in cui il picco è allineato alla fine della sillaba (v. Fig. 1a). Inoltre, secondo Face (2001), il focus contrastivo si può realizzare anche attraverso una compressione tonale postfocale oppure un aumento dell’altezza di F0. Nelle varietà di IT parlato a Pisa (Gili Fivela 2008) e a Lecce (Stella e Gili Fivela 2009) si trova un contrasto simile a quello del CAT e dello SPA, benché si riscontrino differenze di allineamento e scaling nelle tre lingue: ad esempio, nel caso dell’italiano parlato a Lecce, gli accenti con focus ampio in posizione iniziale, sia nucleari che prenucleari, hanno un picco ritardato (L+H*) rispetto agli accenti prodotti per il focus contrastivo (H*+L) il cui picco è allineato nella prima metà della sillaba (v. Fig. 1b). Inoltre, nell’italiano di Pisa in posizione iniziale di enunciato l’accento nucleare con focus ampio si realizza con una F0 più alta rispetto al focus contrastivo e le sillabe che portano l’accento contrastivo risultano avere una maggiore durata (Gili-Fivela 2008).

Per definire il contributo specifico di allineamento, durata e scaling nella percezione del focus contrastivo in CAT, IT e SPA sono stati condotti un esperimento di produzione e due di percezione. La motivazione principale di questo confronto è il diverso pattern di allineamento, durata e scaling che si rileva nelle produzioni nelle tre lingue, in relazione alla stessa funzione. Nell’esperimento di produzione è stata condotta un’analisi delle caratteristiche acustiche dei due foci in coppie minime come Che la Marina L+H* verrà domani (focus ampio) vs No. La MARINAH*+L verrà domani (focus contrastivo). I dati consistevano in 10 frasi con focus ampio e 10 frasi con focus contrastivo, elicitati attraverso una serie di coppie di domanda-risposta. In questo modo, si sono ottenute 300 frasi per lingua (5 frasi x 2 tipi di focus x 2 posizioni dell’accento x 3 repetizioni x 5 parlanti). I risultati mostrano che il focus contrastivo è realizzato con un picco più anticipato per tutte e tre le lingue oggetto d’indagine (v. Fig. 2, in alto) e picchi sistematicamente più bassi solo in IT (v. Fig. 2, al centro); infine, le sillabe che portano gli accenti di focus contrastivo sono più lunghe in tutte e tre le lingue (Fig. 2, in basso).

Per quanto riguarda la percezione, l’obiettivo degli esperimenti è duplice: da un lato si voleva individuare il contributo specifico di ogni parametro nella percezione degli accenti tonali e dall’altro si intendeva verificare che ci fosse una correlazione diretta tra produzione e percezione. Si sono utilizzate due differenti tipologie di test: il gating task e l’identification task. Il materiale utilizzato per il gating task è costituito da un enunciato con focus ampio e uno con focus contrastivo prodotti da un parlante nativo delle varietà di CAT, SPA e IT studiate; per ogni lingua la coppia di enunciati è stata manipolata secondo i seguenti raggruppamenti di parametri acustici: allineamento, allineamento + durata, allineamento + scaling e, infine, tutti e tre i parametri insieme. Per isolare il contributo del singolo parametro in relazione ai diversi accenti tonali, i due enunciati La Melania verrà domani (focus ampio) e la MELANIA verrà domani (focus contrastivo) sono stati tagliati in 6 differenti punti della frase (7 per l’IT). Il gating task consisteva quindi nel riconoscimento del tipo di focus di 240 token per lingua (2 frasi x 4 tipi di focus x 6 parti x 5 ripetizioni; 280 token per l’IT); agli esperimenti hanno preso parte 20 parlanti per ogni lingua. I risultati mostrano che la distinzione delle risposte tra i due tipi di focus avviene già prima della regione post-focale del contorno di F0; inoltre, si è visto che i parlanti italiani sono in grado di riconoscere il tipo di focus prima dei parlanti catalani e spagnoli, questo poichè il picco è allineato prima in IT (v. Fig. 3 per i risultati con la combinazione dei tre parametri insieme per tutte e tre le lingue). I materiali per l’identification task sono invece stati prodotti partendo da 1 enunciato per lingua, nel quale i 3 diversi parametri sono stati manipolati in 7 passi ed in combinazioni differenti, passando dall’interpretazione con focus contrastivo a quella con focus ampio. I raggruppamenti di parametri manipolati sono gli stessi del gating task. Il compito di identificazione aveva come obiettivo il riconoscimento del tipo di focus di 140 enunciati per lingua (7 passi x 4 enunciati x 5 ripetizioni). I risultati mostrano che è solo con la combinazione dei tre tratti prosodici che si ottene la classica curva a forma di S, attesa anche nel caso di percezione categorica (v. Fig. 4). Inoltre, i risultati confermano che c’è un’alta correlazione tra la produzione e la percezione.

Figura 1 (a) Figura 1 (b)

L+H* L+>H* H*+L L+H*

CAT/SPA IT

Figura 2 (grigio scuro: focus ampio; grigio chiaro: focus contrastivo)

CAT IT SPA

Figura 3 (grigio scuro: focus ampio; grigio chiaro: focus contrastivo)

Figure 4 (nero: CAT; grigio scuro: IT; grigio chiaro: SPA)

Allineamento Allin.+Durata Alline.+Scaling Tutti i 3 tratti

References:

Beckman, M., Díaz-Campos, M., McGory, J. T., and Morgan, T. A. (2002), ‘Intonation across Spanish, in the Tones and Break Indices framework’. Probus, 14: 9-36.

De la Mota, C. (1995) La representación gramatical de la información nueva en el discurso. Ph.D. dissertation, Universitat Autònoma de Barcelona.

Estebas-Vilaplana, E. (2000), ‘The use and realisation of accentual focus in Central Catalan with a comparison to English’, Ph.D. Dissertation, University College London.

Face, T.; Prieto, P. (2007). “Rising accents in Castilian Spanish: a revision of Sp_ToBI”. Journal of Portuguese Linguistics (special issue on Prosody of Iberian Languages, ed. by G. Elordieta and M. Vigário) 6.1: 117-146.

Face, T.L. (2001) Focus and early peak alignment in Spanish intonation, Probus, 13, 223-246.

Gili Fivela B. (2008) Intonation in Production and Perception: The Case of Pisa Italian. Edizioni dell'Orso, Alessandria

Hualde, J.I. (2002) Intonation in Spanish and the other Ibero-Romance languages: overview and status quaestionis. In Romance phonology and variation. Selected papers from the 30th Linguistic Symposium on Romance Languages (C. Wiltshire & J. Camps, editors), 101-116. Amsterdam: John Benjamins. [

Hualde, J.I. (2003) El modelo métrico y autosegmental. In Teorías de la entonación (P. Prieto, editor), 155-184. Barcelona: Ariel.

Nibert, H.J. (2000) Phonetic and phonological evidence for intermediate phrasing in Spanish intonation. Ph.D. dissertation, University of Illinois at Urbana-Champaign.

Stella, A., Gili Fivela, B. (2009). L'intonazione nel parlato dell'area leccese: prime osservazioni dal punto di vista autosegmentale-metrico. In Atti del IV Convegno Nazionale AISV 2007, Università della Calabria, Arcavacata di Rende (CS), EDK Editore SRL, RN, 260-293.

L’USO DI NON-PAROLE IN UNO STUDIO SULLA DISCRIMINAZ IONE E SULLA PRODUZIONE DEI SUONI CONSONANTICI DELL’ITALIANO DA PARTE DI

BAMBINI PRE-SCOLARI FIGLI DI IMMIGRATI

V. Galatà*^, C. Zmarich*

* Istituto di Scienze e Tecnologie della Cognizione, CNR, Padova; ^ Istituto di Ricerca sulle Attività Terziarie, CNR di Napoli

SOMMARIO

In questo lavoro presentiamo i primi risultati di un progetto più ampio, attualmente in fieri, denominato “Migrazioni” (intesa MIUR-CNR) che, per il comparto linguistico-cognitvo, si articola nelle seguenti aree di intervento tra loro dipendenti e complementari:

• caratterizzazione sociolinguistica delle correnti migratorie;

• studio sull’acquisizione fonetica dell’italiano come lingua seconda (L2) in bambini pre-scolari figli di immigrati (sia da un punto di vista di produzione che di percezione);

• studio sull’acquisizione di inglese L2 da parte di emigrati italiani adulti a diversi livelli di integrazione;

• automatizzazione della somministrazione dei test di percezione e produzione con ricorso alla voce sintetica e al riconoscimento automatico; implementazione di moduli separati e intercambiabili in base alla lingua prevalente (L1) dei bambini stranieri;

• sviluppo dell’Italian Literacy Tutor, un sistema integrato per l'insegnamento interattivo dell'italiano come L2.

In Italia il concetto di immigrazione è un fenomeno piuttosto recente e spesso i bambini stranieri provengono da famiglie in cui l’italiano è appreso dai genitori in età adulta come lingua straniera (L2). Studi sui bilingui tardivi hanno dimostrato che la loro L2 è scarsamente intelligibile, è parlata lentamente e presenta un lessico e strutture sintattiche povere (MacKay & Flege, 2004). Tra i fattori più significativi che contribuiscono alla padronanza linguistica orale in L2 (proficiency) vi è, primo fra tutti, l’età di prima esposizione alla L2. Altri fattori in grado di favorire il mantenimento o la perdita della lingua d’origine e lo shift verso l’italiano possono essere: di tipo generazionale (genitori, figli), di durata del periodo di permanenza in Italia, di numero di anni di scolarizzazione nel paese d’origine e in Italia, di frequenza dei rapporti col paese d’origine, di luogo di nascita (estero o Italia) e, non ultimo, di grado di integrazione nel paese ospitante (cfr. Piske, MacKay & Flege, 2001). Alla luce di quanto esposto, ad esempio, alcuni gruppi nazionali tendono a conservare maggiormente L1: in testa sicuramente Marocchini e Nordafricani seguiti da Cinesi o Asiatici, Latino-americani, Europei centro-orientali (Albanesi più dei Rumeni). Le ragioni sono da ricercare prevalentemente nella distanza strutturale tra L1 e L2, distanza che può fungere da elemento di facilitazione o di difficoltà. Il grado di apprendimento della L2 varia secondo la distanza strutturale delle lingue in questione: la vicinanza strutturale facilita l’apprendimento, ma favorisce l’interferenza; la distanza strutturale implica l’acquisizione di strutture diverse (e inizialmente comporta tempi più lunghi), ma riduce l’interferenza. L’interferenza è più rilevante in fonologia e semantica-lessico, meno in sintassi e morfologia (Mioni, 2005).

La Linguistica Acquisizionale italiana ha finora trascurato il livello fonologico (Valentini, 2005). L’acquisizione di una L2 è fortemente condizionata, sotto il profilo fonetico-fonologico, dal sistema della L1 soggiacente e da restrizioni di natura universale. Nel caso dei bambini si aggiungono altre restrizioni che sono legate prevalentemente al programma biologico di sviluppo anatomo-fisiologico, cognitivo ecc. Poiché i primi anni di vita del bambino costituiscono una finestra di opportunità privilegiata per l’acquisizione delle lingue (Bates, 1995), il bambino di famiglia straniera inserito nella scuola dell’infanzia (dai 3 ai 6 anni) è nella condizione ideale per diventare bilingue simultaneo, per apprendere contemporaneamente la lingua materna di casa e l’italiano nel contesto educativo. Il bambino che apprende l’italiano come L2 si ritrova, infatti, a dover far fronte a situazioni in cui, ad esempio, fonemi L1 non esistono in L2 (necessità di sopprimerli) ed altre in cui allofoni contestuali in L1 sono fonemi in L2, e viceversa. Allo stesso modo si rende necessario per il bambino il superamento di altre problematiche a livello cognitivo (categorizzazione dei foni e della fonotassi di L2) e a livello di controllo motorio (acquisizione di abitudini articolatorie del tutto nuove).

Poiché l’obiettivo della presente proposta di lavoro consiste nella messa a punto degli strumenti necessari per uno studio sulla discriminazione e sulla produzione dei suoni consonantici dell’italiano da parte di bambini pre-scolari figli di immigrati, ricorrendo ai metodi della fonologia contrastiva e ispirandoci a Pinton & Zanettin (1998) e Bisiacchi et al. (2005), illustreremo le modalità di stesura di una lista di non parole. Da tale lista sono stati poi estrapolati due test fonetici: uno di discriminazione (uguale-diverso), focalizzato solo sui contrasti tra foni consonantici italiani assenti nelle lingue L2 esaminate e foni in comune, e uno di produzione (ripetizione) dei 23 foni consonantici dell’italiano. L’uso delle non parole è stato in questo caso preferito in quanto, sia durante la discriminazione sia durante la produzione, il bambino impegna la memoria fonologica e il sistema articolatorio, ma non quello semantico/lessicale: il compito di

ripetizione di non parole è stato valutato, ad esempio, come il più potente e affidabile predittore della capacità di acquisizione lessicale in bambini dai 24 mesi in poi (Gathercole, 2006; Stokes & Klee, 2009).

Preliminarmente, oltre ad illustrare le scelte metodologiche e le caratteristiche salienti dei due test corredati di un protocollo di somministrazione, forniremo i dati e i risultati della caratterizzazione sociolinguistica delle correnti migratorie che ci hanno consentito di individuare i quattro gruppi etnici più numerosi (con riferimento al Veneto) su cui compiere le nostre indagini: rumeno, arabo marocchino, albanese e nigeriano (Igbo e Edo).

Per verificare la bontà dei due test, gli stessi sono stati somministrati ad un campione di n. 78 bambini veneti in età prescolare (compresa tra 3 e 6 anni). Il campione costituito dai bambini italiani rappresenta una base di dati di riferimento fondamentale per le successive valutazioni con i bambini stranieri. Infatti, nelle successive fasi della ricerca, la prestazione dei bambini figli di immigrati, oltre ad essere interpretata alla luce della loro “biografia” linguistica (raccolta con un questionario), sarà valutata in rapporto ai loro coetanei italiani.

L’uso combinato dei due test dovrebbe in futuro consentirci di fornire una serie di valutazioni e di informazioni del bambino di tipo più raffinato e dettagliato: grazie al test di produzione, ad esempio, sarà possibile raccogliere delle risposte verbali che potranno poi essere analizzate, sia per il campione di riferimento dei bambini italiani, sia per quelli stranieri, anche con analisi di tipo acustico (come V.O.T. e coarticolazione; vedi ad es. Simon, 2010).

Bibliografia:

Bates, E. (1995 ), Conclusioni, in Il primo vocabolario del bambino. Guida all’uso del questionario MacArthur per la valutazione della comunicazione e del linguaggio nei primi anni di vita, Franco Angeli, Milano, pag. 93-98.

Bisiacchi, P., Cendron, M., Gugliotta, M., Tressoldi, P., Vio, C. (2005), Batteria di valutazione neuropsicologica per l’età evolutiva, Trento: Erikson.

Gathercole, S. E. (2006), Nonword repetition and word learning: The nature of the relationship, Applied Psycholinguistics, 27: 513–543.

MacKay, I. R. A. & Flege, J. (2004), Effects of the age of second-language (L2) learning on the duration of L1 and L2 sentences: The role of suppression, Applied Psycholinguistics 25: 373-396.

Mioni, A. M. (2005), Immigrati e comunicazione interetnica in Italia. Problemi linguistici, sociolinguistici e culturali, Università di Padova, Dipartimento di Discipline Linguisiche, Comunicative e delle Spettacolo, Padova.

Pinton, A., Zanettin, F. (1998), Le abilità fonetiche e fonologiche in età prescolare. Un compito di discriminazione uditiva, in Frasson, Z., Lena, L., Menin, S. (a cura di), Procedure e metodi di trattamento nei disordini della comunicazione, Pisa: Edizioni Del Cerro

Piske T., MacKay I. R. A. & Flege J. E. (2001), Factors affecting degree of foreign accent in an L2: a review, Journal of Phonetics, 29, 191-215.

Simon, E. (2010), Child L2 development: A longitudinal case study on Voice Onset Times in word-initial stops. Journal of Child Language, 37: 159-173

Stokes, S. F., & Klee, T. (2009), Factors influencing vocabulary development in two-year-old children, Journal of Child Psychology and Psychiatry, 50(4): 498-505.

Valentini, A. (2005), Lingue e interlingue dell’immigrazione in Italia, Linguistica e Filologia, 21: 185-208.

La produzione e la percezione dell’Alterità nel parlato delle campagne di comunicazione sociale

A. De Meo, E. Pellegrino, L. Salvati, M. Pettorino

Università di Napoli “L’Orientale”

Il presente lavoro si configura come una ricerca descrittivo-comparativa delle campagne di comunicazione radiofoniche e televisive aventi per tema il razzismo e l’immigrazione, attuate da enti istituzionali e Onlus, dagli anni '90 ad oggi.

Obiettivi della ricerca sono:

23. valutare se, nella rappresentazione e percezione dello straniero e nel tipo di relazione (simmetrica/asimmetrica) tra l’italiano e l’Altro, a parità di campagna, destinatari ed ente promotore, ci siano rilevabili differenze diamesiche linguistiche ed extra-linguistiche nell’erogazione del messaggio;

24. verificare se, al variare del contesto politico, corrisponda un diverso tipo di parlato, con particolare riferimento al livello soprasegmentale.

Il corpus analizzato è costituito dalle seguenti campagne pubblicitarie:

1: No al razzismo, 1990-1991, campagna promossa dalla Fondazione Pubblicità Progresso

2: Progetto Integrazione, 2008-2009, campagna realizzata dal Ministero del Lavoro, della Salute e delle Politiche Sociali

3: Campagna contro i pregiudizi verso i Rom, 2009, attuata dall’Ufficio Nazionale Anti Discriminazioni Razziali (UNAR)- del Ministero per le Pari Opportunità

4: Campagna contro il razzismo, l’indifferenza e la paura dell’Altro, promossa dall’Alto Commissariato delle Nazioni Unite in collaborazione con organizzazioni nazionali e internazionali no-profit.

Una prima fase della ricerca ha analizzato le variazioni diamesiche di ciascuna campagna pubblicitaria e l’efficacia delle scelte linguistiche in funzione degli obiettivi e dei destinatari. È stata condotta un’analisi spettroacustica del corpus, in particolare dei tratti soprasegmentali del parlato: la velocità di articolazione (VDA), la velocità di eloquio (VDE), il range tonale e la fluenza. Tutti i dati sono stati messi in relazione ai destinatari e agli obiettivi delle singole campagne, al fine di valutarne l’efficacia comunicativa. Sono stati altresì considerati i setting, il tipo di relazione tra parlanti italiani e stranieri, nonché gli stereotipi connessi all’immaginario sociale dell’Altro.

Nella seconda fase della ricerca sono state esaminate le relazioni esistenti tra variazioni linguistico-comunicative, contesto socio-politico dell’Italia e ente promotore.

I dati ricavati dall’indagine evidenziano come al variare del canale e del contesto comunicativo corrispondano differenze linguistiche ed extra-linguistiche nella presentazione del messaggio pubblicitario. A titolo esemplificativo si riportano qui alcuni risultati dell’analisi contrastiva tra le campagne “No al razzismo” 1990-1991 e “Progetto integrazione” 2008-2009.

Lo speaker della prima campagna produce un eloquio caratterizzato da una velocità di articolazione bassa, iperarticolato, con pause silenti piuttosto lunghe, tono piatto e basso. Questi dati nel loro complesso stanno a indicare che lo speaker utilizza un parlato prodotto in posizione dominante, finalizzato ad educare un ascoltatore ritenuto non ancora pronto a gestire in maniera adeguata la convivenza multiculturale. Infatti questa campagna è stata realizzata nel periodo in cui l’Italia, con un governo guidato dalla Democrazia Cristiana, iniziava a prendere coscienza del fenomeno dell’immigrazione. Arginare i primi fenomeni di intolleranza nei confronti degli stranieri era infatti l’obiettivo degli organi istituzionali dell’epoca.

Per quanto riguarda la campagna Progetto Integrazione gli spot sono caratterizzati da brevi interazioni fra italiani e stranieri. I dati ricavati dall’analis spettroacustica mostrano significative differenze tra il parlato degli italiani madrelingua e quello degli stranieri. Mentre lo speaker italiano mantiene un parlato simile a quello della prima campagna, quindi ancora una volta in posizione dominante, il parlato dello speaker straniero è tipico della posizione dominata (velocità di articolazione più alta, fluenza maggiore, tono più variato, silenzi più brevi). Questi dati contrastano con l ’obiettivo dichiarato della campagna, ossia “promuovere la conoscenza dei diritti e doveri dei cittadini e dell’esistenza dei percorsi di inclusione sociale dei migranti”. L’analisi della voce dello straniero rivela che il contenuto del messaggio è paradossalmente antitetico rispetto alle finalità della campagna ma in linea con la politica restrittiva della coalizione di destra al governo. La seconda campagna, infatti, è stata realizzata nel 2008-2009, quando l’Italia era governata da una coalizione di destra, che di fronte all’intensificarsi del fenomeno migratorio ha risposto con severe politiche restrittive volte a penalizzare l’immigrazione clandestina.

Dall’analisi dei tratti soprasegmentali del corpus emerge dunque la forte connotazione ideologica delle campagne di

comunicazione sociale. Il contesto comunicativo e il carattere istituzionale o no-profit dell’ente erogatore rappresentano variabili determinanti nel definire lo status sociale e il tipo di rapporto tra gli italiani e stranieri. Tutti i dati saranno discussi in dettaglio.

Empirismo e sociolinguistica cladistica: analisi di una rete di idioletti salentini

A. Gaillard-Corvaglia

Université de la Sorbonne Nouvelle, Paris

La cladistica (dal greco clados = ramo), o sistematica filogenetica, è un metodo classificatorio risalente al 1950, epoca alla quale apparvero i primi lavori dell’entomologo tedesco W. Hennig sull’analisi genetica e tipologica delle specie animali e vegetali. Questo tipo di analisi è raramente applicata a dei dati di “prima mano” e quasi mai utilizzata in sociolinguistica. I risultati ottenuti nell’ambito della nostra ricerca, se da una parte si prestano ad un’analisi sociolinguistica reticolare alla Labov o alla Milroy, dall’altra offrono una prospettiva di tassinomia quantitativa molto solida che si differenzia dall’approccio classico in termini di trattamento statistico dei dati. Termini come “distanza cumulativa, dissonanza, isoglossa”, lasciano ormai il posto ad un’interpretazione più dettagliata delle configurazioni a geometria variabile, visibili sui cladogrammi generati automaticamente dal nostro approccio cladistico.

La cladogenesi esplìcita così la divergenza tipologica e la ramificazione del paesaggio linguistico contemporaneo, interpretabili attraverso la struttura interna di ogni arborescenza. Ciò permette di identificare dei sistemi e dei sotto-sistemi che fanno evolvere la ricerca dialettologica fornendo una classificazione tipologica dei dialetti.

Il metodo analitico qui proposto, e già utilizzato con grande successo nell’ambito della genetica, serve al linguista per osservare le reti di comunicazione parlata rappresentate dai diversi sistemi dialettali, i quali sono dinamizzati dall’analisi sociolinguistica che la cladistica permette di integrare. Esso supera quindi la genealogia tradizionale grazie all’analisi tassonomica che offre i mezzi di classificazione automatizzata utilizzabili anche in microdialettologia e sociolinguistica.

Il corpus utilizzato ai fini della nostra ricerca si compone di 35 variabili fonologiche, fondamentali nel campo filologico dell’Italo-romanzo meridionale. L’analisi si basa principalmente su fenomeni consonantici tipici dei dialetti salentini (lat. grăndem>sal. [rande]/[kranne/ranne]; lat. găllum>sal. [aʦʦu]/[kaʦʦu]; lat. bellum>[bbʦğğu]/ [bbʦʦʦu], ecc..). Le variabili utilizzate sono state raccolte in sei punti d’inchiesta del Salento meridionale attraverso un questionario dialettologico sottoposto a 64 informatori salentini e che prende in considerazione diversi criteri socio-culturali (sesso, età, livello d’istruzione, situazione socio-professionale).

Prima dell’analisi cladistica, il materiale raccolto è stato sottoposto ad un’analisi diacronica che ha consistito a costruire degli alberi di derivazione a partire dalla radice latina. Tali grafici hanno permesso di dettagliare le diverse tappe evolutive delle 35 variabili fonologiche scelte (fig. 1):

Figura 1: esempio di albero diacronico della parola BELLO < bellum; le lettere indicano l’evoluzione dell’etimone latino, mentre i numeri in rosso indicano l’indice di ponderazione applicato ad ogni passaggio evolutivo (da 1 a 5).

Nell’albero evolutivo di BELLUM ogni stato è contrassegnato da una lettera maiuscola (A,B,C, ecc.) e può corrispondere ad una generazione precisa, oppure ad una categoria socioculturale, o ancora ad una variante geografica. I passaggi da uno stato all’altro (A __ B __ C ecc..) sono stati ponderati attribuendo un peso da 1 a 5 (cfr. Markedness Theory di A. Calabrese). Sono poi seguiti i processi di indicizzazione e di orientamento dell’albero (*A>B>C>D ecc.), come anche l’esplicitamento delle relazioni di reversibilità (A:B B:C A:D A:.,dove A può evolvere in B, B in C ma il contrario non è possibile). Le matrici così costituite hanno generato dei cladogrammi come quello della figura 2:

Figura 2: il cladogramma rappresenta la configurazione sociolinguistica a geometria variabile della zona salentina meridionale. I diversi colori indicano le tre fasce d’età: il blu per i locutori appartenenti alla generazione “media” e contrassegnata dal numero 2, il rosa per quelli appartenenti alla generazione dei più “anziani” (1) e il verde per i più “giovani” (3). Le sigle indicano i punti d’inchiesta, mentre le lettere minuscole si riferiscono alle varianti rilevate in ogni varietà studiata.

L’analisi cladistica non ha lo scopo di misurare delle distanze, né di stabilire delle somiglianze o delle corrispondenze regolari tra dialetti; essa mira piuttosto a precisare il grado di parentela o di convergenza strutturale esistente tra le diverse varietà dialettali e tra ogni varietà e il suo «antenato» (contrassegnato dalla lettera A in ogni albero di derivazione). Dopo averla applicata a dei diasistemi dialettali più vasti (come l’area Oïl o quella dell’Italo-romanzo meridionale), vedremo che nel caso del Salento la cladistica permette di analizzare la granularità di una rete sociolettale ristretta incrociando diversi fattori sociolinguistici. Ciò ha l’obiettivo di mettere in luce la divergenza tipologica del paesaggio linguistico che la configurazione interna di ogni cladogramma permette di interpretare tenendo tuttavia conto del polimorfismo e dei doppioni che spesso pongono dei problemi insormontabili negli approcci di tassonomia classica. Questo non sarebbe stato possibile con un metodo di analisi globale o cumulativa.

L’analisi cladistica applicata diventa così uno strumento complementare dei metodi di analisi utilizzati dalla sociolinguistica reticolare di Milroy o Labov, poichè permette di cogliere la reticolarità sociolinguistica a scala microdialettale con dei dati di prima mano. Questo approccio permetterà di discutere e di rivisitare la nozione di reti sociolinguistiche, un concetto centrale nel paradigma della sociolinguistica moderna.

Parole chiave: cladistica, salentino, dialetto, tipologia, fonologia, dialettologia, rete sociolinguistica, comunità linguistica, idioletto.

Focus largo e focus contrastivo: dati articolatori sull’allineamento tonale in itali ano e catalano

A. Stella*, M. M. Vanrell^°, P. Prieto^ ~, B. Gili Fivela*

* CRIL & Università del Salento; ^ Universitat Pompeu Fabra;° Universitat Autonoma de Barcelona; ~ Institució Catalana de Recerca i Estudies Acançats

L'allineamento tonale si riferisce alle relazioni temporali che intercorrono tra i target tonali di un pitch accent (alti (H) o bassi (L)) e la stringa segmentale. Recenti studi riguardanti l’allineamento tonale dal punto di vista articolatorio (D'Imperio et al., 2003, 2007; Prieto et al., 2007; Mücke et al., 2009a, 2009b) hanno dimostrato che in diverse lingue l’allineamento tonale è maggiormente stabile se messo in relazione con i gesti articolatori, piuttosto che con i confini acustici dei segmenti. Inoltre, in Mücke et al. (2009b) viene descritta la coordinazione tra target tonali e tratti sopralaringali nella produzione di accenti tonali ascendenti LH prodotti in catalano centrale e nel tedesco parlato a Vienna, all’interno del Coupled Oscillator Model (Goldstein et al., 2008); questo studio evidenzia che l’onset del gesto tonale LH è strettamente coordinato all’onset del gesto di costrizione orale, e che l'organizzazione gestuale cambia a seconda della lingua: infatti, entrambi i gesti sono realizzati in sincrono in catalano, mentre sono sistematicamente fuori sincrono nel tedesco.

Il presente lavoro è parte di un progetto più ampio che mira alla comprensione delle caratteristiche coinvolte nella produzione e nella percezione di differenti categorie tonali utilizzate nella realizzazione dei foci largo e contrastivo nel catalano di Maiorca, nell’italiano di Lecce e nello spagnolo di Madrid. In queste tre varietà il focus largo è prodotto con un picco di F0 ritardato – L+>H* in catalano e in spagnolo e L+H* in italiano – mentre il focus contrastivo è prodotto con un picco anticipato – L+H* in catalano e spagnolo e H*+L in italiano – vedi fig.1 (per il catalano centrale, cfr. Prieto, D’Imperio & Gili Fivela, 2005; per lo spagnolo, cfr. de la Mota, 1995; Nibert, 2000; Face 2001; Hualde, 2002, 2003; per l’italiano parlato a Lecce, cfr. Stella & Gili Fivela, 2009). Precedenti indagini crosslinguistiche sulla realizzazione di alcuni di questi accenti hanno inoltre dimostrato che il loro allineamento all’interno dei confini acustici di un segmento può differenziarsi di pochi millisecondi (cfr. Prieto, D’Imperio & Gili Fivela, 2005). Date le sottili differenze tra queste realizzazioni, è utile indagare la posizione dei target tonali in relazione agli aspetti dell'organizzazione gestuale della sillaba, per poter determinare in maniera più precisa l’ancoraggio dei toni e quindi la definizione fonologica degli accenti tonali; inoltre, in questo studio sono messe a confronto le realizzazioni di categorie tonali molto simili tra loro in una prospettiva crosslinguistica, introducendo anche varietà linguistiche non ancora studiate.

I corpora utilizzati, infatti, sono stati creati appositamente per permettere una correlazione sia tra dati acustici e articolatori, che tra le realizzazioni nelle tre lingue, nonchè un confronto con i dati già acquisiti per altre lingue (ad esempio, Mücke et al., 2009b per il tedesco). Ogni corpus (uno per ogni lingua) è composto da pseudo-parole target con differenti composizioni segmentali ([m], [n], [l]) e sillabiche (sillabe aperte vs. chiuse) e differenti posizioni di stress (parole parossitone vs. proparossitone). Nel presente lavoro sono analizzati i dati relativi a realizzazioni in sillabe aperte ([na], [ma], [la]) e chiuse ([nan], [mam], [lal]) contenute in parole parossitone e proparossitone (ad es., [mi.'ma.mi], [mi.'ma.mi.la], [mi.'mam.li], [mi.'mam.li.la]). Tali parole sono state inserite in minidialoghi composti da due coppie domanda/risposta, la prima delle quali elicita un'interpretazione con focus largo nella risposta, mentre la seconda elicita un'interpretazione con focus contrastivo. I dati acustici e articolatori sono stati acquisiti con l'articulografo AG500 (Carstens Medizinelektronik) per 3 parlanti nativi di ogni lingua, i quali hanno prodotto 10 ripetizioni del corpus. In questo contributo sono presentati solo i risultati delle produzioni in catalano e italiano (130 token x 6 soggetti).

Si ipotizza che, come nel caso del catalano centrale (cfr. Mücke et al., 2009b), l’onset del gesto tonale e quello del gesto di costrizione orale siano in fase (nei termini del Coupled Oscillator Model - Goldstein et al., 2008) nel catalano parlato a Maiorca, sia per le realizzazioni prodotte con focus largo (L+>H*) che per quelle prodotte con focus contrastivo (L+H*); tale pattern di coordinazione dovrebbe essere valido anche per la realizzazione del focus largo dell’italiano parlato a Lecce (L+H*), sebbene siano attese differenze crosslinguistiche nelle realizzazioni in catalano e in italiano. Parallelamente, sono attesi risultati che permettano di identificare delle differenze nel pattern di coordinazione (relazioni di fase tra gesti vocalici/consonantici e accenti tonali, e ancoraggi articolatori dei target) del pitch accent L+H* da quelli relativi alle altre due categorie considerate in questo studio, cioè L+>H* e H*+L.

La sincronia tra gesti consonantici, vocalici e tonali è stata analizzata misurando la latenza dei target tonali dall’inizio e dalla fine dei gesti consonantici e vocalici, nonché dai loro picchi di velocità. I primi risultati riguardano gli ancoraggi articolatori dei toni e mostrano che essi sono più stabili per il target basso iniziale, mentre c'è una maggiore variabilità nelle misure che coinvolgono il picco di F0; ciò è in linea anche con i risultati ottenuti per il tedesco (Mücke et al., 2010). Inoltre, l'italiano parlato a Lecce mostra una minore latenza nella coordinazione tra target tonali e punti di costrizione massima nelle realizzazioni con focus largo (massima costrizione dei gesti vocalici e consonantici della sillaba tonica per il target basso e post-tonica per il target alto), mentre nelle realizzazioni con focus contrastivo la latenza minore si trova con i picchi di velocità dei gesti (gesto di chiusura per il target basso e gesto di apertura per il target alto, entrambi nella sillaba tonica). Il catalano parlato a Maiorca, invece, mostra una situazione più eterogenea,

dovuta ad una forte variabilità tra i parlanti: sembra esserci una migliore coordinazione dei target tonali con i punti di massima apertura/costrizione per il focus largo (massima costrizione dei gesti vocalici e consonantici della sillaba tonica per il target basso e massima apertura dei gesti vocalici e consonantici della sillaba in fine parola per il target alto), mentre per il focus contrastivo i toni tendono ad essere coordinati in maniera eterogenea sia con punti di massima apertura/costrizione che con picchi di velocità.

Figure

Figura 1: diagrammi dell'allineamento tonale nel focus largo e nel focus contrastivo in catalano e spagnolo (pannello a sinistra) e in italiano (pannello a destra).

Bibliografia: D'Imperio, M., Nguyen, N. and K. G. Munhall (2003), An articulatory hypothesis for the alignment of tonal targets in Italian, in Proceedings of 15th International Congress of Phonetic Sciences, Barcelona, 253-256.

D'Imperio, M., Espesser, R., Lœvenbruck, H., Menezes, C., Nguyen, N. and P. Welby (2007), Are tones aligned with articulatory events? Evidence from Italian and French, in J. Cole and J. I. Hualde (eds.) Papers in Laboratory Phonology IX , Mouton de Gruyter, 577-608.

De la Mota, C. (1995) La representación gramatical de la información nueva en el discurso. Ph.D. dissertation, Universitat Autònoma de Barcelona.

Face, T.L. (2001), Focus and early peak alignment in Spanish intonation, in Probus, 13: 223-246.

Goldstein, L., Nam, H., Saltzman, E. & I. Chitoran (2008), Coupled Oscillator Planning Model of

Speech Timing and Syllable Structure, in Proceedings of PCC2008, Beijing, China.

Hualde, J.I. (2002), Intonation in Spanish and the other Ibero-Romance languages: overview and status quaestionis, in C. Wiltshire and J. Camps (eds.) Romance phonology and variation. Selected papers from the 30th Linguistic Symposium on Romance Languages, pp. 101-116, Amsterdam: John Benjamins.

Hualde, J.I. (2003) El modelo métrico y autosegmental. In P. Prieto (ed.) Teorías de la entonación, pp.155-184. Barcelona: Ariel.

Mücke, D., Grice, M., Becker, J. and A. Hermes (2009a), Sources of variation in tonal alignment: evidence from acoustic and kinematic data, in Journal of Phonetics, 37 (3): 321–338.

Mücke, D., Nam, H., Prieto, P. and L. Goldstein (2009b), Coupling of Tone and Constriction Gestures in Catalan and German. Poster presented at PaPI 2009, 17-18 June 2009, Las Palmas de Gran Canaria.

Mücke, D., Grice, M., Niemann, H., Nam, H. & Goldstein, L. (2010), A gestural account of tonal alignment differences, oral presentation at TIE4 Conference, Stoccolma (Svezia), 9-11 Settembre 2010.

Nibert, H.J. (2000) Phonetic and phonological evidence for intermediate phrasing in Spanish intonation. Ph.D. dissertation, University of Illinois at Urbana-Champaign.

Prieto, P., D’Imperio, M. and B. Gili Fivela (2005), Pitch Accent Alignment in Romance: Primary and Secondary Associations with Metrical Structure, in Language and Speech, 48 (4): 359-396.

Prieto, P., Mücke, D., Becker, J. and M. Grice (2007), Coordination patterns between pitch movements and oral gestures in Catalan, in J. Tourvain and W. J. Barry (eds.) Proceedings of the XVIth International Congress of Phonetic Sciences, Pirrot GmbH, Dudweiler: 989-992.

Stella, A. and B. Gili Fivela (2009), L'intonazione interrogativa nell'italiano parlato in area leccese., in Atti del IV Convegno Nazionale AISV, 3-5 dicembre 2007, Università della Calabria, Arcavacata di Rende (CS), EDK Editore SRL: 260-293.

L+H* Focus contrastivo

L+>H* Focus largo

H*+L Focus contrastivo

L+H* Focus largo

Catalano (varietà di Maiorca) e spagnolo (varietà di Madrid) Italiano (varietà di Lecce)

Syntax and intonation of focus perception in Greek

Nikolaenkova et alii

University of Athens

Introduction

The present study investigates focus perception as a function of intonation and word order structures in Greek. This work is an attempt to bring experimental evidence for answering the question whether and to what degree it is syntax or intonation the basic linguistic factors for focus distinctions. To this end the following questions were addressed in this study:

o What is the effect of word order for focus perception in oral speech and in written speech?

o What is the effect of intonation for focus perception with regards to its local and global structures?

o What are the interactions between word order and intonation for focus perception?

Experimental methodology

The speech material for the present study consists of a Greek declarative sentence “i me-LI-na MA-lo-ne ti-MA-na-mu” (Melina was arguing with my mother). For the purpose of the experiment one speaker was instructed to answer questions designed to elicit all focus placements possible for the utterance. Thus, focus placement was in four basic positions: neutral, S-focus, VP-focus and O-focus. A female native speaker of Greek, in her late twenties, was recorded producing the utterances seated in a sound treated booth at the University of Athens Phonetics Laboratory. The speech material was recorded directly to computer disk using the PRAAT software package.

For the first part of the experiment three series of manipulations on the originally recorded sentence have been made: word order manipulation, intonation manipulation and combination of both.

The first set, word order manipulated stimuli, was based on neutral utterances where the word order was changed by cutting and dislocating one lexical unit each time.

The second set of stimuli was based on natural focus productions where the naturally produced intonation contour was manipulated by replacing the prominent unit by the same lexical unit cut from the naturally produced neutral utterance.

The third set of stimuli consisted of utterances involving both word order manipulations and intonation manipulations. In this case the intonation contour of the utterance was neutral and the lexical units replaced were cut from the naturally produced utterances with focus.

The experiment was based on an exclusively designed computer application. It was calling 27 WAV files organizing them in 10 sets with different order of stimuli every time. Each listener was instructed to pick the most prominent unit if any, while there was also a “none” option. All options were visualized in four interactive buttons. The time interval between the stimuli was 1,5 sec giving no return or break option – missed stimuli were ignored. The listeners could only take breaks between the sets.

The first part of the experiment yielded 2700 responses (27 utterances x 10 repetitions x 10 listeners).

The second part of the experiment involved the 6 utterances as in the first part described above. 10 informants were presented a list of utterances printed each on a separate page, where they had to choose the most prominent unit. Informants who had participated to the second part had not participated in the first part in order to avoid possible interaction.

Results

Preliminary results of the present study, based on the experimental methodology and investigated material described previously, indicate that:

25. The impact of word order on focus perception seems to be rather insignificant with reference to oral speech: the speech material shows that no word order is a perceptual correlate of focus for over 40% of identification. On the other hand, the results of written speech perception showed high identification rates (>80%), supporting once more the results of our previous research on syntactic correlates of focus being dislocation of the prominent unit to the initial position (Botinis et. al, 2005).

26. Intonation manipulations resulted in very high identification rates of focus (80-90%). Nevertheless the third group of stimuli, where focus was applied locally and put against word order change, had low perception rates. The most confusing in this group were the stimuli with focus applied to VP and O. The experiment showed, on one hand, that focus identification rates were rather high (>80%) when the respective contour remained intact while, on the other hand, the utterances where only the prominent unit was bearing local tonal correlates of focus had extremely low perception rates (<10%) sounding rather confusing.

27. Comparing identification rates of the first set of stimuli involving only syntactic manipulations with the perception rates for the second set of stimuli, where the global tonal effect of focus was tested, we can conclude that global tonal effect seems to be stronger connected with perception of focus than the word order. The statistic analysis showed that there seems to be very little correlation between word order and focus-identification.

Discussion and Conclusions

In accordance with the results of the present study, intonation is the most efficient way of denoting focus as the perception experiment showed no word order perception correlation to any focus placement. Here our results agree with previous studies confirming that prosody should be regarded as a primary cue of focus perception (Botinis 2000). Dislocation of the prominent unit to the initial position constitute syntactic correlate of focus in Greek but mainly for written language, whereas local tonal expansion in relation to global compression of the tonal range is the tonal correlate of focus for spoken language (Baltazani & Jun 1999). Although focus has both local and global tonal correlates, which have been evidenced in several studies for Greek, it is the global tonal compression that determines focus perception rather than any local tonal variability of the prominent units (Botinis 2000).

The results of the present study reveal the necessity of studying focus in terms of bringing communicative functions together with the linguistic correlates in order to create a unite matrix of multifactor units for both focus production and perception.

Produzione e percezione di nessi consonanti non nativi

S. D’Apolito

CRIL, Università del Salento

Il presente studio osserva come apprendenti italofoni producano e percepiscano sequenze eterosillabiche di sibilanti in francese e come la velocità di eloquio possa influenzare la produzione e la percezione di queste sequenze. Le sibilanti saranno analizzate, dal punto di vista acustico e percettivo, per osservare la coarticolazione tra nessi consonantici e la realizzazione di eventuali fenomeni fonologici, quali l’assimilazione di luogo di articolazione. Nella lingua italiana, sequenze consonantiche eterosillabiche si trovano prevalentemente in prestiti ormai di uso comune, salvo alcune eccezioni: preposizioni, articoli e contesti in cui si verifica troncamento [4;7], in ogni caso relativamente a /n r l/.

Alcune sequenze di sibilanti sono state studiate in uno studio sull’assimilazione in francese all’interno di nessi consonantici [8]. Sequenze di sibilanti alveolari e post-alveolari sono state osservate al confine di parola a velocità normale di eloquio. I risultati mostrano, dal punto di vista acustico, la realizzazione di assimilazione del luogo di articolazione, benché in letteratura si affermi l’inesistenza del fenomeno in francese [12].

L’indagine descritta in questo articolo fa parte di un ampio progetto sullo studio della coarticolazione dal punto di vista acustico, percettivo e cinematico ed, in particolare, delle strategie coarticolatorie realizzate dagli apprendenti italofoni in francese. L’ipotesi è che ci sia un differente grado di coarticolazione nella produzione di nessi consonantici pronunciati da nativi e da apprendenti italofoni di francese L2. Inoltre, si ipotizza che il grado di coarticolazione vari a seconda dei segmenti coinvolti, per cui esso possa essere maggiormente influenzato dalle caratteristiche fonologiche e fonetiche della L1 o avvicinarsi a quelle della L2; oppure, in alcuni casi, potrebbe risultare un grado intermedio [10]. In questa sede, i nessi consonantici studiati saranno osservati sulla base di alcune indagini acustiche e percettive.

Sequenze di fricative alveolari e palatali sono state osservate al confine di parola all’interno del contesto vocalico /a_i/, quando venivano proposte all’interno di una frase cornice. A differenza dello studio [8], due altri fattori sono stati considerati: velocità di eloquio e due differenti confini prosodici che separano i segmenti. La velocità di eloquio è un importante fattore nello studio sulla coarticolazione [1] poiché una maggiore velocità di locuzione la facilita. Il corpus è stato, pertanto, letto sia a velocità normale che sostenuta. Inoltre, i contesti sono stati inseriti all’interno di due differenti condizioni prosodiche: le consonanti erano adiacenti (non separate da confine, essendo ai margini di un sintagma fonologico) oppure separate da un confine (si trovavano in due sintagmi intonativi diversi); la presenza di un confine prosodico può infatti interferire con il processo coarticolatorio riducendone la sovrapposizione [2]. Tre apprendenti italofoni di francese L2 hanno letto le frasi per 7 volte a due velocità di eloquio. Dati acustici (raccolti simultaneamente a dati articolatori- EMA e ecografo, di cui non parleremo in questa sede) sono stati etichettati e misurati in PRAAT e Matlab.

L’etichettatura ha interessato:

28. Segmenti della sequenza V1C1#C2V2, includendo l’eventuale inserimento di schwa (V0) e/o pausa

29. Tre punti nella parte stabile delle vocali (V1, V2 eV0) e un punto nella parte centrale di transizione (V1, V2 e V0).

Le misurazioni effettuate sono :

o Valori di durata di tutti i segmenti

o Valore medio e range (minimo e massimo) del Centro di Gravità (CoG) in Hz per ciascuna sibilante

o Valori di F1, F2 e F3 per ciascuna vocale.

Inoltre, da parte dell’autore è stata effettuata un’analisi uditiva al fine di verificare la realizzazione dei nessi consonantici e dei confini prosodici.

I risultati acustici discussi riguardano principalmente la misurazione del CoG, che è il valore medio delle frequenze sull’intero dominio frequenziale in base all’ampiezza [5]. Il CoG fornisce informazioni sul luogo di articolazione delle fricative ed è, pertanto, un’utile misurazione per distinguere le fricative alveolari e palatali sia dal punto di vista acustico che percettivo.

Dai primi risultati ricavati per due parlanti, si osserva come le produzioni in francese da parte di apprendenti italofoni siano maggiormente influenzate dalle caratteristiche della L1. Per ovviare alla difficoltà di pronuncia di un nesso non nativo, come descritto in letteratura [3;9], entrambi i parlanti inseriscono uno schwa all’interno del nesso, per cui i due segmenti risultano essere distanti. Questo comportamento linguistico è stato riscontrato per entrambe le condizioni prosodiche e velocità di eloquio, sebbene ad una velocità di eloquio più sostenuta solo un parlante realizzi lo schwa. I risultati relativi al CoG mostrano la distinzione tra fricative palatali e alveolari (palatali con valori medi intorno 5-6.5Khz; alveolari con valori medi intorno 6.8-9Khz). Per i nessi /ʦs/ e /ʦs/, sono stati osservati, nelle produzioni di un solo parlante, pochi casi di assimilazione progressiva di luogo in cui le fricative alveolari presentano valori medi di

CoG simili ai valori delle palatali. Risultato confermato anche dall’analisi uditiva effettuata dall’autore: i pochi casi di assimilazione sono stati, infatti, percepiti come un unico segmento palatale.

Per quanto riguarda il test percettivo, si è fatto riferimento agli studi di Nowak e Padgett e Zygis [9;11] in cui si osserva il ruolo della transizione vocalica e della fricazione nella percezione delle sibilanti del polacco. I risultati mostrano che anche soltanto la fricazione è un elemento sufficiente a distinguere le fricative del polacco. Prendendo spunto dai lavori suddetti, gli stimoli per il test percettivo sono stati costruiti nel seguente modo: dalle produzioni degli apprendenti sono state estratti i due segmenti (C1;C2) eliminando le vocali adiacenti (V1, V2 e V0) in modo da ottenere stimoli privi di qualsiasi informazione relativa alla transizione formantica. In questo modo la fricazione è l’elemento principale al quale i soggetti possono avere accesso per identificare la fricativa. I due segmenti estratti sono stati concatenati al fine di ottenere un continuum aggiungendo 1s di silenzio prima e dopo il nesso. Sono stati creati due blocchi in base alla velocità di eloquio. Gli stimoli sono stati presentati, secondo un ordine casuale con un intervallo di 3s, per 3 volte a 10 soggetti attraverso le cuffie. I due blocchi sono stati somministrati due volte: i soggetti dovevano identificare il primo segmento durante la prima sessione, il secondo nella seconda sessione. I soggetti dovevano cliccare sulla casella appropriata il più velocemente possibile.

Le misurazioni effettuate sono:

Percentuale delle risposte corrette

Tempo di reazione per le risposte corrette, misurato a partire dall’inizio del file audio.

Un’alta percentuale di risposte corrette e un valore basso del tempo di reazione sono stati considerati indici del fatto che la fricazione sia un elemento saliente nella percezione del luogo di articolazione [6].

I primi risultati mostrano che la fricazione è un importante elemento nella percezione delle fricative e nel distinguerle in base al luogo di articolazione. I risultati relativi al CoG vengono confermati anche dal punto di vista percettivo, poiché le fricative alveolari e palatali sono ben percepite e distinte. Anche i casi di assimilazione progressiva sono effettivamente percepiti come tali.

Riferimenti bibliografici

[1] Byrd, D., Tan, C.C. 1996. Saying consonant clusters quickly. Journal of Phonetics 4, 263-282.

[2] Byrd, D., Choi, S., 2006. At the juncture of prosody, phonology, and phonetics – The interaction of phrasal and syllable structure in shaping the timing of consonant gestures, Proc. of the 10th Conference on Laboratory Phonology, June 29- July 1, Paris.

[3] Davidson, L. 2006. Phonology, phonetics or frequency: influences on the production of non-native sequences. Journal of Phonetics 34, 104-137.

[4] Farnetani, E., Busà, M.G. 2004. Italian clusters in continuous speech. Proc. of the 3rd ICSLP, vol. 1, 359-362, Yokohama, Japan.

[5] Gordon M., Barthmaier P., Sands K. 2002. A cross-linguistic study of voiceless fricatives. JIPA vol. 32, 133-139.

[6] Kochetov, A., So, C., K. 2007. Place assimilation and phonetic grounding: a cross-linguistic perceptual study. Phonology, 24, pp. 397-432.

[7] Muliacic, Z. 1973. Fonologia della lingua italiana. Ed. Il Mulino, Bologna.

[8] Niebuhr O., and al.. 2008. On place assimilation in French sibilant sequences. Proc. of the VII ISSP, 221-224, Strasbourg, France.

[9] Nowak P. M. 2006. The role of the vowel transition and fricative noise in the perception of Polish sibilants. Journal of Phonetics, 34, 139-152.

[10] Oh, E., 2008. Coarticulation in non-native speakers of English and French: an acoustic study. Journal of Phonetics, 36, 361-384.

[11] Padgett J., Zygis M., 2010. A perceptual study of Polish fricatives and its relation to historical sound change. Journal of Phonetics, vol. 38 (2), pp. 207-226.

[12] Walker, D.C. 1982. On a phonological innovation in French. Ed. Cambridge University Press, vol. 12, 72-77.

L’intonazione della varietà genovese: una prima ricognizione

C. Crocco

Universiteit Gent, Belgium

Il presente lavoro costituisce una prima indagine sull’intonazione della varietà genovese.

Lo studio si inserisce nel quadro delle ricerche sull’intonazione regionale dell’italiano e esamina una varietà settentrionale la cui fonologia intonativa è ancora poco nota.

L’indagine è basata su un campione di parlato semi-spontaneo (non pianificato) tratto da sei dialoghi orientati (tre map task e tre test delle differenze; Carletta et al. 1996; Pean et al. 1993) raccolti nel corpus CLIPS (www.clips.unina.it; Albano Leoni 2003; Savy e Cutugno 2009).

Il campione esaminato consta di enunciati con intonazione dichiarativa e interrogativa estratti dal contesto dialogico e prodotti da diversi locutori. Nel caso delle dichiarative l’analisi del parlato dialogico è stata integrata attraverso confronti con il parlato letto presente in CLIPS, prodotto dagli stessi parlanti coinvolti nei dialoghi orientati. Per quanto riguarda l’analisi del tipo interrogativo, invece, sono state considerate soltanto le domande polari prodotte nel contesto dialogico.

L’analisi è incentrata sui toni accentuali nucleari presenti nelle strutture a focus ampio e a focus ristretto non contrastivo. Per le strutture a focus ristretto sono stati analizzati enunciati (interrogativi e dichiarativi) con dislocazione a destra. Tali enunciati presentano infatti una struttura sintattica tra loro simile, oltre a essere relativamente frequenti nel corpus.

Lo studio si prefigge di elaborare una prima sistematizzazione dei dati, in vista di una più approfondita analisi basata sui principi della fonologia autosegmentale-metrica (Ladd 1996). In questa sede, quindi, sono avanzate proposte preliminari per l’analisi fonologica dei fenomeni accentuali presenti nella varietà considerata.

I risultati dell’analisi sono posti a confronto con quelli provenienti da studi su altre varietà, allo scopo di evidenziare eventuali affinità o differenze strutturali con altri italiani regionali la cui fonologia è stata già esaminata in maggior dettaglio.

Bibliografia:

Albano Leoni, F., 2003, Tre progetti per l'italiano parlato, in Maraschio N., Poggi Salani T. (a cura di), Italia linguistica anno Mille. Italia linguistica anno Duemila, Bulzoni: Roma, 675-683.

Carletta J., Isard A., Isard S., Kowtko J., Doherty-Sneddon G., Anderson, A., 1996, HCRC dialogue structure coding manual, HCRC/TR-82, Human Communication Research Centre, University of Edinburgh.

Ladd R.D., 1996, Intonational Phonology, Cambridge: Cambridge University Press.

Pean V., Williams S., Eskenazy M., 1993, The design and recording of icy, a corpus for the study of intraspeaker variability and the characterisation of speaking styles, in Proceedings of Eurospeech 1993, Berlin, pp. 627-630.

Savy R., Cutugno F., 2009, CLIPS. Diatopic, diamesic and diaphasic variations in spoken Italian, in Proceedings of Vth Corpus Linguistic Conference, Liverpool, 20-23/7/2009.

scarica il booklet degli abstract in formato .pdf

Documents