corpora e strumenti danalisi non prodotti in dipartimento

Corpora e strumenti d’analisi non prodotti in Dipartimento

Corpora a cui si ha accesso

Italiano Inglese Inglese antico e medio Tedesco Provenzale Spagnolo

Strumenti d’analisi

Programmi di concordanze- MonoConc versione 1.0 (Lombardi Vallauri)

- DBT Programmi di gestione del suono e

analisi acustica - Goldwave - Winpitch (Mereu) - Wavesurfer

Corpora di italiano

Archivio API (Frascarelli)

Corpus Coris (Nuccorini)

Corpus Lablita

Corpora di inglese contemporaneo

The Bank of English (Nuccorini) The British National Corpus (Nuccorini) The International Corpus of English

(Nuccorini)

Corpora di inglese antico e medio

The Helsinki Corpus of English Texts: Diachronic and Dialectal (Hart)

Corpora di tedesco

Corpus Koesters

Kiel Corpus of Read and Spontaneous Speech

Corpora di spagnolo

Corpus oral de referencia del español contemporáneo

Corpora di provenzale

Trobadors (Giannetti)

L’Archivio API

L’Archivio di Parlato Italiano) è il prodotto di un progetto cofinanziato iniziato nel 1999 e

conclusosi nel 2001, coordinato da Federico Albano Leoni dell’Università di Napoli. L’API è

costituito da un corpus di italiano parlato, l’AVIP (Archivio delle Varietà di Italiano Parlato)

analizzato da strumenti software per l'etichettatura fonetica, morfosintattica e pragmatico-testuale. Il

corpus AVIP è costituito da testi di parlato semi-spontaneo raccolto attraverso la tecnica del Map

Task e di italiano parlato elicitato mediante immagini in bambini udenti e sordi, per un totale di 3,5

ore. I dati sono stati raccolti a Pisa, Napoli e Bari. Le trascrizioni e le annotazioni, nonché le

registrazioni delle sessioni di elicitazione sono raccolte in un DVD di cui il dipartimento ha diverse

copie.

Per altre informazioni e per accedere all’API ci si può rivolgere alla dottoressa Paola Pietrandrea.

Il Corpus Coris

Il CORpus di Italiano Scritto (CORIS), nato da un progetto dell’Università di Bologna

coordinato a partire dal 1998 da Rema Rossini Favretti, è un corpus generale di italiano

scritto che contiene 100 milioni di parole ed è aggiornato tramite un corpus di

monitoraggio inglobato con cadenza biennale. E' costituito da una raccolta di testi,

autentici e ricorrenti nell'uso, in formato elettronico, selezionati come rappresentativi

dell'italiano attuale. Il corpus include testi tratti dalla nazionale e locale, specialistica e

non specialistica, testi di narrativa italiana o tradotta in italiano, per adulti, per ragazzi,

testi di prosa accademica, di prosa giuridico-amministrativa, miscellanea e ephemera. Il

corpus è accessibile su Internet e interrogabile attraverso un programma di concordanze.

Il dipartimento dispone di diverse password di accesso al corpus. Per altre informazioni

e per accedere al corpus ci si può rivolgere alla professoressa Stefania Nuccorini.

Il Corpus LABLITA

Il LABoratorio Linguistico del Dipartimento di ITAlianistica dell’Università di Firenze diretto da

Emanuela Cresti, raccoglie dal 1973 corpora di italiano parlato da adulti e da bambini e corpora di

italiano trasmesso. In particolare ha:

- 5 corpora di monologhi, dialoghi e conversazioni tra adulti con presa di turno libera o regolata

per un totale di 62 ore di registrazione e 130 testi di lunghezza variabile dalle 2 ore ai 5 minuti;

- 3 corpora di dialoghi tra adulti e bambini di età compresa tra i 12 e i 36 mesi, per un totale di

circa 95 ore di registrazione e 293 testi;

- 2 corpora di parlato trasmesso, uno dei quali costituito dalla trascrizione integrale di 12 film per

un totale di 21 ore e l’altro dal costituito dal campionamento di 20 ore di lingua radiofonica e

televisiva.

Il Corpus LABLITA

I corpora di LABLITA sono consultabili presso il laboratorio dietro accettazione di condizioni

esplicite relative alle modalità di citazione e di utilizzo all'interno di programmi di ricerca

formalizzati.

Il dipartimento dispone, però di un accesso diretto ad una selezione dei corpora LABLITA, quella

pubblicata nel libro “Corpus di Italiano Parlato” di Emanuela Cresti, Accademia della Crusca,

Firenze, 2000. Si tratta di un’antologia di monologhi, dialoghi e conversazioni, raccolte per lo più a

Firenze, per un totale di 7 ore, 11 minuti e 54 secondi. Il corpus è disponibile nella trascrizione in un

formato CHAT implementato per la rappresentazione dell’articolazione dell’informazione. Di alcuni

testi è disponibile anche la registrazione audio su CD-ROM.

Per altre informazioni e per accedere al corpus ci si può rivolgere alla dottoressa Paola Pietrandrea.

The Bank of English

E’ un corpus di inglese contemporaneo scritto e parlato. Conta ad oggi circa 450 milioni di parole, ma è

continuamente aggiornato ed ampliato. Il progetto è stato lanciato nel 1991 da COBUILD (una divisione

di Harper Collins Publishers) e dalla University of Birmingham. Ed è diretto da John Sinclair della

University of Birmingham e Fred Karlsson dell’università di Helsinki. I testi scritti sono tratti da

giornali, riviste, libri di narrativa o saggistica, brochures, volantini, relazioni, lettere, ecc. I testi parlati

sono rappresentati da trascrizioni di conversazioni spontanee, trasmissioni radiofoniche, riunioni,

interviste, discussioni, ecc. La gran parte dei testi sono stati raccolti dopo il 1990. Il corpus è etichettato a

livello morfologico e sintattico. E’ possibile accedere all’intero corpus solo a Birmingham, esiste però

una versione on-line ridotta e non etichettata che conta 52 milioni di parole a cui il dipartimento ha

accesso. E’ possibile interrogare ciascuno dei 12 sottocorpora che formano la versione ridotta,

selezionare varietà diverse di lingua, ottenere stringhe con circa 5 o 6 righe di contesto.

Per altre informazioni e per accedere al corpus ci si può rivolgere alla professoressa Stefania Nuccorini.

The British National Corpus

E’ un corpus di inglese contemporaneo scritto e parlato. Conta 100.106.008 parole. Creato da un

consorzio tra Oxford University Press, Addison-Wesley Longman, Larousse Kingfisher Chambers e i

centri di ricerca Oxford University Computing Services, Centre for Computer Research on the English

Language della Lancaster University e il Research and Innovation Centre della British Library, il corpus

è stato completato nel 1994 e pubblicato nel 1995. Scopo del corpus è rappresentare il maggior numero

possibile di varietà dell’inglese contemporaneo. La parte scritta (90%) include, fra gli altri, estratti di

giornali regionali e nazionali, periodici specialistici per ogni età ed interesse, libri accademici, lettere

pubblicate e non pubblicate, note, saggi scolastici ed universitari.

The British National Corpus

La parte parlata (10%) include conversazioni spontanee tra parlanti di diverse età e classi sociali, accanto

a produzioni parlate raccolte in contesti che vanno da incontri politici o di affari, a trasmissioni

radiofoniche e conversazioni telefoniche. I 4124 testi da cui è composto sono etichettati per classe di

parola. E’ integrato con il sofisticato software di ricerca SARA. Il dipartimento dispone di una copia in

CD da utilizzarsi su piattaforma Linux. E’ inoltre disponibile la guida di G. Aston e L. Burnard, The

BNC Handbook. Exploring the British National Corpus with SARA, Edinburgh Textbooks in Empirical

Linguistics, Cambridge 1998. Per altre informazioni e per accedere al corpus ci si può rivolgere alla

professoressa Stefania Nuccorini.

The International Corpus of EnglishThe International Corpus of English nasce nel 1990 da un progetto coordinato da Gerard Nelson dell’University College

di Londra che, sviluppando il precedente Survey of English Usage, si prefigge confrontare le varietà di inglese scritte e

parlate in 15 diversi paesi. Sono per ora disponibili su CD i corpora raccolti in India, Filippine, Singapore, Kenya e

Tanzania, Gran Bretagna, Nuova Zelanda. Ciascuna componente raccoglie 500 testi di circa 2000 parole, per un totale di

circa 1.000.000 di parole. Autori e parlanti dei testi hanno dai 18 anni in su, sono uomini e donne che hanno ricevuto la

loro istruzione scolastica in lingua inglese. I corpora di parlato includono dialoghi e monologhi di vario registro

(conversazioni private telefoniche o prodotte in contesti faccia a faccia , dibattiti pubblici, trasmissioni televisive, incontri

d’affari, ecc. ). I corpora di scritto includono testi di prosa accademica, divulgativa, giornalistica, narrativa, opuscoli di

istruzioni e testi non pubblicati come saggi di studenti, lettere, ecc. I corpora di lingua parlata sono trascritti

ortograficamente con annotazioni che indicano pause, sovrapposizioni, esitazioni, false partenze e turni I testi sono

etichettati a livello morfologico e sintattico.Il dipartimento dispone di copia del British Component su CD. Per altre

informazioni e per accedere al corpus ci si può rivolgere alla professoressa Stefania Nuccorini.

The Helsinki Corpus of English TextsE’ un corpus nato da un progetto avviato nel 1984 e diretto da Matti Rissanen e Ossi Ihalainen

dell’università di Helsinki, che raccoglie varietà diacroniche e dialettali della lingua inglese. La parte

diacronica è composta da testi scritti dal 750 al 1700. La parte dialettale è composta da trascrizioni di

interviste con parlanti di dialetti britannici rurali raccolte a partire dagli anni 70. La lunghezza dei testi

raccolti nella parte diacronica varia tra le 2000 e le 10000 parole, per un totale di 1.572.800 parole. Il

numero di testi è bilanciato per provenienza regionale, registro, caratteristiche sociolinguistiche. La parte

dialettale conta 406600 parole e comprende interviste raccolte nell’East-Anglia, nel South-West, nello

Yokshire e nella regione iralndese del Clare. Il dipartimento dispone di copia della parte diacronica su

CD.

Per altre informazioni e per accedere al corpus ci si può rivolgere al professor David Hart.

Il Corpus Koesters

Il corpus è stato raccolto nel 1996 da Sabine Koesters per la sua tesi di dottorato “La morfologia flessionale nel

substandard tedesco: forma e funzione. Analisi di un corpus parlato” discussa presso l’Università Roma Tre nel 1997,

relatore il professor Raffaele Simone e rielaborata nella monografia “Die Flexionsmorphologie im gesprochenen

deutschen Substandard” pubblicata da Gunter Narr Verlag nel 2004.

E’ costituito da 4 ore di parlato per un totale di 50000 parole grafiche. Obiettivo del corpus è rappresentare una varietà

substandard di tedesco prodotto in condizioni quanto più possibile naturali. Per questo sono stati registrati dialoghi tra

l’osservatrice e 5 donne e 3 uomini di età compresa tra 28 e i 35 anni, con una bassa scolarizzazione. I dialoghi hanno

tutti carattere autobiografico, sono stati registrati solo dopo che si era creata una certa familiarità tra l’osservatrice e i

parlanti, ai quali è stato comunque taciuto l’interesse linguistico della ricerca. I rari interventi dell’osservatrice danno un

carattere monologico alle produzioni. Il corpus è composto dalle trascrizioni fonetiche delle registrazioni.


The Kiel Corpus of Read and Spontaneous SpeechIl Kiel Corpus è costituito da campioni di tedesco letto e spontaneo raccolti a partire dal 1990 presso

l’Institut für Phonetik und digitale Sprachverarbeitung dell’Univeristà di Kiel.

Il corpus di lingua letta è costituito dalla lettura di 500 frasi (per un totale di 5000 parole grafiche) da

parte di 27 uomini e 26 donne. Le registrazioni sono campionate a una frequenza di 16 Hz e ad una

risoluzione di 16 bit. I testi sono trascritti con una trascrizione ortografica, una trascrizione fonemica

canonica ed etichettati per caratteristiche di produzione fonetica.

Il corpus di lingua spontanea è costituito da 31 dialoghi spontanei ed elicitati prodotti da 26 parlanti,

articolati in complessivi521 turni per circa 9300 parole grafiche. Le registrazioni sono campionate a una

frequenza di 16 Hz e ad una risoluzione di 16 bit. I testi sono trascritti con una trascrizione ortografica,

una trascrizione fonemica canonica ed etichettati per caratteristiche di produzione fonetica.


Corpus oral de referenciadel español contemporáneo

Il corpus è stato raccolto tra il 1991 e 1992 presso l’Università Autonoma di Madrid, sotto la direzione di

Francisco Marcos Marín grazie ad un contributo di IBM España.

E’ costituito da produzioni orali di vario genere: dalle conversazioni familiari, a conversazioni in contesti

educativi, a dibattiti pubblici, interviste, fino a monologhi di carattere scientifico, umanistico, politico,

religioso, ecc. Raccoglie un totale di 1.100.000 parole grafiche. I testi sono classificati per tipologia

testuale e caratteristiche del parlante, trascritti ortograficamente ed etichettati per caratteristiche fonetiche

della produzione.


Trobadors

(dalla prefazione di Rocco Distilo)

“Trobadors” contiene l'intero corpus della lingua trobadorica così come definito dal «Répertoire

mètrique» di Frank. I testi sono desunti dalle edizioni più recenti o maggiormente accreditate e i dati

testuali sono stati integrati da una serie di informazioni complementari circa il genere, la cronologia, lo

schema metrico e i manoscritti relatori, in modo che i risultati delle ricerche lessicali possono essere

incrociati con ogni categoria extra-testuale. Il software di interrogazione, corredato di una guida in linea

in italiano, inglese e francese, consente ogni tipo di ricerca lessicale, e dedica particolare attenzione alla

individuazione delle co-occorrenze.

Il corpus è attualmente interrogabile per forma grafica. L'interrogazione, che è prevista in due modalità,

rapida e avanzata, può essere condotta selezionando:

- l'intero corpus di testi

- i testi appartenenti ad un genere (canso/vers, cobla, descort, lai, partimen, pastorela, planh, sirvantes,

tenso)

- i testi di un solo autore

Trobadors

Il programma di ricerca, oltre a fornire i riferimenti topografici essenziali e la frequenza diciascuna

forma, consente di visualizzare altri dati complementari concernenti ogni singola occorrenza:

- il testo della strofe in cui la forma è compresa, della strofe precedente e di quella seguente

- l'incipit e l'explicit del componimento

- lo schema metrico (da Frank o dall'edizione di riferimento)

- i dati bibliografici dell'edizione di riferimento

- le sigle dei manoscritti con la relativa attribuzione (da BdT)

Il cd-rom contiene inoltre il collegamento diretto con le maggiori banche dati della lirica europea

presenti in Internet.

Il dipartimento dispone di copia del CD. Per altre informazioni e per accedere al corpus ci si può

rivolgere al dottor Andrea Giannetti.

DBT

Il DBT, Data Base Testuale, è un software di analisi testuale e di interrogazione "full-text" sviluppato da

Eugenio Picchi presso l’Istituto di Linguistica Computazionale del CNR di Pisa. E’ costituito da un

componente di interrogazione, il DBT- Corpus, che permette di creare banche dati testuali costituite da

insiemi omogenei di testi. Con DBT-corpus è possibile operare sull'intero corpus di testi

contemporaneamente anche definendone interattivamente sotto-corpora secondo le esigenze della ricerca

da effettuare. Permette di ottenere liste di concordanze, dispone di procedure di supporto alla

lemmatizzazione.

Per altre informazioni e per l’accesso al programma rivolgersi alla dottoressa Paola Pietrandrea.

Goldwave

E’ un software che gira su piattaforme Windows utile alla digitalizzazione di segnale audio analogico e

alla gestione di file audio.

Permette di digitalizzare il segnale proveniente da microfoni, audiocasette o da vinile. Una volta

acquisiti, i file possono essere convertiti in uno dei seguenti formati audio: wav, wma, mp3, ogg, aiff, au,

vox.

I file possono inoltre essere tagliati e campionati alla frequenza e risoluzione volute.

Il software permette infine di osservare rapidamente la qualità del segnale audio e l’eventuale

utilizzabilità per analisi acustiche.

Per informazioni rivolgersi alla dottoressa Paola Pietrandrea.

Winpitch

E’ un programma di analisi acustica specializzato nell’estrazione della frequenza fondamentale,

sviluppato da Philippe Martin. Gira su piattaforme Windows. Permette di condurre analisi

spettrografiche e prosodiche in tempo reale, di condurre analisi statistiche dei risultati e di ottenere

sintesi dei segnali analizzati. L’installazione di Winpitch è vincolata da una chiave hardware. Di

conseguenza il software si può utilizzare solo su 3 postazioni pc del Dipartimento. Per informazioni ci si

può rivolgere alla professoressa Lunella Mereu.

Wavesurfer

E’ un software libero di visualizzazione e manipolazione dei suoni, creato presso il centro per la

tecnologia del discorso del KTH di Stoccolma, Svezia. E’ stato creato per adattarsi alle esigenze di

utenti più o meno esperti. Permette di condurre analisi spettrografiche e della frequenza fondamentale

attraverso un’interfaccia semplice e intuitiva. Può essere impiegato nell’analisi e sintesi dei segnali.

Garantisce un versatile strumento di annotazione della curva. Dialoga con applicazioni più avanzate. Può

essere liberamente configurato in maniera adattarsi alle esigenze di ricerca dell’utente. Per informazioni

su come scaricare e utilizzare il software ci si può rivolgere alla dottoressa Paola Pietrandrea.

MonoConc versione 1.0

MonoConc è un software commerciale (© 1995 Michael Barlow) che permette sia di ricercare, unità

linguistiche (morfemi, parole o sintagmi) all’interno dei testi di un corpus e di visualizzare poi l’elenco

dei contesti di occorrenza di tali unità, sia di condurre analisi della frequenza delle unità ricercate.

Supporta testi in formato ascii (solo testo), quindi può essere usato per l’analisi di tutti i corpora raccolti

in dipartimento. Per altre informazioni e per accedere al programma ci si può rivolgere al professor

Edoardo Lombardi Vallauri.

corpora e strumenti danalisi non prodotti in dipartimento

Documents