language documentation and language technologies for lesser-used languages

48
Vera Ferreira / Peter Bouda [email protected] [email protected] Centro Interdisciplinar de Documentação Linguística e Social Instituto Politécnico de Leiria 19.03.2013

Upload: soas

Post on 05-Feb-2023

0 views

Category:

Documents


0 download

TRANSCRIPT

Vera Ferreira / Peter [email protected] [email protected]

Centro Interdisciplinar de Documentação Linguística e Social

Instituto Politécnico de Leiria19.03.2013

CIDLeS e o trabalho de documentação

linguística

Minderico: de código secreto por língua do

quotidiano a língua ameaçada

Documentação do minderico

As tecnologias da linguagem na

documentação e revitalização

Rua Dr. António da Silva Ferreira Totta 292395-182 Minde, PortugalTel: +351249849123E-mail: [email protected]: www.cidles.eu

Associação científica sem fins lucrativos fundada em Janeiro de 2010 em Minde (Concelho de Alcanena)

Missão:◦ Estudo, documentação e revitalização de línguas

ameaçadas na Europa (a cada 14 dias morre 1 língua no mundo!)

◦ Desenvolvimento de tecnologias da linguagem para o trabalho científico e didático com línguas minoritárias / ameaçadas

Grupo de Linguística Documentacional e Tipológica

Responsável: Vera Ferreira ([email protected])

Grupo CIDLeS Media Lab

Responsável: Peter Bouda ([email protected])

Grupo de Revitalização Linguística

Responsáveis: Rita Pedro ([email protected])

Documentação (se possível e desejado, revitalização) de línguas ameaçadas ou até agora “desconhecidas”

Trabalho de campo (interacção com a comunidade de falantes)

◦ Recolha de dados primários Gravação multimédia dos mais variados eventos

comunicativos e tradições das comunidades em estudo (em formatos não cumprimidos)

Arquivo, preservação e publicação de dados linguísticos primários

Criação de corpora (multimédia) multifuncionais

Transcrições (IPA, ortografia convencional ou criada durante o projecto de documentação)

Traduções (língua franca ou língua do país e/ou inglês)

Anotações (morfossinácticas, GRAID, antropológicas, ...)

ELAN (software de transcrição e alinhamento)

Minde: Concelho de Alcanena, Distrito de

Santarém

115 km a norte de Lisboa e 240 km a sul

do Porto

Até aproximadamente 1970: mais de

7000 habitantes

Censos 2011: 3293 habitantes

Vila monoindustrial (indústria têxtil)

Depressão fechada entre os

Planaltos de Santo António e de São

Mamede, em pleno Maciço Calcário

Estremenho

Isolamento geográfico determinante

para o surgimento, uso e

preservação de uma variante

linguística própria

Final do séc. XVII / início do séc. XVIII: os

produtores e vendedores de mantas criaram

construções linguísticas próprias para proteger

o negócio

Minderico como código secreto (língua de

defesa)

Sociolecto: Língua de um grupo socio-

profissional

Evolução

Manter-se como língua secreta (Rotwelsch)

Extinção (Månsing)

Perda do estatuto de língua secreta e redução a

vocabulário específico dentro da língua base

(Lachoudisch)

Língua autónoma (“Language by distance” [Kloss

1967: 29], “Abstandsprache” [Hentschel 2003] -

Casúbio)

Alargamento contínuo e criativo do vocabulário

Importância das experiências sócio-culturais dos mindericos

◦ Metáforas como estratégia de alargamento lexical

leoa ‘trovoada’ (< pt. leoa)

assassino / assarsino ‘anus’ (< pt. assassino)

treme-terras ‘Deus’ (< pt. tremer + terras)

◦ Metonímias como estratégia de alargamento lexical:

o de alhandra ‘fósforo’ (< topónimo: Alhandra)

touquim ‘professor’ (< antropónimo: Touquim)

a do linho ‘toalha’ (< material: linho)

Alargamento dos contextos de aplicação

Aumento do número de falantes

Minderico como meio de identificação e língua do dia-a-dia

Distanciamento (morfossintático) em relação ao português

Incorporação Nominal

(a) A covana jorda as do mestre-grosso as cardosas.

'A mulher veste as calças.' (lit. 'A mulher roupas-põe

as calças'; as do mestre-grosso = roupas)

(b) Aqui o covano gambia a do pinto lopes um soletra.

'Eu [masc.] escrevo um livro.' (lit. 'Eu caneta-mexo

um livro‘; a do pinto lopes = caneta)

Desaparecimento do carácter secreto

Meio de comunicação geral (com registo diferenciado)

Sintaxe complexa

Não se restringe à oralidade

Bilinguismo com diglossia

Code switching

Língua ameaçada!

Código ISO 639-3: DRC (língua individual, autónoma e viva)

Transmissão intergeracional interrompida

Decréscimo acentuado do número de falantes

Perda dos contextos de utilização

Restrição do uso a contextos informais

Pressão do português (língua da administração, do ensino, da economia, …)

Pouca imposição do minderico nos novos domínios de comunicação (internet, media)

Falta de documentação e estudo académico detalhados

Falta de reconhecimento oficial a nível nacional

http://www.mpi.nl/DOBES/dobesmap/index_html#(Fundação Volkswagen)

Charales do Ninhou (Habitantes de Minde)

Focos temáticos da documentação◦ Produção e venda têxtil

◦ Situações do quotidiano (conversas informais, trabalho

doméstico, comida)

◦ Eventos sociais (inclusive religiosos)

◦ Fauna e flora

Tipo Total

Texto 120

Vídeo 24 (6h 44min 33seg)

Áudio 86 (5h 43min 10seg)

Fotografia 434

Dados recolhidos no âmbito do projecto DoBeS para a documentação do Minderico

Max-Planck-Institut em Nijmegen

(Holanda)

64 sessões com dados primários

Estrutura do arquivo:

http://corpus1.mpi.nl/ds/imdi_

browser/?openpath=MPI77915%

23

Criação de gramáticas descritivas baseadas no corpus

Análise interlinguística de fenómenos linguísticos

específicos

comparação quantitativa de línguas (ex. incorporação

nominal)

◦ Quais as características semânticas dos substantivos incorporados?

Genéricos (defendido na literatura)? Específicos?

◦ Quais os padrões de transitividade em línguas com incorporação?

Software: LEXUS / VICOS

Características das entradas:

◦ 450 Lexemas de 8 domínios semânticos (comida,

bebida, corpo humano, casa, animais, vestuário, tempo,

relações de parentesco)

◦ Classe de palavras

◦ Transcrição fonética e áudio

◦ Definição em português e inglês

◦ Informações etimológicas

◦ Exemplos concretos de utilização

◦ Vídeos, Fotografias, Textos

“is a kind of”-Relation

“is a synonym of”-Relation

Language Technologies are integral part ofcomputer-human-interaction

Only LT for major languages receive vast financialsupport

LT are obligatory for active language use in electronic communication (text completion in SMS, spell checking, speech recognition, …)

CIDLeS is concerned with software developmentin LT for lesser-used languages

Document, teach and revitalize lesser-usedlanguages

URL: http://media.cidles.eu/poio

Collection of software tools◦ Poio Interlinear Editor: Add morpho-syntactic annotation

to transcriptions

◦ Poio Analyzer: Search and analyze corpus with morpho-

syntactic annotations

◦ Poio API: Python library to access Elan, Toolbox and

Kura files

Open Source software (GPL), free download

Interlinear text consists of 3-5 lines/tiers:◦ Source text (for example in Minderico [drc])

◦ Word and morpheme segmentation

◦ Morpho-syntactic annotations

◦ Translation

Minderico:

Edit interlinear versions of corpus files

Source files are transcriptions or any other

monolingual files

Currently only ELAN .eaf files, Toolbox and Praat

support planned

Allows to easily add morpho-syntactic annotations

to ELAN files

Based on fieldworkers’ needs

Facultade de Filoloxía e TraduciónDepartamento de Tradución e Lingüistística

Universidade de Vigo, 21.11.2012

Facultade de Filoloxía e TraduciónDepartamento de Tradución e Lingüistística

Universidade de Vigo, 21.11.2012

Open a batch of ELAN and Toolbox files andsearch on tiers

Search in all tiers, results presented as fullinterlinear texts

Supports logical operations and regularexpressions for search terms

Descriptive Grammars based on Language Documentation corpora

Developed together with Prof. Johannes Helmbrecht at University of Regensburg (DoBeSproject „Hocak“ [win])

Python library to access ELAN, Toolbox and Kura

interlinear texts

Supports morpho-syntactic and part-of-speech

annotations

Implements CorpusReader API of Natural

Language Toolkit (http://www.nltk.org)

Basis of Poio ILE and Poio Analyzer

URL: http://media.cidles.eu/labs/wordbyword

Support: Foundation for Endangered Languages

Developed for Minderico learners in the courses

organised by CIDLeS (adult courses)

Since 2010 also used in Minderico courses at the

local school (teenager courses)

Since 2012 also used in the training of Minderico

teachers for the local school (the training is given

at CIDLeS)

8 Lessons with ~30 words each

Lessons by semantic fields

New lessons will come soon!

Available for download as free software (GPL)

Voice output uses Portuguese TTS by Linguatec

language technologies (http://www.linguatec.net)

Written in Python, based on PyQt

Lesson files are YAML (text files), open for new

lessons in any language◦ Easy to adapat for and use in the langugages of other

communities

Runs on Nokia mobile phones

Created during a fieldwork stay in Minde, within

the DoBeS project "Minderico - An endangered

language in Portugal"

Based on Open Street Map data

GPS data was collected and map was drawn

using Open Source software

Open Layers for overlay of photos and audio

It is used by the community to promote Minde and

the events that take place in the village

O Touquim Xaral is a

Minderico course of 13

lessons in different fascicles

It was organised by CIDLeS

and delivered with Jornal de

Minde

We are now preparing:◦ an interactive html version of the

course

◦ a mobile application

Strong focus on Open Source software

For „normal“ users and researchers

Development for the needs of speech

communities

Based on experience in fieldwork and corpus

analysis in language documentation projects

Bouda, Peter, Ferreira, Vera & Lopes, António 2012. Poio API - An annotation framework to bridge

Language Documentation and Natural Language Processing. In: Mambrini, Francesco / Passarotti,

Marco / Sporleder, Caroline (eds.). Proceedings of the Second Workshop on Annotation of Corpora for

Research in the Humanities. Lisboa: Edições Colibri, 15-26.

Ferreira, Vera 2011. Eine Dokumentationslingistische Beschreibung des Minderico. In: Endruschat,

Annette / Ferreira, Vera (Hrsg.). Sprachdokumentation und Korpuslinguistik – Forschungsstand und

Anwendung. München: Martin Meidenbauer, 143-170.

Ferreira, Vera / Bouda, Peter 2009. Minderico: an endangered language in Portugal. In Austin, Peter

K. / Bond, Oliver / Charette, Monik / Nathan, David / Sells, Peter (eds.). Proceedings of Conference

on Language Documentation and Linguistic Theory 2. London: SOAS, 95-106.

Frazão, Francisco Santos Serra 1939. Calão minderico — Alguns termos do «calão» que usam os

cardadores e negociantes de Minde, concelho de Alcanena. Revista Lusitana, vol. XXXVII. Lisboa:

Livraria Clássica Editora, 101-143.

Gomes, Jorge Rodriguez 2004. Estudo comparativo da formaçom de gírias gremiais galegas e

castelhanas, Dissertação de Doutoramento, Vigo (manuscrito).

Hentschel, Gerd 2003. New minor ‘Abstandsprachen’ under the roof of a genetically close literary

language? The case of Polish vs. Kashubian, Silesia and Podhalean. In: Sherzer; Joel / Stolz, Thomas

(eds.). Minor languages. Approaches, definitions, controversies. Bochum: Brockmeyer, 59-74.

Martins, Abílio Madeira et al. (coord.) 2004. Piação dos Charales do Ninhou. Minde: CAORG.

Martins, Abílio Madeira / Agostinho Nogueira 2002. Minde. História e Monografia. Minde: Grafiminde.

Mithun, Marianne 1984. The Evolution of Noun Incorporation. Language 60, 874-894.

Data: 17, 18 e 19 Outubro 2013

Local: Minde/Alcanena (Portugal)

Eventos:

Conferência internacional sobre “Línguas Ameaçadas na Europa” (17-18.10.2013)

Com sessão especial sobre a Península Ibérica (18.10.2013)

Feira das Línguas (18-19.10.2013)

Com a presença de diversas comunidades de línguas ameaçadas da Europa

1º Festival de Bandas de Línguas Ameaçadas

(18-19.10.2013)

http://www.cidles.eu/events/conference-ele-2013/

Introdução à linguística documentacional

Métodos e técnicas de trabalho de campo

As línguas ameaçadas na Europa

Computer tools for linguistic annotation tasks

Scientific computation for quantitative language comparison

FAVORECEMOS A APLICACAÇÃO PRÁTICA!