language documentation and language technologies for lesser-used languages
TRANSCRIPT
Vera Ferreira / Peter [email protected] [email protected]
Centro Interdisciplinar de Documentação Linguística e Social
Instituto Politécnico de Leiria19.03.2013
CIDLeS e o trabalho de documentação
linguística
Minderico: de código secreto por língua do
quotidiano a língua ameaçada
Documentação do minderico
As tecnologias da linguagem na
documentação e revitalização
Rua Dr. António da Silva Ferreira Totta 292395-182 Minde, PortugalTel: +351249849123E-mail: [email protected]: www.cidles.eu
Associação científica sem fins lucrativos fundada em Janeiro de 2010 em Minde (Concelho de Alcanena)
Missão:◦ Estudo, documentação e revitalização de línguas
ameaçadas na Europa (a cada 14 dias morre 1 língua no mundo!)
◦ Desenvolvimento de tecnologias da linguagem para o trabalho científico e didático com línguas minoritárias / ameaçadas
Grupo de Linguística Documentacional e Tipológica
Responsável: Vera Ferreira ([email protected])
Grupo CIDLeS Media Lab
Responsável: Peter Bouda ([email protected])
Grupo de Revitalização Linguística
Responsáveis: Rita Pedro ([email protected])
Documentação (se possível e desejado, revitalização) de línguas ameaçadas ou até agora “desconhecidas”
Trabalho de campo (interacção com a comunidade de falantes)
◦ Recolha de dados primários Gravação multimédia dos mais variados eventos
comunicativos e tradições das comunidades em estudo (em formatos não cumprimidos)
Arquivo, preservação e publicação de dados linguísticos primários
Criação de corpora (multimédia) multifuncionais
Transcrições (IPA, ortografia convencional ou criada durante o projecto de documentação)
Traduções (língua franca ou língua do país e/ou inglês)
Anotações (morfossinácticas, GRAID, antropológicas, ...)
ELAN (software de transcrição e alinhamento)
Até aproximadamente 1970: mais de
7000 habitantes
Censos 2011: 3293 habitantes
Vila monoindustrial (indústria têxtil)
Depressão fechada entre os
Planaltos de Santo António e de São
Mamede, em pleno Maciço Calcário
Estremenho
Isolamento geográfico determinante
para o surgimento, uso e
preservação de uma variante
linguística própria
Final do séc. XVII / início do séc. XVIII: os
produtores e vendedores de mantas criaram
construções linguísticas próprias para proteger
o negócio
Minderico como código secreto (língua de
defesa)
Sociolecto: Língua de um grupo socio-
profissional
Evolução
Manter-se como língua secreta (Rotwelsch)
Extinção (Månsing)
Perda do estatuto de língua secreta e redução a
vocabulário específico dentro da língua base
(Lachoudisch)
Língua autónoma (“Language by distance” [Kloss
1967: 29], “Abstandsprache” [Hentschel 2003] -
Casúbio)
Alargamento contínuo e criativo do vocabulário
Importância das experiências sócio-culturais dos mindericos
◦ Metáforas como estratégia de alargamento lexical
leoa ‘trovoada’ (< pt. leoa)
assassino / assarsino ‘anus’ (< pt. assassino)
treme-terras ‘Deus’ (< pt. tremer + terras)
◦ Metonímias como estratégia de alargamento lexical:
o de alhandra ‘fósforo’ (< topónimo: Alhandra)
touquim ‘professor’ (< antropónimo: Touquim)
a do linho ‘toalha’ (< material: linho)
Alargamento dos contextos de aplicação
Aumento do número de falantes
Minderico como meio de identificação e língua do dia-a-dia
Distanciamento (morfossintático) em relação ao português
Incorporação Nominal
(a) A covana jorda as do mestre-grosso as cardosas.
'A mulher veste as calças.' (lit. 'A mulher roupas-põe
as calças'; as do mestre-grosso = roupas)
(b) Aqui o covano gambia a do pinto lopes um soletra.
'Eu [masc.] escrevo um livro.' (lit. 'Eu caneta-mexo
um livro‘; a do pinto lopes = caneta)
Desaparecimento do carácter secreto
Meio de comunicação geral (com registo diferenciado)
Sintaxe complexa
Não se restringe à oralidade
Bilinguismo com diglossia
Code switching
Língua ameaçada!
Código ISO 639-3: DRC (língua individual, autónoma e viva)
Transmissão intergeracional interrompida
Decréscimo acentuado do número de falantes
Perda dos contextos de utilização
Restrição do uso a contextos informais
Pressão do português (língua da administração, do ensino, da economia, …)
Pouca imposição do minderico nos novos domínios de comunicação (internet, media)
Falta de documentação e estudo académico detalhados
Falta de reconhecimento oficial a nível nacional
http://www.mpi.nl/DOBES/dobesmap/index_html#(Fundação Volkswagen)
Focos temáticos da documentação◦ Produção e venda têxtil
◦ Situações do quotidiano (conversas informais, trabalho
doméstico, comida)
◦ Eventos sociais (inclusive religiosos)
◦ Fauna e flora
Tipo Total
Texto 120
Vídeo 24 (6h 44min 33seg)
Áudio 86 (5h 43min 10seg)
Fotografia 434
Dados recolhidos no âmbito do projecto DoBeS para a documentação do Minderico
Max-Planck-Institut em Nijmegen
(Holanda)
64 sessões com dados primários
Estrutura do arquivo:
http://corpus1.mpi.nl/ds/imdi_
browser/?openpath=MPI77915%
23
Criação de gramáticas descritivas baseadas no corpus
Análise interlinguística de fenómenos linguísticos
específicos
comparação quantitativa de línguas (ex. incorporação
nominal)
◦ Quais as características semânticas dos substantivos incorporados?
Genéricos (defendido na literatura)? Específicos?
◦ Quais os padrões de transitividade em línguas com incorporação?
Software: LEXUS / VICOS
Características das entradas:
◦ 450 Lexemas de 8 domínios semânticos (comida,
bebida, corpo humano, casa, animais, vestuário, tempo,
relações de parentesco)
◦ Classe de palavras
◦ Transcrição fonética e áudio
◦ Definição em português e inglês
◦ Informações etimológicas
◦ Exemplos concretos de utilização
◦ Vídeos, Fotografias, Textos
Language Technologies are integral part ofcomputer-human-interaction
Only LT for major languages receive vast financialsupport
LT are obligatory for active language use in electronic communication (text completion in SMS, spell checking, speech recognition, …)
CIDLeS is concerned with software developmentin LT for lesser-used languages
Document, teach and revitalize lesser-usedlanguages
URL: http://media.cidles.eu/poio
Collection of software tools◦ Poio Interlinear Editor: Add morpho-syntactic annotation
to transcriptions
◦ Poio Analyzer: Search and analyze corpus with morpho-
syntactic annotations
◦ Poio API: Python library to access Elan, Toolbox and
Kura files
Open Source software (GPL), free download
Interlinear text consists of 3-5 lines/tiers:◦ Source text (for example in Minderico [drc])
◦ Word and morpheme segmentation
◦ Morpho-syntactic annotations
◦ Translation
Minderico:
Edit interlinear versions of corpus files
Source files are transcriptions or any other
monolingual files
Currently only ELAN .eaf files, Toolbox and Praat
support planned
Allows to easily add morpho-syntactic annotations
to ELAN files
Based on fieldworkers’ needs
Facultade de Filoloxía e TraduciónDepartamento de Tradución e Lingüistística
Universidade de Vigo, 21.11.2012
Facultade de Filoloxía e TraduciónDepartamento de Tradución e Lingüistística
Universidade de Vigo, 21.11.2012
Open a batch of ELAN and Toolbox files andsearch on tiers
Search in all tiers, results presented as fullinterlinear texts
Supports logical operations and regularexpressions for search terms
Descriptive Grammars based on Language Documentation corpora
Developed together with Prof. Johannes Helmbrecht at University of Regensburg (DoBeSproject „Hocak“ [win])
Python library to access ELAN, Toolbox and Kura
interlinear texts
Supports morpho-syntactic and part-of-speech
annotations
Implements CorpusReader API of Natural
Language Toolkit (http://www.nltk.org)
Basis of Poio ILE and Poio Analyzer
Developed for Minderico learners in the courses
organised by CIDLeS (adult courses)
Since 2010 also used in Minderico courses at the
local school (teenager courses)
Since 2012 also used in the training of Minderico
teachers for the local school (the training is given
at CIDLeS)
8 Lessons with ~30 words each
Lessons by semantic fields
New lessons will come soon!
Available for download as free software (GPL)
Voice output uses Portuguese TTS by Linguatec
language technologies (http://www.linguatec.net)
Written in Python, based on PyQt
Lesson files are YAML (text files), open for new
lessons in any language◦ Easy to adapat for and use in the langugages of other
communities
Runs on Nokia mobile phones
URL: http://media.cidles.eu/labs/minderico-map
Created during a fieldwork stay in Minde, within
the DoBeS project "Minderico - An endangered
language in Portugal"
Based on Open Street Map data
GPS data was collected and map was drawn
using Open Source software
Open Layers for overlay of photos and audio
It is used by the community to promote Minde and
the events that take place in the village
O Touquim Xaral is a
Minderico course of 13
lessons in different fascicles
It was organised by CIDLeS
and delivered with Jornal de
Minde
We are now preparing:◦ an interactive html version of the
course
◦ a mobile application
Strong focus on Open Source software
For „normal“ users and researchers
Development for the needs of speech
communities
Based on experience in fieldwork and corpus
analysis in language documentation projects
Bouda, Peter, Ferreira, Vera & Lopes, António 2012. Poio API - An annotation framework to bridge
Language Documentation and Natural Language Processing. In: Mambrini, Francesco / Passarotti,
Marco / Sporleder, Caroline (eds.). Proceedings of the Second Workshop on Annotation of Corpora for
Research in the Humanities. Lisboa: Edições Colibri, 15-26.
Ferreira, Vera 2011. Eine Dokumentationslingistische Beschreibung des Minderico. In: Endruschat,
Annette / Ferreira, Vera (Hrsg.). Sprachdokumentation und Korpuslinguistik – Forschungsstand und
Anwendung. München: Martin Meidenbauer, 143-170.
Ferreira, Vera / Bouda, Peter 2009. Minderico: an endangered language in Portugal. In Austin, Peter
K. / Bond, Oliver / Charette, Monik / Nathan, David / Sells, Peter (eds.). Proceedings of Conference
on Language Documentation and Linguistic Theory 2. London: SOAS, 95-106.
Frazão, Francisco Santos Serra 1939. Calão minderico — Alguns termos do «calão» que usam os
cardadores e negociantes de Minde, concelho de Alcanena. Revista Lusitana, vol. XXXVII. Lisboa:
Livraria Clássica Editora, 101-143.
Gomes, Jorge Rodriguez 2004. Estudo comparativo da formaçom de gírias gremiais galegas e
castelhanas, Dissertação de Doutoramento, Vigo (manuscrito).
Hentschel, Gerd 2003. New minor ‘Abstandsprachen’ under the roof of a genetically close literary
language? The case of Polish vs. Kashubian, Silesia and Podhalean. In: Sherzer; Joel / Stolz, Thomas
(eds.). Minor languages. Approaches, definitions, controversies. Bochum: Brockmeyer, 59-74.
Martins, Abílio Madeira et al. (coord.) 2004. Piação dos Charales do Ninhou. Minde: CAORG.
Martins, Abílio Madeira / Agostinho Nogueira 2002. Minde. História e Monografia. Minde: Grafiminde.
Mithun, Marianne 1984. The Evolution of Noun Incorporation. Language 60, 874-894.
Data: 17, 18 e 19 Outubro 2013
Local: Minde/Alcanena (Portugal)
Eventos:
Conferência internacional sobre “Línguas Ameaçadas na Europa” (17-18.10.2013)
Com sessão especial sobre a Península Ibérica (18.10.2013)
Feira das Línguas (18-19.10.2013)
Com a presença de diversas comunidades de línguas ameaçadas da Europa
1º Festival de Bandas de Línguas Ameaçadas
(18-19.10.2013)
http://www.cidles.eu/events/conference-ele-2013/