compilação e uso de corpora paralelos

63
Compilação e uso de corpora paralelos Ana Frankenberg-Garcia

Upload: others

Post on 16-Oct-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Compilação e uso de corpora paralelos

Compilação e uso

de corpora paralelos

Ana Frankenberg-Garcia

Page 2: Compilação e uso de corpora paralelos

O que é um corpus?O que é um corpus?O que é um corpus?O que é um corpus?

grande

critérios definidos

software específico

em formato digital

Page 3: Compilação e uso de corpora paralelos

O que é um O que é um O que é um O que é um

corpus paralelo?corpus paralelo?corpus paralelo?corpus paralelo?

unidirecional

bidirecional

Originais L1Traduções L2

Originais L2

Traduções L1

bidirecional

Page 4: Compilação e uso de corpora paralelos

Vantagens de corpora

paralelos

• Permitem fazer tudo que um corpus monolíngüe faz

• Permitem ainda fazer análises impossíveis em corpora monolíngües

Page 5: Compilação e uso de corpora paralelos

Limitações de corpora

paralelos

• Muito menos textos (e tipos de textos) traduzidos no mundo– Corpora paralelos em geral muito menores

• Originais e traduções tem de ser alinhados– Corpora paralelos dão muito mais trabalho

Page 6: Compilação e uso de corpora paralelos

Utilizações de corpora paralelos

Diferenças entre corpora paralelos

unidirecionais bidirecionaisunidirecionais bidirecionais

Page 7: Compilação e uso de corpora paralelos

Língua X Língua Y

1. corpora paralelos unidirecionais

Língua X Língua YTRADUÇÃO

alinhada

- dicionários, gramáticas bilíngües- tradução automática

Page 8: Compilação e uso de corpora paralelos

2. corpora paralelos bidirecionais

Língua Xoriginal

Língua YtraduzidaTRADUÇÃO

alinhada

Língua Xtraduzida

Língua Yoriginal

TRADUÇÃOalinhada

- dicionários, gramáticas bilíngües (dois sentidos)- tradução automática (dois sentidos)

Page 9: Compilação e uso de corpora paralelos

Língua XTRADUÇÃO

3. corpora paralelos bidirecionais

Língua Xoriginal

Língua YtraduzidaTRADUÇÃO

Também servem de corpora comparáveis monolíngües

controle

Língua Xtraduzida

Língua Yoriginal

TRADUÇÃO

- Diferenças entre língua original e língua traduzida- Tradutês- Estudos teóricos sobre universais da tradução

Page 10: Compilação e uso de corpora paralelos

Língua X

4. corpora paralelos bidirecionais

Língua Xoriginal

Língua Ytraduzida

Também servem de corpora comparáveis bilíngües

Língua XTRADUÇÃO

original traduzidaTRADUÇÃO

Língua Xtraduzida

Língua Yoriginal

TRADUÇÃO

lingüística contrastivacaracterísticas da tradução

Page 11: Compilação e uso de corpora paralelos

Compilação Compilação Compilação Compilação seleção de textos

• Gênero (científico, literário, técnico, etc.)

• Modo (textos orais? escritos?)

• Estilo (norma culta? popular?)Há traduções?

• Época (textos contemporâneos? antigos?)

• Línguas (quais? só duas ou mais?)

• Traduções (profissionais? falantes nativos? tradutores diferentes? )

• Unidirecional ou bidirecional?

Page 12: Compilação e uso de corpora paralelos

Compilação Compilação Compilação Compilação seleção de textos

unidirecional bidirecional

científico

PT-EN

oral, popular

científico

turismo

literário

político (PE)

Page 13: Compilação e uso de corpora paralelos

CompilaçãoCompilaçãoCompilaçãoCompilação

Uso pessoal Uso partilhado

Autorizações

direitos de autor

Menos trabalho!Autorizações

Estudos replicáveis

Aproveitamento

Menos trabalho!

Page 14: Compilação e uso de corpora paralelos

Compilação Compilação Compilação Compilação direitos de autor

• Autorizações duplas, duplo trabalho

• Muitos editores, autores e tradutores • Muitos editores, autores e tradutores não sabem o que é um corpus

• Proteger textos

• Publicitar textos

Page 15: Compilação e uso de corpora paralelos

Compilação alinhamento

Texto?

Que partes das traduções correspondem a que partes dos originais?

Parágrafo?

Frase?

Palavra?

Page 16: Compilação e uso de corpora paralelos

<id=EBDL3T2:294> -- Posso pedir um

Compilação etiquetagem e anotação

Etiquetas de alinhamento

O mais leve possível

Outras?

<id=EBDL3T2:294> -- Posso pedir um

conselho de etiqueta?

<id=EBDL3T2:294> --/PU Posso/V_fmc

pedir/V um/DETarti conselho/N de/PRP

etiqueta/N ?/PU

Anotação gramatical detalhada

O que queremos automatizar? Quanto tempo temos?

Page 17: Compilação e uso de corpora paralelos

Alguns corpora paralelos

acessíveis em rede • COMPARA

– Português-Inglês

• Multisemcor

– Italiano-Inglês, Romeno-Inglês

• OPUS, EUROPARL• OPUS, EUROPARL

– 11 línguas da UE

• HUNGLISH CORPUS

– Inglês-Húngaro

• CORPUS PARALELO CLUVI

– Vários mini-corpora com diferentes combinações de línguas, incluindo Galego, Espanhol, Catalão, Basco, Português, Inglês

Page 18: Compilação e uso de corpora paralelos

As opções do corpus

COMPARACOMPARA

http://www.linguateca.pt/COMPARA/

Page 19: Compilação e uso de corpora paralelos

COMPARA estrutura

Originais PT Originais ENTraduções EN

Traduções PT

Page 20: Compilação e uso de corpora paralelos
Page 21: Compilação e uso de corpora paralelos

COMPARA 8.2 variantes

Portugal

Moçambique

Reino Unido

EUA

Brasil

Angola

Moçambique

África do Sul

PORTUGUÊS INGLÊS

Page 22: Compilação e uso de corpora paralelos

COMPARA 8.2Datas de publicação

20021997

1988

1837

1880

1914

Page 23: Compilação e uso de corpora paralelos

COMPARA 8.2 gêneroLiteratura

publicada extensível

Page 24: Compilação e uso de corpora paralelos

Outros critérios de seleção de textos

�originais e traduções publicados

�inglês traduzido diretamente do português e português traduzido português e português traduzido diretamente do inglês

�traduções feitas por seres humanos!

�Possível alinhar um original com mais de uma tradução

Page 25: Compilação e uso de corpora paralelos

COMPARA disponibilidade

Uso partilhado

acesso gratuito, em rede

para investigação e fins educacionais

Page 26: Compilação e uso de corpora paralelos

COMPARA Interface

• Pesquisa simples• Pesquisa avançada• Serviço em português• Serviço em português• Serviço em inglês

Page 27: Compilação e uso de corpora paralelos

COMPARA etiquetas semânticas

EBJB1.pt

ele revelou-me o seu interesse por Gosse

<tnote> Edmund William Gosse (1849-

1928), crítico inglês </tnote> e pela

sociedade literária inglesa dos finais sociedade literária inglesa dos finais

do século passado.

EBDL2T1.en

When we sat on the sofa together to

watch <title>News at Ten</title>

Page 28: Compilação e uso de corpora paralelos

EBDL1T1.pt

passou-me uma receita de <named>

Valium </named>

EBJB1.en

the white bear, <foreign> thalassarctos

COMPARA etiquetas semânticas

the white bear, <foreign> thalassarctos

maritimus </foreign>, is the aristocrat

of bears...

EBDL1T1.pt

acaba por se esquecer de ter medo, até

que acaba por verificar que não há

<emph> de que </emph> ter medo.

Page 29: Compilação e uso de corpora paralelos
Page 30: Compilação e uso de corpora paralelos

COMPARA Alinhamento

1 unidade de alinhamento = 1 frase do texto original

F

F F2

F

Original Tradução

F

F

F

F2

F F(+F)

Ø

Etiquetas de alinhamento

Page 31: Compilação e uso de corpora paralelos
Page 32: Compilação e uso de corpora paralelos

COMPARA Anotação Gramatical

1. Português – PALAVRAS

2. Inglês - CLAWS

Page 33: Compilação e uso de corpora paralelos
Page 34: Compilação e uso de corpora paralelos

[lema=“ajudar”]

Anotação gramatical: palavras flexionadas

Page 35: Compilação e uso de corpora paralelos
Page 36: Compilação e uso de corpora paralelos

[word=“gosto” & pos=“N”]

Anotação gramatical: palavras ambíguas

Page 37: Compilação e uso de corpora paralelos
Page 38: Compilação e uso de corpora paralelos

[word=“gosto” & pos=“V”]

Palavras ambíguasAnotação gramatical: palavras ambíguas

Page 39: Compilação e uso de corpora paralelos
Page 40: Compilação e uso de corpora paralelos

[pos="V.*"] "silêncio"

Anotação gramatical: colocações

Page 41: Compilação e uso de corpora paralelos
Page 42: Compilação e uso de corpora paralelos

anotação automática não é

100% fiável!

Revisão manual em curso

Page 43: Compilação e uso de corpora paralelos

COMPARA usos e utilizadores

Lingüistas e engenheiros / PLN

tradução automática e outras aplicações

Lexicógrafos

dicionários bilíngüesdicionários bilíngües

Teóricos da tradução

estudos empíricos sobre tradução

Professores de tradução

exercícios e problemas de tradução

Page 44: Compilação e uso de corpora paralelos

COMPARA usos e utilizadores

Professores de línguas

exercícios e testes para os alunos

Tradutores e estudantes de tradução

equivalências lingüísticasequivalências lingüísticas

Estudantes de línguas e qualquer pessoa que utilize o inglês na sua profissão

Dicionário/gramática bilíngüe com muitos extras

Page 45: Compilação e uso de corpora paralelos

Alguns exemplos de

utilização do corpus

1.Lexicografia bilíngüe• Traduções mais prováveis para uma

palavra polisêmicapalavra polisêmica

2.Estudos de tradução• Palavras com distribuição muito

diferente em originais e traduções

Page 46: Compilação e uso de corpora paralelos

“grande”

1.Lexicografia bilíngüe

Page 47: Compilação e uso de corpora paralelos
Page 48: Compilação e uso de corpora paralelos

“grande” “great”

Page 49: Compilação e uso de corpora paralelos
Page 50: Compilação e uso de corpora paralelos
Page 51: Compilação e uso de corpora paralelos
Page 52: Compilação e uso de corpora paralelos

Traduções de “grande”

250

300

350

400

450

0

50

100

150

200

250

great large big much vast deep loud

Page 53: Compilação e uso de corpora paralelos

2.Estudos de tradução

“nodded”

Page 54: Compilação e uso de corpora paralelos
Page 55: Compilação e uso de corpora paralelos

822 160 = 100 000727 391 = 100 000

÷ 8,22160÷ 7,27160

Denominador comum : 100 000

727 391 = 100 000÷ 7,27160

109 ÷ 8,22160 = 26 ÷ 7,27160 = em 100 000

13,23,6

Page 56: Compilação e uso de corpora paralelos

Distribuição de “nodded”

em texto original e traduzido

Inglês original 13,2 /100 mil palavras13,2 /100 mil palavras

Inglês traduzido do português 3,6 / 100 mil palavras

3,7 vezes mais frequente em inglês original!

Page 57: Compilação e uso de corpora paralelos

Tarefas

1. Lexicografia bilíngüeTraduções mais prováveis de

tempotemposombrasensação

Page 58: Compilação e uso de corpora paralelos

Tarefas

2. Estudos de traduçãoDistribuição em português original e

português traduzido de:português traduzido de:

Diferente(s)SimplesmenteLema = “rezar”

Page 59: Compilação e uso de corpora paralelos
Page 60: Compilação e uso de corpora paralelos

Resultados das Tarefas

800

1000

1200

0

200

400

600

800

time long when while weather

Traduções de “tempo” no COMPARA 8.2

Page 61: Compilação e uso de corpora paralelos

Resultados das Tarefas

80

100

120

0

20

40

60

80

shadow shade

Traduções de “sombra” no COMPARA 8.2

Page 62: Compilação e uso de corpora paralelos

Resultados das Tarefas

40

50

60

0

10

20

30

40

feeling sensation sense

Traduções de “sensação” no COMPARA 8.2

Page 63: Compilação e uso de corpora paralelos

Resultados das Tarefas

PT original PT traduzido

Diferente(s)16,4 31,1

Simplesmente

Lema=“rezar”

ocorrências em cada 100 mil palavras no COMPARA 8.2

15,85,4

5,511,9