e-dictor: histórico e perspectivas (2015)
Post on 29-Jan-2018
231 Views
Preview:
TRANSCRIPT
Gallæcia
Santiago de Compostela
27 a 30 de julho 2015
III Congresso Internacional de Linguística Histórica
Coordenação:
Charlotte M.C. Galves
Xavier G. Guinovart
SimpósioCorpus linguísticos e gramática histórica
Maria Clara Paixão de SousaUniversidade de São Paulo
Universidade de São Paulo
dictor:histórico e perspectivas
e
dictor:histórico e perspectivas
O "e-Dictor" (Paixão de Sousa, Kepler e Faria, 2013) é um editor de textos
especialmente voltado ao trabalho filológico e à análise lingüística automática.
Combinando um editor de XML a um etiquetador morfossintático, o software
permite a geração automática de versões correspondentes a edições
diplomáticas, semi-diplomáticas e modernizadas, e de versões com anotação
morfossintática. Sua edição 1.0 beta 10 é atualmente utilizada por seis projetos e
grupos de pesquisa, em diferentes universidades de diversos países da lusofonia.
Resultado de oito anos de trabalho de linguistas, filólogos e cientistas da
computação, o desenvolvimento da ferramenta tem sido orientado pela
demanda dos usuários, como atestam Paixão de Sousa (2014), Paixão de Sousa
et ali (2010) e Paixão de Sousa et ali (2007), entre outros. Entretanto, a partir de
Veronesi (2014), uma proposta independente e inovadora está colocada para o
futuro desse desenvolvimento, em ambiente de rede, e em um formato que
subverte em grande parte o inicialmente concebido. Nesta comunicação,
apresentaremos uma avaliação dessa nova proposta de desenvolvimento,
comparando-a conceitualmente à ferramenta original, e pesando suas vantagens
e desvantagens conforme observáveis já na fase inicial de sua implementação.
Resumo
e
dictor:histórico e perspectivas
O "e-Dictor" (Paixão de Sousa, Kepler e Faria, 2013) é um editor de textos
especialmente voltado ao trabalho filológico e à análise lingüística automática.
Combinando um editor de XML a um etiquetador morfossintático, o software
permite a geração automática de versões correspondentes a edições diplomáticas,
semi-diplomáticas e modernizadas, e de versões com anotação morfossintática.
Sua edição 1.0 beta 10 é atualmente utilizada por seis projetos e grupos de
pesquisa, em diferentes universidades de diversos países da lusofonia. Resultado
de oito anos de trabalho de linguistas, filólogos e cientistas da computação, o
desenvolvimento da ferramenta tem sido orientado pela demanda dos usuários,
como atestam Paixão de Sousa (2014), Paixão de Sousa et ali (2010) e Paixão de
Sousa et ali (2007), entre outros. Entretanto, a partir de Veronesi (2014), uma
proposta independente e inovadora está colocada para o futuro desse
desenvolvimento, em ambiente de rede, e em um formato que subverte em
grande parte o inicialmente concebido. Nesta comunicação, apresentaremos uma
avaliação dessa nova proposta de desenvolvimento, comparando-a
conceitualmente à ferramenta original, e pesando suas vantagens e desvantagens
conforme observáveis já na fase inicial de sua implementação.
Resumo
e
>
O que me importa?
A principal finalidade do eDictor
é oferecer uma interface amigável
aliada a um alto nível de controle
e flexibilidade na codificação de
textos eletrônicos com finalidade
de pesquisa linguística.
dictore
> Versão 1.0 Beta 10
Disponível para windows,
por download em
http://edictor.net
edictore
CUNHA, Luís Antonio Rosado
da. Relaçãoo da entrada que fez o
excellentissimo, e reverendissimo senhor
D. Fr. Antonio [...].Rio de Janeiro :
Na Segunda Oficina de Antonio
Isidoro da Fonseca, 1747.
CUNHA, Luís Antonio Rosado
da. Relaçãoo da entrada que fez o
excellentissimo, e reverendissimo senhor
D. Fr. Antonio [...].Rio de Janeiro :
Na Segunda Oficina de Antonio
Isidoro da Fonseca, 1747.
O primeiro
livro impresso
no Brasil !
RELAÇÃO/NPR DA/P+D-F ENTRADA/NPR QUE/WPRO FEZ/NPR O/D EXCELENTÍSSIMO/NPR ,/, E/CONJ REVERENDÍSSIMO/NPR SENHOR/NPR DOM/NPR FREI/NPR ANTONIO/NPR DO/P+D DESTERRO/NPR MALHEYRO/NPR Bispo/NPR do/P+D Rio/NPR de/P Janeiro/NPR ,/, em/P o/D primeiro/ADJ dia/N deste/P+D presente/ADJ-G Ano/NPR de/P 1747/NUM havendo/HV-G sido/SR-PP seis/NUM Anos/N-P Bispo/NPR do/P+D Reino/NPR de/P Angola/NPR ,/, donde/P+WADV por/P nomeação/N de/P Sua/PRO$-F Magestade/NPR ,/, e/CONJ Bula/NPR Pontifícia/N ,/, foi/SR-D promovido/VB-AN para/P esta/D-F Diocese/NPR ./. 06_Realacao,2.7/ID
COMPOSTA/NPR PELO/NPR DOUTOR/NPR LUIZ/NPR ANTONIO/NPR ROSADO/NPR DA/P+D-F CUNHA/NPR Juíz/NPR de/P Fora/NPR ,/, e/CONJ Provedor/NPR dos/P+D-P defuntos/ADJ-P ,/, e/CONJ ausentes/ADJ-G-P ,/, Capelas/NPR-P ,/, e/CONJ Residos/NPR-P do/P+D Rio/NPR de/P Janeiro/NPR ./. 06_Realacao,2.8/ID
RIO/NPR DE/P JANEIRO/ADJ 06_Realacao,2.9/ID
Na/P+D-F Segunda/ADJ-F Oficina/NPR de/P ANTONIO/NPR ISIDORO/NPR DA/P+D-F FONCECA/NPR ./. 06_Realacao,2.10/ID
Ano/NPR de/P M./NPR CC./. XLVII./. 06_Realacao,2.11/ID
Com/P licenças/N-P do/P+D Senhor/NPR Bispo/NPR ./. 06_Realacao,2.12/ID
Texto
anotado:
P.O.S.
A interface do eDictor simula um
editor de textos normal, mas a
ferramenta é em essência um
anotador linguístico, que aplica
uma linguagem de marcação
sobre os textos
>
dictore
A interface do eDictor simula um
editor de textos normal, mas a
ferramenta é em essência um
anotador linguístico, que aplica
uma linguagem de marcação
sobre os textos?
dictore
Corpus Anotado do Português
Histórico Tycho Brahe,
(Universidade Estadual de Campinas)
Grupo de Pesquisas
Humanidades Digitais
(Universidade de São Paulo)
P.S. Arquivo Digital de Escrita Quotidiana em
Portugal e Espanha na Época Moderna
(Universidade de Lisboa)
Corpus Eletrônico de
Documentos Históricos do Sertão,
CEDOHS (Universidade Federal de Feira de Santana)
Laboratório de História do Português Brasileiro
(Universidade Federal do Rio de Janeiro)
Memória Conquistense
(Universidade Estadual do Sudoeste da Bahia)
Corpus Anotado do Português
Histórico Tycho Brahe,
(Universidade Estadual de Campinas)
Grupo de Pesquisas
Humanidades Digitais
(Universidade de São Paulo)
P.S. Arquivo Digital de Escrita Quotidiana em
Portugal e Espanha na Época Moderna
(Universidade de Lisboa)
Corpus Eletrônico de
Documentos Históricos do Sertão,
CEDOHS (Universidade Federal de Feira de Santana)
Laboratório de História do Português Brasileiro
(Universidade Federal do Rio de Janeiro)
Memória Conquistense
(Universidade Estadual do Sudoeste da Bahia)
O Corpus Tycho Brahe
http://www.tycho.iel.unicamp.br/corpus/index.html
[ prologue (author: P.M. Gandavo)]
[ title: AO MUITO ILUSTRE SENHOR DOM LIONIS PEREIRA, Epístola de Pero de Magalhães. ]
[g_008_s_43] Neste pequeno serviço (muito ilustre senhor ) que ofereço a Vossa Mercê das primícias de meu fraco
entendimento, poderá em alguma maneira conhecer os desejos que tenho de pagar com minha possibilidade
alguma parte do muito que se deve à ínclita fama de vosso heróico nome.
[g_008_s_44] E isto assim pelo merecimento do nobilíssimo sangue e clara progênie de onde traz sua origem,
como pelos troféus das grandes vitórias , e casos bem afortunados que lhe hão sucedido nessas partes do Oriente
em que Deus o quis favorecer com tão larga mão, que não cuido ser toda minha vida bastante para satisfazer à
menor parte de seus louvores .
[g_008_s_45] E como todas estas razões me ponham em tanta obrigação , e eu entenda que outra nenhuma coisa
deve ser mais aceita a pessoas de altos ânimos que a lição das escrituras , por cujos meios se alcançam os
segredos de todas as ciências , e os homens vêm a ilustrar seus nomes e perpetuar os na terra com fama imortal ,
determinei escolher a Vossa Mercê entre os mais senhores da terra , e dedicar lhe esta breve história .
[g_008_s_46] A qual espero que folgue de ver com atenção e receber me a benignamente debaixo de seu amparo :
assim por ser coisa nova , e eu a escrever como testemunha de vista : como por saber quão particular afeição
Vossa Mercê tem às coisas do engenho , e que por esta causa lhe não será menos aceito o exercício das escrituras
, que o das armas.
[g_008_s_47] Por onde com muita razão favorecido desta confiança possa seguramente sair a luz com esta
pequena empresa e divulgar a pela terra sem nenhum receio , tendo por defensor dela a Vossa Mercê Cuja muito
ilustre pessoa nosso Senhor guarde e acrescente sua vida e estado por longos e felizes anos .
[ end prologue ]
O Corpus Tycho Brahe
Exemplo de um texto em versão para ferramentas
LaborHistorico
Laboratório de História do Português Brasileiro
Universidade Federal do Rio de Janeiro.
Coord. Célia Lopes
http://www.letras.ufrj.br/laborhistorico/
>
LaborHistorico
Corpus de cartas pessoais brasileiras – Acervo Cupertino do Amaral
http://www.letras.ufrj.br/laborhistorico/
LaborHistorico
Corpus de cartas pessoais brasileiras – Acervo Cupertino do Amaral
http://www.letras.ufrj.br/laborhistorico/
CEDOHS
Corpus Eletrônico de Documentos
Históricos do Sertão,
Coord. Zenaide Carneiro
http://www2.uefs.br/cedohs/
>
64
Documentos editados com o eDictor
em diferentes corpora
(2005-2013)
Número total de documentos:
1.398Número de palavras:
2.856.127
dictore
Problemas
67
1. Baixa interoperabilidade - O código XML do eDictor
não segue padrões internacionais estabelecidos, desde
meados dos anos 2000, para corpora eletrônicos -
notadamente, o nenhuma das diferentes versões do TEI
(Text Encoding Initiative). Com isso, os textos trabalhados
no editor não são facilmente compartilháveis com outros
corpora. Alguns grupos desenvolveram scripts para essa
adaptação. Mas o ideal seria que a própria ferramenta
seguisse um código-standard, ou, ao menos, oferecesse essa
transição.
2. Alta dependência do código à estrutura lógica do
texto. As categorias básicas da marcação XML do eDictor
seguem uma hierarquia: seção > parágrafo > sentença >
palavra, que “prende” a anotação à hierarquia do texto. Isso
vem impedindo que a anotação se expanda para a anotação
da estrutura sintática dos textos (que era um importante
da atual versão
Problemas
68
1. Baixa interoperabilidade - O código XML do eDictor
não segue padrões internacionais estabelecidos, desde meados
dos anos 2000, para corpora eletrônicos - notadamente, o
nenhuma das diferentes versões do TEI (Text Encoding
Initiative). Com isso, os textos trabalhados no editor não são
facilmente compartilháveis com outros corpora. Alguns
grupos desenvolveram scripts para essa adaptação. Mas o
ideal seria que a própria ferramenta seguisse um código-
standard, ou, ao menos, oferecesse essa transição.
2. Alta dependência do código à estrutura lógica do
texto. As categorias básicas da marcação XML do eDictor
seguem uma hierarquia: seção > parágrafo > sentença >
palavra, que “prende” a anotação à hierarquia do texto. Isso
vem impedindo que a anotação se expanda para a anotação da
estrutura sintática dos textos (que era um importante objetivo
inicial, até hoje frustrado).
da atual versão
Problemas
70
Estes dois problemas principais estão estritamente
ligados à história do desenvolvimento do eDictor - a
trajetória entre seus objetivos iniciais e a ampliação
desses objetivos sempre no sentido de absorver
demandas de novos usuários.
da atual versão
http://www.ime.usp.br/~tycho/participants/psousa/memorias/index.html
PAIXÃO DE SOUSA, M.C. Memórias do Texto: Aspectos tecnológicos
na construção de um corpus histórico do português. Post-doc Research
Project, 2004-2007. Unicamp/Fapesp.
>
PAIXÃO DE SOUSA, M. C.; TRIPPEL, T. Single source processing of
Historic corpora for diverse uses.
In: Proceedings of the Association for Literary and Linguistic
Computing (ALLC) Annual Conference, 2004.
PAIXÃO DE SOUSA, M. C. A Anotação da variação de grafia no Corpus
Histórico do Português Tycho Brahe: Frentes abertas para estudos do léxico. V
Encontro de Corpora: Lingüística de Corpus: a aplicabilidade nos estudos sobre
Léxico, São Carlos, 2005.
PAIXÃO DE SOUSA, M. C. Memórias do Texto. Mesa-redonda “Bibliotecas e bancos de
dados digitais de literatura”, II Simpósio Nacional de Literatura e Informática, Florianópolis,
2005.
Published in 2006 as:
PAIXÃO DE SOUSA, M. C. Memórias do Texto. Texto Digital (UERJ), v. 1, p. 10, 2006.
PAIXÃO DE SOUSA, M. C. Critical Hipereditions and the new challenges for text-critique.
Seminário Internacional Literaturas: Del texto al hipertexto. Madri, Universidade
Complutense, setembro de 2006.
Published in 2007 as:
PAIXÃO DE SOUSA, M. C. Digital Text: Conceptual and methodological frontiers. In: Dolores
Romero; Amelia Sanz. (Org.). Literatures in the Digital Era: Theory and Praxis. Cambridge: Cambridge
Scholarly, 2007.
http://www.ime.usp.br/~tycho/participants/psousa/memorias/critical_hyper/ece_Frameset.html
Electronic Editions and Tycho Brahe Text Preparation Manual
June 2006
TRIPPEL, T.; PAIXÃO DE SOUSA, M. C. Metadata and XML standards
at work: a corpus repository of Historical Portuguese texts. V International
Conference on Language Resources and Evaluation (LREC), 2006.
TRIPPEL, T.; PAIXÃO DE SOUSA, M. C. Metadata and XML standards
at work: a corpus repository of Historical Portuguese texts. V International
Conference on Language Resources and Evaluation (LREC), 2006.
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. E-dictor: uma
ferramenta integrada para a anotação de edição e classe de palavras.
VI Encontro de Lingüística de Corpus, São Paulo, 2007.
> Versão 1.0 Beta 10
3) edição de obras raras
digitalizadas
- Projeto Edições Filológicas na
Brasiliana Digital, 2009-2013
dictore
Bibioteca Brasiliana Guita e José Mindlin, doada
à Universidade de São Paulo em 2006:
40.000 obras dos séculos XVI a XXI…
RELAÇAÕPA ENTRJDJ QUE FEZO
EXCELI, ENTlSSIMO, E
REVERENDÍSSIMO SENHORD. F
RANTONIO DO DESTERRO
MALHEYROAiſpoào Rio de Janeiro, em o
primeiro dia defle prtzente Anno de
1747,havendo fidoſeis Annos Biſpo do B,
eyno de Angola, donde por no-miacaõ de
Sua Mageftade, e Bulla Pontificia, foy
promovidopara ella Diocefi. COMPOSTA
PELO DOUTORLÜIZ ANTONIO
ROSADODA CUNHA£ fm\ de Fora, e
Provedor dos defuntos, e au-Z$nte$ y
Capella*, c ReJĩdos do Rio de Janeiro. RIO
DE JANEIRO tía Segunda Officina de
ANTONIO ISID. ORO DAĩONCECA,
Anno de M. CC. XLVII. Com licenças do
Senhor Bijfo,
OCR “Optical
Character
Recognition”
texto
imagem
RELAÇAÕPA ENTRJDJ QUE FEZO
EXCELI, ENTlSSIMO, E REVERENDÍSSIMO
SENHORD. F RANTONIO DO DESTERRO
MALHEYROAiſpoào Rio de Janeiro, em o primeiro
dia defle prtzente Anno de 1747,havendo fidoſeis
Annos Biſpo do B, eyno de Angola, donde por no-
miacaõ de Sua Mageftade, e Bulla Pontificia, foy
promovidopara ella Diocefi. COMPOSTA PELO
DOUTORLÜIZ ANTONIO ROSADODA
CUNHA£ fm\ de Fora, e Provedor dos defuntos, e
au-Z$nte$ y Capella*, c ReJĩdos do Rio de Janeiro.
RIO DE JANEIRO tía Segunda Officina de
ANTONIO ISID. ORO DAĩONCECA, Anno de
M. CC. XLVII. Com licenças do Senhor Bijfo,?
Relação da entrada que fez o excelentíssimo, e
reverendíssimo senhor Dom Frei Antonio do
Desterro Malheiro, Bispo do Rio de Janeiro,
em o primeiro dia deste presente Ano de 1747
havendo sido seis Anos Bispo do Reino de
Angola, donde por nomeação de Sua
Majestade, e Bula Pontifícia, foi promovido
para esta Diocese. Composta pelo doutor Luiz
Antonio Rosado da Cunha Juiz de Fora, e
Provedor dos defuntos, e ausentes, Capelas, e
Residos do Rio de Janeiro. Rio de Janeiro, Na
Segunda Oficina de Antonio Isidoro da
Fonseca, Ano de MCCXLVII. Com licenças
do Senhor Bispo.
!
>O Projeto Edições Filológicas na
Brasiliana Digital (2009-2013)
criou, com o eDictor, edições
corrigidas e modernizadas para
algumas obras do acervo, além de
um banco de dados de erros de
reconhecimento automático
(OCR).
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. O Processamento
automático de textos antigos: Desafios e Experiências. Workshop de Linguística de Corpus
do Projeto Para a História do Português Brasileiro (PHPB), São Paulo, 2010.
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
(Abbyy Finereader 10.0 training module)
RELAÇÃO/NPR DA/P+D-F ENTRADA/NPR QUE/WPRO FEZ/NPR O/D EXCELENTÍSSIMO/NPR ,/, E/CONJ REVERENDÍSSIMO/NPR SENHOR/NPR DOM/NPR FREI/NPR ANTONIO/NPR DO/P+D DESTERRO/NPR MALHEYRO/NPR Bispo/NPR do/P+D Rio/NPR de/P Janeiro/NPR ,/, em/P o/D primeiro/ADJ dia/N deste/P+D presente/ADJ-G Ano/NPR de/P 1747/NUM havendo/HV-G sido/SR-PP seis/NUM Anos/N-P Bispo/NPR do/P+D Reino/NPR de/P Angola/NPR ,/, donde/P+WADV por/P nomeação/N de/P Sua/PRO$-F Magestade/NPR ,/, e/CONJ Bula/NPR Pontifícia/N ,/, foi/SR-D promovido/VB-AN para/P esta/D-F Diocese/NPR ./. 06_Realacao,2.7/ID
COMPOSTA/NPR PELO/NPR DOUTOR/NPR LUIZ/NPR ANTONIO/NPR ROSADO/NPR DA/P+D-F CUNHA/NPR Juíz/NPR de/P Fora/NPR ,/, e/CONJ Provedor/NPR dos/P+D-P defuntos/ADJ-P ,/, e/CONJ ausentes/ADJ-G-P ,/, Capelas/NPR-P ,/, e/CONJ Residos/NPR-P do/P+D Rio/NPR de/P Janeiro/NPR ./. 06_Realacao,2.8/ID
RIO/NPR DE/P JANEIRO/ADJ 06_Realacao,2.9/ID
Na/P+D-F Segunda/ADJ-F Oficina/NPR de/P ANTONIO/NPR ISIDORO/NPR DA/P+D-F FONCECA/NPR ./. 06_Realacao,2.10/ID
Ano/NPR de/P M./NPR CC./. XLVII./. 06_Realacao,2.11/ID
Com/P licenças/N-P do/P+D Senhor/NPR Bispo/NPR ./. 06_Realacao,2.12/ID
Texto
anotado:
P.O.S.
<w id="s_6#86">
<o> amiſjade</o>
<e t="ocr">amiſſade</e>
<e t="gra">amissade</e>
<e t="mod">amizade </e>
<m v="N"/>
</w>
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
<w id="s_6#86">
<o> amiſjade</o>
<e t="ocr">amiſſade</e>
<e t="gra">amissade</e>
<e t="mod">amizade </e>
<m v="N"/>
</w>
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
em todo esse processo de
adaptação ao uso por novos
projetos foi que
“Edição” passou a ser
uma categoria aberta, que
pode ser configurada por cada
grupo.
> O mais importante…
em todo esse processo de
adaptação ao uso por novos
projetos foi que
“Edição” passou a ser
uma categoria aberta, que
pode ser configurada por cada
grupo.
> O mais importante…
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas
perspectivas na codificação e edição de corpora de textos históricos. In: VIII
Encontro de Linguística de Corpus, 2009, Rio de Janeiro. 2009.
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas
perspectivas na codificação e edição de corpora de textos históricos. In: Tania
Shepherd; Tony Berber Sardinha; Marcia Veirano Pinto. (Org.). Caminhos da
linguística de corpus. Campinas: Mercado de Letras, 2010.
desde 2007 foram lançadas
10 versões ('builds')
do eDictor 1.0 beta,
cada uma refletindo
modificações e
acrescentamentos
solicitados pelos novos
projetos que
adotaram a ferramenta.
Em resumo…
>
125
Luiz Henrique Lima Veronesi:
e-Dictor: da plataforma para a nuvem.Dissertação de Mestrado em Filologia e Língua Portuguesa, Universidade de São Paulo, 2014.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"/>
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"/>
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"/>
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR" ... />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR"/></t>
<t pos="70" value="ANTONIO">
<attributes part-of-speech=“NPR"/></t>
<t pos="71" value="ROSADO">
<attributes part-of-speech=“NPR"/></t>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA">
<attributes part-of-speech=“NPR”/></t>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR"/></t>
<t pos="70" value="ANTONIO">
<attributes part-of-speech=“NPR"/></t>
<t pos="71" value="ROSADO">
<attributes part-of-speech=“NPR"/></t>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA">
<attributes part-of-speech=“NPR”/></t>
Primeira vantagem
142
1. A primeira vantagem da nova
versão é “libertar” o código do
eDictor de sua dependência à
estrutura gráfica do texto.
Problemas
143
(lembrando….)
1. Alta dependência do código à estrutura gráfica do
texto. As categorias básicas da marcação XML do
eDictor seguem uma hierarquia: seção >
parágrafo > sentença > palavra, que “prende” a
anotação à hierarquia do texto. Isso vem
impedindo que a anotação se expanda para a
anotação da estrutura sintática dos textos (que era
um importante objetivo inicial, até hoje frustrado).
da atual versão
Primeira vantagem
144
1. A primeira vantagem da nova versão é “libertar” o
código do eDictor de sua dependência à estrutura
gráfica do texto.
Com o novo código, finalmente nos
aproximamos do objetivo de incluir a
anotação sintática entre as
tarefas que podem ser cumpridas no
interior da ferramenta.
Pois, nas palavras de Veronesi (2014:52),
“O texto passa a ser compreendido por listas
Primeira vantagem
145
1. A primeira vantagem da nova versão é “libertar” o código
do eDictor de sua dependência à estrutura gráfica do texto.
Com o novo código, finalmente nos aproximamos do
objetivo de incluir a anotação sintática entre as
tarefas que podem ser cumpridas no interior da ferramenta.
Pois, nas palavras de Veronesi (2014:52),
“O texto passa a ser compreendido por
listas que se relacionam logicamente em
função da posição linear que os tokens
ocupam após o processo de tokenização”.
Primeira vantagem
148
“Luiz Antonio Rosado da Cunha” <chunk/>
[Luiz Antonio Rosado da Cunha] Sintagma
Primeira vantagem
149
“Luiz Antonio Rosado da Cunha” <chunk/>
[Luiz Antonio Rosado da Cunha] Sintagma
Primeira vantagem
151
Ilustração do esquema de anotação sintática proposto em
Veronesi (2014):
Sintagmas
“Palavras” >
>
Primeira vantagem
152
Ilustração do esquema de anotação sintática proposto em
Veronesi (2014):
Sintagmas
“X” >
>
Primeira vantagem
153
Ilustração da interface para anotação sintática
(versão interna para testes, ainda não publicada)
Primeira vantagem
154
Em resumo:
Anotação fundada na
estrutura gráfica
Anotação fundada em
“listas logicamente relacionadas”
Segunda vantagem
156
2. A segunda vantagem da nova versão está
ligada a sua disponibilização em ambiente de
nuvem.
Em tese, uma ferramenta que não precisa ser
“baixada” por cada usuário permite que as
novas versões e melhoramentos sejam
imediatamente disponíveis para todos os
usuários, entre outras vantagens apontadas
por Veronesi 2014.
Primeiro problema
158
1. O primeiro problema está ligado à segunda
vantagem. Nem todos os usuários sentem-se
confortáveis com uma ferramenta que nunca
está disponível localmente - a dependência de
todo um projeto ao acesso a um servidor
remoto, muitas vezes em outro continente,
passível de problemas e quedas, etc., não é
desejada pela maioria. Do outro lado, o
funcionamento “em nuvem” traz à equipe de
desenvolvedores da ferramenta uma grande
responsabilidade, pois precisam manter e
tornar disponível algo que forma a base das
pesquisas de muitos grupos. A solução desse
problema, em princípio, não parece complexa:
Primeiro problema
159
1. O primeiro problema está ligado à segunda vantagem.
Nem todos os usuários sentem-se confortáveis com uma
ferramenta que nunca está disponível localmente - a
dependência de todo um projeto ao acesso a um servidor
remoto, muitas vezes em outro continente, passível de
problemas e quedas, etc., não é desejada pela maioria. Do
outro lado, o funcionamento “em nuvem” traz à equipe
de desenvolvedores da ferramenta uma grande
responsabilidade, pois precisam manter e tornar
disponível algo que forma a base das pesquisas de muitos
grupos. A solução, em princípio, não
parece complexa: seria possível
implementar uma ferramenta híbrida,
com versão em nuvem e local. Mas isso
nos leva ao segundo problema.
Segundo problema
161
1.O segundo problema está fortemente
ligado ao primeiro. Para que o
funcionamento “em nuvem” seja
garantido, é preciso haver uma equipe de
desenvolvedores dedicados; mesmo para
se fazer uma ferramenta híbrida, com
versão em nuvem e local, é necessário
termos uma equipe.
O fato, entretanto, é que o eDictor nunca
contou com uma equipe dedicada.
Segundo problema
162
1.O segundo problema está fortemente
ligado ao primeiro. Para que o
funcionamento “em nuvem” seja
garantido, é preciso haver uma equipe de
desenvolvedores dedicados; mesmo para
se fazer uma ferramenta híbrida, com
versão em nuvem e local, é necessário
termos uma equipe.
O fato, entretanto, é que o eDictor nunca
contou com uma equipe dedicada.
Possível solução
164
A meu ver há uma medida que pode solucionar todos os
problemas do eDictor.
Deveríamos abrir o código-fonte tanto da versão 1.0 como
da nova-versão web, enviá-lo a um portal de
desenvolvedores, transformando o eDictor em uma
ferramenta de construção colaborativa, por
meio do uso de plataformas do tipo CSD -
Collaborative Software Development Platforms.
Esta sempre foi, de fato, a vocação dessa ferramenta.
Possível solução
165
Desde o início, o eDictor foi construído em pequenas etapas,
por diferentes pesquisadores vindos de diferentes formações,
e com diferentes objetivos.
Como vimos, isso trouxe problemas para as diferentes versões.
Entretanto, é também daí que vem a força
da ferramenta.
A proposta, agora, seria assumir definitivamente a vocação
“múltipla” dessa forma de desenvolvimento, e lançar a
criança no mundo, esperando que ela construa agora seus
próprios caminhos.
Possível solução
166
Desde o início, o eDictor foi construído em pequenas etapas,
por diferentes pesquisadores vindos de diferentes formações,
e com diferentes objetivos.
Como vimos, isso trouxe problemas para as diferentes versões.
Entretanto, é também daí que vem a força
da ferramenta.
A proposta, agora, seria assumir definitivamente a vocação
“múltipla” dessa forma de desenvolvimento, e lançar a
criança no mundo, esperando que ela construa agora seus
próprios caminhos.
Desde o início, o eDictor foi construído em pequenas
etapas, por diferentes pesquisadores vindos de diferentes
formações, e com diferentes objetivos.
Como vimos agora, isso trouxe problemas para as
diferentes versões.
Entretanto, é também daí, a meu ver, que vem a força da
ferramenta.
A proposta, agora, seria assumir definitivamente essa
vocação “múltipla”, e digamos, “ bastarda” dessa forma de
desenvolvimento, e
Maria Clara Paixão de SousaUniversidade de São Paulo
mariaclara@usp.br
eDictor:
histórico e perspectivas
PAIXÃO DE SOUSA, M. C. eDictor: a chronology. Apresentação na mesa redonda “eDictor: advances
and perspectives”. Workshop Construction and use
of large annotated corpora. Campinas, Unicamp, 09/09/2013. [Slides - Slideshare]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. E-Dictor: Novas perspectivas na codificação
e edição de corpora de textos históricos. In: Tania Shepherd; Tony Berber Sardinha; Marcia Veirano Pinto.
(Org.). Caminhos da linguística de corpus. Campinas: Mercado de Letras, 2010. [PDF]
FARIA, P. P. F.; PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. An Integrated Tool for Annotating
Historical Corpora. The Fourth Linguistic Annotation Workshop (LAW IV) at The 48th Annual Meeting
of the Association for Computational Linguistics (ALC 2010), Uppsala, 2010.
(Congresso). [PDF (poster)]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. O Processamento automático de textos
antigos: Desafios e Experiências. Workshop de Linguística de Corpus do Projeto Para a História do
Português Brasileiro (PHPB), São Paulo, 2010. (Conferência). [PDF (slides)]
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana
Digital. I Workshop de Linguística Computacional da USP, 2009. (Conferência). [PDF(slides)]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e
edição de corpora de textos históricos. VIII Encontro de Linguística de Corpus, Rio de Janeiro, 2009.
(Comunicação).
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e
edição de corpora de textos históricos. In: VIII Encontro de Linguística de Corpus, 2009, Rio de Janeiro.
Resumos, 2009. [PDF (slides)]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. E-Dictor: Uma ferramenta integrada para a anotação de edição
e classe de palavras. VI Encontro de Lingüística de Corpus, São Paulo, 2007. [abrir página]
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR" />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR" ... />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR"
... />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" mod="LUIZ"/>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" mod="LUIZ"/>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" exp="d@" exp="a"/>
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" mod="LUIZ"
pos="NPR"/>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" exp="d@" exp="a"/>
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR" />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR" ... />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR"
... />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" mod="LUIZ"/>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" mod="LUIZ"/>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" exp="d@" exp="a"/>
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" mod="LUIZ"
pos="NPR"/>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" exp="d@" exp="a"/>
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR"/></t>
<t pos="70" value="ANTONIO">
<attributes part-of-speech=“NPR"/></t>
<t pos="71" value="ROSADO">
<attributes part-of-speech=“NPR"/></t>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA">
<attributes part-of-speech=“NPR”/></t>
<page data-uid="1">
RELAÇÃO DA ENTRADA QUE FEZ O
EXCELENTÍSSIMO, E REVERENDÍSSIMO SENHOR
DOM FREI ANTONIO DO DESTERRO MALHEYRO
Bispo do Rio de Janeiro, em o primeiro dia deste presente
Ano de 1747 havendo sido seis Anos Bispo do Reino de
Angola, donde por nomeação de Sua Magestade, e Bula
Pontifícia, foi promovido para esta Diocese. COMPOSTA
PELO DOUTOR LUIZ ANTONIO ROSADO DA
CUNHA Juiz de Fora, e Provedor dos defuntos, e ausentes,
Capelas, e Residos do Rio de Janeiro. RIO DE JANEIRO Na
Segunda Oficina de ANTONIO ISIDORO DA FONCECA.
Ano de M. CC. XLVII. Com licenças do Senhor Bispo.
</page>
Versão Web – em teste
top related