dictionaries – the art and craft of lexicography

Upload: rotelo

Post on 13-Jul-2015

58 views

Category:

Documents


1 download

DESCRIPTION

Guia de leitura para o texto de Sidney Landau

TRANSCRIPT

LANDAU, Sidney I. Dictionaries the art and craft of lexicography. Cambridge: Cambridge University press, 2001.RELATORA: ngela Cristina Rodrigues de Castro (09/06/2010)

DIVISO/ORGANIZAO DO TEXTO Apresentao (corpus- o que ?) 1. Histria do desenvolvimento da lingustica de corpus 1.1. A hostilidade chomskyana em relao anlise quantitativa 1.2. A emergncia da lingustica de corpus 1.3. Mudanas tecnolgicas 1.4. Corpora de segunda gerao 2. O uso do corpus na lexicografia moderna 2.1. Selecionando exemplos na lexicografia em ESL 2.2. Collocations 2.3. Outros usos do corpus 2.4. Limitaes do corpus 3. Compilando um corpus 3.1. Coletneas de textos 3.2. Representatividade 3.3. Instrumentos (para estudos) lexicais 4. O uso futuro do corpus

OBJETIVOS DO TEXTO: Apresentar uma retrospectiva da Lingustica de Corpus; Apresentar os principais marcos de sua histria; Discutir algumas questes tericas e prticas relativas utilizao de corpora na elaborao de dicionrios; Projetar as perspectivas para o uso futuro do corpus.

Relato de leitura Apresentao No estudo da lngua, o corpus qualquer conjunto de textos coletados com o objetivo de analisar suas caractersticas/seus traos. (____________________) Um corpus uma coletnea de textos em formato eletrnico, compilada segundo critrios especficos, considerada representativa de uma lngua (ou da parte que se pretende estudar), destinada pesquisa. (TAGNIN, 2004) O sentido original da palavra corpus corpo, conjunto de documentos. Na Grcia Antiga, Alexandre, o Grande definiu o Corpus Helenstico; na Antiguidade e na Idade Mdia, produziram-se corpora de citaes da Bblia. Os corpora vm sendo utilizados como grandes registros da lngua falada e escrita. Vrios chegam a ter muitos milhes de palavras de textos literrios, textos jornalsticos, transcries de lngua falada, textos especializados. H tambm corpora de lngua geral, que procuram ser o mais representativo possvel dos diversos tipos de textos, discurso e registros. Ou seja, havia corpora antes do computador! 1. Histria do desenvolvimento da lingustica de corpus

H mais de oitenta anos, o educador Edward L. THORNDIKE desenvolveu o primeiro trabalho, da era moderna, de identificao das palavras mais frequentes da lngua inglesa. Foi um trabalho de grande escala realizado manualmente em um corpus de 4,5 milhes de palavras, publicado em 1921 como Teachers Word Book. Este trabalho foi ampliado para um corpus de 18 milhes de palavras nas dcadas seguintes, dando origem ao Teachers Word Book of 30,000 Words. Essa segunda verso tomava por base textos de revistas e de leitura infanto-juvenil e objetiva a ajudar educadores e professores a determinar que palavras so comuns o bastante para serem usadas em nveis de graduao especficos.

Outros levantamentos de razovel proporo: - Ernest Horn (A Basic Writing Vocabulary: 10,000 Words Most Commonly Used in Writing, de 1926) acervo de cartas. - Godfrey Dewey (Relativ Frequency of English Speech Sounds, de 1923) acervo de origens diversas com o objetivo de estudar a frequncia de sons da fala. Os estudos de corpus de primeira gerao (pr-eletrnicos) que mais causaram impacto na lexicografia foram aqueles que se destinavam a ajudar no ensino de ingls para estrangeiros. (p. 64) 1.1. A hostilidade chomskyana em relao anlise quantitativa No final dos anos 1950 apareceria Syntactic Structures, de Chomsky, e com ele uma mudana de paradigmas na lingustica: saa de cena a sustentao dos trabalhos baseados em corpora, tomando o lugar central as teorias mentalistas da linguagem, notadamente a lingustica gerativa. Essa dominncia se estende at a dcada de 1980, especialmente nos Estados Unidos. Ento, passamos a observar uma oposio entre a Lingustica de corpus e a lingustica chomskyana, entre a quantificao e a possibilidade. Para Chomsky, uma vez que os usos potenciais da lngua (performance) seriam infinitos, a habilidade/capacidade (competncia) de um falante nativo em gerar uma variedade infinita s poderia ser explicada pelo vis intuitivo das regras gramaticais que permeiam tal gerao de enunciados, a gramtica internalizada. 1.2. A emergncia da lingustica de corpus O termo lingustica de corpus no existia antes de 1950 e tudo o que era desenvolvido segundo esse conjunto de procedimentos era abarcado pelos linguistas denominados estruturalistas. (p. 65) O termo s passou a ser utilizado a partir da dcada de 1980 e definido como um mtodo de se fazer pesquisa, no como um ramo da Lingustica (cf. Leech) (p.277) Landau define Lingustica de corpus como o estudo da lngua a partir do uso de coletneas de textos num arquivo computadorizado e que podem ser analisadas pela aplicao de procedimentos estatsticos. Hoje em dia, ela considerada um ramo Lingustica computacional, que pode ser definida como o estudo da linguagem natural a partir do uso de tcnicas de cincia computacional. O primeiro estudo quantitativo representativo, por meio de uso de computadores, foi o Brown Corpus, em 1964, estudo este que continha uma quantidade invejvel de dados para a poca: um milho de palavras. Na poca, os textos tiveram de ser transferidos para o computador por meio de cartes, perfurados um a um, tal era a tecnologia da poca. Considera-se que o referido estudo teve grande importncia no desenvolvimento do que se conhece hoje como Lingustica de corpus (cabe salientar que foi em relao `a lngua inglesa que se deu o maior desenvolvimento na rea).

1.3. Mudanas tecnolgicas Um fator que certamente contribuiu para o apagamento das abordagens baseadas em corpus, alm das teorias chomskyanas, foi a crescente leva de crticas sobre o processamento manual de corpora. A inveno do computador mudou este quadro. Ele tornou possvel adquirir-se textos em formato eletrnico para a composio dos corpora. De posse de tais corpora, elaboradores srios de dicionrios podero basear suas decises editoriais em evidncias srias, mais do que em intuio e adivinhaes. Mas quais so os traos-chave da Lingustica de corpus computadorizada? Segundo Leech so: 1. 2. 3. 4. Foco na performance lingustica em vez de na competncia; Foco na descrio lingustica e no nos universais lingusticos; Foco nos modelos de linguagem tanto quantitativos quanto qualitativos; Foco numa viso mais emprica do que racionalista da busca cientfica.

1.4. Corpora de segunda gerao A lingustica de corpus tem ganhado muito espao no ltimo sculo, havendo, inclusive associao de centros de pesquisa com uma Editora. Associao pioneira a da Universidade de Birmingham e a Editora Collins, no Projeto COBUILD. Nesse mbito foram produzidos vrios dicionrios, gramticas e livros didticos para o ensino de ingls. Quase desativado hoje, o COBUILD permanece como referncia no desenvolvimento e aplicao da pesquisa baseada em corpus com fins comerciais. Este projeto insere-se no que se denomina de segunda gerao de corpora.

2. O uso do corpus na lexicografia moderna 2.1. Selecionando exemplos na lexicografia em ESL - Nos dicionrios para aprendizes estrangeiros, o uso de exemplos de grande importncia, embora h de se convir que muitas das palavras no ocorrem em contextos simples e autoexplicativos. - Na lexicografia h um grande conflito entre fornecer informao compreensvel para propsitos de decodificao e fornecer informaes acuradas para propsitos de codificao (p.80) 2.2. Collocations

Citation files = coletnea de palavras e frases, acompanhada de seus contextos verbais, usada como material bruto para a elaborao de dicionrios. Dependendo do tipo de dicionrio, esses arquivos podem ir de uma simples lista de referncias para fontes nas quais a palavra ou frase ocorram at uma coletnea de cartes arquivo com citaes completas e um corpus sistematizado de textos em formato de concordncias impressas ou na tela.

2.3. Outros usos do corpus Machine translation (tradutores on-line) Translation studies Speech synthesis and speech recognition

2.4. Limitaes do corpus No representa a variedade de formas em a lngua pode ser espontaneamente na fala e deliberadamente na escrita. A maioria dos corpora lexicogrficos existentes so limitados no tempo, vindo talvez dos anos de 1970, raramente antes disso. Conforme os corpora vo se tornando mais e mais extensos, mais os lexicgrafos dependeram de instrumentos computacionais para tomar suas decises acerca da frequncia e da forma. A transcrio de conversas/falas para a forma escrita feita por pessoas a partir de fitas de udio. A ortografia reflete a escolha de quem transcreve e reflete somente o som e no a forma. (p.88) Os dicionrios no so produzidos a vcuo, mas por pessoas premidas pela questo do tempo.

3. Compilando um corpus O corpus no deve ser mais amplo nem mais complexo do que precisa ser para cumprir suas funes. 3.1. Coletnea de textos Devem refletir a variedade de gneros e modos de produo. 3.2. Representatividade Para se ter representatividade, o corpus de ser o maior possvel. Todas as categorias textuais devem estar representadas. Um corpus maior em geral mais representativo do que um menor devido ao fato de conter mais instncias de traos lingusticos raros.

3.3. Instrumentos (para estudos) lexicais WORDSMITH TOOL 4. O uso futuro do corpus - editoras de dicionrios criaro seus corpora. - empresas de telemarketing etc