tags como fonte de coleta de candidatos a termos para elaboração de vocabulários controlados na...

15
Tags como fonte de coleta de candidatos a termos para elaboração de vocabulários controlados na área da Pediatria Luciana Monteiro Krebs - Bolsista Voluntária IC Profª Drª Regina Helena van der Laan - Orientadora Profª Drª Sônia Elisa Caregnato - Co-orientadora Me. Rita do Carmo Ferreira Laipelt - Co-orientadora XXIV Salão de Iniciação Científica 1

Upload: luciana-monteiro

Post on 25-Jun-2015

324 views

Category:

Documents


0 download

DESCRIPTION

Apresentação para XXIV Salão de Iniciação Científica do projeto de Pesquisa Folksonomias na Organização do Conhecimento, de autoria de Luciana Monteiro Krebs (Bolsista Voluntária de Iniciação Científica), com a orientação da Profª Drª Regina Helena van der Laan e colaboração da Profª Drª Sônia Elisa Caregnato e Rita do Carmo Ferreira Laipelt. Trabalho indicado para Prêmio Jovem Cientista da UFRGS como finalista nas Ciências Sociais Aplicadas.

TRANSCRIPT

Page 1: Tags como fonte de coleta de candidatos a termos para elaboração de vocabulários controlados na área da Pediatria

Tags como fonte de coleta de candidatos a termos para elaboração de vocabulários

controlados na área da Pediatria

Luciana Monteiro Krebs - Bolsista Voluntária IC

Profª Drª Regina Helena van der Laan - Orientadora

Profª Drª Sônia Elisa Caregnato - Co-orientadora

Me. Rita do Carmo Ferreira Laipelt - Co-orientadora

XXIV Salão de Iniciação Científica

1

Page 2: Tags como fonte de coleta de candidatos a termos para elaboração de vocabulários controlados na área da Pediatria

1 Introdução

Como superar? INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 2

Linguagens documentárias voltadas para bibliotecário, distantes do usuário

Descentralização dos agentes produtores de informação

Muita informação Pouco tempo

Acesso remoto

Exigência alta

Necessidade de informação => Agilidade e precisão na

recuperação dos documentos

Segunda lei de Ranganathan “Para cada Leitor, seu Livro” inclui

a adoção de uma terminologia mais próxima do leitor.

(Gomes et al., 2006)

(Le Coadic, 2004)

Page 3: Tags como fonte de coleta de candidatos a termos para elaboração de vocabulários controlados na área da Pediatria

1 Introdução Propomos uma reflexão sobre a possível contribuição da

folksonomia nos processos formais de indexação de

documentos, enquanto fontes de coleta de candidatos a

termos, objetivando aproximar a linguagem utilizada nestes

processos daquela conhecida pelo usuário. Almeja-se com isso,

alcançar maior assertividade no momento da busca, poupando

o tempo do leitor.

• Folksonomia (Thomas Vander Wal, 2007)

Resultado da marcação livre e pessoal de informações e objetos (qualquer coisa com uma URL) para uma recuperação própria [tradução nossa].

• Tags (Lacerda e Valente, 2007, p.23)

Palavras, siglas ou qualquer código pessoal, determinado livremente pelo usuário, de acordo com a sua conveniência. Um objeto pode receber um número ilimitado de tags.

Alternativa de gerenciamento de informação (Amaral e Aquino, 2008)

3 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS

Page 4: Tags como fonte de coleta de candidatos a termos para elaboração de vocabulários controlados na área da Pediatria

2 Objetivo Analisar se tags podem ser fonte de coleta de

candidatos a termos para a elaboração de

vocabulários controlados.

4 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS

Vocabulários controlados

Corpus textual

Tags

Profissionais da

informação

Usuários

Especialistas

Page 5: Tags como fonte de coleta de candidatos a termos para elaboração de vocabulários controlados na área da Pediatria

3 Metodologia Tipo de estudo: Quantitativo

Corpus de pesquisa: 200 tags

Coleta de dados (agosto/2011) Cite U Like (http://www.citeulike.com) é uma ferramenta de

armazenamento e compartilhamento online de

documentos com o recurso de social tagging.

• Estratégia de busca pelo tema Pediatria (através da

expressão de busca “Pediatric”) e compartilhados por pelo

menos 2 (dois) usuários.

• Coleta de meta-dados atribuídos aos artigos o dados de identificação do documento (título, autor, editora, data, etc)

o as tags (etiquetas) atribuídas por usuários aos mesmos

• De posse de meta-dados dos documentos buscamos na web

os documentos na íntegra, para constituir o corpus textual.

5 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS

Page 6: Tags como fonte de coleta de candidatos a termos para elaboração de vocabulários controlados na área da Pediatria

3 Metodologia Tratamento de dados (agosto/2011 a janeiro/2012)

• Limpeza e normalização manual do corpus de

pesquisa • Planilha Microsoft Excel

o Repetições: 979 => 493 tags únicas (diferentes entre si)

o Siglas, erros de grafia (ex. “childrens”), sem sentido claro quando

empregadas ao assunto Pediatria, muito genéricas ou que transitam em

várias áreas do conhecimento (ex. “treatment”): 493 => 200 tags

• Limpeza e normalização manual do corpus textual • Conversor, Notepad, e-Termos

o Conversão dos documentos (artigos) de PDF para TXT

o Retiradas informações não relevantes para a pesquisa (como paginação, referências, notas de rodapé, ilustrações, currículo dos

autores, etc.)

o Upload do corpus textual no e-Termos.

e-Termos (http://www.etermos.cnptia.embrapa.br) é um ambiente

colaborativo online de acesso gratuito cujo objetivo é

auxiliar na gestão terminológica.

6 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS

Page 7: Tags como fonte de coleta de candidatos a termos para elaboração de vocabulários controlados na área da Pediatria

3 Metodologia Tratamento de dados (janeiro/2012 a junho/2012)

• Validação no corpus textual Verificação de ocorrência das tags coletadas no discurso dos

especialistas (se eram citadas dentro dos artigos). Para isto, utilizamos

os recursos “Frequência” e “Consulta termos” do e-Termos.

• Validação no vocabulário controlado O DeCS (Descritores em Ciências da Saúde,

disponível em http://decs.bvs.br/) é um vocabulário

estruturado e trilíngue, criado pela Bireme e desenvolvido

a partir do MeSH (Medical Subject Headings). Tem o objetivo de servir

como uma linguagem única na indexação de documentos técnico-

científicos de toda natureza, além de ser uma fonte de pesquisa e

recuperação de assuntos da literatura na área das Ciências da Saúde.

Análise dos resultados (agosto/2012)

7 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS

Page 8: Tags como fonte de coleta de candidatos a termos para elaboração de vocabulários controlados na área da Pediatria

4 Resultados

8 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS

E-Termos Freq.

Absoluta

Freq.

Relativa Freq.

Absoluta

Freq.

Relativa

ocorrência em

frequência

112 56% ocorrência em

consulta termos

178 89%

não aparece em

frequência

88 44% não aparece em

consulta termos

22 11%

Tabela 4 – Tabela de percentuais de ocorrência das tags no corpus textual.

Fonte: as autoras.

56% 44%

Ocorrência de tags no corpus textual através da ferramenta

e-Termos - Frequência

ocorre em frequência

não ocorre em frequência

89%

11%

Ocorrência de tags no corpus textual através da ferramenta e-Termos -

Consulta termos

ocorre em consulta termos

não ocorre em consulta termos

Page 9: Tags como fonte de coleta de candidatos a termos para elaboração de vocabulários controlados na área da Pediatria

4 Resultados

9

90%

10%

Ocorrência de tags no corpus textual através de ambas ferramentas do e-Termos

ocorre em frequência ou consulta termos

não ocorre em nenhuma das ferramentas

INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS

e-Termos Freq.

Absoluta

Freq.

Relativa

ocorrência em frequência ou consulta termos 180 90%

não aparece em nenhuma das ferramentas 20 10%

Tabela 5 – Tabela de percentuais compilados de ocorrência das tags no

corpus textual.

Fonte: as autoras.

Page 10: Tags como fonte de coleta de candidatos a termos para elaboração de vocabulários controlados na área da Pediatria

4 Resultados

10 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS

36%

9% 19%

36%

Ocorrência de tags no vocabulário controlado DeCS

Encontrado

Encontrado como variante

Encontrado como parte de descritor

Não encontrado

DeCs Freq.

Absoluta

Freq. Rel.

Individual

Freq.

Relativa

Encontrado 72 36% 64%

Encontrado como variante 18 9%

Encontrado como parte de descritor 38 19%

Não encontrado 72 36% 36%

Tabela 6 – Tabela de percentual de ocorrência das tags no vocabulário

controlado.

Fonte: as autoras.

64%

36%

Validação DeCS compilada

Encontrado Não encontrado

Page 11: Tags como fonte de coleta de candidatos a termos para elaboração de vocabulários controlados na área da Pediatria

4 Resultados

11 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS

• 180 tags foram validadas no e-Termos

(corpus textual);

• 128 tags foram validadas no DeCS

(vocabulário controlado);

• 186 tags foram validadas no

e-Termos ou no DeCS;

• 14 tags não foram encontradas em

nenhuma das ferramentas.

7%

64%

90%

93%

não encontrado em nenhuma das ferramentas

validado somente no DeCS

validado somente no e-Termos

validado no e-Termos ou no DeCS

Freq. Relativa

186 180

128

14

validado noe-Termos ou

no DeCS

validadosomente noe-Termos

validadosomente no

DeCS

nãoencontrado

em nenhumadas

ferramentas

Ocorrência de tags no corpus textual e vocabulário controlado

Page 12: Tags como fonte de coleta de candidatos a termos para elaboração de vocabulários controlados na área da Pediatria

5 Considerações parciais Com 93% das tags validadas no corpus textual ou no

vocabulário controlado, confirmamos nosso pressuposto de

pesquisa, concluindo que as tags são ótimas fontes não só para

a identificação de candidatos a termos, como para a

identificação de variantes terminológicas (equivalentes) que

são importantes para alimentar um sistema de remissivas. Assim,

podem incrementar processos de indexação auxiliando os profissionais da informação na elaboração de tesauros.

As tags atribuídas pelos usuários do CiteULike a

documentos compartilhados no ambiente, em sua maioria, tem

alguma relação com os assuntos dos documentos.

12 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS

Page 13: Tags como fonte de coleta de candidatos a termos para elaboração de vocabulários controlados na área da Pediatria

5 Considerações parciais Perspectivas de continuidade ou desdobramento do trabalho

• A análise das tags que não apareceram no corpus textual e/ou no

vocabulário controlado pode originar uma futura pesquisa, que

possibilitará trazer para os sistemas de informação novos termos da

linguagem dos usuários especializados.

• Constata-se a oportunidade de ampliação da pesquisa somando-se

à este estudo outras áreas do conhecimento (além da Pediatria) e o

aprofundamento do estudo das tags já coletadas por outras

entidades de validação, como especialistas da área (Pediatras).

• As variações de numeral identificadas, se normalizadas, poderiam

resolver futuros problemas de recuperação

o adolescent (8 / 199), adolescents (2 / 417)

o immunization (2 / 81), immunizations (1 / 47)

o infant (2 / 458), infants (5 / 1697)

• Tags em idioma turco trazem questões sobre a amplitude da web e

necessidades específicas deste ambiente para nativos de outros

idiomas.

13 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS

Page 14: Tags como fonte de coleta de candidatos a termos para elaboração de vocabulários controlados na área da Pediatria

Referências AMARAL, Adriana; AQUINO, Maria Clara. Práticas de folksonomia e social tagging no Last.fm. In: SIMPÓSIO BRASILEIRO DE FATORES HUMANOS EM SISTEMAS COMPUTACIONAIS, 8., 2008. Anais... Paraná: PUC, 2008. Disponível em: <http://www.din.uem.br/gsii/downloads/waihcws/Praticas-Folksonomia-Social-TaggingLastfm.pdf>. Acesso em: 02 jan.

2012.

CAMPOS, Maria Luiza Almeida; GOMES, Hagar Espanha. Metodologia de elaboração de tesauro conceitual: a categorização como princípio norteador. Perspectivas em Ciência da Informação, Belo Horizonte, v. 11, n. 3, p. 348-359, set./dez. 2006. Disponível em: <http://www.scielo.br/pdf/%0D/pci/v11n3/a05v11n3.pdf>. Acesso em: 16 out. 2011.

CiteULike. Disponível em < www.citeulike.com >. Acesso em 21 ago. 2011. Cutter, Charles A. Rules for a dictionary catalogue. Washington : Government Printing Office, 1889. Disponível em < http://babel.hathitrust.org/cgi/pt?id=wu.89101448975 >. Acesso em 25 jan. 2012.

GOMES, H. E. et al. Revisitando Ranganathan: a classificação na rede. In: GOMES, H. E. (Coord.) Biblioteconomia, Informação & Tecnologia da Informação. Rio de Janeiro, 2006. Disponível em: <http://www.conexaorio.com/biti/revisitando/revisitando.htm>. Acesso em: 07 jan. 2012.

LAAN van der, Regina Helena; FERREIRA, Glória Isabel Sattamini; BONOTTO, Martha E. K. Kling; NEVES, Iara Conceição Bitencourt; GASPERIN, Inês M. de. Avaliação de descritores relativos às ciências da informação: relato de pesquisa. Em Questão, Porto Alegre, v. 10, n.2, p. 337-347, jul./dez. 2004.

TEIXEIRA, José Carlos Abreu. Cabeçalhos de Assunto: manual para estudantes. Rio de Janeiro: Universidade Federal Fluminense, 1979.

UNIVERSITY OF CALIFORNIA, SCHOOL OF INFORMATION MANAGEMENT AND SYSTEMS. How much information?. 2003. Disponível em: <http://www.sims.berkeley.edu/research/projects/how-much-info-2003/>. Acesso em: 21 fev. 2004.

VAN DER LAAN, Regina Helena. Tesauro e terminologia: uma inter-relação lógica. 2002. 262 f. : il. Tese (doutorado)-Universidade Federal do Rio Grande do Sul. Instituto de Letras. Programa de Pós-Graduação em Letras. Porto Alegre, BR-RS, 2002. Ori.: Krieger, Maria da Graça. Disponível em: <http://www.biblioteca.ufrgs.br/bibliotecadigital/2002-2/tese-bscsh-0339228.pdf> Acesso em 12 ago. 2012.

Vander Wal, T. Folsonomy definition and Wikipedia. 2007. Disponível em

<http://www.vanderwal.net/random/entrysel.php?blog=1750>. Acesso em: 02 jan. 2012.

14 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS

Page 15: Tags como fonte de coleta de candidatos a termos para elaboração de vocabulários controlados na área da Pediatria

15

Obrigada pela atenção! Luciana Monteiro Krebs

[email protected]

@lumk_

INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS