tags como fonte de coleta de candidatos a termos para elaboração de vocabulários controlados na...
Post on 25-Jun-2015
324 Views
Preview:
DESCRIPTION
TRANSCRIPT
Tags como fonte de coleta de candidatos a termos para elaboração de vocabulários
controlados na área da Pediatria
Luciana Monteiro Krebs - Bolsista Voluntária IC
Profª Drª Regina Helena van der Laan - Orientadora
Profª Drª Sônia Elisa Caregnato - Co-orientadora
Me. Rita do Carmo Ferreira Laipelt - Co-orientadora
XXIV Salão de Iniciação Científica
1
1 Introdução
Como superar? INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 2
Linguagens documentárias voltadas para bibliotecário, distantes do usuário
Descentralização dos agentes produtores de informação
Muita informação Pouco tempo
Acesso remoto
Exigência alta
Necessidade de informação => Agilidade e precisão na
recuperação dos documentos
Segunda lei de Ranganathan “Para cada Leitor, seu Livro” inclui
a adoção de uma terminologia mais próxima do leitor.
(Gomes et al., 2006)
(Le Coadic, 2004)
1 Introdução Propomos uma reflexão sobre a possível contribuição da
folksonomia nos processos formais de indexação de
documentos, enquanto fontes de coleta de candidatos a
termos, objetivando aproximar a linguagem utilizada nestes
processos daquela conhecida pelo usuário. Almeja-se com isso,
alcançar maior assertividade no momento da busca, poupando
o tempo do leitor.
• Folksonomia (Thomas Vander Wal, 2007)
Resultado da marcação livre e pessoal de informações e objetos (qualquer coisa com uma URL) para uma recuperação própria [tradução nossa].
• Tags (Lacerda e Valente, 2007, p.23)
Palavras, siglas ou qualquer código pessoal, determinado livremente pelo usuário, de acordo com a sua conveniência. Um objeto pode receber um número ilimitado de tags.
Alternativa de gerenciamento de informação (Amaral e Aquino, 2008)
3 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS
2 Objetivo Analisar se tags podem ser fonte de coleta de
candidatos a termos para a elaboração de
vocabulários controlados.
4 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS
Vocabulários controlados
Corpus textual
Tags
Profissionais da
informação
Usuários
Especialistas
3 Metodologia Tipo de estudo: Quantitativo
Corpus de pesquisa: 200 tags
Coleta de dados (agosto/2011) Cite U Like (http://www.citeulike.com) é uma ferramenta de
armazenamento e compartilhamento online de
documentos com o recurso de social tagging.
• Estratégia de busca pelo tema Pediatria (através da
expressão de busca “Pediatric”) e compartilhados por pelo
menos 2 (dois) usuários.
• Coleta de meta-dados atribuídos aos artigos o dados de identificação do documento (título, autor, editora, data, etc)
o as tags (etiquetas) atribuídas por usuários aos mesmos
• De posse de meta-dados dos documentos buscamos na web
os documentos na íntegra, para constituir o corpus textual.
5 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS
3 Metodologia Tratamento de dados (agosto/2011 a janeiro/2012)
• Limpeza e normalização manual do corpus de
pesquisa • Planilha Microsoft Excel
o Repetições: 979 => 493 tags únicas (diferentes entre si)
o Siglas, erros de grafia (ex. “childrens”), sem sentido claro quando
empregadas ao assunto Pediatria, muito genéricas ou que transitam em
várias áreas do conhecimento (ex. “treatment”): 493 => 200 tags
• Limpeza e normalização manual do corpus textual • Conversor, Notepad, e-Termos
o Conversão dos documentos (artigos) de PDF para TXT
o Retiradas informações não relevantes para a pesquisa (como paginação, referências, notas de rodapé, ilustrações, currículo dos
autores, etc.)
o Upload do corpus textual no e-Termos.
e-Termos (http://www.etermos.cnptia.embrapa.br) é um ambiente
colaborativo online de acesso gratuito cujo objetivo é
auxiliar na gestão terminológica.
6 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS
3 Metodologia Tratamento de dados (janeiro/2012 a junho/2012)
• Validação no corpus textual Verificação de ocorrência das tags coletadas no discurso dos
especialistas (se eram citadas dentro dos artigos). Para isto, utilizamos
os recursos “Frequência” e “Consulta termos” do e-Termos.
• Validação no vocabulário controlado O DeCS (Descritores em Ciências da Saúde,
disponível em http://decs.bvs.br/) é um vocabulário
estruturado e trilíngue, criado pela Bireme e desenvolvido
a partir do MeSH (Medical Subject Headings). Tem o objetivo de servir
como uma linguagem única na indexação de documentos técnico-
científicos de toda natureza, além de ser uma fonte de pesquisa e
recuperação de assuntos da literatura na área das Ciências da Saúde.
Análise dos resultados (agosto/2012)
7 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS
4 Resultados
8 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS
E-Termos Freq.
Absoluta
Freq.
Relativa Freq.
Absoluta
Freq.
Relativa
ocorrência em
frequência
112 56% ocorrência em
consulta termos
178 89%
não aparece em
frequência
88 44% não aparece em
consulta termos
22 11%
Tabela 4 – Tabela de percentuais de ocorrência das tags no corpus textual.
Fonte: as autoras.
56% 44%
Ocorrência de tags no corpus textual através da ferramenta
e-Termos - Frequência
ocorre em frequência
não ocorre em frequência
89%
11%
Ocorrência de tags no corpus textual através da ferramenta e-Termos -
Consulta termos
ocorre em consulta termos
não ocorre em consulta termos
4 Resultados
9
90%
10%
Ocorrência de tags no corpus textual através de ambas ferramentas do e-Termos
ocorre em frequência ou consulta termos
não ocorre em nenhuma das ferramentas
INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS
e-Termos Freq.
Absoluta
Freq.
Relativa
ocorrência em frequência ou consulta termos 180 90%
não aparece em nenhuma das ferramentas 20 10%
Tabela 5 – Tabela de percentuais compilados de ocorrência das tags no
corpus textual.
Fonte: as autoras.
4 Resultados
10 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS
36%
9% 19%
36%
Ocorrência de tags no vocabulário controlado DeCS
Encontrado
Encontrado como variante
Encontrado como parte de descritor
Não encontrado
DeCs Freq.
Absoluta
Freq. Rel.
Individual
Freq.
Relativa
Encontrado 72 36% 64%
Encontrado como variante 18 9%
Encontrado como parte de descritor 38 19%
Não encontrado 72 36% 36%
Tabela 6 – Tabela de percentual de ocorrência das tags no vocabulário
controlado.
Fonte: as autoras.
64%
36%
Validação DeCS compilada
Encontrado Não encontrado
4 Resultados
11 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS
• 180 tags foram validadas no e-Termos
(corpus textual);
• 128 tags foram validadas no DeCS
(vocabulário controlado);
• 186 tags foram validadas no
e-Termos ou no DeCS;
• 14 tags não foram encontradas em
nenhuma das ferramentas.
7%
64%
90%
93%
não encontrado em nenhuma das ferramentas
validado somente no DeCS
validado somente no e-Termos
validado no e-Termos ou no DeCS
Freq. Relativa
186 180
128
14
validado noe-Termos ou
no DeCS
validadosomente noe-Termos
validadosomente no
DeCS
nãoencontrado
em nenhumadas
ferramentas
Ocorrência de tags no corpus textual e vocabulário controlado
5 Considerações parciais Com 93% das tags validadas no corpus textual ou no
vocabulário controlado, confirmamos nosso pressuposto de
pesquisa, concluindo que as tags são ótimas fontes não só para
a identificação de candidatos a termos, como para a
identificação de variantes terminológicas (equivalentes) que
são importantes para alimentar um sistema de remissivas. Assim,
podem incrementar processos de indexação auxiliando os profissionais da informação na elaboração de tesauros.
As tags atribuídas pelos usuários do CiteULike a
documentos compartilhados no ambiente, em sua maioria, tem
alguma relação com os assuntos dos documentos.
12 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS
5 Considerações parciais Perspectivas de continuidade ou desdobramento do trabalho
• A análise das tags que não apareceram no corpus textual e/ou no
vocabulário controlado pode originar uma futura pesquisa, que
possibilitará trazer para os sistemas de informação novos termos da
linguagem dos usuários especializados.
• Constata-se a oportunidade de ampliação da pesquisa somando-se
à este estudo outras áreas do conhecimento (além da Pediatria) e o
aprofundamento do estudo das tags já coletadas por outras
entidades de validação, como especialistas da área (Pediatras).
• As variações de numeral identificadas, se normalizadas, poderiam
resolver futuros problemas de recuperação
o adolescent (8 / 199), adolescents (2 / 417)
o immunization (2 / 81), immunizations (1 / 47)
o infant (2 / 458), infants (5 / 1697)
• Tags em idioma turco trazem questões sobre a amplitude da web e
necessidades específicas deste ambiente para nativos de outros
idiomas.
13 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS
Referências AMARAL, Adriana; AQUINO, Maria Clara. Práticas de folksonomia e social tagging no Last.fm. In: SIMPÓSIO BRASILEIRO DE FATORES HUMANOS EM SISTEMAS COMPUTACIONAIS, 8., 2008. Anais... Paraná: PUC, 2008. Disponível em: <http://www.din.uem.br/gsii/downloads/waihcws/Praticas-Folksonomia-Social-TaggingLastfm.pdf>. Acesso em: 02 jan.
2012.
CAMPOS, Maria Luiza Almeida; GOMES, Hagar Espanha. Metodologia de elaboração de tesauro conceitual: a categorização como princípio norteador. Perspectivas em Ciência da Informação, Belo Horizonte, v. 11, n. 3, p. 348-359, set./dez. 2006. Disponível em: <http://www.scielo.br/pdf/%0D/pci/v11n3/a05v11n3.pdf>. Acesso em: 16 out. 2011.
CiteULike. Disponível em < www.citeulike.com >. Acesso em 21 ago. 2011. Cutter, Charles A. Rules for a dictionary catalogue. Washington : Government Printing Office, 1889. Disponível em < http://babel.hathitrust.org/cgi/pt?id=wu.89101448975 >. Acesso em 25 jan. 2012.
GOMES, H. E. et al. Revisitando Ranganathan: a classificação na rede. In: GOMES, H. E. (Coord.) Biblioteconomia, Informação & Tecnologia da Informação. Rio de Janeiro, 2006. Disponível em: <http://www.conexaorio.com/biti/revisitando/revisitando.htm>. Acesso em: 07 jan. 2012.
LAAN van der, Regina Helena; FERREIRA, Glória Isabel Sattamini; BONOTTO, Martha E. K. Kling; NEVES, Iara Conceição Bitencourt; GASPERIN, Inês M. de. Avaliação de descritores relativos às ciências da informação: relato de pesquisa. Em Questão, Porto Alegre, v. 10, n.2, p. 337-347, jul./dez. 2004.
TEIXEIRA, José Carlos Abreu. Cabeçalhos de Assunto: manual para estudantes. Rio de Janeiro: Universidade Federal Fluminense, 1979.
UNIVERSITY OF CALIFORNIA, SCHOOL OF INFORMATION MANAGEMENT AND SYSTEMS. How much information?. 2003. Disponível em: <http://www.sims.berkeley.edu/research/projects/how-much-info-2003/>. Acesso em: 21 fev. 2004.
VAN DER LAAN, Regina Helena. Tesauro e terminologia: uma inter-relação lógica. 2002. 262 f. : il. Tese (doutorado)-Universidade Federal do Rio Grande do Sul. Instituto de Letras. Programa de Pós-Graduação em Letras. Porto Alegre, BR-RS, 2002. Ori.: Krieger, Maria da Graça. Disponível em: <http://www.biblioteca.ufrgs.br/bibliotecadigital/2002-2/tese-bscsh-0339228.pdf> Acesso em 12 ago. 2012.
Vander Wal, T. Folsonomy definition and Wikipedia. 2007. Disponível em
<http://www.vanderwal.net/random/entrysel.php?blog=1750>. Acesso em: 02 jan. 2012.
14 INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS
15
Obrigada pela atenção! Luciana Monteiro Krebs
luciana.monteiro@ufrgs.br
@lumk_
INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS
top related