análise de assunto
TRANSCRIPT
![Page 1: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/1.jpg)
Universidade Federal de São Carlos (UFSCar)
Departamento de Ciência da Informação (DCI)
Biblioteconomia e Ciência da Informação (CBCI)
Análise de Assunto
• Ana Tereza de Pádua
• Andréa Cristina Dornelles Italiano
• Daniel André Rigo Guirra
• Josimeire Moura da Silva
• Rodrigo Rafael Mendonça dos Santos
• Walison Aparecido de Oliveira
Análise Documentária
![Page 2: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/2.jpg)
Introdução
Análise de assunto é a operação-base para todo
procedimento de recuperação de informações.
É feita em dois momentos:
• Quando recebem o documento;
• Ao receberem um pedido de informação;
Maior problema da indexação: Descrever o
conteúdo dos documentos.
2
![Page 3: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/3.jpg)
Análise Conceitual Documentos Análise de
Assunto
Tradução da Análise Conceitual em Termos
de Indexação Documentos
Perfil dos Documentos (Termos de Indexação)
Armazenagem
Arquivo de Busca Perfis
Doc. X Pedido
Tradução da Análise Conceitual em Termos
de Indexação
Perfis dos Pedidos (Estratégia de
Busca)
Vocabulário Controlado
Análise Conceitual
PedidosAnálise de Conteúdo
PEDIDOS DE DOCUMENTOS
DO ARQUIVO
Vocabulário Controlado
BUSCA
Fonte: LANCASTER, F.W. Vocabulary control for information retrieval. Washington, Information ResourcesPress, 1972. 233p. (ADAPTADO)
Recuperação da informação: Processo de entrada e saída
Documentos
3
![Page 4: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/4.jpg)
Primeira etapa – compreensão do texto como um topo
• título
• introdução e subtítulos dos capítulos e parágrafos
• ilustrações, tabelas, diagramas
• conclusões
• palavras ou grupos de palavras graficamente diferenciadas
Segunda etapa – identificação de conceitos
• procedimento lógico
• categorias fundamentais
(objetos, materiais, processos, equipamentos)
Terceira etapa - seleção de conceitos
• objetivos do sistema
• necessidades do usuário
Estabelecendo um assunto 4
![Page 5: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/5.jpg)
Antony Charles Foskett (1973) – “Abordagem temática da informação”
Especificidade
“extensão em que o sistema nos permite ser
precisos ao especificar um documento que
estejamos processando”
Exaustividade
“resultado de uma decisão administrativa, sendo
extensão com que analisamos um determinado
documento, a fim de estabelecer exatamente qual
o conteúdo temático que temos de especificar”
5
![Page 6: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/6.jpg)
No que isso interfere?!
Sistema de Busca e Recuperação de
Informação
6
![Page 7: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/7.jpg)
Revocação e Precisão
• Revocação
• mede a proporção de documentos relevantes recuperados
• Precisão
• mede quantos documentos relevantes foram recuperados
7
![Page 8: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/8.jpg)
Curva de Recall x Precision (CARDOSO, O.N.P. Recuperação de Informação. Universidade Federal de Lavras. Lavras-MG, 20-?)
8
![Page 9: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/9.jpg)
Revocação e Precisão
Itens não relevantes
Itens relevantes
9
![Page 10: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/10.jpg)
Revocação e Precisão
Itens
recuperadosItens não
recuperados
AC
B
D
10
![Page 11: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/11.jpg)
Revocação e Precisão
• Revocação
• Relevantes Recuperados / Total de itens relevantes
• A / (A+D)
11
![Page 12: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/12.jpg)
Revocação e Precisão
Itens recuperados
Itens nãorecuperados
AC
B
D
12
![Page 13: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/13.jpg)
Revocação e Precisão
• Revocação
• Relevantes Recuperados / Total de itens relevantes
• A / (A+D)
• Precisão
• Relevantes Recuperados / Total Recuperados
• A / (A+B)
13
![Page 14: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/14.jpg)
Revocação e Precisão
Itens recuperados
Itens nãorecuperados
AC
B
D
14
![Page 15: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/15.jpg)
Exaustividade
15
![Page 16: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/16.jpg)
Especificidade
16
![Page 17: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/17.jpg)
Estabelecido o assunto
Transformar os conceitos selecionados
em termos ou símbolos autorizados
para a representação no sistema
17
![Page 18: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/18.jpg)
Thesauri
Listas de cabeçalhos de assunto
Sistemas de Classificação
Uso de instrumentos de
controle de linguagem
18
![Page 19: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/19.jpg)
Domínio da linguagem-padrão
do sistema
Composta pelo vocabulário e sintaxe
19
![Page 20: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/20.jpg)
A sintaxe estabelece
o modo pelo qual essas
unidades serão combinadas
para a efetiva comunicação do
pensamento.
O vocabulário compõe-se
de unidades isoladas;
20
![Page 21: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/21.jpg)
Importante!!!
Impõe limitações ao número de termos
fixados para representar o conteúdo
estabelecidos pelas relações entre os
termos.
Sua existência não deve influenciar a
análise.
21
![Page 22: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/22.jpg)
Conceitos não representados na
linguagem usada, o indexador
deverá usar descritores mais
genéricos ou dependendo do
sistema a admissão de novos
termos é aceito.
22
![Page 23: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/23.jpg)
Controle de qualidade da indexação está ligada
a dois elementos básicos:
Ao desempenho do indexador;
À qualidade dos instrumentos de indexação.
23
![Page 24: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/24.jpg)
A consistência da indexação!!
Deve ser regular considerando:
o fator tempo, um alto grau de
imparcialidade, uma submissão às
diretrizes da indexação adotadas pelo
sistema.
24
![Page 25: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/25.jpg)
Suas dificuldades
Grupo grande;
Trabalho em diferentes locais;
Elementos de subjetividade interfiram.
25
![Page 26: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/26.jpg)
Para Lancaster:
•O vocabulário controlado é indispensável;
•Operam de maneira eficiente pela experiência em sistemas
automatizados;
•O elemento humano de alto nível é muito mais necessário na
etapa de pesquisa do que no momento de indexação;
•É indiscutível o controle de qualidade para lucrar muito
através do estabelecimento de contato mais efetivo entre
indexador e o usuário, qualidade da linguagem adotada e um
fator importante, qualidade de atualização dessas linguagens
em resposta a novos desenvolvimentos na terminologia,
necessidades dos usuários e do próprio sistema.
26
![Page 27: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/27.jpg)
A linguagem controlada pode
exercer duas funções:
Prescritiva – estabelece limites rígidos para a
representação dos conceitos, facilita a escolha
dos termos;
Sugestiva – mais flexível, indica as melhores
formas de representação, sem impô-las ao
indexador.
27
![Page 28: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/28.jpg)
O sistema que permite a interação
usuário
indexador
sistemas
tem demonstrado ser mais eficiente
do que aqueles onde ela não existe.
28
![Page 29: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/29.jpg)
Análise de coleções e documentos
• Os primeiros estudos visando a classificação
de documentos, dividiam-nas do geral para o
específico. É o caso das tradicionais
classificações bibliográficas, também
chamadas de hierárquicas, que criavam
cadeias de termos seguindo o princípio da
hierarquia;
• RANGANATHAN propôs a “Colon
Classification” – uma classificação geral que
divide o conhecimento humano com base nas
categorias fundamentais (Personalidade,
Matéria, Energia, Espaço, Tempo – PMEST);
29
![Page 30: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/30.jpg)
Lancaster, apresenta quatro abordagens para se gerar um vocabulário controlado:
1. Gerar um vocabulário empiricamente com base na indexação de um conjunto representativo de documentos;
2. Modificar um vocabulário já existente;
3. Extrair o vocabulário de um outro já existente;
4. Reunir termos de diferentes fontes: especialista na área, dicionários, glossários, índices, etc.
30
![Page 31: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/31.jpg)
A construção de Thesaurus of Engininnering andScientific Terms (TEST) obedeceu a alguns critérios na seleção dos termos:
• Aceitabilidade do termo em dicionários, enciclopédias, etc;
• Utilidade do termo em comunicações, em índices e em sistemas de recuperação de informação;
• O número de fontes que usam esse termo;
• A pertinência desse termo com outros já selecionados.
31
![Page 32: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/32.jpg)
Quando nos baseamos apenas nasopiniões de especialistas temos asdesvantagens abaixo:
– Eles podem não estar familiarizados com aleitura, e mais importante, com asnecessidades dos usuários potenciais dosistema;
– Eles podem tomar decisões que não sãoúteis tendo em vista o objetivo de recuperarinformações;
– Podem dar mais importância a sua própriaespecialidade, causando desequilíbrio nosistema como um todo.
32
![Page 33: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/33.jpg)
• Vocabulário controlado: Instrumento prático,
devendo ser capaz de representar conceitos
que realmente ocorrem na literatura do
assunto;
• Um vocabulário desenvolvido empiricamente a
partir da indexação da literatura da área, tem
grande garantia literária, enquanto que um
vocabulário desenvolvido por especialistas
pode não ter nenhuma.
33
![Page 34: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/34.jpg)
A análise de documentos é um processo que ajuda a:
• Determinar as principais categorias de termos para uma área;
• Optar pelo melhor termo para representar um conceito;
• Estabelecer quais relações úteis entre os termos, tendo em vista a recuperação das informações;
• Estabelecer hierarquias necessárias.
34
![Page 35: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/35.jpg)
Para o indexador , o conhecimento das
relações entre termos e categorias é de
extrema importância para se estabelecer
representações adequadas para assuntos
compostos e complexos.
35
![Page 36: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/36.jpg)
Normalmente existem três relações entre os termos:
1- Relação de equivalência ou relações preferenciais:
Alguns conceitos podem ser representados por mais de um termo, que são semelhantes ou de significação quase idêntica. Nesse caso deve-se escolher o termo mais conhecido ou o menos ambíguo.
Ex: revista e periódico
Genética e hereditariedade
Curvatura ou flexão
36
![Page 37: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/37.jpg)
2-Relações hierárquicas: expressam ideias de subordinação entre termos.
-relação gênero - espécie:
ex: processamento técnico
Registro
Catalogação
Classificação
Indexação
-relação parte/todo: nesse caso dá-se preferência aos assuntos mais específicos.
EX: árvore
Raiz
Tronco
Galhos
Folhas
37
![Page 38: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/38.jpg)
3-Relações associativas ou de coordenação: conceitos ligados, cuja ideia de um faz lembrar a ideia do outro. Elas só devem ser mantidas na indexação quando facilitam realmente a recuperação da informação.
Ex:
Genética: pais e filhos
Causa efeito: ensino e aprendizagem
Instrumental: escrita e lápis
Material: papel e livro
Similaridade de processo: catalogação e classificação
38
![Page 39: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/39.jpg)
Ao criar uma linguagem de indexação, deve-se
estabelecer uma ordem de prioridade entre os
diversos conceitos.
Essa ordem é determinada a partir da
importância que esse conceitos têm para os
usuários.
39
![Page 40: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/40.jpg)
Vários autores criam regras básicas tentando estabelecer a
ordem de citação dos assuntos complexos.
Ex: -assunto antes da forma bibliográfica: Física-
dicionário.
- assunto antes do lugar (com a preposição em): “A
educação no Brasil”= Educação- Brasil
- Assunto depois do lugar (com a preposição de): Rios do
Brasil = Brasil-Rios
- Concreto, depois o processo: Tratamento de metais =
Metais-tratamento.
- Todo-parte: índices de revista = Revistas - índices
40
![Page 41: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/41.jpg)
AUTOMAÇÃO
E
ANÁLISE DE ASSUNTO
41
![Page 42: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/42.jpg)
• A primeira idéia de usar computadores noprocessamento lógico da análise de assunto dedocumentos foi proposta por LUHN em 1957.
• O sistema utilizado foi o KWIC (keyword andcontext), um sistema pré- coordenado, suavantagem era a velocidade do processamento deentrada de documentos.
• Indicava o uso de títulos dos documentos como“matéria prima” para a representação de assunto.
(SISTEMA PRÉ-COORDENADO: Combinação feita naetapa de entrada, na indexação)
42
![Page 43: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/43.jpg)
• Um grande número de serviços de informaçõespublicaram bibliografias indexadas pelosistema KWIC : Bioresearch Index, BiologicalAbstracts, Chemical Abstracts, etc.
• Com o aperfeiçoamento e o aumento dacapacidade dos equipamentos deprocessamentos de dados, o tipo de lógicaempregado no sistema KWIC mostrou estaraquém da real capacidade dos computadores.
43
![Page 44: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/44.jpg)
• Desenvolveram-se então sistemas usando um maior grau de lógica, baseando-se:
– Na estatística das palavras do texto;
– Na determinação de pesos para termos, de acordo com sua importância no assunto;
– Na frequência com que determinadas palavras ocorrem juntas nas frases ou parágrafos.
• Estas pesquisas foram desenvolvidas na década de 60, mas como alguns problemas não conseguiram ser superados, na década de 70 foram poucos os pesquisadores que se dedicaram ao assunto.
44
![Page 45: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/45.jpg)
• Outra corrente que tem estudado a possibilidade de
aplicação dos computadores à analise de texto é
baseada na teoria da gramática transformacional de
CHOMSKY e HARRIS.
• O modelo transformacional acredita que existe um
conjunto finito de sentenças-padrão (Kernel
Sentences) para as quais todo conjunto infinito de
sentenças em linguagem natural poderia ser
transformado.
45
![Page 46: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/46.jpg)
• Todas as línguas tem uma estrutura superficial
e uma estrutura profunda.
– Esta última é relativa ao modo como as idéias são
formadas na mente humana e portanto seria
universal, enquanto que a estrutura superficial
pode variar de acordo com as línguas.
– Ao colocarmos todo o texto nos termos de sua
estrutura profunda estaremos realmente analisando
este texto, chegando às sentenças-padrão.
46
![Page 47: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/47.jpg)
• Experiências realizadas por Harris na
Universidade de Pensilvânia chegaram a
conjuntos de sentenças-padrão de
documentos, que muito se assemelhavam
aos resumos dos textos feitos com
intenção de disseminação de informação.
47
![Page 48: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/48.jpg)
• Alguns autores como Anderson & Perez-Carballo(2001) em seu trabalho sobre a natureza daindexação, colocam que para a busca de informações,textos ou documentos em um sistema de informação,é necessário que os termos estejam descritos eindexados. A descrição requer alguns tipos deanálise,dos quais dois são destacados pelos autores: aanálise humana e a análise algorítmica realizada peloscomputadores.
48
![Page 49: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/49.jpg)
• A análise humana examina o documento e
textos para considerar o contexto que
representam;
• A análise automática identifica e compara os
componentes do texto – os símbolos que
formam o texto.
49
![Page 50: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/50.jpg)
• O ideal é que um sistema de recuperação da
informação ofereça as duas abordagens de
análise/indexação da informação: tornando o
processo de busca e recuperação da
informação mais exaustivo e eficiente e, com
resultados mais relevantes.
50
![Page 51: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/51.jpg)
• Os autores argumentam ainda que , em se tratando deindexação de materiais especiais como imagem esom, por exemplo, a indexação automática apenasengatinha, uma vez que sua base é a linguagemcontida nos textos. O Altavista é uma ferramenta debusca na Web que utiliza a indexação automática deimagens desde 1998, tentando encontrar imagens quesejam visualmente similares ao comando de buscadeterminado pelo usuário.Imagem “visualmente”similar não é a mesma que imagem“conceitualmente” similar . Assim sendo, osresultados quase sempre parecem estar baseados nacor e na estampa e não em um detalhe particular daimagem.
51
![Page 52: Análise de Assunto](https://reader034.vdocuments.mx/reader034/viewer/2022042614/559e95391a28ab173d8b47df/html5/thumbnails/52.jpg)
Referência e Bibliografia
• ARAUJO, R.H.J., Precisão no processo de busca e recuperação da
informação.Brasilia. Thesaurus, 2007.176p.
• CARDOSO, O.N.P. Recuperação de Informação. Universidade Federal de Lavras. Lavras-MG, 20-?
• CESARINO, M. A. da N.; PINTO, M. C. M. F. Análise de assunto.
Revista de Biblioteconomia, Brasília, v. 8, n. 1, p. 32-43, jan.-jun. 1980.
Disponível
em:<http://www.tempusactas.unb.br/index.php/RBB/article/viewFile/244/224>.A
cesso em: 29 jul. 2010.
• FOSKETT, A.C. Abordagem temática da informação. São Paulo, Polígono,
1973, 347 p.
52