tese de mestrado - inis.iaea.org
TRANSCRIPT
MINISTÉRIO DO EXÉRCITO
DEP - OPET
TESE DE MESTRADO
ESTUDO E CORREÇÃO DE DISTORÇÕES EM UM
SISTEMA DE DISSEMINAÇÃO SELETIVA
DE INFORMAÇÕES
Cap Luiz Otávio de Freitas Queiroz
INSTITUTO MILITAR DE ENGENHARIA
ESTUDO E CORREÇÃO DE DISTORÇÕES EM UM SISTEMA
DE DISSEMINAÇÃO SELETIVA DE INFORMAÇÕES
POR
LUIZ OTÁVIO DE FREITAS QUEIROZ
TESE SUBMETIDA
COMO REQUISITO PARCIAL
PARA A OBTENÇÃO DO GRAU DE
MESTRE EM CIÊNCIAS
Assinatura do Orientador da Tese
Rio de Janeiro, RJ
Março, 1978
AGRADECIMENTOS
Ao professor Altair Carvalho de Souza, pela orienta-
ção, estimulo e confiança demonstrada ao longo do desenvoj^
vimer. to deste trabalho.
Ao Dr. Ivano Humbert MacheiÉi, diretor do CTN, pela
gentileza em franquear o acesso as instalações do Centro e
a seu acervo de informações.
Ao analista José Augusto Alves Berna^hi, do CIN, pe_
Ia colaboração prestada ao transmitir-me as miaucias do
sistema e ao modificar seus programas de computador quando
necessário ao desenvolvimento desta tese.
Aos professores do IME que me proporcionaram esta
nova fronteira de conhecimentos.
Aos funcionários e colegas do CIN e do IME pelas su
gestões, apoio e espirito de camaradagem com que rne distin.
gui ram.
SUMARIO
Apresentou-se o sistema de SDI do CIN/CNEK e defi
niram-se parâmetros do avaliação, de desempenho e do dis-
torção, que foram quantificados para uma amostra de 35 u -
suãrios e de 25.818 documentos.
Foram analisados possíveis fatores de distorção e
selecionados alguns passíveis de processamento automático.
De terninaram-se dois algoritmos que foram aplicados aos
perfis da amostra e que novas quantificações dos pararae -
tros demonstraram terem reduzido as distorções e aumentado
a eficiência.
Aspectos sensíveis do sistema foram identificados e
sugeriram-se novos estudos abrangendo tópicos pesquisados
superficialmente no trabalho.
111
ABSTRACT
The Selective Dissemination of Information (S D I)
system of CIN/CNEN was presented, and some parameters, for
the evaluation of performance and distortion^ were defi-
ned. These parameters were quantified for a sample of 35
user's profiLes and 25.818 documents.
Possible distortion factors were analysed, and some
were selected /so that they could be automatically processed.
The 35 profiles were up-dated by use of two algorithms de_
veloped for this purpose. For the up-dated profiles new
values of the parameters were determined and showed that
distortion decreased and efficiency improved.
Critical points of the system were identified and
new studies, on topics investigated superficially, were
proposed . > <•'< \ r. t;
IV
ÍNDICE
P a r, •
SUMÁRIO i i i-
ABSTRACT i v
LISTA DE ILUSTRAÇÕES ix
I - SISTEMAS DE DISSEMINAÇÃO SELETIVA DE INFORMA
ÇÕES - SDI
1 .1 - I n t r o d u ç ã o 1
1 .2 - C o n c e i t o s B á s i c o s 2
1.2.1 - Modelo Matemático 2
1.2.2 - Exaustividade e Especificiadade de
Indexação 5
1.2.3 - Relevância e Pertinência 6
1.2.4 - Coordenação e Afinidade de Descrito
res 7
1.2.5 - Parâmetros de Avaliação de Desempe-
nho 9
1.3 - 0 INIS - International Nuclear Informa
tion System 12
1.4 - O SDI/CIN/CNEN 12
1.4.1 - 0 Thesaurus 13
1.4.1.1 - 0 Mini thesaurus 16
1.4.2 - Os Documentos 17
1.4.3 - Os Usuários 18
1.4.4 - Algoritmo de Seleção 21
Pag.
II - DISTORÇÕES DO SDI/CIN/CNEN
2 . 1 - I n t r o d u ç a o 2 4
2 . 2 - A A m o s t r a 2 5
2 . 3 - P a r â m e t r o s de D i s t o r ç ã o 26
2 . 3 . 1 - A R e l e v â n c i a 26
2 . 3 . 2 - A R e c u p e r a ç ã o 28
2 . 3 . 3 - A I n c e r t e z a 30
2 . 3 . 4 - A I n v e r s ã o 31
2 . 4 - 0 P a r â m e t r o E f i c á c i a 36
2 . 5 - V a l o r e s dos P a r â m e t r o s de D i s t o r ç ã o e
de E f i c á c i a 38
I I I - ANALISE DOS FATORES DE DISTORÇÃO
3 . 1 - Introdução 41
3.2 - Indexação de Documentos 4 3
3 . 3 - M i n i t h e s a u r u s 45
3 . 4 - A l g o r i t m o de S e l e ç ã o 46
3.5 - P a t a m a r d e C o r t e 50
3 .6 - P e r f i l I n i c i a l do U s u á r i o 51
3.7 - I t e r a ç ã o dos U s u á r i o s com o Sistema 53
3.8 - Aspectos Ligados Na Arquitetura do Si_s_
tema 5 3
vi
Pag.
IV - REDUÇÃO DE DISTORÇÕES DO SDI/CIN/CNEN
4.1 - I n t r o d u ç ã o 56
4.2 - Procedimentos Adotados na Redução de
Dis torções 5 7
4 . 2 . 1 - E l i m i n a ç ã o de A r e a s 5 7
4 . 2 . 1 . 1 - I n f l u e n c i a da C l i n i n a ç a o de A
rens 5 9
4 . 2 . 2 - V, 1 i n i i n a ç a o d e D e s c r i t o r e s I r r e l e -
vantes 60
4 . 2 . 2 . 1 - Inf luência da Eliminação de
Descri tores 64
4 .2 .3 - Introdução de Descr i tores no P e r f i l 66
4 . 2 . 3 . 1 - Inf luência da Introdução de De£
c r i t o r e s 68
4.2.4 - Alteração de Peso de Descritores 69
4.2.4.1 - Influencia da Alteração de Peso
de Des cri tore s 71
4.2.5 - Elevação do Patamar de Corte 7 3
4.3 - Algoritmo I de Redução de Distorções e
Resultados Obtidos 75
4.4 - Extensão do Algoritmo I e Resultados
Obtidos 82
4.5 - Comparação dos Resultados Obtidos com
os dois Algoritmos 89
vi i
LISTA DE ILUSTRAÇÕES
Pag.
Figura 1 - Partição do conjunto de documentos 10
Figura 2 - 0 efeito inversão 32
Figura 3 - Tendência dos parâmetros de disto_r
çao ao se alterar o vetor de ava
liaçao 34
Figura 4 - Curvas de eficácia num grafico PxR
para diferentes valores de a 37
Figura 5 - Valores dos parâmetros de distorção
e de eficácia por Perfil I no con-
junto dos envios 40
Figura 6 - Valores dos parametros de distor -
çao e de eficácia por envio para o
conjunto dos Perfil I 40
Figurí7. 7 - Perfis que tiveram areas elimina -
das 58
Figura 8 - Perfis com descritores incluídos e
/ou eliminados 62
ix
Pag.
Figura 9 - Valores dos parâmetros de distorção
e de eficácia por Perfil II no con_
junto dos envios 77
Figura 10 - Valores dos parâmetros de distorção
e de eficácia por envio para o con
junto dos Perfis II 77
Figura 11 - Perfis que sofreram redução era P e
/ou R utilizando-se o Perfil II 78
Figura 12 - Grupos de Perfis II com redução de P
e/ou R provocada pelas mesmas cau-
sas 79
Figura 13 - Valores dos parâmetros de distorção
e de eficácia por Perfil III no con
junto dos envios 84
Figura 14 - Valores dos parâmetros de distorção
e de eficácia por envio para o con
junto dos Perfis III 84
Figura 15 - Perfis que sofreram redução em P e
/ou R utilizando-se o Perfil III 85
Figura 16 - Grupos de Perfis III com redução de
P e/ou R provocada pelas mesmas causas 86
CAPITULO I
SISTEMAS DE DISSEMINAÇÃO SELETIVA
DE INFORMAÇÕES - SDI
1.1 - Introdução
0 crescimento exponencial da produção de informações
cienti fico-tecnológicas nas últimas décadas tornou impera-
tiva a evolução acelerada de métodos e técnicas de coleta,
armazenamento, recuperação e disseminação de informações .
A aplicação de tais métodos e técnicas na implementação e
desenvolvimento de sistemas de SDI , que sejam eficientes
e eficazes, têm demandado um grande esforço dos centros de
informação a fim de viabilizar o acesso fácil a todo este
trabalho produtivo, pela comunidade cientifica.
Os sistemas de Disseminação Seletiva de Informações
(SDI) enviam periodicamente aos usuários do serviço, infojr
mações sobre os documentos recém incorporados e julgados de
particular interesse. 0 sistema ideal recuperaria para
cada usuário todas as informações pertinentes e apenas es_
tas. Contudo perturbações causadas por fatores diversos
introduzem distorções no sistema, comprometendo seu desem-
penho e dificultando sua operação ideal. Entre estas di£
torções salienta-se o efeito denominado inversão: inforina
ções selecionadas pelo sistema com elevado grau de simil£
-1-
-2-
ridade coro o perfil de interesse do usuário são avaliadas
por este como menos relevantes que outras selecionadas com
menor grau de similaridade.
Esta tese está voltada para a identificação e anãli^
se dos principais fatores de distorções de um SDI e apre
sentação de procedimentos que minimizem estes efeitos. 0
sistema de SDI do Centro de Informações Nucleares da C£
missão Nacional de Energia Nuclear (SDI/CIN/CNEN) serviu
de suporte e laboratório para o presente trabalho.
1.2 - Conceitos Básicos
1.2.1 - Modelo Matemático
Um SDI pode ser representado pela quintuple:
SDI - < C, O, ü, t, T > (1)
C - conjunto de áreas de interesse ;#= C • &
D - conjunto de documentos; £ D » n
U - conjunto de usuários; # U - m
T - conjunto de termos de um dicionário; T - k
V - função da forma:
4» : u » 2 D (2)
-3-
Esta função é um algoritmo que mediante opera
ções de confronto ("Matching") entre D e U faz aloca-
ção de documentos para cada usuário u. E U, i = 1 m.
Em sistemas de SDI que utilizam palavras - ch£
ves (descri tores) ponderadas na estratégia de pesquisa, c£
da usuário pode ser representado assim:
u - < IDENTIFICADORES, V >
IDENTIFICADORES - < conjunto ordenado de valo -
res de atributos do usuário >
V - < A, B > (3)
i, wi)|piET, v. E IR , i - 1, ..., n} (A)
{(a , v )|a EC, v e m , j - 1 &} (5)J J J U
Os pares ordenados de (4) compõem-se de descrito
res do perfil do usuário, com seus respectivos pesos e os
de (5), de áreas de interesse, com respectivos pesos.
0 conjunto A ou o conjunto B poderá ser va-
zio assim como w. e/ou v. poderão ter o mesmo valor.
O conjunto C das áreas de interesse possue uma
estrutura de árvore. Ao considerar-se a estrutura C a-
crescida dos documentos como elementos terminais, ter-se-ã
uma estrutura de grafo orientado, uma vez que um mesmo do
cumento poderá ser terminal de mais de uma ãrea de interes
se .
Cada documento pode ser representado no sistema
assim:
d " < REFERÊNCIAS, W >
REFERÊNCIAS • < conjunto ordenado de valores de
atributos do documento >
W » < E, F > (6)
K - {(qit w.)|q.£T, w, £ B , i - 1 r} (7)
F - {(a., v.)|a.€C, v. e K , j « 1, .... ò} (8)J J J J
Os pares ordenados de (7) são compostos por def_
critores do documento com seus respectivos pesos e cada
par ordenado de (8) compõe -se de uma area de interesse na
qual o documento foi indexado e de um valor que define a
prioridade desta área em relação as outras era que o mesmo
documento foi indexado.
As equações de definição 3 a 8 aplicam-se também
aos casos particulares em que:
- os descritores do perfil e/ou do documento não
são ponderados ou possuem peso implícito;
- cada documento só pode pertencer a uma área de
interesse;
- documentos pertencentes a várias áreas de in_
teresse possuem a mesma prioridade em todas
elas;
- o conjunto C das areas nao possui estrutura.
0 dicionário controlado T normalmente é consú
tuído de um conjunto de termos e de um conjunto de rela
ções que definem a sua estrutura, quando então é denomina^
do thesaurus. Os sistemas mais rudimentares nao possuem
thesaurus, mas apenas uma lista de termos autorizados e um
conjunto vazio de relações.
1.2.2 - Exaustividade e Especificidade de Indexação
Exaustividade e especificidade são termos que se
aplicam tanto para a indexação de documentos ( atribuição
de descritores ), como para a construção de perfis de usuá
rios .
-6-
Por exaustividade de indexação entende-se a ex-
tensão na qual os itens potencialmente indexãveis no assun
to contido no documento são de fato reconhecidos na análi-
se conceituai do estágio de indexação e convertidos para a
linguagem do sistema1. Teoricamente a exaustividade com
pleta implica na indexação de todo o texto de um documento,
palavra por palavra.
Por especificidade de indexação entende-se o ní
vel de detalhe no qual um conceito particular ê reconheci^
do quando da indexação1.
1.2.3 - Relevância e Pertinência
Os conceitos de relevância e pertinência são con
ceitos básicos usados na determinação da eficiência de sis_
temas de informação.
0 conceito de relevância ê expresso pelo formal-
mente calculado grau de similaridade entre os perfis .....
("search patterns") dos documentos e o perfil do usuário2.
0 conceito de pertinência é expresso pelo infor-
melmente calculado grau de similaridade entre o conteúdo
de documentos particulares e a necessidade de informações
de um dado usuário do sistema de informação2.
Segundo Butterly3 a distinção básica entre relê-
-7-
vância e pertinência repousa na diferença entre a declara-
ção pelo usuário de suas necessidades e as necessidades re
ais do usuário. Pertinência e avaliada subjetivamente por
ura usuário conforme suas necessidades de informação; a re
levância, contudo, deve ser avaliada em acordo com a decl£
ração do usuário, de suas necessidades.
Todavia quando sistemas em operação devem ser a-
valiados ou sistemas experimentais estão sendo testados ,
há necessidade de avaliações menos subjetivas e torna-se
indispensável utn critério baseado no consenso de opinião
de vários especialistas. Tal consenso somente pode ser
obtido pela medida da necessidade declarada em confronto
com os resultados obtidos, isto é, pela avaliação da rel£
vância que é uma avaliação objetiva1*.
1.2.A - Coordenação e Afinidade de Descritores
Em certo sentido todos os descritores do perfil
de um documento ou usuário podem ser considerados relacio-
nados, pois possuem sempre a relação de proximidade: estão
no mesmo perfil1.
Coordenação de descritores e o grau de relacionai
mento entre eles; por falsa coordenação de descritores eri
tende-se a inexistência de uma relação semântica direta en
t re eles.
-8-
Exemplo de falsa coordenação:
- Interesse do usuário : "Corrosão do cobre e
suas ligas"
- Expressão de consulta : "Corrosão e Cobre"
- Documento recuperado : "Corrosão de ligas fer
rosas em equipamentos de metalurgia do cobre".
Os descritores "corrosão" e "cobre" embora pre_
sentes no documento recuperado não estão diretamente rela-
cionados .
Afinidade de descritores é o sentido semântico
da relação existente entre eles; por incorreta afinidade
de descritores entende-se a existência de uma relação em
um sentido semântico que não o desejado1.
Exemplo de incorreta afinidade:
- Interesse do usuário : "Processos de secagem a
gás"
- Expressão de consulta : "Secagem e Gás"
- Documento recuperado : Processos de secagem de
gases".
Os descritores "secagem" e "gás" apesar de dire-
tamente relacionados não formam o relacionamento semântico
desejado pelo usuário.
-9-
1.2.5 - Parâmetros de Avaliação de Desempenho
0 desempenho de un SDI tem vários enfoques en
tie os quais ressalta-se o do ponto de vista do usuário.
Genericamente o desempenho (E) pode ser descrito
como uma função de duas variáveis*:
E - f (x, y) (10)
x - eficácia do sistema; determina sua habilida-
de em realizar as tarefas para as quais foi
proj e tado;
y - eficiência do sistema; e uma função do tempo
normalmente e mede o custo de realização das
tarefas para as quais foi projetado.
A tarefa mais importante de ura SDI e atender
bem as necessidades dos usuários, necessidades estas muito
subjetivas e que assim dificultam a avaliação precisa da e_
ficacia dos sistemas.
Vários parâmetros objetivos sao utilizados visan_
do a avaliação da eficácia dos sistemas de informação refe_
renciada, sendo que os parâmetros denominados recuperação
("recall") e relevância ("precision") sao os mais utiliza,
dos .
-10-
A recuperação (R) é a proporção entre o número
de referências relevantes recuperadas e o total de referêii
cias relevantes existentes na coleção considerada. Este
parâmetro mede a capacidade do sistema de recuperar refe-
rências relevantes.
A relevância (P) S a proporção entre o numero
de referências relevantes recuperadas e o total de referên
cias recuperadas e mede a capacidade de filtragem do siste_
roa.
A não recuperação de uma referencia relevante de
nomina-se ruído de 1. ordem ou "perda". A recuperação de
uma referencia irrelevante denomina-se ruído de 2. ordem ,
ou simplesmente "ruído".
Para se medir a recuperação e a relevância hã ne
cessidade de se separar o conjunto de documentos em quatro
subconjuntos disjuntos. Inicialmente faz-se a separação
entre os documentos recuperados e os não-recuperados e a
seguir faz-se a separação em cada um dos subconjuntos ante_
riores, dos documentos relevantes e dos irrelevantes. A
Fig. 1 ilustra o exposto acima.
DOCUMENTOS
Recuperados
Não Recuperados
RELEVANTES
aacertos
bperdas
IRRELEVANTES
cruídos
dignorados
Figura 1 - Partição do conjunto de documentos
-11-
a N9 de referências relevantes recuperadas
a + b N9 de referências relevantes na coleção
(11)
a __ N9 de referências relevantes recuperadas
a + c N9 total de referências recuperadas
(12)
Tomados isoladamente estes parâmetros nada dizem.
Assim pode-se sempre ter uma recuperação de 100%, ao recu-
perar-se toda a coleção, sem que nada possa ser afirmado so
bre a eficácia do sistema.
A dificuldade de calculo desses parâmetros res i -
de na necessidade de conhecimento prévio de quais documen-
tos são relevantes na coleção. Esta dificuldade nos s i s -
temas de SDI 2 menor para os documentos recuperados grji
ças a avaliação que os usuários fazem das referencias que
lhes são enviadas. A avaliação pelo usuário, embora faci^
l i tada, apresenta alguns inconvenientes como o risco da u-
ti l ização do cr i tér io de pertinência ao invés do cr i té r io
de relevância. Para os documentos não recuperados, fre_
quentemente tem-se de recorrer a técnicas de amostragem pe_
Ia inviabilidade de uma análise exaustiva de todos os docu
mentes de uma grande coleção6.
-12-
Os cálculos de recuperação e relevância são tam
bem afetados pelo ponto de corte ("patamar") escolhido p£
ra distinguir referências recuperadas de não recuperadas6.
Apesar destes dois parâmetros serem objetivos a
estimativa do compromisso ideal entre eles, em um sistema,
é" muito difícil, pois cada usuário possui prioridades dife_
rentes e dinâmicas para os mesmos, assim como diferentes e
dinâmicos são os seus interesses.
1.3 - 0 INIS : International Nuclear Information System
0 INIS é um sistema internacional de informações
nucleares, planejado e operado pela International Atomic E
nergy Agency (IAEA) em colaboração com seus estados mem
bros?
0 sistema é descentralizado e tem por base a coopera
ção internacional; cada país participante tem um centro n£
cional encarregado da coleta de literatura gerada em seu
território, de sua catalogação, indexação e remessa para o
órgão central, cuja sede funciona em Viena8.
1.4 - 0 SDI/CIN/CNEN
0 CIN/CNEN funciona como centro nacional do INIS e
seu SDI tem como objetivo principal a disseminação sele-
-13-
tiva de informações para a comunidade brasileira, da base
de dados do INIS. Esta base de dados consiste de fitas
magnéticas contendo as referências bibliográficas e resJi
mos de documentos recém incorporados ao acervo. As fitas
possuem em média 2.500 referências e sua distribuição é
quinzena!.
0 sistema esta operativo desde 1974, contando em se_
tembro de 1977 com mais de mil usuários.
1.4.1 - 0 Thesaurus
0 thesaurus (T) do INIS pode ser representado
pela tripla:
T - < D, N, R > (13)
D - é o conjunto de termos permitidos (descrito-
res) . (Cerca de 15.000 termos em jan 1977)
N - é* o conjunto de termos proibidos (Ceica de
4.300 termos em jan 1977)
R - é o conjunto de relações que define a estru-
tura do thesaurus, compondo-se de tvês tipos:
- Relações de preferencia (RP)
- Relações de hierarquia (RH)
- Relação de afinidade (RT).
-14-
Estas relações sao transitivas, sendo RP e RH aii
ti-simStricas e RT simétrica.
0 conjunto de relações de preferencia e o respon
savel pelas relações entre os descritores e os termos pro^
bidos do thesaurus, que sejam sinônimos ou quase sinoni_
D1OS .
Consta de 4 tipos de relações:
RP = { ÜF, SF, USE, SEE } (14)
UF - usado por UF C D X N
SF - visto de SF C D X N
USE - use USE C N X D
SEE - veja SEE C N X D
0 conjunto de relações de hierarquia define a e£
trutura hierárquica do thesaurus, que é a de um grafo ori
entado; Consta de dois tipos de relações:
RH » { BT, NT } (15)
BT - termo mais genérico ("broader term")
BT C D X D
-15-
BT - NT
NT - termo mais restrito ("narrower term")
NT C D X D
BT e NT são relações anti-simetricas e transitivas,e
-I
Se d. BT d. , diz-se que o descritor d. é mais
amplo do que o descritor d. ou que d. é mais especifi-
co do que d. (dif d. e D).
Se d> NT d. , diz-se que o descritor d. é mais
especifico do que d. ou que o descritor d. é mais am-
plo (genérico) do que d..
A estrutura de T não é" a de uma árvore, porque
um descritor pode possuir vários ascendentes diretos ( de£
critores mais amplos). Através das relações BT e NT p£
de-se obter todos os ascendentes e descendentes, respecti-
vamente, de determinado descritor.
A relação de afinidade relaciona termos de mesmo
nível de especificidade, sem vinculação hierárquica, mas
com razoável grau de similaridade semântica.
RT - termos com afinidade ("related term")
RT C D X D
-16-
1.4.1.1 - O Minithesaurus
O SDI/CIN/CNEN foi implementado num computa-
dor de pequeno porte, o que inviabilizou a utilização ple_
na do thesaurus do INIS. Optou-se então pela formação de
uma lista de termos autorizados (minithesaurus), não estru
turada, composta por um subconjunto T* dos descri tores do
thesaurus, mediante a aplicação do seguinte algoritmo expe_
rimen tal:
1) - Ler o descritor d, F e F
2) - Se F_ for menor ou igual a FA , ir para
o passo 7
3) - Se F2 menos F for maior do que FB , ir
para o passo 7
4) - Se descritor não possuir ascendente direto,
ir para o passo 6
5) - Se F_ for menor ou igual a FC , ir para
o passo 7
6) - Incluir descritor no minithesaurus
7) - Se há descritores ainda não analisados, ir
para o passo 1
8) - Fim.
F - número de vezes que o descritor foi usado por
indexação direta
-17-
F- - número de vezes que o descritor foi usado por
pôs-indexação ("up posting") (§ 1.4.2)
FA - 50
FB - 3.000
FC - 100
Obteve-se assim uma l i s t a de 2.491 termos a_u
toriz^dos (maio 1977).
1.4.2 - Os Documentos
0 processo de elaboração dos perfis dos documen
tos do INIS consta essencialmente de duas etapas; A pri -
meira etapa, denominada indexação, executada no centro n£
cional que coletou a publicação, consiste em:
- Identificar as idéias ou conceitos centrais do
documento;
- Selecionar uma área de interesse principal p_a
ra o documento;
- Selecionar ãreas de interesse secundário, se
for o caso, para o documento;
- Selecionar os descritores mais específicos que
melhor representam o conteúdo do documento;
- Definir, entre os descritores selecionados,um
como principal (M - "Main heading") e outro
-18-
como qualificador (Q - "Qualifier"), para ca-
da um dos conceitos principais expressos no do
cumen to.
A segunda etapa, denominada pós-indexaçao ("up-
posting") é realizada automaticamente pelo computador do
INIS e consiste na introdução de novos descritores que sje_
jam BT daqueles selecionados na primeira etapa, através
de caminhamento ascendente no grafo do thesaurus. 0 si£
tema mantém separados os descritores selecionados por inde
xação ("Tag 800"), daqueles selecionados por pos-indexação
("Tag 801") .
0 perfil de utn documento do INIS, no SDI/CIN, p£
de ser representado formalmente pelas equações 6 a 8, §
1.2.1, mediante a utilização de algumas convenções adicio-
nais, uma vez que o INIS não pondera áreas de interesse ou
descritores de documentos.
1.4.3 - Os Usuários
0 perfil de um usuário do SDI/CIN pode ser repre_
sentado com fidelidade pela equação 3, § 1.2.1, mediante a
introdução de algumas restrições:
- V. e T1 (mini thesaurus) ;
- w e [-2,4] , i í 20;
-19-
- v. e [0.59, 0.99] , j 4? 5;
- as convenções são as mesmas do § 1.2.1.
A construção do perfil inicial é feita pelo prci
prio usuário, com auxilio ou não de especialistas do CIN,
median te:
- definição de sua atividade principal;
- seleção de até 5 áreas de interesse, e£
pecificas e relacionadas com sua ativi-
dade principal;
- atribuição de "pesos positivos" v 1. as
áreas selecionadas de modo que E v'.-*5;
- seleção de ate" 20 descritores do mini -
thesaurus, relacionados com as áreas e£
colhidas;
- atribuição de "pesos positivos" v'. aos
descritores selecionados, de modo que
l w1. - 20.
Os usuários incluídos no sistema antes de set 76
ecionar até 40 de;
ta condição foi respeitada.
podiam.selecionar até 40 descritores com E w'. - 40 e
Antes do perfil inicial ser incluído no SDI , os
pesos atribuídos pelo usuário ãs áreas (v1.) e aos des-
-20-
critores (w1.) são normalizados pelo sistema mediante as
funções 4> e í>:
^ v!)} -{(a., Vj
: {(Plt wj)} {(p., w.)}
v. - 0,59 + 0,40 x (v'./v1 ) (16)3 J max
w. - 3 + wf/w' (17)i 1 max
v' - é o maior valor de peso atribuído pelo u
suãrio a uma ãrea
w' - é o maior valor de peso atribuído pelo umax r —
suário a um descritor
Cada usuário recebe periodicamente, via postal,
uma listagem das informações que lhe foram selecionadas p£
Io sistema, juntamente com um cartão para avaliação e soli
citação de cópias de documentos, denominado "cartão respos^
ta".
Estas listagens são feitas em cartelas usualmen
te chamadas de "sanfonas" e contém alem das referências b£
bliograficas, os resumos dos documentos (estes a partir de
-21-
mar 7 7) .
Os usuários são solicitados a avaliarem os do
cumentos recebidos pelo critério de relevância, e não de
pertinência, devendo para isso assinalarem no cartão re£
posta, ao lado do número de cada referência:
M - muito interesse
R - relativo interesse
N - nenhum interesse
0 conjunto das avaliações dos usuários, proces-
sado e realimentado no sistema sob a forma de vetores de
avaliação, constitui uma base para análises estatísticas
e de desempenho, bem como, para atualização de perfis. 0
índice de usuários que deixam de remeter ao CIN o cartão
resposta é muito elevado (cerca de 40%), comprometendo as
sim a validade dos parâmetros de desempenho levantados pa
ra o sistema e dificultando a implementação de um sistema
automático de atualização de perfis. Esta realimentaçao
deficiente pode igualmente vir a comprometer os esforços
dispendidos na melhoria de sua eficiência e eficácia.
1.4.4 - Algoritmo de Seleção
Um dos elementos básicos de um SDI , conforme
visto no § 1.2.1, é* o algoritmo de seleção, "expressão for_
-22-
mal do critério de seleção, devendo representar a tradução
do subjetivo para o objetivo"6.
0 SDI/CIN seleciona documentos apenas através
de sua area principal e o peso de cada publicação é cal -
culado através da equação9:
„„„. j-PERF-X PUB-X i / 1 O X
PESO - w A . max l-^j- , -g^yj- > (18)
X = COINC - I PDESC
PESO - peso calculado para o documento;
w. - peso da área a que pertence o documen-
to, no perfil do usuário;
PERF - número de descritores no perfil do usu
ário;
PUB - número de descritores no perfil do d£
cumento ("tag 800" e "tag 801");
COINC - número de descritores dos dois perfis
que coincidiram;
PDESC - somatório dos pesos dos descritores
coincidentes.
A equação 18 mostra implicitamente que os descri_
tores não coincidentes nos dois perfis são considerados co
-23-
mo tendo peso um e que portanto, documentos cujos perfis
não possuem qualquer descritor em comum com o perfil do u-
suário, terão peso superior a zero (igual ao da área a que
pertencem). Verifica-se igualmente, em decorrência do ex
posto acima, que descritores com peso menor do que um,quan_
do coincidentes, contribuem menos para a elevação do peso
da publicação do que se fossem não coincidentes.
0 algoritmo de seleção do SDI/CIN S uma função
que, através da equação 18 e mediante operações do confron
to ("matching") entre o perfil de cada usuário e os perfis
dos documentos pertencentes as suas áreas de interesse ,
compõe um vetor de seleção por ordem crescente de sua medi_
da de correlação (peso da publicação). 0 sistema possui
um patamar de corte (peso mínimo de publicação), abaixo do
qual nenhuma referência serã introduzida no vetor de sele-
ção, bem como um numero máximo de referencias que podem ser
introduzidas no referido vetor. 0 usuário pode solicitar
elevação de seu patamar e/ou redução do numero máximo de re
ferencias que deseja receber quando então o número de en-
tradas no vetor de seleção poderá não ser determinado pelo
patamar de corte.
CAPITULO II
DISTORÇÕES DO SDI/CIN/CNEN
2.1 - Introdução
Uma distorção em um SDI pode ser conceituada como
qualquer desvio de seu funcionamento ideal contudo no pre_
sente trabalho foram consideradas apenas algumas distor -
ções quanti fi caveis e cujos valores estivessem ligados, di
reta ou indiretamente, ã eficácia do sistema.
Devido ã inexistência de valores padrões para avalia
ção da eficácia, os parâmetros representativos de distor -
ções, § 2.3, foram quantificados, antes e depois da altera
ção de possíveis fatores de distorção, proporcionando as-
sim um estudo comparativo do desempenho do SDI/CIN. Al
guns desses fatores foram estudados e analisados sem que
se fizesse uma avaliação quantitativa de sua influência ,
por estarem sendo alvos de trabalhos paralelos ou terem si
do julgados pelo autor, em análise prévia, menos perturba-
dores do sistema.
Apesar da utilização de parâmetros objetivos a variji
çio de dois ou mais parâmetros em sentidos contrários (fa_
vorável versus desfavorável) exigiu que se definisse o que
é", sob certas circunstâncias, um "desempenho melhor"do que
-24-
-25-
outro. Embora tenha sido feito um esforço para que a me_
lhoria do desempenho do sistema não se fizesse em detrimen
to de certos usuários, por vezes isto ocorreu, tendo as caia
sas sido determinadas.
2.2 - A Amostra
A existência de uma coleção de documentos totalmente
avaliada, quanto ã relevância, para um conjunto de usuári-
os do SDI/CIN, foi o critério determinante da escolha da £
mostra utilizada.
A amostra consta de 35 usuários, cujos perfis estão
mostrados no anexo 1, e dos documentos correspondentes ao
volume 6 de número 5 a 14, totalizando assim 350 consultas.
Suas características, restrições e seu critério de escolha
foram descritos por Araújo10 que a preparou e utilizou ini
cialmente.
Embora desprovida de aleatoridade e reduzida, e ape_
sar de algumas mutações por que passou o SDI/CIN, a amos-
tra prestou-se 90s fins desejados, tendo em vista que:
- cerca de 40% dos usuários atuais não devolvem ao
CIN o cartão resposta;
- as restrições existentes foram analisadas e criti-
cadas nos aspectos que pudessem comprometer o tra_
balho.
-26-
2.3- Parâmetros de Distorção
Um SDI ideal quanto ã eficácia deveria apresentar
valores de relevância e de recuperação, iguais a um. Os
atuais sistemas não conseguiram alcançar este resultado, a_
presentando assim distorções em maior ou menor escala , e
que podem ser avaliadas em função dos valores obtidos para
esses parâmetros. Além destes parâmetros a incerteza e a
inversão (§ 2.3.3 e § 2.3.4 respectivamente) foram
lizados no estudo e analise dos fatores de dis torções . ^
do utilizados percentualmente os parâmetros foram denomina_
dos de índice. DM, DR e DN referem-se ao número de docu-
mentos julgados de muito, razoável enenhum interesse, res
pectivamente.
2.3.1 - A Relevância
A relevância de um SDI é definida objetivamen_
te pela equação 12, contudo o sistema de avaliação do SDI/
CIN, § 1.4.3, introduz a variável de como enquadrar as re_
ferências julgadas de relativo interesse (R). 0 autor é
de opinião que este julgamento encerra um elevado grau de
incerteza e que dificilmente um conjunto de usuários soli-
citado a reavaliar estas referências, apenas como M ou N,
a faria de modo uniforme. Por esta razão optou-se por di
vidir as referências, julgadas de relativo interesse, numa
proporção direta entre o número DMe DN; Um estudo rigor£
so desse aspecto, utilizando-se da teoria dos conjuntos ne
-27-
bulosos, pode determinar uma função que melhor expresse a
relevância, mas foge ao escopo do presente trabalho.
Seja,
DR - R + R (19)m n
R - número de referências recuperadas, conside-
radas como de muito interesse (M),mesmo ten
do sido avaliadas como R;
R - número de referências recuperadas considers^
das como de nenhum interesse (N), mesmo ten
do sido avaliadas como R.
Para uma divisão de DR diretamente proporcio -
nal a DM e DN , ter-se-ã:
5Ü .'. R - (R + R ) .m m nR + R DM + DN
m n
. DM/(DM + DN) • DR.DM/(DM+DN) (20)
7}
2 - 22 .-. R - (R + R ) .R + R DM + DN n m n
m n
. DN/(DM + DN) - DR.DN/(DM+DN) (21)
-28-
A relevância do SDI/CIN foi calculada pela equa
ção 22, obtida a partir das equações 1.2 e 20, do seguinte
modo:
P = (DM + Rm)/(DM + DN + DR) .\
P - (DM + DR . DM/(DM + DN))/(DM + DN +
+ DR . DM/ (DM + DN) + DR . DN/(DM+DN)).'
P - (DM2 + DM . DN + DM . DR)/((DM + DN +
+ DR) (DM + DN)) :.
P - DM / (DM + DN) (22)
As equações 20 e 21 mostram que se DM e DN forem
iguais a zero a relevância é indeterminada, e ter-se-á sem
pre:
(DM + DR)/(DM + DN + DR) » DM/(DM + DN) »
> DM/(DM + DN + DR)
2.3.2 - A Recuperação
0 problema de enquadrar-se o R como M ou N,
analisado em 2.3.1, ocorre também no cálculo da recupera-
ção, contudo outro critério foi adotado, sem que houvesse
inconsistência.
-29-
Sejam DM1 , DRf e DN' quantidades de referen
cias não recuperadas de muito, relativo e nenhum interes -
se, respectivamente.
Se todos os R e R' forem considerados como N
e N' , respectivamente, a recuperação (R.) é calculada p£
Ia equação:
R - DM/(DM + DM') (2 3)
Se todos os R e R' forem considerados como M
e M1 , respectivamente, a recuperação (R2) é" calculada pe_
Ia equação:
R 2 « (DM+DR)/(DM + DR + DM' + DR1) (24)
Adotou-se a equação 23 para cá lculo da recupera-
ção, pa r t i ndo - se da premissa de que a i nce r t e za e x i s t e n t e
na ava l iação R , das r e f e rênc i a s recuperadas , e x i s t i r a em
igua l proporção na ava l iação R' , das r e f e rênc i a s nao recti
peradas , em re lação a DM e DM* , respec t ivamente , ou seja:
DR / DR1 - DM / DM1 . (25)
-30-
Nestas condições os resultados obtidos pelas e
quaçoes 23 e 24 sao iguais e pode ser considerado um resul
tado intermediário, uma vez que, para DR j4 DR' t 0:
DR/DR' > DM/DM' • R > R
DR/DR 1 < DM/DM1 • R2 < R
e para DR ou DR' igual a zero tem-se
DR
DR
2.3.3 - A Incerteza
Viu-se no § 2.3.1 e § 2.3.2 que a avaliação de
referências como R obrigou que se adotassem premissas que
possibilitassem seu enquadramento em M ou N . A incor -
reçlo total ou parcial destas premissas podem reduzir ou
ampliar as distorções do sistema em relação a determinado
usuário ainda que se comportem de modo transparente para a
média do sistema.
-31-
Introduziu-se assim um novo parâmetro, denomina-
do incerteza, com os objetivos de se estimarem parcialmen
te, a segurança das avaliações de cada usuário e a confia-
bilidade da relevância calculada, e que ê representado pe
Ia equação:
INC - DR / (DM + DN + DR) (26)
Um sistema sem distorções deve ter uma incerteza
igual a zero, uma vez que as referências recuperadas devem
ser todas relevantes. Por outro lado, para um mesmo nume
ro de referências M e N recuperadas, o usuário que apre
senta maior número de R tem uma relevância menos confiá-
vel, ou mais incerta, uma vez que a distribuição de DR' eii
tre DM e DN é artificial e provavelmente não corresponde
a realidade individual dos usuários.
2.3.4 - A Inversão
As inversões se manifestam no SDI/CIN do seguin-
te modo: ao se fazer o confronto do vetor de seleção com
o vetor de avaliação, de determinado usuário, verifica -se
com freqüência que referencias com maior peso tiveram ava-
liação mais desfavorável que outras de menor peso.
Objetivamente isto é caracterizado pelo apareci-
mento no vetor de avaliação, de N precedidos de M ou R,
-32-
ou de R precedidos de M . Corao as avaliações do tipo
R encerram um elevado grau de incerteza, as inversões en
volvendo R não foram levadas em consideração no estudo
feito. A Fig. 2 ilustra o efeito denominado inversão.
Peso
2.8
2.3
1.8
1.3
1.3 1.8 2.3
Vetor de seleção
N M N N
Vetor de avaliação
Figura 2 - 0 efeito inversão
M Avaliação
Os vetores de seleção e de avaliação possuem as
referencias na mesma seqüência, (ordenados pelo peso do d£
cumento) e a ordem, de referências que possuem o mesmo pe-
so, foi considerada irrelevante, visando a simplificação da
abordagem do problema na analise que se fez.
A inexistência de inversões não significa que o
sistema possui um desempenho ideal, embora facilite a , ob-
tenção de melhores resultados, contudo sua existência 5 a
certeza da presença de distorções no SDI, A eliminação
de inversões é uma ferramenta que possibilita principalmen_
te obter-se melhor relevância, mediante reajuste do pata -
-33-
mar de cada usuário.
Três medidas de inversão foram estudadas para que
se pudesse escolher uma que melhor representasse o efeito .
A inversão por quantidade (I ) e uma distânciaq
positiva, obtida através da soma do numero de inversões, on
de cada M que antecede cada N , no vetor de avaliação, é
considerado uma inversão (distância um). A inversão por
quantidade máxima (I ) ocorre quando todos os N e£
tão apôs todos os M , e seu valor e:
max " D M ' D N (27>
A inversão por peso (I ) é a relação entre o so
matõrio das diferenças de peso em cada inversão e o número
de inversões, e representa o peso médio das inversões9.
A inversão percentual (I?) ê a relação entre a
inversão por quantidade e a inversão por quantidade máxima,
expressa por percentagem.
A Fig. 3 ilustra a tendência dos parâmetros de dis_
torção ao se alterar o vetor de avaliação pela inclusão, re
tirada, ou mudança de posição relativa, de M e N . Deii_
ne-se como "mudança favorável" e troca de posição de M e N
no vetor de avaliação, com redução do número de inversões .
-34-
À troca com aumento do numero de inversões é* denominada
"mudança desfavorável".
As seguintes notações sao utilizadas:
+ — aumento do valor do parâmetro;
— diminuição do valor do parâmetro;
— parâmetro com valor inalterado
ALTERAÇÃO DO VETOR DEAVALIAÇÃO
Mudança favorável
Mudança desfavorável
Retirada de M invertido
Retirada de N invertido
Retirada de M não invertido
Retirada de N não invertido
Inclusão de M invertido
Inclusão de N invertido
Inclusão de M não invertido
Inclusão de N não invertido
Iq
-
+
-
-
+
+
ip
lz
-*
*
- .
p
-
-
- •
-
R
-
•
-
*
+
*
INC
•
•
•
•
•
OBS
1
2
3
A
5
6
7
8
9
10
Figura 3 - Tendência dos parâmetros de distorção
ao se alterar o vetor de avaliação
A análise da Fig. 3 mostra que, qualquer que seja
o parâmetro de inversão utilizado, seu aumento ou diminui -
-35-
ção não traduz, por si so, uma eficácia do sistema menor
ou maior, respectivamente. Utilizou-se neste trabalho a
inversão por quantidade, em detrimento dos outros parame -
tros de inversão, por ser o único cuja variação é perfeit£
mente definida ao se fazer alterações genéricas no vetor de
avaliação, embora necessitando da conjunção dos outros p£
râmetros de distorção para a definição do desempenho do
SDI. Não se conseguiu um parâmetro simples, englobando a
inversão, que representasse o desempenho do sistema de mo_
do satisfatório.
Segundo Cleverdon11, em um mesmo sistema, admi -
tindo que uma seqüência de eubconsultas para um particular
problema é feita em uma ordem lógica de relevância decres-
cente esperada e as exigências são aquelas declaradas no
problema, hã uma relação inversa entre a recuperação e a
relevância se o resultado de um número de diferentes con
sultas são avaliados.
Esta assertiva diz implicitamente que sob a pre
missa admitida, não se pode eliminar as inversões de um
sistema, pois de outro modo não haveria uma relação inver-
sa. 0 autor deste trabalho concorda com esta idéia, não
tendo tido assim a pretensão de eliminar tal distorção. 0
que se fêz em última análise foi estabelecer um conjunto de
procedimentos que possibilitem a translação da curva de de_
sempenho em direção ao ponto de recuperação e relevância i_
-36-
guais a um ou uma rotação de modo a obter-se um compromis-
so mais favorável entre estes dois parâmetros.
2.4 - 0 Parâmetro Eficácia
0 CIN não levantou ainda a curva de eficácia de seu
SDI , assim optou-se pela adoção de um parâmetro que possi_
b i l i t a s s e comparar o desempenho do sistema em situações dj
ferentes. Vários parâmetros simples foram estudados por
diferentes a u t o r e s 1 2 ' 1 3 ' 1 1 1 1 1 5 com este objetivo tendo - se
optado pelo de Van Rijsbergen15 . Dada a recuperação R e
a relevância P para um conjunto de documentos recupera -
dos por um p e r f i l , a medida da eficácia (E) é uma combina-
ção ponderada de R e P
E - l / ( a ( l /P ) + (1 - a)( l /R)) 0 ^ a £ 1 (28)
onde a é um parâmetro através de cujo valor pode-se atn
buir maior importância a R ou a P.
0 SDI/CIN não possibilita que a o usuário expresse
seu maior interesse pela recuperação ou pela relevância,
cabendo ao sistema esta decisão e que é uniforme para to-
dos os usuários. A Fíg. 4 apresenta as curvas de E em
gráficos P x R , para diferentes valores de a.
Os valores de E para usuários isolados e para o
- 3 7 -
i a ' EiC-'J
R *
1 0 3 '
9 0 '
BO'
7 0 '
SB '
SO1
/li'A = 0-33[.100
Figura 4 - Curvas de eficácia num gráfico P x R para
diferentes valores de a
-38-
sistema como um todo foram calculados para possibilitar a
avaliação da eficácia, antes e depois de alterações feitas
no sistema. "Eficácia maior" e definida como um valor de
E mais alto, quer para um usuário, quer para o sistema.
Um valor de E mais baixo indica uma eficácia menor. Os
valores 0,2 e 0,4 foram utilizados para a por aceitar-
se que em um SDI a recuperação é mais importante do que
a relevância, para a média dos usuários16.
2.5 - Valores dos Parâmetros de Distorção e de Eficácia
De posse de toda a coleção de documentos da amostra
avaliada para os 35 perfis calculou-se os valores dos para
metros de distorção e de desempenho de modo a obter-se o
estado do sistema antes da aplicação de procedimentos cor
retivos de distorções, A eficácia foi calculada pela e-
quação 28, tomando-se a - 0,2 e a • 0,4 , para que se
pudesse verificar o efeito de valorizações diferentes da
recuperação sobre a relevância.
0 anexo 2 apresenta para cada usuário, por envio, os
valores obtidos para os parâmetros de distorção e de eficã_
cia, tabelados juntamente com a quantidade de documentos
recuperados e não recuperados de muito, relativo e nenhum
interesse .
Os valores dos parâmetros de distorção e de desempe-
nho, para cada usuário no conjunto dos dez envios, juntji
-39-
mente com seus valores médios, são ilustrados na Fig. 5.
A última linha da figura apresenta os valores dos mesmos
parâmetros para todos os usuários.
A Fig. 6 apresenta para o conjunto dos usuários como
um todo, e em relação a cada envio, os valores dos mesmos
parâmetros constantes da Fig. 5.
Os valores ilustrados no anexo 2, bem como nas figu-
ras 5 e 6 serão comparados com aqueles que foram obtidos
após os perfis terem sido alterados, sendo assim o ponto
de partida para se verificar qual foi o comportamento do
sistema frente aos procedimentos corretivos de distorções.
Vale ressaltar que os parâmetros recuperação e incej:
teza foram utilizados apenas para aferição, não se tendo
procurado objetivamente provocar modificações de seus valo^
res. As modificações que houveram foram resultantes dos
procedimentos utilizados, visando obter-se melhores resul-
tados para a relevância e para a inversão, sem prejuízo da
eficácia.
- 4 0 -
l r t «OCCC-U.-OOOO**-* u *.' c - j c* e- o o
n
I
13 <O OH M
o
O O*o
O»H, *O
O 0)> r
fõ_ rt3 Hui-O
U
NtfcC C*1 -C*-"JM»~
8
gg-g1
O H- • • '(0 (0
13 O(D h r , ..
H l C l l ?:>''P- O(0
H ^ °'0-J
(D
Oo»»o
JS" -J -*J -J 01 -^ ^
n: t1 O"T> II . — I
O01
(D
1 Cjr-I —nt1 Xi •ii i •+i
m2•-•fi
*
(D3<H-QC/l
H-CO(-{•
QM
«OJül0
C L i O í - f JC3
I + I
OF—U.O JC »—C
(0
m-n io— i—O IO> I
CAPITULO I IT
ANÁLISE DOS FATORES l)K DISTORÇÃO
3 . 1 - I n t ro due a o
Os fatores de distorção atuam era um SDI da geração
ao con.-; uni o da informação, de modo isolado ou comb in ado, to-
nando assim bastante complexa a tarefa de avaliar quan tit a
tivamente sua influencia individual. No que concerne a e_
ficacia, isto envolveria para cada falha de recuperação, se
gundo Lancaster , um exame:
- do texto completo do documento
- de sua indexação
- da formulação das necessidades do usuário
- da formulação da . insulta (perfil)
- do julgamento que o usuário fez do documento (par-
ticularmente das razoes para julgamento de urna p_u
blicaçao como de nenhum interesse)
- de. outras i n f o rmaç oe s disponíveis
para so depois se poder tomar uma decisão sobre a causa prin
cipal da falha analisada.
Uma falha de recuperação pode ser definida objetiva-
men te como: 1 7
-42-
a.) Um artigo julgado relevante pelo usuário,mas nao
recuperado pelo sistema;
b.) Um artigo julgado irrelevante pelo usuãrio, mas
recuperado pelo sistema.
Uma avaliação quantitativa das causas de falhas fe_i_
ta deste modo, seria pouco prática para um sistema operatí^
vo que buscasse procedimentos automáticos de redução de dij>_
torções. Assim fez-se ura estudo qualitativo de possíveis
fatores de distorção, procurando- se dar ênfase àqueles
cujos efeitos pudessem ser eliminados, reduzidos ou competi
sados, por processo automático; a realiiaentaçao do SDI/CIN,
obtida pelas avaliações de documentos pelos usuários, foi
o fator que forneceu maior quantidade de elementos para e£
tudo e análise,e principalmente, para a adoção de procedi-
mentos experimentais de redução de distorções.
Todos os resultados experimentais foram obtidos atrja
vés de um sistema especifico, o SDI/CIN/CNEN e sob condi -
ções bem determinadas, não se podendo em conseqüência, ejK
trapolar seus resultados para outros sistemas sem se incoj:
rer em riscos de graves erros. A aplicabilidade dos pro-
cedimentos a outro SDI exige pois uma nova experimenta -
çao precedida de meticulosa analise do sistema.
-43-
3.2 - Indexação de Documentos
A indexação de um documento pode provocar distorções
por uma ou mais das seguintes causas:
a.) Omissão de um ou mais descritores necessários a
descrição de um tópico importante do documento ;
b.) Uso de descritores inadequados;
c.) Omissão total de descritores que cubram um tõpjL
co marginal do documento.
Os dois primeiros erros sao tipicamente do indexador,
embora possam ser devidos a falhas da linguagem de indexa-
ção (thesaurus). 0 último é decorrência da política de e_
xaustividade de indexação adotada.
A base de dados do SDI/CIN pertence ao INIS , que
como foi dito é um sistema internacional descentralizado ;
0 INIS congrega países em diferentes estágios de desen -
volvimento e das mais diversas formações culturais, enfren
tando assim problemas de uniformidade na indexação de do-
cumentos nos países geradores» apesar de todos os esforços
no sentido de sua padronização; Assim nos 24 envios do
volume 4 o INIS apresentou uma média de 9,53 descritores
por documento quando a média apresentada pelo centro dos
EUA, o maior fornecedor mundial de "inputs" para o sistema
foi de 7,68 descritores por documento51 (por indexação).
-44-
A analise da influência de fatos como o exemplifies
do e de outros decorrentes de uma indexação heterogênea, s£
bre o desempenho do SDI/CIN , exigiria um trabalho extre-
mamente penoso e complexo, e que dificilmente comportaria
a introdução de procedimentos corretivos automáticos sobre
eventuais falhas.
A exaustividade e a especificidade de indexação dos
documentos do INIS varia acentuadamente de área para ã -
rea, em decorrência da linguagem de indexação que cobre me_
lhor as áreas centrais do campo da energia nuclear. Esta
diferença é naturalmente extrapolada para a pós-indexaçao,
que acrescenta em média um pouco mais de descritores do
que os introduzidos por indexação; (Segundo Butterly3, do
volume 3 envio 8 ao volume 4 envio 7, a média de descrito-
res por documento introduzidos por indexação foi de 9,57 e
acrescentados por pós-indexaçao foi de 10,88).
A exaustividade e a especificidade de indexação es_
tão intimamente relacionadas a recuperação e a relevância
de um sistema, sendo assim de se esperar que o comportamen
to do SDI/CIN não seja o mesmo em relação a áreas cen
trais e marginais (ou periféricas), do mesmo modo como e
de se esperar diferenças de comportamento do sistema ao u_
tilizar-se ou nao a pós-indexaçao.
A fõrumula de seleção do SDI/CIN leva em conta o
-45-
número de descritores do documento. Assim, diferentes n_
veis de exaustividade e especificidade influem no calculo
do peso da publicação, quer através dos descritores coínci_
dentes quer através do maior ou menor número de descrito -
res não coincidentes; No presente trabalho, § 3.4 fez-se
um estudo da influência do número de descritores (do do
cumento e do perfil), no desempenho do sistema, sem que f^
zesse contudo sua avaliação quantitativa.
3.3 - Minithesaurus
0 minithesaurus do CIN foi construído aplicando o
algoritmo do § 1.4.1.1 sobre os descritores do thesaurus e
é utilizado na construção dos perfis dos usuários (seleção
dos descritores). Os documentos por pertencerem a base de
dados do INIS são indexados através do thesaurus.
A análise do algoritmo mencionado deixa claro os se_
guintes aspectos do minithesaurus:
a.) A inexistência de qualquer tipo de estrutura di
ficulta sua consulta pelos usuários e compromete
a criação de processos automáticos de construção
de perfis;
b.) Não leva em conta as diferenças de exaustividade
e especificidade de indexação proporcionadas pe_
Io thesaurus as diversas áreas. 0 nível relati
-46-
vo de especificidade e exaustividade entre as ã_
reas e assim alterado, sendo questionável sua in_
fluência no desempenho do sistema.
Nao obstante o thesaurus ser dinâmico, o minithesau-
rus permaneceu estático, a menos da eliminação de desicrito
res que deixaram de pertencer ao thesaurus; Tendo em vista
a evolução permanente da ciência e da tecnologia nuclear ,
evolução que se manifesta através do surgimento de novas ã
reas de pesquisa ou da mudança de áreas de concentração de
esforços, é dificilmente justificável que a lista de ter -
mos autorizados do mini thesaurus permaneça inalterada ao
longo de mais de três anos. Neste período a curva de di_s_
tribuiçao de freqüência acumulada dos descritores deve ter
sofrido alterações e assim seria desejável a formação de
um novo dicionário controlado ou a utilização de técnicas
e métodos que viabilizassem a utilização do thesaurus do
INIS.
3.4 - Algoritmo de Seleção
0 algoritmo de seleção do SDI/CIN nao se utiliza de
todos os recursos oferecidos por seu "input". Neste seii
tido merecem destaque:
- Â não valorização, pelo sistema, dos descritores
que compõem os pares M-Q e que por certo melhora -
riam sua relevância;
- 4 7 -
- A nao distinção entre descritores introduzidos por
indexação ou pos-indexação. Esta diferenciação
possibilitaria ao sistema dar maior ênfase a recu-
peração ou a relevância na recuperação de documen-
tos para determinado usuário;
- A nao recuperação de documentos através das áreas
marginais em que foi indexado diminuindo assim a
recuperação do sistema.
As restrições apontadas acima nao foram eliminadas na
fase de projeto do SDI/CIN visando não apenas uma maior
eficiência para o sistema, mas sobretudo objetivando sim -
plificaçoes que viabilizassem sua implantação em um compu-
tador de pequeno porte. A segunda restrição apontada, jun_
tamente com a utilização ou nao da põs-indexação, está sen
do alvo de outra tese, que visa quantificar seus efeitos
no desempenho do sistema.
É questionável a validade do processo sofisticado e
pouco eficiente que o SDI/CIN util iza na determinação do
peso de um documento, se considerar-se que:
a.) A marginalidade do perfil de um usuário em rela-
ção a um documento, ou vice-versa, é aparente uma
vez que os descritores do perfil de um usuário
nao estão vinvulados a qualquer área em particu-
lar, ao contrário dos descritores de documento .
-48-
Assim um usuário cujo perfil tivesse 20 descrit£
res dos quais 2 coincidissem com descritores de
um documento, seria considerado como tendo 18 de£
critores marginais para efeito de calculo do pe_
so do documento. Isto contudo dificilmente se_
ria verdadeiro pois parte dos 18 descritores cem
siderados marginais poderiam jamais ter ocorrido
ou vir a ocorrer, na área a que o documento em
questão pertence. A marginalidade considerada
é verdadeira para os casos em que todos os des -
critores de determinado usuário tiverem possibi-
lidade de ocorrer na área a que determinado do_
cumento pertence.
b.) 0 peso de um documento é mais sensível ao número
total de descritores do que aos pesos dos descri^
tores coincidentes. Considerando-se que o nume_
ro de descritores de um perfil de usuário nada
diz sobre o número de descritores que podem ocor
rer em determinada área seria de toda conveniên-
cia que os pesos dos critores coincidentes tive^
sem grande influência no valor do peso do documen
to ou que se vinculasse grupos de descritores a
áreas. A vinculaçao de descritores a áreas nao
apení - tornaria a fórmula de seleção mais consij^
tente em beneficio da eficácia do sistema, como
também aumentaria sua eficiência, por reduzir o
número de descritores dos perfis de usuários, a
-49-
serem confrontados com descritores de documentos.
c.) Â existência de "splits" nos documentos do IN IS
com o objetivo de minimizar falsas coordenações
e incorretas afinidades de descritores perde em
grande parte seu sentido, pois os efeitos indese_
jáveis que se propõem a eliminar, sao introduzi-
dos pela utilização de descritores do perfil do
usuário comuns a todas suas areas.
d.) 0 critério utilizado na normalização dos pesos
dos descritores e dasãreas, juntamente com o ele_
vado número de variáveis que compõem a formula de
seleção impedem que o usuário possa ter, quando
da construção de seu perfil, alguma percepção das
condições sob as quais um documento pode ser re-
cuperado. Exemplificando:
se um certo usuário deseja que todos os d£
cumentos da área A12 sejam recuperados sem-
pre que contenham os descritores d e d_ ele
nao saberá que pesos atribuir a esta área e a
estes descritores, bem como as demais áreas e
demais descritores, de modo a possibilitar a
realização de seu desejo. Assim, se ele ej
colhesse apenas a area A12 e mais 5 descri-
tores além de d., e d?, independentemente dos
pesos a eles atribuidos, qualquer documento
que contivesse um só de seus descritores se -
-50-
ria recuperado.
e.) 0 peso do documento é o maior de dois valores de
terminados pela formula de seleção ; Diz-se que
a recuperação e feita pelo perfil do usuário ou
pelo perfil do documento, conforme aquele ou es^
te contenha menor número de descritores. Como a
média de descritores de documentos do INIS é a
proximadamente 20 os usuários cujos perfis te -
nham um número de descritores superior a 20 te -
rao uma probabilidade maior de terem documentos
recuperados pelo perfil do documento, o inverso
acontecendo com aqueles que tenham o número de
descritores do perfil abaixe da média citada.
3.5 - Patamar de Corte
0 patamar de corte mínimo do SDI/CIN é 1.0. Este
valor pode ser elevado para usuários isolados ou para o si£
tema como um todo (atualmente 1.25).
A manipulação do patamar de corte possibilita que se
opere em pontos distintos da curva de desempenho ( P x R )
do sistema ou de determinados usuários, uma vez que o sis-
tema ordena os documentos por ordem crescente de similari-
dade com o perfil de cada usuário (maior similaridade, mai_
or peso do documento). Um modo de se determinar para cji
da usuário o patamar de corte ideal é o levantamento das
-51-
curvas de distribuição de pesos dos documentos avaliados
como de muito interesse (M), em cada área, em um número e^
tatisticamente significativo de envios. Estas curvas po£
sibilitariam nao apenas a determinação do patamar de corte
ideal como também um reajuste no peso já normalizado das
áreas que tornasse consistente a adoção de um único pata -
mar para todas as áreas de um mesmo usuário.
3.6 - Perfil Inicial do Usuário
0 perfil inicial de cada usuário do SDI/CIN é cons_
truido pelo próprio interessado, com auxilio de um manual
de instruções, podendo para esta tarefa utilizar-se da o n
entação de especialistas do Centro.
Deficiências na construção do perfil inicial ou na
declaração por parte do usuário de seu interesse sao res -
ponsáveis por um grande volume de falhas ; As últimas sao
mais sérias desde que a declaração do interesse é a base
sobre a qual o perfil é construído e fica fora do controle
do especialista em informação2. Se um usuário fornece uma
descrição pobre de seu interesse é provável que seu perfil
será pobre e que o especialista sera incapaz de auxilia-lo
a obter melhores resultados2. Com mais forte razão se o
perfil inicial for muito mal construído é pouquíssimo pro
vãvel que um processo de atualização automática de perfis
consiga resultados apreciáveis.
-52-
0 perfil inicial que o usuário constrói é freqüente-
mente comprometido pelos seguintes fatores:
a.) Existência de descritores pertencentes a uma me£
ma relação BT ou NT ;
b.) Existência de areas de interesse e de descrito -
res que propiciam falsa coordenação e incorreta
afinidade de descritores de modo acentuado;
c.) Existência de áreas e/ou descritores inconsisteti
tes com a declaração de interesses do usuário;
d.) Existência de áreas no perfil sem possibilidade
de recuperar documentos; (Inexistência ou número
insuficiente de descritores que podem ocorrer na
área) ;
e.) Numero de descritores no perfil muito reduzido
provocando a recuperação de todos os documentos
onde haja coincidência de qualquer dos descrito-
res;
f.) Utilização de descritores indevidos para o inte-
resse do usuário;
g.) Adoção de níveis nao adequados de exaustividade
e/ou especificidade de descritores.
Os fatores mencionados acima poderiam em parte serem
reduzidos, ou eliminados, mediante:
- adoção de um mini thesaurus estruturado e/ou de mais
-53-
fácil consulta.
- Utilização de programas de computador para críti -
ca do perfil inicial.
- Vinculaçao de cada descritor a uma determinada ã_
rea.
- Adoção de um manual de instruções mais elucidativo,
no que se refere ao critério de seleção
3.7 - Iteração dos Usuários com o Sistema
A iteração dos usuários com o sistema e extremamente
importante principalmente por possibilitar sua avaliação e
a atualização automática de perfis; A atualização de pejr
fis é importante nao só devido ao aspecto dinâmico do int£
resse do usuário, que esta sempre em mutação, mas também
devido ãs falhas inerentes a construção de seu perfil ini_
ciai, § 3.7. 0 processo iterativo com os usuários é "off
line" no SDI/CIN, possibilitando contudo a realimentacao do
sis tema.
A realimentacao do SDI/CIN apresenta alguns aspec-
tos que podem comprometer sua utilização:
- o critério de avaliação de documentos pelos usuá -
rios é desconhecido, pois embora estes sejam ins-
truídos por carta neste sentido, nenhuma verificai
çao foi feita.
-54-
- O sistema mantém para cada usuário uma estatística
da freqüência acumulada com que os descritores do
mini thesaurus apareceram em documentos avaliados
como M, R ou N. Esta estatística 2 em parte in_
consistente devido ao fato de que usuários que tj
veram seus perfis alterados continuam acumulando a
freqüência de descritores no mesmo registro. (Foi
adotado para cada usuário um novo registro de acii
mulaçao de freqüências quando o sistema passou a
enviar o resumo dos documentos junto com suas ref£
rencias bibliográficas).
- 0 arquivo de freqüências acumuladas de descritores
em documentos M, R e N é feito por usuário, po-
rém independentemente de área, irapossibi li tando que
se determine que descritores sao mais convenientes
para cada área.
- A utilização apenas dos descritores do minithesau-
rus na estatística de freqüência dificulta sua atii
alizaçao através da inclusão e/ou substituição de
descritores, utilizando-se daqueles resultados.
0 fato do mini thesaurus nao possuir uma estrutura hie
rárquica impossibilita a utilização de descritores de ele_
vada especificidade e que possuam alto poder discriminante,
deixando assim sem utilização informações fornecidas pela
interação dos usuários com o sistema.
-55-
3.8 - Aspectos Ligados a Arquitetura do Sistema
Alguns aspectos da arquitetura do SDI/CIN embora
nao sejam propriamente fatores de distorção impedem uma ti
tilizaçao mais flexível e eficaz do sistema.
Assim quando do projeto do sistema e visando econo -
mia de memória de massa, vários campos de dados dos arqui-
vos foram dimensionados para as necessidades da época,exem
pio: número de dígitos para peso de áreas de descritores
e de documentos. Este dimensionamento bem como a inexis-
tência de "dummys" nos registros, que possibilitem utilizji
çao de atributos então nao empregados, sao um entrave a
certas modificações e experimentações no sistema pois im -
plicariam em refazê-lo.
CAPÍTULO IV
REDUÇÃO DE DISTORÇÕES NO SDI/CIN/CNEN
4.1 - Introdução
Apesar do grande volume de publicações sobre avalija
çao de SDI a literatura é escassa no que se refere a cons
truçao e atualização automática de perfis nao obstante es_
tas serem as tarefas mais importantes e criticas deste ser
viço. Assim, sistemas sao avaliados e causas de falhas
de recuperação sao estudadas mas poucos trabalhos apresen_
tam procedimentos automáticos para corrigir as falhas, me£
mo as relacionadas com a construção de perfis iniciais de
usuários.
Embora se tenha feito no capitulo anterior um estudo
sumario de diversos fatores que podem provocar distorções
ou comprometer sua redução, procurou-se apenas neutralizar
alguns efeitos decorrentes de incorreções na construção
do perfil inicial ou mudança de interesse do usuário ao lon
go do tempo; Nao se fez igualmente nenhuma analise de pe_r
fil com exceção daquelas passíveis de um tratamento automã
tico e que independessem de iteração do usuário com o sÍ£
tema; A participação dos usuários restringiu-se ao proces^
samento dos cartões resposta por eles devolvidos ao CIN
apôs o recebimento de cada "sanfona".
-56-
-57-
Este nível de participação do usuário constituiu - se
numa restrição ao presente trabalho principalmente se con
siderar-se que a maior parte dos trabalhos atuais sobre
construção automática de perfis baseia-se em processos ite_
rativos. 1 8 , 1 9 , 2 0
4.2 - Procedimentos Adotados na Redução de Distorções
4.2.1 - Eliminação de Ãreas
As referencias dos envios mensais do INIS são
numeradas seqüencialmente dentro da area principal a que
pertencem facilitando assim para cada documento a determi-
nação da ãrea principal em que foi indexado.
Através da facilidade mencionada acima, determi-
nou-se quais as areas, para cada perfil da amostra, em que
nao houve recuperação de nenhuma referencia julgada de rau_i_
to interesse (M) em qualquer dos dez envios em estudo.Tais
ãreas foram eliminadas dos respectivos perfis mesmo conten
do documentos de muito interesse entre as referências não
recuperadas.
A figura 7 ilustra os usuários cujos perfis sja
freram modificações neste aspecto, apresentando o número
de ãreas no perfil inicial e o número de ãreas eliminadas
em cada perfil.
-58-
PERFIL
2 - 1
5 - 1
7 - 1
10 - 1
1 9 - 1
2 5 - 1
3 9 - 1
4 8 - 1
6 2 - 1
9 2 - 1
9 6 - 1
9 9 - 1
106 - 1
1 2 3 - 1
146 - 1
NÚMERO DE ÃREAS
INICIAIS
3
5
3
3
4
4
4
4
3
4
4
2
3
3
4
ELIMINADAS
1
1
1
2
1
2
2
2
1
3
1
1
2
2
3
Figura 7 - Perfis que tiveram áreas eliminadas
-59-
Utilizando-se de uma amostra de 60.000 docuraen -
tos Bernachi9 fez um levantamento da freqüência com que.
os descritores do mini thesaurus incidiram em cada ãrea de
interesse passível de utilização pelo INIS. Embora este
levantamento possibilitasse um estudo para determinação de
algumas causas de falhas de recuperação em certas areas,
de usuários específicos, a impossibilidade de se eliminar
tais causas por processo automático levou a que se abando-
nasse tal estudo partindo-se simplesmente para a elimina -
çao das referidas áreas.
4.2.1.1 - Influência da Eliminação de Áreas
As á r ea s e l iminadas nao exerceram qualquer
influencia sobre as áreas restantes no perfil uma vez que
estas ja estavam com seu peso normalizado e nao sofreram
alteração.
A base de dados de cada usuário do SDI/CIN ,
é constituída apenas de documentos pertencentes as áreas
por ele selecionadas, quer para efeito de recuperação de
referências pelo sistema quer para determinação de parâme-
tros de distorção e de desempenho. Deste modo a elimina-
ção de áreas de certos perfis reduziu suas bases de dados
com as seguintes conseqüências diretas ou indiretas:
a.) Redução do tempo de processamento em decor -
rência do menor número de referências a se
rem confrontadas.
-60-
b.) Aumento do índice de recuperação quando exis_
tiam documentos de muito interesse (M) nas
areas eliminadas.
c.) Aumento do índice de relevância quando atra
ves das areas eliminadas eram recuperadas _a
penas referências irrelevantes.
d.) Redução da inversão por quantidade (I ) quan
do através de áreas eliminadas eram introdu-
zidas referências invertidas ao vetor de ava
liaçao.
e.) Variação do índice de incerteza, ora para ma
is ora para menos, dependendo dos valores de
DM, DR e DN.
f.) Impossibilidade de mediante outros tipos de
alterações no perfil se vir a recuperar os
documentos relevantes pertencentes as areas
eliminadas.
4.2.2 - Eliminação de Descritores Irrelevantes
0 SDI/CIN periodicamente processa os cartões res_
posta e um dos produtos obtidos a partir deste processameri
to é um registro, por usuário, de todos os descritores do
mini thesaurus constantes das referencias recebidas, com a
discriminação do número de ocorrências em documentos ava-
-61-
liados como M, N ou R recebidos até então. Quando o
CIN passou a remeter junto com as referências os respecti
vos resumos foi criado um novo registro para cada usuário,
denominado "registro II".
Os dez envios que contribuem para este trabalho
tiveram seus cartões resposta processados para a obtenção
dos registros iniciais ("registro I"), dos usuários da £
mostra, e possibilitaram a eliminação em cada perfil dos
descritores de peso positivo que nao ocorreram nenhuma vez
no registro do respectivo usuário ou que ocorreram apenas
como N e/ou R. A figura 8 apresenta, juntamente com o
numero inicial de descritores no perfil, o número de de£
critores que foram eliminados para os usuários que sofre-
ram alterações.
A eliminação de descritores dos perfis de usuá -
rios foi em parte comprometida pelos seguintes fatores:
a.) Cada registro de usuário acumulou dados fora
do período compreendido pelos 10 envios em
es tudo.
b.) Nem todos os envios tiveram seus cartões re£
posta processados.
c.) Alguns usuários deixaram de ter seus cartões
resposta processados por terem feito sua de_
volução ao CIN em data posterior a do proce£
- 6 2 -
PERFIL
1 - 1
2 - 1
5 - 1
7 - 1
10 - 1
1 9 - 1
2 5 - 1
2 9 - 1
2 9 - 2
3 7 - 1
3 9 - 1
40 - 1
4 3 - 1
4 8 - 1
5 6 - 1
6 4 - 1
72 - 1
8 0 - 1
NÚMERO DE DESCRITORES
INICIAIS
8
32
26
20
19
24
14
12
3
2 7
23
16
33
39
19
40
32
28
INCLUÍDOS
0
0
! 0
0
0
0
0
5
5
0
0
3
0
5
5
0
1
2
ELIMINADOS
3
5
1
1
0
6
1
7
0
1
4
2
1
10
2
1
1
2
1,00 **
1,00 **
1,00 **
1,00 **
1,30
1,27
1,25
1.31
1,00
1,27
1,28
1,00
1,00 **
1,00
1,00
1,00 **
1,00
1,00
Figura 8 - Perfis cora descritores incluídos e/ou eli-
minados
- 6 3 -
PERFIL
81 - 1
9 6 - 1
9 7 - 1
99 - 1
104 - 1
106 - 1
112 - 1
115 - 1
123 - 1
125 - 1
146 - 1
NÚMERO
INICIAIS
40
3 7
23
25
32
22
26
25
14
35
21
DE
INCLUI
5
3
4
0
5
5
0
0
5
0
0
DESCRITORES
DOS ELIMINADOS
9
14
4
1
11
7
7
3
8
4
2
1,00 **
1,26
1,25
1,00 **
1,25
1,44
1,36
1,26
1,36
1,00 **
1,26
Figura 8 - Continuação
-64-
saraento dos cartões resposta daquele envio .
d.) Usuários que sofreram alteração no perfil nao
tiveram seu registro reinicializado e nem
lhes foi criado outro registro.
e.) 0 sistema nao mantém controle dos usuários
cujos perfis foram alterados.
A fim de que nao houvesse inconsistência todos
os usuários da amostra com perfis alterados apôs a data de
processamento do volume 06 número 14, tiveram seus perfis
iniciais restaurados. Os fatores "a", "b" e "c", mencio-
nados acima foram julgados como tendo efeito irrelevante no
trabalho ao considerar-se que os registros dos usuários fc
ram compostos por uma média de 30 cartões resposta.
0 fator "d" embora considerado comprometedor nao
foi sanado por exigir um reprocessamento de todos os env^
os, após a correção do fator "e"; (Fator este que nao pode
igualmente ser sanado para dois usuários pela impossibili-
dade de obtenção de seus perfis iniciais).
4.2.2.1 - Influência da Eliminação de Descritores
 eliminação de descritores traz consigo ,
além dos efeitos marginais provocados pelos fatores enume-
rados no § 4.2.2, outros efeitos decorrentes da diminuição
-65-
do número de descritores no perfil e da eliminação de con
ceitos existentes (uma vez que cada descritor encerra em si
um concei to).
A diminuição da cardinal idade dos descrito^
res interfere diretamente na fórmula de seleção, equação 18
§ 1.4.4, sempre que o número de descritores do perfil do _u
suario se tornar menor do que o numero de descritores que
indexam determinado documento. No SDI/CIN , como todos
os descritores positivos possuem peso superior a um, a el^
minação de um descritor aumentará o peso dos documentos nao
indexados por ele, provocando a recuperação de documentos
antes nao recuperados, com melhoria ou estabilização do 111
dice de recuperação e efeitos imprevisíveis sobre os de -
mais índices de distorção e desempenho. Os documentos in
dexados pelo descritor eliminado sofrerão redução de peso
tendendo assim a nao serem recuperados, provocando raelho-
ria ou estabilização dos índices.
Do exposto acima conclui-s'e que a eliminação
de um descritor:
a.) Dificulta ou impede a recuperação de documen
tos indexados pelo descritor eliminado.
b.) Possibilita que documentos anteriormente nao
recuperados agora o sejam, quando nao indexji
dos pelo descritor eliminado e possuam mais
-66-
descritores do que o perfil do usuário.
c.) Necessita de procedimentos que impeçam ou ini
nimizem o efeito "b" quando desejado, tais
como, redução do peso das áreas ou elevação
do patamar de corte.
d.) Reduz o tempo de processamento.
4.2.3 - Introdução de Descritores no Perfil
Pode-se a partir do registro I, conforme se viu
no § 4.2.2, determinar descritores que, para cada usuário,
ocorreram apenas em documentos de muito ou nenhum interes-
se (M ou N ) . A introdução no perfil de um usuário de de^
critores que ocorreram apenas em documentos julgados por
ele como de muito in te resse, embora pudesse aumentar seu lia
dice de recuperação provavelmente prejudicaria seu índice
de relevância quando o descritor introduzido fosse muito
genérico. Face a inexistência de estrutura no minithesaij
rus, impossibilitando que se intrc .luzissem no perfil ape-
nas descritores de sentido específico, (por processo auto-
mático), este recurso para melhoria da recuperação não foi
utilizado.
Optou-se assim pela introdução apenas de descri-
tores, nao pertencentes ao perfil, que só* ocorreram em d_o
cumentos de nenhum e/ou relativo interesse (N e/ou R). Os
novos descritores foram introduzidos com peso - 2 , a fim
-67-
de que sua coincidência exercesse na recuperação o papel
de um NÃO lógico. A figura 8 apresenta os perfis que
sofreram esta modificação ilustrando o número de descrito-
res introduzidos.
Com o objetivo de evitar-se a introdução de
critores negativos, que pudessem impedir a recuperação de
referências relevantes, algumas condições adicionais foram
requeridas:
Seja DM e DN o numero total de referências de
muito e nenhum interesse, respectivamente, recebido por um
us uario.
gativos:
Freqüência mínima para inclusão de descri tores ne
1.) 5% de DM + DN se P
2.) 5% de DN se P < 60%
60%
Por razoes de ordem operacional do sistema, £
tringiu-se a 5 o número máximo de descritores a serem in-
troduzidos em cada perfil. Quando mais de 5 descritores
atendiam a condição 1 ou 2 , enumerada acima, foram intro
duzidos os de maior freqüência.
-68-
4.2.3.1 - Influência da Introdução de Descritores no
Perfil
A introdução de um descritor negativo no pe£
fil aumenta o número de descritores do perfil, além do efei_
to de um NÃO lógico que elimina falsas coordenações e in_
corretas afinidades de descritores em benefício dos parâm^.
tros relevância e inversão.
Alguns descritores negativos poderão ser paj:
ciai ou totalmente redundantes e isto ocorrera quando:
a.) 0 perfil possuir descritores com peso positji_
vo que ocorram apenas em documentos avalia -
dos como N e/ou R.
b.) 0 descritor a ser introduzido for BT de ou,
tro descritor que também deva ser introduzi-
do.
c.) 0 perfil possui alguma ãrea através da qual
apenas documentos irrelevantes foram recupe-
rados. A redundância se deve ao fato de que
a eliminação da área dispensaria a introdu -
çao de descritores que recuperaram apenas do_
cumentos pertencentes a respectiva area.
A introdução de um descritor negativo em um
perfil traz como conseqüências:
-69-
1.) Dificuldade ou impossibilidade de recupera -
çao de documentos indexados pelo descritor
introduzido.
2.) Possibilidade de que documentos relevantes
anteriormente recuperados nao mais o sejam ,
quando nao indexados pelo descritor introdu-
zido e possuirem mais descritores do que o
perfil do usiT io (isto se deve ao fato de
que aumentando o número de descritores no pej
fil o peso dos documentos tende a diminuir fi
cando inferior ao patamar de corte).
3.) Necessidade de procedimentos que impeçam ou
minimizem o efeito anterior quando desejado,
tais como, aumento do peso das áreas ou redia
çao do patamar de corte.
4.) Aumento do tempo de processamento.
Nao obstante a introdução de descritores re_
dundantes nao trazer qualquer benefício, nenhum esforço fc£
feito para impedir que isto ocorresse.
4.2.4 - Alteração de Peso de Descritores
Determinados descritores ocorrem com maior fre-
qüência em documentos relevantes do que na base de dados
como um todo, formando ura conjunto de descritores para con
-70-
sultas, em potencial19. A utilidade de qualquer descri -
tor para consulta é quantificáve1 através de várias funções
utilizadas na literatura ' 8 ' l 9'2 l'22 ' 2 3 com o objetivo não
apenas de selecionar os descritores de maior utilidade co
mo também de atribuir-lhes maior peso.
No presente trabalho a função utilizada, denomi-
nada especificidade de descritor (S ) , é a seguinte:P
S - 3 + FM/(FM + FN) , S £ [3,4] (29)
onde
FM - numero total de referencias de muito inte -
resse (M) , contendo o descritor, recebi -
das pelo usuário
FN - número total de referências de nenhum inte-
resse (N) , contendo o descritor, recebj^
das pelo usuário.
Os pesos atribuídos por cada usuário a seus de_s_
critores dificilmente estão coerentes com a maior ou menor
utilidade dos mesmos, ou seja, são atribuídos pesos eleva-
dos a descritores de baixa especificidade e vice-versa.
-71-
Com o objetivo de sanar esta falha, porém respei^
tando parcialmente o peso atribuído pelo usuário, alterou-
se os pesos dos descritores de cada usuário através da e-
quação:
W « (2W. + S .)/3n í pi
(30)
onde
W - novo ieso do descritor in
W. - antigo peso normalizado do descritor i
S .- especificidade do descritor iPi
Utilizou-se no cálculo de S apenas resultadosP
obtidos através do cartão resposta ao invés de toda a base
de dados, afim de se avaliar este processo que embora des_
tituido de base estatística é bem mais rápido e menos one_
roso do que os utilizados por Barkla 2 2 e, Yu e Salton23
que exigem um novo processamento da toda a base de dados .
4.2.4.1 - Influência da Alteração de Peso de Descrito-
res
A análise da equação 29 deixa claro os se
guintes aspectos:
-72-
1.) Descritores que ocorrem em documentos de mu_i_
to e de nenhum interesse na mesma proporção
terão o mesmo valor para a especificidade, iii
dependentemente da freqüência absoluta de o-
corrência.
2.) 0 fato de existirem documentos indexados por
um descritor, porém nao recuperados, nao iri
terfere no valor da S para este descritor.
3.) Â especificidade de um descritor nao é in
fluenciada pelo número de documentos da base
de dados, relevantes ou nao, recuperados por
outros descritores do mesmo perfil.
A aplicação da equação 30 aos descritores de
um perfil teve influencia mais acentuada nos casos em que
provocou variação sensível no peso médio dos descritores
do perfil. Isto porque uma diminuição (ou aumento) no pe_
so médio dos descritores de um perfil provoca uma diminui-
ção (ou aumento) do peso dos documentos como um todo, ao
invés de simplesmente eliminar inversões e nao recuperar
referências irrelevantes, como seria de se desejar. A el£
vação do peso dos documentos foi benéfica para usuários com
patamar de corte acima do ideal e prejudicial aos demais.
A diminuição do peso dos documentos beneficiou usuários com
patamar de corte abaixo do ideal prejudicando os demais.
-73-
A alteração de pesos através das equações 29
e 30 nao se mostrou um processo efetivo para melhoria do
desempenho do sistema. As equações de Barkla 22 e Yu e
Salton 3 também foram testadas, considerando-se no levan-
tamento de seus parâmetros apenas os documentos recupera -
dos, nao se conseguindo igualmente resultados favoráveis .
A utilização de três equações distintas sem
bons resultados confirmou a idéia inicial do autor de que
o valor calculado para a especificidade de um descritornão
tem sentido quando nao se leva em conta sua ocorrência em
toda a base de dados.
4.2.5 - Elevação do Patamar de Corte
Viu-se no § 4.2.2.1 que a eliminação de um de_s_
critor tende a aumentar o peso dos documentos não indexa -
dos por ele, recuperando assim referências antes nao recu-
peradas; Viu-se igualmente, § 4.2.3.1 , que a introdução
de um descritor tende a diminuir o peso dos documentos nao
indexados por ele, impedindo a recuperação de documentos
antes recuperados.
Numa tentativa de neutralização parcial destes e_
feitos elevou-se o patamar de corte dos usuários que, após
a eliminação e a introdução de descritores no perfil, ficji
ram com um número de descritores superior ao existente no
-74-
perfil inicial. O novo patamar foi calculado do modo
posto a seguir, a partir da equação 18 e considerando-se
- coincidência de 1 descritor
- recuperação pelo parfil do usuário
- peso da área igual a 1
onde
Pa = (Pm + Nda
Pd = (Pm + Ndd ~ D > Ndd ( 3 2 )
N » P. * 1,24 / P (33)p d a
P - peso de seleção de um documento, coma coin
cidência de um descritor, antes da atuali-
zação do perfil
P - peso do descritor de menor pesom
N, - número de descritores no perfil inicialda
P, - peso de seleção de um documento, com a coin_
cidência de um descritor, apôs a atualiza-
ção do perfil
N,, - número de descritores no perfil atualizadoda
-75-
N - novo patamar de corte para o perfil atualj^
zado.
Através da analise dos vetores de avaliação e de
seleção de cada usuário para os envios de número 5 a 14, vo_
lume 6, pode-se determinar o menor peso entre aqueles das
referências relevantes recuperadas por cada perfil. Sele_
cionou-se para cada usuário, entre este peso mínimo e aqu_e_
le valor obtido pela equação 33 o de maior valor para ser
o novo patamar.
Nao se pode fazer experimentos com a redução do
patamar de corte, tendo-se em vista que todos os usuários
estavam com o patamar do sistema e para tanto seria nece£
sario a redução dos patamares de todos os usuários.
A figura 8 ilustra os perfis que sofreram alterai
çao no patamar de corte.
4.3 - Algoritmo I de Redução de Distorções e Resultados Ob
tidos
Aplicou-se ao perfil inicial de cada usuário, denomi_
nado Perfil I (anexo 1) o algoritmo abaixo:
1.) Eliminação de áreas, § 4.2,1, considerando-se as
referências do volume 6, número 5 a 14;
-76-
2.) Eliminação de descritores, § 4.2.2, conside-
rando-se o registro I e desde que o usuário:
- tivesse recebido um mínimo de 6 envios e
- tivesse recebido mais de 50 referências de
muito e/ou nenhum interesse;
3.) Introdução de descritores, § A.2.3, conside-
rando-se o registro I e atendendo as mesmas
condições do item anterior;
4.) Elevação do patamar de corte, § 4.2.4.
Com o novo perf i l assim obtido, denominado Per-
f i l II (anexo 3) e cujas alterações constara das figuras 7
e 8, fez-se outra recuperação através do algoritmo de sele
çao do sistema, § 1.4.4, obtendo-se os resultados i lus t ra -
dos no anexo 4 e figuras 9 e 10 que obedecem aos mesmos es
quemas do anexo 2 e figuras 5 e 6, § 2.5.
Comparando-se os resultados obtidos pelos Perfis
I e II , verifica-se que com respeito a inversão média to
dos os usuários melhoraram ou permaneceram estáveis no con
junto dos 10 envios, tendo havido para o todo uma redução
de 17% na quantidade de inversões; Verifica-se igualmente
que o número total de refei3ncias recuperadas sofreu uma
redução de 16% e o número de operações de confronto (" ina
tching ") reduziu-se em 16%.
- 7 7 -
I I 1 I I I
r\> i— t\>
O'COOOOK H' \ Co»£)r j>"N»j^oC-vCOOJ
1 oDo«^*)C••'OclOJ•-•^>JO•J^^i'-^o-4^^^-o•—
I < II O II f I
tI -n i
—rn i
I —C II o II • I1 l
Iw I
i i< I• 1
II * 1
II
P>JOI
i mm
I irmi a—i « o
i ii ;cm iI m |
-78-
PERFIL
NÚMERO
25 - 1
2 9 - 2
39 - 1
5 6 - 1
7 0 - 1
96 - 1
104 - 1
112 - 1
115 - 1
146 - 1
TODOS
RECUP.
- 1
- 73
0
- 3
- 2
•
- 2
- 11
- 1
18
0
RE LEV.
2
8
r-l
2
0
- 3
21
2
0
- 3
12
INVER.
MÉDIA
- 3
- 9
0
- 1
0
0
- 8
- 1
- 1
0
- 1
EFICÁCIA
a •= 0 .20
0
- 4
0
- 1
- 1
11
11
3
- 1
19
3
Figura 11 - Perfis que sofreram redução em P e/ou
R ütilizando-se o Perfil II
-79-
A figura 11 ilustra os perfis nos quais houve re_
duçao da recuperação e/ou da relevância, mesmo com melho-
ria da eficácia; 0 sinal menos indica uma redução do v<*
lor do parâmetro no Perfil II em relação ao Perfil I; Uma
analise e feita apontando-se as causas prováveis destas re_
duções .
Os perfis cujas falhas tiveram as mesmas causas
foram reunidos em 4 grupos, apresentados na figura 12, a
fim de que a analise fosse mais sucinta e objetiva.
GRUPO
1
2
3
4
NUMERO DOS P E R F I S
2 5 . 1 , 1 0 4 . 1 , 1 1 2 . 1 , 1 1 5 . 1
2 9 . 2 , 5 6 . 1
3 9 . 1 , 9 6 . 1 , 1 4 6 . 1
7 0 . 1
Figura 12 - Grupos de Perfis II com redução
de P e/ou R provocada pelas
mesmas causas.
Ao grupo I pertencem os perfis que embora tenham
sofrido uma redução no número de descritores, com o conse-
-80-
quente aumento do peso de suas referências, deixaram de re_
cuperar referencias antes recuperadas; Isto deveu-se ao
aumento do patamar que foi superior ao aumento de peso de
algumas referências H e N ; Além do mais, referencias re_
cuperadas pelo perfil do documento não sofreram aumento de
peso.
Os perfis do grupo 3 igualmente sofreram redução
no número de descritores contudo o aumento do patamar, por
ter sido inferior ao aumento de peso de algumas referên-
cias possibilitou a recuperação de referências antes naore_
cuperadas.
0 grupo 2 é constituido de perfis que tiveram o
número de descritores aumentado deixando assim de recupe_
rar referencias antes recuperadas uma ver que houve redu-
ção em seus pesos sem que o mesmo ocorresse com o patamar
de corte. 0 perfil 29.2 em especial, por possuir antes ji
penas 3 descritores, recuperava qualquer referencia em que
houvesse pelo menos uma coincidência, o que deixou de ocor
rer com o aumento de 5 descritores que reduziu drasticamen
te o índice de recuperação.
0 perfil 70.1, pertencente ao grupo 4, nao so-
freu qualquer modificação e contudo os resultados da apli^
cação do algoritmo de seleção não foram os mesmos. Este
usuário teve seu perfil modificado apôs o envio do volume
6, número 14, tendo-se tomado o cuidado de reconstituir seu
-81-
perfil; Pelos resultados alcançados o autor acredita que
o perfil tido como inicial na verdade nao o seja uma vez
que o controle de manutenção de perfis do SDI/CIN e pre_
cario.
A análise dos grupos 1, 2 e 3 mostra que o alg£
ritmo de seleção é muito sensível ao reajuste de patamar,
principalmente devido ao fato de uma referencia poder ser
recuperada pelo perfil do usuário ou do documento; Esta
sensibilidade interfere acentuadamente na recuperação de
referências cujos pesos estão no entorno do patamar de co_r
te, provocando ora aumento ora redução da recuperação de
documentos.
0 cálculo do índice de recuperação, levando - se
em conta apenas a base de dados do usuário (documentos pejr
tencentes as áreas selecionadas como de seu interesse) p£
de possibilitar a obtenção de um melhor Índice, principal-
mente através da eliminação de áreas que nao recuperam re_
ferências relevantes. Possibilita igualmente a obtenção
de um índice de recuperação para o sistema que pode afãs -
tar-se de sua realidade.
Admitindo-se a consistência do critério de ado-
ção da base de dados, a aplicação do algoritmo I é um pro
cesso altamente eficaz, uma vez que:
- 0 índice de recuperação do sistema permaneceu
-82-
estável em 80% nao obstante a influencia nega-
tiva do perf i l 29.2 que deixou de recuperar 19
referencias M antes recuperados, das 24 que
a amostra como ura todo deixou de recuperar:
- 0 índice de relevância teve um acréscimo de 12%
indo de 56% para 68%;
- A inversão média sofreu uma redução de uma in_
versão por usuário, por envio (17%);
- A eficiência do sistema, para a = 0.20 , me -
lhorou 3%, mesmo jã estando muito e levada(74%);
- Com exceção dos perfis do grupo 2, nenhum USUJ»
rio sofreu redução s ignif icat iva em seu desem-
penho .
4.4 - Extensão do Algoritmo I e Resultados Obtidos
Aplicou-se ao Perfi l I uma extensão do algoritmo I ,
§ 4 .3 , mediante a inclusão do procedimento de alteração de
pesos de descri tores , § 4.2.2 obtendo-se assim oPerfi l I I I .
Como os resultados alcançados com os perfis assim ob_
tidos fossem sensivelmente semelhantes aos alcançados, com
os Perfis I I , algumas modificações foram feitas em determi^
nados usuários do Perf i l II afim de se verif icar o acerto
ou não na determinação de causas de redução de P e/ou R
-83-
ocorridas com o Perfil II:
1.) Deixou-se de incluir os 5 descritores negad
vos no Perfil 19.1 (por ter área eliminada
que recuperava referências N);
2.) Elevou-se o peso das areas B25 e E43 do pej:
f i l 29.2 afim de compensar o aumento do núme_
ro de descritores, por não se poder abaixar
o patamar, e assim recuperar referências com
apenas uma coincidência com descritor posit_i_
vo;
3.) Deixou-se de reajustar o patamar de alguns
perfis a fim de se analizar sua influência
(figura 8);
4.) Elevou-se o patamar do perfi l 39.1, que de_
via ser 1.26, para 1.28 a fim de se analizar
sua influência.
0 anexo 3 apresenta os Perfis I II com as modificações
mencionadas acima, e as figuras 7 e 8 apresentam os perfis
que sofreram alterações, com exceção das de peso de descn
tores, em relação ao Psrfi l I .
Os resultados obtidos com o novo perfil sao i lus t ra -
dos no anexo 5 e figuras 13 e 14 que obedecem também aos
esquemas do anexo 2 e figuras 5 e 6, § 2.5.
-84 -
— — - - . _ e . o o o o
H»
O
• rr iI » II <T1 I( O ~ Ii r-r- i
c I
r • - i
—rn I
—C I
I • II
•-• IX IO Im t
II >»I •III 3»t mmI onI —CI
Ii
i ü» iI mrr II Or- II —m i
"II
I 3C~ I
i o n t
Im I
o-n i
IIIi re
i — o ii o» ii • i
(D
! a,
O
aO
M
30C/3
U)
aS - 1
M
Pu
a>
o
0)1
(D
(D
H-O
OH-P>
i i i i i i
J <* *•* »-*w i—u
I —O I
I f
I
Z I
i mz ii m i
ji ~ c ti >-o i
> iI
I fTTTl Ii or- iI —>rn ll J>< I
i 4-n I
II I) m-n ii i
je iI nrn i
i •-«(•» iI O> II • II I
-85-
PERFIL
NUME RO
5 - 1
7 - 1
1 9 - 1
3 9 - 1
4 0 - 1
5 6 - 1
6 2 - 1
7 0 - 1
81 - 1
9 6 - 1
104 - 1
112 - 1
125 - 1
146 - 1
TODOS
RE CUP .
(%)
2
4
-13
-1
-9
-5
1
-3
-4
14
-11
0
18
1
RE LEV.
(%)
-1
-3
-4
0
2
2
-3
-1
5
-3
13
2
-6
-3
8
INVER.
MÉDIA
0
0
-1
0
-12
-1
0
0
-3
-1
-8
-1
0
0
-2
EFICÁCIA
a * 0.20
1
2
-10
-1
5
-3
0
-2
-1
11
11
3
0
19
3
Figura 15 - Perfis que sofreram redução em P e/ou R
utilizando-se o Perfil III
-86-
Assira como no § 4.3 comparou - se os resultados ob t i_
dos pelos Perfis I e III verificando-se que:
- Todos os perfis tiveram a inversão média melhorada
ou estabilizada em relação aos 10 envios;
- 0 número total de referências recuperadas, sofreu
uma redução de 11%;
- 0 número total de operações de confronto sofreu uma
redução de 16%.
Os perfis que apresentaram redução de P e/ou R são
ilustrados na figura 15, e na figura 16 foram grupados em
função das causas destas reduções.
GRUPO
1
2
3
4
N Ú M E R O D E P E R F I S
1 9 . 1 , 3 9 . 1 , 8 1 . 1 , 1 0 4 . 1 , 1 1 2 . 1
4 0 . \ , 5 6 . 1
5 . 1 , 7 . 1 , 6 2 . 1 , 9 6 . 1 , 1 2 5 . 1 , 1 4 6 . 1
7 0 . 1
Figura 16 - Grupos de Perfis III com redução de
P e/ou R provocada pelas mesmas
causas.
-87-
Os grupos da figura 16 foram numerados de modo a hja
ver una correspondência com os números de grupo da figura
12 no que se refere a identidade de causas de redução de P
e/ou K. Por este motivo serão analizados apenas os per-
fis que sofreram modificações em relação ao algoritmo e_x
tendido ou apresentaram alguma peculiaridade decorrente da
alteração de pesos de descrítores, uma vez que as causas ge
rais foram verificadas no § 4.3.
A nao inclusão dos 5 descritores negativos do perfil
19.1 no Perfil III, como fora feito no Perfil II, nao alte_
rou o número de referências de nenhum interesse (N), que
deixou de ser recuperado, (quatro referencias N),mostrando
que os descritores negativos eram redundantes e decorren -
tes da area irrelevante eliminada; Contudo a redução do
numero de descritores, com reajuste do patamar, impediu a
recuperação de 2 referências M anteriormente recuperadas
pelos Perfis I c II.
0 perfil 3lJ . 1 que teve o patamar reajustado para 1.23
ao invés de 1.26 como no perfil II, mesmo com elevação do
peso médio de seus descritores (de 3,57 para 3,72) deixou
de recuperar uma referência M, ao contrátio do Perfil II
que recuperou um '• a mais, o que confirma a sensibilidade
do algoritmo de seleção em relação a mudanças de patamar.
0 perfil 81.1, também pertencente ao grupo 1, embora
-88-
tenha sofrido redução do numero de descritores sem reajus-
te de patamar, deixou de recuperar algumas referências de
vido a redução do peso médio de seus descritores (de 4.0 pji
ra 3.91) que diminuiu o peso dos documentos.
A redução do peso médio dos descritores do perfil
104.1 provocou uma redução no peso das referências fazendo
com que documentos M e N recuperados pelo Perfil II de^
xassem de ser recuperados, embora mantendo a eficácia anU
riormente obtida.
0 perfil 56.1 mesmo com aumento do peso médio de seus
descritores (de 3,53 para 3,59) teve resultado semelhante
ao obtido com o Perfil II, confirmando assim as conclusões
obtidas no § 4.3 para os perfis do grupo 2. As referidas
conclusões sao igualmente confirmadas pelos resultados ob_
tidos pelo perfil 29.2 que teve os pesos de suas áreas el£
vadas; Com isto compensou-se a redução de peso de suas re_
ferências, decorrentes do aumento do número de descritores,
não deixando de recuperar nenhuma referencia M.
Todos os perfis do grupo 3 tiveram o peso médio de
seus descritores aumentado e com isto, mesmo aqueles que
sofreram reajuste de patamar, nao deixaram de recuperar r£
ferências antes recuperadas pelos Perfis I e II.
0 perfil 70.1 teve uma recuperação anômala em rela -
ção ao Perfil I confirmando assim sua inconsistência já ve
-39-
rificada no § 4.3 com o Perfil II; (Foram recuperadas 6 r e_
fare ii ei as M a menos e 2 N a mais).
Os resultados alcançados com o Perfil III, mostram
que a inversão nedia em relação aos dez envios melhorou ou
estabilizou-se para todos os perfis tendo havido uma redii
çao de 33Z em relação ao todo daamostra; Obteve-se igual -
mente um menor tempo de processamento em decorrência da re_
duçao do número, de referências recuperadas e de operações
de confronto.
4.5 - Comparação dos Resultados Obtidos com os Dois Algo -
ri tmos
A comparação dos resultados obtidos com os Perfis II
e III para a amostra como um todo deixa claro os seguintes
aspectos:
~ 0 índice de recuperação mais elevado obtido com o
Perfil III foi decorrente da baixa recuperação do
perfil 29.2 no Perfil II; A elevação dos pesos de
suas areas teria invertido esta situação;
- 0 aumento do índice de relevância obtido com o Pe£
fil II foi sensivelmente superior;
- A redução do tempo de processamento obtido pelo Per
fil II foi superior devido a sua raenor recuperação;
-90-
- A redução da inversão média nos dez envios conse -
guida pelo Perfil III, foi superior ( 33Z contra
17% ) , graças ao maior numero de referencias de muí_
to interesse (M) que deixaram de ser recuperadas
por este Perfil (a menor do perfil 2 9.2). A alte_
ração dos pesos dos descritores teria também pr£
porcionado, embora em menor escala, o mesmo efei-
to;
- 0 índice de eficácia conseguido pelos 2 Perfis foi
igual; A modificação conveniente do usuário 29.2
(e de quantos houvessem com aumento do numero de
descritores - grupo 2) teria proporcionado ao Ver_
fil II um Índice mais elevado.
A vista dos aspectos mencionados acima, e dos resul-
tados alcançados, conclui-se que:
1.) Perfis que tenham sofrido aumento do número de
descritores deverão ter os pesos de suas areas
aumentados afim de que referencias antes recupe-
radas nao deixem de se-lo devido a redução de
seus pesos;
2.) Os pesos das ãreas de cada perfil deverão ser rea
justados em função do menor peso de referencia M
recuperada pela area em questão;
3.) 0 algoritmo de seleção do SDI/CIN e muito sensí-
vel a reajustes de patamar; Antes de se reajus-
-91-
tar o patamar de um usuário que tenha sofrido r£
duçao no número de descritores deve-se saber se
o desejado é aumentar o índice de recuperação ou
de relevância;
4.) A eliminação de uma área que não recupera refe-
rencias relevantes reduz a base de dados do pej:
fil a que pertence; 0 critério de se considerar
para cada usuário apenas os documentos pertenceji
tes as suas áreas de interesse como formadores de
sua base de dados possibilita que perfis com ã-
reas eliminadas venham a ter acréscimo do índice
de recuperação;
5.) A introdução de descritores de baixa especifici-
dade, com peso negativo (nao lógico), auxilia o
aumento do índice de relevância, quando nao au
tnenta o número de descritores do perfil;
6.) Os perfis que forem alterados deverão ter seus
registros reinicializados a fim de se manter a
consistência dos arquivos. (A criação de um nc>
vo registro é preferível a sua reinicializaçao);
7.) Perfis com patamar de corte igual ou acima do pji
taraar do sistema recuperam apenas referências com
peso superior ao patamar de corte; Caso contrá-
rio recuperam também as referências de peso i -
gual, o que aparentemente é uma incoerência;
-92-
8.) O algoritmo I é mais eficiente, diminuindo invejr
soes e melhorando o índice de relevância, mesmo
reduzindo o número de referências de muito inte-
resse ( M ) recuperadas.
CAPÍTULO V
CONCLUSÃO
5.1 - Considerações Finais
Os fatores que interferem no desempenho de um S D I
sao de toda ordem e seus efeitos ora somam-se, ora subtraem
-se, dependendo das circunstâncias era que ocorrem.
Esta tese objetivou o levantamento e análise desses fa
tores, em diferentes contextos do SDI/CIN/CNEN," bem como bus
cou procedimentos automáticos que reduzissem ou eliminassem
seus efeitos; Não obstante os resultados positivos alcança
dos pelo trabalho, constitui-se em apenas mais um passo vj
sando o desenvolvimento de sistemas eficie.ites de tnanuten -
ção de perfis. 0 estudo possibilitou o levantamento de pon
tos sensíveis do sistema de SDI do CIN/CNEN e o autor acre-
dita que este tenha sido o principal beneficio prestado p^
Io trabalho.
No § 4.5 foram enumeradas as principais conclusões es_
pecificas para a atual versão do SDI/CIN/CNEN. A seguir são
apresentadas algumas conclusões mais abrangentes e que pojr
tanto se aplicam a sistemas de SDI em geral:
a.) A adoção de um modelo matemático, que reflita com
a maior fidelidade possível o comportamento do sis_
tema, é ferramenta de grande valia, em seu estudo
e avaliação, por possibilitar que se simule seu
funcionamento em diferentes situações.
-93-
-94-
b.) Todas as informações disponíveis nas diferentes
bases de dados deverão, sempre que possível, ser
passíveis de utilização quando desejado, sem que
para tanto se tenha que refazer o sistema.
c.) A definição precisa e consistente dos critérios
de avaliação de um SDI, é extremamente importaji
te uma vez que critérios diferentes podem levar
um mesmo sistema a ser avaliado como eficiente ou
não.
d.) 0 perfeito dimensionamento do sistema, quando de
seu projeto, é condição sem a qual não se pode a_
tingir com sucesso o previsto no item "b".
e.) 0 critério de seleção, de referências bibliográ-
ficas para cada usuário,deve ser expresso por um
algoritmo onde a variação de valor dos parârae
tros intervenientes, sob condições predetermina-
das, conduza a resultados esperados e adequados
a cada perfil de usuário.
5.2 - Distorções - Novos Estudos Sugeridos
No desenrolar deste trabalho, ao se fazer o estudo
do SDI/CIN e de seus prováveis fatores de distorção, esbajr
rou-se freqüentemente em problemas que demandavam um estu-
do mais alongado. Considerando-se que o sísteisa e novo e
foi pouco estudado (o único trabalho de extensão é o de A
-95-
raújo lc) optou-se por uma abordagem geral dos aspectos j uJL_
gados mais relevantes ao invés de ura estudo em profundida-
de a respeito de algum tópico especial.
Julgou-se que assim procedendo se estaria abrindo no
vas áreas para pesquisa e desenvolvimento quer do atual SDI
quer de suas futuras versões.
A seguir são enumerados alguns tópicos que explícita
ou implicitamente foram abordados e que o autor considera
merecedores de maiores atenções em futuros trabalhos:
a.) Estudo de um critério ótimo para se julgar uma
referencia de razoável interesse (R) como sendo
M ou N. A discrepância entre os resultados obti-
dos por Araújo10 e pelo autor para os índices de
recuperação e de relevância, a partir de uma mej3_
ma amostra avaliada igualmente, demonstra que o
referido critério pode alterar de modo acentuado
os valores destes parâmetros.
b.) Influencia no desempenho do sistema da valoriza-
ção dos descritores que compõem os pares M-Q das
referências, sobre os demais descritores;
c.) Estudo da distribuição das referências recupera-
das pelo perfil do documento e do usuário, por jí
rea. É sabido que o número médio de descritores
que indexam os documentos do INIS é aproximada -
-96-
mente 20 e que portanto perfis cora mais de 20 _
critores deveriam ter mais referências recupera -
dos pelo perfil ào documento; Isto contudo nem
sempre acontece comprometendo os critérios de re^
juste de patamar ao se alterar o número de descri^
tores de um perfil;
d.) Influência da alteração de peso dos dcscritores de
um perfil nos parâmetros de distorção ao calcular
-se a especificidade de cada descritor através das
referencias da base de dados, ao invés das refe -
rencias recuparadas, e mediante equações como as
utilizadas por Robertson e Spark Jones 2 "* .
e.) Estudo das causas de variação muito acentuada (
mais de 3 desvios padrão) dos valores de P e/ou
R, de um envio para outro, para determinados usuá
rios. As avaliações destes usuários seriara inco_n
sistentes ou existiria tamanha aleatoriedade ine-
rente ao processo de recuperação? As curvas de
distribuição de P e R sao normais?
f.) Influência da utilização de um minithesaurus es-
truturado e por área para a construção e manuten-
ção de perfis, (inclusive introdução de descrito-
res de elevada especificidade) no desempenho do
sis tema.
-97-
g.) Estudo de processos que possibilitem dar priori-
dade a relevância ou a recuperação conforme des^
jado pelo usuário; Implementação de métodos de
atualização automática que respeitem esta priorjL
dade individual, dentro do contexto atual do sͣ
tema.
BIBLIOGRAFIA
1. F. W. Lancaster, Evaluation of the Medlars Demand
Search Service, Pb-178660, Washington, National Librji
ry of Medicine, (1968).
2. T. Radecki, New Approach to the Problem of Informa -
tion System Effectiveness Evaluation, Information Pr£
cessing & Management, _1_2, 319-326, (1976).
3. E. Butterly, Selective Dissemination of Information
with Special Reference to SA/INIS/SDI, Pretoria Uni-
versity (South Africa) Faculty of Arts and Philophy
(Thesis, M.Sc), 115 p., (1974).
4. D. A. Kemp, Relevance, Pertinence and Information Sys_
tem Development, Inf. Stor., Retr., H), 37-47, (1974).
5. W. Goffman e V. A. Newill, A Methodology for Test and
Evaluation of Information Retrieval System, Inf.Stor.
Retr., 2» 19-25, (1966) .
6. G. Salton, Automatic Information Organization and Re_
trieval, McGraw-Hill, (1968).
7. Inis Today, An Introduction to the International Nu -
clear Information System, IAEA (Viena), (1977).
-98-
-99-
8. A. C. Souza, Representação Sistêmica de um Serviço de
Informações Tecnico-Cientificas, 1. Reunião Brasilei-
ra de Ciência da Informação, 20 p., (1975).
9. CIN/CNEN, Documento Interno.
10. E. E. R. Araújo, Atualização de Perfis em um Sistema
de Disseminação Seletiva de Informações, Instituto M_i_
litar de Engenharia (Tese de Mestrado), 98 p., (1977).
11. C. W. Cleverdan et ai., Factors Determining the Per-
formance of Indexing Systems, As lib- Cran f ie 1 d Research
Project', Cranfield England, (1966).
12. A. E. Cawkell, A Measure of "Eficiency Factor" - Com
munication Theory Aplied to Document Selection Sys -
tems, Information Processing & Management, 11, 243-
248, (1975).
13. J. Belzer, Information Theory as a Mesure of Informa-
tion Content, JASIS, 300-304, (1973).
14. A. R. Meetham, Communication Theory and the Evalua-
tion of Information Retrieval Systems, 5_, 129 - 134 ,
(1969) .
15. C. J. Van Rijsbergen, Information Retrieval, Buther-
worths, London, (1975).
-100-
16. R. H. Wagner e T. H. Higins , A Se lec t ive Current-Awa
reness System Using Engineering Index 's P l a s t i c s Data
Base, J . Chemical Docum. , 9_, 80-88, (1969).
17. P. Leggate et a l , Evaluation of an SDI Service Based
on the Index Chemicus Registry System, JJ3, 192 - 203,
(1973) .
18. F. H. Barker, D. C. Veal e B. K. Wyatt, Towards Auto-
matic P ro f i l e Construct ion, J . Docum., 2_8, 44-55, . .
(1972) .
19. A. Robson e J . S. Lougman, Automatic Aids to P ro f i l e
Const ruct ion, JASIS, 213-223, (1976).
20. J . M. Carrol e J . M. Tague, Use of an Automatic Text
Analyzer in Prepara t ion of SDI P r o f i l e s , JASIS,24(4),
277-281, (1973).
2 1 . G. Sal ton , A. Wong e C. T. Yu, Automatic Indexing U-
sing Term Discr iminat ion and Term Prec i s ion Measure -
ments, Information Processing & Manegement, 12(1) , 43
- 5 1 , (1976).
22. J . K. Barkla, Construction of Weighted Term P r o f i l e s
by Measuring Frequency and Spec i f i c i t y in Relevant _I_
terns, Second I n t e r n a t i o n a l Cranfield Conference on Me_
chanized Information Storage and Ret r ieva l Systems ,
Cranf ie ld , Bedford, (1969).
-101-
23. C. T. Yu e G. Salton, Precision Weighting - An Effec-
tive Automatic Indexing Method, J. ACM, 2_3, 76 - 88,
(1976).
24. S. E. Robertson e K. Spark Jones, Relevance Weighting
of Search Terms, JASIS, 129-146, (1976).
T c s e apresentada por
e aprovada pelos Srs
LUIZ OTÁVIO DE FREITAS QUEIROZ
7ALTAÍR CARVALHO DE J5OUZA - MSc
/ •
•ZCzJà •y,y.
E D U A R D < V Á Í J G Í J 5 T 0 OROSC(h OArCVÃO MS c
IVAÍTO HUMBERT MARCHEZI - MS<