Fabio Oliveira Teixeira
CLASSIFICAÇÃO E INDEXAÇÃO DE ARTIGOS CIENTÍFICOS INTERNACIONAIS DE INFORMÁTICA EM SAÚDE
Tese apresentada a Universidade Federal
de São Paulo para a obtenção do título
de Mestre em Ciências.
São Paulo
2011
Fabio Oliveira Teixeira
CLASSIFICAÇÃO E INDEXAÇÃO DE ARTIGOS CIENTÍFICOS INTERNACIONAIS DE INFORMÁTICA EM SAÚDE
Tese apresentada a Universidade Federal de São
Paulo para obtenção do título de Mestre em Ciências.
Orientador: Prof. Dr. Ivan Torres Pisa
Coorientador: Prof. Dr. Luciano Vieira de Araujo
São Paulo
2011
Teixeira, Fabio Oliveira
Classificação e indexação de artigos científicos internacionais de Informática em Saúde/Fabio Oliveira Teixeira.-- São Paulo, 2011.
xii, 77f.
Tese (Mestrado) - Universidade Federal de São Paulo. Escola Paulista de Medicina. Programa de pós-graduação em Gestão e Informática em Saúde.
Título em Inglês: Classification and indexing of international scientific articles in Health Informatics
1.Informática médica. 2.Classificação 3.Teorema de Bayes 4.Resumos e Indexação como Assunto
iii
UNIVERSIDADE FEDERAL DE SÃO PAULO (UNIFESP)
ESCOLA PAULISTA DE MEDICINA (EPM)
DEPARTAMENTO DE INFORMÁTICA EM SAÚDE
Chefe do Departamento: Prof. Dr. Paulo Bandiera Paiva
Coordenadora do Curso de pós-graduação: Profa. Dra. Heimar de Fátima Marin
iv
Fabio Oliveira Teixeira
CLASSIFICAÇÃO E INDEXAÇÃO DE ARTIGOS CIENTÍFICOS INTERNACIONAIS DE INFORMÁTICA EM SAÚDE
Presidente da banca: Prof. Dr. Ivan Torres Pisa
BANCA EXAMINADORA
Prof. Dr. Evandro Eduardo Seron Ruiz
Profa. Dra. Fátima de Lourdes dos Santos Nunes Marques
Prof. Dr. Paulo Schor
Aprovada em: 03 / 10 / 2011
v
DEDICATÓRIA
A minha amada esposa, Angela Cristina Sergio Teixeira,
a meus filhos, Rafael, Melissa e Fabiano,
motivo de paixão pela vida.
vi
Agradecimentos
Esta dissertação envolveu o esforço de muitas pessoas, que dedicaram seu
tempo a fim de transmitir conhecimento, ensinamentos de vida e apoio nos momentos
de incerteza. Espero ser capaz de retribuir a ajuda que me foi doada por todos que
participaram desta importante etapa da minha vida.
Gostaria de agradecer com ênfase meu orientador Prof. Dr. Ivan Torres Pisa, pela
orientação, confiança, paciência, amizade, dedicação e exemplo profissional,
qualidades que o tornam além de um excelente professor e orientador, também um
grande amigo.
Aos amigos do grupo de pesquisa, que tive o orgulho de participar, Alex E. J.
Falcão, Amanda Reis, Anderson D. Hummel, Felipe Mancini, Fernando S. Sousa,
Frederico M. Cohrs, Gabriela Araujo, Kellen Aureliano, Roberto Baptista e Thiago M. da
Costa, compartilhamos momentos felizes, desafios, companheirismo, discussões,
churrascos, publicações e, acima de tudo, amizade.
Ao professor Doutor Luciano Vieira de Araujo, pelo acolhimento nas reuniões
promovidas na USP-Leste e pelas contribuições que me ajudaram a concluir este
trabalho.
Aos professores Dr. Paulo Bandiera Paiva, Dr. Daniel Sigulem e Profa. Dra.
Heimar F. Marin que, durante o período do meu projeto, conduziram o departamento e
a Pós-graduação com maestria.
Aos docentes, Prof. Dr. Jacques Wainer, Profa. Dra. Claudia G. N. Barsottini, Prof.
Dr. Marcio B. Amaral, Prof. Dr. Carlos J. R. Campos, Prof. Roberto M Cesar Jr (USP) e
Prof. Dr. Evaldo Oliveira (USP) pelo conhecimento transferido por meio das disciplinas
lecionadas.
Andre Mattos, Homero Visani e Michel Seller, o apoio de vocês foi fundamental
para a realização deste trabalho. Muito obrigado!
Valdice P. S. Ribeiro muito obrigado pelo apoio administrativo durante o meu
projeto.
Aos amigos Bruno Monteiro, Luciano R. Lopes, D. Ana, Luciene Amorim, Maria
Zilda de Souza que de alguma forma colaboraram com esta pesquisa.
A minha esposa Angela, que incondicionalmente me apoiou na realização deste
trabalho, com paciência e amor, dividimos igualmente o sucesso alcançado.
Agradeço também a CAPES pela bolsa de pesquisa concedida.
vii
SUMÁRIO
DEDICATÓRIA ................................................................................................................. V
SUMÁRIO ...................................................................................................................... VII
LISTA DE FIGURAS ....................................................................................................... IX
LISTA DE TABELAS ....................................................................................................... XI
LISTA DE QUADROS ................................................................................................... XIII
LISTA DE ABREVIATURAS E SÍMBOLOS ................................................................. XIV
LISTA DE PUBLICAÇÕES ............................................................................................ XV
APOIO FINANCEIRO ................................................................................................... XVI
RESUMO .................................................................................................................... XVII
ABSTRACT ................................................................................................................ XVIII
1 INTRODUÇÃO .............................................................................................................. 1
1.1 Declaração do problema ............................................................................................ 2
1.2 Estado da Arte ........................................................................................................... 3
1.3 Classificação e indexação .......................................................................................... 4
1.4 Justificativa ................................................................................................................. 5
1.5 Organização da dissertação ...................................................................................... 6
2 OBJETIVOS .................................................................................................................. 7
2.1 Objetivo 1: Classificação de artigos científicos .......................................................... 7
2.2 Objetivo 2: Indexação de artigos científicos............................................................... 7
3 MATERIAIS E MÉTODOS ............................................................................................ 8
3.1 Materiais ..................................................................................................................... 8
3.2 Métodos ..................................................................................................................... 8
3.3 Composição da base de dados avaliada ................................................................. 10
3.4 Extração de características dos artigos ................................................................... 12
3.4.1 Métodos supervisionados de extração de características .................................... 13
3.4.2 Métodos não-supervisionados de extração de características ............................. 15
viii
3.5 Classificador de padrões probabilístico ................................................................... 17
3.6 Objetivo 1: Classificação de artigos científicos ........................................................ 19
3.7 Objetivo 2: Indexação de artigos científicos............................................................. 21
3.7.1 Indexação por meio de votação e competição de técnicas .................................. 23
3.8 Medidas de desempenho aplicadas ......................................................................... 24
3.9 Análises estatísticas ................................................................................................. 28
4 RESULTADOS ............................................................................................................ 30
4.1 Objetivo 1: Classificação de artigos científicos ........................................................ 30
4.1.1 Método supervisionado de extração de características ........................................ 30
4.1.2 Método não-supervisionado de extração de características ................................. 31
4.1.3 Comparação entre os métodos de classificação .................................................. 32
4.2 Objetivo 2: Indexação de artigos científicos............................................................. 35
4.2.1 Método supervisionado de extração de características ........................................ 35
4.2.2 Métodos não-supervisionados de extração de características ............................. 36
4.2.3 Indexação por meio de votação e competição de técnicas .................................. 37
4.2.4 Comparação entre as técnicas de indexação ....................................................... 38
5 DISCUSSÃO ............................................................................................................... 40
5.1 Objetivo 1: Classificação de artigos científicos ........................................................ 40
5.2 Objetivo 2: Indexação de artigos científicos............................................................. 43
5.2.1 Distribuição das categorias após indexação ......................................................... 46
6 CONCLUSÕES ........................................................................................................... 51
6.1 Objetivo 1: Classificação de artigos científicos ........................................................ 51
6.2 Objetivo 2: Indexação de artigos científicos............................................................. 51
7 APLICAÇÕES E TRABALHOS FUTUROS ................................................................. 53
8 ANEXOS ..................................................................................................................... 54
8.1 Aprovação do Comitê de Ética em Pesquisa ........................................................... 54
9 REFERÊNCIAS ........................................................................................................... 55
ix
LISTA DE FIGURAS
Figura 1 - Crescimento do volume de publicações relacionadas à Informática em
Saúde no período de 1987 a 2006 (20 anos) (Extraído do artigo de DeShazo et al.)[2]. . 1
Figura 2 - Disciplinas que contribuem para a interdisciplinaridade da Informática em
Saúde (Figura traduzida e adaptada)[5]. ........................................................................... 2
Figura 3 - Exemplo da definição teórica de classificação e indexação abordada neste
estudo. ............................................................................................................................. 5
Figura 4 - Recursos de hardware e software utilizados no estudo. ................................ 8
Figura 5 - Ilustração do método proposto para a realização do trabalho. ....................... 9
Figura 6 - Detalhamento das etapas de construção e avaliação do classificador de
artigos científicos nos domínios estudados. .................................................................. 20
Figura 7 - Detalhamento das etapas de construção e avaliação do indexador de artigos
científicos. ...................................................................................................................... 22
Figura 8 - Resumo das análises estatísticas utilizadas no estudo. ............................... 29
Figura 9 - Comparação da medida f0,5-score para os métodos jdi e tf. ......................... 33
Figura 10 - Comparação da medida f1-score para os métodos jdi e tf. ......................... 34
Figura 11 - Comparação da medida f2-score para os métodos jdi e tf. ......................... 34
Figura 12 - Comparação gráfica entre as maiores medidas de desempenho alcançadas
pelos métodos utilizados para indexação dos artigos científicos. ................................. 39
Figura 13 - Quantidade de termos (35.484) e respectiva intersecção presente nos
conjuntos de artigos científicos dos domínios da Ciência da Computação, Informática
em Saúde e Saúde. ....................................................................................................... 41
Figura 14 - Medidas f0,5-score, f1-score e f2-score de desempenho de classificação
alcançadas com o método supervisionado JDI.............................................................. 42
Figura 15 - Comparação entre a precisão dos métodos supervisionado e não-
supervisionados em relação à indexação de artigos. .................................................... 44
Figura 16 - Comparação entre a revocação dos métodos supervisionado e não-
supervisionados em relação à indexação de artigos. .................................................... 45
Figura 17 - Distribuição dos artigos científicos e descritores em relação aos domínios
estudados, de acordo com indexação sugerida pelo Portal ISI Web of Knowledge. ..... 48
Figura 18 - Distribuição dos artigos científicos e descritores em relação aos domínios
estudados, de acordo com a indexação sugerida pelo método de competição de
técnicas. ......................................................................................................................... 49
x
Figura 19 – Exemplo de indexações sugeridas pelo portal ISI Web of Knowledge e
método que utilizou a competição de técnicas atribuídas a um artigo científico coletado
da base de dados de validação. .................................................................................... 50
xi
LISTA DE TABELAS
Tabela 1 - Categorias e respectivos valores de relevância associadas a um artigo, de
acordo com o método utilizado pelo classificador Naive Bayes. ................................... 24
Tabela 2 - Exemplicação da medida f-score por meio da variação das pontuações de
Precisão e Revocação. .................................................................................................. 26
Tabela 3 - Matriz de confusão obtida quando o método supervisionado foi utilizado para
classificar artigos. ........................................................................................................... 30
Tabela 4 - Valores de precisão, revocação e f-score obtidos quando o método
supervisionado foi utilizado para classificar artigos. ...................................................... 30
Tabela 5 - Matriz de confusão obtida quando o método não-supervisionado foi utilizado
para classificar artigos. .................................................................................................. 31
Tabela 6 - Valores de precisão, revocação e f-score obtidos quando o método não-
supervisionado foi utilizado para classificar artigos. ...................................................... 32
Tabela 7 - Quadro resumo das medidas de desempenho abordadas e maiores
pontuações de desempenho alcançadas pelas técnicas utilizadas em relação aos
domínios estudados. ...................................................................................................... 32
Tabela 8 - Valores de p calculados para identificar a diferença estatística entre os
resultados a partir do teste Chi-quadrado. ..................................................................... 33
Tabela 9 - Resultados obtidos utilizando o método supervisionado de extração de
características. ............................................................................................................... 35
Tabela 10 - Valores de significância estatística quanto à distribuição normal dos
resultados. ...................................................................................................................... 36
Tabela 11 - Resultados obtidos utilizando os métodos não-supervisionados de extração
de características. .......................................................................................................... 36
Tabela 12 - Valores de significância estatística quanto à distribuição normal dos
resultados. ...................................................................................................................... 36
Tabela 13 - Diferença estatística entre os métodos quando avaliado f-score. .............. 37
Tabela 14 - Resultados obtidos utilizando a votação e competição de técnicas. ......... 37
Tabela 15 - Valores de significância estatística quanto à distribuição normal dos
resultados. ...................................................................................................................... 38
Tabela 16 - Diferença estatística entre os métodos quando avaliados os valores f-
score. ............................................................................................................................. 38
xii
Tabela 17 - Diferença estatística entre os resultados quando avaliados os valores f-
score. ............................................................................................................................. 39
xiii
LISTA DE QUADROS
Quadro 1 - Domínios e categorias utilizadas para construção da base de dados
provenientes do portal ISI Web of Knowledge. .............................................................. 10
Quadro 2 - Revistas selecionadas para a construção da base de dados. .................... 11
Quadro 3 - Relação final das categorias que compõem a base de dados avaliada neste
estudo provenientes do portal ISI Web of Knowledge. .................................................. 12
Quadro 4 - Matriz de relevância dos 35.484 termos para as 30 categorias do portal ISI
Web of Knowledge. ........................................................................................................ 14
Quadro 5 - Matriz de características construída utilizando a técnica supervisionada
para os artigos da base de dados de treino e validação. .............................................. 15
Quadro 6 - Descrição das técnicas não-supervisionadas de extração de características.
....................................................................................................................................... 16
Quadro 7 - Matriz de características construída para o método não supervisionado. .. 17
Quadro 8 - Matriz das relevâncias entre artigos e categorias, na qual 퐴푖 foi utilizado
para representar os artigos e 퐶푗 as categorias. ............................................................. 21
Quadro 9 - Vetores de relevância associados ao artigo científico. ............................... 23
Quadro 10 - Exemplificação das medidas de precisão, revocação e f-score para a
indexação de artigos. ..................................................................................................... 28
xiv
LISTA DE ABREVIATURAS E SÍMBOLOS
bo Binary occurrence
IMIA International Medical Informatics Association IS Informática em Saúde
JDI Journal Descriptor Indexing
MeSH Medical Subject Headings
NB/JDI Classificador Naive Bayes aliado a técnica JDI.
NB/tf Classificador Naive Bayes aliado a Term frequency
NB/tf.idf Classificador Naive Bayes aliado a Term frequency inverse document frequency
NB/tf.rf Classificador Naive Bayes aliado a Term frequency inverse relevance frequency
NB/to Classificador Naive Bayes aliado a Term occurrency
STI Semantic Type Indexing
tf Term frequency
tf.idf Term frequency inverse document frequency
tf.rf Term frequency inverse relevance frequency
to Term occurrency
UMLS Unified Medical Language System
UNIFESP Universidade Federal de São Paulo
xv
LISTA DE PUBLICAÇÕES
Teixeira F, Falcão AJ, Sousa FS, Hummel AD, da Costa TM, Mancini F, et al. Similarity-
based scoring method for classification of Health Informatics content. Journal of Health
Informatics. 2011;3:35-42.
Teixeira F, Hummel AD, de Domenico EBL, Araújo LV, Pisa IT. Statistical approach for
categorizing content in Medical Informatics, Computer Science and Health Domains. In:
AMIA 2011. Washington, DC: 2011.
Teixeira F, Hummel AD, Sousa FS, Mancini F, Falcão AEJ, de Domenico EBL, et al.
Abordagem Estatística Amparada na Teoria Bayesiana para Classificação de
Conteúdos de Artigos Científicos. In: 28º Colóquio Brasileiro de Matemática IMPA, Rio
de Janeiro: 2011.
Teixeira F, Falcão AJ, Hummel AD, Mancini F, da Costa TM, Sousa FS, et al. A method
for automatic content classification in health informatics based on specialized
thesaurus. In: MedInfo 2010. Cidade do Cabo: 2010. p. 1524.
Teixeira F, Falcão AEJ, Hummel AD, Mancini F, Costa TM, Sousa FS, et al. Using a
Health Informatics Thesaurus for automatic labeling articles. In: XII Congresso
Brasileiro de Informática em Saúde. CBIS 2010. Porto de Galinhas: 2010.
Teixeira F, Colepicolo E, Mancini F, Pisa IT. EpistemIS-XML: Modelo XML para
Disseminação e Padronização de Tesauro Epistemológico de Informática em Saúde.
In: XI Congresso Brasileiro de Informática em Saúde. CBIS 2008. Campos do Jordão,
São Paulo: 2008.
xvi
APOIO FINANCEIRO
Este projeto recebeu apoio financeiro por meio da concessão da bolsa:
CAPES-REUNI entre março/2010 e fevereiro/2011.
CAPES-Demanda social entre março/2011 e setembro/2011.
xvii
RESUMO
Teixeira FO. Classificação e indexação de artigos científicos internacionais de
Informática em Saúde [tese – Mestrado]. São Paulo: Departamento de Informática em
Saúde, Escola Paulista de Medicina, Universidade Federal de São Paulo; 2011. 77f.
Objetivo: O crescimento das bibliotecas virtuais é significativo ao longo dos últimos
anos, bem como os acervos responsáveis pelo armazenamento de artigos científicos.
Este cenário requer diferentes tipos de tratamento e representação dos dados, como a
classificação e indexação automática de documentos, a fim de contribuir para uma
recuperação de informação eficiente. O objetivo deste estudo foi propor um mecanismo
automatizado para a classificação e indexação de artigos científicos sob o domínio
interdisciplinar da Informática em Saúde. Métodos: Este estudo contemplou a
construção de uma base de dados com 10.800 títulos e resumos de artigos científicos
distribuídos uniformemente entre os domínios da Informática em Saúde, Ciência da
Computação e Saúde. Foi utilizado o modelo de espaço vetorial para identificar cada
artigo, no qual os vetores de características criados foram calculados a partir das
técnicas Journal Descriptor Indexing, term frequency inverse document frequency, term
frequency, term occurrence e binary occurrence. O classificador de padrões
probabilístico Naive Bayes recebeu como parâmetro tais vetores e foi utilizado para
classificar e indexar os artigos. A avaliação foi realizada por meio da medida de
desempenho f-score, bem como suas variações em relação aos pesos atribuídos à
precisão e revocação. Testes de significância estatística foram realizados a fim de
avaliar a independência das variáveis utilizadas. Resultados: A classificação e a
indexação de artigos entre os domínios que compuseram a base de validação
alcançaram valores de f-score superiores a 80% e 70%, respectivamente.
Conclusões: Os resultados foram expostos a medidas de validação amplamente
discutidas na literatura e, embora os artigos submetidos às tarefas de classificação e
indexação, neste estudo, pertencerem a um escopo interdisciplinar, o método proposto
foi capaz de caracterizá-los de acordo com sua área de interesse, com taxas de
acertos satisfatórias.
Palavras-chave: Informática médica. Classificação. Teorema de Bayes. Resumos e Indexação como Assunto.
xviii
ABSTRACT
Teixeira FO. Classification and indexing of international scientific articles in Health
Informatics [tese – Mestrado]. São Paulo: Departamento de Informática em Saúde,
Escola Paulista de Medicina, Universidade Federal de São Paulo; 2011. 77f.
Objectives: The virtual libraries' growth is considerable in the past few years, as well
the digital repositories which are responsible to store scientific papers. This scenario
requires different treatments and representation of the data, such as automatic
document classification and indexing to contribute to efficient information retrieval. The
purpose of this study was present an automatic engine to classifying and indexing
scientific papers under interdisciplinary domain of Health Informatics. Methods: This
study included a database's construction, divided into training and validation, consisting
of articles included in Health Informatics, Computer Science, and Health domains, in
order to represent the interdisciplinary nature of the proposed job. The feature vectors
of each paper were calculated using techniques to compute the word frequency. A
probabilistic pattern classifier was applied to classify and index articles. Measures of
precision, recall, and F-score, as well statistical significance were applied to results.
Results: The articles classification and indexing between domains used to build
validation database, reached f-score values above 80% and 70%, respectively.
Conclusions: Results were faced to validation measures broadly discussed in literature
and although the articles submitted to sorting and indexing tasks, in this study, come
from interdisciplinary scope, the proposed method was able to define them according to
their interest area, with satisfactory accuracy rates.
Keywords: Medical Informatics. Classification. Bayes Theorem. Abstracting and
Indexing as Topic.
1
1 INTRODUÇÃO
A interdisciplinaridade da Informática em Saúde (IS) e a amplitude dos temas
abordados em seu contexto, que ultrapassam barreiras previamente definidas por
domínios de conhecimento, diversificando fontes de armazenamento e recuperação de
informações, dificultam caracterizá-la sob um arcabouço de termos, conceitos e limites
de atuação[1].
No entanto, esforços são destinados à identificação de conhecimento relacionado
a IS, como o trabalho de DeShazo et al [2] que recuperou artigos publicados na
biblioteca virtual Medline/Pubmed (http://www.ncbi.nlm.nih.gov/pubmed) sob a
indexação do descritor “Medical Informatics” e sua respectiva árvore, oriunda do
vocabulário controlado Medical Subject Headings (MeSH,
http://www.ncbi.nlm.nih.gov/mesh), no período de 1987 a 2006.
Os autores identificaram um crescimento exponencial do volume de publicações
ao longo dos anos, conforme pode ser visualizado na Figura 1. Em 1987 e 2006 foram
publicados 1.272 e 9.973 artigos, respectivamente, indicando um crescimento de 784%
no período avaliado.
Figura 1 - Crescimento do volume de publicações relacionadas à Informática em Saúde no período de
1987 a 2006 (20 anos) (Extraído do artigo de DeShazo et al.)[2].
2
1.1 Declaração do problema
A consequência de um domínio interdisciplinar, como o da IS, é a dificuldade para
a recuperação de informação pertinente ao seu contexto, uma vez que o conhecimento
está diluído sob diversas áreas, tais como Saúde, Ciência da Computação, Ciência da
Informação e Engenharia Biomédica[3,4].
Um estudo promovido pela International Medical Informatics Association (IMIA)
destaca as disciplinas que contribuem para a construção do domínio da IS, conforme
mostra a Figura 2, na qual o compartilhamento de métodos e ferramentas entre elas
está presente e contribui para o desenvolvimento da área e definição do seu escopo[5].
Figura 2 - Disciplinas que contribuem para a interdisciplinaridade da Informática em Saúde (Figura
traduzida e adaptada)[5].
O mapeamento e definição da IS por meio da literatura científica publicada foi
explorado por Schuemie et al.[6], no qual os mesmos utilizaram mecanismos
automatizados e técnicas de inteligência artificial para identificar tópicos relevantes,
tendências e similaridade de conteúdos entre periódicos do domínio estudado.
O estudo mencionado no parágrafo anterior fez uso de processos de recuperação
de informações que consistem em identificar em um conjunto de textos, por exemplo,
artigos científicos, quais atendem a necessidade de informação do usuário [7].
3
Tais mecanismos automatizados são necessários devido ao crescimento das
bibliotecas virtuais e a grande quantidade de artigos científicos armazenados em tal
arquitetura, dificultando os processos de classificação e indexação manual de textos.
1.2 Estado da Arte
Há um amplo corpo de conhecimento disponível na literatura referente à
classificação e indexação automática de documentos. Neste contexto, podemos citar
os trabalhos de Kastrin[8] e Vasuki[9], que utilizaram técnicas probabilísticas e
vocabulários controlados para classificar e indexar artigos científicos cujo conteúdo
estava relacionado a temas do domínio da Saúde.
Outra fonte de extrema relevância para pesquisadores interessados no tema é o
projeto Text Categorization[10], mantido pela National Library of Medicine
(http://www.nlm.nih.gov/). Baseado em vocabulários controlados, tais como Medical
Subject Headings (MeSH, http://www.ncbi.nlm.nih.gov/mesh) e Unified Medical
Language System (UMLS, http://www.nlm.nih.gov/research/umls/), tem como objetivo
indexar artigos científicos relacionados à saúde por meio da associação estatística e
semântica entre palavras e descritores. Subdivide-se em duas iniciativas denominadas
Journal Descriptor Indexing (JDI) e Semantic Type Indexing (STI) [11–15].
O método JDI foi criado a partir de 121 descritores, presentes no vocabulário
MeSH, e a relação estatística dos mesmos com palavras presentes nos títulos e
resumos de artigos científicos publicados em cerca de 4.000 periódicos do domínio da
saúde.
Por outro lado, o método STI identifica relações semânticas entre textos, por meio
do cálculo da similaridade entre vetores criados a partir de 135 tipos semânticos
oriundos da UMLS.
Os trabalhos de Zhang et al [16] e Lan [17] preocuparam-se com a tarefa de
representação dos textos, fundamental para a classificação e indexação de conteúdo.
Embora os autores não tenham direcionado seus estudos para um domínio específico,
como o da Informática em Saúde, a avaliação realizada pelos mesmos em relação às
diferentes técnicas de extração de características textuais é relevante.
4
Métodos probabilísticos aplicados a recuperação de informações foram avaliados
por Sohn et al [18] e Aiguzhinov [19], nos quais os mesmos utilizaram a teoria de decisão
bayesiana como um dos pilares para seus trabalhos.
A particularidade da avaliação dos resultados de classificadores responsáveis
pela recuperação de informações textuais é abordada nos trabalhos de Gehanno et
al[20], Magdy [7] e Radlinski [21], nos quais medidas como precisão, revocação e f-score
são analisadas.
1.3 Classificação e indexação
Uma vez que a recuperação de informação em bases textuais é amparada por
mecanismos automatizados de classificação e indexação, torna-se relevante
compreendermos a definição teórica e as diferenças entre eles.
Neste trabalho adotaremos a definição teórica de Zhang [16] e Hanson [22], que tem
como pilares questões semânticas e estatísticas. De acordo com os autores, a
classificação tem a propriedade de reunir componentes de um grupo que possuem
relação semântica entre os mesmos. Por outro lado, a indexação trata apenas da
caracterização unitária dos componentes do grupo, abstendo o relacionamento entre
eles.
A Figura 3 exemplifica a definição teórica de classificação e indexação abordada
neste estudo, na qual 6 artigos foram classificados nos grupos Informática em Saúde,
Saúde e Ciência da Computação, respeitando a relação semântica entre os mesmos.
Na mesma figura, podemos visualizar a indexação sugerida para cada artigo, por
exemplo, a categoria Inteligência artificial, que foi utilizada nos 3 grupos. Portanto, a
sua utilização considerou apenas a análise individual de cada artigo, desconsiderando
os membros do respectivo grupo.
5
Figura 3 - Exemplo da definição teórica de classificação e indexação abordada neste estudo.
A recuperação de informação lida com informações semi ou não estruturadas que
dependem de uma representação específica para que o processo de classificação ou
indexação seja executado por classificadores de padrões [16]. A criação de um modelo
de espaço vetorial [23], cuja dimensão pode ser formada pelo número de termos
presentes no conjunto de documentos avaliados, possibilita que cada texto seja
identificado numericamente por meio de técnicas que calculam a relevância de cada
termo em relação ao documento.
1.4 Justificativa
O volume de artigos armazenados em bibliotecas virtuais e o aumento substancial
do mesmo sugerem mecanismos automatizados que auxiliem a tarefa humana de
classificação, indexação e recuperação de documentos.
Especificamente para o domínio da Informática em Saúde, no qual a
interdisciplinaridade intrínseca à mesma provoca um aumento da granularidade das
fontes de publicação de conteúdo e volume de publicações[2,24], o desafio atual é
oferecer mecanismos capazes de recuperar informações de maneira eficiente neste
domínio.
Portanto, os resultados deste trabalho pretendem responder à seguinte questão:
É possível a criação de mecanismos que possam classificar e indexar conteúdos
relacionados à Informática em Saúde em diferentes fontes de publicação, como
Informática em Saúde
Inteligência artificial
Mineração de textos
Engenharia biomédica
Saúde
Inteligência artificial
Oncologia
Biologia celular
Ciência da Computação
Inteligência artificial
Engenharia de software
Mineração de textos
Classificação Classificação Classificação
Artigo indexado
Artigo indexado
Artigo indexado
Artigo indexado
Artigo indexado
Artigo indexado
6
bibliotecas virtuais de Ciência da Computação ou Saúde, impedindo que informações
relevantes sejam descartadas?
1.5 Organização da dissertação
Esta dissertação está organizada da seguinte forma:
Capítulo 1: o capítulo corrente abordou elementos que subsidiaram os objetivos
gerais e específicos do presente trabalho, no qual foram explorados tópicos como
a representatividade da Informática em Saúde na comunidade científica, bem
como conceitos introdutórios de temas relacionados à recuperação de informação
textual;
Capítulo 2: são apresentados ao leitor os objetivos gerais e específicos.
Capítulo 3: os materiais e métodos utilizados para atingir os objetivos são
descritos neste capítulo. Os materiais contam com a relação de equipamentos,
softwares e bases de dados que ampararam a sequencia de passos que
caracterizaram os métodos, nos quais foram detalhadas as técnicas e análises
estatísticas que proporcionaram alcançar os objetivos previamente definidos;
Capítulo 4: são apresentados os resultados dos experimentos realizados;
Capítulo 5: discussão e comparação dos resultados obtidos nos diferentes
experimentos realizados, conduzindo o leitor a uma reflexão sobre a eficiência
das técnicas utilizadas;
Capítulo 6: conclusões do trabalho realizado
Capítulo 7: impactos científicos e trabalhos futuros.
7
2 OBJETIVOS
O objetivo principal deste trabalho é investigar a classificação e indexação de
artigos científicos a partir de técnicas vetoriais de extração de características de textos
aliadas a um classificador probabilístico. Para tanto, os seguintes objetivos específicos
foram estabelecidos:
2.1 Objetivo 1: Classificação de artigos científicos
Investigar mecanismos de classificação automática de artigos científicos entre os
domínios da Informática em Saúde, Ciência da Computação e Saúde, amparado em
técnicas vetoriais de extração de características de textos utilizadas como parâmetro
do classificador probabilístico Naive Bayes.
2.2 Objetivo 2: Indexação de artigos científicos
Propor um método capaz de indexar artigos científicos a partir de um conjunto de
categorias pré-definidas, delimitadas pelos domínios da Informática em Saúde, Ciência
da Computação e Saúde, utilizando técnicas de extração de características como
parâmetro do classificador probabilístico Naive Bayes.
8
3 MATERIAIS E MÉTODOS
Este capítulo conta com a descrição dos materiais utilizados para a condução
desta pesquisa, bem como, dos métodos realizados para alcançar os resultados
definidos nos objetivos específicos deste trabalho.
Este estudo foi analisado e aprovado pelo Comitê de Ética em Pesquisa da
Universidade Federal de São Paulo (UNIFESP), sob o protocolo de número 0247/09
em 13 de março de 2009 (Anexo 8.1 Aprovação do Comitê de Ética em Pesquisa).
O autor declarou não haver conflito de interesse na condução dessa pesquisa.
O projeto utilizou bases de dados digitais de artigos científicos, com o objetivo de
criar métodos computacionais que não exigem a participação de voluntários. Portanto
não houve necessidade de obtenção do Termo de Consentimento Livre e Esclarecido.
3.1 Materiais
Os recursos de hardware e software utilizados neste estudo são de propriedade
do Departamento de Informática em Saúde da UNIFESP e são compartilhados entre os
pesquisadores. A Figura 4 resume os recursos utilizados.
Figura 4 - Recursos de hardware e software utilizados no estudo.
3.2 Métodos
A Figura 5 mostra o método realizado, na qual são abordadas, de forma
sequencial, as etapas necessárias para a elaboração deste trabalho. Primeiramente, os
9
esforços concentraram-se na construção da base de dados de treinamento e validação,
descritos com detalhes na seção 3.3. Uma vez construída a base de dados, esta
suportou a criação dos vetores de características dos artigos científicos, baseados em
técnicas supervisionadas e não-supervisionadas, descritas na seção 3.4. O
classificador de padrões Naive Bayes escolhido para realizar a tarefa de classificação e
indexação dos artigos, que recebeu como parâmetro os vetores de características, é
abordado na seção 3.5. As seções 3.6 e 3.7 elucidam a relação entre os métodos e os
objetivos do trabalho e, finalmente, as análises de desempenho e estatística são
expostas nas seções 3.8 e 3.9.
Figura 5 - Ilustração do método proposto para a realização do trabalho.
10
3.3 Composição da base de dados avaliada
Os dados avaliados no estudo foram coletados a partir do portal ISI Web Of
Knowledge (http://apps.isiknowledge.com), que concentra bancos de dados de
publicações científicas de diferentes domínios de conhecimento.
O escopo da coleta concentrou-se em títulos e resumos de artigos científicos do
idioma inglês, classificados sob um conjunto de categorias, relacionadas no Quadro 1 ,
associadas às revistas e disponíveis no portal utilizado.
A escolha das categorias foi arbitrária, no entanto, buscou refletir a abrangência
conceitual dos domínios de conhecimento estabelecidos neste estudo, os quais foram
Ciência da Computação, Informática em Saúde e Saúde.
O critério para seleção das categorias, utilizado neste estudo, foi similar ao
explorado por Spreckelsen et al. [24].
Quadro 1 - Domínios e categorias utilizadas para construção da base de dados provenientes do portal
ISI Web of Knowledge.
Ciência da Computação Informática em Saúde Saúde
Computer Science, Artificial Intelligence; Medical Informatics Anatomy & Morphology Computer Science, Cybernetics Biochemistry & Molecular Biology Computer Science, Hardware & Architecture Biology Computer Science, Information Systems Clinical Neurology Computer Science, Interdisciplinary Applications Medicine, Research & Experimental Computer Science, Software Engineering Microbiology Computer Science, Theory & Methods Nursing Oncology Pediatrics
Foram selecionados 10.800 artigos científicos dispostos uniformemente entre as
27 revistas relacionadas no Quadro 2 . Portanto, cada revista contribuiu com 400
artigos, que posteriormente foram subdivididos em 2 conjuntos, treino e validação, por
meio da distribuição de 75% e 25%, respectivamente. Esta subdivisão resultou em
8.100 artigos para a base de treinamento e 2.700 para a base de validação.
As revistas com maior fator de impacto foram escolhidas, no entanto, deveriam
possuir a quantidade mínima de 400 artigos publicados.
11
Quadro 2 - Revistas selecionadas para a construção da base de dados.
Domínio Revistas
Ciência da Computação
ACM COMPUTING SURVEYS ACM TRANSACTIONS ON GRAPHICS COMPUTATIONAL INTELLIGENCE IEEE TRANSACTIONS ON EVOLUTIONARY COMPUTATION IEEE TRANSACTIONS ON FUZZY SYSTEMS IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE IEEE TRANSACTIONS ON SOFTWARE ENGINEERING INTERNATIONAL JOURNAL OF COMPUTER VISION MIS QUARTERLY MIS QUARTERLY
Informática em Saúde
IEEE TRANSACTIONS ON INFORMATION TECHNOLOGY IN BIOMEDICINE INTERNATIONAL JOURNAL OF MEDICAL INFORMATICS INTERNATIONAL JOURNAL OF TECHNOLOGY ASSESSMENT IN HEALTH CARE JOURNAL OF BIOMEDICAL INFORMATICS JOURNAL OF MEDICAL INTERNET RESEARCH JOURNAL OF THE AMERICAN MEDICAL INFORMATICS ASSOCIATION MEDICAL & BIOLOGICAL ENGINEERING & COMPUTING METHODS OF INFORMATION IN MEDICINE STATISTICS IN MEDICINE
Saúde
BRAIN CA-A CANCER JOURNAL FOR CLINICIANS CELL INTERNATIONAL JOURNAL OF NURSING STUDIES JOURNAL OF ANATOMY JOURNAL OF THE AMERICAN ACADEMY OF CHILD AND ADOLESCENT PSYCHIATRY NATURE MEDICINE PLOS BIOLOGY PLOS PATHOGENS
Um fator levou a alteração da relação de categorias definidas originalmente
(Quadro 1 ) para a seleção de revistas utilizadas neste estudo: As revistas disponíveis
no portal utilizam uma ou mais categorias para sua indexação, a fim de refletir com
maior amplitude o conteúdo abordado nas mesmas.
Como exemplo, podemos utilizar o periódico Journal of the American Academy of
Child and Adolescent Psychiatry, que inicialmente foi selecionado por ser indexado pela
categoria “Pediatrics” e possuir um alto fator de impacto. No entanto, a ele estão
vinculadas outras duas categorias, “Psychiatry” e “Psychology, Developmental”, que
foram adicionadas à relação final. A nova configuração das categorias é mostrada no
Quadro 3 .
A heurística utilizada para a seleção de revistas e respectivos títulos e resumos
de artigos científicos contemplou um número significativo de exemplos. Embora haja
categorias relacionadas aos domínios estudados que não foram contempladas na
relação final (Quadro 3 ), as mesmas não comprometeram a generalidade dos
experimentos executados.
12
Quadro 3 - Relação final das categorias que compõem a base de dados avaliada neste estudo
provenientes do portal ISI Web of Knowledge.
Domínios
Ciência da Computação Informática em Saúde Saúde
Computer Science, Artificial Intelligence Computer Science, Information Systems Anatomy & Morphology
Computer Science, Information Systems
Computer Science, Interdisciplinary Applications Biochemistry & Molecular Biology
Computer Science, Software Engineering Engineering, Biomedical Biology
Computer Science, Theory & Methods Health Care Sciences & Services Cell Biology
Engineering, Electrical & Electronic Information Science & Library Science Clinical Neurology
Information Science & Library Science Mathematical & Computational Biology Infectious Diseases
Management Medical Informatics Medicine, Research & Experimental
Medicine, Research & Experimental Microbiology
Public, Environmental & Occupational Health Neurosciences
Statistics & Probability Nursing
Oncology
Parasitology
Pediatrics
Psychiatry
Psychology, Developmental
Virology
3.4 Extração de características dos artigos
O processo de classificação e indexação de artigos foi composto, além da
construção da base de dados a ser avaliada, pela transformação dos documentos
textuais em vetores numéricos, capazes de representá-los de maneira unívoca [16].
O modelo de espaço vetorial é um dos métodos amplamente utilizados pela
comunidade científica para tal representação [25]. Nele, um documento é representado
como um vetor, formado por um conjunto de termos representados pela expressão
푑 = 푤 , ,⋯ ,푤 , , na qual 푘 é o tamanho do conjunto de termos da base de dados e
푤 , é a importância do termo em relação ao documento.
Este estudo utilizou 35.484 termos para compor a dimensão dos vetores
numéricos que identificaram os artigos. A origem dos termos se deu a partir das
13
palavras únicas presentes nos títulos e resumos dos artigos que compuseram a base
de dados.
Para alcançar o número total de termos utilizados foram executados
processamentos preliminares, como:
1. Remoção de palavras presentes em uma lista de stopwords [26].
2. Aplicação de stemming [27] para cada palavra.
O processo de remoção de stopwords conta com a identificação, nos textos da
base de dados, de pronomes, conjunções, preposições e artigos que são irrelevantes
para a tarefa de classificação ou indexação. Este trabalho utilizou a lista de stopwords
disponível na ferramenta RapidMiner (http://rapid-i.com), utilizada para a mineração dos
textos. O stemming das palavras refere-se à redução das mesmas a sua raiz
morfológica, por meio da eliminação de prefixos e sufixos.
O modelo de espaço vetorial pode ser construído utilizando técnicas
supervisionadas ou não-supervisionadas, que serão detalhadas nas subseções
seguintes.
3.4.1 Métodos supervisionados de extração de características
A utilização de conhecimento prévio, no qual o conjunto de termos está
relacionado a um determinado grupo ou categoria, caracteriza o método
supervisionado de extração de características.
As técnicas supervisionadas presentes neste método utilizam, por exemplo, a
categoria dos documentos, associadas aos mesmos pelo portal ISI Web of Knowledge,
como um denominador para o cálculo da relevância dos termos.
O trabalho de Lan [17] apresentou a técnica term frequency inverse relevance
frequency (tf.rf) e comparou-a com as alternativas não-supervisionadas, detalhadas na
subseção seguinte, e obteve, em alguns cenários, resultados superiores de
classificação de textos.
Outra técnica caracterizada pela característica supervisionada é o Journal
Descriptor Indexing (JDI) [11–15], na qual os títulos e resumos dos artigos da base de
dados de treino “herdam” a categoria atribuída às revistas que os publicaram.
14
A Equação 1 mostra o cálculo utilizado pelo método JDI para obter a pontuação
de relevância dos termos em relação à categoria avaliada, que pode variar entre 0 e 1,
sendo os valores próximos de 1 os mais relevantes.
Na equação, o numerador 푛 , representa a soma do número de artigos nos quais
o termo 푡 co-ocorre com a categoria 푐 , que indexou a revista e o artigo, por meio da
relação de herança. O parâmetro 푗: 푡 ∈ 푑 expressa a soma do número de artigos
nos quais o termo 푡 ocorre independentemente da indexação herdada da revista.
퐽퐷퐼 , =푛 ,
푗: 푡 ∈ 푑
Equação 1 - Método JDI para extração de características dos documentos.
Neste estudo, cada termo da base de dados de treinamento foi associado a um
vetor, cuja dimensão foi definida pelo número de categorias relacionadas no Quadro 3
(página 12). Os elementos de tal vetor armazenaram o valor de relevância do termo em
relação à respectiva categoria.
O Quadro 4 mostra a matriz construída após o cálculo expresso na Equação 1
para o conjunto de termos da base de treinamento avaliada, cujo número de elementos
foi igual a 35.484.
Quadro 4 - Matriz de relevância dos 35.484 termos para as 30 categorias do portal ISI Web of
Knowledge.
푡 푡 ... 푡 퐶 퐽퐷퐼 , 퐽퐷퐼 , ... 퐽퐷퐼 ,
퐶 퐽퐷퐼 , 퐽퐷퐼 , ... 퐽퐷퐼 ,
... ... ... ... ...
퐶 퐽퐷퐼 , 퐽퐷퐼 , ... 퐽퐷퐼 ,
Para a construção do vetor de características de cada artigo das bases de dados
de treinamento e validação foi calculada a média aritmética da relevância dos termos,
presentes nos respectivos títulos e resumos dos artigos, em relação às categorias
avaliadas no estudo.
Cada dimensão de tal vetor foi obtida por meio da fórmula expressa na Equação
2, na qual ∑ 퐽퐷퐼 ,. representa o somatório dos valores de relevância dos termos,
presentes no título e resumo do artigo avaliado, em relação a uma determinada
15
categoria. O parâmetro ∑1, 푠푒 퐽퐷퐼 , > 00, 푠푒 퐽퐷퐼 , = 0 , da mesma equação, é o somatório da
quantidade de termos associados à categoria avaliada.
O Quadro 5 mostra a matriz de características construída para os artigos das
bases de dados de treino e validação. As linhas de tal matriz, representadas pelo vetor
multidimensional 푆 , , armazenam os valores de relevância das categorias em relação
aos artigos, cuja dimensão se limitou ao número de categorias avaliadas.
푆,
∑ ,.
∑, ,, ,
Equação 2 - Média aritmética dos termos em relação às categorias.
Quadro 5 - Matriz de características construída utilizando a técnica supervisionada para os artigos da
base de dados de treino e validação.
퐶 퐶 ... 퐶
퐴 푆 , 푆 , ... 푆 ,
퐴 푆 , 푆 , ... 푆 ,
... ... ... ... ...
퐴 푆 , 푆 , ... 푆 ,
Este método foi explorado nos experimentos deste estudo e comparado com as
técnicas não-supervisionadas de extração de características que serão apresentadas a
seguir.
3.4.2 Métodos não-supervisionados de extração de características
As técnicas tradicionais term frequency (tf), binary occurrence (bo), term
occurrence (to) e term frequency inverse document frequency (tf.idf) [28] caracterizam o
método não-supervisionado, uma vez que o cálculo da relevância é realizado sem
considerar classificações previamente estabelecidas.
A descrição de cada técnica, bem como suas restrições, é mostrada no Quadro 6
.
16
Quadro 6 - Descrição das técnicas não-supervisionadas de extração de características.
Técnica Descrição
푡푓 Dado um documento, a técnica calcula a divisão entre o nº de ocorrências de um determinado termo e a quantidade de termos existentes no mesmo documento.
푏표 Dado o conjunto de termos de um documento, a técnica indica a presença ou não de um determinado termo no mesmo.
푡표 Esta técnica utiliza a quantidade de vezes que um termo ocorreu em documento para compor o vetor de características do mesmo. Não ocorre a divisão pela quantidade de termos do documento avaliado, como na técnica tf.
푡푓. 푖푑푓 Esta técnica explora a relação entre a quantidade de vezes que um termo ocorre em um documento e a ocorrência do mesmo em todos os documentos avaliados.
A Equação 3, Equação 4, Equação 5 e Equação 6 ilustram os técnicas abordadas
nesta subseção, nas quais 푛 , é o número de ocorrências de um determinado termo
em um documento, ∑ 푛 , representa a quantidade de termos do documento, |퐷| é a
quantidade de documentos avaliados e 푗: 푡 ∈ 푑 é o número de documentos nos
quais o termo 푡 ocorre.
푡푓 , =푛 ,
∑ 푛 ,
Equação 3 - Term frequency (tf)
푏표 , =1, 푡푓 , > 00, 푡푓 , = 0
Equação 4 - Binary occurrence (bo)
푡표 , = 푛 ,
Equação 5 - Term occurrence (to)
푡푓. 푖푑푓 , = 푡푓 × log|퐷|
푗: 푡 ∈ 푑
Equação 6 - Term frequency inverse document frequency (tf.idf)
A matriz de características construída para cada técnica abordada nesta seção é
mostrada no Quadro 7 .
A dimensão de tal matriz foi composta pela quantidade de termos
푡 e artigos 퐴 encontrados na base de dados avaliada neste estudo. Cada elemento
do vetor multidimensional 푁푆 , armazenou o cálculo da relevância, que variou entre 0
17
e 1, de cada termo em relação aos artigos, de acordo com a respectiva técnica de
extração de características utilizada e expressa nas equações abordadas nesta
subseção.
Quadro 7 - Matriz de características construída para o método não supervisionado.
푡 푡 ... 푡 .
퐴 푁푆 , 푁푆 , ... 푁푆 , .
퐴 푁푆 , 푁푆 , ... 푁푆 , .
... ... ... ...
퐴 . 푁푆 . , 푁푆 . , ... 푁푆 . , .
3.5 Classificador de padrões probabilístico
A variedade de classificadores disponíveis na literatura é substancial, dentre eles
podemos citar as Artificial Neural Networks [29], Support Vector Machines [30], K-nearest
neighbours [31], Decision Trees [32] e Naive bayes [33]. Os exemplos citados reúnem um
pequeno número de opções disponíveis e sua aplicação depende do tipo de problema
enfrentado pelo pesquisador.
De acordo com a subdivisão proposta por Theodoridis [34], podemos agrupar os
classificadores em probabilísticos, lineares e não lineares.
Dentre os classificadores probabilísticos destacam-se àqueles baseados na teoria
de decisão bayesiana, como o Naive bayes. A premissa deste grupo concentra-se na
natureza da distribuição estatística dos atributos dos exemplos a serem classificados.
O grupo dos classificadores lineares, como as Support Vector Machines, ampara-
se em funções polinomiais de primeiro grau. Neste caso, a densidade probabilística dos
dados ou funções de probabilidade utilizadas pelo grupo citado no parágrafo anterior
não são consideradas.
Finalmente, podemos citar as Decision Trees e Artificial Neural Networks como
representantes do grupo de classificadores não lineares. Este grupo poderá ser útil
quando os limites das classes não puderem ser definidos por meio de probabilidades
ou funções lineares.
Este estudo concentrou-se na aplicação do classificador Naive Bayes e na sua
variação denominada Multinomial [33], que permite capturar o cálculo da relevância dos
termos. A escolha baseou-se na simplicidade do método e na sua eficiência para a
18
tarefa supervisionada de classificação e indexação de textos, comprovada, ao longo
dos anos, por meio de estudos científicos [18,35–38].
Uma vez criadas as matrizes de características dos documentos que compõem a
base de treino, as mesmas foram apresentadas como parâmetro de entrada do
classificador de padrões probabilístico Naive Bayes, a fim de realizar as tarefas de
classificação e indexação dos artigos que compuseram a porção de validação da base
de dados utilizada nos experimentos deste projeto.
O classificador Naive Bayes assume que os termos que compõem a base de
dados são independentes e, portanto, o adjetivo naive, “ingênuo” em português, é
atribuído a fim de considerar que a premissa da independência não ocorre, por
exemplo, ao avaliarmos a semântica de um texto.
O modelo bayesiano utilizado neste estudo é fundamentado na teoria das
probabilidades [39], regida pela Equação 7.
푃(퐶 = 푐 |푋 = 푥) = 푃(퐶 = 푐 ) ×푃(푋 = 푥|퐶 = 푐 )
푃(푥)
na qual,
푃(푋 = 푥) = 푃(푋 = 푥|퐶 = 푐 ´) × 푃(퐶 = 푐 ´)´
Equação 7 - Teorema de probabilidade de Bayes (a).
O denominador 푃(푥) representa o somatório da probabilidade de todos os
eventos possíveis. Neste estudo, significa documentos pertencerem a uma
determinada classe 푐 , … , 푐 , … , 푐 . O parâmetro 푋 reúne o conjunto de
características de um documento, 푥 = 푥 , … , 푥 , … , 푥 .
O numerador 푃(푋 = 푥|퐶 = 푐 ) é obtido considerando a premissa da
independência das características dos documentos, na qual os elementos contidos no
vetor 푥 são estatisticamente independentes. A Equação 8 apresenta este cálculo.
푃(푋 = 푥|퐶 = 푐 ) = 푃 푥 푐
Equação 8 - Teorema de probabilidade de Bayes (b).
19
Portanto, 푃(퐶 = 푐 |푋 = 푥) é a probabilidade condicional de um determinado
documento em pertencer a uma classe, uma vez que o vetor de características 푥 é
conhecido.
Os valores presentes nos conjuntos de características dos documentos, variável
푋, foram obtidos pelas técnicas de extração abordadas na seção 3.4 e submetidos ao
classificador de padrões probabilístico definido neste estudo.
3.6 Objetivo 1: Classificação de artigos científicos
Um dos objetivos específicos deste estudo concentra-se na classificação de
artigos científicos entre os domínios da Informática em Saúde, Ciência da Computação
e Saúde.
Os artigos do subconjunto de treinamento, bem como seus respectivos vetores de
características, foram apresentados ao classificador de padrões definido na seção 3.5,
a fim de se realizar um treinamento supervisionado dos dados [40].
Os vetores de características dos artigos destinados à validação foram
submetidos à classificação e rotulados automaticamente em um dos 3 domínios
estudados.
Foram comparadas cinco estratégias de classificação, baseadas no tipo de
extração de características discutidas na seção 3.4. A Figura 6 detalha o processo de
construção do classificador para cada técnica utilizada.
20
Figura 6 - Detalhamento das etapas de construção e avaliação do classificador de artigos científicos nos domínios estudados.
Validação
Treino JDI
Treino Treino Treino Treino
Treino Treino Treino Treino Validação tf.idf
to
bo
tf
Classificador NB/JDI
Classificador NB/tf.idf
Classificador NB/to
Classificador NB/bo
Classificador NB/tf
Classificadores treinados Vetores de características
Avaliação dos classificadores
Domínios Informática em Saúde Ciência da Computação Saúde
Artigos
Treino
1 2 3
4
21
3.7 Objetivo 2: Indexação de artigos científicos
O segundo objetivo específico deste trabalho utiliza as categorias listadas no
Quadro 3 (página 12) para indexar, de acordo com sua relevância, cada artigo científico
presente na base de dados de validação.
Portanto, o classificador de padrões treinado, por meio dos vetores de
características dos artigos da base de treinamento, foi capaz de associar a cada artigo
científico 퐴 , do subconjunto de validação composto por 2.700 documentos, 30
elementos do vetor 푅, que armazenaram as relevâncias das Categorias 퐶 em relação
aos artigos, conforme mostra a matriz ilustrada no Quadro 8 .
Quadro 8 - Matriz das relevâncias entre artigos e categorias, na qual 퐴 foi utilizado para representar os
artigos e 퐶 as categorias.
퐶 퐶 ... 퐶 퐶
퐴 푅 , 푅 ,
퐴 푅 , 푅 ,
...
... ...
퐴 . 푅 . , 푅 . ,
퐴 . 푅 . , 푅 . ,
Os elementos do vetor 푅, que foi associado a cada artigo científico da base de
dados de validação, foram ordenados de maneira decrescente, na qual as categorias
com maior valor de relevância ocuparam as primeiras posições do vetor.
A Figura 7 detalha o processo de construção do classificador responsável pela
atribuição de categorias aos artigos científicos.
Foram comparadas 5 estratégias de indexação, de acordo com as técnicas de
extração de características discutidas na seção 3.4 (página 12).
22
Figura 7 - Detalhamento das etapas de construção e avaliação do indexador de artigos científicos.
Validação
Treino JDI
Treino Treino Treino Treino
Treino Treino Treino Treino Validação tf.idf
to
bo
tf
Classificador NB/JDI
Classificador NB/tf.idf
Classificador NB/to
Classificador NB/bo
Classificador NB/tf
Classificadores treinados Vetores de características
Avaliação dos classificadores
퐶푎푡푒푔표푟푖푎 , 퐶푎푡푒푔표푟푖푎 , ⋯, 퐶푎푡푒푔표푟푖푎 , 퐶푎푡푒푔표푟푖푎
Artigos
Treino
1 2 3
4
퐶푎푡푒푔표푟푖푎 , 퐶푎푡푒푔표푟푖푎 , ⋯, 퐶푎푡푒푔표푟푖푎 , 퐶푎푡푒푔표푟푖푎
⋮
23
3.7.1 Indexação por meio de votação e competição de técnicas
O segundo objetivo específico do estudo também explorou a eficiência da
indexação de artigos científicos quando diferentes técnicas de extração de
características foram utilizadas, em conjunto, para realizar tal tarefa.
O Quadro 9 mostra a análise de um artigo (퐴 ) da base de dados de validação
após a atribuição dos vetores ordenados de relevância das categorias, criados a partir
de cada técnica oriunda dos métodos supervisionado e não-supervisionado que
alimentaram os parâmetros de entrada do classificador Naive Bayes.
Foram considerados os vetores 푅 de cada artigo científico, conforme mostrado no
Quadro 9 , resultantes da aplicação do classificador de acordo com as técnicas de
extração de características abordadas, para propor a indexação final do mesmo.
A indexação por meio de votação considerou o índice do vetor e a ocorrência das
categorias para determinar a indexação dos artigos científicos. Dado o artigo 퐴 , na
qual a posição 푗 = 1 dos vetores 푅 , , 푅 , e 푅 ,. estão associadas à categoria “A” e,
na mesma posição 푗 = 1, os vetores 푅 , e 푅 ,. estão associados à categoria “B”, foi
considerada a categoria “A” como sugestão final para a indexação do artigo científico
nesta posição de relevância, uma vez que a mesma possui o maior número de
ocorrências. Nos casos em que não houve predominância de uma determinada
categoria foi considerada a que apresentou a maior pontuação de relevância.
A Competição de técnicas utilizou a maior pontuação de relevância atribuída à
posição do vetor e sua respectiva categoria para compor a indexação final do artigo.
Quadro 9 - Vetores de relevância associados ao artigo científico.
퐴
푅 , 푅 , 푅 , 푅 , 푅 ,.
푅 , 푅 , 푅 , 푅 , 푅 ,.
⋯ ⋯ ⋯ ⋯ ⋯
푅 , 푅 , 푅 , 푅 , 푅 ,.
24
A Tabela 1 foi utilizada para exemplificar a aplicação dos métodos, abordados
nesta subseção, a um determinado artigo. Nesta tabela, as letras de A a G foram
utilizadas para representar as categorias, os valores à direita de cada letra indicam a
pontuação de relevância da categoria em relação ao artigo científico, de acordo com a
técnica utilizada pelo classificador Naive Bayes.
Portanto, a indexação por meio de votação atribuiu ao artigo exemplo, de acordo
com a tabela, as categorias A, D, F, C e B como sugestão de indexação final, pois foi
contabilizada uma maior ocorrência das mesmas em sua respectiva posição de
relevância. O exemplo mostra que a categoria A foi sugerida por 3 das 5 técnicas
possíveis para a indexação da primeira posição de relevância em relação ao artigo
científico. Por outro lado, a lista final definida pela competição de técnicas foi C, B, F, G
e E, uma vez que as mesmas foram associadas às maiores pontuações de relevância
nas posições avaliadas dos vetores criados a partir das técnicas.
Tabela 1 - Categorias e respectivos valores de relevância associadas a um artigo, de acordo com o
método utilizado pelo classificador Naive Bayes.
Posição do vetor NB/JDI NB/tf.idf NB/tf NB/to NB/bo
1 A = 0,97 C = 0,99 E = 0,23 A = 0,75 A = 0,55 2 B = 0,90 D = 0,82 A = 0,18 D = 0,74 D = 0,50 3 F = 0,85 G = 0,60 F = 0,15 F = 0,62 F = 0,42 4 G = 0,70 A = 0,50 B = 0,14 C = 0,63 C = 0,30 5 C = 0,42 E = 0,44 C = 0,12 B = 0,43 B = 0,18
3.8 Medidas de desempenho aplicadas
Medidas convencionais de desempenho como precisão, revocação e f-score [20]
foram aplicadas aos resultados obtidos por meio do classificador de padrões construído
para os experimentos e suas respectivas variações nos parâmetros de entrada.
A precisão é definida pela razão entre exemplos classificados corretamente,
representado pelo parâmetro 푡 (true positive ou, em português, verdadeiros positivos)
presente no numerador da Equação 9, e todos aqueles que foram associados a uma
determinada classe pelo mecanismo avaliado, representado pelo denominador da
mesma equação, que calcula a soma entre 푡 e 푓 (false positive ou, em português,
falsos positivos).
25
푃 = 푡
푡 + 푓
Equação 9 - Cálculo da precisão.
A revocação é obtida por meio de todos os exemplos classificados corretamente,
representado pelo parâmetro 푡 presente no numerador da Equação 10, e todos
aqueles que deveriam ter sido associados a uma determinada classe pelo mecanismo
avaliado, representado pelo denominador da mesma equação, que calcula a soma
entre 푡 e 푓 (false negative ou, em português, falsos negativos).
푅 = 푡
푡 + 푓
Equação 10 - Cálculo da revocação.
O f-score [7], por sua vez, é uma medida harmônica entre Precisão e Revocação,
regida pela Equação 11, na qual 푃 e 푅 representam os valores de Precisão e
Revocação, respectivamente, e 훽 é um parâmetro de ponderação da Revocação em
relação à Precisão, determinando a importância da mesma para o sistema de
recuperação de informação avaliado. Neste estudo, os experimentos utilizaram três
variações para o parâmetro 훽, sendo 0.5, 2 e 1, que determinaram maior importância à
Precisão, Revocação e pesos iguais, respectivamente, aos parâmetros utilizados na
fórmula.
퐹 − 푠푐표푟푒 =(1 + 훽 ) ∗ (푃 ∗ 푅)
훽 ∗ 푃 + 푅
Equação 11 - Medida f-score.
Para exemplificar o cálculo da Equação 11 a Tabela 2 foi utilizada, na qual as
medidas de Precisão e Revocação alternaram os valores de 0,75 e 0,85,
respectivamente. Observa-se na coluna f-score1, que embora haja alternância nos
valores, o parâmetro 훽 igual a 1 garantiu pesos iguais à medida, atribuindo a mesma
pontuação (0,80) para variações equivalentes. Quando o peso da Revocação em
relação à Precisão é considerado, o balanceamento dos resultados também pode ser
observado na tabela.
26
Tabela 2 - Exemplicação da medida f-score por meio da variação das pontuações de Precisão e
Revocação.
Precisão Revocação f-score0,5 f-score1 f-score2 0,75 0,85 0,77 0,80 0,83 0,85 0,75 0,83 0,80 0,77
Uma variação das medidas de desempenho mencionadas no parágrafo anterior
foi utilizada para avaliar o classificador construído quanto à indexação de artigos
científicos, uma vez que a pontuação de relevância da categoria em relação aos
mesmos foi considerada [41].
A Equação 12, Equação 13 e Equação 14 mostram os cálculos da Precisão,
Revocação e f-score, respectivamente, utilizados quando um determinado intervalo 푘
de categorias, associadas pelo classificador a cada artigo 퐴 de acordo com sua
pontuação de relevância, representado pelo parâmetro 푅 , , foi utilizado para
determinar se a indexação sugerida pelo classificador foi correta.
Neste estudo, o intervalo de categorias foi avaliado apenas para o valor de 푘 igual
a 5. A escolha deste valor respeitou a quantidade máxima de categorias associadas
pelo Portal ISI Web of Knowledge aos artigos que compuseram a base de dados
utilizada nos experimentos.
A indexação de textos por meio do cálculo da relevância de índices também foi
explorado por Radlinski e Craswell [21], quando os mesmos avaliaram páginas web
retornadas a partir de consultas submetidas a um buscador.
푃@푘 =1
|퐶|∑ 푅푒푙푒푣푎푛푡푒푠 푒 푅푒푡표푟푛푎푑표푠 푅 ,
∑ 푅푒푡표푟푛푎푑표푠 푅 ,
Equação 12 - Precisão baseada em intervalo de avaliação.
푅@푘 =1
|퐶|∑ 푅푒푙푒푣푎푛푡푒푠 푒 푅푒푡표푟푛푎푑표푠 푅 ,
∑ 푅푒푙푒푣푎푛푡푒푠 푅 ,
Equação 13 - Revocação baseada em intervalo de avaliação.
퐹@푘 =(1 + 훽 ) ∗ (푃@푘 ∗ 푅@푘)
훽 ∗ 푃@푘 + 푅@푘
Equação 14 - F-score baseado em intervalo de avaliação.
27
O Quadro 10 foi utilizado para exemplificar os cálculos da Precisão, Revocação e
f-score, quando um intervalo 푘 de categorias foi considerado. Na primeira coluna deste
quadro, os artigos A, B, C e E exemplificam a indexação proposta pelo Portal ISI Web
of Knowledge, por meio da categoria “Statistics & Probability”. A coluna central reúne
os artigos A, C e D, nos quais a categoria “Statistics & Probability” foi associada pelo
classificador automatizado, representado pelo parâmetro ∑ 푅푒푡표푟푛푎푑표푠 푅 , na
Equação 12, considerando que a relevância da categoria em relação aos artigos pode
variar entre a primeira e quinta posição. De acordo com a indexação sugerida no
exemplo pelo Portal, disposta na primeira coluna do Quadro 10 , apenas 2 artigos, A e
C, desta associação automatizada foram categorizados corretamente, os quais foram
identificados como “verdadeiros positivos” na coluna central e alimentam o parâmetro
∑ 푅푒푙푒푣푎푛푡푒푠 푒 푅푒푡표푟푛푎푑표푠 푅 , das equações Equação 12 e Equação 13. O
artigo D, embora tenha sido indexado pelo mecanismo automatizado sob a categoria
“Statistics & Probability”, não alimenta o numerador das equações, uma vez que não foi
originalmente indexado pelo Portal sob a categoria avaliada. Portanto, obtivemos uma
precisão para esta categoria de 0,67.
Para a Revocação, o parâmetro ∑ 푅푒푙푒푣푎푛푡푒푠 푅 , expressa a quantidade de
artigos que deveriam ser retornados pelo classificador, no exemplo, estes foram
representados pelas letras A, B, C e E, que originalmente foram indexados pelo Portal
sob a categoria “Statistics & Probability”. Assumindo o intervalo 푘 de relevâncias das
categorias associadas aos artigos pelo mecanismo automatizado, esta medida assumiu
o valor de 0,50.
Uma vez calculadas as médias aritméticas da Precisão e Revocação das
categorias avaliadas no estudo, é possível, portanto, realizar o cálculo da medida f-
score demonstrada na Equação 14.
28
Quadro 10 - Exemplificação das medidas de precisão, revocação e f-score para a indexação de artigos.
Categoria: Statistics & Probability
Portal ISI Web of Knowledge
Classificador Automatizado Relevância 1ª a 5ª posição
Classificador Automatizado Relevância 6ª a 30ª posição
Artigo A Artigo A (verdadeiro positivo) (1º posição)
Artigo B Artigo B (falso negativo) (8º posição)
Artigo C Artigo C (verdadeiro positivo) (3º posição)
Artigo D (falso positivo) (5º posição)
Artigo E Artigo E (falso negativo) (15º posição)
Artigo F (verdadeiro negativo) (6º posição)
Foram utilizadas duas classes de medidas, que avaliaram o desempenho do
classificador quanto a:
Classificação automática de artigos científicos entre os domínios da Saúde,
Informática em Saúde e Ciência da Computação.
Indexação automática de artigos científicos de acordo com a lista de
categorias definidas no estudo e ordem de relevância das mesmas
atribuídas pelo classificador de padrões.
3.9 Análises estatísticas
A análise da independência dos diferentes resultados alcançados pelas
combinações de parâmetros apresentadas ao classificador foi realizada por meio dos
testes Chi-quadrado [42], ao avaliarmos os resultados da classificação de artigos
científicos, e Wilcoxon signed-rank [43] e T pareado [44], quando a indexação foi o foco
da análise.
A restrição da distribuição normal das variáveis avaliadas, exigida pelo teste T
pareado, foi constatada pelo teste estatístico Shapiro-Wilk [45].
A escolha do teste Chi-quadrado se deu devido à característica categórica das
variáveis avaliadas, uma vez que a classificação dos artigos obteve dois valores, certo
ou errado. O teste avaliou o número de exemplos classificados corretamente entre
pares de estratégias de classificação, constatando a independência das mesmas.
Os testes T pareado e Wilcoxon signed-rank verificaram valores médios de acerto
entre os grupos avaliados quanto à indexação de artigos científicos. A opção pareada
de tais testes foi considerada a fim de realizar a correspondência de exemplos entre as
estratégias propostas.
29
A hipótese nula dos testes considerou que a diferença média entre os grupos foi
igual a zero. Portanto, valores de p < 0,05 (95% de confiança) rejeitaram tal hipótese.
A Figura 8 resume as análises estatísticas utilizadas no estudo de acordo com os
objetivos previamente definidos.
Figura 8 - Resumo das análises estatísticas utilizadas no estudo.
Classificação Dados categóricos
Exemplos independentes Chi-quadrado
Indexação Dados contínuos Exemplos pareados
Teste t pareado† ou Wilcoxon signed-
rank‡
† Teste paramétrico ‡ Teste não-paramétrico
Objetivo 2
Objetivo 1
30
4 RESULTADOS
A apresentação dos resultados obtidos neste estudo foi dividida em 2 partes, de
acordo com os objetivos previamente definidos. Primeiramente foram apresentados os
resultados da classificação de artigos científicos entre os domínios da Ciência da
Computação, Informática em Saúde e Saúde, presentes na seção 4.1. Finalmente, os
resultados quanto à categorização automática de artigos foi abordada na seção 4.2.
4.1 Objetivo 1: Classificação de artigos científicos
Os resultados da classificação automática de artigos científicos entre os domínios
da Ciência da Computação, Informática em Saúde e Saúde são explorados nesta
seção, bem como as estratégias de extração de características dos documentos
utilizadas como parâmetro de entrada do classificador de padrões.
4.1.1 Método supervisionado de extração de características
A matriz de confusão e o desempenho do classificador quando a extração de
características dos documentos utilizou o método supervisionado, por meio da técnica
JDI, são mostrados na Tabela 3 e Tabela 4 , respectivamente.
Tabela 3 - Matriz de confusão obtida quando o método supervisionado foi utilizado para classificar
artigos.
Técnica Classes Verdadeiro positivo
Verdadeiro negativo
Falso positivo
Falso negativo
JDI
Ciência da Computação 604 (27%) 1511 (67%) 115 (5%) 34 (2%)
Informática em Saúde 681 (30%) 1312 (58%) 123 (5%) 148 (7%)
Saúde 706 (31%) 1432 (63%) 35 (2%) 91 (4%)
Tabela 4 - Valores de precisão, revocação e f-score obtidos quando o método supervisionado foi
utilizado para classificar artigos.
f-score
Técnica Classes Precisão Revocação 0,5 1 2
JDI
Ciência da Computação 0,84 0,95 0,86 0,89 0,92
Informática em Saúde 0,85 0,82 0,84 0,83 0,83
Saúde 0,95 0,89 0,94 0,92 0,90
31
4.1.2 Método não-supervisionado de extração de características
Os resultados obtidos quando as técnicas oriundas do método não-
supervisionado de extração de características foram utilizadas como parâmetro de
entrada do classificador de padrões são mostradas na Tabela 5 e Tabela 6 , por meio
da matriz de confusão e medidas de desempenho, respectivamente.
Os maiores valores de desempenho da medida f-score foram marcados com o
caractere “*” na Tabela 6 .
Observa-se que o método tf concentra 78% dos melhores resultados, como
mostra a Tabela 7 , criada a partir das maiores pontuações de desempenho alcançadas
pelas técnicas utilizadas em relação aos domínios estudados.
Tabela 5 - Matriz de confusão obtida quando o método não-supervisionado foi utilizado para classificar
artigos.
Técnica Classes Verdadeiro positivo
Verdadeiro negativo
Falso positivo
Falso negativo
tf.idf Ciência da Computação 537 (24%) 1533 (68%) 93 (4%) 101 (4%) Informática em Saúde 690 (30%) 1198 (53%) 237 (10%) 139 (6%) Saúde 634 (28%) 1394 (62%) 73 (3%) 163 (7%)
tf Ciência da Computação 555 (25%) 1552 (69%) 74 (3%) 83 (4%) Informática em Saúde 709 (31%) 1206 (53%) 229 (10%) 120 (5%) Saúde 637 (28%) 1407 (62%) 60 (3%) 160 (7%)
to Ciência da Computação 532 (23%) 1527 (67%) 99 (4%) 106 (5%) Informática em Saúde 675 (30%) 1204 (53%) 231 (10%) 154 (7%) Saúde 621 (27%) 1361 (60%) 106 (5%) 176 (8%)
bo Ciência da Computação 555 (25%) 1527 (67%) 99 (4%) 83 (4%) Informática em Saúde 697 (31%) 1220 (54%) 215 (9%) 132 (6%) Saúde 622 (27%) 1391 (61%) 76 (3%) 175 (8%)
32
Tabela 6 - Valores de precisão, revocação e f-score obtidos quando o método não-supervisionado foi
utilizado para classificar artigos.
F-score
Técnica Classes Precisão Revocação 0,5 1 2
tf.idf
Ciência da Computação 0,85 0,84 0,85 0,85 0,84
Informática em Saúde 0,74 0,83 0,76 0,79 0,81
Saúde 0,90 0,80 0,87 0,84 0,81
tf
Ciência da Computação 0,88 0,87 0,88* 0,88* 0,87*
Informática em Saúde 0,76 0,86 0,77 0,80* 0,83*
Saúde 0,91 0,80 0,89* 0,85* 0,82
to
Ciência da Computação 0,84 0,83 0,84 0,84 0,84
Informática em Saúde 0,75 0,81 0,76 0,78 0,80
Saúde 0,85 0,78 0,84 0,81 0,79
bo
Ciência da Computação 0,85 0,87 0,85 0,86 0,85
Informática em Saúde 0,76 0,84 0,78* 0,80 0,78
Saúde 0,89 0,78 0,87 0,83 0,87*
* Maiores valores de desempenho.
Tabela 7 - Quadro resumo das medidas de desempenho abordadas e maiores pontuações de
desempenho alcançadas pelas técnicas utilizadas em relação aos domínios estudados.
Domínio f0,5score f1-score f2-score Ciência da Computação tf = 0,88 tf = 0,88 tf = 0,87 Informática em Saúde bo = 0,78 tf = 0,80 tf = 0,83 Saúde tf = 0,89 tf = 0,85 bo = 0,87
4.1.3 Comparação entre os métodos de classificação
A Tabela 8 apresenta os valores de p para o teste Chi-quadrado, que avaliou as
diferenças médias estatisticamente significativas entre os resultados apresentados pelo
classificador de padrões. Os valores de p < 0,05 indicam tal significância estatística.
Não houve diferença média estatística entre os resultados apresentados pelos
métodos não-supervisionados de extração de características. No entanto, quando os
mesmos foram comparados com o método supervisionado a diferença foi encontrada
em todos os casos, com destaque para a comparação entre tf x jdi, marcada com o
caractere “*” na Tabela 8 .
33
Tabela 8 - Valores de p calculados para identificar a diferença estatística entre os resultados a partir do
teste Chi-quadrado.
Métodos tf to bo jdi
tf.idf 0,9338 0,7709 0,7303 0,0005
tf 0,5514 0,6527 <0,0001*
to 0,6000 0,0025
bo 0,0038
* Menor valor de p-value.
A Figura 9, a Figura 10 e a Figura 11 mostram, graficamente, a comparação
entre o desempenho do classificador em relação às medidas f0,5-score, f1-score e f2-
score, respectivamente, dos métodos jdi e tf, que apresentaram maior diferença média
estatisticamente significativa e maiores valores para as medidas de desempenho.
Figura 9 - Comparação da medida f0,5-score para os métodos jdi e tf.
0,86 0,84
0,940,88
0,77
0,89
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
Ciência da Computação Informática em Saúde Saúde
F0,5-score
JDI
tf
34
Figura 10 - Comparação da medida f1-score para os métodos jdi e tf.
Figura 11 - Comparação da medida f2-score para os métodos jdi e tf.
0,890,83
0,920,88
0,800,85
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
Ciência da Computação Informática em Saúde Saúde
F1-score
JDI
tf
0,92
0,83
0,900,87
0,83 0,82
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
Ciência da Computação Informática em Saúde Saúde
F2-score
JDI
tf
35
4.2 Objetivo 2: Indexação de artigos científicos
A segunda parte da apresentação dos resultados, detalhada nesta seção, aborda
a indexação automática, que utilizou as 30 categorias relacionadas no Quadro 3
(página 12) para rotular os artigos da base de validação construída para os
experimentos.
As medidas de desempenho obedeceram às métricas discutidas na seção 3.7
(página 21), nas quais a posição de relevância da categoria em relação ao artigo
científico, atribuída pelo classificador de padrões, contribuiu para a análise de
desempenho.
A análise dos resultados concentrou-se na posição de relevância igual a 5, uma
vez que a atribuição de categorias, realizada pelo portal ISI Web of Knowledge aos
artigos da base de dados de validação, variou entre uma e cinco categorias.
Foi comparado o desempenho do classificador quando diferentes métodos de
extração de características foram apresentados como parâmetro de entrada para o
mesmo. Finalmente, explorou-se a indexação utilizando as técnicas de votação e
competição, descritas na seção 3.7.1 (página 23).
4.2.1 Método supervisionado de extração de características
A média aritmética e desvio padrão dos resultados obtidos para a indexação de
artigos científicos, quando o método supervisionado de extração de características foi
utilizado, são mostrados na Tabela 9 . A média aritmética exposta na tabela refere-se
à razão entre a soma da pontuação das medidas de desempenho alcançadas pelo
classificador de padrões para cada categoria e o módulo da quantidade das mesmas.
A Tabela 10 apresenta o teste de significância estatística quanto à distribuição
normal dos resultados obtidos para o conjunto de medidas f-score, na qual o caractere
“*” foi utilizado para destacar a ocorrência da distribuição normal.
Tabela 9 - Resultados obtidos utilizando o método supervisionado de extração de características.
Relevância Precisão Revocação F0,5-score F1-score F2-score 5 0,61 ± 0,22 0,72 ± 0,28 0,63 ± 0,20 0,66 ± 0,21 0,70 ± 0,23
36
Tabela 10 - Valores de significância estatística quanto à distribuição normal dos resultados.
p-values
F0.5-score F1-score F2-score
0,5188* 0,0472 0,0092
* Distribuição normal.
4.2.2 Métodos não-supervisionados de extração de características
Esta subseção concentra a apresentação dos resultados da indexação de artigos
científicos quando os métodos não-supervisionados de extração de características
foram contemplados.
A Tabela 11 mostra a média aritmética e o desvio padrão das medidas de
desempenho aplicadas às técnicas utilizadas, quando a atribuição de categorias
realizada pelo classificador variou entre a primeira e a quinta posição de relevância. Os
maiores valores alcançados foram destacados com o caractere “*”.
A Tabela 12 apresenta a análise estatística referente à distribuição normal dos
resultados obtidos na tabela anterior. A normalidade foi destacada com o caractere “*”.
Tabela 11 - Resultados obtidos utilizando os métodos não-supervisionados de extração de
características.
Método Relevância Precisão Revocação F0,5-score F1-score F2-score tf.idf 5 0,62 ± 0,27 0,53 ± 0,31 0,60 ± 0,21* 0,57 ± 0,18 0,55 ± 0,21
tf 5 0,54 ± 0,28 0,44 ± 0,35 0,52 ± 0,17 0,49 ± 0,16 0,46 ± 0,22 to 5 0,50 ± 0,17 0,91 ± 0,07 0,55 ± 0,16 0,65 ± 0,14 0,78 ± 0,10* bo 5 0,53 ± 0,19 0,87 ± 0,11 0,58 ± 0,17 0,66 ± 0,13* 0,77 ± 0,10
* Maiores valores de desempenho. ± O desvio padrão considerou a variação de desempenho da indexação em relação a cada categoria.
Tabela 12 - Valores de significância estatística quanto à distribuição normal dos resultados.
p-values
Métodos F0.5-score F1-score F2-score
tf.idf 0,5688* 0,0154 0,0504*
tf 0,2804* 0,2327* 0,1112*
to 0,0127 0,0613* 0,3998*
bo 0,0099 0,0576* 0,2877*
* Distribuição normal.
37
As Tabela 13 (a), (b) e (c) apontam a diferença estatisticamente significativa entre
os métodos de extração de características não-supervisionados com o caractere “*”,
quando avaliados sob a medida de desempenho sugerida.
Tabela 13 - Diferença estatística entre os métodos quando avaliado f-score.
(a) F0.5-score
Métodos tf to bo
tf.idf <0,0001* 0,6884 0,4255
tf 0,0045* 0,0006*
to 0,1101
(b) F1-score
Métodos tf To bo
tf.idf <0,0001* <0,0001* <0,0001*
tf <0,0001* <0,0001*
to 0,4500
(c) F2-score
Métodos tf to bo
tf.idf < 0,0001* < 0,0001* < 0,0001*
tf < 0,0001* < 0,0001*
to 0,0617
* Diferença estatística encontrada.
4.2.3 Indexação por meio de votação e competição de técnicas
Os resultados das medidas de desempenho, a significância estatística quanto à
distribuição normal e diferença nos resultados da indexação por meio de votação e
competição de técnicas, discutida na subseção 3.7.1 (página 23), foram apresentados
por meio da Tabela 14 , Tabela 15 e Tabela 16 , respectivamente.
Os maiores valores de desempenho, normalidade e presença de diferença
estatística nos resultados foram destacados com o caractere “*” nas respectivas
tabelas.
Tabela 14 - Resultados obtidos utilizando a votação e competição de técnicas.
Método Relevância Precisão Revocação F0,5-score F1-score F2-score Votação 5 0,58 ± 0,21 0,66 ± 0,28 0,59 ± 0,20 0,62 ± 0,20 0,64 ± 0,22
Competição 5 0,64 ± 0,21 0,75 ± 0,22 0,66 ± 0,17* 0,69 ± 0,16* 0,73 ± 0,17*
* Maiores valores de desempenho. ± O desvio padrão considerou a variação de desempenho da indexação em relação a cada categoria.
38
Tabela 15 - Valores de significância estatística quanto à distribuição normal dos resultados.
Métodos p-values
F0,5-score F1-score F2-score
Votação 0,3995* 0,6435* 0,0097*
Competição 0,5687* 0,2647* 0,0122
* Distribuição normal.
Tabela 16 - Diferença estatística entre os métodos quando avaliados os valores f-score.
p-values
Métodos F0,5-score F1-score F2-score
Competição X Votação 0,0020* 0,0005* <0,0001*
* Diferença estatística encontrada.
4.2.4 Comparação entre as técnicas de indexação
A seção “4.2 Objetivo 2: Indexação de artigos científicos” contou com a
apresentação de 7 resultados que avaliaram o desempenho do classificador de
padrões mediante a variação dos parâmetros de entrada, de acordo com a técnica de
extração de característica e utilização, em conjunto, de tais técnicas para compor a
indexação final.
Esta subseção concentrou esforços na comparação entre os melhores resultados
de desempenhos alcançados pela utilização dos métodos não-supervisionado e
supervisionado, bem como a votação e competição de técnicas, na tarefa de indexação
de artigos científicos.
A Figura 12 mostra a comparação gráfica entre os métodos JDI, bo e Competição
de técnicas, quando avaliadas as medidas de desempenho f-score e variações no
parâmetro 훽.
39
Figura 12 - Comparação gráfica entre as maiores medidas de desempenho alcançadas pelos métodos
utilizados para indexação dos artigos científicos.
A diferença estatística entre os resultados pode ser visualizada na Tabela 17 ,
que considerou significativo os valores de p < 0,05.
Tabela 17 - Diferença estatística entre os resultados quando avaliados os valores f-score. (a) (b) (c)
F0.5
Métodos bo JDI
Competição 0,0455* 0,0080*
bo 0,4653
F1
Métodos bo JDI
Competição 0,9013 0,0002*
bo 0,7112
F2
Métodos bo JDI
Competição 0,0208* 0,0022*
bo 0,0005*
* Diferença estatística encontrada.
0,630,66
0,70
0,58
0,66
0,77
0,660,69
0,73
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
F0.5 F1 F2
F-scores
JDI
bo
Competição
40
5 DISCUSSÃO
Este capítulo aborda a discussão dos resultados e métodos apresentados nos
capítulos anteriores, dividindo, em duas seções, a análise e confronto dos resultados. A
seção 5.1 discutirá a classificação de artigos científicos, fruto do primeiro objetivo deste
trabalho. Finalmente, a seção 5.2 concentrará as análises referentes ao segundo
objetivo, cujo propósito foi indexar artigos científicos.
5.1 Objetivo 1: Classificação de artigos científicos
Quanto à classificação de artigos científicos, as estratégias de extração de
características utilizadas como parâmetro de entrada do classificador probabilístico
apresentaram diferentes pontuações de desempenho, como pode ser observado na
Tabela 4 (página 30) e na Tabela 6 (página 32). No entanto, entre os métodos não-
supervisionados não houve diferenças estatísticas significativas, comprovadas pelo
teste Chi-quadrado e mostradas na Tabela 8 (página 33).
Quando tais estratégias foram comparadas com o método supervisionado,
apresentaram diferenças estatísticas significativas em todos os casos, com destaque
para a comparação entre tf X JDI, destacada na mesma tabela e utilizada nos gráficos
comparativos da Figura 9 (página 33), Figura 10 e Figura 11 (página 34).
A utilização de conhecimento prévio para a construção do vetor de características,
única variante do experimento, mostrou-se eficiente, uma vez que os gráficos citados
acima mostraram que o desempenho do método supervisionado foi melhor em 78%
das comparações. Esta estratégia também foi explorada nos trabalhos de Zhang [16] e
Lan et al [46], os quais demonstraram, por meio de experimentos similares, a eficácia do
método supervisionado de extração de características.
A quantidade, distribuição e intersecção dos 35.484 termos, oriundos da base de
dados construída para o estudo, em seus respectivos domínios são mostradas na
Figura 13. A partir desta figura é possível identificar que o domínio da Saúde possui a
maior quantidade de termos que não são compartilhados pelos outros domínios
(9.710). No entanto, o conjunto de termos que compõe exclusivamente o domínio da
Informática em Saúde é o menos representativo, com apenas 1.696 itens.
41
O cenário visualizado na Figura 13 expõe a interdisciplinaridade da Informática
em Saúde, uma vez que a quantidade de termos compartilhados com os domínios da
Ciência da Computação e Saúde, 2.008 e 4.832, respectivamente, é maior do que seu
próprio conjunto não compartilhado, 1.696.
Figura 13 - Quantidade de termos (35.484) e respectiva intersecção presente nos conjuntos de artigos
científicos dos domínios da Ciência da Computação, Informática em Saúde e Saúde.
O desempenho alcançado para a classificação de artigos científicos no domínio
da Informática em Saúde foi menor em relação aos outros domínios. Acredita-se que a
quantidade de termos destinados exclusivamente ao seu conjunto influenciou as
pontuações de desempenho, como pode ser observado na Figura 14, que mostra os
resultados da classificação por meio do método supervisionado.
Quando a medida f-score considerou, para fins de desempenho do classificador,
maior importância à revocação (f2-score), o melhor resultado foi atribuído ao domínio
da Ciência da Computação (92%). No entanto, para a medida f0,5-score, na qual a
precisão foi alvo do desempenho do classificador, o domínio da Saúde alcançou o
melhor resultado (94%).
Os valores de “Falso positivo” iguais a 115 e 123, atribuídos aos domínios da
Ciência da Computação e Informática em Saúde, respectivamente, e superiores ao
Conjunto de termos da Ciência da
Computação
Conjunto de termos da
Saúde
Conjunto de termos da Informática em Saúde
4.979 923 9.710
11.336
2.008 4.832
1.696
42
domínio da Saúde, disponíveis na Tabela 3 (página 30), indicam que, entre estes
domínios houve comprometimento na precisão dos resultados, o que leva a crer que a
sobreposição de termos foi relevante e criou uma região de conflito entre os mesmos,
na qual a frequência de parte dos termos foi equivalente em ambas as coleções.
Estudos como o de Salton[28] exploraram tal característica em conjuntos de dados.
A alta concentração da frequência de termos do domínio da Saúde em sua
respectiva coleção, que não foram compartilhados com outros domínios, 9.710, pode
ter influenciado no alto desempenho do classificador quanto à precisão dos resultados,
como pode ser observado na Figura 14.
O comportamento do classificador de padrões mediante a análise dos resultados
mostrou que, embora haja sobreposição de termos entre os domínios estudados, com
destaque para o domínio da Informática em Saúde, foi possível classificar artigos
científicos com índices de desempenho condizentes com os dados da literatura
científica abordada e relacionada com o tema.
Figura 14 - Medidas f0,5-score, f1-score e f2-score de desempenho de classificação alcançadas com o
método supervisionado JDI.
0,89
0,92
0,86
0,84
0,940,92
0,83
0,90
0,78
0,80
0,82
0,84
0,86
0,88
0,90
0,92
0,94
0,96
0,98
1,00
Ciência da Computação Informática em Saúde Saúde
F-scores para o método supervisionado JDI
F1
F0,5
F2
43
5.2 Objetivo 2: Indexação de artigos científicos
Esta seção aborda a discussão dos resultados apresentados quanto à indexação
de artigos científicos sob as categorias relacionadas no Quadro 3 (página 12). Foram
realizados 7 experimentos que avaliaram o classificador quanto às medidas de
desempenho f0,5-score, f1-score e f2-score, detalhadas na seção 3.8 (página 24).
Os experimentos contaram com a variação nos parâmetros de entrada do
classificador, mediante a utilização de diferentes métodos de extração de
características dos documentos oriundos da base de dados construída para o estudo e,
também, exploraram métodos de votação e competição de técnicas, definidos na
subseção 3.7.1 (página 23).
Os desvios-padrão encontrados nas avaliações de desempenho dos métodos
supervisionado e não-supervisionados motivaram a utilização da votação e competição
de técnicas.
Estudos como o de Lan et al [16] mostraram que diferentes técnicas de atribuição
de pesos aos termos que compõem os vetores de características utilizados pelos
classificadores podem ter um grau de influência maior nos resultados do que a escolha
do próprio classificador.
A Figura 15 e a Figura 16 mostram a comparação entre a precisão e revocação,
respectivamente, do método não-supervisionado e supervisionado em relação ao
desempenho alcançado por cada técnica ao atribuir as categorias corretas aos
respectivos artigos. É possível constatar, por meio das figuras, uma variação na
relação entre categoria versus método, explorada na votação e competição de
técnicas.
44
Figura 15 - Comparação entre a precisão dos métodos supervisionado e não-supervisionados em relação à indexação de artigos.
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1Po
ntua
ção
de d
esem
penh
o
Categorias
Precisão
JDI
bo
tf
tf.idf
to
45
Figura 16 - Comparação entre a revocação dos métodos supervisionado e não-supervisionados em relação à indexação de artigos.
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1Po
ntua
ção
de d
esem
penh
o
Categorias
Revocação
JDI
bo
tf
tf.idf
to
46
A comparação entre os resultados mais expressivos obtidos por meio dos
experimentos destinados à indexação de artigos é mostrada na Figura 12 (página 39).
O método que utilizou a competição de técnicas apresentou melhores resultados
quando a precisão foi o alvo da medida de desempenho abordada, na qual a
pontuação f0,5-score alcançou o valor de 0,66. Quando a precisão e revocação
assumiram igual importância por meio da medida f1-score o método também superou
as outras estratégias, apresentando a pontuação igual a 0,69.
No entanto, quando a revocação foi avaliada por meio da medida f2-score a
estratégia de extração de características binary occurrence mostrou-se mais eficiente,
com pontuação igual a 0,77.
A diferença média estatisticamente significativa entre os resultados foi calculada
por meio dos testes T e Wilcoxon, respeitando a restrição de normalidade das variáveis
avaliadas exigida pelo primeiro teste citado. A Tabela 17 (página 39) mostra que os
resultados mais expressivos obtiveram valores de p significativos.
A partir dos resultados expostos, a medida de desempenho ligada a revocação
(f2-score) privilegiou as ocorrências de termos individualmente nos documentos. Tal
comportamento foi destacado por Salton [28] em seu trabalho. A competição de técnicas
favoreceu os resultados ligados à precisão (f0,5-score) e a equivalência entre a mesma
e a revocação (f1-score).
5.2.1 Distribuição das categorias após indexação
A Figura 17 mostra a distribuição dos artigos científicos e categorias em relação à
indexação sugerida às revistas pelo Portal ISI Web of Knowledge, de acordo com a
divisão dos domínios construída neste estudo (Quadro 3 , página 12).
Na figura, somente as categorias “Computer Science, Information Systems” e
“Information Science & Library Science” compartilham artigos publicados em revistas
dos domínios da Ciência da Computação e Informática em Saúde, enquanto apenas a
categoria “Medicine, Research & Experimental” foi compartilhada entre os artigos
publicados em revistas dos domínios da Saúde e Informática em Saúde.
A Figura 18 apresenta a distribuição após a aplicação do método de indexação
por meio de competição de técnicas. Neste cenário houve um maior compartilhamento
entre as categorias e domínios, o que sugere uma incompatibilidade entre a
47
categorização original das revistas sugeridas pelo portal ISI Web of Knowledge e a
proposta deste estudo. De acordo com os resultados, o método proposto indica que
uma parte dos artigos não reflete, ou reflete parcialmente, a categorização atribuída às
revistas pelo portal ISI Web of Knowledge.
A indexação incorreta e/ou incompleta de revistas ou artigos científicos pode
prejudicar a recuperação de informação, uma vez que as categorias são utilizadas
como parâmetros em sistemas de buscas construídos pelos Portais.
Spreckelsen [24], em seu trabalho, destacou a importância do corpo de
conhecimento de Informática em Saúde, disponível nas bibliotecas virtuais, ser
cuidadosamente delimitado por meio das revistas e artigos publicados, pois os índices
que medem o fator de impacto da área são amparados nos mesmos, sendo que uma
fraca indexação comprometeria tais índices.
A Figura 19 exemplifica as indexações sugeridas pelo portal ISI Web of
Knowledge e método que utilizou a competição de técnicas a um artigo científico
coletado da base de dados de validação, pertencente à revista Methods of Information
in Medicine, classificada sob o domínio da Informática em Saúde. Embora o método
proposto neste trabalho tenha indexado corretamente o artigo da figura nas 3 primeiras
posições de relevância, as categorias que ocupam as posições 4 e 5 também
mostraram-se relevantes, de acordo com o título e resumo do artigo. A categoria
“Computer Science Artificial Intelligence”, utilizada pelo mecanismo automatizado no
exemplo, foi atribuída a um artigo de um domínio no qual, originalmente, não havia
relação (Figura 17), expondo a deficiência discutida nos parágrafos anteriores.
48
Figura 17 - Distribuição dos artigos científicos e descritores em relação aos domínios estudados, de acordo com indexação sugerida pelo Portal ISI Web of
Knowledge.
0
100
200
300
400
500
600
700
800
900
1000
Ana
tom
y &
Mor
phol
ogy
Bioc
hem
istr
y &
Mol
ecul
ar B
iolo
gy
Biol
ogy
Cell
Biol
ogy
Clin
ical
Neu
rolo
gy
Com
pute
r Sci
ence
, Art
ifici
al In
telli
genc
e
Com
pute
r Sci
ence
, Inf
orm
atio
n Sy
stem
s
Com
pute
r Sci
ence
, Int
erdi
scip
linar
y …
Com
pute
r Sci
ence
, Sof
twar
e En
gine
erin
g
Com
pute
r Sci
ence
, The
ory
& M
etho
ds
Engi
neer
ing,
Bio
med
ical
Engi
neer
ing,
Ele
ctri
cal &
Ele
ctro
nic
Hea
lth C
are
Scie
nces
& S
ervi
ces
Infe
ctio
us D
isea
ses
Info
rmat
ion
Scie
nce
& L
ibra
ry S
cien
ce
Man
agem
ent
Mat
hem
atic
al &
Com
puta
tiona
l Bio
logy
Med
ical
Info
rmat
ics
Med
icin
e, R
esea
rch
& E
xper
imen
tal
Mic
robi
olog
y
Neu
rosc
ienc
es
Nur
sing
Onc
olog
y
Para
sito
logy
Pedi
atri
cs
Psyc
hiat
ry
Psyc
holo
gy, D
evel
opm
enta
l
Publ
ic, E
nvir
onm
enta
l & O
ccup
atio
nal …
Stat
istic
s &
Pro
babi
lity
Viro
logy
Qua
ntid
ade
de a
rtig
os
Categorias
Distribuição dos descritores sugeridos pelo ISI Web of Knowledge
Computer Science
Health
Medical Informatics
49
Figura 18 - Distribuição dos artigos científicos e descritores em relação aos domínios estudados, de acordo com a indexação sugerida pelo método de
competição de técnicas.
0
100
200
300
400
500
600
700
800
900
1000A
nato
my
& M
orph
olog
y
Bioc
hem
istr
y &
Mol
ecul
ar B
iolo
gy
Biol
ogy
Cell
Biol
ogy
Clin
ical
Neu
rolo
gy
Com
pute
r Sci
ence
Art
ifici
al In
telli
genc
e
Com
pute
r Sci
ence
Inf
orm
atio
n Sy
stem
s
Com
pute
r Sci
ence
Int
erdi
scip
linar
y …
Com
pute
r Sci
ence
Sof
twar
e …
Com
pute
r Sci
ence
The
ory
& M
etho
ds
Engi
neer
ing
Bio
med
ical
Engi
neer
ing
Ele
ctri
cal &
Ele
ctro
nic
Hea
lth C
are
Scie
nces
& S
ervi
ces
Infe
ctio
us D
isea
ses
Info
rmat
ion
Scie
nce
& L
ibra
ry S
cien
ce
Man
agem
ent
Mat
hem
atic
al &
Com
puta
tiona
l Bio
logy
Med
ical
Info
rmat
ics
Med
icin
e R
esea
rch
& E
xper
imen
tal
Mic
robi
olog
y
Neu
rosc
ienc
es
Nur
sing
Onc
olog
y
Para
sito
logy
Pedi
atri
cs
Psyc
hiat
ry
Psyc
holo
gy D
evel
opm
enta
l
Publ
ic E
nvir
onm
enta
l & O
ccup
atio
nal …
Stat
istic
s &
Pro
babi
lity
Viro
logy
Qua
ntid
ade
de a
rtig
os
Categorias
Distribuição dos descritores após indexação
Saúde
Informática em Saúde
Ciência da Computação
50
Title: Combining medical informatics and bioinformatics toward tools for personalized medicine
Abstract: Objectives. Key bioinformatics and medical informatics research areas need to be identified to advance knowledge
and understanding of disease risk factors and molecular disease pathology in the 21(st) century toward new diagnoses,
prognoses, and treatments. Methods: Three high-impact informatics areas are identified: predictive medicine (to identify
significant correlations within clinical data using statistical and artificial intelligence methods), along with pathway informatics and
cellular simulations (that combine biological knowledge with advanced informatics to elucidate molecular disease pathology).
Results. Initial predictive models have been developed for a pilot study in Huntington's disease. An initial bioinformatics platform
has been developed for the reconstruction and analysis of pathways, and work has begun on pathway simulation. Conclusions:
A bioinformatics research program has been established at GE Global Research Center as an important technology toward next
generation medical diagnostics. We anticipate that 21(st) century medical research will be a combination of informatics tools with
traditional biology wet lab research, and that this will translate to increased use of informatics techniques in the clinic.
Categorias sugeridas pelo ISI Web of Knowledge Categorias sugeridas pela competição de técnicas Computer Science, Information Systems 1. Medical Informatics
Health Care Sciences & Services 2. Computer Science Information Systems
Medical Informatics 3. Health Care Sciences & Services
4. Computer Science Interdisciplinary Applications
5. Computer Science Artificial Intelligence
Figura 19 – Exemplo de indexações sugeridas pelo portal ISI Web of Knowledge e método que utilizou a
competição de técnicas atribuídas a um artigo científico coletado da base de dados de validação.
A literatura científica que investiga técnicas capazes de indexar automaticamente
documentos é ampla e não esgotou os esforços direcionados à criação de novos
mecanismos. Os resultados obtidos neste estudo se comparam às pontuações de
desempenho alcançadas em trabalhos publicados recentemente sobre a indexação de
artigos científicos sob escopos de domínios de conhecimento específicos [15,19,47,48].
51
6 CONCLUSÕES
A exploração de técnicas de extração de características, classificadores de
padrões, medidas de desempenho aplicadas à classificação e indexação de textos,
bem como diferentes análises estatísticas foram contempladas neste trabalho.
O desenvolvimento do mesmo concentrou-se em dois objetivos específicos, cujas
conclusões foram abordadas nas seções abaixo.
6.1 Objetivo 1: Classificação de artigos científicos
Com relação ao objetivo 1, cuja proposta foi classificar artigos científicos entre os
domínios da Ciência da Computação, Informática em Saúde e Saúde, a comparação
de diferentes métodos para a construção dos vetores de características utilizados como
parâmetro de entrada do classificador probabilístico definido no estudo mostrou-se
relevante, uma vez que os resultados apresentados, de acordo com o método utilizado,
foram diferentes.
A utilização de conhecimento prévio, adotado pelo método supervisionado de
extração de características, alcançou as melhores pontuações de desempenho
avaliadas no estudo, superiores a 80%.
A interdisciplinaridade do domínio da Informática em Saúde, que poderia dificultar
a tarefa de classificação, foi absorvida pelas técnicas propostas e não comprometeu os
resultados.
6.2 Objetivo 2: Indexação de artigos científicos
A indexação de artigos científicos sob uma lista pré-definida de categorias
caracterizou o segundo objetivo proposto no trabalho.
Este objetivo também contou com a exploração de métodos para a construção
dos vetores de características e posterior utilização como parâmetro de entrada do
classificador utilizado no estudo, além disso, abordou uma nova proposta,
caracterizada pela votação e competição de técnicas.
Os valores alcançados pelas medidas de desempenho f0,5-score e f1-score foram
0,66 e 069, respectivamente, apresentados pelo método que explorou a competição de
52
técnicas. O método não-supervisionado, regido pela técnica binary occurrence,
apresentou o valor de 0,77 para a medida f2-score.
53
7 APLICAÇÕES E TRABALHOS FUTUROS
Este estudo contemplou a utilização de diferentes técnicas de extração de
características de documentos como parâmetro de entrada de um classificador
probabilístico, promovendo uma avaliação detalhada dos métodos aplicados, nos quais
os objetivos concentraram-se na classificação e indexação de artigos científicos do
idioma inglês entre os domínios da Informática em Saúde, Saúde e Ciência da
Computação.
Embora os resultados tenham sido condizentes com os dados da literatura,
alguns pontos merecem atenção especial, por exemplo, a dimensão (35 mil) dos
vetores de características utilizados para representarem os documentos. A literatura
expõe alternativas para a redução da dimensionalidade de tais vetores, que não foram
contempladas neste estudo, como o trabalho de Yang [49], que explora e compara
técnicas capazes de selecionar características de documentos para a tarefa de
classificação automática.
Outro ponto relevante é a análise de desempenho quanto ao tempo de
processamento da tarefa de classificação e indexação consumida pelo mecanismo
automatizado. Ao disponibilizar este serviço para o público, questões relacionadas a
este contexto emergirão e necessitarão ser avaliadas.
A motivação deste estudo amparou-se no crescimento exponencial da quantidade
de artigos científicos publicados no domínio da Informática em Saúde e na redução das
tarefas manuais de indexação e classificação de conteúdo pertinente a este contexto.
Trabalhos futuros serão destinados à disponibilização dos mecanismos
automatizados criados à comunidade científica, por meio de serviços que auxiliem
profissionais que atuam na classificação e indexação de conteúdos em bibliotecas
virtuais, pesquisadores que conduzem trabalhos científicos a encontrar informação
relevante e demais aplicações aplicadas à mineração de textos nos domínios
abordados neste estudo.
55
9 REFERÊNCIAS
1. Bernstam EV, Smith JW, Johnson TR. What is biomedical informatics? J Biomed Inform 2010;43(1):104–10.
2. DeShazo J, LaVallie D, Wolf F. Publication trends in the medical informatics literature: 20 years of “Medical Informatics” in MeSH. BMC Medical Informatics and Decision Making 2009;9(1):7.
3. van Bemmel JH. Medical Informatics Is Interdisciplinary avant la Lettre. Methods Inf Med [Internet] 2008 [cited 2011 Mar 9];Available from: http://www.schattauer.de/index.php?id=246&L=1&schattauer_issue[issueId]=667&schattauer_issue[manuscriptId]=10163&schattauer_issue[manuscriptMode]=show&cHash=d6134beb4b
4. Knaup P, Dickhaus H. Perspectives of medical informatics: advancing health care requires interdisciplinarity and interoperability. Special topic on the occasion of the 35th anniversary of the Heidelberg/Heilbronn curriculum of medical informatics. Methods Inf Med 2009;48(1):1–3.
5. Mantas J, Ammenwerth E, Demiris G, Hasman A, Haux R, Hersh W, et al. Recommendations of the International Medical Informatics Association (IMIA) on Education in Biomedical and Health Informatics. Methods Inf Med [Internet] 2010 [cited 2011 Mar 9];Available from: http://www.schattauer.de/en/magazine/subject-areas/journals-a-z/methods/contents/archive/issue/special/manuscript/12538/show.html
6. Schuemie MJ, Talmon JL, Moorman PW, Kors JA. Mapping the Domain of Medical Informatics. Methods Inf Med [Internet] 2009 [cited 2011 Mar 9];Available from: http://www.schattauer.de/index.php?id=246&L=1&schattauer_issue[issueId]=661&schattauer_issue[manuscriptId]=10817&schattauer_issue[manuscriptMode]=show&cHash=c4211d4612
7. Magdy W, Jones G. PRES: a score metric for evaluating recall-oriented information retrieval applications [Internet]. In: Proceeding of the 33rd international ACM SIGIR conference on Research and development in information retrieval. Geneva, Switzerland: ACM; 2010 [cited 2011 May 5]. p. 611–8.Available from: http://dx.doi.org/10.1145/1835449.1835551
8. Kastrin A, Peterlin B, Hristovski D. Chi-square-based scoring function for categorization of MEDLINE citations. Methods Inf Med 2010;49(4):371–8.
9. Vasuki V, Cohen T. Reflective random indexing for semi-automatic indexing of the biomedical literature. J Biomed Inform 2010;43(5):694–700.
10. Text Categorization [Internet]. Text Categorization2011 [cited 2011 Jul 15];Available from: http://lexsrv3.nlm.nih.gov/LexSysGroup/Projects/tc/current/web/index.html
56
11. Humphrey SM. A New Approach to Automatic Indexing Using Journal Descriptors. Proceedings of the ASIS Annual Meeting 1998;35:496–500.
12. Humphreys BL, Lindberg DAB, Schoolman HM, Barnett GO. The Unified Medical Language System: An Informatics Research Collaboration. J Am Med Inform Assoc 1998;5(1):1–11.
13. Humphrey SM. Automatic Indexing of Documents from Journal Descriptors: A Preliminary Investigation. Journal of the American Society for Information Science 1999;50(8):661–74.
14. Humphrey SM, Rogers WJ, Kilicoglu H, Demner-Fushman D, Rindflesch TC. Word sense disambiguation by selecting the best semantic type based on Journal Descriptor Indexing: Preliminary experiment. J. Am. Soc. Inf. Sci. Technol. 2006;57(1):96–113.
15. Humphrey SM, Névéol A, Browne A, Gobeil J, Ruch P, Darmoni SJ. Comparing a rule-based versus statistical system for automatic categorization of MEDLINE documents according to biomedical specialty. Journal of the American Society for Information Science and Technology 2009;60(12):2530–9.
16. Zhang W, Yoshida T, Tang X. A comparative study of TF*IDF, LSI and multi-words for text classification. Expert Systems with Applications 2011;38(3):2758–65.
17. Lan M, Tan C-L, Low H-B. Proposing a new term weighting scheme for text categorization [Internet]. In: Proceedings of the 21st national conference on Artificial intelligence - Volume 1. AAAI Press; 2006 [cited 2011 Apr 29]. p. 763–8.Available from: http://portal.acm.org/citation.cfm?id=1597538.1597660
18. Sohn S, Kim W, Comeau DC, Wilbur WJ. Optimal training sets for Bayesian prediction of MeSH assignment. J Am Med Inform Assoc 2008;15(4):546–53.
19. Aiguzhinov A, Soares C, Serra AP. A similarity-based adaptation of naive bayes for label ranking: application to the metalearning problem of algorithm recommendation [Internet]. In: Proceedings of the 13th international conference on Discovery science. Berlin, Heidelberg: Springer-Verlag; 2010 [cited 2011 Jun 9]. p. 16–26.Available from: http://portal.acm.org/citation.cfm?id=1927300.1927302
20. Gehanno J-F, Rollin L, Jean T, Louvel A, Darmoni S, Shaw W. Precision and Recall of Search Strategies for Identifying Studies on Return-To-Work in Medline. J Occup Rehabil 2009;19(3):223–30.
21. Radlinski F, Craswell N. Comparing the sensitivity of information retrieval metrics. In: Proceeding of the 33rd international ACM SIGIR conference on Research and development in information retrieval. New York, NY, USA: ACM; 2010. p. 667–74.
22. Hanson AF. From classification to indexing: How automation transforms the way we think. Social Epistemology: A Journal of Knowledge, Culture and Policy 2004;18(4):333.
57
23. Salton G, McGill MJ. Introduction to Modern Information Retrieval [Internet]. McGraw-Hill, Inc.; 1986 [cited 2009 Feb 3]. Available from: http://portal.acm.org/citation.cfm?id=576628
24. Spreckelsen C, Deserno T, Spitzer K. Visibility of medical informatics regarding bibliometric indices and databases. BMC Medical Informatics and Decision Making 2011;11(1):24.
25. Salton G, Wong A, Yang CS. A vector space model for automatic indexing. Commun. ACM 1975;18:613–20.
26. Baeza-Yates RA, Ribeiro-Neto B. Modern Information Retrieval. in Text Operations: Addison-Wesley Longman Publishing Co., Inc.; 1999.
27. Porter M. An algorithm for suffix stripping. Program 1980;14(3):130–7.
28. Salton G, Buckley C. Term-weighting approaches in automatic text retrieval. INFORMATION PROCESSING AND MANAGEMENT 1988;24:513--523.
29. Haykin S. Neural Networks: A Comprehensive Foundation. 2nd ed. Prentice Hall; 1998.
30. Chang C, Lin C. LIBSVM: a library for support vector machines [Internet]. 2001 [cited 2009 Oct 1]. Available from: http://www.csie.ntu.edu.tw/~cjlin/libsvm
31. Aha DW, Kibler D, Albert MK. Instance-Based Learning Algorithms. Machine Learning 1991;6(1):37–66.
32. Quinlan JR. C4.5: programs for machine learning [Internet]. Morgan Kaufmann Publishers Inc.; 1993 [cited 2009 Oct 1]. Available from: http://portal.acm.org/citation.cfm?id=152181
33. Nigam K, McCallum. A comparison of event models for Naive Bayes text classification. 1998. p. 41–8.
34. Theodoridis S, Koutroumbas K. Pattern Recognition, Third Edition. Academic Press, Inc.; 2006.
35. Guthrie L, Walker E, Guthrie J. Document classification by machine: theory and practice [Internet]. In: Proceedings of the 15th conference on Computational linguistics - Volume 2. Stroudsburg, PA, USA: Association for Computational Linguistics; 1994 [cited 2011 May 18]. p. 1059–63.Available from: http://dx.doi.org/10.3115/991250.991322
36. Lewis DD, Gale WA. A sequential algorithm for training text classifiers [Internet]. In: Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval. New York, NY, USA: Springer-Verlag New York, Inc.; 1994 [cited 2011 May 18]. p. 3–12.Available from: http://portal.acm.org/citation.cfm?id=188490.188495
37. Joachims T. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. In ICML-97 1997;:143--151.
58
38. Li H, Yamanishi K. Document classification using a finite mixture model [Internet]. In: Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics; 1997 [cited 2011 May 18]. p. 39–47.Available from: http://dx.doi.org/10.3115/976909.979623
39. Lewis DD. Naive (Bayes) at Forty: The Independence Assumption in Information Retrieval. 1998;:4--15.
40. Duda RO, Hart PE, Stork DG. Pattern classification. Wiley; 2001.
41. Sebastiani F. Machine learning in automated text categorization. ACM Comput. Surv. 2002;34:1–47.
42. Hope ACA. A Simplified Monte Carlo Significance Test Procedure. Journal of the Royal Statistical Society. Series B (Methodological) 1968;30(3):582–98.
43. Bauer DF. Constructing Confidence Sets Using Rank Statistics. Journal of the American Statistical Association 1972;67(339):687–90.
44. Altman DG. Practical Statistics for Medical Research. 1st ed. Chapman and Hall/CRC; 1990.
45. Royston J. An Extension of Shapiro and Wilk’s W Test for Normality to Large Samples. Journal of the Royal Statistical Society. Series C (Applied Statistics) [Internet] 1982 [cited 2011 Jun 16];31(2). Available from: http://dx.doi.org/10.2307/2347973
46. Lan M, Tan C, Low H, Sung S. A comprehensive comparative study on term weighting schemes for text categorization with support vector machines. In: WWW ’05: Special interest tracks and posters of the 14th international conference on World Wide Web. Chiba, Japan: ACM Press; 2005. p. 1032–3.
47. Liang C-Y, Guo L, Xia Z-J, Nie F-G, Li X-X, Su L, et al. Dictionary-based text categorization of chemical web pages. Information Processing & Management 2006;42(4):1017–29.
48. Trieschnigg D, Pezik P, Lee V, de Jong F, Kraaij W, Rebholz-Schuhmann D. MeSH Up: effective MeSH text classification for improved document retrieval. Bioinformatics 2009;25(11):1412–8.
49. Yang Y, Pedersen J. A comparative study on feature selection in text categorization [Internet]. In: Proceedings of ICML-97, 14th International Conference on Machine Learning. Morgan Kaufmann Publishers, San Francisco, US; 1997 [cited 2011 Aug 20]. p. 412–20.Available from: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.32.9956