tese madalena
DESCRIPTION
TeseTRANSCRIPT
-
Universidade Federal de Santa Catarina
Programa de Ps-Graduao em
Engenharia de Produo
UM MODELO DE FORMALIZAO
DO PROCESSO DE DESENVOLVIMENTO DE
SISTEMAS DE DESCOBERTA DE CONHECIMENTO
EM BANCO DE DADOS
Maria Madalena Dias
Tese apresentada ao Programa de
Ps-Graduao em Engenharia de Produo da
Universidade Federal de Santa Catarina
como requisito parcial para obteno do ttulo de
Doutor em Engenharia de Produo
Florianpolis
2001
-
ii
Maria Madalena Dias
UM MODELO DE FORMALIZAO DO PROCESSO DE DESENVOLVIMENTO DE
SISTEMAS DE DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS
Esta tese foi julgada e aprovada para a obteno do ttulo de Doutor em Engenharia de Produo no Programa de Ps-Graduao em
Engenharia de Produo da Universidade Federal de Santa Catarina
Florianpolis, 23 de fevereiro de 2001.
Prof. Ricardo Miranda Barcia, Dr. Coordenador do Curso
BANCA EXAMINADORA _____________________________
Prof. Roberto C.Santos Pacheco, Dr. Orientador ___________________________ _____________________________ Prof. Alex Alves Freitas, Dr. Profa. Tnia F. Calvi Tait, Dra. ___________________________ _____________________________ Prof. Jos Leomar Todesco, Dr. Prof. Aran Tcholakian Morales, Dr.
-
iii
Ao meu esposo, Nardnio pelo apoio e pacincia. minha filha Natasha.
-
iv
Agradecimentos
Universidade Federal de Santa Catarina.
Coordenao de Aperfeioamento de Pessoal de Nvel Superior CAPES.
Ao orientador Prof. Dr. Roberto C. S. Pacheco, pelo acompanhamento e
dedicao.
Aos professores do Curso de Ps-Graduao em Engenharia de Produo, pelos
ensinamentos que deram a base terica e prtica indispensveis realizao desta
pesquisa.
Aos meus colegas de curso, pela compreenso e apoio, especialmente ao Andr
Vincius Castoldi.
A todos que direta ou indiretamente contriburam para a realizao desta
pesquisa.
-
v
Sumrio
Sumrio................................................................................................................................... v
Lista de Figuras ...................................................................................................................... x
Lista de Tabelas ...................................................................................................................xiii
Resumo ................................................................................................................................xiv
Abstract................................................................................................................................. xv
1 INTRODUO................................................................................................................... 1
1.1 Motivao ...................................................................................................................... 1
1.2 Objetivos........................................................................................................................ 2
1.3 Justificativas .................................................................................................................. 3
1.4 Contribuies................................................................................................................. 3
1.5 Resultados Esperados .................................................................................................... 4
1.6 Organizao do Trabalho............................................................................................... 4
2 FUNDAMENTAO TERICA ...................................................................................... 6
2.1 Introduo ...................................................................................................................... 6
2.2 Minerao de Dados ...................................................................................................... 7
2.2.1 Conceito de Minerao de Dados ........................................................................ 7
2.2.2 Origem dos Dados................................................................................................ 8
2.2.3 Tarefas Desempenhadas por Tcnicas de Minerao de Dados .......................... 9
2.2.4 Tcnicas de Minerao de Dados....................................................................... 11
2.2.5 Como Escolher a Tcnica de Minerao de Dados mais Adequada.................. 15
2.2.6 reas de Aplicao de Tcnicas de Minerao de Dados.................................. 16
2.2.7 O Processo de Descoberta de Conhecimento..................................................... 17
2.2.8 Metodologias para Sistemas de Descoberta de Conhecimento.......................... 20
2.2.9 Ferramentas de Minerao de Dados ................................................................. 25
2.3 Mtodos Formais ......................................................................................................... 26
2.3.1 Caractersticas de Mtodos Formais .................................................................. 28
2.3.2 Classificao de Mtodos Formais .................................................................... 29
2.3.3 Nveis de Rigor em Mtodos Formais .............................................................. 32
2.3.4 Aplicao de Mtodos Formais.......................................................................... 33
-
vi
2.3.5 Metodologias Incluindo Mtodos Formais ........................................................ 34
2.4 Agentes Inteligentes..................................................................................................... 37
2.4.1 Caractersticas de Agentes ................................................................................. 37
2.4.2 Aplicao de Agentes......................................................................................... 38
2.4.3 Classificao de Agentes Baseada no Grau de Mobilidade ............................... 39
2.4.4 Agentes Mveis.................................................................................................. 40
2.5 Consideraes Finais ................................................................................................... 42
3 METODOLOGIA DE DESENVOLVIMENTO DA PESQUISA.................................... 44
3.1 Introduo .................................................................................................................... 44
3.2 Modelo da Pesquisa ..................................................................................................... 44
3.3 Processo de Desenvolvimento da Pesquisa ................................................................. 45
3.3.1 Escolha do Tema................................................................................................ 45
3.3.2 Reviso da Literatura ......................................................................................... 46
3.3.3 Definio da Metodologia.................................................................................. 47
3.3.4 Especificao do Ambiente................................................................................ 47
3.3.5 Definio do Modelo ......................................................................................... 48
3.3.6 Implementao do Prottipo .............................................................................. 48
3.3.7 Validao do Modelo ......................................................................................... 48
4 MODELO GERAL PROPOSTO E METODOLOGIA DE DESENVOLVIMENTO
DE SISTEMAS DE DESCOBERTA DE CONHECIMENTO EM BANCO DE
DADOS.............................................................................................................................. 49
4.1 Introduo .................................................................................................................... 49
4.2 O Modelo Geral Proposto............................................................................................ 50
4.3 A Metodologia MeDesC.............................................................................................. 52
4.4 Anlise do Sistema ...................................................................................................... 54
4.4.1 Descrio Inicial do Problema ........................................................................... 55
4.4.2 Definio dos Objetivos do Sistema .................................................................. 56
4.4.3 Construo de Diagramas de Classes do(s) Sistema(s) em Operao ............... 56
4.4.4 Construo do Diagrama de Classes Corporativo.............................................. 57
4.5 Projeto Informal........................................................................................................... 57
4.5.1 Seleo dos Atributos......................................................................................... 58
4.5.2 Definio das Transformaes dos Dados ........................................................ 60
4.5.3 Projeto de uma Estrutura de Metadados ............................................................ 62
-
vii
4.5.4 Projeto do DW/DM/DS...................................................................................... 62
4.5.5 Definio de Tcnica de Amostragem Estatstica.............................................. 63
4.5.6 Escolha de Tcnica de Minerao de Dados...................................................... 63
4.5.7 Construo dos Diagramas de Classes............................................................... 63
4.5.8 Construo dos Diagramas de Estados .............................................................. 64
4.5.9 Construo dos Diagramas de Colaborao....................................................... 64
4.5.10 Determinao da Forma de Povoamento do DW/DM/DS............................... 64
4.6 Projeto Formal ............................................................................................................. 65
4.6.1 Mapeamento dos Diagramas UML para E-LOTOS........................................... 66
4.6.2 Diviso do Sistema em Mdulos ....................................................................... 67
4.6.3 Definio do Modelo de Comunicao.............................................................. 68
4.6.4 Declarao dos Mdulos .................................................................................... 70
4.6.5 Exemplos............................................................................................................ 70
4.7 Implementao do Sistema .......................................................................................... 74
4.8 Anlise dos Resultados ................................................................................................ 74
4.9 Consideraes Finais ................................................................................................... 75
5 AMBIENTE DE IMPLEMENTAO DE SISTEMAS DE DESCOBERTA DE
CONHECIMENTO EM BANCO DE DADOS ................................................................ 77
5.1 Introduo .................................................................................................................... 77
5.2 Modelo do Ambiente ................................................................................................... 78
5.3 Projeto Informal do Ambiente ..................................................................................... 82
5.3.1 Casos de Uso do Ambiente ................................................................................ 82
5.3.2 Definio das Classes de Objetos ...................................................................... 84
5.3.3 Funes do Ambiente......................................................................................... 84
5.3.4 Diagramas de Estados ........................................................................................ 93
5.3.5 Estrutura do Metadados ..................................................................................... 93
5.4 Projeto Formal do Ambiente ....................................................................................... 93
5.5 Consideraes Finais ................................................................................................... 95
6 APLICAO DO MODELO ........................................................................................... 96
6.1 Introduo .................................................................................................................... 96
6.2 Especificao do Sistema ............................................................................................ 96
6.3 Anlise do Sistema ...................................................................................................... 97
6.3.1 Descrio do Problema ...................................................................................... 97
-
viii
6.3.2 Definio dos Objetivos do Sistema ................................................................ 100
6.3.3 Construo do Diagrama de Classes do Sistema em Operao ....................... 101
6.3.4 Construo do Diagrama de Classes Corporativo............................................ 101
6.4 Projeto Informal......................................................................................................... 102
6.4.1 Seleo dos Atributos....................................................................................... 102
6.4.2 Definio das Transformaes dos Dados ....................................................... 103
6.4.3 Projeto de uma Estrutura de Metadados .......................................................... 105
6.4.4 Projeto do Data Set .......................................................................................... 107
6.4.5 Definio de Tcnica de Amostragem Estatstica............................................ 107
6.4.6 Escolha de Tcnica de Minerao de Dados.................................................... 108
6.4.7 Construo de Diagramas de Classes............................................................... 108
6.4.8 Construo de Diagramas de Estados .............................................................. 110
6.4.9 Construo de Diagramas de Colaborao ...................................................... 111
6.4.10 Determinao da Forma de Povoamento do Data Set ................................... 113
6.5 Projeto Formal ........................................................................................................... 114
6.5.1 Diviso do Sistema em Mdulos ..................................................................... 114
6.5.2 Definio do Modelo de Comunicao............................................................ 114
6.5.3 Declarao dos Mdulos .................................................................................. 114
6.6 Implementao do Sistema ........................................................................................ 118
6.7 Anlise dos Resultados .............................................................................................. 118
6.8 Consideraes Finais ................................................................................................. 123
7 CONCLUSES E TRABALHOS FUTUROS ............................................................... 125
7.1 Concluses................................................................................................................. 125
7.2 Trabalhos Futuros ...................................................................................................... 127
8 REFERNCIAS BIBLIOGRFICAS ............................................................................ 129
9 ANEXOS......................................................................................................................... 136
9.1 A Linguagem E-LOTOS............................................................................................ 136
9.2 Diagramas de Estados do Ambiente ADesC ............................................................. 144
9.3 Um Modelo de Metadados......................................................................................... 151
9.4 Especificao do Ambiente ADesC em E-LOTOS ................................................... 157
-
ix
Lista de Figuras
Figura 2.1: A Minerao de Dados como um Campo Multidisciplinar ................................. 7
Figura 2.2: Processo de Descoberta de Conhecimento......................................................... 18
Figura 2.3: O Modelo do Processo KDD (Klemettinen et al, 1997) .................................... 21
Figura 2.4: Processo KDD (Feldens et al, 1998).................................................................. 22
Figura 2.5: Fases do Modelo de Processo CRISP-DM (CRISP-DM, 2001)........................ 23
Figura 2.6: Tarefas do Mtodo ROOA................................................................................. 35
Figura 2.7: Fases da Metodologia SOFL.............................................................................. 36
Figura 3.1: Modelo da Pesquisa ........................................................................................... 44
Figura 3.2: Processo de Desenvolvimento da Pesquisa........................................................ 46
Figura 4.1: Modelo Geral Proposto ...................................................................................... 50
Figura 4.2: Etapas da Metodologia MeDesC ....................................................................... 53
Figura 4.3: Atividades da Etapa Anlise do Sistema............................................................ 55
Figura 4.4: Diagrama de Classes Corporativo...................................................................... 57
Figura 4.5: Atividades da Etapa Projeto Informal................................................................ 59
Figura 4.6: Atividades da Etapa Projeto Formal .................................................................. 67
Figura 4.7: Modelo Geral de Comunicao ......................................................................... 69
Figura 4.8: Exemplo de Herana entre Classes de Objetos ................................................. 70
Figura 4.9: Diagrama de Estados para a Classe Docente .................................................... 73
Figura 5.1: Modelo do Ambiente ADesC............................................................................. 78
Figura 5.2: Estrutura de Agentes ......................................................................................... 79
Figura 5.3: Tipos de Agentes............................................................................................... 80
Figura 5.4: Diagrama Caso de Uso Usurio Analista....................................................... 83
Figura 5.5: Diagrama Caso de Uso Usurio Final............................................................. 84
Figura 5.6: Diagrama de Classes do Ambiente .................................................................... 86
Figura 5.7: Diagrama de Colaborao Inicializar Ambiente............................................. 87
Figura 5.8: Diagrama de Colaborao Configurar ............................................................ 87
Figura 5.9: Diagrama de Colaborao Preparar Dados ..................................................... 89
Figura 5.10: Diagrama de Colaborao Povoamento........................................................ 90
Figura 5.11: Diagrama de Colaborao Minerao de Dados........................................... 91
-
x
Figura 5.12: Diagrama de Colaborao Visualizar Resultados......................................... 91
Figura 5.13: Diagrama de Colaborao Analisar Resultados............................................ 92
Figura 5.14: Diagrama de Colaborao Finalizar Ambiente............................................. 93
Figura 5.15: Modelo de Comunicao do Ambiente ADesC............................................... 94
Figura 6.1: Modelo de Dados da Aplicao Coleta de Dados 5.0 (CAPES, 1999).............. 99
Figura 6.2: Diagrama de Classes do Sistema em Operao ............................................... 101
Figura 6.3: Diagrama de Classes Refinado dos Bancos de Dados em Operao............... 109
Figura 6.4: Diagrama de Classes do DataSet ..................................................................... 109
Figura 6.5: Diagrama de Estados da Classe AgenteTransformao................................... 110
Figura 6.6: Diagrama de Colaborao CalcularBolsaAluno ........................................... 111
Figura 6.7: Diagrama de Colaborao CalcularProducao ............................................... 111
Figura 6.8: Diagrama de Colaborao CalcularTotalGraduados..................................... 111
Figura 6.9: Diagrama de Colaborao CalcularTotalMestres ......................................... 112
Figura 6.10: Diagrama de Colaborao CalcularTotalDoutores ..................................... 112
Figura 6.11: Diagrama de Colaborao CalcularTotalOrientandos ................................ 112
Figura 6.12: Diagrama de Colaborao CalcularMesesFormacao .................................. 113
Figura 6.13: Diagrama de Colaborao VerificarBolsaVinculo ..................................... 113
Figura 9.1: Diagrama de Estados da Classe GerenteInterfaces .......................................... 144
Figura 9.2: Diagrama de Estados da Classe InterfaceEntrada............................................ 144
Figura 9.3: Diagrama de Estados da Classe InterfaceDados .............................................. 144
Figura 9.4: Diagrama de Estados da Classe InterfaceTransformao ................................ 145
Figura 9.5: Diagrama de Estados da Classe InterfaceTecnica............................................ 145
Figura 9.6: Diagrama de Estados da Classe InterfaceResultados....................................... 145
Figura 9.7: Diagrama de Estados da Classe InterfaceAnalise ............................................ 145
Figura 9.8: Diagrama de Estados da Classe InterfacePovoamento .................................... 145
Figura 9.9: Diagrama de Estados da Classe GerenteServios ............................................ 146
Figura 9.10: Diagrama de Estados da Classe CoordenadorTransporte .............................. 146
Figura 9.11: Diagrama de Estados da Classe ServidorAgente ........................................... 147
Figura 9.12: Diagrama de Estados da Classe AgenteBusca ............................................... 148
Figura 9.13: Diagrama de Estados da Classe AgenteTransformao................................. 148
Figura 9.14: Diagrama de Estados da Classe AgenteRoteador .......................................... 148
Figura 9.15: Diagrama de Estados da Classe AgenteTecnica ............................................ 148
Figura 9.16: Diagrama de Estados da Classe AgenteAnalise ............................................ 148
Figura 9.17: Diagrama de Estados da Classe AgentePovoamento..................................... 149
-
xi
Figura 9.18: Diagrama de Estados da Classe Suporte ........................................................ 149
Figura 9.19: Diagrama de Estados da Classe BancoDados ................................................ 149
Figura 9.20: Diagrama de Estados da Classe DataSet ....................................................... 150
Figura 9.21: Diagrama de Estados da Classe Metadados................................................... 150
Figura 9.22: Diagrama de Estados da Classe Resultados................................................... 150
Figura 9.23: Modelo do Metadados.................................................................................... 155
Figura 9.23: Modelo do Metadados (continuao)............................................................. 156
-
xii
Lista de Tabelas
Tabela 2.1: Tarefas Realizadas por Tcnicas de Minerao de Dados ................................ 11
Tabela 2.2: Tnicas de Minerao de Dados........................................................................ 14
Tabela 2.3: Ferramentas de Minerao de Dados................................................................. 26
Tabela 2.4: Classificao de Mtodos Formais .................................................................... 32
Tabela 2.5: Caractersticas de Agentes................................................................................. 37
Tabela 5.1: Classes de Objetos do Ambiente ....................................................................... 85
Tabela 6.1: Atributos Selecionados das Tabelas dos Bancos de Dados da CAPES........... 102
Tabela 6.2: Relao de Atributos e Mtodos do Agente Transformao........................... 105
Tabela 6.3: Discretizao dos Dados das Tabelas do DataSet ........................................... 106
Tabela 6.4: Relao das Tabelas do Metadados e seus Atributos ...................................... 107
Tabela 6.5: Relao das Tabelas do DataSet e seus Atributos ........................................... 107
Tabela 6.6: Regras Geradas para o Primeiro Objetivo ....................................................... 119
Tabela 6.7: Regras Geradas para o Segundo Objetivo ....................................................... 120
Tabela 6.8: Regras Geradas para o Terceiro Objetivo........................................................ 121
Tabela 9.1: Sintaxe Resumida de Expresses de Comportamento em E-LOTOS ............. 140
Tabela 9.2: Descrio das Tabelas que Compem o Modelo de Metadados ..................... 154
-
xiii
Resumo
Aps a organizao conseguir sanar seus problemas operacionais, surge a
necessidade de sistemas para o suporte tomada de deciso. A rea de pesquisa de
minerao de dados cresce rapidamente para atender a essas novas necessidades. No
entanto, a utilizao de tcnicas de minerao de dados torna-se difcil pela falta de uma
metodologia completa e sistemtica para o desenvolvimento de sistemas de descoberta
de conhecimento. Esta tese apresenta um modelo de formalizao do processo de
desenvolvimento de sistemas de descoberta de conhecimento em banco de dados, que
inclui uma metodologia sistemtica e rigorosa e um ambiente interativo para a
implementao desses sistemas. A metodologia proposta integra UML (Unified
Modeling Language) e Linguagem E-LOTOS (Enhancements to Language Of Temporal
Ordering Specification). O principal objetivo gerar informaes relevantes tomada
de deciso, atravs da aplicao de tcnicas de minerao de dados. O ambiente de
implementao baseado na Tecnologia de Agentes para facilitar o desempenho de suas
tarefas. O modelo proposto foi aplicado na plataforma de informaes da ps-graduao
Brasileira (dados da CAPES 1998). Esta aplicao teve como principal objetivo validar
a metodologia proposta, segundo critrios de anlise encontrados na literatura.
Palavras-chave: Minerao de dados, sistemas de descoberta de conhecimento em
banco de dados, mtodos formais, modelagem orientada a objetos,
tecnologia de agentes.
-
xiv
Abstract
After an organization having solved its operational problems, the need of
systems appears for the support to the decision taking. Data mining is an area that is
growing quickly to assist such new needs of the organization. However, the use of data
mining techniques becomes difficult by the lack of a methodology that defines a
complete and systematic process for the development of knowledge discovery systems.
This thesis introduces a formalization model of development process of knowledge
discovery systems in databases, including a rigorous and systematic methodology and
an implementation environment for these systems. The methodology integrates UML
(Unified Modeling Language) and E-LOTOS (Enhancements to Language Of Temporal
Ordering Specification). The main objective is to generate relevant information to
decision taking, with the application of data mining techniques. The environment is
based on Agent Technology to facilitate the performance of its tasks. The model
proposed was applied on Brazilian pos-graduation information (CAPES data 1998). The
main objective of this application was to valid the methodological purpose, according to
the criteria of analyzes found of the literature.
Keywords: Data mining, knowledge discovery in database, formal methods, object
oriented, agent technology.
-
1 INTRODUO
1.1 MOTIVAO
Nos ltimos anos, o uso de computadores passou a difundir-se pelos mais
variados ramos de atividade e no ficou restrito apenas ao meio tecnolgico. Os
computadores e os sistemas de comunicao so responsveis pela mudana na natureza
de trabalho das pessoas e, alm disso, esto reformulando o mundo dos negcios.
O conceito tradicional de trabalho, envolvendo grandes quantidades de papis e
relatrios complicados, tomada de deciso baseada em fatos pouco concretos, est
sendo substitudo pelo conceito moderno a que um sistema de informao est ligado.
Este conceito rene a utilizao das mais variadas tecnologias para o ato de informar
somente o que for relevante e de forma coerente e direta.
Durante alguns anos, a maioria das empresas acumulou muitas informaes em
seus bancos de dados, mas essas empresas, quase sempre, desconhecem o quanto essas
informaes podem ser teis na busca de melhores perspectivas futuras para seus
negcios.
Atualmente, existem ferramentas de software para o suporte tomada de deciso
que facilitam a gerao de consultas em banco de dados e/ou permitem formas de
anlise de dados mais complexas. Essas ferramentas incluem sistemas OLAP (On-Line
Analytic Processing) (Harrison, 1998).
As tcnicas de minerao de dados, consideradas um dos tipos mais complexos
de funo analtica, surgiram com o intuito de revelar as informaes estratgicas
escondidas em grandes bancos de dados, atravs da pesquisa dessas informaes e da
determinao de padres, classificaes e associaes entre elas. Essas informaes
valiosas podem ser utilizadas em muitas reas, tais como (Cratochvil, 1999): marketing,
instituies governamentais, sade e finana.
A minerao de dados pode ser vista como uma parte fundamental do processo
de descoberta de conhecimento em banco de dados.
Apesar da existncia de ferramentas que auxiliam na tarefa de minerao de
dados, ainda sentida a carncia de ferramentas para o desenvolvimento de sistemas de
-
Introduo
2
descoberta de conhecimento em banco de dados que atendam s necessidades
especficas de cada organizao.
Outra tcnica que tem sido reconhecida como bastante eficaz no
desenvolvimento e gerenciamento de sistemas de descoberta de conhecimento em banco
de dados a tecnologia de agentes, principalmente quando se trata de extrair
conhecimento em grandes bancos de dados localizados em ns diferentes de redes de
computadores (Knapik e Johnson, 1998).
O desenvolvimento de sistemas de descoberta de conhecimento em banco de
dados ainda se baseia em mtodos ad-hoc, devido falta de uma metodologia
completa e adequada que garanta a confiabilidade e a qualidade desses sistemas. Assim,
melhorias so necessrias, tanto no aspecto formal de desenvolvimento desses sistemas,
quanto em sua eficcia e sua eficincia.
1.2 OBJETIVOS
O objetivo geral desta tese de doutorado definir um modelo de formalizao do
processo de desenvolvimento de sistemas de descoberta de conhecimento em banco de
dados. Esse modelo engloba uma metodologia formal, denominada MeDesC e um
ambiente de implementao desses sistemas, denominado ADesC.
Os objetivos especficos so:
1. Definir, detalhadamente, as etapas da metodologia proposta;
2. Utilizar diagramas UML (Unified Modeling Language) para representar os objetos
do sistema e suas interaes;
3. Definir uma forma de mapeamento dos diagramas UML para uma linguagem de
especificao formal, tornando possvel verificao e validao do sistema;
4. Definir uma estrutura de agentes mveis e os tipos de servios necessrios em sua
implementao;
5. Especificar um ambiente de implementao de sistemas de descoberta de
conhecimento em banco de dados;
6. Implementar um prottipo para o ambiente ADesC;
7. Desenvolver uma aplicao prtica utilizando a metodologia MeDesc e implementar
esta aplicao no ambiente ADesC.
-
Introduo
3
1.3 JUSTIFICATIVAS
As principais justificativas para esta pesquisa so as seguintes:
As metodologias existentes, que definem um processo completo de desenvolvimento de sistemas computacionais, geralmente, atendem s necessidades da maioria desses
sistemas. No entanto, essas metodologias so inadequadas ao desenvolvimento de
sistemas de descoberta de conhecimento em banco de dados, devido ao fato desses
sistemas se diferenciarem de outros tipos de sistemas, principalmente pela
caracterstica de indeterminismo neles presentes.
As outras metodologias propostas para o desenvolvimento de sistemas de descoberta de conhecimento em banco de dados - Metodologia de Klemettinen, Metodologia de
Feldens e Modelo de Processo CRISP-DM (ver seo 2.2.8 do Captulo 2) - no
incluem formalismo em nenhuma de suas etapas.
A maioria das ferramentas de minerao de dados disponveis implementa tipos especficos dessas tcnicas (Goebel e Gruenwald, 1999), o que torna imprescindvel
um ambiente que implemente diferentes tcnicas de minerao de dados.
Este trabalho rene importantes reas atuais de pesquisa (minerao de dados, modelagem orientada a objetos, mtodos formais e agentes inteligentes) na busca de
uma metodologia sistemtica e de um ambiente interativo e eficaz que suportem os
requisitos de sistemas de descoberta de conhecimento em banco de dados.
1.4 CONTRIBUIES
A principal contribuio deste trabalho a definio de um modelo de
formalizao do processo de desenvolvimento de sistemas de descoberta de
conhecimento em banco de dados. Outras contribuies importantes:
A definio de uma metodologia que formaliza modelos UML com o propsito de tornar mais rigorosa a aplicao de modelagem orientada a objetos no processo de
desenvolvimento de sistemas de descoberta de conhecimento em banco de dados;
A descrio de uma forma de mapeamento dos diagramas UML para a linguagem de especificao formal E-LOTOS;
A especificao de um ambiente de implementao de sistemas de descoberta de conhecimento em banco de dados;
-
Introduo
4
O uso de tcnicas de minerao de dados na descoberta de conhecimento em banco de dados, segundo mtodo formal de especificao;
A possibilidade de integrao de diferentes bancos de dados; O emprego da tecnologia de agentes na construo de sistemas de descoberta de
conhecimento em banco de dados.
A utilizao das seguintes tecnologias bsicas: modelagem orientada a objetos (UML) e tcnica de descrio formal (E-LOTOS) nas etapas da metodologia
proposta (MeDesC) e a tecnologia de agentes inteligentes na especificao do
ambiente proposto (ADesC).
1.5 RESULTADOS ESPERADOS
Os resultados que se pretende obter com este trabalho so:
Um modelo de formalizao do processo de desenvolvimento de sistemas de descoberta de conhecimento em banco de dados;
A definio detalhada da metodologia MeDesC; A especificao do ambiente ADesC; Um prottipo do ambiente ADesC; O desenvolvimento de uma aplicao prtica utilizando a metodologia MeDesC e a
implementao dessa aplicao atravs do prottipo do ambiente ADesC.
1.6 ORGANIZAO DO TRABALHO
Este trabalho, alm deste captulo que teve como fundamento situar e definir os
objetivos do trabalho proposto, tem sua continuidade nos captulos a seguir.
O Captulo 2 (Fundamentao Terica) apresenta um levantamento bibliogrfico
sobre minerao de dados, mtodos formais e agentes inteligentes.
No Captulo 3 (Metodologia de Desenvolvimento da Pesquisa) descrita a
metodologia de desenvolvimento desta pesquisa de tese de doutorado.
O Captulo 4 (Modelo Geral Proposto e Metodologia de Desenvolvimento de
Sistemas de Descoberta de Conhecimento em Banco de Dados) apresenta um modelo de
formalizao do processo de desenvolvimento de sistemas de descoberta de
conhecimento em banco de dados e descreve as etapas da metodologia MeDesC.
-
Introduo
5
O Captulo 5 (Ambiente de Implementao de Sistemas de Descoberta de
Conhecimento em Banco de Dados) apresenta a especificao completa do ambiente
ADesC.
O Captulo 6 (Aplicao do Modelo) apresenta a aplicao do modelo geral
proposto atravs da especificao e da implementao de estudo de casos, tomando
como base dados da CAPES, aplicando a metodologia MeDesC e utilizando o prottipo
do ambiente ADesC.
Finalmente, no Captulo 7 so apresentadas as concluses deste trabalho e
sugestes para pesquisas futuras.
-
2 FUNDAMENTAO TERICA
2.1 INTRODUO
Durante vrias dcadas, desde a inveno do primeiro computador, o principal
objetivo da utilizao do computador solucionar problemas operacionais da
organizao. A grande maioria das organizaes ainda no possui meios de utilizao
dos recursos computacionais na tomada de deciso. Apesar da existncia de grandes
bancos de dados com muitas informaes sobre o negcio da empresa, ainda so
encontradas dificuldades na descoberta de conhecimento baseada nessas informaes.
Essas dificuldades podem estar relacionadas falta de conhecimento da existncia de
tcnicas de minerao de dados e/ou de ferramentas adequadas.
As tcnicas de minerao de dados so aplicadas em sistemas de descoberta de
conhecimento em banco de dados com o objetivo de extrair informaes estratgicas
escondidas em grandes bancos de dados, atravs da pesquisa dessas informaes e da
determinao de padres, classificaes e associaes entre elas (Goebel e Gruenwald,
1999).
Os sistemas de descoberta de conhecimento so considerados sistemas
complexos. Por isto, eles exigem maior rigor no seu processo de desenvolvimento.
Os mtodos formais esto sendo atualmente muito utilizados na especificao de
sistemas complexos com o objetivo de construir sistemas de forma mais sistemtica e
sem ambigidades. Eles podem ser aplicados durante todo o processo de
desenvolvimento de sistema ou apenas em determinadas fases do processo, com graus
variados de rigor (Rushby, 1993).
Outra tecnologia avanada que pode ser utilizada na implementao de sistemas
de descoberta de conhecimento em banco de dados a tecnologia de agentes
inteligentes, para facilitar, principalmente, as tarefas de busca e seleo de informaes
em grandes bancos de dados espalhados por redes de computadores, de escolha da
tcnica de minerao de dados mais adequada e de anlise dos resultados.
Assim, o objetivo deste captulo apresentar uma fundamentao terica sobre
as reas mais relevantes desta pesquisa, que so: minerao de dados, mtodos formais
e agentes inteligentes.
-
Fundamentao Terica 7
2.2 MINERAO DE DADOS
A minerao de dados pode ser considerada como uma parte do processo de
Descoberta de Conhecimento em Banco de Dados (KDD Knowledge Discovery in
Databases).
Segundo Goebel e Gruenwald (1999), o termo KDD usado para representar o
processo de tornar dados de baixo nvel em conhecimento de alto nvel, enquanto
minerao de dados pode ser definida como a extrao de padres ou modelos de dados
observados.
A minerao de dados combina mtodos e ferramentas das seguintes reas:
aprendizagem de mquina, estatstica, banco de dados, sistemas especialistas e
visualizao de dados, conforme Figura 2.1 (Cratochvil, 1999).
Figura 2.1: A Minerao de Dados como um Campo Multidisciplinar
KDD
Visualizao
Estatstica
Aprendizagem de Mquina
Banco de Dados
Sistemas Especialistas
2.2.1 Conceito de Minerao de dados
Minerao de dados a explorao e a anlise, por meio automtico ou semi-
automtico, de grandes quantidades de dados, a fim de descobrir padres e regras
significativos (Berry e Linoff, 1997, p.5).
Os principais objetivos da minerao de dados so descobrir relacionamentos
entre dados e fornecer subsdios para que possa ser feita uma previso de tendncias
futuras baseada no passado.
-
Fundamentao Terica 8
Os resultados obtidos com a minerao de dados podem ser usados no
gerenciamento de informao, processamento de pedidos de informao, tomada de
deciso, controle de processo e muitas outras aplicaes.
A minerao de dados pode ser aplicada de duas formas: como um processo de
verificao e como um processo de descoberta (Groth, 1998). No processo de
verificao, o usurio sugere uma hiptese acerca da relao entre os dados e tenta
prov-la aplicando tcnicas como anlises estatstica e multidimensional sobre um
banco de dados contendo informaes passadas. No processo de descoberta no feita
nenhuma suposio antecipada. Esse processo usa tcnicas, tais como descoberta de
regras de associao, rvores de deciso, algoritmos genticos e redes neurais.
2.2.2 Origem dos Dados
As tcnicas de minerao de dados podem ser aplicadas sobre bancos de dados
operacionais ou sobre Data Warehouse (DW) ou Data Mart, nos quais geralmente
resulta uma informao melhor, pois os dados normalmente so preparados antes de
serem armazenados no DW ou data mart (Dias et al, 1998). Podem ser aplicadas,
tambm, sobre um data set, que pode ser definido como um banco de dados (em um
sentido fraco do termo) contendo apenas o conjunto de dados especfico para um tipo de
investigao a ser realizada.
Um DW um conjunto de dados baseado em assuntos, integrado, no-voltil e
variante em relao ao tempo, de apoio s decises gerenciais (Inmon, 1997, p.33). No
princpio, a expresso representava simplesmente um armazm de dados, como a
traduo de DW; porm, ao longo do tempo, vem recebendo diversos incrementos em
sua estrutura.
Um DW tem por objetivo oferecer organizao, gerenciamento e integrao de
bancos de dados, assim como ferramentas de explorao dos mesmos, para se obter
vantagens competitivas no mercado. construdo tendo como base outros bancos de
dados operacionais que podem estar implementados em diferentes plataformas na
organizao. usado, geralmente, em aplicaes de suporte tomada de deciso.
Um data mart um DW departamental, ou seja, um DW construdo para uma
rea especfica da organizao (Inmon, 1997).
A tcnica de data mart facilita a tomada de decises em nvel departamental e
permite dados relacionais ou multidimensionais no volteis (Dias et al, 1998).
-
Fundamentao Terica 9
2.2.3 Tarefas Desempenhadas por Tcnicas de Minerao de dados
As tcnicas de minerao de dados podem ser aplicadas a tarefas1 como
classificao, estimativa, associao, segmentao e sumarizao. Essas tarefas so
descritas a seguir.
a) Classificao
A tarefa de classificao consiste em construir um modelo de algum tipo que
possa ser aplicado a dados no classificados visando categoriz-los em classes. Um
objeto examinado e classificado de acordo com uma classe definida (Harrison, 1998).
A tarefa de classificao pode ser considerada uma tarefa mal definida,
indeterminstica, que inevitvel pelo fato de envolver predio (Freitas, 2000, p. 65).
So exemplos de tarefas de classificao (Goebel e Gruenwald, 1999), (Mehta et
al, 1996): classificar pedidos de crditos como de baixo, mdio e alto risco; esclarecer
pedidos de seguros fraudulentos; identificar a forma de tratamento na qual um paciente
est mais propcio a responder, baseando-se em classes de pacientes que respondem
bem a determinado tipo de tratamento mdico.
b) Estimativa (ou Regresso)
A estimativa usada para definir um valor para alguma varivel contnua
desconhecida como, por exemplo, receita, altura ou saldo de carto de crdito (Harrison,
1998). Ela lida com resultados contnuos, enquanto que a classificao lida com
resultados discretos. Ela pode ser usada para executar uma tarefa de classificao,
convencionando-se que diferentes faixas (intervalos) de valores contnuos
correspondem a diferentes classes.
Regresso aprender uma funo que mapea um item de dado para uma
varivel de predio real estimada (Fayyad, 1996, p. 13).
Como exemplos de tarefas de estimativa tem-se (Fayyad, 1996), (Harrison,
1998): estimar o nmero de filhos em uma famlia; estimar a renda total de uma famlia;
estimar o valor em tempo de vida de um cliente; estimar a probabilidade de que um
paciente morrer baseando-se nos resultados de um conjunto de diagnsticos mdicos;
prever a demanda de um consumidor para um novo produto.
1 Neste contexto, tarefa um tipo de problema de descoberta de conhecimento a ser solucionado.
-
Fundamentao Terica 10
c) Associao
A tarefa de associao consiste em determinar quais itens tendem a co-
ocorrerem (serem adquiridos juntos) em uma mesma transao. O exemplo clssico
determinar quais produtos costumam ser colocados juntos em um carrinho de
supermercado, da o termo anlise de market basket. As cadeias de varejo usam
associao para planejar a disposio dos produtos nas prateleiras das lojas ou em um
catlogo, de modo que os itens geralmente adquiridos na mesma compra sejam vistos
prximos entre si (Harrison, 1998).
A tarefa de associao pode ser considerada uma tarefa bem definida,
determinstica e relativamente simples, que no envolve predio da mesma forma que a
tarefa de classificao (Freitas, 2000, p. 65).
d) Segmentao (ou Clustering)
A segmentao um processo de partio de uma populao heterognea em
vrios subgrupos ou clusters mais homogneos (Harrison, 1998). Na segmentao, no
h classes predefinidas, os registros so agrupados de acordo com a semelhana, o que a
diferencia da tarefa de classificao.
Exemplos de segmentao: agrupar os clientes por regio do pas, agrupar
clientes com comportamento de compra similar (Goebel e Gruenwald, 1999); agrupar
sees de usurios Web para prever comportamento futuro de usurio (Mobasher et al,
2000).
e) Sumarizao
Segundo Fayyad (1996), a tarefa de sumarizao envolve mtodos para
encontrar uma descrio compacta para um subconjunto de dados. Um simples exemplo
desta tarefa poderia ser tabular o significado e desvios padro para todos os itens de
dados. Mtodos mais sofisticados envolvem a derivao de regras de sumarizao.
As tarefas de minerao de dados, descritas acima, so apresentadas de forma
resumida na Tabela 2.1.
-
Fundamentao Terica 11
Tabela 2.1: Tarefas Realizadas por Tcnicas de Minerao de Dados
TAREFA DESCRIO EXEMPLOS
Classificao Constri um modelo de algum tipo que possa ser aplicado a dados no classificados a fim de categoriz-los em classes
Classificar pedidos de crdito Esclarecer pedidos de seguros
fraudulentos Identificar a melhor forma de
tratamento de um paciente Estimativa (ou Regresso)
Usada para definir um valor para alguma varivel contnua desconhecida
Estimar o nmero de filhos ou a renda total de uma famlia
Estimar o valor em tempo de vida de um cliente
Estimar a probabilidade de que um paciente morrer baseando-se nos resultados de diagnsticos mdicos
Prever a demanda de um consumidor para um novo produto
Associao Usada para determinar quais itens tendem a co-ocorrerem (serem adquiridos juntos) em uma mesma transao
Determinar quais os produtos costumam ser colocados juntos em um carrinho de supermercado
Segmentao (ou Clustering)
Processo de partio de uma populao heterognea em vrios subgrupos ou grupos mais homogneos
Agrupar clientes por regio do pas Agrupar clientes com comportamento
de compra similar Agrupar sees de usurios Web para
prever comportamento futuro de usurio Sumarizao Envolve mtodos para encontrar uma
descrio compacta para um subconjunto de dados
Tabular o significado e desvios padro para todos os itens de dados
Derivar regras de sntese
2.2.4 Tcnicas de Minerao de dados
Harrison (1998) afirma que no h uma tcnica que resolva todos os problemas
de minerao de dados. Diferentes mtodos servem para diferentes propsitos, cada
mtodo oferece suas vantagens e suas desvantagens. A familiaridade com as tcnicas
necessria para facilitar a escolha de uma delas de acordo com os problemas
apresentados. A seguir so descritas as tcnicas de minerao de dados normalmente
usadas.
a) Descoberta de Regras de Associao
A tcnica de descoberta de regras de associao estabelece uma correlao
estatstica entre certos itens de dados em um conjunto de dados (Goebel e Gruenwald,
1999).
-
Fundamentao Terica 12
Uma regra de associao tem a forma geral X1 ^ ... ^ Xn => Y [C,S], onde
X1,..., Xn so itens que prevem a ocorrncia de Y com um grau de confiana C e com
um suporte mnimo de S e ^ denota um operador de conjuno (AND). Um exemplo
desta regra pode ser que 90% dos clientes que compram leite, tambm compram po; o
percentual de 90% chamado a confiana da regra. O suporte da regra leite => po o
nmero de ocorrncias deste conjunto de itens na mesma transao.
A tcnica de descoberta de regras de associao apropriada tarefa de
associao.
Como exemplos de algoritmos que implementam regras de associao tem-se:
Apriori, AprioriTid, AprioriHybrid, AIS, SETM (Agrawal e Srikant, 1994) e DHP
(Chen et al, 1996).
b) rvores de Deciso
Uma rvore de deciso uma rvore onde cada n no terminal representa um
teste ou deciso sobre o item de dado considerado (Goebel e Gruenwald, 1999). O
objetivo principal separar as classes; tuplas de classes diferentes tendem a ser alocadas
em subconjuntos diferentes, cada um descrito por regra simples em um ou mais itens de
dados. Essas regras podem ser expressas como declaraes lgicas, em uma linguagem
como SQL, de modo que possam ser aplicadas diretamente a novas tuplas. Uma das
vantagens principais das rvores de deciso o fato de que o modelo bem explicvel,
uma vez que tem a forma de regras explcitas (Harrison, 1998).
A tcnica de rvore de deciso, em geral, apropriada s seguintes tarefas:
classificao e regresso.
Alguns exemplos de algoritmos de rvore de deciso so: CART, CHAID, C5.0,
Quest (Two Crows, 1999), ID-3 (Chen et al, 1996), SLIQ (Metha et al, 1996) e SPRINT
(Shafer et al, 1996).
c) Raciocnio Baseado em Casos
Tambm conhecido como MBR (Memory-Based Reasoning raciocnio
baseado em memria), o raciocnio baseado em casos tem base no mtodo do vizinho
mais prximo. O MBR procura os vizinhos mais prximos nos exemplos conhecidos e
combina seus valores para atribuir valores de classificao ou de previso (Harrison,
1998, p. 195). Tenta solucionar um dado problema fazendo uso direto de experincias e
solues passadas. A distncia dos vizinhos d uma medida da exatido dos resultados.
-
Fundamentao Terica 13
Na aplicao do MBR, segundo Berry e Linoff (1997), existem quatro passos
importantes: 1) escolher o conjunto de dados de treinamento; 2) determinar a funo de
distncia; 3) escolher o nmero de vizinhos mais prximos; e 4) determinar a funo de
combinao.
A tcnica de raciocnio baseado em casos apropriada s seguintes tarefas:
classificao e segmentao.
Os seguintes algoritmos implementam a tcnica de raciocnio baseado em casos:
BIRCH (Zhang et al, 1996), CLARANS (Chen et al, 1996) e CLIQUE (Agrawal et al,
1998).
d) Algoritmos Genticos
Os algoritmos genticos so mtodos generalizados de busca e otimizao que
simulam os processos naturais de evoluo. Um algoritmo gentico um procedimento
iterativo para evoluir uma populao de organismos e usado em minerao de dados
para formular hipteses sobre dependncias entre variveis, na forma de algum
formalismo interno (Goebel e Gruenwald, 1999).
Os algoritmos genticos usam os operadores de seleo, cruzamento e mutao
para desenvolver sucessivas geraes de solues. Com a evoluo do algoritmo,
somente as solues com maior poder de previso sobrevivem, at os organismos
convergirem em uma soluo ideal (Harrison, 1998).
A tcnica de algoritmos genticos apropriada s tarefas de classificao e
segmentao.
Exemplos de algoritmos genticos: Algoritmo Gentico Simples (Goldberg,
1989), Genitor e CHC (Whitley, 1993), Algoritmo de Hillis (Hillis, 1997), GA-Nuggets
(Freitas, 1999), GA-PVMINER (Arajo et al, 1999).
e) Redes Neurais Artificiais
As redes neurais so uma classe especial de sistemas modelados seguindo
analogia com o funcionamento do crebro humano e so formadas de neurnios
artificiais conectados de maneira similar aos neurnios do crebro humano (Goebel e
Gruenwald, 1999).
Como no crebro humano, a intensidade de interconexes dos neurnios pode
alterar (ou ser alterada por algoritmo de aprendizagem) em resposta a um estmulo ou
uma sada obtida que permite a rede aprender (Goebel e Gruenwald, 1999, p. 23).
-
Fundamentao Terica 14
Uma das principais vantagens das redes neurais sua variedade de aplicao,
mas os seus dados de entrada so difceis de serem formados e os modelos produzidos
por elas so difceis de entender (Harrison, 1998).
A tcnica de redes neurais apropriada s seguintes tarefas: classificao,
estimativa e segmentao.
Exemplos de redes neurais: Perceptron, Rede MLP, Redes de Kohonen, Rede
Hopfield, Rede BAM, Redes ART, Rede IAC, Rede LVQ, Rede Counterpropagation,
Rede RBF, Rede PNN, Rede Time Delay, Neocognitron, Rede BSB (Azevedo, 2000),
(Braga, 2000), (Haykin, 2001).
A Tabela 2.2 apresenta um resumo das tcnicas de minerao de dados aqui
descritas.
Tabela 2.2: Tcnicas de Minerao de Dados
TCNICA DESCRIO TAREFAS EXEMPLOS
Descoberta de Regras de Associao
Estabelece uma correlao estatstica entre atributos de dados e conjuntos de dados
Associao Apriori, AprioriTid, AprioriHybrid, AIS, SETM (Agrawal e Srikant, 1994) e DHP (Chen et al, 1996).
rvores de Deciso
Hierarquizao dos dados, baseada em estgios de deciso (ns) e na separao de classes e subconjuntos
Classificao Regresso
CART, CHAID, C5.0, Quest (Two Crows, 1999); ID-3 (Chen et al, 1996); SLIQ (Metha et al, 1996); SPRINT (Shafer et al, 1996).
Raciocnio Baseado em Casos ou MBR
Baseado no mtodo do vizinho mais prximo, combina e compara atributos para estabelecer
Classificao Segmentao
BIRCH (Zhang et al, 1996); CLARANS (Chen et al, 1996); CLIQUE (Agrawal et al, 1998).
Algoritmos Genticos
Redes Neurais Artificiais
hierarquia de semelhana
Mtodos gerais de busca e otimizao, inspirados na Teoria da Evoluo, onde a cada nova gerao, solues melhores tm mais chance de ter descendentes
Classificao Segmentao
Algoritmo Gentico Simples (Goldberg, 1989); Genitor, CHC (Whitley, 1993); Algoritmo de Hillis (Hillis, 1997); GA-Nuggets (Freitas, 1999); GA-PVMINER (Arajo et al, 1999).
Modelos inspirados na fisiologia do crebro, onde o conhecimento fruto do mapa das conexes neuronais e dos pesos dessas conexes
Classificao Segmentao
Perceptron, Rede MLP, Redes de Kohonen, Rede Hopfield, Rede BAM, Redes ART, Rede IAC, Rede LVQ, Rede Counterpropagation, Rede RBF, Rede PNN, Rede Time Delay, Neocognitron, Rede BSB (Azevedo, 2000), (Braga, 2000), (Haykin, 2001)
-
Fundamentao Terica 15
2.2.5 Como Escolher a Tcnica de Minerao de dados mais Adequada
A escolha de uma tcnica de minerao de dados a ser aplicada no uma tarefa
fcil. Segundo Harrison (1998), a escolha das tcnicas de minerao de dados depender
da tarefa especfica a ser executada e dos dados disponveis para anlise. Harrison
(1998) sugere que a seleo das tcnicas de minerao de dados deve ser dividida em
dois passos: 1) traduzir o problema de negcio a ser resolvido em sries de tarefas de
minerao de dados; 2) compreender a natureza dos dados disponveis em termos de
contedo e tipos de campos de dados e estrutura das relaes entre os registros.
Essa escolha pode ser baseada, tambm, em critrios para classificao das
tcnicas. Uma relao desses tipos de critrios dada por Harrison (1998).
Diferentes esquemas de classificao podem ser usados para categorizar
mtodos de minerao de dados sobre os tipos de bancos de dados a serem estudados, os
tipos de conhecimento a serem descobertos e os tipos de tcnicas a serem utilizadas
(Chen et al,1996, p.4), como pode ser visto a seguir:
Com que tipos de bancos de dados trabalhar: Um sistema de descoberta de conhecimento pode ser classificado de acordo com os
tipos de bancos de dados sobre os quais tcnicas de minerao de dados so
aplicadas, tais como: bancos de dados relacionais, bancos de dados de transao,
orientados a objetos, dedutivos, espaciais, temporais, de multimdia, heterogneos,
ativos, de herana, banco de informao de Internet e bases textuais.
Qual o tipo de conhecimento a ser explorado: Vrios tipos de conhecimento podem ser descobertos por extrao de dados,
incluindo regras de associao, regras caractersticas, regras de classificao, regras
discriminantes, grupamento, evoluo e anlise de desvio.
Qual tipo de tcnica a ser utilizada: A extrao de dados pode ser categorizada de acordo com as tcnicas de minerao
de dados subordinadas. Por exemplo, extrao dirigida a dados, extrao dirigida a
questionamento e extrao de dados interativa. Pode ser categorizada, tambm, de
acordo com a abordagem de minerao de dados subordinada, tal como: extrao
de dados baseada em generalizao, baseada em padres, baseada em teorias
estatsticas ou matemticas, abordagens integradas, etc.
-
Fundamentao Terica 16
Atualmente, a descoberta de regras de associao parece ser uma das tcnicas de
minerao de dados mais utilizada, sendo encontrada em diversas pesquisas (Agrawal e
Srikant, 1994), (Chen et al, 1996), (Hipp et al, 2000), (Holsheimer et al, 1996),
(Mannila, 1997), (Viveros et al, 1996).
2.2.6 reas de Aplicao de Tcnicas de Minerao de dados
A seguir, so relacionadas as principais reas de interesse na utilizao de
minerao de dados, de acordo com Cratochvil (1999), (Mannila, 1996), (Viveros et al,
1996):
Marketing. Tcnicas de minerao de dados so aplicadas para descobrir preferncias do consumidor e padres de compra, com o objetivo de realizar
marketing direto de produtos e ofertas promocionais, de acordo com o perfil do
consumidor.
Deteco de fraudes. Muitas fraudes bvias (tais como, a compensao de cheque por pessoas falecidas) podem ser encontradas sem minerao de dados, mas padres
mais sutis de fraude podem ser difceis de serem detectados, por exemplo, o
desenvolvimento de modelos que predizem quem ser um bom cliente ou aquele que
poder se tornar inadimplente em seus pagamentos.
Medicina: caracterizar comportamento de paciente para prever visitas, identificar terapias mdicas de sucesso para diferentes doenas, buscar por padres de novas
doenas.
Instituies governamentais: descoberta de padres para melhorar as coletas de taxas ou descobrir fraudes.
Cincia: tcnicas de minerao de dados podem ajudar cientistas em suas pesquisas, por exemplo, encontrar padres em estruturas moleculares, dados genticos,
mudanas globais de clima, oferecendo concluses valiosas rapidamente.
Controle de processos e controle de qualidade: auxiliar no planejamento estratgico de linhas de produo e buscar por padres de condies fsicas na
embalagem e armazenamento de produtos.
-
Fundamentao Terica 17
Banco: detectar padres de uso de carto de crdito fraudulento, identificar clientes leais, determinar gastos com carto de crdito por grupos de clientes, encontrar
correlaes escondidas entre diferentes indicadores financeiros.
Aplice de seguro: anlise de reivindicaes determinar quais procedimentos mdicos so reivindicados juntos, prever quais clientes compraro novas aplices,
identificar padres de comportamento de clientes perigosos, identificar
comportamento fraudulento.
Transporte: determinar as escalas de distribuio entre distribuidores, analisar padres de carga.
C & T (Cincia e Tecnologia): avaliar grupos de pesquisa do pas (Gonalves, 2000), (Romo, 1999).
Web: existem muitas pesquisas direcionadas aplicao de minerao de dados na Web, tais como: (Loh et al, 2000), (Kosala e Blockeel, 2000), (Ma et al, 2000),
(Mobasher et al, 2000), (Sarawagi e Nagaralu, 2000), (Spiliopoulou, 2000).
2.2.7 O Processo de Descoberta de Conhecimento
O processo de descoberta de conhecimento um mtodo semi-automtico
complexo e iterativo (Mannila, 1996). De acordo com Groth (1998), ele pode ser
dividido em cinco passos bsicos: preparao de dados, definio de um estudo,
construo de um modelo, entendimento do modelo e predio.
Para Lans (1997), existe um passo que antecede a preparao de dados, trata-se
da definio de objetivos.
A Figura 2.2 representa o processo de descoberta de conhecimento.
A seguir, os passos bsicos do processo de descoberta de conhecimento so
descritos.
1) Definio de Objetivos
Neste passo, deve-se definir os objetivos de negcio que devero ser alcanados
com a minerao de dados e o que dever ser feito com os seus resultados, como por
exemplo: mudana de plano de marketing.
-
Fundamentao Terica 18
Figura 2.2: Processo de Descoberta de Conhecimento
Escolha do melhor resultado possvel
Anlise baseada no tipo de tcnica de minerao de dados aplicada
Aplicao de uma tcnica de minerao de dados
Articular um alvo Escolher uma varivel dependente Especificar os campos de dados
usados no estudo
Seleo e transformao dos dados Registro no Metadados Registro do DW, DM ou DS
Planejamento de ao Planejamento de
avaliao de resultados
Predio
Anlise do Modelo
Construo de um Modelo
Definio de um Estudo
Acesso e Preparao de
Dados
Definio de Objetivos
2) Preparao de dados
A preparao de dados envolve as tarefas de seleo e transformao dos dados.
Os tipos de dados selecionados podem estar organizados ao longo de mltiplas tabelas.
Durante a seleo de dados, o usurio pode necessitar executar junes de tabelas ou
eliminar linhas e/ou colunas de tabelas. Os mtodos de transformao incluem organizar
dados na forma desejada e converter um tipo de dado em outro tipo. A definio de
-
Fundamentao Terica 19
novos atributos outro tipo de transformao que pode envolver aplicar operadores
matemticos ou lgicos sobre os valores de um ou mais atributos.
Os dados selecionados e transformados so armazenados em um DW, data mart
ou data set. Para facilitar a realizao desta fase, deve ser mantido um catlogo sobre as
fontes de dados e sobre o que est no DW, data mart e data set no metadados. Os
metadados so dados sobre as estruturas contidas em banco de dados. O metadados
facilita o entendimento sobre o contedo e a estrutura de um DW, bem como a histria
das modificaes realizadas.
A realizao das tarefas deste passo exige conhecimento dos dados operacionais
e de seus relacionamentos, disponibilidade de tempo do analista e/ou usurio e alguns
cuidados na escolha de subconjuntos de atributos e de dados. Becher et al (2000)
apresentam uma abordagem para a automatizao desse passo e Hsu et al (2000)
propem o uso de um sistema semi-automtico de limpeza de dados. Pyle (1999)
descreve uma metodologia de preparao de dados.
3) Definio de um estudo
Definir um estudo pode envolver articular um alvo, escolher uma varivel
dependente ou uma sada que caracterize um aspecto do alvo e especificar os campos de
dados que so usados no estudo. Bons estudos so unidos para caracterizar aquilo que
pode ser descrito com seus dados. Por outro lado, o alvo pode ser usado para agrupar
tipos similares de dados ou para identificar excees em um conjunto de dados. A
identificao de excees geralmente usada na descoberta de fraude ou de dados
incorretos.
As atividades realizadas neste passo complementam os objetivos de negcio,
definidos anteriormente, aps a obteno de um conhecimento mais detalhado sobre os
dados operacionais existentes.
4) Construo de um modelo
A construo de um modelo feita atravs de uma tcnica de minerao de
dados, tendo como base os dados transformados e o estudo definido no passo anterior.
Um modelo resume grandes quantidades de dados por acumular indicadores. Alguns
dos indicadores que vrios modelos acumulam so: a) freqncias: mostram em qual
freqncia que um certo valor ocorre; b) pesos ou impactos: indicam a influncia
exercida por algumas entradas na ocorrncia de uma sada; c) conjunes: algumas
-
Fundamentao Terica 20
vezes certas entradas tm mais peso juntas do que separadas; d) diferenciao: indica a
importncia de uma entrada para uma determinada sada do que para uma outra sada.
5) Entendimento do modelo
Dependendo do tipo de modelo usado para representar os dados, existem
diferentes formas de entend-lo. Os indicadores que muitos modelos podem acumular,
conforme descritos no passo anterior, podem influenciar no entendimento do modelo,
alm do tipo de tcnica de minerao de dados aplicada na construo do modelo.
6) Predio
A predio o processo de escolher o melhor resultado possvel baseado na
anlise de dados histricos. O usurio deve analisar a informao descoberta de acordo
com sua tarefa de suporte deciso e objetivos. Portanto, ele precisa ter um bom
entendimento sobre o negcio da empresa e sobre o conhecimento descoberto.
2.2.8 Metodologias para Sistemas de Descoberta de Conhecimento
O desenvolvimento de um sistema de descoberta de conhecimento em banco de
dados uma tarefa muito complexa, principalmente pela caracterstica de
indeterminismo deste tipo de sistema. Portanto, imprescindvel o uso de uma
metodologia completa e sistemtica.
Uma metodologia de engenharia de software um processo para a produo
organizada de software, com utilizao de uma coleo de tcnicas predefinidas
e convenes de notao. Uma metodologia costuma ser apresentada como uma
srie de etapas, com tcnicas e notao associadas a cada etapa. (Rumbaugh et
al, 1994, p. 191).
Os trabalhos que se propem apresentar uma metodologia para o
desenvolvimento de sistemas de descoberta de conhecimento no incluem formalismo
na especificao desses sistemas. Normalmente, as metodologias propostas procuram
solucionar questes relativas a determinadas etapas do processo de desenvolvimento
desses sistemas e no apresentam notao para representar as caractersticas do sistema
como um todo.
-
Fundamentao Terica 21
A seguir, so relacionados trs trabalhos que propem uma metodologia para
sistemas de descoberta de conhecimento em banco de dados.
a) Metodologia de Klemettinen
Klemettinen et al (1997) apresentam uma metodologia que pode ser usada para
automatizar aquisio de conhecimento. As fases dessa metodologia so aquelas j
definidas por outros autores (Fayyad, 1996), (Mannila, 1996): pr-processamento,
transformao, descoberta, apresentao e utilizao (ver Figura 2.3). No entanto, maior
nfase dada nas duas fases centrais dessa metodologia:
Fase de descoberta de padres: onde so encontrados todos os padres potencialmente relevantes para algum critrio bastante livre;
Fase de apresentao: onde so fornecidos mtodos flexveis para iterativa e interativamente criar diferentes vises para os padres descobertos.
Figura 2.3: O Modelo do Processo KDD (Klemettinen et al, 1997)
Nas duas primeiras fases do processo, os dados so coletados e preparados de
forma adequada para descoberta de padres. Uma viso geral sobre os dados pode ser
produzida nesta fase. Os atributos identificados como irrelevantes so removidos e
novos atributos podem ser derivados.
Na fase de descoberta de padres, todos os padres potencialmente interessantes
so gerados do conjunto do data set.
A apresentao do conhecimento descoberto uma parte principal dessa
metodologia. Nesta fase, os padres relevantes podem ser localizados de grandes
colees de padres potencialmente relevantes.
-
Fundamentao Terica 22
b) Metodologia de Feldens
Feldens et al (1998) propem uma metodologia integrada, na qual as tecnologias
de minerao de dados e data warehouse, bem como questes de visualizao tm
papis muito importantes no processo. Tambm supe uma forte interao entre
mineradores de dados e pessoas da organizao para questes de modelagem e
preparao de dados. As fases definidas para esta metodologia so: pr-processamento,
minerao de dados e ps-processamento, conforme Figura 2.4.
Figura 2.4: Processo KDD (Feldens et al, 1998)
A fase de pr-processamento inclui tudo o que feito antes da minerao de
dados, o que significa a anlise que feita na organizao a fim de enfocar o projeto de
minerao de dados, a anlise dos dados existentes, integrao de fontes de dados,
transformaes de dados, etc.
A fase de minerao de dados inclui a aplicao de algoritmos, possivelmente a
aplicao repetida. A escolha dos algoritmos pode ser realizada baseando-se na anlise
que feita na fase de pr-processamento.
A fase de ps-processamento pode ser definida por operaes de filtragem,
estruturao e classificao. Somente aps esta fase, o conhecimento descoberto
-
Fundamentao Terica 23
apresentado ao usurio. O conhecimento descoberto pode ser filtrado por alguma
medida estatstica, por exemplo, suporte, confiana ou outro critrio definido pelo
usurio. Estruturao significa que o conhecimento pode ser organizado de forma
hierrquica.
c) Modelo de Processo CRISP-DM
O Modelo de Processo CRISP-DM (CRoss-Industry Standard Process for Data
Mining) define um processo de minerao de dados no linear (CRIP-DM, 2001),
conforme pode ser visto na Figura 2.5.
Modelagem
Utilizao
Avaliao
Preparao de Dados
Entendimento dos Dados
Entendimento do Negcio
Dados
Figura 2.5: Fases do Modelo de Processo CRISP-DM (CRISP-DM, 2001)
Neste modelo, o ciclo de vida do projeto de minerao de dados consiste de seis
fases. A seqncia dessas fases no rigorosa, depende do resultado de cada fase ou de
qual tarefa particular de uma fase precisa ser executada na prxima fase. As flechas
indicam as dependncias mais importantes e freqentes entre as fases.
O crculo externo na figura simboliza a natureza cclica da minerao de dados.
Um processo de minerao de dados continua aps uma soluo ter sido descoberta. Os
processos de minerao de dados subseqentes se beneficiaro das experincias
anteriores.
-
Fundamentao Terica 24
A seguir, cada fase do modelo definida sucintamente.
A fase inicial do processo, Entendimento do Negcio (Business Understanding),
visa o entendimento dos objetivos do projeto e dos requisitos sob o ponto de vista do
negcio. Baseado no conhecimento adquirido, o problema de minerao de dados
definido e um plano preliminar projetado para ativar os objetivos.
A fase Entendimento dos Dados (Data Understanding) inicia com uma coleo
de dados e procede com atividades que visam: buscar familiaridade com os dados,
identificar problemas de qualidade de dados, descobrir os primeiros discernimentos nos
dados ou detectar subconjuntos interessantes para formar hipteses da informao
escondida.
A fase Preparao de Dados (Data Preparation) cobre todas as atividades de
construo do dataset final. As tarefas de preparao de dados so, provavelmente,
desempenhadas vrias vezes e no em qualquer ordem prescrita. Estas tarefas incluem
seleo de tabelas, registros e atributos, bem como transformao e limpeza dos dados
para as ferramentas de modelagem.
Na fase Modelagem (Modelling), vrias tcnicas de modelagem so selecionadas
e aplicadas e seus parmetros so ajustados para valores timos. Geralmente, existem
vrias tcnicas para o mesmo tipo de problema de minerao de dados. Algumas
tcnicas tm requisitos especficos na formao de dados. Portanto, retornar fase de
preparao de dados freqentemente necessrio.
Na fase Avaliao (Evaluation), o modelo (ou modelos) construdo na fase
anterior avaliado e so revistos os passos executados na sua construo para se ter
certeza de que o modelo representa os objetivos do negcio. O principal objetivo
determinar se existe alguma questo de negcio importante que no foi suficientemente
considerada. Nesta fase, uma deciso sobre o uso dos resultados de minerao de dados
dever ser alcanada.
Aps o modelo (ou modelos) ser construdo e avaliado, na fase Utilizao, ou
Aplicao, (Deployment) ele pode ser usado de duas formas. Na primeira forma, o
analista pode recomendar aes a serem tomadas baseando-se simplesmente na viso do
modelo e de seus resultados. Na segunda forma, o modelo pode ser aplicado a diferentes
conjuntos de dados.
-
Fundamentao Terica 25
2.2.9 Ferramentas de Minerao de dados
De acordo com Goebel e Gruenwald (1999), muitas ferramentas atualmente
disponveis so ferramentas genricas da Inteligncia Artificial ou da comunidade de
estatstica. Tais ferramentas geralmente operam separadamente da fonte de dados,
requerendo uma quantidade significativa de tempo gasto com exportao e importao
de dados, pr- e ps-processamento e transformao de dados. Entretanto, segundo os
autores, a conexo rgida entre a ferramenta de descoberta de conhecimento e a base de
dados analisada, utilizando o suporte do SGBD (Sistema de Gerenciamento de Banco de
Dados) existente, claramente desejvel. Para Goebel e Gruenwald (1999), as
caractersticas a serem consideradas na escolha de uma ferramenta de descoberta de
conhecimento devem ser as seguintes:
A habilidade de acesso a uma variedade de fontes de dados, de forma on-line e off-line;
A capacidade de incluir modelos de dados orientados a objetos ou modelos no padronizados (tal como multimdia, espacial ou temporal);
A capacidade de processamento com relao ao nmero mximo de tabelas/tuplas/atributos;
A capacidade de processamento com relao ao tamanho do banco de dados; Variedade de tipos de atributos que a ferramenta pode manipular; e Tipo de linguagem de consulta.
Existem ferramentas que implementam uma ou mais tcnicas de minerao de
dados. A Tabela 2.3 relaciona algumas dessas ferramentas, fornecendo informaes tais
como: a empresa fornecedora, as tcnicas implementadas de minerao de dados e
exemplos de aplicaes.
Collier et al (1999) propem uma metodologia para seleo de ferramentas de
software de minerao de dados disponveis no mercado.
-
Fundamentao Terica 26
Tabela 2.3: Ferramentas de Minerao de Dados
FERRAMENTA/
EMPRESA FORNECEDORA
TCNICAS DE MINERAO DE
DADOS
APLICAES
AIRA/ Hycones IT (1998)
Regras de associao Gerenciamento de relacionamento de cliente, marketing, deteco de fraude, controle de processo e controle de qualidade.
Alice 5.1/ Isoft AS. (1998)
rvore de deciso Raciocnio baseado em casos
Poltica de crdito, marketing, sade, controle de qualidade, recursos humanos.
Clementine/ Integral Solutions Limited (ISL, 1996)
Induo de regras rvores de deciso Redes neurais
Marketing direto, identificao de oportunidades de venda cruzada, reteno de cliente, previso de lucro do cliente, deteco de fraude, segmentao e lucro do cliente.
DataMind / DataMind Technology Center (1998), (Groth, 1998)
(abordagem prpria) No identificadas.
Decision Series/ Neovista Solutions Inc. (1998)
rvore de deciso Mtodos estatsticos Induo de regras Redes neurais
Marketing direcionado, deteco de fraude, reteno de cliente, anlise de risco, segmentao de cliente, anlise de promoo.
Intelligent Miner/ IBM (1997)
rvores de deciso Redes neurais
Segmentao de cliente, anlise de conjunto de itens, deteco de fraude.
KnowledgeSEEKER/ Angoss IL (Groth, 1998)
rvores de deciso Induo de regras
Lucro e segmentao de cliente para deteco de fraude e anlise de risco, controle de processo, marketing direto.
MineSet/ Silicon Graphics Computer Systems (2000)
Mtodos estatsticos rvores de deciso Induo de regras
reas da sade, farmacutica, biotecnologia e qumica.
NeuralWorks Predict/ NeuralWare (Groth, 1998)
Rede neural Indstria.
PolyAnalyst/ Megaputer Intelligence Ltd. (1998)
Algoritmo gentico Mtodos estatsticos Induo de regras
Marketing direto, pesquisa mdica, anlise de conjunto de itens.
2.3 MTODOS FORMAIS
"Mtodos Formais so o uso de tcnicas matemticas no projeto e anlise de
hardware e software de computador; em particular, mtodos formais permitem que
propriedades de um sistema de computao sejam prognosticadas de um modelo
matemtico do sistema por um processo semelhante a clculo (Rushby, 1993, p. 7).
Mtodos formais so um conjunto de ferramentas e notaes (com uma
semntica formal) usado para especificar de forma no ambgua os requisitos de um
-
Fundamentao Terica 27
sistema que suporta a prova ou propriedades daquela especificao e provas de
corretude de uma implementao para aquela especificao (Wiryana, 1998, p. 16).
Segundo Sinnot e Turner (1994), um mtodo formal baseado em uma
linguagem formal, isto , uma notao simblica que usa regras no ambguas para
desenvolver expresses legais naquela linguagem e para interpretar a semntica dessas
expresses.
De acordo com Rushby (1993), as linguagens formais em cincia da
computao, enriquecidas com algumas das idias de linguagens de programao, so
chamadas linguagens de especificao, mas sua interpretao geralmente baseada
em uma lgica padro.
Mtodos Formais geralmente utilizam conceitos matemticos e notaes para
definir precisamente teorias e modelos de comportamento da aplicao (Bates, 1996).
Portanto, mtodos formais modelam o comportamento discreto de sistemas
computacionais usando matemtica discreta.
De uma forma geral, no processo de desenvolvimento de sistemas, os requisitos
e as especificaes so documentados, geralmente, em linguagem natural;
possivelmente com o auxlio de diagramas, equaes, fluxogramas, dicionrios de dados
e pseudocdigo. Segundo Rushby (1993), o processo de desenvolvimento de sistemas
considerados de segurana crtica e outros tipos de sistemas incluem componentes
conhecidos como verificao e validao (V & V).
A verificao o processo de determinar que cada nvel de especificao e o
prprio cdigo final, completa e exclusivamente, implementam os requisitos da
especificao como um todo. A verificao mostra que o sistema foi construdo de
acordo com os requisitos.
A validao, o outro componente de V & V, o processo de confirmar que a
especificao uma representao verdadeira do mundo real. A validao mostra que os
requisitos esto corretos.
Existem vantagens, dificuldades e custos associados com o uso de mtodos
formais. Segundo Rushby (1993), as vantagens variam com: a natureza e o fator crtico
da aplicao; os estgios do ciclo de vida no qual mtodos formais so usados; o grau de
formalidade empregada; a qualidade do mtodo e de quaisquer ferramentas mecanizadas
que o suportam; e a experincia e competncia dos profissionais.
-
Fundamentao Terica 28
Experincias mostram que a adio de mtodos formais ao processo de
desenvolvimento pode levar a um aumento significativo nos custos, mas que
quando mtodos formais so integrados completamente ao processo de
desenvolvimento e os custos so medidos sobre todas as fases do ciclo de vida,
os custos podem diminuir (Liu et al, 1998, p. 24).
As vantagens exigidas a todos os mtodos formais so a deteco de falhas o
mais cedo possvel. Isto ocorre porque as previses podem ser realizadas o mais cedo
possvel no ciclo de vida e pelo fato dos mtodos formais suportarem anlises mais
sistemticas do que mtodos informais.
A vantagem exigida para especificaes formais a reduo da ambigidade e
da impreciso de especificaes em linguagem natural.
Segundo Wiryana (1998), o uso de mtodos formais contribui para:
A possibilidade de raciocnio sobre aspectos de usabilidade do sistema; A capacidade de execuo da especificao do sistema; O refinamento e a estruturao do processo; A capacidade de modificao; A completeza da especificao.
2.3.1 Caractersticas de Mtodos Formais
De acordo com Clarke e Wing (1997), alguns mtodos formais, tais como Z,
VDM e Larch, tratam da especificao do comportamento de sistemas seqenciais.
Nesses mtodos, os estados so descritos em termos de estruturas matemticas ricas
como conjuntos, relaes e funes; transies de estado so dadas em termos de pr- e
ps-condies.
Clarke e Wing (1997) afirmam, tambm, que outros mtodos, tais como CSP,
CCS, Statecharts, Lgica Temporal e Autmato de E/S, tratam da especificao do
comportamento de sistemas concorrentes; os estados variam tipicamente sobre domnios
simples como inteiros e o comportamento definido em termos de seqncias, rvores
ou ordens parciais de eventos.
O uso dos conceitos matemticos de abstrao e composio comum a todos
esses mtodos.
-
Fundamentao Terica 29
2.3.2 Classificao de Mtodos Formais
Liu et al (1997) classificam mtodos formais em cinco classes ou tipos:
a) Abordagem Baseada em Modelo;
b) Abordagem Baseada em Lgica;
c) Abordagem Algbrica;
d) Abordagem da lgebra de Processos;
e) Abordagem Baseada em Rede.
a) Abordagem Baseada em Modelo
Nesta abordagem, um sistema modelado expl