minerac˘ao de dados meteorol~ ogicos pela...
TRANSCRIPT
INPE-15665-TDI/1441
MINERACAO DE DADOS METEOROLOGICOS PELA
TEORIA DOS CONJUNTOS APROXIMATIVOS NA
PREVISAO DE CLIMA POR REDES NEURAIS
ARTIFICIAIS
Alex Sandro Aguiar Pessoa
Dissertacao de Mestrado do Curso de Pos-Graduacao em Computacao Aplicada,
orientada pelo Dr. Jose Demisio Simoes da Silva, aprovada em 9 de dezembro de
2004
Registro do documento original:
<http://urlib.net/sid.inpe.br/jeferson/2005/02.15.15.46>
INPE
Sao Jose dos Campos
2009
PUBLICADO POR:
Instituto Nacional de Pesquisas Espaciais - INPE
Gabinete do Diretor (GB)
Servico de Informacao e Documentacao (SID)
Caixa Postal 515 - CEP 12.245-970
Sao Jose dos Campos - SP - Brasil
Tel.:(012) 3945-6911/6923
Fax: (012) 3945-6919
E-mail: [email protected]
CONSELHO DE EDITORACAO:
Presidente:
Dr. Gerald Jean Francis Banon - Coordenacao Observacao da Terra (OBT)
Membros:
Dra Maria do Carmo de Andrade Nono - Conselho de Pos-Graduacao
Dr. Haroldo Fraga de Campos Velho - Centro de Tecnologias Especiais (CTE)
Dra Inez Staciarini Batista - Coordenacao Ciencias Espaciais e Atmosfericas (CEA)
Marciana Leite Ribeiro - Servico de Informacao e Documentacao (SID)
Dr. Ralf Gielow - Centro de Previsao de Tempo e Estudos Climaticos (CPT)
Dr. Wilson Yamaguti - Coordenacao Engenharia e Tecnologia Espacial (ETE)
BIBLIOTECA DIGITAL:
Dr. Gerald Jean Francis Banon - Coordenacao de Observacao da Terra (OBT)
Marciana Leite Ribeiro - Servico de Informacao e Documentacao (SID)
Jefferson Andrade Ancelmo - Servico de Informacao e Documentacao (SID)
Simone A. Del-Ducca Barbedo - Servico de Informacao e Documentacao (SID)
REVISAO E NORMALIZACAO DOCUMENTARIA:
Marciana Leite Ribeiro - Servico de Informacao e Documentacao (SID)
Marilucia Santos Melo Cid - Servico de Informacao e Documentacao (SID)
Yolanda Ribeiro da Silva Souza - Servico de Informacao e Documentacao (SID)
EDITORACAO ELETRONICA:
Viveca Sant´Ana Lemos - Servico de Informacao e Documentacao (SID)
INPE-15665-TDI/1441
MINERACAO DE DADOS METEOROLOGICOS PELA
TEORIA DOS CONJUNTOS APROXIMATIVOS NA
PREVISAO DE CLIMA POR REDES NEURAIS
ARTIFICIAIS
Alex Sandro Aguiar Pessoa
Dissertacao de Mestrado do Curso de Pos-Graduacao em Computacao Aplicada,
orientada pelo Dr. Jose Demisio Simoes da Silva, aprovada em 9 de dezembro de
2004
Registro do documento original:
<http://urlib.net/sid.inpe.br/jeferson/2005/02.15.15.46>
INPE
Sao Jose dos Campos
2009
Dados Internacionais de Catalogacao na Publicacao (CIP)
P475m Pessoa, Alex Sandro Aguiar.Mineracao de dados meteorologicos pela teoria dos conjun-
tos aproximativos na previsao de clima por redes neurais artifici-ais / Alex Sandro Aguiar Pessoa. – Sao Jose dos Campos: INPE,2009.
146p. ; (INPE-15665-TDI/1441)
Dissertacao (Computacao Aplicada) – Instituto Nacional dePesquisas Espaciais, Sao Jose dos Campos, 2004.
1. Teoria dos conjuntos aproximativos. 2. Redes neurais ar-tificiais. 3. Retropropagacao. 4. Previsao do clima. 5. Mineracaode Dados. I.Tıtulo.
CDU 004.738
Copyright c© 2009 do MCT/INPE. Nenhuma parte desta publicacao pode ser re-
produzida, armazenada em um sistema de recuperacao, ou transmitida sob qualquer
forma ou por qualquer meio, eletronico, mecanico, fotografico, microfılmico, repro-
grafico ou outros, sem a permissao escrita da Editora, com excecao de qualquer
material fornecido especificamente no proposito de ser entrado e executado num
sistema computacional, para o uso exclusivo do leitor da obra.
Copyright c© 2009 by MCT/INPE. No part of this publication may be reproduced,
stored in a retrieval system, or transmitted in any form or by any means, eletro-
nic, mechanical, photocopying, microfilming, recording or otherwise, without written
permission from the Publisher, with the exception of any material supplied speci-
fically for the purpose of being entered and executed on a computer system, for
exclusive use of the reader of the work.
“Pedras no caminho? Guardo todas, um dia vou construir um castelo...”
FERNANDO PESSOA
A minha companheira, cúmplice e amiga, por sempre estar ao meu lado, nos momentos bons ou ruins. Obrigado Ridenia.
AGRADECIMENTOS Agradeço a Deus, por me impulsionar para mais uma conquista em minha vida. Tudo
para sua honra e glória.
Agradeço, também:
A minha esposa Ridenia, pelas orações, carinho e apoio.
A meu Pai, João e minha Mãe, Lenita, pelos esforços e renuncias que fizeram em suas
vidas pelos filhos.
A meus irmãos: Cezar, Cristiano, Arley e Aline, pelo amor e por todos os dias em que
estivemos juntos.
Ao meu orientador Dr. Demisio, pela confiança depositada em minha pessoa.
Ao CNPq pelo apoio financeiro.
Ao Prof. Santo Scuderi pelo caminho mostrado.
Ao Prof. Cláudio da Rocha Brito, pelo incentivo a Ciência.
Ao Jacques Polit e Fernando Marques, irmãos dados pela vida, pelo companheirismo.
É fato, que muitas outras participaram de minha vida, e agradeço pelo apoio e incentivo
dados. São por essas pessoas que penso que o importante nesta vida, não é o que temos,
mas quem temos. Obrigado Senhor pelos seus instrumentos colocados em minha vida...
RESUMO
Esta dissertação aborda a utilização da teoria dos conjuntos aproximativos (TCA) com o propósito de redução de variáveis para a realização de previsão climática utilizando redes neurais artificiais (RNA), de modo a diminuir o esforço computacional e manter os erros em níveis aceitáveis na previsão climática. A TCA é uma ferramenta eficaz na compactação de uma base de dados, não só pela redução de elementos, mas também pela eliminação do conjunto de atributos supérfluos. Adicionalmente, neste estudo, as redes neurais foram utilizadas para aprender, a partir de 18 anos (Jan/1980-Dec/1997) de dados para a América do Sul, o comportamento sazonal das variáveis de precipitação e temperatura para fazer uma estimativa para os 3 anos consecutivos aos dados de treinamento (1998,1999 e 2000). Como entrada as RNA tem dados de duas espécies, para efeitos comparativos: variáveis ou atributos reduzidos e com todas as variáveis. O produto final deste processo para as variáveis de precipitação e temperatura são previsões, contendo médias trimestrais com de alcance temporal ∆ (1 ou 3 trimestres à frente).
METEOROLOGICAL DATA MINING USING ROUGH SET THEORY IN
CLIMATE FORECAST WITH ARTIFICIAL NEURAL NETWORK.
ABSTRACT This study analyze the use of the Rough Set Theory (RST) with goal the reduce variables for the climate forecast using Artificial Neural Network (ANN), decreasing the computational computation time and keeping the errors in accept levels on the climate forecast. The RST is an efficient tool for compress a database, reducing the numbers of elements and the superfluous variables. Additionally, on this study, the neural networks, was used to learn the seasonal atmospheric behavior for precipitation and temperature, data between the period of Jan/1980 until Dec/1997 in the South America and estimate the 3 consecutive years (1998, 1999 and 2000) of this variables. The input of RNA there is two kinds of data: reduce variables data and full variables data. This process results in quarterly forecast for precipitation and temperature, estimated by neural networks for a time-step ∆ forward.
SUMÁRIO
Pág.
LISTA DE FIGURAS LISTA DE TABELAS 1 INTRODUÇÃO ......................................................................................................... 21 2 PREVISÃO CLIMÁTICA ........................................................................................ 27 2.1 Meteorologia............................................................................................................. 27 2.2 Tipos de modelo numérico....................................................................................... 28 2.1.1 Modelo Global de Circulação Geral Atmosférico (MCGA)................................. 28 2.1.2 Modelo regional..................................................................................................... 30 2.3 Previsão climática..................................................................................................... 30 2.4 Tipos de previsão...................................................................................................... 31 2.4.1 Previsão determinística.......................................................................................... 33 2.4.2 Previsão probabilística........................................................................................... 33 3 MINERAÇÃO DE DADOS ...................................................................................... 35 3.1 Introdução................................................................................................................. 35 3.2 Definições básicas.................................................................................................... 35 3.3 O processo de descoberta de conhecimento............................................................. 37 3.4 Classificação da mineração de dados....................................................................... 39 3.5 Principais tarefas da mineração de dados................................................................. 39 3.5.1 Caracterização....................................................................................................... 40 3.5.2 Associação............................................................................................................. 40 3.5.3 Classificação.......................................................................................................... 40 3.5.4 Regressão............................................................................................................... 41 3.5.5 Segmentação.......................................................................................................... 41 3.6 Técnicas de mineração de dados.............................................................................. 41 3.7 Mineração de dados espaço-temporal....................................................................... 42 4 TEORIA DOS CONJUNTOS APROXIMATIVOS ............................................... 47 4.1 Introdução................................................................................................................. 47 4.2 Conceitos básicos..................................................................................................... 48 4.2.1 Sistemas de informação......................................................................................... 48 4.3 Indiscernibilidade..................................................................................................... 50 4.4 Aproximação dos conjuntos..................................................................................... 52 4.5 Reduções................................................................................................................... 58 4.6 “Conjuntos candidatos” (Hitting sets) ...................................................................... 66 4.7 “ε – conjuntos candidatos aproximados” (ε – approximate hitting sets) ................. 67 4.8 Função de pertinência aproximativa......................................................................... 68 4.9 Rosetta...................................................................................................................... 69 4.9.1 Introdução aos algoritmos genéticos..................................................................... 70 4.9.2 Algoritmo SAVGeneticReducer............................................................................. 73
4.9.3 Algoritmo JohnsonReducer................................................................................... 74 4.10 Núcleo aproximado................................................................................................. 75 4.11 Comentários finais sobre a TCA............................................................................77 5 REDES NEURAIS ARTIFICIAIS ........................................................................... 78 5.1 Introdução................................................................................................................. 78 5.2 O que são as RNA?................................................................................................... 79 5.3 Modelo do neurônio................................................................................................. 81 5.4 Estrutura da rede....................................................................................................... 82 5.5 Regra de aprendizado............................................................................................... 85 5.6 Perceptron multicamadas (Multilayer perceptron - MLP)....................................... 86 5.6.1 O algoritmo de retro-propagação do erro.............................................................. 87 6 KDD COM DADOS METEOROLÓGICOS .......................................................... 91 6.1 Introdução................................................................................................................. 91 7 REDES NEURAIS ARTIFICIAIS E A PREVISÃO CLIMÁTICA ................... 107 7.1 Introdução............................................................................................................... 107 7.2 Treinamento das redes neurais............................................................................... 107 7.3 Resultados gráficos................................................................................................. 116 7.3.1 Precipitação......................................................................................................... 117 7.3.2 Temperatura......................................................................................................... 125 8 CONCLUSÕES........................................................................................................ 135 REFERÊNCIAS BIBLIOGRÁFICAS ..................................................................... 140
LISTA DE FIGURAS
Pág.
2.1 - Grade ...................................................................................................................... 28 2.2 - Grade global de baixa resolução. ........................................................................... 29 2.3 - Modelo de previsão climática ................................................................................ 29 2.4 - Grades do Centro, Leste, Oeste Americano, Havaí, Alasca e Porto Rico.............. 30 2.5 - Tipos de predição ................................................................................................... 32 2.6 - Previsão probabilística. .......................................................................................... 34 3.1 - Etapas do processo de KDD................................................................................... 37 3.2 - Dados espaciais ...................................................................................................... 42 3.3 - Mapas temáticos da represa Billings........................Erro! Indicador não definido. 3.4 - Série temporal – precipitação (Centro-Oeste, Jan 81 a Dez 91) ............................ 43 3.5 - Posicionamento dos eletrodos. ............................................................................... 44 3.6 - Precipitação de JAN – 1980 a ABR – 1980........................................................... 45 3.7 - Representação gráfica dos dados espaço-temporal ................................................ 45 4.1 - Aproximações do conjunto .................................................................................... 53 4.2 - Aproximações ........................................................................................................ 54 4.3 - Estrutura do cromossomo....................................................................................... 71 4.4 - Operação de recombinação .................................................................................... 71 4.5 - Operação de mutação ............................................................................................. 72 4.6 - Operação de inversão ............................................................................................. 72 5.1 - Estrutura de um neurônio biológico ....................................................................... 80 5.2 - Modelo de um neurônio não-linear. ....................................................................... 81 5.3 - Funções de ativação. .............................................................................................. 82 5.4 - Exemplo de estrutura de interconexões.................................................................. 83 5.5 - Arquitetura da RNA. .............................................................................................. 83 5.6 - Divisão das arquiteturas das RNA. ........................................................................ 84 5.7 - Perceptron de uma única camada. .......................................................................... 86 5.8 - MLP com uma camada escondida.......................................................................... 88 6.1 - Precipitação na América do Sul. ............................................................................ 92 6.2 - Regiões selecionadas para análise.......................................................................... 95 6.3 - Metodologia do processo de previsão climática .................................................... 95 6.4 - Formação do atributo temperatura......................................................................... 96 6.5 - Discretização de atributos .................................................................................... 100 6.6 - Matriz de confusão para o CO e ∆ = 1 ................................................................. 102 7.1 - Arquitetura da rede neural R-k-1.......................................................................... 108 7.2 - Ciclo das estações................................................................................................. 111 7.3 - Saída da RNA para região CO ............................................................................. 117 7.4 - Previsão Climática de Prec. da RNA para região CO em DJF98/99 ................... 118 7.5 - Precipitação para região CO em DJF98/99.......................................................... 119 7.6 - Saída da rede para região N.................................................................................. 119 7.7 - Previsão Climática de Prec. da RNA para região N em JJA98............................ 120 7.8 - Precipitação para região CO em DJF98/99.......................................................... 121 7.9 - Previsão Climática de Prec. da RNA para região N em SON98.......................... 121
7.10 - Precipitação para região N em SON98 .............................................................. 122 7.11 - Saída da RNA para região NE ........................................................................... 123 7.12 - Previsão Climática de Prec. da RNA para região NE em DJF98/99.................. 123 7.13 - Precipitação para região NE em DJF98/99 ........................................................ 124 7.14 - Saída da RNA para região CO ........................................................................... 125 7.15 - Previsão Climática de Temp. da RNA para região CO em SON98................... 126 7.16 - Temperatura para região CO em SON98 ........................................................... 127 7.17 - Saída da RNA para região S............................................................................... 127 7.18 - Previsão Climática de Temp. da RNA para região S em MAM98 .................... 128 7.19 - Temperatura para região S em MAM98 ............................................................ 129 7.20 - Saída da RNA para região SE ............................................................................ 129 7.21 - Previsão Climática de Temp. da RNA para região SE em JJA98...................... 130 7.22 - Temperatura para região SE em JJA98.............................................................. 131 7.23 - Saída da RNA para região CO ........................................................................... 131 7.24 - Previsão Climática de Temp. da RNA para região CO em JJA98..................... 132 7.25 - Temperatura para região CO em JJA98 ............................................................. 133
LISTA DE TABELAS
Pág.
2.1 - Alcance das previsões. ........................................................................................... 32 3.2 - Representação com tempo repetido. ...................................................................... 46 3.3 - Representação sem tempo repetido. ....................................................................... 46 4.1 - Sistema de informação. .......................................................................................... 48 4.2 - Sistema de decisão. ................................................................................................ 49 4.3 - Número possível de reduções................................................................................. 59 4.4 - Número de conjuntos elementares. ........................................................................ 60 4.5 - Matriz de discernibilidade...................................................................................... 62 4.6 - Novo sistema de decisão. ....................................................................................... 64 4.7 - Sistema de decisão compactado. ............................................................................ 65 4.8 - Sistema de decisão consistente............................................................................... 65 4.9 - Regras de decisão. .................................................................................................. 65 6.1 - Variáveis. ............................................................................................................... 93 6.2 - Formato dos dados. ................................................................................................ 97 6.3 - Exemplo do atributo de decisão. ............................................................................ 98 6.4 - Distribuição de classes para prec. ........................................................................ 100 6.5 - Distribuição de classes para temp. ....................................................................... 101 6.6 - Fragmento das reduções para a região CO........................................................... 101 6.7 - Núcleo aprox. de RED para precipitação e ∆∆∆∆ =1. ................................................ 103 6.8 - Núcleo aprox. de RED para precipitação e ∆∆∆∆ =3. ................................................ 104 6.9 - Núcleo aprox. de RED para temperatura e ∆∆∆∆ =1. ................................................. 104 6.10 - Núcleo aprox. de RED para temperatura e ∆∆∆∆ =3. ............................................... 104 7.1 - Erro médio (R-20-1, Prec, ∆=1). .......................................................................... 110 7.2 - Erro médio (R-20-1, Prec, ∆=3). .......................................................................... 110 7.3 - Erro médio (R-30-1, Prec, ∆=1). .......................................................................... 111 7.4 - Erro médio (R-30-1, Prec, ∆=3). .......................................................................... 112 7.5 - Erro médio (R-40-1, Prec, ∆=1). .......................................................................... 112 7.6 - Erro médio (R-40-1, Prec, ∆=3). .......................................................................... 113 7.7 - Erro médio (R-20-1, TEMP, ∆=1). ...................................................................... 113 7.8 - Erro médio (R-20-1, TEMP, ∆=3). ...................................................................... 114 7.9 - Erro médio (R-30-1, TEMP, ∆=1). ...................................................................... 114 7.10 - Erro médio (R-30-1, TEMP, ∆=3). .................................................................... 115 7.11 - Erro médio (R-40-1, TEMP, ∆=1). .................................................................... 115 7.12 - Erro médio (R-40-1, TEMP, ∆=3). .................................................................... 116
21
1 INTRODUÇÃO
O clima é importante para a humanidade, pois dependendo do comportamento
atmosférico, muitas atividades em geral podem ter desempenhos alterados, podendo
afetar as vidas das pessoas. Uma das atividades mais dependentes do clima é, por
exemplo, a agricultura, cujo rendimento está diretamente ligado às condições climáticas.
O Brasil é um país com grande volume de negócios ligados à agricultura, sendo em
alguns casos líder mundial, como por exemplo, na produção de soja entre outros. Assim
é necessário buscar a excelência das safras para manter o posto global em agro-negócio,
seja pelo estudo de variedades de sementes, enriquecimento do solo, máquinas
modernas, estudo do escoamento das safras, ou pelo estudo climático, que merece
atenção, pois em muitos casos, pode haver enormes prejuízos na produção agrícola,
devido o comportamento anômalo.
Por isso, entender o comportamento climático é uma tarefa essencial, há muito tempo
perseguida pelo homem. Atualmente o advento de satélites e computadores, cada vez
com mais capacidade de processamento e armazenamento, tem tornado estas tarefas
cada vez mais confiáveis.
Os satélites são responsáveis pelo envio de um grande volume de informações a centros
de estudos climáticos em diversas localidades no planeta. No Brasil um dos órgãos
responsáveis é o Centro de Previsão de Tempo e Estudos Climáticos do Instituto
Nacional de Pesquisas Espaciais (CPTEC-INPE), onde estas informações são
analisadas, para a produção de previsões do estado atmosférico em um tempo futuro.
Dependendo da escala temporal para esta previsão pode-se classifica-la como previsão
do tempo ou previsão climática.
A previsão climática é uma estimativa do comportamento médio atmosférico para
médio e longo prazo (meses ou anos), com caráter mais qualitativo do que quantitativo.
22
Por exemplo, é objeto da previsão climática dizer o quanto choverá em relação a media
histórica nos meses de chuva de uma determinada região. Normalmente esta informação
é transmitida em três categorias: “acima da média”, “na média” e “abaixo da média
histórica” (Centro de Previsão do Tempo e Estudos Climáticos, 2003).
Para a realização da previsão climática, atualmente são utilizados dois métodos (Centro
de Previsão do Tempo e Estudos Climáticos, 2003):
1) Método estatístico: utiliza equações matemáticas e conceitos de estatística.
2) Método dinâmico: utiliza equações matemáticas e conceitos físicos.
Na previsão climática, no CPTEC, é utilizado o método dinâmico, que se baseia nas
equações da primeira lei da termodinâmica, equações do movimento (2° lei de Newton),
equação da continuidade de massa de ar e vapor de água, conhecido como modelo de
circulação geral atmosférico (MCGA). No MCGA são utilizadas entradas, conhecidas
como condições iniciais (C.I.), compostas por variáveis atmosféricas, como por
exemplo temperatura virtual, divergência, vorticidade e umidade específica, calculadas
a partir de dados de temperatura, componentes zonal e meridional do vento e umidade
relativa, observados durante um período (1 dia corresponde a 1 condição inicial,
portanto se o modelo necessita de 9 CI são necessários dados de 9 dias consecutivos
para a análise), e através do processamento (integrações) destas informações no
modelo, obtêm-se os resultados, chamados de membros. Vale ressaltar que para cada
C.I. tem-se um membro como resultado. Quando este modelo opera em modo ensemble,
ou seja, são exigidas várias C.I, o resultado é a média dos membros. Este procedimento
se faz necessário, pois segundo Murphy (Cavalcante et. al, 2002) esta é uma ferramenta
necessária para reduzir os efeitos das condições iniciais em sistemas caóticos, como a
atmosfera.
Porém segundo especialista em previsão climática, Camargo (2004), consultado no
CPTEC, o modelo não supre algumas necessidades de previsão, tal como padrões de
precipitação para uma sub-região do Centro-Oeste brasileiro, por exemplo. De posse
23
deste tipo de informação é possível estimar para um período onde vai chover mais ou
menos, ou ainda dizer qual sub-região será mais quente e qual será mais fria.
Ainda em relação à previsão climática, mas sob a luz da computação, se existem
diversas variáveis que são empregadas no modelo para realização da estimativa do
comportamento atmosférico, seria possível reduzir estas variáveis sem perder
informação e realizar uma estimativa da previsão climática mais confiável?
Para esta indagação umas das possíveis respostas é por meio da descoberta de
conhecimento, que é a área que contempla a exploração de banco de dados de modo à
“ lapidar” seus elementos em busca de informações relevantes.
Esta área surgiu em decorrência dos volumes massivos de dados existentes e a não
utilização. Nesta era da informação, a facilidade de armazenar e recuperar informações
viabilizou a modelagem de banco de dados de enorme capacidade. O grande problema é
que quando estes bancos de dados tornavam-se grandes demais para ser manipuladas e
extraídas informações úteis para seus mantenedores, os analistas de banco de dados
mostravam-se ineficazes para tratá-los. Em conseqüência dessas dificuldades começou-
se a estudar a descoberta de conhecimento em banco de dados (KDD – Knowledge
Discovery in Database).
O processo de KDD, dentre muitas etapas, tem a chamada mineração de dados, que
como o próprio nome sugere é a tarefa responsável pela descoberta de padrões
escondidos entre os dados. Existem muitas técnicas para fazer mineração de dados, mas
esta dissertação aborda a Teoria dos Conjuntos Aproximativos (TCA), (“Rough Sets
Theory”, do inglês). A TCA é uma teoria relativamente recente, criada na década de 80,
por meio de Pawlak (1982), e que se beneficiou do avanço computacional que vinha
acontecendo na época, no que diz respeito ao aumento da capacidade de processamento
e memória. É empregada na manipulação de informações vagas ou imprecisas. Baseia-
24
se na partição do universo de discurso em conjuntos precisos (crisp) e imprecisos, ou
aproximados (rough), utilizando uma relação chamada de indiscernibilidade.
O que faz com que a TCA cresça, em termos de número de aplicações cada vez maior, é
a sua simplicidade de utilização e versatilidade, pois é empregada em diversas áreas.
Algumas vantagens da utilização da TCA são: a redução do número de variáveis
redundantes no processo; redução do volume de dados, o que acarreta uma compactação
no banco de dados; a fundamentação matemática; e possibilidade de modelagem dos
dados por meio de regras, permitindo a construção de softwares.
Nesta dissertação, através de uma análise baseada na mineração de dados utilizando a
teoria dos conjuntos aproximativos, busca-se a redução das variáveis de entrada para um
modelo que realiza previsão climática. Este modelo é composto pelas redes neurais
artificiais (RNA) que são responsáveis pelo aprendizado dos padrões atmosféricos para
prever estados futuros.
As redes neurais são expostas a dados históricos na tentativa de aprender a estabelecer
um primeiro prognóstico das condições climáticas para um intervalo de tempo. Os
dados entretanto, são pré-processados pela TCA, numa tentativa de melhorar os
resultados, buscando o uso de variáveis de maior importância para cada região.
Os experimentos realizados mostraram a possibilidade da combinação de duas técnicas
de inteligência artificial, TCA e RNA, na previsão climática e permitiu a concepção de
um método que pode ser aplicado operacionalmente.
A principal vantagem no uso de um sistema como proposto nesta dissertação, está no
fato de que é possível se fazer prognósticos de comportamento climático global de
forma automática (ou semi-automática) e se ter grupos de especialistas concentrados
nos estudos do comportamento climático locais.
25
Ao longo desta dissertação será abordada a previsão climática e seus elementos, a
descoberta de conhecimento e suas etapas, a teoria dos conjuntos aproximativos, as
redes neurais artificiais e a metodologia desenvolvida para efetuação da tarefa de
previsão climática sob a luz da IA. O Capítulo 2 é conceitual, sobre a previsão climática
e tem por objetivo posicionar o leitor dos termos utilizados nesta área. Não diferente do
Capítulo 3 é sobre a mineração de dados, importante ferramenta para encontrar padrões
e compactar base de dados. O principal capítulo é o quarto, pois fornece elementos ao
leitor sobre a teoria dos conjuntos aproximativos, que é uma técnica, oriunda da teoria
dos conjuntos, muito utilizada na inteligência artificial e mineração de dados.
As redes neurais, importante técnica empregada na inteligência artificial é tratada no
Capítulo 5. Os Capítulos 6 e 7 exploram as técnicas e metodologias abordadas nos
capítulos anteriores, para alcançar os objetivos postos, assim como os resultados
obtidos.
26
27
2 PREVISÃO CLIMÁTICA
2.1 Meteorologia
A meteorologia é definida como a ciência que estuda os fenômenos que ocorrem na
atmosfera, e está relacionada ao estado físico, dinâmico, químico atmosférico e as
interações entre elas e a superfície terrestre subjacente (Instituto Nacional de
Meteorologia - INMET, 2003).
Em meteorologia há uma distinção entre tempo e clima que são conceitos usados para
se entender o comportamento da atmosfera em diferentes "intervalos de tempo". O
tempo é o estado da atmosfera em um determinado momento e lugar ou, é o estado da
atmosfera com relação aos seus efeitos sobre a vida e as atividades humanas. Já o clima
se refere às características da atmosfera inferidas de observações contínuas durante um
longo período, como por exemplo, 30 anos (normal climatológica). O clima abrange um
maior número de dados que as condições do tempo para uma determinada área. Ele
inclui considerações dos desvios em relação às médias, variabilidade, condições
extremas e freqüência de ocorrência de determinada condição de tempo. Assim, o clima
representa uma generalização, enquanto o tempo lida com eventos específicos.
O clima tem influência direta sobre diversas atividades, tais como agricultura, pesca,
geração e distribuição de energia elétrica, defesa civil, dentre outras. Por tantas tarefas
dependerem do comportamento atmosférico, tanto a curto como a longo prazo, que é
importante se entender os fenômenos naturais e assim se antecipar as possíveis
calamidades que possam vir a ocorrer em casos de um clima atípico. A meteorologia
está em contínuo aperfeiçoamento para cada vez tornar mais confiáveis e aumentar o
prazo de previsão climática e do tempo. Entre as técnicas para a realização da previsão
de tempo e clima são utilizados, pelos centros de previsão em todo o mundo os modelos
numéricos. Outro ponto importante é que em região em análise é formada por uma
28
grade, ou malha e a intersecção das linhas verticais e horizontais é um ponto da grade
em questão, como mostra a Figura 2.1.
(x1,y1)
y
x
Figura 2.1 – Grade.
2.2 Tipos de modelo numérico
Para previsão do clima e tempo existem os modelos numéricos, que é o nome dado à
técnica que simula o estado da atmosfera, por meio de modelos físico-matemáticos
resolvidos numericamente, através de técnicas computacionais. O prazo de previsão está
diretamente relacionado com a resolução temporal (amostragem das variáveis de
entrada, podendo ser em: minutos, horas, meses, etc) e espacial (distância entre os
pontos de grade) das variáveis. Em geral, modelos que trabalham com alta resolução
(exemplo: 1 km) requerem um passo de integração menor, limitando o alcance de
previsão em poucos dias. Já os modelos que operam com baixas resoluções (250 km,
por exemplo), o alcance operacional da previsão pode chegar a ser mensal ou inter-
anual (Gutiérrez, 2003).
2.1.1 Modelo Global de Circulação Geral Atmosférico (MCGA)
São modelos que integram todo o globo. Trabalham com baixas resoluções, devido à
quantidade de informações que manipula. Em novembro de 1994 o CPTEC-INPE
iniciou o uso desde modelo para previsão do tempo e com devidas modificações este se
torna operacional também para previsão do clima. Este modelo é baseado nas leis físicas
29
de conservação de massa e de umidade, de energia e de momentum angular e como dito
no Capitulo 1 emprega as equações de continuidade de massa para o ar seco e vapor de
água, primeira lei da termodinâmica e a segunda lei de Newton (Centro de Previsão do
Tempo e Estudos Climáticos, 2003).
Figura 2.2 – Grade global de baixa resolução.
As variáveis utilizadas no modelo segundo Cavalcanti et. al. (2002) são: temperatura,
componentes do vento zonal e meridional e umidade relativa. Estas variáveis são
transformadas em temperatura virtual, divergente, vorticidade, umidade específica e
logaritmo da pressão que então constituem a condição inicial, ou entrada do MCGA.
Cada C.I corresponde a média diária das variáveis citadas, portanto para n C.I. são
necessários dados de n dias consecutivos. A Figura 2.3 mostra um esquema da previsão
climática.
Modelo
Condição 1
Condição 2
Condição n
.
.
.
Membro 1
Membro 2
Membro n
.
.
.
Figura 2.3 – Modelo de previsão climática.
30
2.1.2 Modelo regional
È uma solução para aumentar a resolução do modelo sem aumentar o custo
computacional. Consiste em limitar a grade em uma zona geográfica limitada de
interesse. Deste modo pode-se prever fenômenos de pequena escala como tempestades.
Figura 2.4 - Grades do Centro, Leste, Oeste Americano, Havaí, Alasca e Porto Rico.
FONTE: NCEP/NOAA, Gutiérrez (2003).
2.3 Previsão climática
A previsão climática é uma estimativa do comportamento médio da atmosfera com
alguns meses de antecedência. Por exemplo, pode-se prever se o próximo verão será
mais quente ou mais frio que o normal, ou ainda, mais ou menos chuvoso. Todavia, tal
estimativa não pode dizer exatamente qual será a quantidade de chuvas ou quantos
graus a temperatura estará mais ou menos elevada.
Para previsão climática, no CPTEC-INPE são utilizados modelos numéricos, alguns em
caráter experimental, pois no Brasil e no mundo, essa é uma área que está em constante
evolução com o propósito de torná-la mais confiável (Centro de Previsão do Tempo e
Estudos Climáticos, 2003).
31
O modelo de circulação geral atmosférico (MCGA), descrito na seção 2.1.1, tem sido
utilizado para estudar a variabilidade e as mudanças climáticas e predição sazonal no
CPTEC, na qual emprega uma técnica para o tratamento do comportamento caótico da
atmosfera denominada de ensemble, conhecida também por previsão por conjuntos, que
é uma ferramenta necessária para reduzir os efeitos das condições iniciais (Cavalcanti et
al, 2002).
A previsão por ensemble é o resultado da média de todos os membros do MCGA
(Figura 2.3) e surgiu com a finalidade de aumentar os prazos de previsões de tempo e
clima e a previsibilidade dos modelos dinâmicos (não lineares), através da suposição de
que os modelos sejam perfeitos e, assim, considerando apenas a incerteza na condição
inicial, busca-se, através de alguma técnica específica, estimar os erros associados às
observações para criar um conjunto de condições iniciais perturbadas. Este método veio
para solucionar o problema da previsibilidade numérica de forma determinística, pois
Lorenz (1963, 1965, 1969) observou que a solução de sistemas de equações semelhantes
às que governam os movimentos atmosféricos, apresentam dependência sensível em
relação às condições iniciais fornecidas no início da integração, ou seja, notou que
partindo de condições ligeiramente perturbadas, após algum tempo de integração, as
soluções podem ser completamente diferentes. Isto é conhecido como caos
determinístico e é o fenômeno que limita o horizonte das previsões pois devido às
condições iniciais ligeiramente perturbadas o erro se propaga exponencialmente pelo
sistema gerando resultados errados Gutiérrez (2003). Portanto dependendo das
aproximações físicas e escalas consideradas no modelo numérico, a não linearidade
deste imporá um alcance maior ou menor na predição.
2.4 Tipos de previsão
Assim como os modelos numéricos para previsão, seja de tempo ou clima, os tipos de
previsão ou predição, estão relacionados com a resolução temporal e espacial dos dados.
Esta dependência espaço-temporal é mostrada na Figura 2.5, pois quando se aumenta o
32
alcance da previsão decresce a resolução espacial e os fenômenos que podem ser
preditos.
Tabela 2.1 – Alcance das previsões. Previsão Alcance de Previsão
Now-casting (imediata) minutos, horas Curto prazo 1 a 3 dias Médio prazo (ensemble) 4 a 15 dias Mensal mês Sazonal trimestre
As previsões, a respeito do comportamento atmosférico em escalas na ordem de metros
e km, são realizadas de forma determinística para um alcance temporal na ordem de
minutos e segundos (Tabela 2.1). Não é possível realizar previsões nestas escalas para
dias, meses e anos, pois o modelo, devido a sua não-linearidade, apresentaria resultados
totalmente equivocados devidos às incertezas associadas nas condições iniciais. Já nas
previsões para médio prazo, que são aquelas com um alcance de quatro a quinze dias,
tem que ser realizada utilizando a técnica do ensemble, também conhecida como
previsão por conjuntos, para minimizar os efeitos das condições iniciais a médio prazo.
As previsões mensais e sazonais são realizadas com ensemble e de forma probabilística,
como mostra a Figura 2.5.
Portanto os tipos de previsão são: Determinística e Probabilística.
Det
erm
inís
tica
Pro
bab
ilíst
ica
Tipos de Predição
anual
mensa
l d
iária h
orá
ria m km 100 km 1000 km
Escala Espacial
Esc
ala
Tem
pora
l computacionalmentecustoso
RestriçãoNão-linearidade do modelo
Precip. = 10.3 mm
P(Precip.>10mm)=0.85
Anomalia > s
Precip. diária esperada paramanhã é de 10.3mm
A probabilidade de que a precip. diária esperada para dentro de umasemana supere 10mm é de 0.85
É provável que a anomalia daprecip. acumulada para o próximo inverno seja atípica
Now-casting
Curtoprazo
MédioPrazo
Mensal
Sazonal
Figura 2.5 – Tipos de predição.
FONTE: Adaptado de Gutiérrez et al (2004)
33
2.4.1 Previsão determinística
Uma previsão é determinística quando proporciona um estado para uma variável
discreta ou contínua, como por exemplo, vento > 90km/h, precipitação é 18.5 mm
(Gutiérrez, 2003). São previsões que obedecem as funções do tipo f: C → P, onde f é a
função de predição, C as variáveis necessárias para realização da previsão e P o estado
da variável prevista.
Existem dois tipos elementares de previsão determinística:
Persistência: Consiste em prognosticar para um dado instante de tempo t o que
ocorreu no instante t-1.
ô(t)=o(t-1);
Climatologia: Consiste em prognosticar utilizando algum parâmetro derivado da
distribuição climatológica obtida empiricamente para um evento dado. Por
exemplo, a precipitação predita para um dia de Janeiro será a média dos valores
diários da precipitação em Janeiro nos últimos dez anos:
ô(t)=<o(t i)>; i=1..N;
onde < > denota a média para o período desejado, ô(t) o valor predito para o(ti).
2.4.2 Previsão probabilística
Uma predição é probabilística quando descreve em termos quantitativos a incerteza
associada com a predição. O prognóstico realizado é uma distribuição de probabilidade
sobre os de valores de uma variável. As predições podem ser visualizadas com variáveis
continuas ou discretas como mostra a Figura 2.6.
34
Figura 2.6 – Previsão probabilística. À esquerda a previsão probabilística contínua e a
direita mostrada de forma discreta ou categórica.
FONTE: Gutiérrez et al (2004)
35
3 MINERAÇÃO DE DADOS
3.1 Introdução
Claramente o volume de informações cresceu vertiginosamente, com o aumento
significativo da capacidade de armazenamento que as tecnologias para estes fins vêm
permitindo. Mas nem sempre o acúmulo de informações é benéfico. Em muitos casos
mantêm-se estas grandes bases para fazer simples consultas, sem retirar destas,
informações que tenham “valor” ou significado. Por isso e para isso, surgiu a
descoberta de conhecimento para de banco de dados, “lapidar”, “extrair” ou “minerar”
padrões que estejam escondidos entre os dados com o propósito de entender o
comportamento dos mesmos.
Neste contexto de exploração de grandes bases de dados, este capítulo trata basicamente
das definições sobre mineração de dados, que faz parte do processo de descoberta de
conhecimento, que servirá de fundamento teórico para o estudo desenvolvido nesta
dissertação, uma vez que se deseja fazer previsão climática, com técnicas empregadas
na inteligência artificial, com o menor número de variáveis possíveis.
Como reduzir variáveis envolve o entendimento das relações entre elas e a mineração de
dados executa esta tarefa, então se optou pelo emprego desta metodologia, que é
descrita com maiores detalhes a seguir.
3.2 Definições básicas
Mineração de dados é um conjunto de técnicas computacionais para a extração de
informações desconhecidas e potencialmente úteis em grandes volumes de dados
através de um resumo compacto dos mesmos. O termo “mineração de dados” é somente
um de vários termos, incluindo extração de conhecimento, arqueologia de dados,
36
colheita de informações ou descoberta de conhecimento em banco de dados (KDD -
Knowledge Discovery in Databases) (Fayyad et al, 1996).
Chen (2001) Define mineração de dados como a extração não-trivial de informações
implícitas, previamente desconhecidas, interessantes e potencialmente usuais, dos
dados.
As características principais do processo de mineração de dados são:
• O conhecimento descoberto é representado em uma linguagem de alto nível que
pode ser entendido por usuários humanos.
• As descobertas retratam o conteúdo do banco de dados.
• O conhecimento descoberto é interessante de acordo com os usuários.
• O processo de descoberta é eficiente.
Algumas vezes os termos KDD e mineração de dados são usados com o mesmo sentido.
Isto porque, do ponto de vista da aplicação, o acrônimo KDD, está diretamente
relacionado à extração de conhecimento residente em base de dados, fazendo uso de
sistemas gerenciadores de banco de dados, enquanto a mineração de dados, não
especifica o tipo da fonte de dados e muito menos o formato dos mesmos (Chen, 2001).
A pesquisa em KDD tem crescido e atraído esforços, baseada na disseminação da
tecnologia de bancos de dados e na premissa de que as grandes coleções de dados hoje
existentes podem ser fontes de conhecimento útil, que está implicitamente representado
e pode ser extraído. No sentido de viabilizar esta tecnologia, a KDD se vale, entre outras
coisas, de técnicas de inteligência artificial e de conceitos estatísticos para lidar com a
incerteza relacionada às descobertas.
37
3.3 O processo de descoberta de conhecimento
A descoberta de conhecimento é o processo de extração de conhecimento novo, útil e
interessante a partir de bases de dados. Este processo tem natureza iterativa e interativa
e é composto por uma série de atividades (Fayyad, 1996). A mineração de dados, por
sua vez, pode ser considerada o núcleo da KDD, consistindo na aplicação de algoritmos
de extração de padrões a partir de dados. A Figura 3.1 apresenta uma representação do
processo de KDD.
Dados
Dados Objetivos
Dados Pré Processados
Dados Transformados
PadrõesConhecimento
Seleção
Pré-ProcessamentoTransfomação
Minerção de Dados
Interpretação
Figura 3.1 – Etapas do processo de KDD.
FONTE: Adaptado de Fayyad, 1996.
Então de uma forma geral as etapas da KDD resumidamente são:
Definição dos objetivos e seleção dos dados
Inclui descrever cuidadosamente o problema, determinar se o uso da mineração
de dados é apropriado e qual método utilizar, decidir a forma de entrada e saída
dos dados, decidir relações custo/benefício etc. Também nesta etapa, se deve
determinar quais os dados que serão necessários para análise. É importante a
escolha dos dados, pois evidentemente irá refletir diretamente nos resultados.
38
Pré-Processamento
Eliminação de ruídos e erros, estabelecimento de procedimentos para verificação
da falta de dados; estabelecimento de convenções para nomeação e outros passos
demorados para a construção de uma base de dados consistente. Por exemplo,
verificar se os dados necessitam ser normalizados, quais atributos podem ser
descartados, se é necessário converter dados para outro formato, etc. Essa é a
etapa mais lenta do processo, tomando cerca de 50-80% do tempo total.
Transformação
Alguns passos opcionais podem ser utilizados para auxiliar nas etapas seguintes,
e são altamente recomendados, dentre eles temos a redução de dados e a
compressão de dados. Nesta etapa ainda, pode-se transformar atributos não-
categóricos em atributos categóricos, por exemplo, transformar um atributo
contínuo (ou não-categórico) como a temperatura (°C) em variável categórica
como “Temperatura Alta”, “Normal” e “Baixa”, por meio de uma discretização.
Mineração de dados
Aplicação dos algoritmos para descoberta de padrões nos dados; envolve a
seleção de métodos, técnicas e modelos que são mais adequados para realizar a
análise desejada.
Interpretação
Consiste na visualização dos resultados obtidos pelo processo de mineração de
dados. Os padrões obtidos serão utilizados como ferramenta de suporte a decisão
por parte do usuário. Este deverá avaliar a adequação dos padrões identificados
pelo processo no tocante à extração de conhecimento desejado.
39
Vale ressaltar que após a obtenção do conhecimento e caso os resultados não sejam
satisfatórios o processo pode ser retomado a partir do ponto que seja mais oportuno para
tal análise.
3.4 Classificação da mineração de dados
Existem muitos modos de categorizar ou classificar a mineração de dados. Um modo é
classificar a mineração de dado de acordo com os seus objetivos. Neste caso surgem
duas categorias (Chen, 2001):
• Descritiva: focada na procura de padrões que os interpretáveis descritos nos
dados. Este tipo de mineração de dado descreve as características existentes nos
dados.
• Preditiva: envolve usar variáveis para predizer valores desconhecidos e futuros
de outras variáveis de interesse.
3.5 Principais tarefas da mineração de dados
As tarefas ou funcionalidades da mineração de dados estão relacionadas com o domínio
da aplicação e do interesse do usuário, indicando o tipo de conhecimento que deve ser
minerado. As principais tarefas são resumidamente:
Caracterização;
Associação;
Classificação;
Regressão;
Segmentação;
40
3.5.1 Caracterização
O objetivo da caracterização é generalizar, resumir e possivelmente comparar
características dos dados. Por exemplo, é um tipo de caracterização saber qual tipo de
pessoas são típicas compradoras de imóveis na cidade X, para casas novas com valor
mínimo de $500.000,00 (Chen, 2001).
3.5.2 Associação
Também chamado de market basket analysis (MBA) (dá-se esse nome porque os dados
consistem em um conjunto de atributos binários chamados itens) ou análise de
afinidades em aplicações de negócios, associação é a descoberta de relações entre vários
atributos ou transações. Por exemplo, é associação a análise que dá informações para o
gerente da vídeo-locadora conhecer quais filmes sempre são alugados juntos ou se
existe alguma relação entre alugar determinados gêneros de filmes e comprar pipoca ou
refrigerante (Chen, 2001).
3.5.3 Classificação
Frequentemente se quer classificar dados de acordos com valores em atributo
classificador, também conhecido como meta ou objetivo. Nesta tarefa, que é a mais
empregada em descoberta de conhecimento, cada tupla ou registro pertence a uma
classe. O principio da classificação é descobrir algum tipo de relacionamento entre os
atributos preditivos e o atributo objetivo, o que envolve uma função que mapeie os
dados nas classes pré-definidas. Por exemplo, é classificação identificar que tipos de
clientes seriam eventuais compradores de um livro de culinária, baseado em um banco
de dados contento dados sobre os clientes da editora nos países onde o livro foi
publicado (Chen, 2001).
41
3.5.4 Regressão
Regressão envolve aprender uma função que mapeie os dados para predição de uma
variável contínua. Esta tarefa é conceitualmente similar à classificação. A maior
diferença é que na regressão o atributo meta é contínuo, enquanto que na classificação
em geral é do tipo discreto (Chen, 2001).
3.5.5 Segmentação
Segmentação ou clustering consiste em agrupar os dados em novas classes. Isto é o que
as pessoas fazem intuitivamente quando visualizam o mundo e segmentam em grupos
discretos, por exemplo, tipos de animais, plantas, veículos, etc. Nesta tarefa o algoritmo
deve criar classes através da partição dos dados com valores de atributos semelhantes,
ou seja, propriedades de interesse comum sejam reunidas em uma mesma classe (Chen,
2001).
3.6 Técnicas de mineração de dados
Existem inúmeras técnicas que são empregadas na mineração de dados, sendo algumas
delas (Komorowski et. al, 1999),(Chen, 2001):
• Teoria dos Conjuntos Aproximativos (Rough Sets Theory);
• Teoria dos Conjuntos Nebulosos (Fuzzy Sets Theory);
• Redes Neurais Artificiais;
• Indução de regras;
• Árvores de decisão;
Dentre as técnicas citadas acima, duas delas, a teoria dos conjuntos aproximativos e as
redes neurais artificiais, são utilizadas no desenvolvimento desta dissertação sendo por
isso detalhada no Capítulo 4 e 5.
42
3.7 Mineração de dados espaço-temporal
Em mineração de dados, principalmente na área científica, existem dados que possuem
componentes espaciais, temporais ou ambas (Chen, 2001). O uso de tais componentes
dependerá da aplicação e meta das análises envolvendo estes dados.
Os dados de natureza espaciais são caracterizados por elementos que possuem
parâmetros de localização (Figura 3.2), como x e y ou longitude e latitude, por exemplo.
Lon
Lat
Figura 3.2 – Dados espaciais.
Em Pessoa et al (2003) é mostrada uma aplicação da mineração de dados espacial na
região da represa Billings – SP, onde o objetivo era estabelecer relações entre as
variáveis: “uso da terra”, “características geológicas” e “declividade” com a variável
“risco de deslizamento de terra” (Figura 3.3).
(a) (b)
Figura 3.3 – Mapas temáticos da represa Billings. (a) declividade, (b) características
geológicas, (c) uso da terra e (d) risco de deslizamento.
FONTE: Pessoa et al (2003). (continua)
43
(c) (d)
Figura 3.3 – Conclusão.
No tipo de dados temporal uma variável tem uma evolução durante um intervalo de
tempo, ou seja, está na forma de série temporal. A Figura 3.4 mostra um exemplo de
dados temporal.
Figura 3.4 – Série temporal de precipitação (Centro-Oeste, Jan 81 a Dez 91).
Em Pessoa (2003) é construído um classificador de tarefas mentais, através do processo
de descoberta de conhecimento (KDD), baseado em Anderson & Sijercic (1996). Os
dados estavam dispostos em forma de série temporal, oriundo de sinais de EEG (eletro-
encefalograma) de 6 canais como mostrado na Figura 3.5. Cada linha do banco de dados
contêm: uma série temporal, um canal, uma tarefa (respectivamente colunas 1 a 2502, x
e y da Tabela 3.1). As tarefas a serem classificadas são:
Tempo
Pre
cip
itaçã
o
44
1) Repouso;
2) Elaboração de uma carta;
3) Multiplicação não trivial de dois números;
4) Contagem numérica;
5) Visualização de uma figura geométrica em rotação.
Figura 3.5 – Posicionamento dos eletrodos.
FONTE: Anderson & Sijercic (1996).
Tabela 3.1 – Dados de EEG. Sinal de EEG (colunas) Canal Tarefa
Elementos 1 2 ... 2502 x y 1 a1 a2 a2502 x1 y1 2 a1 a2 a2502 x2 y2 ...
1950 a1 a2 a2502 x1950 y1950
Um terceiro tipo de dado envolve as componentes espaciais e temporais, com a função
de descrever a evolução no tempo de uma dada variável em uma região. Variáveis como
precipitação, umidade e pressão na meteorologia, são exemplos de dados espaço-
temporais. Nas Figura 3.6 é mostrado um exemplo como a variável precipitação, com
dados coletados no Climate Diagnostic Center/ National Oceanic and Atmospheric
Administration (CDC/NOAA) em [http://www.cdc.noaa.gov/], de janeiro de 1980 a
abril do mesmo ano.
45
Figura 3.6 – Precipitação de JAN – 1980 a ABR – 1980.
Existem diversas formas de representação espaço-temporal, dependendo do objetivo. A
mais comum e utilizada é a forma tabular, inclusive pelos algoritmos de mineração de
dados. Mas as informações na maioria dos casos encontram-se na forma matricial como
na representação mostrada na Figura 3.7.
Tempo
Variável 4
Variável 1
Variável 2
Variável 3
Variável 4
Variável 1
Variável 2
Variável 3
Figura 3.7 – Representação gráfica dos dados espaço-temporal.
Na forma tabular cada ponto, chamado de ponto de grade, pode representar um grau,
um minuto ou um segundo de coordenadas geográficas, por exemplo, ou uma resolução
diferente, e é representado como um elemento rotulado, com um identificador de tempo
e um de local. Existem, entretanto, duas formas de representar estas informações:
46
representação com tempo repetido e representação sem tempo repetido (Pang-Ning et
al, 2001).
Na representação com tempo repetido em cada instante de tempo um elemento é
representado por um registro na tabela com seus respectivos valores para as variáveis.
Portanto, se existem n tempos, cada ponto da grade é representado n vezes. Na Tabela
3.2 é mostrado o formato deste tipo de representação. Os subscritos exibidos nas
Tabelas 3.2 e 3.3 são b (baixo), m (médio) e a (alto).
Tabela 3.2 – Representação com tempo repetido.
Localização Tempo Variável 1 Variável 2 Variável 3 Lid1 t1 xb ym za Lid2 t1 xm yb zm Lid1 t2 xa ym zb Lid2 t2 xa yb za ... ... ... ... ...
Lidi tn xa ym zb Lidi tn xa yb za Lidi tn xm yb zb
Fonte: Adaptada de Pang-Ning et al (2001) Já na representação sem repetir a componente temporal não há necessidade de
representar cada elemento para um instante de tempo, uma vez que cada instante de
tempo é representado em uma coluna. Os valores para estas colunas são os estados das
variáveis envolvidas na análise no tempo em questão, como mostrado na Tabela 3.3. A
desvantagem desta representação é que para análise de um longo período de tempo,
existiria um número elevado de colunas.
Tabela 3.3 – Representação sem tempo repetido. Localização t1 t2 ... tn
Lid1 (xb,yb,za) (xa,ym,zb) ... (xa,yb,za) Lid2 (xm,yb,zm) (xa,yb,za) ... (xa,ym,za) Lid3 (xm,ym,zb) (xa,ya,za) ... (xb,yb,zb) ... ... ... ... ...
Lidi (xa,ym,zb) (xa,yb,za) ... (xm,yb,zb) Fonte: Adaptada de Pang-Ning et al (2001)
47
4 TEORIA DOS CONJUNTOS APROXIMATIVOS
4.1 Introdução
No mundo real as informações são freqüentemente incertas, imprecisas ou incompletas,
talvez devido à dificuldade em relatar os fenômenos naturais observáveis, expressar
acontecimentos ou fatos, etc. Diversas teorias foram desenvolvidas para “tratar” tais
imperfeições, dentre elas a teoria dos conjuntos nebulosos (Zadeh, 1965), teoria de
Dempster-Shafer (Dempster, 1967), (Shafer, 1976), teoria das possibilidades (Zadeh,
1978). No início da década de 80, surgiu uma teoria, caracterizada pela simplicidade e
bom formalismo matemático, o que facilita a manipulação de informações, em especial,
incertas, conhecida como Teoria dos Conjuntos Aproximativos (TCA), ou do inglês
Rough Set Theory. A TCA é uma extensão da teoria dos conjuntos, que enfoca o
tratamento de incerteza dos dados através de uma relação de indiscernibilidade que diz
que dois elementos são ditos indiscerníveis, se possui as mesmas propriedades, segundo
Leibniz (Scuderi, 2001). Alguns autores como Nicoletti e Uchôa (1997) apontam como
a principal vantagem da teoria dos conjuntos aproximativos a não necessidade de
utilização de informações adicionais, tais como distribuição de probabilidade, grau de
pertinência, possibilidade ou atribuição de crença. A TCA foi inicialmente proposta por
Zdzislaw Pawlak (Pawlak, 1982) e desde então atraiu o interesse de parte da
comunidade acadêmica, e suas aplicações em diversas áreas do conhecimento,
propiciaram o surgimento de extensões. Porém ao longo deste capítulo é abordado o
formalismo matemático do ponto de vista clássico (como idealizado inicialmente por
Pawlak) e as nomenclaturas de acordo como o apresentado por Komorowski et al
(1999) para o uso da TCA na análise de dados.
48
4.2 Conceitos básicos
4.2.1 Sistemas de informação
Um sistema de informação (SI), ou espaço aproximativo é um par ordenado SI = (U;
A), onde:
U é um conjunto finito não-vazio de objetos (um caso, um evento, um paciente,
ou simplesmente um objeto) chamado de universo e A;
A representam os atributos (uma variável, uma observação, uma propriedade,
etc.).
Cada atributo a ∈ A define uma função de informação fa: U→ Va, onde Va é o conjunto
dos valores de a, chamado de domínio do atributo a.
Exemplo 1
Tabela 4.1 – Sistema de informação. Pressão Temperatura Umidade
x1 1 2 1 x2 2 2 1 x3 1 1 0 x4 1 2 1 x5 2 2 1 x6 0 0 2
Por questão de simplicidade adota-se a seguinte nomenclatura para os atributos:
p = pressão;
t = temperatura;
u = umidade;
49
O universo e os atributos são, respectivamente:
U = {x1, x2, x3, x4, x5, x6};
A = {p, t, u};
O domínio dos atributos são:
Vp = {0, 1, 2};
Vt = {0,1, 2};
Vu = {0, 1, 2};
Quando um atributo é especialmente adicionado a um sistema de informação para fins
classificatórios, este sistema passa a ser denominado sistema de decisão (SD), denotado
por SD = (U; A ∪ {d}), onde d ∉ A é o atributo de decisão.
Colocada a definição de sistema de decisão acima e com o propósito de utilizar uma
terminologia de acordo com a teoria dos conjuntos aproximativos, os elementos
pertencentes a A, passa a serem chamados de atributos condicionais ou simplesmente
condições e d é o atributo de decisão, como dito anteriormente. O atributo de decisão
pode ser representado por vários valores, entretanto valores binários são mais freqüentes
O domínio ou classes do atributo de decisão nos SD são freqüentemente binários, tal
como {Sim, Não} ou {0, 1}, mas também pode assumir representações de múltiplos
valores. (Komorowski et al, 1999).
Exemplo 2
Tabela 4.2 – Sistema de decisão.
Pressão Temperatura Umidade Precipitação x1 1 2 1 0 x2 2 2 1 1 x3 1 1 0 1 x4 1 2 1 1 x5 2 2 1 1 x6 0 0 2 0
50
Um sistema de decisão pode ser resumido com regras, como por exemplo, algo da
forma:
“ Se a =’x’ e b =’y’ então d = Sim”;
“ Se a = 0.25 então d1 é 0 ou d2 é 1”;
“ Se a =[155; 159] então d é Não”;
Com esta capacidade de representar um sistema de decisão em regras é possível
construir modelos baseados nestas, que representem todo o sistema em questão de uma
forma resumida e com isto, na abordagem utilizando TCA, em muitas vezes são
encontrados padrões implícitos e usuais nos dados. Por esta razão esta teoria é tão usual
como técnica de mineração de dados.
4.3 Indiscernibilidade
Uma das principais características da TCA é a redução de dados, por meio da
compactação do sistema de decisão, que pode ser desnecessariamente grande. Esta
compactação em TCA ocorre duas situações:
• quando elementos “iguais” são representados muitas vezes;
• quando alguns atributos são supérfluos.
Nesta seção é abordado o caso onde os objetos são representados muitas vezes. Para
este tipo de situação vários elementos pertencentes a mesma classe de equivalência são
representados por um único elemento no SI.
Dado um conjunto de elementos X e x, y e z ∈ X, uma relação de equivalência é uma
relação binária R⊆ X x X que é reflexiva (xRx), simétrica (se xRy então yRx) e transitiva
(se xRy e yRz então xRz), para todo x, y e z ∈ X. A classe de equivalência de um
elemento Xx∈ , consiste em todos os elementos Xy∈ tal que xRy e é denotada por
[x].
51
Dado SI = (U; A) como sistema de informação e x e x’ ∈ X, então com qualquer B ⊆ A
existe uma relação de equivalência INDA (B), quando os elementos (x, x’) possuem os
mesmos valores de atributos B (elementos idênticos sob a luz dos atributos B). Esta
relação é mostrada na Equação 4.1:
)}()(,|),{()( xaxaBaUxxBINDA ′=∈∀∈′= (4.1)
INDA(B) é chamada de relação de B-indiscernibilidade. Se )(),( BINDxx A∈′ , então os
objetos x e x’ são indiscerníveis relativamente a qualquer atributo no conjunto B. [x]B
denota a classe de equivalência descrita pelo elemento x ∈ X. As classes de equivalência
INDA(B) dá-se o nome de conjuntos elementares em B, porque estas representam o
menor grupo de objeto discerníveis.
Exemplo 3:
O SD para este exemplo é mostrado na Tabela 4.2. São mostrados os conjuntos
elementares ocasionados pela relação IND, utilizando todas as combinações dos
atributos condicionais:
IND (p) = [{x1, x3, x4}, {x 2, x5}, {x 6}];
IND (t) = [{x1, x4, x2, x5}, {x 3}, {x 6}];
IND (u) = [{x1, x2, x4, x5}, {x 3}, {x 6}];
IND (p, t) = [{x1, x4}, {x 2, x5}, {x 3}, {x 6}];
IND (p, u) = [{x1, x4}, {x 2, x5}, {x 3}, {x 6}];
IND (t, u) = [{x1, x4, x2, x5}, {x 3}, {x 6}];
IND (A) = [{x 1, x4}, {x 2, x5}, {x 3}, {x 6}];
52
4.4 Aproximação dos conjuntos
Na Tabela 4.2 os elementos {x1, x4} são indiscerníveis segundo a relação de
indiscernibilidade. Porém acontece que estes possuem valores de decisão diferentes, o
que para fins classificatórios causa uma dúvida, ou imprecisão dos dados, quanto ao
pertencimento destes elementos a uma só classe de decisão. Fundamentado neste
raciocínio, os elementos de um SD pode ser particionado em regiões, chamadas em
TCA de aproximações. Existem quatro regiões formadas por este particionamento
(Komorowski et al, 1999):
Aproximação inferior ou região interna;
Aproximação superior;
Região de Fronteira ou Borda;
Região Externa.
A idéia por trás deste fundamento é bastante simples. Elementos que possuem mesmos
valores de condições e decisão certamente pertencem a uma classe de decisão. Se esta
classe for à classe alvo, ou seja, a classe tomada como referência para análise, então os
elementos estão na aproximação inferior, caso contrário são pertencentes à região
externa.
Já os elementos que possuem condições iguais e decisão diferente são possíveis
membros da classe alvo, pois não existe consenso, quanto à pertinência classe de
decisão. Estes elementos pertencem à região de fronteira, pois separam os elementos
que certamente pertencem à classe alvo dos que certamente não pertencem.
Por sua vez a aproximação superior é formada pela união dos elementos da
aproximação inferior e os da região de fronteira. O formalismo matemático para as
aproximações inferior e superior, respectivamente, são (B ⊆ A, A são os atributos
condicionais, X ⊆ U, U é o conjunto de elementos, X é a classe alvo e x ∈ X):
53
}][|{ XxxXB B ⊆= e }][|{ ∅≠∩= XxxXB B (4.2) e (4.3)
Em TCA as aproximações das Equações 4.2 e 4.3 são chamadas de aproximações B-
inferiores e B-superiores de X.
As regiões de fronteira e externa, matematicamente podem ser expressas pelas
diferenças:
FB (X) = XB – XB e EB (X) = U - XB (4.4) e (4.5)
De forma análoga as aproximações superior e inferior as Equações 4.4 e 4.5, em TCA
são chamadas de região de B-fronteira de X e região B-externa de X. Na Figura 4.1 é
exibida uma representação gráfica das aproximações discutidas nesta seção.
Borda ou Fronteira
Região Externa
Aproximação Inferior
Aproximação Superior+ =
Figura 4.1 – Aproximações do conjunto.
Quando existe a região da fronteira, o conjunto é dito aproximativo e caso contrário é
chamado de preciso (crisp).
Exemplo 4
As aproximações para o SD, mostrado na Tabela 4.2, para as classes de decisão do
atributo “Precipitação”, X1 = A0 = {x1, x6} e X2= A1 = {x2, x3, x4, x5}, são:
54
=)( 1XB {x 6};
=)( 1XB [{x 1, x4}, {x 6}];
F(X1) = −)( 1XB )( 1XB ={x1, x4}
E(X1) = U – =)( 1XB [{x 2, x5}, {x 3}]
=)( 2XB [{x 2, x5}, {x 3}];
=)( 2XB [{x 2, x5}, {x 3}, {x 1, x4}];
F(X2) = −)( 2XB )( 2XB = {x1, x4}
E(X2) = U– =)(YB {x 6}
Aproximação com X1 = {x1, x6}
Aproximação com X2 = {x2, x3, x4, x5}
Figura 4.2 – Aproximações
As aproximações apresentam as seguintes propriedades (Komorowski et al, 1999):
(1) XBXXB ⊆⊆ ;
(2) UUBUBBB ==∅=∅=∅ )()(,)()( ;
(3) )()()( YBXBYXB ∪=∪ ;
(4) )()()( YBXBYXB ∩=∩ ;
(5) YX ⊆ implica )()( YBXB ⊆ e )()( YBXB ⊆ ;
(6) )()()( YBXBYXB ∪⊇∪ ;
(7) )()()( YBXBYXB ∩⊆∩ ;
{x 6}
{x 1, x4} {x 2, x5}
{x 3}
d = 0
{x 6} {x 1, x4}
{x 3} {x 2, x5}
d = 1
55
(8) )()( XBXB −=− ;
(9) )()( XBXB −=− ;
(10) )())(())(( XBXBBXBB == ;
(11) )())(())(( XBXBBXBB == ;
onde (– X) denota (U – X).
Pode-se então definir quatro classes básicas dos conjuntos aproximativos ou quatro
categorias de incerteza:
• X é B-aproximadamente definido, see ∅≠)(XB e UXB ≠)( ;
• X é B-internamente indefinido, see ∅=)(XB e UXB ≠)( ;
• X é B-externamente indefinido, see ∅≠)(XB e UXB =)( ;
• X é B-totalmente indefinido, see ∅=)(XB e UXB =)( .
O significado desta classificação é o seguinte:
X é B-aproximadamente definido: significa que, usando B, pode-se definir que alguns
elementos de U pertencem a X e alguns elementos de U pertencem a –X.
X é B-internamente indefinido: significa que, usando B, pode-se definir que alguns
elementos de U pertencem a –X, mas nenhum elemento de U pode ser caracterizado
como pertencente a X.
X é B-externamente indefinido: significa que, usando B, pode-se definir que alguns
elementos de U pertencem a X, mas não se pode afirmar se algum elemento de U
pertence a –X.
X é B-totalmente indefinido: significa que, usando B, não se pode definir se algum
elemento de U pertence a X ou a –X.
56
Uma maneira de aferir as aproximações em um conjunto B pode ser através dos
seguintes coeficientes,
|)(|
|)(|
i
iB
XB
XB
∪∪
=α (4.6)
||
|)(|
U
XB iB
∪=β (4.7)
onde αB é chamado de acurácia de aproximação e βB é chamado de qualidade de
aproximação. Evidentemente 0 ≤ αB ≤ 1 e 0 ≤ βB ≤ 1. Se αB = 1, Xi é dito preciso (crisp)
em relação a B, caso contrário, isto é, se αB < 1, então X é aproximado em relação a B.
Algumas definições são importantes para a compreensão da estrutura do universo U,
quanto às inconsistências causadas por imprecisões ou incertezas de elementos, segundo
a relação de indiscernibilidade. Então estas definições são discutidas a seguir:
Se ||1 ,..., dVXX SDSD (|Vd| é a cardinalidade do domínio do atributo de decisão, por exemplo,
Vd = {0, 1}, |Vd| = 2) são classes de decisão de SD, então o conjunto ||1 ... dVXBXB ∪∪ é
chamado de B-região positiva de SD, e é denotado por POSB(d). A região B–negativa
de SD é dada por NEGB(d) = U – ( ||1 ... dVXBXB ∪∪ ).
Duas propriedades importantes dos SD são relativas à sua consistência ou não, que é
uma forma de saber se há objetos que “degradam” a classificação de um conjunto
devido a uma incerteza associada aos mesmos, e isto pode ser observado através da
região positiva, conforme é abordado abaixo:
Dado um SD = {U; A ∪ {d}}, a decisão generalizada em SD, que é a decisão que dois
objetos indiscerníveis possuem é definida por ∂A = { i | x’IND(A)x e d(x) = i} com x e
57
x’∈ U. Um SD é dito consistente se |∂A | = 1 para qualquer x ∈U, caso contrário o SD é
inconsistente.
Utilizando a noção de região positiva, um SD é dito consistente se POSA(d) = U, caso
contrário é inconsistente.
Exemplo 5
A acurácia para as aproximações do Exemplo 4 pode ser calculada a partir da expressão
(4.6):
• X1 = {x1, x6}:
0,333
1
|}{x }, x,{x |
|}{x |
|)(|
|)(|
641
6
1
11
====XB
XBXα
• X2 = {x2, x3, x4, x5}:
6,05
3
|} x,{x },{x },x,{x |
|}{x },x,{x|
|)(|
|)(|
41352
352
2
2
2====
XB
XBXα
• Todos Conjuntos (X1 + X2):
5,08
4
|}] x,{x },{x },x,{x[}]{x }, x,[{x|
|}]{x },x,{x[}{x|
|)(|
|)(|
41352641
3526 ==∪
∪==XB
XBBα ;
A qualidade de aproximação (4.7) é dada por:
X1 = {x1, x6}:
17,06
1
|}]{x },{x }, x,{x }, x,[{x|
|}{x |
||
|)(|
635241
611
====U
XBXβ
X2 = {x2, x3, x4, x5}:
5,06
3
|}]{x },{x }, x,{x }, x,[{x|
|}{x }, x,{x|
||
|)(|
635241
35222
====U
XBXβ
58
Todos os conjuntos (X1 + X2):
67,06
4
|}]{x },{x }, x,{x }, x,[{x|
|}{x}]{x }, x,[{x|
||
|)(|
635241
6352 ==∪==U
XBBβ ;
As decisões generalizadas para os elementos do SD da Tabela 4.2 são:
∂A (x1)= 0/1;
∂A (x2)= 1;
∂A (x3)= 1;
∂A (x4)= 0/1;
∂A (x5)= 1;
∂A (x6)= 0.
4.5 Reduções
Anteriormente um artifício natural de reduzir dados foi visto, que consiste em
identificar as classes de equivalência, ou seja, agrupar em classes os objetos que são
indiscerníveis usando os atributos disponíveis. Deste modo será feita uma otimização,
pois é necessário utilizar somente um elemento da classe de equivalência para
representar a classe inteira.
Um outro artifício para redução é manter somente os atributos que preservam a relação
de indiscernibilidade e, conseqüentemente, as aproximações do conjunto, ou seja, existe
um subconjunto de atributos condicionais que mantêm a mesma partição do universo
que fora realizada pelo conjunto completo de atributos condicionais, levando em
consideração as classes formadas pelo atributo de decisão. Os atributos restantes são
redundantes, ou supérfluos, desde que suas remoções mantenham a mesma
classificação. Normalmente existem vários subconjuntos de atributos e esses que são
mínimos são usualmente chamados de reduções. A determinação das reduções é um
problema “NP-hard” (Skowron, 1992). O número de reduções de um SI com m
atributos pode ser igual as possíveis combinações dos atributos, dado pelo número
59
binomial (o termo m/2 denomina o piso, ou menor inteiro maior ou igual a m/2)
(Komorowski et al, 1999):
2
mm
(4.8)
Isto significa que a computação das reduções não é uma tarefa trivial sendo um gargalo
para a metodologia dos conjuntos aproximativos. Contudo, o uso de algoritmos de
busca, podem auxiliar na computação das reduções em um tempo aceitável, caso o
número de atributos não seja muito alto (Komorowski et al, 1999). Na Tabela 4.3 é
exibido o número de reduções que é possível computar de um conjunto de m atributos.
Tabela 4.3 – Número possível de reduções. m Número possível de Reduções 10 252 20 184.756 30 155.117.520 40 137.846.528.820 50 126.410.606.437.752
FONTE: Scuderi (2001)
Dado o sistema de informação SI = (U; A), uma redução de S é um conjunto mínimo de
atributos B ⊆ A tal que INDSI (B) = INDSI (A). Em outras palavras, redução é o mínimo
conjunto de atributos de A que preserva os conjuntos elementares do SI, ou seja, a
habilidade de construir as mesmas classes de equivalências, assim como o conjunto de
atributos completo o faz. O conjunto de reduções é denotado por RED(B), já que um
sistema de informação pode ter uma ou mais reduções. Contudo existe um conjunto de
atributos que são ditos indispensáveis, pois suas remoções alteram a estruturas criadas
pela relação de equivalências IND (conjuntos elementares). A estes atributos dá-se o
nome de núcleo, que corresponde aos atributos que ocorrem em todas as reduções
calculadas e pode ser expresso por:
60
N(B) = ∩RED(B) (4.9)
Exemplo 6
A tabela abaixo mostra a alteração dos conjuntos elementares com a remoção de
atributos da Tabela 4.2 (os conjuntos elementares são mostrados no Exemplo 3):
Tabela 4.4 – Número de conjuntos elementares. Atributo removido
Nenhum p t u Número de conjuntos elementares 4 3 4 4
Como pode ser visto na Tabela 4.4, a remoção dos atributos t e u (Temperatura e
Umidade, respectivamente) não altera a estrutura dos conjuntos elementares, o que leva
a crer que estes atributos são dispensáveis. Isto não vale para o atributo p (Pressão),
pois houve uma diminuição no número de conjuntos elementares, indicando neste caso,
que este atributo é indispensável, pois com definido na seção 4.3, as estruturas
formadas pela relação de indiscernibilidade mantêm o menor grupo de objetos
discerníveis, ou seja, a capacidade de diferenciar objetos está na representação dos
conjuntos elementares, logo se estes são alterados, também é modificada a capacidade
de discernir os objetos em um sistema de informação.
Uma vez exploradas as noções de reduções e núcleo, formalmente será definida a
computação do conjunto RED, que é o alicerce para as definições citadas.
Sendo SD um sistema de decisão com n objetos, a matriz de discernibilidade de SD é
uma matriz simétrica n x n com entradas cij, que é dado na Equação 4.10. Cada entrada
consiste em um conjunto de atributos que difere os objetos xi e xj (Komorowski et al,
1999).
)}()(|{ jiij xaxaAac ≠∈= para i,j = 1, ..., n (4.10)
61
A função de discernibilidade fA para um sistema de informação SD é uma função
Booleana de m variáveis Booleanas **1 ,..., maa (correspondente aos atributos a1,..., am),
definida como (Komorowski et al, 1999):
},1|{),...( ***1 ∅≠≤≤≤∨∧= ijijnA cnijcaaf (4.11)
onde }|{ **ijij caac ∈=
O conjunto de todos implicantes primos de fA 1 determina o conjunto de todas as
reduções de A, denotado por RED(A).
Cada linha da função de discernibilidade corresponde a uma coluna da matriz de
discernibilidade. Esta matriz é simétrica e com a diagonal vazia.
Com relação às reduções, existem variantes na computação das mesmas, levando em
conta um atributo em específico, um elemento ou o atributo de decisão. Em vista disto,
se tem as chamadas reduções relativas, que como o próprio nome sugere são reduções
que tem como objetivo calcular o conjunto RED construindo a função de
discernibilidade com referências específicas e não com todo o universo U. São
mostradas abaixo estas reduções:
Pode-se construir uma função Booleana somente considerando a coluna k da matriz de
discernibilidade, ao invés de todas as colunas, obtendo-se então a função de
discernibilidade k-relativa. O conjunto de todos os implicantes desta função determina
o conjunto de todas as reduções k-relativas. Estas reduções revelam a quantidade
1 Um implicante de uma função Booleana f é qualquer conjunção de literais (variáveis ou as negações delas) tal que se os valores destes literais são verdadeiros sob um valor arbitrário v então o valor da função f sob v também é verdade. Um implicante primo é um implicante mínimo.
62
mínima de informações necessárias para discernir xk ∈ U (ou mais precisamente, [xk] ⊆
U) de todos os outros objetos.
Assim como a função de discernibilidade k-relativa, e devido à importância do atributo
de decisão d, então, seja SD = (U; A ∪ {d}) um sistema de decisão consistente e dada
M(SD) = cij, como uma matriz de discernibilidade, será construída uma nova matriz
)()( dij
d cM =SD assumindo ∅=dijc se d(xi) = d(xj) e caso contrário }{ dcc ij
dij −= . A
matriz Md(SD) é chamada de matriz de discernibilidade relativa à decisão. Desta matriz
é construída a função de discernibilidade )(SDdMf , cujo conjunto de implicantes primos
define o conjunto de todas as reduções relativas à decisão de SD, ou matriz de
discernibilidade d-relativa (Komorowski et al, 1999).
Exemplo 7
Ainda tomando como base o sistema de decisão mostrado na Tabela 4.2, é calculada a
redução do sistema em questão, por meio da matriz e função de discernibilidade,
expressas pelas Equações 4.10 e 4.11, respectivamente.
Tabela 4.5 – Matriz de discernibilidade.
x1 x2 x3 x4 x5 x6
x1 ∅ p u ∅ p p, u, t
x2 p ∅ p, u p, u ∅ p, u, t
x3 u p, u ∅ u p p, u, t
x4 ∅ p, u u ∅ p p, u, t
x5 p ∅ p p ∅ p, u, t
x6 p, u, t p, u, t p, u, t p, u, t p, u, t ∅
63
Depois de montada a matriz de discernibilidade, o passo seguinte é a constituição da
função de discernibilidade que são as conjunções de cada entrada (ou célula da Tabela
4.5). Em cada célula, as variáveis booleanas são conectadas por meio do operador
disjuntivo. O resultado pode ser visto abaixo:
f(X) = (p)∧(u) ∧(p) ∧(p∨u∨t) ∧
(p∨u)∧( p∨u) ∧( p∨u∨t) ∧
(u)∧(p) ∧( p∨u∨t) ∧
(p)∧( p∨u∨t) ∧
(p∨u∨t)
Outra forma de representação da função acima é:
f(X) = (p)(u)(p)(p+u+t)
. (p+u)(p+u)( p+u+t)
. (u)(p)( p+u+t)
. (p)( p+u+t)
. ( p+u+t)
A redução é alcançada através da simplificação booleana da função de discernibilidade
e para este caso o resultado foi que a variável temperatura não é necessária para manter
os conjuntos elementares, ou seja, retirando esta variável o sistema de decisão mantém
as mesmas características iniciais:
f(X) = pu (abreviação de p “e” u).
Então o novo SD depois da redução é:
64
Tabela 4.6 – Novo sistema de decisão. p u Precipitação
x1 1 1 0 x2 2 1 1 x3 1 2 1 x4 1 1 1 x5 2 1 1 x6 0 0 0
Entretanto, mesmo reduzindo o sistema de decisão, existem modos de compactar mais
este e manter as mesmas informações. Esta compactação em um primeiro momento se
dá por meio da função de discernibilidade k-relativa. Neste tipo de função um elemento
é tomado como referência em relação a todos os outros. Para montar esta função basta
pegar a linha ou coluna correspondente ao elemento de referência, na matriz de
discernibilidade, como é mostrado nas funções abaixo:
f(x1) = (p)(u)(p)(p+u+t) =pu
f(x2) = (p)(p+u)(p+u)( p+u+t) = p
f(x3) = (u)(p+u)(u)(p)( p+u+t) = pu
f(x4) = (p+u)(u)(p)( p+u+t) = pu
f(x5) = (p)(p)(p)(p+u+t) = p
f(x6) = (p+u+t) (p+u+t) (p+u+t) (p+u+t) (p+u+t) =p+u+t
Nas funções k-relativas exibidas acima, pode-se notar que para alguns objetos como por
exemplo x1 e x6 há uma redução na quantidade de informação, pois a redução para todos
os atributos foi “pu”. Nos casos dos elementos x2, x5 e x6 somente o atributo “p”
(Pressão) é necessário para discernir estes de todos os outros elementos. O SD reduzido
e compactado é mostrado a seguir:
65
Tabela 4.7 – Sistema de decisão compactado. p u Precipitação
x1 1 1 0 x2 2 * 1 x3 1 2 1 x4 1 1 1 x5 2 * 1 x6 0 * 0
• - não necessário.
Com base nas decisões generalizadas mostradas no Exemplo 5, pode-se montar um
sistema de decisão consistente da seguinte forma:
Tabela 4.8 – Sistema de decisão consistente. p u Precipitação
x1, x4 1 1 0/1 x2, x5 2 * 1
x3 1 2 1 x6 0 * 0
Intuitivamente o sistema de decisão mostrado na Tabela 4.8 pode ser traduzido como
regras de tal modo:
Tabela 4.9 – Regras de decisão. Id Regra 1 (p = 1) e (u = 1) =>(c = 0) ou (c=1) 2 (p = 2) =>(c = 1) 3 (p = 1) e (u = 2) =>c = 1 4 p = 0 =>c = 0
66
4.6 “Conjuntos candidatos” (Hitting sets)
Um conjunto candidato de um dado multi-conjunto2 S = {Si | i ∈ ⊆ }, denotado por
C(S), é o conjunto B ⊆ A tal que a intersecção de B e todos os conjuntos de S seja não-
vazia, B ∩ Si ≠ ∅. O termo MC(S) denota o mínimo conjunto candidato e B ∈ MC(S)
se com a remoção de qualquer membro, B deixa de ser um conjunto candidato (Øhrn,
1999).
C(S) = {B ⊆ A | B ∩ Si ≠ ∅ para todo Si ∈ S} (4.12)
Exemplo 8
Seja S: [{a, b, c, d}, {a, b, d}, {a, b}, {c}, {d}] o conjunto MC(S) é:
{a, c, d} e {b, c, d}
O problema da computação dos primos implicantes de uma função Booleana POS
(product-of-sum), segundo Øhrn (1999) pode ser facilmente transformado em um
problema de computação de mínimos conjuntos candidatos. A vantagem desta
transformação é computacional, já que o cálculo através de simplificações Booleanas é
oneroso em muitos casos, deste modo dificultando a resolução de problemas com um
número significativo de elementos. Seja uma função Booleana POS h, composta pela
soma de n elementos, como a função de discernibilidade definida na Equação 4.11,
pode-se, então, interpreta-la como um multi-conjunto S(h):
S(h) = {Si | Si = {a*j | a
*j ∈ fA}} (4.13)
2 Multi-conjunto é uma coleção não ordenada de elementos onde o mesmo elemento pode ocorrer mais de
uma vez. O mapeamento dos elementos de um multi-conjunto, em geral é expresso no domínio dos
números naturais (Øhrn, 1999).
67
onde i = 1 .. n, j = 1..|A| e fA é a função de discernibilidade.
Exemplo 9
Seja fA = {(a + b + c + d) × (a + b + d) × (a + b) × (c) × (d)} então S(fA) é:
S(fA) = [{a, b, c, d}, {a, b, d}, {a, b}, {c}, {d}]
Com isso, o conjunto candidato de S(fA) corresponde aos implicantes de fA, assim como
a computação mínimo conjunto candidato é relativa a computação dos primos
implicantes de fA (Øhrn, 1999).
4.7 “εεεε – conjuntos candidatos aproximados” (εεεε – approximate hitting sets)
Uma solução aproximada do problema do cálculo dos conjuntos candidatos é um
conjunto de elementos “suficientes” para representar o multi-conjunto S (Øhrn, 1999).
O ε – conjunto candidato aproximado é denotado por Ca(S, ε, w), onde ε é o grau de
aproximação e w é o peso atribuído a cada membro de S como é mostrado na Equação
4.15:
∑∈
=S'
S'iS
iw Sw )()(σ (4.14)
})(
)(|{),( ε
σσε ≥∅≠∩⊆=
S|S' em
S,w
iiwa
BSSABwC (4.15)
Se B deixar de ser um ε – conjunto candidato aproximado com a remoção de qualquer
elemento, então B é dito mínimo e é denotado por MCa(S, ε, w).
Em alguns casos é possível a não utilização do peso associado aos elementos de S,
simplificando a Equação 4.15 da seguinte maneira:
68
}||
||||{),( εε ≥∅≠∩⊆=
S S em
S,BSS
ABwC iia (4.16)
A representação da Equação 4.16 é importante pois nem sempre há ponderações para os
atributos em todos os problemas de análise por meio da TCA, então nestes casos o
indicado é o uso desta equação para o cálculo das reduções.
4.8 Função de pertinência aproximativa
Em TCA a noção de função de pertinência é diferente, pois a função de pertinência
aproximativa ]1,0[: →UBXµ quantifica o grau relativo de sobreposição entre o conjunto
X e a classe de equivalência [x] para cada x, utilizando o conjunto de variáveis B ⊆ A
(Komorowski et al, 1999), (Pawlak, 1994), (Wong, 1986):
|][|
|][|x)(
B
BX x
Xx ∩=µ (4.17)
A partir da Equação 4.17, as aproximações podem ser calculadas do seguinte modo
(Komorowski et al, 1999):
}1)(:{)( =∈= xUxXB BXµ (4.17)
}0)(:{)( >∈= xUxXB BXµ (4.18)
}1)(0:{)( <<∈= xUxXBN BXµ (4.19)
Exemplo 10
Através da equação (4.12) temos, para X2 = {x2, x3, x4, x5}:
;12
2
|}x,x{|
|} x, x, x,{x}x,x{|
|x][|
|[x]|)x(
52
543252222
==∩=∩=B
BBX
Xµ
69
;5,02
1
|}x,x{|
|}x,x,x,x{}x,x{|
|x][|
|[x]|)x(
41
543241242
==∩=∩=B
BBX
Xµ
4.9 Rosetta Todos os conceitos básicos sobre a teoria dos conjuntos aproximativos foram abordados
anteriormente. São com estas idéias expostas que a análise por meio da TCA é
realizada. Entretanto não é um dos objetos deste estudo desenvolver ferramentas que
possibilitem a aplicação de tal teoria em um estudo de caso e sim aplicar e verificar a
qualidade dos resultados mediante o uso de uma técnica nova e pouco explorada no
Brasil, no que tange ao menos o uso desta na previsão de clima.
Existem muitos sistemas desenvolvidos cuja proposta é a utilização da TCA para a
análise de dados. Em Komorowski et al (1999) é exibida uma lista de software com este
propósito, na qual os de maior relevo são:
• Datalogic/R
• Grobian
• KDD-R
• LERS
• PRIMEROSE
• RoughFuzzyLab
• RSL (Rough Set Library)
• ROSETTA (Rough Set Toolkit for Analysis of Data)
Em especial da lista acima se pode destacar, o sistema ROSETTA, que é uma
ferramenta baseada na TCA, para realização do processo de KDD em um sistema de
informação (Øhrn, 1999). Foi desenvolvida em um esforço conjunto entre o Grupo de
Lógica do Instituto de Matemática da Universidade de Varsóvia e o Grupo de Sistemas
de Conhecimento da Universidade Norueguesa de Ciência e Tecnologia (NTNU).
70
Há uma ampla gama, neste sistema, de algoritmos que façam as diferentes etapas do
processo de KDD, o que possibilita diferentes abordagens e modelagens. Mas uma
vantagem de extrema importância do ROSETTA é a possibilidade de inclusão de novos
algoritmos, caso haja necessidade, pois este é um sistema modular, ou seja, construído
em blocos.
Entretanto há um interesse em utilização dos algoritmos referentes à TCA, descartando
deste modo outros algoritmos que “suportam” etapas do KDD tais como seleção, pré-
processamento, transformação, uma vez que estas etapas foram realizadas externamente.
Mediante isto, os algoritmos no ROSETTA que dizem respeito à TCA são responsáveis
pelo cálculo das reduções. Os principais são:
• Algoritmo Genético (SAVGeneticReducer);
• Algoritmo de Johnson (JohnsonReducer);
4.9.1 Introdução aos algoritmos genéticos
Os algoritmos genéticos (AGs) são métodos adaptativos que podem ser utilizados para
resolver problemas de busca e otimização. São inspirados no princípio Darwiniano da
evolução das espécies e na genética (Goldberg, 1989). Esta seção discute
superficialmente a utilização de AGs na computação das reduções, abordadas na teoria
dos conjuntos aproximativos, mas para uma discussão mais profunda veja Goldberg
(1989), Michalewicz (1992), Mitchell (1996) e Vinterbo & Øhrn (1999).
Os AGs usam uma analogia direta com o comportamento natural. Trabalham com uma
população de indivíduos, na qual cada um representa uma solução para o problema
apresentado.
A cada indivíduo associa-se um grau de aptidão, o que determina a sua capacidade de
competir com os demais membros da população. Para medir a aptidão de um indivíduo
é utilizada a função de aptidão. Quanto maior for sua aptidão, maior a probabilidade do
71
mesmo ser selecionado para se reproduzir, cruzando seu material genético com o de
outro indivíduo selecionado de forma igual. Este cruzamento produzirá novos
indivíduos, chamados de descendentes, que possuem características de seus pais.
Em AGs os indivíduos são vetores de bits chamados de cromossomo. Os bits estão
dispostos, em um cromossomo, ordenadamente, e cada bit é chamado de gene. Aos
valores destes bits, ou genes, é dado o nome de alelo. Estas idéias são mostradas na
Figura 4.3.
Figura 4.3 – Estrutura do cromossomo.
Os operadores genéticos mais utilizados para a evolução das populações de indivíduos
em AGs são:
• Cruzamento ou recombinação (Crossover);
• Mutação;
• Inversão.
O operador de cruzamento é caracterizado pela criação de novos indivíduos a partir da
escolha aleatória de seus genitores. Os descendentes, frutos desta operação são
diferentes de seus pais, porém apresentam características genéticas de ambos os
genitores (Figura 4.4).
Figura 4.4 – Operação de recombinação.
72
Na operação de mutação o valor de um gene do cromossomo é alterado, com o objetivo
de aumentar a diversidade na população. Um Exemplo deste operador genético é
mostrado na Figura 4.5.
Figura 4.5 – Operação de mutação.
O terceiro operador é o de inversão (Figura 4.6), que é caracterizado pela troca da
posição de dois genes, no cromossomo, escolhidos aleatoriamente. Este tipo de
operação é restrito a problema de epistasia (forte interação entre genes de um
cromossomo) (Vinterbo e Øhrn, 1999).
Figura 4.6 – Operação de inversão.
Abaixo é mostrado um pseudocódigo para um algoritmo genético simples:
Inicio
Gerar população inicial;
Calcular a função de aptidão de cada individuo;
Enquanto não ( terminou ) faça
inicio
Para ( tamanho da população )/2 faça
inicio
Selecionar dois indivíduos da geração anterior para
cruzamento (probabilidade de seleção proporcional à
função de aptidão do individuo);
Cruzar com certa probabilidade obtendo descendentes
(recombinação);
Mutação nos descendentes com certa probabilidade;
Inverter genes em indivíduos com certa probabilidade;
73
Calcular a função de aptidão dos descendentes que
sofreram mutação;
Incluir os descendentes que sofreram mutação na nova
geração;
fim
se ( população convergiu ) então
terminou = verdade;
fim
Fim
4.9.2 Algoritmo SAVGeneticReducer
Função: Implementa um algoritmo genético para computação dos mínimos conjuntos
aproximados, MCa, mostrado na seção 4.7 (Øhrn, 1999). Além do cálculo aproximado
das reduções, este algoritmo leva em consideração os custos associados aos atributos,
caso necessário. A função de aptidão é mostrada abaixo:
∅≠∩×+−×−=
||
|||,min
)(
)()()1()(
SS em BSS
Acusto
BcustoAcustoBf iiεαα (4.20)
onde ε é “fração dos candidatos” (hitting fraction) ou grau de aproximação para
soluções aproximadas, α é o parâmetro que define o peso entre o custo e as ε -conjuntos
candidatos aproximados, B é um subconjunto de A (conjunto de atributos) e S é o multi-
conjunto correspondente a função de discernibilidade.
Um outro parâmetro relativo a soluções aproximadas é o “extra keep list”, denotado por
k. “Keep list” são listas contendo subconjuntos da função de discernibilidade. Se k=0
somente uma “keep list” referente à ε é retornado. Se k > 0 então k+1 grupos de MCa
são retornados, cada grupo tendo uma aproximada grau de aproximação entre ε e 1. É
relevante observar que se k=1 então o próprio MC é retornado.
74
Exemplo: Se o usuário especificar soluções aproximadas com os parâmetros ε=0.7 e
k=3, então serão computados 4 grupos de MCa, com as “frações de acerto” 0.7, 0.8, 0.9
e 1.
Alguns outros parâmetros existentes nesta opção de cálculo de reduções são detalhados
em Vinterbo & Øhrn (1999) e Øhrn (1999).
4.9.3 Algoritmo JohnsonReducer
Função: Este algoritmo tem como principal característica retornar uma única redução.
A redução B é encontrada pela execução do algoritmo abaixo, onde S denota o conjunto
de conjuntos correspondente à função de discernibilidade, e w(s) denota o peso do
conjunto s em S.
1. B=∅;
2. Seja a o atributo que maximiza ∑w(s), onde esta soma é realiza sobre todos os
conjuntos s em S que contenham a.
3. B← a.
4. Remove todos os conjuntos s de S que contenham a.
5. Se S=∅ retorne B. Caso contrário, vá para o passo 2.
Exemplo 11
Para w=1 e B = {}.
Obs: A soma do passo 2 corresponde a um simples contador relacionado com a ocorrência do
atributo.
Dado f = (a + b + c) * (b + d) * (a + c) * (b + c) * (a + d). Isto significa que S = [{a, b,
c}, {b, d}, {a, c }, {b, c}, {a, d}]. Então os contadores associados à ocorrência de cada
atributo ficam assim:
75
w(a) =3;
w(b) =3;
w(c) =3;
w(d) =2.
Como existem várias soluções para contadores iguais a 3, arbitrariamente será escolhido
o a. Agora B={a}.
Todos os conjuntos em S que contenham o atributo a são apagados, ficando
conseqüentemente S = [{b, d}, {b, c}]. Então o procedimento é repetido novamente:
w(b) =2;
w(c) =1;
w(d) =1.
Neste caso o maior valor de w é 2, então o atributo b é escolhido e adicionado a B.
B={a, b};
Os conjuntos onde b está presente em S são apagados, ficando S = {}. Com isso o
resultado, ou melhor, a redução encontrada é B={a, b}, que é equivalente ao produto
Booleano (a*b) ou (a ∧ b).
4.10 Núcleo aproximado
Durante o desenvolvimento deste estudo houve a necessidade de criar uma idéia
associada à ocorrência das variáveis no conjunto de redução, uma vez que o núcleo é
responsável por extrair as variáveis mais importantes, desde que sua ocorrência no
conjunto de reduções seja igual a 100%. Ocorre que em muitos casos, especialmente no
caso em que são calculadas reduções aproximadas (ver seção 4.9.1), devido à
complexidade computacional ocasionada pelo grande número de atributos e elementos
envolvidos na análise, não existem variáveis com ocorrência em todas as reduções. Por
76
isso há a necessidade de definir um núcleo aproximado, que é composto por variáveis
com ocorrência superior ou igual ao parâmetro τ ∈ [0; 1].
É verdade que está idéia de núcleo, não satisfaz a conceito de um subconjunto de
atributos que tenham o mesmo particionamento, visto por meio dos conjuntos
elementares, que o conjunto com todos os membros o faz. Entretanto traz a idéia,
mesmo que seja um tanto intuitiva, de que se uma variável ocorre muitas vezes dentro
das reduções é porque a mesma tem uma importância relevante, do ponto de vista da
relação de indiscernibilidade. Abaixo é definido o conceito de núcleo aproximado:
Definição: Seja ai ∈ B, B ⊆ A, e τ ∈ [0; 1], o conjunto de variáveis contidas em RED(B)
com ocorrência no mínimo igual a τ, chamado de núcleo aproximado Na(B) é dado por:
})(|{)( τ≥= iBi agaBaN ; i = 1 .. |B| (4.21)
onde g(a, B) é a função de pertinência de a em RED(B), que é o resultado da quantidade
de vezes que a ocorre no conjunto de reduções, dividido pelo número de reduções,
sendo dada por:
|)(|
|)(|
)(
|)(|
1
BRED
aRB
ag
BRED
jij
iB
∑=
=∩= (4.22)
sendo Rj ∈ RED(B).
É válido ressaltar que RED(B) é uma espécie de multi-conjunto, como mostrado na
seção 4.6, pois é formado por uma ou mais reduções, onde cada redução é um
subconjunto de atributos.
77
Exemplo 12
Seja B = {a, b, c, d, e} o conjunto de atributos de um sistema de decisão e as reduções
para esse sistema são mostradas abaixo:
R1 = {a, b};
R2 = {b, c};
R3 = {c};
Portanto o conjunto RED(B) é dado por:
RED(B) = {R1, R2, R3} = [{a, b}, {b, c}, {c}]
4.11 Comentários finais sobre a TCA
A TCA ainda pode ser utilizada em modo híbrido, com abordagens tais como a teoria
dos conjuntos nebulosos (TCN), teoria de Dempster-Shafer, teoria da probabilidade,
redes neurais artificiais, etc. Por exemplo, podemos utilizar a TCA com a TCN de tal
maneira, para construir a função de pertinência nebulosa (Komorowski et al, 1999):
∈∈
∈=
)( se 0
)( se .50
)( se 1
)(
XNEGx
XBNx
XPOSx
xXµ
78
5 REDES NEURAIS ARTIFICIAIS
5.1 Introdução
Foram vistos, anteriormente, os conceitos básicos, tais como previsão climática, teoria
dos conjuntos aproximativos e mineração de dados, que são importantes para a
compreensão deste estudo voltado ao comportamento atmosférico.
Um dos objetivos, como já mencionado no Capítulo 1, é de reduzir as variáveis de
entrada do modelo. Como a principal característica da TCA é fazer este tipo de tarefa,
então esta é a base do estudo realizado nesta dissertação.
Num primeiro instante, uma análise por meio da teoria dos conjuntos aproximativos é
responsável pela extração das variáveis meteorológicas, mais importantes, com o
propósito de reduzi-las para obter um menor esforço computacional. O segundo passo
da análise, é a utilização de um modelo para realização das previsões climáticas, com o
intuito de validar a extração de conhecimento realizada na primeira análise.
Este modelo citado é inspirado, nos centros de pesquisas climáticas, em equações físico-
matemáticas. Entretanto esta dissertação, também tem por objeto, o uso de ferramentas
utilizadas na inteligência artificial, para o processo de previsão, neste caso, climática.
Para isso, foram escolhidas as redes neurais artificiais, que tem seu processo de
computação, inspirado nos sistemas nervosos biológicos.
Portanto, a teoria dos conjuntos aproximativos, reduz o número de variáveis de entrada,
enquanto as redes neurais artificiais servem como o modelo de produção da previsão
climática.
79
5.2 O que são as RNA? As redes neurais artificiais (RNA) têm sua inspiração no funcionamento do cérebro,
tentando assim imitá-lo por técnicas computacionais com o fim de adquirir, armazenar e
utilizar conhecimentos. Algumas definições básicas sobre as redes neurais artificiais
são:
Haykin (1994) define uma rede neural como sistemas distribuídos massivamente
paralelos que tem uma propensão natural para armazenar o conhecimento
experimental e disponibiliza-lo para uso. Em dois aspectos lembram o cérebro:
1) O conhecimento e adquirido pela rede através de um processo de
aprendizado;
2) Conexões entre os neurônios, conhecidos como pesos sinapticos, são
usadas para armazenar o conhecimento.
Segundo Kohonen (1972), as RNA são definidas como redes massivamente
paralelas e interconectadas, de simples elementos. Esses elementos devem
interagir como dados do mundo real, assim como o sistema nervoso biológico.
Para Loech e Sari (1996), as RNA são sistemas computacionais, de
implementação em software ou hardware, que imitam as habilidades
“computacionais” do sistema nervoso biológico, utilizando um grande número
de neurônios artificiais interconectados.
Os neurônios são unidades fundamentais nas redes neurais, onde, nos sistemas
biológicos estão presentes nos tecidos nervosos, incluindo o cérebro. Cada neurônio é
constituído de um corpo celular, ou soma que é o núcleo da célula. Partindo do soma
existem vários filamentos, chamados de dendritos e um mais longo denominado de
axônio. Os dendritos ligam-se a outras células, enquanto o axônio faz uma conexão
mais longa. A junção destas conexões entre células dá-se o nome de sinapses. Os sinais
se propagam de um neurônio para outro por meio de uma complicada reação
80
eletroquímica. Substâncias químicas transmissoras são liberadas pelas sinapses e entram
nos dendritos, aumentando ou baixando o potencial elétrico da célula. Quando o
potencial alcança um limiar, um pulso elétrico, chamado de potencial de ação, é
enviado pelo axônio. Sinapses que aumentam o potencial elétrico são chamadas de
excitatórias, e as que baixam inibitórias (Russell e Norvig, 1995). A estrutura de em
neurônio biológico pode se observado na Figura 5.1.
Figura 5.1 - Estrutura de um neurônio biológico.
FONTE: [http://www.din.uem.br/ia/neurais/]
Assim como nos sistemas biológicos, as redes neurais artificiais, também têm como
unidade principal o neurônio, que conectados por ligações denominadas links ou
conexões sinápticos. Cada link possui uma quantidade associada denominada peso
sináptico.
As RNA apresentam como principais vantagens às características de adaptabilidade,
generalização e tolerância a ruídos (Haykin, 1994). Essas características são de extrema
importância na aplicação das redes neurais em problema de previsão climática, devido a
complexidade de tal problema.
Existe uma grande diversidade modelos de redes reunais, entretanto o qualquer modelo
de RNA, pode ser descrita pela especificação dos seguintes componentes básicos:
81
• Modelo do neurônio;
• Estrutura da rede;
• Regras de Aprendizado.
Nas seções seguintes serão tratados mais detalhes de cada tópico listado acima.
5.3 Modelo do neurônio
Um neurônio é uma unidade de processamento de informações que é fundamental para
operação de uma rede neural (Haykin, 1994). São três elementos básicos de um
neurônio:
1) Um conjunto de sinapses, que são caracterizadas por pesos.
2) Um somador dos sinais de entrada, ponderados pelas suas respectivas sinapses.
3) Uma função de ativação para limitar a amplitude do sinal de saída do neurônio.
Tipicamente os sinais de saída são normalizados nos intervalos [0, 1] ou [-1, 1].
Na Figura 5.2 é mostrado um modelo de neurônio que possui, além dos elementos
acima, um limiar θk, que tem o efeito de subtrair a entrada uk da função de ativação.
ϕ (.)ΣΣΣΣ
θk
yku
k
wk1
wk2
wkp
x1
x2
xp
.
.
.
.
.
.
Sinais deentrada
pesossinápticos
Somatório
Função deativação
Saída
Limiar
{
Figura 5.2 - Modelo de um neurônio não-linear.
FONTE: Adaptado de Haykin (1994).
82
Matematicamente um neurônio k pode ser descrito como (Haykin, 1994):
∑=
=p
jkjk xjwu
1
(5.1)
)( kkk uy θϕ −= (5.2)
onde x1, x2, …, xp são sinais de entrada; wk1, wk2, …, wkp são pesos sinápticos do
neurônio k; uk é a combinação linear dos sinais de entrada e os pesos sinápticos; θk é o
limiar; ϕ (.) é a função de ativação e yk é o sinal de saída do neurônio.
Existem diversas funções de ativação que são aplicadas nas redes neurais artificiais, as
mais comuns são:
a=purelin(n)
(a)
a=logsig(n)
(b)
a=tansig(n)
(c)
Figura 5.3 – Funções de ativação. (a)Linear; (b) Log-sigmoidal; (c) Tangente
hiperbólica sigmoidal.
FONTE: Hagan (1995)
5.4 Estrutura da rede
Definido o modelo de neurônio, a estrutura de combinação destes e suas conexões na
rede devem ser especificadas. A estrutura da rede, também conhecida como topologia
ou arquitetura, inclui as especificações da rede neural (número de neurônios, número de
83
camadas, modelo de neurônio, etc.) e a estrutura de interconexões, que descreve como
os neurônios são conectados na rede.
Na mais simples topologia de rede os neurônios são completamente conectados,
significando que todas as conexões possíveis estão presentes. Contudo, dependendo das
especificações da rede e regras de aprendizado, outros esquemas de interconexões
podem ser utilizados. A Figura 5.4 coloca exemplos de duas redes onde (a) é do tipo
completamente conectado e (b) é parcialmente conectado.
x1
x2
y
1
2
3
x1
x2
y
1
2
3
(a) (b)
Figura 5.4 - Exemplo de estrutura de interconexões. (a) completamente conectado. (b)
parcialmente conectado.
Uma RNA também é caracterizada pelo número de camadas que possui. A arquitetura
das camadas pode ser do tipo única camada ou multicamadas. Uma rede do tipo única
camada tem somente uma camada de entrada e uma de saída. Já nas redes do tipo
multicamadas, uma ou mais camadas escondidas são inseridas entre a camada de
entrada e a camada de saída. A Figura 5.5 mostra estas arquiteturas:
x1
x2
y
1
2
3
x1
x2
1a
2a
1b
2b
y3
(a) (b)
Figura 5.5 - Arquitetura da RNA. (a) RNA de uma camada. (b) RNA multicamada.
84
Existem arquiteturas de redes neurais artificiais que necessariamente não precisam estar
em camadas ou em camadas homogêneas (Haykin, 1994; Chen, 2001). Mediante isto
dependendo de como a rede processa o fluxo de informação, as RNA podem ser
divididas em:
• Redes não-recorrente (feedforward network);
• Redes recorrente.
Nas redes não-recorrentes o sinal de informação se propaga em uma só direção, da
entrada para a saída. São redes deste tipo as que possuem estruturas sem realimentação,
formadas por uma ou mais camadas, os neurônios não possuem ligações com outros
neurônios de camadas previas e muito menos com neurônios da mesma camada.
As redes recorrentes (Figura 5.6 – b) contêm, ao contrário da antecessora apresentada,
ao menos uma realimentação e também permite que o sinal de informação que flui de
um neurônio, volte para ele mesmo. Estas redes podem ter suas estruturas não
obrigatoriamente organizadas em camadas e quando são, podem possui interligações
entre neurônios de mesma camada e entre camadas não consecutivas, gerando
interconexões bem mais complexas do que as redes não-recorrentes.
x1
x2
1a
2a
1b
2b
y3
x1
x2
1
3
2
5
4 y1
y2
(a) (b)
Figura 5.6 - Divisão das arquiteturas das RNA. (a) não-recorrentes. (b) recorrentes.
85
5.5 Regra de aprendizado
A principal propriedade de uma rede neural artificial é a habilidade de incorporar
conhecimento, por meio de seus pesos sinápticos, em um procedimento chamado de
aprendizado. Este é um processo iterativo, conhecido por algoritmo de aprendizado, de
ajustes dos pesos sinápticos da rede em resposta aos estímulos externos, com o intuito
de atingir um objetivo desejado. Em geral um algoritmo de aprendizado tem três etapas:
1) Apresentação dos estímulos externos a rede;
2) Mudança dos pesos como resultado destes estímulos;
3) Avaliação da resposta da rede mediante as mudanças ocorridas na estrutura.
O modo nas quais os pesos são alterados é descrito pela regra de aprendizado, que é
uma formulação matemática chamada de atualização dos pesos. Basicamente existem
duas categorias de regra de aprendizado, que dependem do ambiente externo onde a
rede opera:
• Treinamento supervisionado;
• Treinamento não-supervisionado;
O treinamento supervisionado necessita de um par de vetores composto por o vetor de
entrada e o vetor de alvo ou saída desejada. Para este tipo de treinamento os padrões de
entradas são apresentados à rede neural, então a saída é comparada com a saída
desejada. Desta comparação é encontrado o erro, que é utilizado, de acordo com as
regras definidas pelo algoritmo de aprendizado, para atualização dos pesos, de modo
que o erro encontrado seja minimizado. Este processo é repetido até que o erro atinja
um patamar aceitável. A cada iteração dá se o nome de época ou ciclo.
No treinamento não-supervisionado, por sua vez, não há a necessidade do vetor alvo,
pois não se realiza comparações para determinar a resposta ideal. O conjunto de
treinamento modifica os pesos de forma a produzir saídas que sejam consistentes, ou
86
seja, mediante a apresentação de dois padrões similares, a rede tende a apresentar um
mesmo comportamento na sua saída.
5.6 Perceptron multicamadas (Multilayer perceptron - MLP)
O perceptron é a mais simples forma de uma rede neural, usada para classificacao de
problemas de um tipo especial de padrões ditos linearmente separáveis (Haykin, 1994).
Basicamente consiste de um único neurônio com pesos sinápticos ajustáveis e limiar
(Figura 5.7).
x1
x2
xp
y
θ
Limiar
EntradasSaída{
Figura 5.7 - Perceptron de uma única camada.
FONTE: Adaptado de Haykin (1994)
Entretanto a capacidade de aprendizado de um perceptron é muito reduzida, com
relação a problemas complexos do mundo real, além do fato de representar somente
problemas linearmente separáveis. Com o acréscimo de varias camadas na rede neural,
esta capacidade foi acrescida, porém foi com a proposta do algoritmo de aprendizado de
retro-propagação do erro (back-propagation), que as redes neurais ressoaram no mundo
acadêmico e ganharam um grande número de aplicações e pesquisas.
O perceptron multicamada, como é chamado à rede de arquitetura não-recorrente
multicamada, é composta por uma camada de entrada, uma ou mais camadas escondidas
e uma camada de saída, todas estas, compostas por neurônios, em geral completamente
conectados.
87
Uma rede perceptron multicamada tem três características (Haykin, 1994):
1) O modelo de cada neurônio na rede inclui uma não-linearidade na saída final.
Esta não-linearidade pode ser garantida por funções de ativação do tipo
logística, por exemplo;
2) A rede contém uma ou mais camadas escondidas que não são partes da entrada
ou saída;
3) A rede exibe um alto grau de conectividade, determinadas pelas sinapses da
rede;
5.6.1 O algoritmo de retro-propagação do erro
Em 1986 Rumelhart et al apresentaram o algoritmo de treinamento de retro-propagação
do erro, conhecido em inglês por backpropagation, que é uma técnica específica para a
implementacao do gradiente descendente. Entretanto os primeiros documentos na qual
utiliza-se um enfoque voltado para computação de gradiente eficientemente é feita por
Werbos em 1974 (Haykin, 1994). Com o algoritmo de retro-propagação do erro
mostrou-se que é possível treinar redes com camadas intermediárias, para a
aprendizagem de problemas complexos. Este algoritmo é utilizado nas redes Perceptron
Multicamadas (MLP – Multi Layers Perceptron), que é o modelo mais popular na
atualidade.
O algoritmo de retro-propagação do erro é um algoritmo para o aprendizado
supervisionado de uma rede neural do tipo MLP que é composto de dois passos: um
passo para frente, a propagação e um passo para trás, a retro-propagação. Em um
primeiro momento o sinal na rede neural, resultado da atividade da apresentação de um
padrão de entrada flui, ou se propaga da entrada para a saída. Na seqüência do
treinamento o erro é calculado, pela comparação do resultado na saída e o desejado para
o padrão, e então este erro é propagado da saída até a camada de entrada, modificando
os pesos de todas as camadas de acordo com o erro obtido. O objetivo geral é minimizar
88
o erro entre o desejado e a saída da rede. A Figura 5.8 mostra uma rede MLP com uma
camada escondida e um neurônio na camada de saída.
Saída
CamadaEscondida
Entrada
Oi
Wj,i
aj
Wk,j
Ik
Figura 5.8 – MLP com uma camada escondida.
FONTE: Russell e Norvig (1995).
Depois de um padrão ser apresentado à rede neural (Figura 5.8), o resultado gerado é Oi,
e consequentemente o erro na saída é Ei = (Ti – Oi) onde Ti é o valor desejado para o
padrão de entrada, Oi é a saída processada pela rede e i é a unidade correspondente.
Depois de calculado o erro os pesos são atualizados através da conexão de j para i, por
meio da equação :
Wj,i = Wj,i + α × aj × Ei × f’ (ini) (5.3)
ou de um modo mais sucinto
Wj,i = Wj,i + α × aj × ∆I (5.4)
com ∆i = Ei × f’(in i) sendo f’ a derivada da função de ativação f e α a taxa de
aprendizado ( ]1,0[∈α ).
89
Para a atualização das conexões entre a camada de entrada e a camada escondida, ∆i
deve ser dividido de para todas as conexões entre k e j, de acordo com os pesos
sinápticos:
∑ ∆=∆i
iijjj winf ,)(' (5.5)
Então a atualização dos pesos é feita de maneira análoga a situação feita entre a camada
de saída e a camada escondida.
jkjkjk IWW ∆××+= α,, (5.6)
De um modo resumido a retro-propagação do erro é descrita da seguinte forma:
a) Computar ∆ para a camada de saída e as camadas escondidas de acordo com o
erro observado;
b) Começando pela camada de saída, repetir para cada camada da rede até a
camada escondida mais próxima da entrada seja alcançada:
1) Propagar ∆ para a camada anterior;
2) Atualizar os pesos entre as duas camadas.
Em geral as redes MLP com algoritmo de retro-propagação do erro, demandam um
processo de treinamento com muitas épocas. Em muitos casos esse tempo de
treinamento pode ser diminuído, através do aumento da taxa de aprendizado α. Porém
com o aumento de α, podem ocorrer oscilações, o que é prejudicial ao treinamento, pois
em alguns casos o erro por estacionar em um mínimo local. Um modo de aumentar α
sem levar à oscilação é modificar algoritmo através da inclusão do termo momentum,
que é uma constante que determina o efeito entre as mudanças passadas dos pesos na
atual atualização dos mesmos (Russell e Norvig, 1995; Haykin, 1994).
90
91
6 KDD COM DADOS METEOROLÓGICOS
6.1 Introdução
Esta dissertação tem como objetivos estabelecer uma metodologia capaz de reduzir as
variáveis de entrada de um modelo baseado em técnicas empregadas na inteligência
artificial para a realização de predição climática das variáveis temperatura e
precipitação. Esta previsão tem intuito de auxiliar os métodos existentes para previsão
climática. O processo de análise é constituído basicamente de duas fases.
Na primeira, por meio do processo de descoberta de conhecimento utilizando como base
a teoria dos conjuntos aproximativos (Capítulo 4), busca-se um conjunto de variáveis, as
mais importantes, que representem toda a base de dados segundo a relação de
indiscernibilidade.
Na etapa final os dados reduzidos são apresentados a uma rede neural artificial para
realização da previsão climática. Neste caso a RNA serve como modelo para validar as
reduções feitas na etapa anterior, ou seja, ao invés de utilizar o modelo físico, usa-se o
modelo inteligente (redes neurais). A rede neural usada é do tipo Perceptron de
Múltiplas Camadas (MLP) com o algoritmo de treinamento por retro-propagação do
erro.
Observando a Figura 6.1 é possível perceber que quando analisada sazonalmente uma
variável, neste caso precipitação, apresenta um comportamento com características
parecidas. É como falar que o verão é quente, com forte pancadas de chuvas no final da
tarde, o inverno é frio, chuvoso, etc. Isto é possível porque o clima possui um
comportamento cíclico, conhecido como ciclo sazonal ou estações (Cavalcante et al,
2002). Por essa periodicidade, neste estudo, buscou-se fazer com que um sistema
computacional, aprenda esse comportamento atmosférico para as estações:
92
• Dezembro/Janeiro/Fevereiro (DJF),
• Março/Abril/Maio (MAM),
• Junho/Julho/Agosto (JJA),
• Setembro/Outubro/Novembro (SON).
(a)
(b)
(c)
Figura 6.1 – Precipitação na América do Sul. (a) Jan/1980; (b) Jan/1981 e (c) Jan/1982.
Portanto neste capítulo é abordado o processo de descoberta de conhecimento, passo a
passo, para obtenção das variáveis mais importantes no conjunto de dados
meteorológicos.
6.2 Processo de descoberta de conhecimento
De acordo com as definições apresentadas na seção 3.3, é apresentado a seguir as etapas
do processo de KDD.
6.2.1 Definição dos objetivos e seleção dos dados
O objetivo da execução deste processo é obter as variáveis mais importantes do
conjunto de dados, com o propósito de reduzir ou compactar a base de dados, para uma
posterior fase, que é treinar uma RNA para predizer o comportamento atmosférico para
longos períodos (clima).
93
Então para realizar a mineração de dados e atingir os objetivos descritos, optou-se pela
utilização de uma teoria, cuja característica intrínseca é de compactar o volume de
dados. Essa teoria é conhecida e foi abordada no Capítulo 4, como teoria dos conjuntos
aproximativos. Da TCA, existem três conceitos que estão diretamente ligados à
compactação da base de dados: a relação de indiscernibilidade, na qual um elemento
representa toda a classe; as reduções de atributos e o núcleo, que é constituído dos
atributos mais importantes e indispensáveis. Em especial será dada mais ênfase ao
núcleo e sua extensão o núcleo aproximado, pois esta é a forma mais eficaz de reduzir a
quantidade de variáveis (Walczak e Massart, 1999).
Para a realização das análises foram coletados dados do Climate Diagnostic Center/
National Oceanic and Atmospheric Administration (CDC/NOAA) em
[http://www.cdc.noaa.gov/], para o período de janeiro de 1980 a dezembro de 2000 (252
tempos ou 21 anos) e a área contida entre as latitudes [10° N, 35° S] e longitudes [80°
W, 30° W], referente à América do Sul, em uma resolução espacial em ambas as
dimensões (x, y) de 2.5° e resolução temporal (t) de 1 mês. As variáveis coletadas são
mostradas abaixo:
Tabela 6.1 – Variáveis. Variável Descrição (nível) Unidade
1 airt Temperatura do ar (superfície) °C
2 div divergência (1 σ) 1/s
3 estacao Estação do ano –
4 lat Latitude graus
5 lon Longitude graus
6 prec Precipitação (superfície) mm/dia
7 shum Umidade Específica (2 m) kg/kg
8 spres Pressão (Superfície) mb
9 temp Temperatura (0.1- 2 m) °C
10 u300 Vento Zonal (300 hPa) m/s
11 u500 Vento Zonal (500 hPa) m/s
(continua)
94
Tabela 6.1 – Conclusão. 12 u850 Vento Zonal (850 hPa) m/s
13 v300 Vento Meridional (300 hPa) m/s
14 v500 Vento Meridional (500 hPa) m/s
15 v850 Vento Meridional (850 hPa) m/s
Para simplificação e agilidade computacional serão analisadas cinco subáreas da
América do Sul, dispostas a cobrirem uma parte das cinco regiões brasileiras, pois
devido à grande extensão territorial do Brasil, há muitos regimes de precipitação e
conseqüentemente cada uma com seu clima típico.
As regiões são (Figura 6.2):
1. Norte (N):
long = 67.5°W, 57.5°W; lat = -7.5°S, 0°;
2. Nordeste (NE):
long = 45°W, 35°W; lat = -7.5°S, 0°;
3. Centro-Oeste (CO):
long = 62.5°W, 52.5°W; lat = -22.5°S, -15°S;
4. Sudeste (SE):
long = 52.5°W, 42.5°W; lat = -27°S,.5 -20°S;
5. Sul (S):
long = 60°W, 50°W; lat = -35°S, -27.5°S;
95
Figura 6.2 – Regiões selecionadas para análise.
As análises são realizadas de modo a comparar os dados tratados com a teoria dos
conjuntos aproximativos, mais a estimativa produzida pela rede neural artificial, com
somente a previsão da RNA, ou seja, comparar os dados com o conjunto de atributos
completos e reduzidos. A Figura 6.3 mostra os esquemas de treinamento para os testes
comparativos.
TCA RNA
RNA
Dados
Dados R
R
Figura 6.3 – Metodologia do processo de previsão climática.
Dos 21 anos da base de dados, 18 anos foram reservados para treinamento, enquanto os
3 anos restantes foram utilizados para generalização, ou seja, para testar a abordagem de
previsão climática desenvolvida neste estudo.
96
6.2.2 Pré-processamento
Nesta etapa envolve a preparação dos dados, como verificar se os dados necessitam ser
normalizados, quais atributos podem ser descartados ou acrescentados, se é necessário
converter dados para outro formato, criar atributos, etc.
São realizadas, no pré-processamento, as conversões de unidades (como as temperaturas
de Kelvin para °Celsius) e os dados de temperatura da superfície (dados de temperatura
somente da parte continental) são interpolados com os dados de temperatura da
superfície do mar (TSM ou do inglês SST), de modo a formar um só atributo
denominado temperatura (Figura 6.4).
Tem
pera
tura
da
Sup
erfíc
ieT
empe
ratu
ra d
a S
uper
fície
do
Mar
Temperatura
Figura 6.4 – Formação do atributo temperatura.
Também foram incorporadas para as análises as componentes espaciais e temporais
(longitude, latitude e tempo) mais o atributo de decisão (temperatura ou precipitação),
adicionalmente as variáveis mostradas na Tabela 6.1.
97
As análises foram feitas para a previsão de precipitação e temperatura para 1 e 3
estações adiante (∆). Por exemplo, para entradas ou condições iniciais da rede neural
referentes à DJF, as previsões para ∆ = 1 são referentes aos meses MAM e ∆ = 3 são
para SON.
Para a constituição do sistema de informação, os dados coletados no CDC/NOAA
(formato netCDF3), tiveram de ser transformados do formado tridimensional (t, y, x),
para o formato tabular (x(t), y(t)) e dispostos conforme mostra a Tabela 6.2. Este tipo de
representação é do tipo tabular com tempo repetido, tal como descrito na seção 3.7,
necessário para processamento da previsão climática neste trabalho. Neste caso para
cada tempo t existem n elementos, um para cada ponto da grade.
Tabela 6.2 – Formato dos dados.
VARIÁVEL
TEMPORAL VARIÁVEL
ESPACIAL AIRT DIV SHUM TEMP U V SST PREC d
(DECISÃO) 1 l1 a1 b1 c1 d1 e1 f1 g1 h1 h1+∆ 2 l1 a2 b2 c2 d2 e2 f2 g2 h2 h2+∆ 3 l1 a3 b3 c3 d3 e3 f3 g3 h3 h3+∆ 1 l2 a4 b4 c4 d4 e4 f4 g4 h4 h4+∆ 2 l2 a5 b5 c5 d5 e5 f5 g5 h5 h5+∆ 3 l2 a6 b6 c6 d6 e6 f6 g6 h6 h6+∆ . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
n ln an bn cn dn en fn gn hn hn+∆
O sistema de decisão é formado por todos os atributos condicionais (Tabela 6.1) mais o
atributo de decisão d (precipitação ou temperatura). A diferença entre os atributos
condicionais e a decisão d é que este está defasado ∆ tempos. Por exemplo, suponha-se
que a variável de decisão seja a precipitação e queira-se realizar uma estimativa desta
para 3 meses adiante, então o atributo de decisão é precipitação 3 meses adiante,
conforme Tabela 6.3.
3 netCDF (network Common Data Form) é uma interface para acesso de dados científicos e uma biblioteca que provê uma implementação da interface. [zephyr.meteo.mcgill.ca/ncar/ng4.0/nggenrl/glossary.html]
98
Tabela 6.3 – Exemplo do atributo de decisão. VARIÁVEL
TEMPORAL VARIÁVEL
ESPACIAL AIRT DIV SHUM TEMP U V SST PREC PREC+3 (DECISÃO)
JAN l1 A-Jan D-Jan S-Jan T-Jan U-Jan V-Jan S-Jan Prec - Jan Prec - Abr FEV l1 A-Fev D-Fev S-Fev T-Fev U-Fev V-Fev S-Fev Prec - Fev Prec - Mai
6.2.3 Transformação
Na etapa de transformação, conforme a definição na seção 3.3, neste estudo de caso é
necessária aplicar a categorização ou discretização, para a mineração de dados. O
processo de discretização consiste basicamente em transformar variáveis não
categóricas em variáveis categóricas. Este processo faz com que o mundo seja visto de
uma forma mais grosseira, porém determinadas metodologias, como no caso da TCA,
trabalham melhor com variáveis numéricas discretizadas do que contínuas, isto porque
uma das premissas da TCA é reduzir a precisão dos dados revelando suas regularidades
(Pawlak, 1991).
Mas esta discretização é relevante somente para a teoria dos conjuntos aproximativos e
por isso na fase de produção da previsão climática por meio das redes neurais os dados
podem ser do tipo contínuo, uma vez que as RNA trabalham bem com estes tipos de
dados, além do fato de estes estarem na sua forma real, ou como são coletados.
Dentre os muitos modos de discretizar variáveis, optou-se por um algoritmo simples que
particione as variáveis meteorológicas em apenas três classes (Figura 6.5):
1) Abaixo da média histórica;
2) Na média histórica;
3) Acima da média histórica.
Então para encontrar estas classes foi utilizado o seguinte procedimento:
99
Sendo X={x i ∈ }, i=1..n; n é o número de elementos; θ = limiar do intervalo (θ ∈ [0,
1])
O mínimo e o máximo da série histórica X são:
a = mínimo(X);
b = máximo(X);
A média histórica de X é dada por:
n
xP
n
ii
m
∑== 1 (6.1)
Para o cálculo do limite inferior é calculado um ponto a’, entre o mínimo de X e a média
Pm. A posição do ponto a’ é controlada pelo parâmetro θ, como mostrado na Figura 6.5
e é dado por:
a’ = a + ((Pm – a)* θ) (6.2)
Portanto o intervalo abaixo da média histórica é [a, a’).
De forma análoga o limite superior b’ é calculado por:
b’ = Pm + ((b – Pm) * θ) (6.3)
E o intervalo acima da média histórica é (b’, b]. A classe média histórica é definida pelo
intervalo [a’, b’]
100
a b
x
1 2 3
Pm
a' b'
Figura 6.5 – Discretização de atributos.
A importância deste método de discretização é a possibilidade de controlar a
distribuição de classes através do parâmetro θ. Em alguns casos, para determinados
valores de θ, pode-se constituir apenas duas das três classes, ou classes com uma
distribuição ruim para fins classificatórios. Neste caso deve-se variar o parâmetro de
modo a encontrar uma distribuição de classes aceitável, pois encontrar θ é empírico.
Então utilizando o método exposto anteriormente, os dados coletados, foram
categorizados em três níveis: “baixo”, “médio” e “alto”. O parâmetro θ escolhido para a
discretização foi de 0.4, porque este apresentava uma melhor distribuição de classes
(outros parâmetros testados apresentavam somente duas das três classes ou poucos
elementos pertencentes a uma classe). A distribuição das classes, em porcentagem, para
as variáveis de precipitação e temperatura estão na Tabela 6.4 e 6.5, respectivamente.
Os rótulos das classes na tabela são: 1: abaixo da média, 2 na média e 3 acima da média.
Tabela 6.4 – Distribuição de classes para prec. Variável Precipitação
Classes Regiões 1 (%) 2 (%) 3 (%) CO 24.52 67.05 8.43 N 20.90 63.67 15.42 NE 29.46 61.14 9.40 S 20.72 70.36 8.92 SE 22.05 71.69 6.27
101
Tabela 6.5 – Distribuição de classes para temp. Variável Temperatura
Classes Regiões 1 (%) 2 (%) 3 (%) CO 13.04 72.20 14.76 N 15.42 76.61 7.98 NE 26.96 27.80 45.24 S 14.58 71.79 13.63 SE 31.73 41.90 26.37
6.2.4 Mineração de dados
Realizadas as etapas anteriores, resta a execução da tarefa responsável, neste estudo de
caso, pela extração das variáveis mais importantes ou imprescindíveis para a entrada do
modelo de previsão climática baseado nas redes neurais artificiais.
O primeiro passo é o calculo das reduções. Para a computação das variáveis
indispensáveis na base de dados foi utilizado o sistema Rosetta, com o algoritmo
genético para o calculo dos conjuntos candidatos aproximados (seção 4.9). Como
principal parâmetro, a fração dos candidatos, foi adotado o valor de 0.6, ou seja, todos
os atributos que pertencem aos conjuntos candidatos aproximados, que neste caso passa
a ser a redução, que tem no mínimo 60% de presença na função de discernibilidade
(|fA|). Na Tabela 6.6, a título de exemplo é mostrado um fragmento do conjunto de 289
reduções que foram encontradas para a região CO.
Tabela 6.6 – Fragmento das reduções para a região CO. # Reducão
1 {estacao, lon, lat, airt, temp, u850, u500, u300, v850, v500, v300, shum, spres, div, precAtual} 2 {estacao, lon, lat, airt, temp, u850, u500, u300, v850, v500, v300, shum, precAtual} 3 {estacao, lon, lat, airt, temp, u850, u500, u300, v850, v500, shum, div, precAtual} 4 {estacao, lon, lat, airt, temp, u500, u300, v850, v500, v300, shum, div, precAtual} 5 {estacao, lon, lat, temp, u850, u500, u300, v850, v500, v300, shum, div, precAtual} 6 {estacao, lon, lat, airt, temp, u850, u500, u300, v850, v300, shum, div, precAtual} 7 {estacao, lon, lat, airt, temp, u850, u500, u300, v850, v500, v300, div, precAtual} 8 {estacao, lon, lat, airt, temp, u850, u500, u300, v500, shum, spres, div, precAtual} 9 {estacao, lon, lat, airt, temp, u850, u300, v850, v500, v300, shum, div, precAtual} 10 {estacao, lon, lat, airt, temp, u850, u500, v850, v500, v300, shum, div, precAtual} ... ...
102
O valor da fração dos candidatos é empírico e foi encontrado através da construção de
classificadores, que são modelos utilizados na mineração de dados, para a partir de
atributos condicionais predizer o valor de um atributo denominado decisão. Quando se
obteve o maior valor de acurácia no classificador, mediante a variação da fração dos
candidatos, chegou-se então no valor utilizado para esta dissertação.
Para a construção deste classificador, a metodologia utilizada é a mesma até então vista,
sendo que os dados são separados em dados de treinamento e teste, onde na fase de
treinamento é criado um conjunto de regras ou modelo da base de dados, que são
avaliadas pela aplicação destas nos elementos de teste. A aferição da qualidade pode ser
feita de vários modos (Øhrn, 1999), porém a empregada foi da matriz de confusão
(confusion matrix), que “mede” estatisticamente os erros e acertos realizados pelo
classificador. Na diagonal desta matriz têm-se os casos corretos, ou seja, elementos que
pertencem a uma classe e o classificador os rotulou corretamente. No restante da matriz
são classificações incorretas ou erros do classificador. No final de cada linha e coluna
estão índices relacionados com os acertos do classificador (Øhrn, 1999). Mas o índice
mais relevante é a acurácia, que exprime a qualidade do classificador, pois é calculada a
partir dos acertos em relação ao número total de casos analisados. Na Figura 6.6 é
mostrada a matriz de confusão para a região CO e com alcance de previsão de 1 estação
adiante (acurácia de 0.56 ou 56% de acertos em 454 casos testados).
baixa média alta baixa 115 42 11 0.68 média 42 96 41 0.54 alta 18 47 42 0.39
0.66 0.52 0.45 0.56 Figura 6.6 – Matriz de confusão para o CO e ∆ = 1
Desde modo então foi encontrado o valor de 0.6 da fração dos candidatos para o cálculo
das reduções, que são essenciais para a computação de outro conceito de extrema
importância para a compactação do número de variáveis da base de dados, visto a
seguir.
103
Calculadas as reduções, a próxima computação é a do núcleo aproximado, que é uma
idéia proposta nesta dissertação e está associada a atributos que tenham determinadas
ocorrências na base de dados. Intuitivamente, se uma variável ocorre muitas vezes no
conjunto de reduções, então é sinal de que esta é de fundamental importância para
discernir os elementos, mantendo desta forma uma maior consistência e diminuindo as
incertezas associadas aos dados do mundo real.
O parâmetro adotado para o núcleo aproximado é o τ que está relacionado com a
ocorrência das variáveis no conjunto de reduções RED (seção 4.10). O valor adotado
neste caso de 0.7, ou seja, são parte do núcleo aproximado, variáveis com no mínimo
70% de presença em todas as reduções calculadas. Este valor foi adotado, pois se notou
que era o mínimo, para que além dos atributos espaciais e temporais, restasse ao menos
um atributo de cunho meteorológico.
Nas Tabelas 6.7 e 6.8 são mostradas os núcleos aproximados das reduções encontradas
para cada região, para variáveis com ocorrência igual ou superior a 70% em RED. Por
exemplo, na Tabela 6.7, para região Centro-Oeste (CO) a variável estação está presente
em 95.16% de todas as reduções encontradas pela TCA.
Tabela 6.7 – Núcleo aprox. de RED para precipitação e ∆ =1.
CO N NE S SE Variável % Variável % Variável % Variável % Variável % estacao 95.16 lon 100.00 estacao 94.95 lon 97.44 lon 95.70
lon 93.77 lat 99.64 lat 93.50 estacao 97.44 lat 95.34 lat 89.97 estacao 98.91 lon 90.61 lat 95.85 estacao 93.19
u500 76.47 precAtual 72.99 temp 82.67 airt 74.12 temp 78.14 precAtual 76.12 shum 71.17 shum 80.51 u300 70.97
u850 75.09 precAtual 73.65 airt 70.97 u300 73.70
104
Tabela 6.8 – Núcleo aprox. de RED para precipitação e ∆ =3. CO N NE S SE
Variável % Variável % Variável % Variável % Variável % estacao 95.16 estacao 98.63 lon 98.91 lon 98.40 estacao 95.19 lon 93.77 lat 98.29 estacao 94.93 lat 96.49 lat 94.44 lat 89.97 lon 97.95 lat 92.39 estacao 95.85 temp 85.19 spres 76.47 precAtual 77.74 temp 81.52 airt 71.88 u300 76.12 precAtual 74.28 u500 75.09 u850 73.70
Em um primeiro momento analisando as Tabelas 6.7 e 6.7 nota-se que regiões com CO
e NE no geral têm necessidade de mais variáveis do que as regiões restantes. Isto ocorre
provavelmente porque para se ter chuva nestas regiões, as variáveis em questão são de
maior representatividade no que diz respeito a distinção do estado chuvoso do não-
chuvoso.
As Tabelas 6.9 e 6.10 exibem os núcleos aproximados das reduções encontradas na
análise pela TCA para cada região, para variáveis com ocorrência igual ou superior a
70% em RED.
Tabela 6.9 – Núcleo aprox. de RED para temperatura e ∆ =1. CO N NE S SE
Variável % Variável % Variável % Variável % Variável % lat 95.51 lon 98.42 lon 99.26 lon 100.00 tempAtual 98.53 estacao 91.67 estacao 94.64 estacao 95.94 lat 98.28 lon 95.97 tempAtual 83.33 tempAtual 91.48 tempAtual 91.51 estacao 95.88 estacao 90.84 lon 79.49 lat 86.44 div 73.43 airt 78.01 lat 89.01 airt 77.88 u850 77.60 prec 71.22 tempAtual 72.51 u500 76.28 u300 71.92 prec 70.83
Tabela 6.10 – Núcleo aprox. de RED para temperatura e ∆ =3. CO N NE S SE
Variável % Variável % Variável % Variável % Variável % estacao 99.36 lon 94.86 lat 98.38 lat 99.67 lon 97.73 lat 97.45 estacao 93.15 lon 96.43 lon 99.67 estacao 97.09 lon 96.50 lat 88.01 estacao 90.91 estacao 99.34 lat 96.44 tempAtual 72.29 prec 77.40 u500 75.97 airt 72.43 airt 85.11 u300 75.34 u500 75.00
105
No núcleo aproximado para o atributo de decisão temperatura, os atributos são mais
homogêneos em relação à cardinalidade, especialmente os casos referentes à previsão
com alcance de 3 estações adiante (Tabela 6.10).
6.2.5 Interpretação
Está é a fase final do processo, responsável pela visualização dos resultados obtidos na
mineração de dados. Como os resultados são difíceis de ser analisados e resta ainda
testar a eficiência desta compactação da base de dados, por meio do uso das redes
neurais artificiais, então no Capítulo 7 é abordado de forma mais clara o emprego dos
resultados alcançados neste capítulo, com o intuito de atingir os objetivos estabelecidos
nesta dissertação.
106
107
7 REDES NEURAIS ARTIFICIAIS E A PREVISÃO CLIMÁTICA
7.1 Introdução
No Capítulo 6 as variáveis mais importantes para cada região da análise foram extraídas
da base de dados, utilizando como técnica de mineração de dados a teoria dos conjuntos
aproximativos.
Para verificar a validade e qualidade da compactação dos dados, mediante a redução dos
atributos de entrada, é necessário testar os núcleos aproximados em um modelo. Neste
caso, o modelo utilizado para validar o processo de mineração de dados é o emprego das
redes neurais artificiais para aprender o comportamento do clima.
As redes neurais são instrumento bastante utilizadas na inteligência artificial, pois
apresenta uma capacidade de aprendizado e de expressar um comportamento inteligente
grande. Essa capacidade se traduz na complexidade dos problemas que as redes neurais
são capazes de aprender. Por isso essa técnica foi escolhida para ser usada no
aprendizado do clima, pois se trata de um problema de natureza caótica, portanto
complexo, além de grande volume de dados.
7.2 Treinamento das redes neurais
O tipo de rede utilizado para desempenhar a previsão climática foi uma MLP, utilizando
o algoritmo de aprendizado por retro-propagação do erro. O desempenho da rede foi
medido pelo erro quadrático médio (EQM) dado por:
∑=
−=Q
k
kkQ
EQM1
2))()((1
at (7.1)
onde Q é o número de padrões de entrada, t é o vetor desejado e a é a saída da rede.
108
A arquitetura da rede neural criada é do tipo R-k-1, onde R é o número de variáveis de
entrada e k pode ser 20, 30 ou 40 neurônios. Estes números de neurônios foram
escolhidos para verificar quais os efeitos da modificação da RNA sobre os resultados.
Durante testes preliminares verificou-se que um número de neurônios entre 20 e 30 era
suficiente para a maioria dos casos testados, então se escolheu configurações
condizentes com estes números encontrados empiricamente. As funções de transferência
dos neurônios n1 a nk, mostradas na Figura 7.1 são do tipo tangente hiperbólica
signoidal, enquanto que a função de ns é do tipo linear.
x1
x2
xR
n1
n2
nk
ns
S
.
.
.
.
.
.
.
Figura 7.1 – Arquitetura da rede neural R-k-1.
O pseudocódigo do script de treinamento da rede neural é descrito abaixo:
decisão = [precipitação, temperatura];
∆ = [ ∆1, ∆3];
regiões = [r1, r2, r3, r4, r5];
neurônios_camada_escondida = [n1, n2, n3];
para cont1=1 até |decisão|
para cont2=1 até | ∆|
para cont3=1 até |regioes|
109
parta cont4=1 até |neurônios_camada_escondida|
[tmp, desejado]=recortar_dados(região(cont3));
dados = monta_CI(tmp, decisão(cont1), ∆(cont2));
saída=treinar_rna(dados, neurônios_camada_escondida(cont4));
gerar_figuras(saída, desejado)
fim
fim
fim
fim
A função recortar_dados do script é responsável por buscar os dados referentes a
região em análise, evitando assim que toda a base de dados sirva de entrada para a rede
neural. A montagem das “condições iniciais” ou entradas da rede é realizada pela
função monta_CI. Esta montagem é feita a partir dos dados coletados na função
recortar_dados, obedecendo qual o atributo desejado (temperatura ou precipitação) e
o alcance de previsão. Em seguida a rede é treinada, variando o número de neurônios da
camada escondida, em 20, 30 ou 40 neurônios. Os resultados são analisados em forma
de figuras, além do erro médio produzido pela RNA.
Este script para previsão climática foi implementado em Matlab®. As redes foram todas
treinadas para 10000 épocas e com o erro desejado de 0.5% do valor máximo da
variável de decisão para a região em análise.
É válido lembrar que as variáveis utilizadas para treinar as redes neurais no modo
reduzido (utilização do núcleo aproximado Na) são mostradas nas Tabelas 6.7 e 6.8 para
precipitação e Tabelas 6.9 e 6.10 para temperatura. Obviamente que o conjunto
completo (COMP) é composto por todas as variáveis meteorológicas e as componentes
espaciais e temporais.
Na Tabela 7.1 são mostrados os erros médios para a precipitação, de duas redes neurais,
uma que contêm como entradas o conjunto de variáveis completo ou não-reduzido
(COMP) e a outra com as entradas reduzidas (Na). O alcance de previsão (∆) é de 1
110
estação e 20 neurônios na camada escondida da rede neural. A coluna ganho expressa,
em porcentagem, se houve uma redução do erro médio do conjunto treinado com os
atributos reduzidos em relação ao completo. O erro médio é dado em [mm/dia]
(milímetros por dia).
Tabela 7.1 – Erro médio (R-20-1, Prec, ∆=1). ∆∆∆∆=1 Ganho
Região COMP Na (%) CO 1.66 1.18 28.88 N 1.55 1.37 11.85 NE 1.94 1.70 12.00 S 1.37 1.36 0.85 SE 1.20 1.22 -2.01
Como pode ser notada somente a região SE, não apresentou uma redução do erro no
treinamento feito com conjunto reduzido de variáveis, mesmo porque os valores
encontrados então entre os mais baixos mostrados na Tabela 7.1.
Tabela 7.2 – Erro médio (R-20-1, Prec, ∆=3). ∆∆∆∆=3 Ganho
Região COMP Na (%) CO 1.34 1.09 18.60 N 1.50 1.46 2.63 NE 2.05 2.00 2.55 S 1.45 1.11 23.59 SE 1.71 1.25 27.25
A Tabela 7.2, assim como sua antecessora, exibe o erro médio para o treinamento com
conjunto completo e reduzido de variáveis. Entretanto a diferença é o alcance de
previsão, que neste caso passa a ser de 3 estações adiante. Um fato importante, e que se
repete com freqüência em todas as análises para ∆ = 3 é a diminuição do erro médio
(ganho positivo), ou seja, em 100% dos casos o conjunto com variáveis reduzidas
apresentou um erro menor.
Embora isto possa parecer paradoxal, previsões para alcance maiores sejam melhores,
pode ser explicado pelo ciclo sazonal, pois quando se prevê 3 estações adiante, está
111
prevendo quase no final do ciclo, onde as condições climáticas estão voltando a ser
como eram no início do ciclo. Essa idéia fica mais clara observando a Figura 7.2
Referência
∆ =1
∆ =2
∆ =3
∆ =4
verão
inverno
primavera
outono
Figura 7.2 – Ciclo das estações
A Tabela 7.3 e 7.4 exibe os erros médios para as regiões de análise, assim como o
ganho, para rede com 30 neurônios na camada escondida.
Tabela 7.3 – Erro médio (R-30-1, Prec, ∆=1). ∆∆∆∆=1 Ganho
Região COMP Na (%) CO 1.72 1.62 6.04 N 1.60 1.42 11.10 NE 1.74 1.78 -2.46 S 1.22 1.30 -6.56 SE 1.61 1.20 25.59
Com o aumento de neurônios na camada escondida para 30, houve uma quebra na
qualidade dos resultados, que em geral, aumentaram em relação aos casos apresentados
na Tabela 7.1.
112
Tabela 7.4 – Erro médio (R-30-1, Prec, ∆=3). ∆∆∆∆=3 Ganho
Região COMP Na (%) CO 1.42 1.27 10.31 N 1.69 1.36 19.77 NE 2.09 1.86 11.11 S 1.44 1.04 27.42 SE 1.83 1.23 32.63
Os resultados da Tabela 7.4 são bons no que diz respeito ao baixo erro e principalmente
que em todas as regiões ouve um ganho no erro com a aplicação do núcleo aproximado
Na.
Para o treinamento efetuado com 40 neurônios na camada escondida, as Tabela 7.5 e 7.6
mostram o erro médio e ganho.
Tabela 7.5 – Erro médio (R-40-1, Prec, ∆=1). ∆∆∆∆=1 Ganho
Região COMP Na (%) CO 2.24 1.46 34.64 N 1.47 1.39 5.71 NE 1.85 1.90 -2.80 S 1.23 1.17 4.87 SE 1.27 1.17 7.29
Os resultados para treinamentos executados com 40 neurônios na camada escondida da
rede neural e alcance de previsão de 1 estação, se mantiveram num patamar aceitável,
inclusive em 80% dos casos houve ganho de Na em relação a COMP, assim como na
Tabela 7.1, embora as regiões que teve o ganho negativo sejam diferentes nestas duas
tabelas.
113
Tabela 7.6 – Erro médio (R-40-1, Prec, ∆=3). ∆∆∆∆=3 Ganho
Região COMP Na (%) CO 1.34 1.01 24.77 N 1.55 1.33 14.26 NE 2.21 2.01 9.13 S 1.39 1.09 21.18 SE 1.88 1.24 33.77
Não diferente dos outros resultados apresentados para alcance de previsão de 3 estações,
os resultados mantiveram valores próximos. As diferenças dos erros entre os resultados
para ∆ = 3 com 20, 30 e 40 neurônios são insignificante sendo na pior hipótese de 0.30
mm/dia em média. Isso não acontece para ∆ = 1, onde na pior hipótese pode alcançar
quase o dobro, ou seja, 0.58 mm/dia.
A explicação cabível neste caso para os piores resultados de ∆ = 1, é mais uma vez o
ciclo das estações, pois pelos resultados obtidos, pois as redes neurais fazem previsões a
longo prazo (3 ou talvez 4 estações) melhor do que a curto prazo, como 1 estação, por
exemplo.
Os resultados a seguir são referente ao atributo de decisão temperatura. A metodologia
é a mesma, com a diferença do atributo de decisão. Entretanto como mostra os
resultados a seguir, a temperatura é uma variável de melhor previsão. Os erros são
expressos em [°C] (graus Celsius).
Tabela 7.7 – Erro médio (R-20-1, TEMP, ∆=1). ∆∆∆∆=1 Ganho
Região COMP Na (%) CO 1.22 1.58 -29.57 N 0.42 0.48 -15.20 NE 0.48 0.52 -6.82 S 1.12 1.00 11.04 SE 0.89 0.60 32.79
114
Na Tabela 7.7 mostra os erros médios para previsão de temperatura e alcance de 1
estação. O ganho mostra que em 40% dos casos desta tabela ocorreu uma diminuição do
erro nas redes que utilizavam um conjunto de variáveis de entrada reduzido (Na). Mas
deve ser levado em consideração, os baixos erros alcançados por ambas as redes.
Tabela 7.8 – Erro médio (R-20-1, TEMP, ∆=3). ∆∆∆∆=3 Ganho
Região COMP Na (%) CO 1.79 1.61 9.79 N 0.69 0.42 39.88 NE 0.58 0.51 12.45 S 1.25 1.06 14.80 SE 0.96 0.73 23.63
Ao contrário das previsões para ∆=1, os erros para ∆ = 3 apesar de baixos, apresentaram
ganho em todas as regiões analisadas. Este fato freqüentemente é visto nos resultados de
∆ = 3 para temperatura, assim como tinha acontecido com a precipitação. Como os
valores do erro em geral são baixos, mesmo para o conjunto completo, resta apenas o
ganho computacional ocasionado pelo reduzido número de variáveis obtidas do núcleo
aproximado.
Tabela 7.9 – Erro médio (R-30-1, TEMP, ∆=1). ∆∆∆∆=1 Ganho
Região COMP Na (%) CO 1.30 1.44 -11.05 N 0.38 0.48 -25.55 NE 0.47 0.50 -7.25 S 1.50 0.93 37.74 SE 1.00 0.62 37.91
No tocante ao ganho os resultados não eram os esperados (Tabelas 7.7, 7.9 e 7.11), na
variável de decisão ou alvo temperatura. Isto porque em 3 regiões, o treinamento feito
com o núcleo aproximado, não foi eficaz. Porém mesmo não havendo ganho os
resultados são aceitáveis, podendo certamente substituir a rede neural com todas as
variáveis.
115
Tabela 7.10 – Erro médio (R-30-1, TEMP, ∆=3). ∆∆∆∆=3 Ganho
Região COMP Na (%) CO 1.98 1.35 31.81 N 0.47 0.42 11.00 NE 0.55 0.52 6.62 S 1.43 0.96 32.59 SE 0.84 0.73 13.63
Os valores da Tabela 7.10 para o erro médio das redes neurais são muito semelhantes
aos apresentados na Tabela 7.8. Isso indica a boa capacidade de aprendizado, por parte
da rede neural, para os casos onde a variável de decisão é a temperatura. É difícil neste
caso dizer qual a melhor arquitetura, no que diz respeito, ao valor do erro, pois todos os
casos, inclusive da Tabela 7.12, são muito próximos. Qualquer uma destas redes serviria
para fazer a previsão, mas obviamente, opta-se pela rede com menor número de
neurônios na camada escondida (neste caso 20), porque há um menor esforço
computacional.
Tabela 7.11 – Erro médio (R-40-1, TEMP, ∆=1). ∆∆∆∆=1 Ganho
Região COMP Na (%) CO 1.65 1.95 -17.89 N 0.42 0.50 -19.93 NE 0.47 0.50 -4.93 S 1.36 0.96 29.32 SE 0.84 0.54 34.78
Analogamente ao raciocínio feito para os resultados de alcance ∆ = 3, os erros da
Tabela 7.11, são idênticos aos mostrados nas Tabelas 7.7 e 7.9, assim como no tocante
do ganho, onde 3 de 5 regiões (CO, N e NE) tiveram erro maior em Na em relação a
COMP.
116
Tabela 7.12 – Erro médio (R-40-1, TEMP, ∆=3). ∆∆∆∆=3 Ganho
Região COMP Na (%) CO 1.94 1.65 15.18 N 0.54 0.46 15.26 NE 0.62 0.47 23.98 S 1.37 0.98 28.57 SE 1.05 0.77 26.58
Com relação ao esforço computacional, relativo à redução de variáveis na entrada da
rede neural, há uma diminuição no tempo de treinamento nestas redes comparadas às
redes que são treinadas com o conjunto completo de variáveis. Essa redução de tempo
no treinamento é em média de 45%.
Para entender a importância destes resultados, basta lembrar que o assunto tratado nesta
dissertação é um estudo de caso e no mundo real os dados são bem mais complexos,
pois possuem mais níveis, podem ser em número maior e grandes áreas de análise (em
alguns casos global). Mediante este cenário, em um conjunto de dados de grande
volume, a redução na quantidade de variáveis que o modelo terá como entrada pode
representar, de acordo como os resultados obtidos neste estudo, uma diminuição de
esforço computacional e humano considerável.
Ainda no que tange aos resultados, existem os gráficos que são gerados a partir das
saídas das redes neurais, que são meios de observar o comportamento atmosférico e tirar
conclusões a respeito de seu estado. Estas figuras são mostradas na seção seguinte,
porém devido a enorme quantidade de gráficos, uma pequena porção deste tipo de
resultado é mostrada.
7.3 Resultados gráficos
Ao longo desta seção é mostrada a parte gráfica dos resultados, obtidos através da
estimativa de redes neurais artificiais, para previsões climáticas das variáveis de
precipitação e temperatura, com alcance de uma e três estações adiantes.
117
7.3.1 Precipitação
A precipitação é a variável mais difícil de se prever, mediante a proposta de estima esta
e a temperatura. Este fato pode ser comprovado através da observação dos resultados
gráficos, que munem o observador de elementos para fazer uma previsão climática de
qualidade. Os resultados referentes à precipitação não são tão similares ao valor real,
quanto a variável temperatura. Entretanto o que importa neste caso é a informação
passada, mesmo que os padrões não sejam idênticos.
A seguir é mostrado o resultado para a região CO (Centro-Oeste), com alcance previsão
de uma estação e uma arquitetura de rede neural do tipo 7-20-1.
Centro-Oeste, ∆∆∆∆ = 1, Reduzido, RNA: 7-20-1
Figura 7.3 – Saída da RNA para região CO.
A Figura 7.3 exibe as estimativas da rede neural mediante a apresentação do conjunto
de dados não utilizados para o treinamento, ou seja, a generalização da rede. A linha em
118
vermelho é a produzida pela RNA, a verde é o valor real da variável e a linha azul é a
diferença ou erro absoluto entre o real e o previsto.
Neste caso o erro médio visualmente gira em torno de 1 mm/dia, o que é considerado
aceitável. A rede responde bem aos padrões de entrada produzindo desta forma saída,
que embora superestimadas, expressam a realidade.
Figura 7.4 – Previsão Climática de Prec. da RNA para região CO em DJF98/99.
Um exemplo de correspondência entre o real e o estimado, pode ser observado nas
Figuras 7.4 e 7.5. Na Figura 7.4 é mostrada a média de precipitação para a região CO
nos meses de dezembro, janeiro e fevereiro de 1998 e 1999. A imagem mostra um
padrão gradiente que cresce na diagonal sudoeste-nordeste, com máximas no nordeste
da região analisada. O real mostra algo, embora visualmente diferente, que condiz em
parte com o estimado pela RNA, que é um padrão gradiente com mínimas no sudoeste e
máxima no norte e nordeste da região.
119
Figura 7.5 – Precipitação para região CO em DJF98/99.
Norte , ∆∆∆∆ = 1, Reduzido, RNA: 5-30-1
Figura 7.6 – Saída da rede para região N.
120
Figura 7.7 – Previsão Climática de Prec. da RNA para região N em JJA98.
A Figura 7.7 é uma boa amostra de estimativas bem sucedidas pela RNA. Neste caso é
mostrado um padrão gradiente com mínimas no sudeste e máximas no noroeste da
região analisada. O mesmo padrão é mostrado na Figura 7.8. Contudo existe uma
dificuldade da RNA executar tais previsões, como mostrado na Figura 7.6, onde o erro
tem picos acima de 4 mm/dia. Por isso nem todos os padrões são parecidos e às vezes
são completamente errados. Mas em um contexto geral, a estimativa de padrões errados
não compromete a qualidade das previsões climáticas pelas redes neurais.
121
Figura 7.8 – Precipitação para região CO em DJF98/99.
Norte, ∆∆∆∆ = 1, Reduzido, RNA: 5-30-1
Figura 7.9 – Previsão Climática de Prec. da RNA para região N em SON98.
122
Outro comportamento similar é apresentado nas Figuras 7.9 e 7.10, com um gradiente
que cresce do leste para o oeste da região. É importante observar que o mínimo é no
nordeste da região, exatamente o que expressa os valores reais. A máxima está
localizada no oeste, tanto na estimativa como no real.
Figura 7.10 – Precipitação para região N em SON98.
123
Nordeste, ∆∆∆∆ = 1, Reduzido, RNA: 6-20-1
Figura 7.11 – Saída da RNA para região NE.
Figura 7.12 – Previsão Climática de Prec. da RNA para região NE em DJF98/99.
124
Na região NE, assim como na região N, se nota os valores relativamente altos que
atinge o erro na Figura 7.11.
Na Figura 7.12 da previsão da rede, é um caso em que a interpretação leva a mesma
conclusão a respeito da predição. A figura indica valores mínimos de precipitação no
sul, especialmente no sudeste da região em análise e conseqüentemente máxima no
norte do retângulo que mostra a previsão da RNA.
Do mesmo modo os valores reais, mostrados na Figura 7.13, indicam um padrão de
mínima precipitação no sudeste e máxima no norte e nordeste. A máxima no nordeste,
não foi capturada pela RNA, mas a informação de que choverá menos na parte de baixo
do retângulo da área em análise e mais encima é importante para previsão climática.
Figura 7.13 – Precipitação para região NE em DJF98/99.
125
7.3.2 Temperatura
A previsão climática para temperatura, na forma gráfica é mostrada nesta seção. As
estimativas da RNA, para esta variável são semelhantes com os padrões reais,
decorrente dos baixos erros alcançados pela rede neural.
Centro-Oeste, ∆∆∆∆ = 1, Completo, RNA: 15-40-1
Figura 7.14 – Saída da RNA para região CO.
O erro médio mostrado na Figura 7.14 (linha azul) é baixo, o que corrobora com os
padrões encontrados pela RNA e as semelhanças com o real. A resposta da rede é
excelente aos elementos de entrada, com exceção dos primeiros, onde os erros foram
mais acentuados.
126
Figura 7.15 – Previsão Climática de Temp. da RNA para região CO em SON98.
Os padrões exibidos na Figura 7.15 indicam que as menores temperaturas são no
sudeste e sudoeste, com uma região centro-norte de temperaturas mais elevadas.
Exatamente estas informações são passadas pela imagem da Figura 7.16, que
corresponde ao real. Exceção seja feita a um pequeno padrão “triangular” que aparece
um pouco deslocado do centro do retângulo da área de análise e não aparece na
estimativa da RNA.
Mas do ponto de vista da informação que é transmitida ao observador, às duas imagens
referem-se às mesmas coisas. O significado do padrão triangular que aparece na
imagem real (Figura 7.16) é de máxima temperatura. Na estimativa da rede, o mesmo
local também é de temperatura elevadas. Portanto a mesma informação de duas formas
diferentes são mostradas nas Figuras 7.15 e 7.16.
127
Figura 7.16 – Temperatura para região CO em SON98.
Sul, ∆∆∆∆ = 1, Reduzido, RNA: 5-40-1
Figura 7.17 – Saída da RNA para região S.
128
Baixos erros e alta sensibilidade da rede neural aos estímulos, são características
marcantes para esta região, conforme a Figura 7.17.
Figura 7.18 – Previsão Climática de Temp. da RNA para região S em MAM98.
Os baixos erros podem ser evidenciados através de uma comparação entre as Figuras
7.18 e 7.19. Os mesmos padrões presentes em uma imagem estão na outra. As máximas
de temperatura neste caso estão no noroeste e leste e mínimas no centro-sul do retângulo
da área reservada a análise.
As regiões S (sul) e SE (sudeste) do Brasil são as que apresentam melhores resultados
tanto visuais, quanto numéricos. As semelhanças ocorrem, com poucas exceções, em
todas as estações do ano durante os três anos escolhidos para generalização da rede
neural. Deste modo, é fácil concluir que estas regiões, para a temperatura, são de alta
previsibilidade.
129
Figura 7.19 – Temperatura para região S em MAM98.
Sudeste, ∆∆∆∆ = 1, Reduzido, RNA: 4-20-1
Figura 7.20 – Saída da RNA para região SE.
130
Do mesmo modo que a região S (sul) do Brasil, esta também é proporciona erro muito
pequenos, onde nos primeiros elementos da Figura 7.20 é quase que nulo, acentuando-
se depois.
Figura 7.21 – Previsão Climática de Temp. da RNA para região SE em JJA98.
Maiores temperaturas no sudeste, com a diagonal tendo menores valores para esta
variável, são as características das Figuras 7.21 e 7.22. Um pequeno detalhe é o padrão
de mínimas temperaturas do sudoeste da área de análise, que são retratadas por ambas
as imagens.
131
Figura 7.22 – Temperatura para região SE em JJA98.
Centro-Oeste, ∆∆∆∆ = 3, Reduzido, RNA: 4-30-1
Figura 7.23 – Saída da RNA para região CO.
132
Não fugindo da marca característica das previsões climáticas para a variável
temperatura, que são baixos erros e altas correlações nas imagens geradas, baseadas nas
estimativas das redes neurais e nos valores reais, está à região CO para alcance de três
estações adiante.
Pode ser observado, por meio de comparação entre as Figuras 7.14 e 7.23, de que a
previsão para três estações é melhor do que estimativas para ∆ =1. Isto já acontecia para
a variável de previsão precipitação.
Figura 7.24 – Previsão Climática de Temp. da RNA para região CO em JJA98.
As Figuras 7.24 e 7.25, não diferente de quase a totalidade das estimativas para
temperatura pelas redes neurais artificiais, são idênticas, com máxima no norte e
mínimas no sudeste e sudoeste da área de análise.
133
Figura 7.25 – Temperatura para região CO em JJA98.
É fato de que existe uma imensa quantidade de imagens, que foram geradas pelo script
de treinamento das redes neurais, porém um pequeno fragmento foi exibido neste
capítulo, como o intuito de exemplificar e demonstrar a aplicabilidade das redes neurais
no processo de previsão climática com o número de variáveis reduzidas.
134
135
8 CONCLUSÕES
Nesta dissertação foi aplicada a previsão climática um processo híbrido baseado na
teoria dos conjuntos aproximativos e nas redes neurais artificiais, na qual o objetivo foi
estimar o comportamento médio atmosférico sazonal com um alcance temporal de 1 a 3
estações, com a redução do conjunto de variáveis de entrada da RNA. Para a execução
da redução das variáveis de entrada, por meio da TCA, foram calculadas a reduções
(RED), e as variáveis com ocorrência maior de 70% em RED são chamadas de núcleo
aproximado.
O que se pode observar em todos os resultados no cálculo do núcleo aproximado
(Tabelas 6.7, 6.8, 6.9 e 6.10) é que as variáveis: latitude, longitude e estação estiveram
presentes em 95% das análises realizadas, indicando uma forte relação espaço-
temporal entre os dados.
Os núcleos aproximados foram aplicados às redes neurais artificiais com o propósito de
fazer um estudo comparativo entre uma situação em que a rede é exposta aos dados com
um conjunto completo de variáveis e outra em que o número de variáveis é diminuído
de modo a tornar a computação mais eficiente.
Depois que estas variáveis foram aplicadas efetivamente para redução das entradas da
RNA, para ∆ = 1, em 57% dos casos houve um ganho (diminuição do erro quadrático
médio) do conjunto reduzido (RED) em relação ao conjunto completo de atributos. Para
∆ = 3 o ganho na diminuição do EQM ocorre em 100% dos casos. Em ambos ∆ em 78%
dos casos houve ganho na diminuição do EQM.
Observou-se que o erro médio produzido pelas redes que previam temperatura eram
inferiores as redes de previsão de precipitação. Isto se estende também as imagens
geradas, com base nas saídas das redes neurais, quando aplicado os dados de
generalização, ou seja, que nunca foram apresentados à rede. A qualidade e de extração
136
de informações visuais são bem mais explicitas nas estimativas de temperatura do que
na precipitação.
Padrões de complexidade elevada são estimados pela RNA, como nos casos das Figuras
7.18 e 7.21. Fato que não acontece, com freqüência, com a previsão de precipitação,
onde as informações retiradas das imagens são semelhantes meramente no significado
físico, deixando a desejar, evidentemente se comparada a temperatura, na correlação
visual.
As temperaturas talvez sejam mais previsíveis do que as precipitações, pela sua pequena
variação em termos média ao longo do tempo, por exemplo, as temperaturas do verão
para a região sudeste ficam em torno de 22°C na média, o que varia pouco de ano para
ano, em geral.
Em relação às arquiteturas adotas com 20, 30 ou 40 neurônios na camada escondida, a
conclusão chegada é de que a melhor é de 20 unidades, pois os resultados com as
demais configurações são semelhantes, com pequenas diferenças entre si. E o ponto de
vista do esforço de computação é crucial, para este estudo, pois se trata de uma
dissertação que propõe redução das variáveis de entrada de um modelo de previsão
climática, então nada mais justo prezar por uma arquitetura que valorize a eficiência
computacional, já que as redes com 30 e 40 neurônios, em teste realizados, acrescia de
5% a 10% de tempo em relação ao tempo de treinamento da rede do tipo R-20-1.
Falando de esforço computacional, as reduções de variáveis para as redes neurais
surtiram o efeito esperado, uma vez que houve a diminuição de tempo em relação às
redes treinadas com todas as variáveis. Para testes realizados para mensurar qual o
ganho de tempo reduzindo as variáveis, o valor encontrado foi em média de 45%, ou
seja, reduzindo as variáveis de entrada, se pode encurtar o treinamento das redes neurais
pela metade.
137
É importante observar as semelhanças entre o observado, e as estimativas climáticas das
RNA, que para a variável de temperatura consegue se aproximar do real com um erro
consideravelmente baixo e identificar padrões que segundo especialista Camargo
(2004), não é possível detectar pelo modelo numérico em vigor para aquelas regiões.
Mesmos com imagens não-semelhantes, que acontece freqüentemente na previsão de
precipitação, as informações visuais retiradas são as mesma do que a imagem real.
Então o raciocino de que é possível reduzir as variáveis de entrada e realizar previsões
confiáveis é verdadeiro, mediante os resultados apresentados ao longo desta dissertação.
O uso de uma metodologia similar a esta apresentada, viria somar a métodos existentes,
além de poupar tanto o esforço computacional quanto o humano, de modo a tornar
previsões climáticas ágeis e mais confiáveis.
Portanto a metodologia utilizada no contexto global, tanto na previsão climática de
temperatura como na precipitação mostrou-se eficaz, considerando pontos fortes:
• As análises bem sucedidas com um reduzido número de variáveis de entrada.
Foi possível utilizar um número reduzido de variáveis de entrada para um
modelo, que neste caso foram às redes neurais artificiais, com o propósito de
executar previsões climáticas com alcance de uma e três estações no futuro;
• Possibilidade de implementação para tornar-se operacional e realizar previsões
climáticas reais, devido à facilidade de implementação desta metodologia e
capacidade de diminuir esforços humanos e computacionais;
• Possibilidade de implementação em hardware das redes neurais para efetuar tal
tarefa;
• Abertura de novos horizontes, tanto no que diz respeito a trabalhos futuros,
quanto na aplicação na previsão climática, no uso conjunto desta metodologia
com os modelos numéricos em operação, com o propósito de oferecer novos
138
produtos, como a identificação das regiões mais ou menos chuvosas e mais ou
menos quentes, além de oferecer maior respaldo as previsões climáticas de modo
a somar os conhecimentos já existentes.
Ao longo deste estudo foram vistos os principais elementos necessários para a
implementação da metodologia almejada. Assuntos como previsão climática, redes
neurais artificiais, teoria dos conjuntos aproximativos, mineração de dados e descoberta
de conhecimento foram discutidos para que servissem de alicerce metodológico.
Mediante tudo abordado e implementado, as contribuições apresentadas nesta
dissertação são:
• Uso de um método próprio de discretização, já que os existentes não eram
adequados ao tipo de problema abordado. Três classes ou categorias eram
desejadas para a realização da mineração de dados com a TCA. Muitos métodos
de discretização retornavam duas classes ou uma distribuição ruim. Então se
optou pela criação de um algoritmo de discretização bastantes simples, abordado
na seção 6.1.3, que tem como característica o parâmetro θ que é responsável
pelo aumento ou diminuição das classes desejadas.
• Utilização da teoria dos conjuntos aproximativos como técnica de mineração de
dados na previsão climática de várias regiões da América do Sul. Não foram
encontrados na literatura trabalhos que utilizassem a TCA na previsão climática,
mesmo que de modo hibrido (com as redes neurais). Porém na meteorologia
existe um trabalho de Fernández-Baizán et al. (2000) que trata de mineração de
dados temporais em variáveis meteorológicas utilizando a TCA. Neste trabalho
os autores tem como objetivo gerar um conjunto de regras que descrevam o
próximo valor de velocidade do vento no porto de Gijón (Espanha).
• Criação da definição do núcleo aproximado na teoria dos conjuntos
aproximativos, em decorrência da necessidade de coletar as variáveis de maior
139
ocorrência no conjunto de reduções. Com isso é possível encontrar as variáveis
mais importantes, dentro do conjunto RED, o que não acontecia com o núcleo
que “enxergava” apenas as variáveis com 100% de ocorrência em todas as
reduções.
Foi necessária a criação desta definição porque o não foi possível o calculo do
núcleo, que é a intersecção de todas as reduções, devido a computação do
conjunto RED ser realizado por meio de uma aproximação dos conjuntos
candidatos. Isto resultou em um número elevado de reduções (em alguns casos
chegou a 250) e que não tinha nenhuma variável com ocorrência de 100%. Este
era o problema, pois era necessário extrair as variáveis mais importantes da base
de dados, entretanto as ferramentas matemáticas não ofereciam subsídios.
A partir da idéia de selecionar variáveis que estivessem presentes num
determinado número de reduções, é que fora criada a definição de núcleo
aproximado. Intuitivamente é fácil notar a importância das variáveis que se
encaixam neste perfil. Se uma variável ocorre muitas vezes no conjunto de
reduções é sinal de que ela é de extrema importância, segundo a relação de
indiscernibilidade, para manter os conjuntos elementares próximos do original.
• Criação de uma metodologia de auxílio à previsão de clima baseado na
Inteligência Artificial, com a habilidade de prever padrões climatológicos, para 1
e 3 estações.
140
REFERÊNCIAS BIBLIOGRÁFICAS
ANDERSON C.W.; SIJERCIC Z. Classification of EEG signals from four subjects
during five mental tasks. Solving Engineering problems with Neural Networks. In:
INTERNATIONAL CONFERENCE ON ENGINEERING APPLICATIONS IN
NEURAL NETWORKS (EANN'96), 1996, London. Proceedings… London: Kingston
University, 1996. p. 407-414.
BETTINI, C., WANG, X. S.; JAJODIA, S. Testing complex temporal relationships
involving multiple granularities ans its applications to data mining (extend abstract). In:
ACM SIGACT-SIGMOD-SIGART SYMPOSIUM IN PRINCIPLES OF DATABASE
SUSTEMS (PODS), 1996. Montreal, Canada. Electronic Proceedings… Montreal:
ACM, 1996. Disponível em: http://www.dsi.unimi.it/bettini/rec-pub.html. Acesso em:
abr 2003.
BJORVAND, A. T. Time series and rough sets. Department of Computer Systems and
Telematics, The Norwegian Institute of Technology. Dissertação de Mestrado, 1996.
CAMARGO JR., H. Introdução à previsão climática. (Instituto Nacional de Pesquisas
Espaciais, Cachoeira Paulista, 2004). Comunicação pessoal.
CAVALCANTI, I. F. A. ET AL. Global climatological features in a simulation using
the CPTEC-COLA AGCM. Jounal of Climate, v. 15, n.27, p. 2965-2988, 2002.
CAVALCANTI, I. F. A. Previsão climática no CPTEC-INPE. Disponível em:
<http://tucupi.cptec.inpe.br/products/climanalise/cliesp10a/precli.html>. Acesso em: abr
2003.
INSTITUTO NACIONAL DE PESQUISAS ESPACIAIS. Centro de Previsão do
Tempo e Estudos Climáticos (INPE-CPTEC). FAQ (frequently asked question) -
141
Clima. Disponível em: <www.cptec.inpe.br/products/clima/portal/faqs.shtml>. Acesso
em: abr, 2003.
INSTITUTO NACIONAL DE PESQUISAS ESPACIAIS. Centro de Previsão do
Tempo e Estudos Climáticos (INPE-CPTEC). Portal de previsões numéricas.
Disponível em: www.cptec.inpe.br/prevnum/exp_global.shtml . Acesso em: maio, 2003.
CHEN, Z. Data mining and uncertain reasoning: an integrated approach. New York:
John Wiley & Sons, 2001.
DEMPSTER, A. P. Upper and lower probabilities induced by a multivalued mapping.
Annals Mathematics Statistics, v.38, n. 2. p. 325-339, 1967.
FAYYAD, U. et al. From data mining to knowledge discovery: an overview. Menlo
Park: AAAI Press, 1996.
FERNANDES, A. M. R. Inteligência artificial : noções gerais. Florianópolis: Visual
Books, SC. 2003.
FERNÁNDEZ-BAIZÁN C. et al. Mining time series of meteorological variables using
rough sets –A case study. In: WORKSHOP ON BINDING ENVIRONMENTAL
SCIENCES AND ARTIFICIAL INTELLIGENCE (BESAI'2000), 2000, Berlin,
Germany. Proceedings… Berlin: [s.n.], 2000.
GOEBEL, M.; GRUENWALD, L. A survey of data mining and knowlodge discovery
software tools. SIGKDD Explorations, v. 1, p. 20-33, 1999.
Golan R.; Edwards D. Temporal rules discovery using datalogic/R+ with stock market
data. Ziarko, W. P. In: INTERNATIONAL WORKSHOP ON ROUGH SETS AND
KNOWLEDGE DISCOVERY (RSKD'93), 4., Alberta, Canada. Proceedings... Alberta:
Springer, p. 74-81. 1993.
142
GOLDBERG D. E. Genetic algorithms in search, optimization, and machine
learning. Reading, Mass: Addison-Wesley,1989.
GUTIÉRREZ, J. M et al. Redes probabilísticas y neuronales en las ciencias
atmosféricas. 2004. Disponível em:
<http://grupos.unican.es/ai/meteo/MeteoLab.html.> Acesso em: abr 2004. Series
Monográficas.
HOLSHEIMER M.; SIEBES A. Data mining: the search for knowledge in databases..
Amsterdam, the Netherlands: CWI, Jan. 1994. Report CSR9406
INSTITUTO NACIONAL DE METEOROLOGIA (INMET). Meteorologia básica.
Disponível em:
<http://www.inmet.gov.br/aprenda_inmet/saiba_como/meteoro_basica>. Acesso em:
abr 2003.
INSTITUTO NACIONAL DE PESQUISAS ESPACIAIS (INPE). Portal de previsões
numéricas. São José dos campos. Disponível em: <
http://www.cptec.inpe.br/prevnum/exp_ensemble.shtml>. Acesso em: abr 2003.
HAGAN, M. T. et al. Neural network design. Boston, EUA: PWS Publishing
Company, 1995.
HAYKIN, S. Redes neurais: princípios e práticas. Porto Alegre: Bookman, 2001.
KOMOROWSKI, J. et al. Rough sets: a tutorial. In: Pal, S.K. ; Skowron, A. (eds.),
Rough fuzzy hybridization: a new trend in decision-making. Singapore: Springer-
Verlag, 1999.
143
KOHONEN, T. Correlation matrix memories. IEEE Transactions on Computers, v.
21, p. 353-359, 1972.
LOESCH, C. ; SARI, S. T. Redes neurais artificiais: fundamentos e modelo.
Blumenau: FURB, 1996.
LORENZ, E. N. A study of the predictability of a 28-variable atmospheric model.
Tellus, v. 17, p. 321-333, 1965.
LORENZ, E. N. Deterministic non-periodic flow. J. Atmos. Sci., v. 20, p. 130-141,
1963.
LORENZ, E. N. The predictability of a flow which possesses many scales of motion.
Tellus, v. 21, p. 289-307, 1969.
MICHALEWICZ Z. Genetic algorithms + data structures = evolution programs.
New York: Springer Verlag, , 1992.
MITCHELL M. An introduction to genetic algorithms. Cambridge: MIT press, 1996.
NICOLETTI, M. C. ; UCHÔA, J. Q. Conjuntos aproximados sob a perspectiva de
função de pertinência. In: SIMPÓSIO BRASILEIRO DE AUTOMAÇÃO
INTELIGENTE (SBAI), 3. 1997, Vitória. Anais… Vitória: Universidade Federal do
Espírito Santo, p. 307-312, 1997.
ØHRN, A. Discernibility and rough sets in medicine: tools and applications.
Norwegian University of Science and Technology, Department of Computer and
Information Science, NTNU. Tese de Doutorado, 1999.
144
PANG-NING, T. et al. Finding spatio-termporal patterns in earth science data: goals,
issues and results. In: KDD TEMPORAL DATA MINING WORKSHOP (KDD2001),
San Francisco. Proceedings… San Francisco: [s.n.], 2001.
PARSAYE, K.; et al. Intelligent databases: object-oriented, deductive and hypermedia
technologies. New York: John Willey, 1989.
PAWLAK Z. Rough sets. International Journal of Computer and Information
Sciences, v.11. p. 341-356, 1982.
PAWLAK, Z.; SKOWRON, A. Rough membership functions. In: R. Yager, M. Fedrizzi
J. Kacprzyk (Eds.). Advances in the Dempster-Shafer theory of evidence. NewYork:
Wiley, p. 251-271, 1994.
PAWLAK, Z. Rough sets – theorical aspects of reasoning about data. Dordrecht:
Kluver Academic Publishers, 1991.
PESSOA, A. S. A. Aplicação da Teoria dos Conjuntos Aproximativos na Classificação
de Tarefas Mentais Utilizando Sinais de EEG. In. VI ENCONTRO DE MODELAGEM
COMPUTACIONAL, 2003, Nova Friburgo Anais, Nova Friburgo, 2003.
PESSOA, A. S. A.; POLITI, J.; PAIVA, J. A. C. Uma aplicação de mineração de dados
geográficos utilizando a teoria dos conjuntos aproximativos. In: Congresso Nacional
Matemática Aplicada e Computacional, 26., 2003, São José do Rio Preto. Anais... São
José do Rio Preto, [s.n], 2003.
RODDICK J.; LEES G. B. Paradigms for spatial and spatio-temporal data mining. In:
Miller. H.; Han, J. (Eds). Geographic data mining and knowledge discovery. Taylor
& Francis, 2001. Disponível em: http://citeseer.ist.psu.edu/roddick01paradigms.html.
145
RODDICK, J. F.; SPILIOPOULOU, M. A bibliography of temporal, spatial and spatio-
temporal data mining research. SIGKDD Explorations. 1999 ACM SIGKDD, June. v.
1, n.1, 1999.
RØED G. Knowledge extraction from process data: a rough set approach to data mining
on time series. Disponível em: <www.citeseer.nj.nec.com/119626.html> Acesso em:
Mar 1999.
RUSSELL S. J.; NORVIG P. Artificial intellingence: a modern approach. New Jersey:
Prentice Hall, 1995
SCUDERI, S. Conjuntos rough. Leopoldianum. Revista de Estudos e Comunicação
da Universidade Católica de Santos. Ano 27, n. 75, p. 185-197 . 2003.
SERRA, L. A essência do bussiness intellingence. São Paulo: Berkeley Brasil, 2002.
SHAFER, G. A mathemathical theory of evidence. Princeton: Princeton University
Press, 1976.
SKOWRON, A.; RAUSZER C. The discernibility matrices and functions in information
systems. In: Slowinski, R. (Ed.). Intelligent decision support: handbook of
applications and advances to rough sets theory. Dordrecht: Kluwer Academic Publisher,
1992. p. 331-362.
SLOWINSKI, R. Intelligent decision support. handbook of applications and advances
of the rough sets theory. Dordrecht: Kluwer Academic Publishers, 1992.
STEINBACH, M. et al. Temporal Data Mining for the Discovery and Analysis of
Ocean Climate Indices In: KDD TEMPORAL DATA MINING WORKSHOP, 2002,
Edmonton, Alberta, Canada. Proceedings… Edmonton: [s.n], 2002.
146
VINTERBO, S.; ØHRN, A. Approximate minimal hitting sets and rule templates. In: Predictive models in medicine: some methods for construction and adaptation. 1999. PhD thesis, Department of Computer and Information Science, Norwegian University of Science and Technology (NTNU), Trondheim, Norway. NTNU report 1999:130, ISBN 82-7984-011-7. 23 pages. Disponível em: <http://www.idi.ntnu.no/~staalv/dev/thesis.ps.gz>.Acesso em: June 2001.
WALCZAK, B.; MASSART, D. L. Rough sets theory – tutorial. Chemometrics and
Intelligent Laboratory Systems, v. 47, n.1, p. 1-16, Elsevier. 1999.
WONG, S. K. M.; ZIARKO, W. Comparison of the probabilistic approximate
classification and the fuzzy set model. Fuzzy Sets and Systems, v. 21, p. 357-362,
1986.
ZADEH L. A. Fuzzy sets. Informations and Control, v. 8, p. 65-70, 1965.
ZADEH, L. A. Fuzzy sets as a basis for a theory of possibility. Fuzzy Sets and Systems, v. 1, p 3-28, 1978.
PUBLICAÇÕES TÉCNICO-CIENTÍFICAS EDITADAS PELO INPE
Teses e Dissertações (TDI)
Manuais Técnicos (MAN)
Teses e Dissertações apresentadas nos Cursos de Pós-Graduação do INPE.
São publicações de caráter técnico que incluem normas, procedimentos, instruções e orientações.
Notas Técnico-Científicas (NTC)
Relatórios de Pesquisa (RPQ)
Incluem resultados preliminares de pesquisa, descrição de equipamentos, descrição e ou documentação de programa de computador, descrição de sistemas e experimentos, apresenta- ção de testes, dados, atlas, e docu- mentação de projetos de engenharia.
Reportam resultados ou progressos de pesquisas tanto de natureza técnica quanto científica, cujo nível seja compatível com o de uma publicação em periódico nacional ou internacional.
Propostas e Relatórios de Projetos (PRP)
Publicações Didáticas (PUD)
São propostas de projetos técnico-científicos e relatórios de acompanha-mento de projetos, atividades e convê- nios.
Incluem apostilas, notas de aula e manuais didáticos.
Publicações Seriadas
Programas de Computador (PDC)
São os seriados técnico-científicos: boletins, periódicos, anuários e anais de eventos (simpósios e congressos). Constam destas publicações o Internacional Standard Serial Number (ISSN), que é um código único e definitivo para identificação de títulos de seriados.
São a seqüência de instruções ou códigos, expressos em uma linguagem de programação compilada ou inter- pretada, a ser executada por um computador para alcançar um determi- nado objetivo. São aceitos tanto programas fonte quanto executáveis.
Pré-publicações (PRE)
Todos os artigos publicados em periódicos, anais e como capítulos de livros.