minerac˘ao de dados meteorol~ ogicos pela...

INPE-15665-TDI/1441

MINERACAO DE DADOS METEOROLOGICOS PELA

TEORIA DOS CONJUNTOS APROXIMATIVOS NA

PREVISAO DE CLIMA POR REDES NEURAIS

ARTIFICIAIS

Alex Sandro Aguiar Pessoa

Dissertacao de Mestrado do Curso de Pos-Graduacao em Computacao Aplicada,

orientada pelo Dr. Jose Demisio Simoes da Silva, aprovada em 9 de dezembro de

2004

Registro do documento original:

<http://urlib.net/sid.inpe.br/jeferson/2005/02.15.15.46>

INPE

Sao Jose dos Campos

2009

http://urlib.net/sid.inpe.br/jeferson/2005/02.15.15.46

PUBLICADO POR:

Instituto Nacional de Pesquisas Espaciais - INPE

Gabinete do Diretor (GB)

Servico de Informacao e Documentacao (SID)

Caixa Postal 515 - CEP 12.245-970

Sao Jose dos Campos - SP - Brasil

Tel.:(012) 3945-6911/6923

Fax: (012) 3945-6919

E-mail: [email protected]

CONSELHO DE EDITORACAO:

Presidente:

Dr. Gerald Jean Francis Banon - Coordenacao Observacao da Terra (OBT)

Membros:

Dra Maria do Carmo de Andrade Nono - Conselho de Pos-Graduacao

Dr. Haroldo Fraga de Campos Velho - Centro de Tecnologias Especiais (CTE)

Dra Inez Staciarini Batista - Coordenacao Ciencias Espaciais e Atmosfericas (CEA)

Marciana Leite Ribeiro - Servico de Informacao e Documentacao (SID)

Dr. Ralf Gielow - Centro de Previsao de Tempo e Estudos Climaticos (CPT)

Dr. Wilson Yamaguti - Coordenacao Engenharia e Tecnologia Espacial (ETE)

BIBLIOTECA DIGITAL:

Dr. Gerald Jean Francis Banon - Coordenacao de Observacao da Terra (OBT)


Jefferson Andrade Ancelmo - Servico de Informacao e Documentacao (SID)

Simone A. Del-Ducca Barbedo - Servico de Informacao e Documentacao (SID)

REVISAO E NORMALIZACAO DOCUMENTARIA:


Marilucia Santos Melo Cid - Servico de Informacao e Documentacao (SID)

Yolanda Ribeiro da Silva Souza - Servico de Informacao e Documentacao (SID)

EDITORACAO ELETRONICA:

Viveca Sant´Ana Lemos - Servico de Informacao e Documentacao (SID)

[email protected]

INPE-15665-TDI/1441

MINERACAO DE DADOS METEOROLOGICOS PELA

TEORIA DOS CONJUNTOS APROXIMATIVOS NA

PREVISAO DE CLIMA POR REDES NEURAIS

ARTIFICIAIS

Alex Sandro Aguiar Pessoa

Dissertacao de Mestrado do Curso de Pos-Graduacao em Computacao Aplicada,

orientada pelo Dr. Jose Demisio Simoes da Silva, aprovada em 9 de dezembro de

2004

Registro do documento original:

<http://urlib.net/sid.inpe.br/jeferson/2005/02.15.15.46>

INPE

Sao Jose dos Campos

2009

http://urlib.net/sid.inpe.br/jeferson/2005/02.15.15.46

Dados Internacionais de Catalogacao na Publicacao (CIP)

P475m Pessoa, Alex Sandro Aguiar.Mineracao de dados meteorologicos pela teoria dos conjun-

tos aproximativos na previsao de clima por redes neurais artifici-ais / Alex Sandro Aguiar Pessoa. – Sao Jose dos Campos: INPE,2009.

146p. ; (INPE-15665-TDI/1441)

Dissertacao (Computacao Aplicada) – Instituto Nacional dePesquisas Espaciais, Sao Jose dos Campos, 2004.

1. Teoria dos conjuntos aproximativos. 2. Redes neurais ar-tificiais. 3. Retropropagacao. 4. Previsao do clima. 5. Mineracaode Dados. I.Tıtulo.

CDU 004.738

Copyright c© 2009 do MCT/INPE. Nenhuma parte desta publicacao pode ser re-

produzida, armazenada em um sistema de recuperacao, ou transmitida sob qualquer

forma ou por qualquer meio, eletronico, mecanico, fotografico, microfılmico, repro-

grafico ou outros, sem a permissao escrita da Editora, com excecao de qualquer

material fornecido especificamente no proposito de ser entrado e executado num

sistema computacional, para o uso exclusivo do leitor da obra.

Copyright c© 2009 by MCT/INPE. No part of this publication may be reproduced,

stored in a retrieval system, or transmitted in any form or by any means, eletro-

nic, mechanical, photocopying, microfilming, recording or otherwise, without written

permission from the Publisher, with the exception of any material supplied speci-

fically for the purpose of being entered and executed on a computer system, for

exclusive use of the reader of the work.

“Pedras no caminho? Guardo todas, um dia vou construir um castelo...”

FERNANDO PESSOA

A minha companheira, cúmplice e amiga, por sempre estar ao meu lado, nos momentos bons ou ruins. Obrigado Ridenia.

AGRADECIMENTOS Agradeço a Deus, por me impulsionar para mais uma conquista em minha vida. Tudo

para sua honra e glória.

Agradeço, também:

A minha esposa Ridenia, pelas orações, carinho e apoio.

A meu Pai, João e minha Mãe, Lenita, pelos esforços e renuncias que fizeram em suas

vidas pelos filhos.

A meus irmãos: Cezar, Cristiano, Arley e Aline, pelo amor e por todos os dias em que

estivemos juntos.

Ao meu orientador Dr. Demisio, pela confiança depositada em minha pessoa.

Ao CNPq pelo apoio financeiro.

Ao Prof. Santo Scuderi pelo caminho mostrado.

Ao Prof. Cláudio da Rocha Brito, pelo incentivo a Ciência.

Ao Jacques Polit e Fernando Marques, irmãos dados pela vida, pelo companheirismo.

É fato, que muitas outras participaram de minha vida, e agradeço pelo apoio e incentivo

dados. São por essas pessoas que penso que o importante nesta vida, não é o que temos,

mas quem temos. Obrigado Senhor pelos seus instrumentos colocados em minha vida...

RESUMO

Esta dissertação aborda a utilização da teoria dos conjuntos aproximativos (TCA) com o propósito de redução de variáveis para a realização de previsão climática utilizando redes neurais artificiais (RNA), de modo a diminuir o esforço computacional e manter os erros em níveis aceitáveis na previsão climática. A TCA é uma ferramenta eficaz na compactação de uma base de dados, não só pela redução de elementos, mas também pela eliminação do conjunto de atributos supérfluos. Adicionalmente, neste estudo, as redes neurais foram utilizadas para aprender, a partir de 18 anos (Jan/1980-Dec/1997) de dados para a América do Sul, o comportamento sazonal das variáveis de precipitação e temperatura para fazer uma estimativa para os 3 anos consecutivos aos dados de treinamento (1998,1999 e 2000). Como entrada as RNA tem dados de duas espécies, para efeitos comparativos: variáveis ou atributos reduzidos e com todas as variáveis. O produto final deste processo para as variáveis de precipitação e temperatura são previsões, contendo médias trimestrais com de alcance temporal ∆ (1 ou 3 trimestres à frente).

METEOROLOGICAL DATA MINING USING ROUGH SET THEORY IN

CLIMATE FORECAST WITH ARTIFICIAL NEURAL NETWORK.

ABSTRACT This study analyze the use of the Rough Set Theory (RST) with goal the reduce variables for the climate forecast using Artificial Neural Network (ANN), decreasing the computational computation time and keeping the errors in accept levels on the climate forecast. The RST is an efficient tool for compress a database, reducing the numbers of elements and the superfluous variables. Additionally, on this study, the neural networks, was used to learn the seasonal atmospheric behavior for precipitation and temperature, data between the period of Jan/1980 until Dec/1997 in the South America and estimate the 3 consecutive years (1998, 1999 and 2000) of this variables. The input of RNA there is two kinds of data: reduce variables data and full variables data. This process results in quarterly forecast for precipitation and temperature, estimated by neural networks for a time-step ∆ forward.

SUMÁRIO

Pág.

LISTA DE FIGURAS LISTA DE TABELAS 1 INTRODUÇÃO ......................................................................................................... 21 2 PREVISÃO CLIMÁTICA ........................................................................................ 27 2.1 Meteorologia............................................................................................................. 27 2.2 Tipos de modelo numérico....................................................................................... 28 2.1.1 Modelo Global de Circulação Geral Atmosférico (MCGA)................................. 28 2.1.2 Modelo regional..................................................................................................... 30 2.3 Previsão climática..................................................................................................... 30 2.4 Tipos de previsão...................................................................................................... 31 2.4.1 Previsão determinística.......................................................................................... 33 2.4.2 Previsão probabilística........................................................................................... 33 3 MINERAÇÃO DE DADOS ...................................................................................... 35 3.1 Introdução................................................................................................................. 35 3.2 Definições básicas.................................................................................................... 35 3.3 O processo de descoberta de conhecimento............................................................. 37 3.4 Classificação da mineração de dados....................................................................... 39 3.5 Principais tarefas da mineração de dados................................................................. 39 3.5.1 Caracterização....................................................................................................... 40 3.5.2 Associação............................................................................................................. 40 3.5.3 Classificação.......................................................................................................... 40 3.5.4 Regressão............................................................................................................... 41 3.5.5 Segmentação.......................................................................................................... 41 3.6 Técnicas de mineração de dados.............................................................................. 41 3.7 Mineração de dados espaço-temporal....................................................................... 42 4 TEORIA DOS CONJUNTOS APROXIMATIVOS ............................................... 47 4.1 Introdução................................................................................................................. 47 4.2 Conceitos básicos..................................................................................................... 48 4.2.1 Sistemas de informação......................................................................................... 48 4.3 Indiscernibilidade..................................................................................................... 50 4.4 Aproximação dos conjuntos..................................................................................... 52 4.5 Reduções................................................................................................................... 58 4.6 “Conjuntos candidatos” (Hitting sets) ...................................................................... 66 4.7 “ε – conjuntos candidatos aproximados” (ε – approximate hitting sets) ................. 67 4.8 Função de pertinência aproximativa......................................................................... 68 4.9 Rosetta...................................................................................................................... 69 4.9.1 Introdução aos algoritmos genéticos..................................................................... 70 4.9.2 Algoritmo SAVGeneticReducer............................................................................. 73

4.9.3 Algoritmo JohnsonReducer................................................................................... 74 4.10 Núcleo aproximado................................................................................................. 75 4.11 Comentários finais sobre a TCA............................................................................77 5 REDES NEURAIS ARTIFICIAIS ........................................................................... 78 5.1 Introdução................................................................................................................. 78 5.2 O que são as RNA?................................................................................................... 79 5.3 Modelo do neurônio................................................................................................. 81 5.4 Estrutura da rede....................................................................................................... 82 5.5 Regra de aprendizado............................................................................................... 85 5.6 Perceptron multicamadas (Multilayer perceptron - MLP)....................................... 86 5.6.1 O algoritmo de retro-propagação do erro.............................................................. 87 6 KDD COM DADOS METEOROLÓGICOS .......................................................... 91 6.1 Introdução................................................................................................................. 91 7 REDES NEURAIS ARTIFICIAIS E A PREVISÃO CLIMÁTICA ................... 107 7.1 Introdução............................................................................................................... 107 7.2 Treinamento das redes neurais............................................................................... 107 7.3 Resultados gráficos................................................................................................. 116 7.3.1 Precipitação......................................................................................................... 117 7.3.2 Temperatura......................................................................................................... 125 8 CONCLUSÕES........................................................................................................ 135 REFERÊNCIAS BIBLIOGRÁFICAS ..................................................................... 140

LISTA DE FIGURAS

Pág.

2.1 - Grade ...................................................................................................................... 28 2.2 - Grade global de baixa resolução. ........................................................................... 29 2.3 - Modelo de previsão climática ................................................................................ 29 2.4 - Grades do Centro, Leste, Oeste Americano, Havaí, Alasca e Porto Rico.............. 30 2.5 - Tipos de predição ................................................................................................... 32 2.6 - Previsão probabilística. .......................................................................................... 34 3.1 - Etapas do processo de KDD................................................................................... 37 3.2 - Dados espaciais ...................................................................................................... 42 3.3 - Mapas temáticos da represa Billings........................Erro! Indicador não definido. 3.4 - Série temporal – precipitação (Centro-Oeste, Jan 81 a Dez 91) ............................ 43 3.5 - Posicionamento dos eletrodos. ............................................................................... 44 3.6 - Precipitação de JAN – 1980 a ABR – 1980........................................................... 45 3.7 - Representação gráfica dos dados espaço-temporal ................................................ 45 4.1 - Aproximações do conjunto .................................................................................... 53 4.2 - Aproximações ........................................................................................................ 54 4.3 - Estrutura do cromossomo....................................................................................... 71 4.4 - Operação de recombinação .................................................................................... 71 4.5 - Operação de mutação ............................................................................................. 72 4.6 - Operação de inversão ............................................................................................. 72 5.1 - Estrutura de um neurônio biológico ....................................................................... 80 5.2 - Modelo de um neurônio não-linear. ....................................................................... 81 5.3 - Funções de ativação. .............................................................................................. 82 5.4 - Exemplo de estrutura de interconexões.................................................................. 83 5.5 - Arquitetura da RNA. .............................................................................................. 83 5.6 - Divisão das arquiteturas das RNA. ........................................................................ 84 5.7 - Perceptron de uma única camada. .......................................................................... 86 5.8 - MLP com uma camada escondida.......................................................................... 88 6.1 - Precipitação na América do Sul. ............................................................................ 92 6.2 - Regiões selecionadas para análise.......................................................................... 95 6.3 - Metodologia do processo de previsão climática .................................................... 95 6.4 - Formação do atributo temperatura......................................................................... 96 6.5 - Discretização de atributos .................................................................................... 100 6.6 - Matriz de confusão para o CO e ∆ = 1 ................................................................. 102 7.1 - Arquitetura da rede neural R-k-1.......................................................................... 108 7.2 - Ciclo das estações................................................................................................. 111 7.3 - Saída da RNA para região CO ............................................................................. 117 7.4 - Previsão Climática de Prec. da RNA para região CO em DJF98/99 ................... 118 7.5 - Precipitação para região CO em DJF98/99.......................................................... 119 7.6 - Saída da rede para região N.................................................................................. 119 7.7 - Previsão Climática de Prec. da RNA para região N em JJA98............................ 120 7.8 - Precipitação para região CO em DJF98/99.......................................................... 121 7.9 - Previsão Climática de Prec. da RNA para região N em SON98.......................... 121

7.10 - Precipitação para região N em SON98 .............................................................. 122 7.11 - Saída da RNA para região NE ........................................................................... 123 7.12 - Previsão Climática de Prec. da RNA para região NE em DJF98/99.................. 123 7.13 - Precipitação para região NE em DJF98/99 ........................................................ 124 7.14 - Saída da RNA para região CO ........................................................................... 125 7.15 - Previsão Climática de Temp. da RNA para região CO em SON98................... 126 7.16 - Temperatura para região CO em SON98 ........................................................... 127 7.17 - Saída da RNA para região S............................................................................... 127 7.18 - Previsão Climática de Temp. da RNA para região S em MAM98 .................... 128 7.19 - Temperatura para região S em MAM98 ............................................................ 129 7.20 - Saída da RNA para região SE ............................................................................ 129 7.21 - Previsão Climática de Temp. da RNA para região SE em JJA98...................... 130 7.22 - Temperatura para região SE em JJA98.............................................................. 131 7.23 - Saída da RNA para região CO ........................................................................... 131 7.24 - Previsão Climática de Temp. da RNA para região CO em JJA98..................... 132 7.25 - Temperatura para região CO em JJA98 ............................................................. 133

LISTA DE TABELAS

Pág.

2.1 - Alcance das previsões. ........................................................................................... 32 3.2 - Representação com tempo repetido. ...................................................................... 46 3.3 - Representação sem tempo repetido. ....................................................................... 46 4.1 - Sistema de informação. .......................................................................................... 48 4.2 - Sistema de decisão. ................................................................................................ 49 4.3 - Número possível de reduções................................................................................. 59 4.4 - Número de conjuntos elementares. ........................................................................ 60 4.5 - Matriz de discernibilidade...................................................................................... 62 4.6 - Novo sistema de decisão. ....................................................................................... 64 4.7 - Sistema de decisão compactado. ............................................................................ 65 4.8 - Sistema de decisão consistente............................................................................... 65 4.9 - Regras de decisão. .................................................................................................. 65 6.1 - Variáveis. ............................................................................................................... 93 6.2 - Formato dos dados. ................................................................................................ 97 6.3 - Exemplo do atributo de decisão. ............................................................................ 98 6.4 - Distribuição de classes para prec. ........................................................................ 100 6.5 - Distribuição de classes para temp. ....................................................................... 101 6.6 - Fragmento das reduções para a região CO........................................................... 101 6.7 - Núcleo aprox. de RED para precipitação e ∆∆∆∆ =1. ................................................ 103 6.8 - Núcleo aprox. de RED para precipitação e ∆∆∆∆ =3. ................................................ 104 6.9 - Núcleo aprox. de RED para temperatura e ∆∆∆∆ =1. ................................................. 104 6.10 - Núcleo aprox. de RED para temperatura e ∆∆∆∆ =3. ............................................... 104 7.1 - Erro médio (R-20-1, Prec, ∆=1). .......................................................................... 110 7.2 - Erro médio (R-20-1, Prec, ∆=3). .......................................................................... 110 7.3 - Erro médio (R-30-1, Prec, ∆=1). .......................................................................... 111 7.4 - Erro médio (R-30-1, Prec, ∆=3). .......................................................................... 112 7.5 - Erro médio (R-40-1, Prec, ∆=1). .......................................................................... 112 7.6 - Erro médio (R-40-1, Prec, ∆=3). .......................................................................... 113 7.7 - Erro médio (R-20-1, TEMP, ∆=1). ...................................................................... 113 7.8 - Erro médio (R-20-1, TEMP, ∆=3). ...................................................................... 114 7.9 - Erro médio (R-30-1, TEMP, ∆=1). ...................................................................... 114 7.10 - Erro médio (R-30-1, TEMP, ∆=3). .................................................................... 115 7.11 - Erro médio (R-40-1, TEMP, ∆=1). .................................................................... 115 7.12 - Erro médio (R-40-1, TEMP, ∆=3). .................................................................... 116

21

1 INTRODUÇÃO

O clima é importante para a humanidade, pois dependendo do comportamento

atmosférico, muitas atividades em geral podem ter desempenhos alterados, podendo

afetar as vidas das pessoas. Uma das atividades mais dependentes do clima é, por

exemplo, a agricultura, cujo rendimento está diretamente ligado às condições climáticas.

O Brasil é um país com grande volume de negócios ligados à agricultura, sendo em

alguns casos líder mundial, como por exemplo, na produção de soja entre outros. Assim

é necessário buscar a excelência das safras para manter o posto global em agro-negócio,

seja pelo estudo de variedades de sementes, enriquecimento do solo, máquinas

modernas, estudo do escoamento das safras, ou pelo estudo climático, que merece

atenção, pois em muitos casos, pode haver enormes prejuízos na produção agrícola,

devido o comportamento anômalo.

Por isso, entender o comportamento climático é uma tarefa essencial, há muito tempo

perseguida pelo homem. Atualmente o advento de satélites e computadores, cada vez

com mais capacidade de processamento e armazenamento, tem tornado estas tarefas

cada vez mais confiáveis.

Os satélites são responsáveis pelo envio de um grande volume de informações a centros

de estudos climáticos em diversas localidades no planeta. No Brasil um dos órgãos

responsáveis é o Centro de Previsão de Tempo e Estudos Climáticos do Instituto

Nacional de Pesquisas Espaciais (CPTEC-INPE), onde estas informações são

analisadas, para a produção de previsões do estado atmosférico em um tempo futuro.

Dependendo da escala temporal para esta previsão pode-se classifica-la como previsão

do tempo ou previsão climática.

A previsão climática é uma estimativa do comportamento médio atmosférico para

médio e longo prazo (meses ou anos), com caráter mais qualitativo do que quantitativo.

22

Por exemplo, é objeto da previsão climática dizer o quanto choverá em relação a media

histórica nos meses de chuva de uma determinada região. Normalmente esta informação

é transmitida em três categorias: “acima da média”, “na média” e “abaixo da média

histórica” (Centro de Previsão do Tempo e Estudos Climáticos, 2003).

Para a realização da previsão climática, atualmente são utilizados dois métodos (Centro

de Previsão do Tempo e Estudos Climáticos, 2003):

1) Método estatístico: utiliza equações matemáticas e conceitos de estatística.

2) Método dinâmico: utiliza equações matemáticas e conceitos físicos.

Na previsão climática, no CPTEC, é utilizado o método dinâmico, que se baseia nas

equações da primeira lei da termodinâmica, equações do movimento (2° lei de Newton),

equação da continuidade de massa de ar e vapor de água, conhecido como modelo de

circulação geral atmosférico (MCGA). No MCGA são utilizadas entradas, conhecidas

como condições iniciais (C.I.), compostas por variáveis atmosféricas, como por

exemplo temperatura virtual, divergência, vorticidade e umidade específica, calculadas

a partir de dados de temperatura, componentes zonal e meridional do vento e umidade

relativa, observados durante um período (1 dia corresponde a 1 condição inicial,

portanto se o modelo necessita de 9 CI são necessários dados de 9 dias consecutivos

para a análise), e através do processamento (integrações) destas informações no

modelo, obtêm-se os resultados, chamados de membros. Vale ressaltar que para cada

C.I. tem-se um membro como resultado. Quando este modelo opera em modo ensemble,

ou seja, são exigidas várias C.I, o resultado é a média dos membros. Este procedimento

se faz necessário, pois segundo Murphy (Cavalcante et. al, 2002) esta é uma ferramenta

necessária para reduzir os efeitos das condições iniciais em sistemas caóticos, como a

atmosfera.

Porém segundo especialista em previsão climática, Camargo (2004), consultado no

CPTEC, o modelo não supre algumas necessidades de previsão, tal como padrões de

precipitação para uma sub-região do Centro-Oeste brasileiro, por exemplo. De posse

23

deste tipo de informação é possível estimar para um período onde vai chover mais ou

menos, ou ainda dizer qual sub-região será mais quente e qual será mais fria.

Ainda em relação à previsão climática, mas sob a luz da computação, se existem

diversas variáveis que são empregadas no modelo para realização da estimativa do

comportamento atmosférico, seria possível reduzir estas variáveis sem perder

informação e realizar uma estimativa da previsão climática mais confiável?

Para esta indagação umas das possíveis respostas é por meio da descoberta de

conhecimento, que é a área que contempla a exploração de banco de dados de modo à

“ lapidar” seus elementos em busca de informações relevantes.

Esta área surgiu em decorrência dos volumes massivos de dados existentes e a não

utilização. Nesta era da informação, a facilidade de armazenar e recuperar informações

viabilizou a modelagem de banco de dados de enorme capacidade. O grande problema é

que quando estes bancos de dados tornavam-se grandes demais para ser manipuladas e

extraídas informações úteis para seus mantenedores, os analistas de banco de dados

mostravam-se ineficazes para tratá-los. Em conseqüência dessas dificuldades começou-

se a estudar a descoberta de conhecimento em banco de dados (KDD – Knowledge

Discovery in Database).

O processo de KDD, dentre muitas etapas, tem a chamada mineração de dados, que

como o próprio nome sugere é a tarefa responsável pela descoberta de padrões

escondidos entre os dados. Existem muitas técnicas para fazer mineração de dados, mas

esta dissertação aborda a Teoria dos Conjuntos Aproximativos (TCA), (“Rough Sets

Theory”, do inglês). A TCA é uma teoria relativamente recente, criada na década de 80,

por meio de Pawlak (1982), e que se beneficiou do avanço computacional que vinha

acontecendo na época, no que diz respeito ao aumento da capacidade de processamento

e memória. É empregada na manipulação de informações vagas ou imprecisas. Baseia-

24

se na partição do universo de discurso em conjuntos precisos (crisp) e imprecisos, ou

aproximados (rough), utilizando uma relação chamada de indiscernibilidade.

O que faz com que a TCA cresça, em termos de número de aplicações cada vez maior, é

a sua simplicidade de utilização e versatilidade, pois é empregada em diversas áreas.

Algumas vantagens da utilização da TCA são: a redução do número de variáveis

redundantes no processo; redução do volume de dados, o que acarreta uma compactação

no banco de dados; a fundamentação matemática; e possibilidade de modelagem dos

dados por meio de regras, permitindo a construção de softwares.

Nesta dissertação, através de uma análise baseada na mineração de dados utilizando a

teoria dos conjuntos aproximativos, busca-se a redução das variáveis de entrada para um

modelo que realiza previsão climática. Este modelo é composto pelas redes neurais

artificiais (RNA) que são responsáveis pelo aprendizado dos padrões atmosféricos para

prever estados futuros.

As redes neurais são expostas a dados históricos na tentativa de aprender a estabelecer

um primeiro prognóstico das condições climáticas para um intervalo de tempo. Os

dados entretanto, são pré-processados pela TCA, numa tentativa de melhorar os

resultados, buscando o uso de variáveis de maior importância para cada região.

Os experimentos realizados mostraram a possibilidade da combinação de duas técnicas

de inteligência artificial, TCA e RNA, na previsão climática e permitiu a concepção de

um método que pode ser aplicado operacionalmente.

A principal vantagem no uso de um sistema como proposto nesta dissertação, está no

fato de que é possível se fazer prognósticos de comportamento climático global de

forma automática (ou semi-automática) e se ter grupos de especialistas concentrados

nos estudos do comportamento climático locais.

25

Ao longo desta dissertação será abordada a previsão climática e seus elementos, a

descoberta de conhecimento e suas etapas, a teoria dos conjuntos aproximativos, as

redes neurais artificiais e a metodologia desenvolvida para efetuação da tarefa de

previsão climática sob a luz da IA. O Capítulo 2 é conceitual, sobre a previsão climática

e tem por objetivo posicionar o leitor dos termos utilizados nesta área. Não diferente do

Capítulo 3 é sobre a mineração de dados, importante ferramenta para encontrar padrões

e compactar base de dados. O principal capítulo é o quarto, pois fornece elementos ao

leitor sobre a teoria dos conjuntos aproximativos, que é uma técnica, oriunda da teoria

dos conjuntos, muito utilizada na inteligência artificial e mineração de dados.

As redes neurais, importante técnica empregada na inteligência artificial é tratada no

Capítulo 5. Os Capítulos 6 e 7 exploram as técnicas e metodologias abordadas nos

capítulos anteriores, para alcançar os objetivos postos, assim como os resultados

obtidos.

27

2 PREVISÃO CLIMÁTICA

2.1 Meteorologia

A meteorologia é definida como a ciência que estuda os fenômenos que ocorrem na

atmosfera, e está relacionada ao estado físico, dinâmico, químico atmosférico e as

interações entre elas e a superfície terrestre subjacente (Instituto Nacional de

Meteorologia - INMET, 2003).

Em meteorologia há uma distinção entre tempo e clima que são conceitos usados para

se entender o comportamento da atmosfera em diferentes "intervalos de tempo". O

tempo é o estado da atmosfera em um determinado momento e lugar ou, é o estado da

atmosfera com relação aos seus efeitos sobre a vida e as atividades humanas. Já o clima

se refere às características da atmosfera inferidas de observações contínuas durante um

longo período, como por exemplo, 30 anos (normal climatológica). O clima abrange um

maior número de dados que as condições do tempo para uma determinada área. Ele

inclui considerações dos desvios em relação às médias, variabilidade, condições

extremas e freqüência de ocorrência de determinada condição de tempo. Assim, o clima

representa uma generalização, enquanto o tempo lida com eventos específicos.

O clima tem influência direta sobre diversas atividades, tais como agricultura, pesca,

geração e distribuição de energia elétrica, defesa civil, dentre outras. Por tantas tarefas

dependerem do comportamento atmosférico, tanto a curto como a longo prazo, que é

importante se entender os fenômenos naturais e assim se antecipar as possíveis

calamidades que possam vir a ocorrer em casos de um clima atípico. A meteorologia

está em contínuo aperfeiçoamento para cada vez tornar mais confiáveis e aumentar o

prazo de previsão climática e do tempo. Entre as técnicas para a realização da previsão

de tempo e clima são utilizados, pelos centros de previsão em todo o mundo os modelos

numéricos. Outro ponto importante é que em região em análise é formada por uma

28

grade, ou malha e a intersecção das linhas verticais e horizontais é um ponto da grade

em questão, como mostra a Figura 2.1.

(x1,y1)

y

x

Figura 2.1 – Grade.

2.2 Tipos de modelo numérico

Para previsão do clima e tempo existem os modelos numéricos, que é o nome dado à

técnica que simula o estado da atmosfera, por meio de modelos físico-matemáticos

resolvidos numericamente, através de técnicas computacionais. O prazo de previsão está

diretamente relacionado com a resolução temporal (amostragem das variáveis de

entrada, podendo ser em: minutos, horas, meses, etc) e espacial (distância entre os

pontos de grade) das variáveis. Em geral, modelos que trabalham com alta resolução

(exemplo: 1 km) requerem um passo de integração menor, limitando o alcance de

previsão em poucos dias. Já os modelos que operam com baixas resoluções (250 km,

por exemplo), o alcance operacional da previsão pode chegar a ser mensal ou inter-

anual (Gutiérrez, 2003).

2.1.1 Modelo Global de Circulação Geral Atmosférico (MCGA)

São modelos que integram todo o globo. Trabalham com baixas resoluções, devido à

quantidade de informações que manipula. Em novembro de 1994 o CPTEC-INPE

iniciou o uso desde modelo para previsão do tempo e com devidas modificações este se

torna operacional também para previsão do clima. Este modelo é baseado nas leis físicas

29

de conservação de massa e de umidade, de energia e de momentum angular e como dito

no Capitulo 1 emprega as equações de continuidade de massa para o ar seco e vapor de

água, primeira lei da termodinâmica e a segunda lei de Newton (Centro de Previsão do

Tempo e Estudos Climáticos, 2003).

Figura 2.2 – Grade global de baixa resolução.

As variáveis utilizadas no modelo segundo Cavalcanti et. al. (2002) são: temperatura,

componentes do vento zonal e meridional e umidade relativa. Estas variáveis são

transformadas em temperatura virtual, divergente, vorticidade, umidade específica e

logaritmo da pressão que então constituem a condição inicial, ou entrada do MCGA.

Cada C.I corresponde a média diária das variáveis citadas, portanto para n C.I. são

necessários dados de n dias consecutivos. A Figura 2.3 mostra um esquema da previsão

climática.

Modelo

Condição 1

Condição 2

Condição n

.

.

.

Membro 1

Membro 2

Membro n

.

.

.

Figura 2.3 – Modelo de previsão climática.

30

2.1.2 Modelo regional

È uma solução para aumentar a resolução do modelo sem aumentar o custo

computacional. Consiste em limitar a grade em uma zona geográfica limitada de

interesse. Deste modo pode-se prever fenômenos de pequena escala como tempestades.

Figura 2.4 - Grades do Centro, Leste, Oeste Americano, Havaí, Alasca e Porto Rico.

FONTE: NCEP/NOAA, Gutiérrez (2003).

2.3 Previsão climática

A previsão climática é uma estimativa do comportamento médio da atmosfera com

alguns meses de antecedência. Por exemplo, pode-se prever se o próximo verão será

mais quente ou mais frio que o normal, ou ainda, mais ou menos chuvoso. Todavia, tal

estimativa não pode dizer exatamente qual será a quantidade de chuvas ou quantos

graus a temperatura estará mais ou menos elevada.

Para previsão climática, no CPTEC-INPE são utilizados modelos numéricos, alguns em

caráter experimental, pois no Brasil e no mundo, essa é uma área que está em constante

evolução com o propósito de torná-la mais confiável (Centro de Previsão do Tempo e

Estudos Climáticos, 2003).

31

O modelo de circulação geral atmosférico (MCGA), descrito na seção 2.1.1, tem sido

utilizado para estudar a variabilidade e as mudanças climáticas e predição sazonal no

CPTEC, na qual emprega uma técnica para o tratamento do comportamento caótico da

atmosfera denominada de ensemble, conhecida também por previsão por conjuntos, que

é uma ferramenta necessária para reduzir os efeitos das condições iniciais (Cavalcanti et

al, 2002).

A previsão por ensemble é o resultado da média de todos os membros do MCGA

(Figura 2.3) e surgiu com a finalidade de aumentar os prazos de previsões de tempo e

clima e a previsibilidade dos modelos dinâmicos (não lineares), através da suposição de

que os modelos sejam perfeitos e, assim, considerando apenas a incerteza na condição

inicial, busca-se, através de alguma técnica específica, estimar os erros associados às

observações para criar um conjunto de condições iniciais perturbadas. Este método veio

para solucionar o problema da previsibilidade numérica de forma determinística, pois

Lorenz (1963, 1965, 1969) observou que a solução de sistemas de equações semelhantes

às que governam os movimentos atmosféricos, apresentam dependência sensível em

relação às condições iniciais fornecidas no início da integração, ou seja, notou que

partindo de condições ligeiramente perturbadas, após algum tempo de integração, as

soluções podem ser completamente diferentes. Isto é conhecido como caos

determinístico e é o fenômeno que limita o horizonte das previsões pois devido às

condições iniciais ligeiramente perturbadas o erro se propaga exponencialmente pelo

sistema gerando resultados errados Gutiérrez (2003). Portanto dependendo das

aproximações físicas e escalas consideradas no modelo numérico, a não linearidade

deste imporá um alcance maior ou menor na predição.

2.4 Tipos de previsão

Assim como os modelos numéricos para previsão, seja de tempo ou clima, os tipos de

previsão ou predição, estão relacionados com a resolução temporal e espacial dos dados.

Esta dependência espaço-temporal é mostrada na Figura 2.5, pois quando se aumenta o

32

alcance da previsão decresce a resolução espacial e os fenômenos que podem ser

preditos.

Tabela 2.1 – Alcance das previsões. Previsão Alcance de Previsão

Now-casting (imediata) minutos, horas Curto prazo 1 a 3 dias Médio prazo (ensemble) 4 a 15 dias Mensal mês Sazonal trimestre

As previsões, a respeito do comportamento atmosférico em escalas na ordem de metros

e km, são realizadas de forma determinística para um alcance temporal na ordem de

minutos e segundos (Tabela 2.1). Não é possível realizar previsões nestas escalas para

dias, meses e anos, pois o modelo, devido a sua não-linearidade, apresentaria resultados

totalmente equivocados devidos às incertezas associadas nas condições iniciais. Já nas

previsões para médio prazo, que são aquelas com um alcance de quatro a quinze dias,

tem que ser realizada utilizando a técnica do ensemble, também conhecida como

previsão por conjuntos, para minimizar os efeitos das condições iniciais a médio prazo.

As previsões mensais e sazonais são realizadas com ensemble e de forma probabilística,

como mostra a Figura 2.5.

Portanto os tipos de previsão são: Determinística e Probabilística.

Det

erm

inís

tica

Pro

bab

ilíst

ica

Tipos de Predição

anual

mensa

l d

iária h

orá

ria m km 100 km 1000 km

Escala Espacial

Esc

ala

Tem

pora

l computacionalmentecustoso

RestriçãoNão-linearidade do modelo

Precip. = 10.3 mm

P(Precip.>10mm)=0.85

Anomalia > s

Precip. diária esperada paramanhã é de 10.3mm

A probabilidade de que a precip. diária esperada para dentro de umasemana supere 10mm é de 0.85

É provável que a anomalia daprecip. acumulada para o próximo inverno seja atípica

Now-casting

Curtoprazo

MédioPrazo

Mensal

Sazonal

Figura 2.5 – Tipos de predição.

FONTE: Adaptado de Gutiérrez et al (2004)

33

2.4.1 Previsão determinística

Uma previsão é determinística quando proporciona um estado para uma variável

discreta ou contínua, como por exemplo, vento > 90km/h, precipitação é 18.5 mm

(Gutiérrez, 2003). São previsões que obedecem as funções do tipo f: C → P, onde f é a

função de predição, C as variáveis necessárias para realização da previsão e P o estado

da variável prevista.

Existem dois tipos elementares de previsão determinística:

Persistência: Consiste em prognosticar para um dado instante de tempo t o que

ocorreu no instante t-1.

ô(t)=o(t-1);

Climatologia: Consiste em prognosticar utilizando algum parâmetro derivado da

distribuição climatológica obtida empiricamente para um evento dado. Por

exemplo, a precipitação predita para um dia de Janeiro será a média dos valores

diários da precipitação em Janeiro nos últimos dez anos:

ô(t)=<o(t i)>; i=1..N;

onde < > denota a média para o período desejado, ô(t) o valor predito para o(ti).

2.4.2 Previsão probabilística

Uma predição é probabilística quando descreve em termos quantitativos a incerteza

associada com a predição. O prognóstico realizado é uma distribuição de probabilidade

sobre os de valores de uma variável. As predições podem ser visualizadas com variáveis

continuas ou discretas como mostra a Figura 2.6.

34

Figura 2.6 – Previsão probabilística. À esquerda a previsão probabilística contínua e a

direita mostrada de forma discreta ou categórica.

FONTE: Gutiérrez et al (2004)

35

3 MINERAÇÃO DE DADOS

3.1 Introdução

Claramente o volume de informações cresceu vertiginosamente, com o aumento

significativo da capacidade de armazenamento que as tecnologias para estes fins vêm

permitindo. Mas nem sempre o acúmulo de informações é benéfico. Em muitos casos

mantêm-se estas grandes bases para fazer simples consultas, sem retirar destas,

informações que tenham “valor” ou significado. Por isso e para isso, surgiu a

descoberta de conhecimento para de banco de dados, “lapidar”, “extrair” ou “minerar”

padrões que estejam escondidos entre os dados com o propósito de entender o

comportamento dos mesmos.

Neste contexto de exploração de grandes bases de dados, este capítulo trata basicamente

das definições sobre mineração de dados, que faz parte do processo de descoberta de

conhecimento, que servirá de fundamento teórico para o estudo desenvolvido nesta

dissertação, uma vez que se deseja fazer previsão climática, com técnicas empregadas

na inteligência artificial, com o menor número de variáveis possíveis.

Como reduzir variáveis envolve o entendimento das relações entre elas e a mineração de

dados executa esta tarefa, então se optou pelo emprego desta metodologia, que é

descrita com maiores detalhes a seguir.

3.2 Definições básicas

Mineração de dados é um conjunto de técnicas computacionais para a extração de

informações desconhecidas e potencialmente úteis em grandes volumes de dados

através de um resumo compacto dos mesmos. O termo “mineração de dados” é somente

um de vários termos, incluindo extração de conhecimento, arqueologia de dados,

36

colheita de informações ou descoberta de conhecimento em banco de dados (KDD -

Knowledge Discovery in Databases) (Fayyad et al, 1996).

Chen (2001) Define mineração de dados como a extração não-trivial de informações

implícitas, previamente desconhecidas, interessantes e potencialmente usuais, dos

dados.

As características principais do processo de mineração de dados são:

• O conhecimento descoberto é representado em uma linguagem de alto nível que

pode ser entendido por usuários humanos.

• As descobertas retratam o conteúdo do banco de dados.

• O conhecimento descoberto é interessante de acordo com os usuários.

• O processo de descoberta é eficiente.

Algumas vezes os termos KDD e mineração de dados são usados com o mesmo sentido.

Isto porque, do ponto de vista da aplicação, o acrônimo KDD, está diretamente

relacionado à extração de conhecimento residente em base de dados, fazendo uso de

sistemas gerenciadores de banco de dados, enquanto a mineração de dados, não

especifica o tipo da fonte de dados e muito menos o formato dos mesmos (Chen, 2001).

A pesquisa em KDD tem crescido e atraído esforços, baseada na disseminação da

tecnologia de bancos de dados e na premissa de que as grandes coleções de dados hoje

existentes podem ser fontes de conhecimento útil, que está implicitamente representado

e pode ser extraído. No sentido de viabilizar esta tecnologia, a KDD se vale, entre outras

coisas, de técnicas de inteligência artificial e de conceitos estatísticos para lidar com a

incerteza relacionada às descobertas.

37

3.3 O processo de descoberta de conhecimento

A descoberta de conhecimento é o processo de extração de conhecimento novo, útil e

interessante a partir de bases de dados. Este processo tem natureza iterativa e interativa

e é composto por uma série de atividades (Fayyad, 1996). A mineração de dados, por

sua vez, pode ser considerada o núcleo da KDD, consistindo na aplicação de algoritmos

de extração de padrões a partir de dados. A Figura 3.1 apresenta uma representação do

processo de KDD.

Dados

Dados Objetivos

Dados Pré Processados

Dados Transformados

PadrõesConhecimento

Seleção

Pré-ProcessamentoTransfomação

Minerção de Dados

Interpretação

Figura 3.1 – Etapas do processo de KDD.

FONTE: Adaptado de Fayyad, 1996.

Então de uma forma geral as etapas da KDD resumidamente são:

Definição dos objetivos e seleção dos dados

Inclui descrever cuidadosamente o problema, determinar se o uso da mineração

de dados é apropriado e qual método utilizar, decidir a forma de entrada e saída

dos dados, decidir relações custo/benefício etc. Também nesta etapa, se deve

determinar quais os dados que serão necessários para análise. É importante a

escolha dos dados, pois evidentemente irá refletir diretamente nos resultados.

38

Pré-Processamento

Eliminação de ruídos e erros, estabelecimento de procedimentos para verificação

da falta de dados; estabelecimento de convenções para nomeação e outros passos

demorados para a construção de uma base de dados consistente. Por exemplo,

verificar se os dados necessitam ser normalizados, quais atributos podem ser

descartados, se é necessário converter dados para outro formato, etc. Essa é a

etapa mais lenta do processo, tomando cerca de 50-80% do tempo total.

Transformação

Alguns passos opcionais podem ser utilizados para auxiliar nas etapas seguintes,

e são altamente recomendados, dentre eles temos a redução de dados e a

compressão de dados. Nesta etapa ainda, pode-se transformar atributos não-

categóricos em atributos categóricos, por exemplo, transformar um atributo

contínuo (ou não-categórico) como a temperatura (°C) em variável categórica

como “Temperatura Alta”, “Normal” e “Baixa”, por meio de uma discretização.

Mineração de dados

Aplicação dos algoritmos para descoberta de padrões nos dados; envolve a

seleção de métodos, técnicas e modelos que são mais adequados para realizar a

análise desejada.

Interpretação

Consiste na visualização dos resultados obtidos pelo processo de mineração de

dados. Os padrões obtidos serão utilizados como ferramenta de suporte a decisão

por parte do usuário. Este deverá avaliar a adequação dos padrões identificados

pelo processo no tocante à extração de conhecimento desejado.

39

Vale ressaltar que após a obtenção do conhecimento e caso os resultados não sejam

satisfatórios o processo pode ser retomado a partir do ponto que seja mais oportuno para

tal análise.

3.4 Classificação da mineração de dados

Existem muitos modos de categorizar ou classificar a mineração de dados. Um modo é

classificar a mineração de dado de acordo com os seus objetivos. Neste caso surgem

duas categorias (Chen, 2001):

• Descritiva: focada na procura de padrões que os interpretáveis descritos nos

dados. Este tipo de mineração de dado descreve as características existentes nos

dados.

• Preditiva: envolve usar variáveis para predizer valores desconhecidos e futuros

de outras variáveis de interesse.

3.5 Principais tarefas da mineração de dados

As tarefas ou funcionalidades da mineração de dados estão relacionadas com o domínio

da aplicação e do interesse do usuário, indicando o tipo de conhecimento que deve ser

minerado. As principais tarefas são resumidamente:

Caracterização;

Associação;

Classificação;

Regressão;

Segmentação;

40

3.5.1 Caracterização

O objetivo da caracterização é generalizar, resumir e possivelmente comparar

características dos dados. Por exemplo, é um tipo de caracterização saber qual tipo de

pessoas são típicas compradoras de imóveis na cidade X, para casas novas com valor

mínimo de $500.000,00 (Chen, 2001).

3.5.2 Associação

Também chamado de market basket analysis (MBA) (dá-se esse nome porque os dados

consistem em um conjunto de atributos binários chamados itens) ou análise de

afinidades em aplicações de negócios, associação é a descoberta de relações entre vários

atributos ou transações. Por exemplo, é associação a análise que dá informações para o

gerente da vídeo-locadora conhecer quais filmes sempre são alugados juntos ou se

existe alguma relação entre alugar determinados gêneros de filmes e comprar pipoca ou

refrigerante (Chen, 2001).

3.5.3 Classificação

Frequentemente se quer classificar dados de acordos com valores em atributo

classificador, também conhecido como meta ou objetivo. Nesta tarefa, que é a mais

empregada em descoberta de conhecimento, cada tupla ou registro pertence a uma

classe. O principio da classificação é descobrir algum tipo de relacionamento entre os

atributos preditivos e o atributo objetivo, o que envolve uma função que mapeie os

dados nas classes pré-definidas. Por exemplo, é classificação identificar que tipos de

clientes seriam eventuais compradores de um livro de culinária, baseado em um banco

de dados contento dados sobre os clientes da editora nos países onde o livro foi

publicado (Chen, 2001).

41

3.5.4 Regressão

Regressão envolve aprender uma função que mapeie os dados para predição de uma

variável contínua. Esta tarefa é conceitualmente similar à classificação. A maior

diferença é que na regressão o atributo meta é contínuo, enquanto que na classificação

em geral é do tipo discreto (Chen, 2001).

3.5.5 Segmentação

Segmentação ou clustering consiste em agrupar os dados em novas classes. Isto é o que

as pessoas fazem intuitivamente quando visualizam o mundo e segmentam em grupos

discretos, por exemplo, tipos de animais, plantas, veículos, etc. Nesta tarefa o algoritmo

deve criar classes através da partição dos dados com valores de atributos semelhantes,

ou seja, propriedades de interesse comum sejam reunidas em uma mesma classe (Chen,

2001).

3.6 Técnicas de mineração de dados

Existem inúmeras técnicas que são empregadas na mineração de dados, sendo algumas

delas (Komorowski et. al, 1999),(Chen, 2001):

• Teoria dos Conjuntos Aproximativos (Rough Sets Theory);

• Teoria dos Conjuntos Nebulosos (Fuzzy Sets Theory);

• Redes Neurais Artificiais;

• Indução de regras;

• Árvores de decisão;

Dentre as técnicas citadas acima, duas delas, a teoria dos conjuntos aproximativos e as

redes neurais artificiais, são utilizadas no desenvolvimento desta dissertação sendo por

isso detalhada no Capítulo 4 e 5.

42

3.7 Mineração de dados espaço-temporal

Em mineração de dados, principalmente na área científica, existem dados que possuem

componentes espaciais, temporais ou ambas (Chen, 2001). O uso de tais componentes

dependerá da aplicação e meta das análises envolvendo estes dados.

Os dados de natureza espaciais são caracterizados por elementos que possuem

parâmetros de localização (Figura 3.2), como x e y ou longitude e latitude, por exemplo.

Lon

Lat

Figura 3.2 – Dados espaciais.

Em Pessoa et al (2003) é mostrada uma aplicação da mineração de dados espacial na

região da represa Billings – SP, onde o objetivo era estabelecer relações entre as

variáveis: “uso da terra”, “características geológicas” e “declividade” com a variável

“risco de deslizamento de terra” (Figura 3.3).

(a) (b)

Figura 3.3 – Mapas temáticos da represa Billings. (a) declividade, (b) características

geológicas, (c) uso da terra e (d) risco de deslizamento.

FONTE: Pessoa et al (2003). (continua)

43

(c) (d)

Figura 3.3 – Conclusão.

No tipo de dados temporal uma variável tem uma evolução durante um intervalo de

tempo, ou seja, está na forma de série temporal. A Figura 3.4 mostra um exemplo de

dados temporal.

Figura 3.4 – Série temporal de precipitação (Centro-Oeste, Jan 81 a Dez 91).

Em Pessoa (2003) é construído um classificador de tarefas mentais, através do processo

de descoberta de conhecimento (KDD), baseado em Anderson & Sijercic (1996). Os

dados estavam dispostos em forma de série temporal, oriundo de sinais de EEG (eletro-

encefalograma) de 6 canais como mostrado na Figura 3.5. Cada linha do banco de dados

contêm: uma série temporal, um canal, uma tarefa (respectivamente colunas 1 a 2502, x

e y da Tabela 3.1). As tarefas a serem classificadas são:

Tempo

Pre

cip

itaçã

o

44

1) Repouso;

2) Elaboração de uma carta;

3) Multiplicação não trivial de dois números;

4) Contagem numérica;

5) Visualização de uma figura geométrica em rotação.

Figura 3.5 – Posicionamento dos eletrodos.

FONTE: Anderson & Sijercic (1996).

Tabela 3.1 – Dados de EEG. Sinal de EEG (colunas) Canal Tarefa

Elementos 1 2 ... 2502 x y 1 a1 a2 a2502 x1 y1 2 a1 a2 a2502 x2 y2 ...

1950 a1 a2 a2502 x1950 y1950

Um terceiro tipo de dado envolve as componentes espaciais e temporais, com a função

de descrever a evolução no tempo de uma dada variável em uma região. Variáveis como

precipitação, umidade e pressão na meteorologia, são exemplos de dados espaço-

temporais. Nas Figura 3.6 é mostrado um exemplo como a variável precipitação, com

dados coletados no Climate Diagnostic Center/ National Oceanic and Atmospheric

Administration (CDC/NOAA) em [http://www.cdc.noaa.gov/], de janeiro de 1980 a

abril do mesmo ano.

http://www.cdc.noaa.gov/

45

Figura 3.6 – Precipitação de JAN – 1980 a ABR – 1980.

Existem diversas formas de representação espaço-temporal, dependendo do objetivo. A

mais comum e utilizada é a forma tabular, inclusive pelos algoritmos de mineração de

dados. Mas as informações na maioria dos casos encontram-se na forma matricial como

na representação mostrada na Figura 3.7.

Tempo

Variável 4

Variável 1

Variável 2

Variável 3

Variável 4

Variável 1

Variável 2

Variável 3

Figura 3.7 – Representação gráfica dos dados espaço-temporal.

Na forma tabular cada ponto, chamado de ponto de grade, pode representar um grau,

um minuto ou um segundo de coordenadas geográficas, por exemplo, ou uma resolução

diferente, e é representado como um elemento rotulado, com um identificador de tempo

e um de local. Existem, entretanto, duas formas de representar estas informações:

46

representação com tempo repetido e representação sem tempo repetido (Pang-Ning et

al, 2001).

Na representação com tempo repetido em cada instante de tempo um elemento é

representado por um registro na tabela com seus respectivos valores para as variáveis.

Portanto, se existem n tempos, cada ponto da grade é representado n vezes. Na Tabela

3.2 é mostrado o formato deste tipo de representação. Os subscritos exibidos nas

Tabelas 3.2 e 3.3 são b (baixo), m (médio) e a (alto).

Tabela 3.2 – Representação com tempo repetido.

Localização Tempo Variável 1 Variável 2 Variável 3 Lid1 t1 xb ym za Lid2 t1 xm yb zm Lid1 t2 xa ym zb Lid2 t2 xa yb za ... ... ... ... ...

Lidi tn xa ym zb Lidi tn xa yb za Lidi tn xm yb zb

Fonte: Adaptada de Pang-Ning et al (2001) Já na representação sem repetir a componente temporal não há necessidade de

representar cada elemento para um instante de tempo, uma vez que cada instante de

tempo é representado em uma coluna. Os valores para estas colunas são os estados das

variáveis envolvidas na análise no tempo em questão, como mostrado na Tabela 3.3. A

desvantagem desta representação é que para análise de um longo período de tempo,

existiria um número elevado de colunas.

Tabela 3.3 – Representação sem tempo repetido. Localização t1 t2 ... tn

Lid1 (xb,yb,za) (xa,ym,zb) ... (xa,yb,za) Lid2 (xm,yb,zm) (xa,yb,za) ... (xa,ym,za) Lid3 (xm,ym,zb) (xa,ya,za) ... (xb,yb,zb) ... ... ... ... ...

Lidi (xa,ym,zb) (xa,yb,za) ... (xm,yb,zb) Fonte: Adaptada de Pang-Ning et al (2001)

47

4 TEORIA DOS CONJUNTOS APROXIMATIVOS

4.1 Introdução

No mundo real as informações são freqüentemente incertas, imprecisas ou incompletas,

talvez devido à dificuldade em relatar os fenômenos naturais observáveis, expressar

acontecimentos ou fatos, etc. Diversas teorias foram desenvolvidas para “tratar” tais

imperfeições, dentre elas a teoria dos conjuntos nebulosos (Zadeh, 1965), teoria de

Dempster-Shafer (Dempster, 1967), (Shafer, 1976), teoria das possibilidades (Zadeh,

1978). No início da década de 80, surgiu uma teoria, caracterizada pela simplicidade e

bom formalismo matemático, o que facilita a manipulação de informações, em especial,

incertas, conhecida como Teoria dos Conjuntos Aproximativos (TCA), ou do inglês

Rough Set Theory. A TCA é uma extensão da teoria dos conjuntos, que enfoca o

tratamento de incerteza dos dados através de uma relação de indiscernibilidade que diz

que dois elementos são ditos indiscerníveis, se possui as mesmas propriedades, segundo

Leibniz (Scuderi, 2001). Alguns autores como Nicoletti e Uchôa (1997) apontam como

a principal vantagem da teoria dos conjuntos aproximativos a não necessidade de

utilização de informações adicionais, tais como distribuição de probabilidade, grau de

pertinência, possibilidade ou atribuição de crença. A TCA foi inicialmente proposta por

Zdzislaw Pawlak (Pawlak, 1982) e desde então atraiu o interesse de parte da

comunidade acadêmica, e suas aplicações em diversas áreas do conhecimento,

propiciaram o surgimento de extensões. Porém ao longo deste capítulo é abordado o

formalismo matemático do ponto de vista clássico (como idealizado inicialmente por

Pawlak) e as nomenclaturas de acordo como o apresentado por Komorowski et al

(1999) para o uso da TCA na análise de dados.

48

4.2 Conceitos básicos

4.2.1 Sistemas de informação

Um sistema de informação (SI), ou espaço aproximativo é um par ordenado SI = (U;

A), onde:

U é um conjunto finito não-vazio de objetos (um caso, um evento, um paciente,

ou simplesmente um objeto) chamado de universo e A;

A representam os atributos (uma variável, uma observação, uma propriedade,

etc.).

Cada atributo a ∈ A define uma função de informação fa: U→ Va, onde Va é o conjunto

dos valores de a, chamado de domínio do atributo a.

Exemplo 1

Tabela 4.1 – Sistema de informação. Pressão Temperatura Umidade

x1 1 2 1 x2 2 2 1 x3 1 1 0 x4 1 2 1 x5 2 2 1 x6 0 0 2

Por questão de simplicidade adota-se a seguinte nomenclatura para os atributos:

p = pressão;

t = temperatura;

u = umidade;

49

O universo e os atributos são, respectivamente:

U = {x1, x2, x3, x4, x5, x6};

A = {p, t, u};

O domínio dos atributos são:

Vp = {0, 1, 2};

Vt = {0,1, 2};

Vu = {0, 1, 2};

Quando um atributo é especialmente adicionado a um sistema de informação para fins

classificatórios, este sistema passa a ser denominado sistema de decisão (SD), denotado

por SD = (U; A ∪ {d}), onde d ∉ A é o atributo de decisão.

Colocada a definição de sistema de decisão acima e com o propósito de utilizar uma

terminologia de acordo com a teoria dos conjuntos aproximativos, os elementos

pertencentes a A, passa a serem chamados de atributos condicionais ou simplesmente

condições e d é o atributo de decisão, como dito anteriormente. O atributo de decisão

pode ser representado por vários valores, entretanto valores binários são mais freqüentes

O domínio ou classes do atributo de decisão nos SD são freqüentemente binários, tal

como {Sim, Não} ou {0, 1}, mas também pode assumir representações de múltiplos

valores. (Komorowski et al, 1999).

Exemplo 2

Tabela 4.2 – Sistema de decisão.

Pressão Temperatura Umidade Precipitação x1 1 2 1 0 x2 2 2 1 1 x3 1 1 0 1 x4 1 2 1 1 x5 2 2 1 1 x6 0 0 2 0

50

Um sistema de decisão pode ser resumido com regras, como por exemplo, algo da

forma:

“ Se a =’x’ e b =’y’ então d = Sim”;

“ Se a = 0.25 então d1 é 0 ou d2 é 1”;

“ Se a =[155; 159] então d é Não”;

Com esta capacidade de representar um sistema de decisão em regras é possível

construir modelos baseados nestas, que representem todo o sistema em questão de uma

forma resumida e com isto, na abordagem utilizando TCA, em muitas vezes são

encontrados padrões implícitos e usuais nos dados. Por esta razão esta teoria é tão usual

como técnica de mineração de dados.

4.3 Indiscernibilidade

Uma das principais características da TCA é a redução de dados, por meio da

compactação do sistema de decisão, que pode ser desnecessariamente grande. Esta

compactação em TCA ocorre duas situações:

• quando elementos “iguais” são representados muitas vezes;

• quando alguns atributos são supérfluos.

Nesta seção é abordado o caso onde os objetos são representados muitas vezes. Para

este tipo de situação vários elementos pertencentes a mesma classe de equivalência são

representados por um único elemento no SI.

Dado um conjunto de elementos X e x, y e z ∈ X, uma relação de equivalência é uma

relação binária R⊆ X x X que é reflexiva (xRx), simétrica (se xRy então yRx) e transitiva

(se xRy e yRz então xRz), para todo x, y e z ∈ X. A classe de equivalência de um

elemento Xx∈ , consiste em todos os elementos Xy∈ tal que xRy e é denotada por

[x].

51

Dado SI = (U; A) como sistema de informação e x e x’ ∈ X, então com qualquer B ⊆ A

existe uma relação de equivalência INDA (B), quando os elementos (x, x’) possuem os

mesmos valores de atributos B (elementos idênticos sob a luz dos atributos B). Esta

relação é mostrada na Equação 4.1:

)}()(,|),{()( xaxaBaUxxBINDA ′=∈∀∈′= (4.1)

INDA(B) é chamada de relação de B-indiscernibilidade. Se )(),( BINDxx A∈′ , então os

objetos x e x’ são indiscerníveis relativamente a qualquer atributo no conjunto B. [x]B

denota a classe de equivalência descrita pelo elemento x ∈ X. As classes de equivalência

INDA(B) dá-se o nome de conjuntos elementares em B, porque estas representam o

menor grupo de objeto discerníveis.

Exemplo 3:

O SD para este exemplo é mostrado na Tabela 4.2. São mostrados os conjuntos

elementares ocasionados pela relação IND, utilizando todas as combinações dos

atributos condicionais:

IND (p) = [{x1, x3, x4}, {x 2, x5}, {x 6}];

IND (t) = [{x1, x4, x2, x5}, {x 3}, {x 6}];

IND (u) = [{x1, x2, x4, x5}, {x 3}, {x 6}];

IND (p, t) = [{x1, x4}, {x 2, x5}, {x 3}, {x 6}];

IND (p, u) = [{x1, x4}, {x 2, x5}, {x 3}, {x 6}];

IND (t, u) = [{x1, x4, x2, x5}, {x 3}, {x 6}];

IND (A) = [{x 1, x4}, {x 2, x5}, {x 3}, {x 6}];

52

4.4 Aproximação dos conjuntos

Na Tabela 4.2 os elementos {x1, x4} são indiscerníveis segundo a relação de

indiscernibilidade. Porém acontece que estes possuem valores de decisão diferentes, o

que para fins classificatórios causa uma dúvida, ou imprecisão dos dados, quanto ao

pertencimento destes elementos a uma só classe de decisão. Fundamentado neste

raciocínio, os elementos de um SD pode ser particionado em regiões, chamadas em

TCA de aproximações. Existem quatro regiões formadas por este particionamento

(Komorowski et al, 1999):

Aproximação inferior ou região interna;

Aproximação superior;

Região de Fronteira ou Borda;

Região Externa.

A idéia por trás deste fundamento é bastante simples. Elementos que possuem mesmos

valores de condições e decisão certamente pertencem a uma classe de decisão. Se esta

classe for à classe alvo, ou seja, a classe tomada como referência para análise, então os

elementos estão na aproximação inferior, caso contrário são pertencentes à região

externa.

Já os elementos que possuem condições iguais e decisão diferente são possíveis

membros da classe alvo, pois não existe consenso, quanto à pertinência classe de

decisão. Estes elementos pertencem à região de fronteira, pois separam os elementos

que certamente pertencem à classe alvo dos que certamente não pertencem.

Por sua vez a aproximação superior é formada pela união dos elementos da

aproximação inferior e os da região de fronteira. O formalismo matemático para as

aproximações inferior e superior, respectivamente, são (B ⊆ A, A são os atributos

condicionais, X ⊆ U, U é o conjunto de elementos, X é a classe alvo e x ∈ X):

53

}][|{ XxxXB B ⊆= e }][|{ ∅≠∩= XxxXB B (4.2) e (4.3)

Em TCA as aproximações das Equações 4.2 e 4.3 são chamadas de aproximações B-

inferiores e B-superiores de X.

As regiões de fronteira e externa, matematicamente podem ser expressas pelas

diferenças:

FB (X) = XB – XB e EB (X) = U - XB (4.4) e (4.5)

De forma análoga as aproximações superior e inferior as Equações 4.4 e 4.5, em TCA

são chamadas de região de B-fronteira de X e região B-externa de X. Na Figura 4.1 é

exibida uma representação gráfica das aproximações discutidas nesta seção.

Borda ou Fronteira

Região Externa

Aproximação Inferior

Aproximação Superior+ =

Figura 4.1 – Aproximações do conjunto.

Quando existe a região da fronteira, o conjunto é dito aproximativo e caso contrário é

chamado de preciso (crisp).

Exemplo 4

As aproximações para o SD, mostrado na Tabela 4.2, para as classes de decisão do

atributo “Precipitação”, X1 = A0 = {x1, x6} e X2= A1 = {x2, x3, x4, x5}, são:

54

=)( 1XB {x 6};

=)( 1XB [{x 1, x4}, {x 6}];

F(X1) = −)( 1XB )( 1XB ={x1, x4}

E(X1) = U – =)( 1XB [{x 2, x5}, {x 3}]

=)( 2XB [{x 2, x5}, {x 3}];

=)( 2XB [{x 2, x5}, {x 3}, {x 1, x4}];

F(X2) = −)( 2XB )( 2XB = {x1, x4}

E(X2) = U– =)(YB {x 6}

Aproximação com X1 = {x1, x6}

Aproximação com X2 = {x2, x3, x4, x5}

Figura 4.2 – Aproximações

As aproximações apresentam as seguintes propriedades (Komorowski et al, 1999):

(1) XBXXB ⊆⊆ ;

(2) UUBUBBB ==∅=∅=∅ )()(,)()( ;

(3) )()()( YBXBYXB ∪=∪ ;

(4) )()()( YBXBYXB ∩=∩ ;

(5) YX ⊆ implica )()( YBXB ⊆ e )()( YBXB ⊆ ;

(6) )()()( YBXBYXB ∪⊇∪ ;

(7) )()()( YBXBYXB ∩⊆∩ ;

{x 6}

{x 1, x4} {x 2, x5}

{x 3}

d = 0

{x 6} {x 1, x4}

{x 3} {x 2, x5}

d = 1

55

(8) )()( XBXB −=− ;

(9) )()( XBXB −=− ;

(10) )())(())(( XBXBBXBB == ;

(11) )())(())(( XBXBBXBB == ;

onde (– X) denota (U – X).

Pode-se então definir quatro classes básicas dos conjuntos aproximativos ou quatro

categorias de incerteza:

• X é B-aproximadamente definido, see ∅≠)(XB e UXB ≠)( ;

• X é B-internamente indefinido, see ∅=)(XB e UXB ≠)( ;

• X é B-externamente indefinido, see ∅≠)(XB e UXB =)( ;

• X é B-totalmente indefinido, see ∅=)(XB e UXB =)( .

O significado desta classificação é o seguinte:

X é B-aproximadamente definido: significa que, usando B, pode-se definir que alguns

elementos de U pertencem a X e alguns elementos de U pertencem a –X.

X é B-internamente indefinido: significa que, usando B, pode-se definir que alguns

elementos de U pertencem a –X, mas nenhum elemento de U pode ser caracterizado

como pertencente a X.

X é B-externamente indefinido: significa que, usando B, pode-se definir que alguns

elementos de U pertencem a X, mas não se pode afirmar se algum elemento de U

pertence a –X.

X é B-totalmente indefinido: significa que, usando B, não se pode definir se algum

elemento de U pertence a X ou a –X.

56

Uma maneira de aferir as aproximações em um conjunto B pode ser através dos

seguintes coeficientes,

|)(|

|)(|

i

iB

XB

XB

∪∪

=α (4.6)

||

|)(|

U

XB iB

∪=β (4.7)

onde αB é chamado de acurácia de aproximação e βB é chamado de qualidade de

aproximação. Evidentemente 0 ≤ αB ≤ 1 e 0 ≤ βB ≤ 1. Se αB = 1, Xi é dito preciso (crisp)

em relação a B, caso contrário, isto é, se αB < 1, então X é aproximado em relação a B.

Algumas definições são importantes para a compreensão da estrutura do universo U,

quanto às inconsistências causadas por imprecisões ou incertezas de elementos, segundo

a relação de indiscernibilidade. Então estas definições são discutidas a seguir:

Se ||1 ,..., dVXX SDSD (|Vd| é a cardinalidade do domínio do atributo de decisão, por exemplo,

Vd = {0, 1}, |Vd| = 2) são classes de decisão de SD, então o conjunto ||1 ... dVXBXB ∪∪ é

chamado de B-região positiva de SD, e é denotado por POSB(d). A região B–negativa

de SD é dada por NEGB(d) = U – ( ||1 ... dVXBXB ∪∪ ).

Duas propriedades importantes dos SD são relativas à sua consistência ou não, que é

uma forma de saber se há objetos que “degradam” a classificação de um conjunto

devido a uma incerteza associada aos mesmos, e isto pode ser observado através da

região positiva, conforme é abordado abaixo:

Dado um SD = {U; A ∪ {d}}, a decisão generalizada em SD, que é a decisão que dois

objetos indiscerníveis possuem é definida por ∂A = { i | x’IND(A)x e d(x) = i} com x e

57

x’∈ U. Um SD é dito consistente se |∂A | = 1 para qualquer x ∈U, caso contrário o SD é

inconsistente.

Utilizando a noção de região positiva, um SD é dito consistente se POSA(d) = U, caso

contrário é inconsistente.

Exemplo 5

A acurácia para as aproximações do Exemplo 4 pode ser calculada a partir da expressão

(4.6):

• X1 = {x1, x6}:

0,333

1

|}{x }, x,{x |

|}{x |

|)(|

|)(|

641

6

1

11

====XB

XBXα

• X2 = {x2, x3, x4, x5}:

6,05

3

|} x,{x },{x },x,{x |

|}{x },x,{x|

|)(|

|)(|

41352

352

2

2

2====

XB

XBXα

• Todos Conjuntos (X1 + X2):

5,08

4

|}] x,{x },{x },x,{x[}]{x }, x,[{x|

|}]{x },x,{x[}{x|

|)(|

|)(|

41352641

3526 ==∪

∪==XB

XBBα ;

A qualidade de aproximação (4.7) é dada por:

X1 = {x1, x6}:

17,06

1

|}]{x },{x }, x,{x }, x,[{x|

|}{x |

||

|)(|

635241

611

====U

XBXβ

X2 = {x2, x3, x4, x5}:

5,06

3

|}]{x },{x }, x,{x }, x,[{x|

|}{x }, x,{x|

||

|)(|

635241

35222

====U

XBXβ

58

Todos os conjuntos (X1 + X2):

67,06

4

|}]{x },{x }, x,{x }, x,[{x|

|}{x}]{x }, x,[{x|

||

|)(|

635241

6352 ==∪==U

XBBβ ;

As decisões generalizadas para os elementos do SD da Tabela 4.2 são:

∂A (x1)= 0/1;

∂A (x2)= 1;

∂A (x3)= 1;

∂A (x4)= 0/1;

∂A (x5)= 1;

∂A (x6)= 0.

4.5 Reduções

Anteriormente um artifício natural de reduzir dados foi visto, que consiste em

identificar as classes de equivalência, ou seja, agrupar em classes os objetos que são

indiscerníveis usando os atributos disponíveis. Deste modo será feita uma otimização,

pois é necessário utilizar somente um elemento da classe de equivalência para

representar a classe inteira.

Um outro artifício para redução é manter somente os atributos que preservam a relação

de indiscernibilidade e, conseqüentemente, as aproximações do conjunto, ou seja, existe

um subconjunto de atributos condicionais que mantêm a mesma partição do universo

que fora realizada pelo conjunto completo de atributos condicionais, levando em

consideração as classes formadas pelo atributo de decisão. Os atributos restantes são

redundantes, ou supérfluos, desde que suas remoções mantenham a mesma

classificação. Normalmente existem vários subconjuntos de atributos e esses que são

mínimos são usualmente chamados de reduções. A determinação das reduções é um

problema “NP-hard” (Skowron, 1992). O número de reduções de um SI com m

atributos pode ser igual as possíveis combinações dos atributos, dado pelo número

59

binomial (o termo m/2 denomina o piso, ou menor inteiro maior ou igual a m/2)


2

mm

(4.8)

Isto significa que a computação das reduções não é uma tarefa trivial sendo um gargalo

para a metodologia dos conjuntos aproximativos. Contudo, o uso de algoritmos de

busca, podem auxiliar na computação das reduções em um tempo aceitável, caso o

número de atributos não seja muito alto (Komorowski et al, 1999). Na Tabela 4.3 é

exibido o número de reduções que é possível computar de um conjunto de m atributos.

Tabela 4.3 – Número possível de reduções. m Número possível de Reduções 10 252 20 184.756 30 155.117.520 40 137.846.528.820 50 126.410.606.437.752

FONTE: Scuderi (2001)

Dado o sistema de informação SI = (U; A), uma redução de S é um conjunto mínimo de

atributos B ⊆ A tal que INDSI (B) = INDSI (A). Em outras palavras, redução é o mínimo

conjunto de atributos de A que preserva os conjuntos elementares do SI, ou seja, a

habilidade de construir as mesmas classes de equivalências, assim como o conjunto de

atributos completo o faz. O conjunto de reduções é denotado por RED(B), já que um

sistema de informação pode ter uma ou mais reduções. Contudo existe um conjunto de

atributos que são ditos indispensáveis, pois suas remoções alteram a estruturas criadas

pela relação de equivalências IND (conjuntos elementares). A estes atributos dá-se o

nome de núcleo, que corresponde aos atributos que ocorrem em todas as reduções

calculadas e pode ser expresso por:

60

N(B) = ∩RED(B) (4.9)

Exemplo 6

A tabela abaixo mostra a alteração dos conjuntos elementares com a remoção de

atributos da Tabela 4.2 (os conjuntos elementares são mostrados no Exemplo 3):

Tabela 4.4 – Número de conjuntos elementares. Atributo removido

Nenhum p t u Número de conjuntos elementares 4 3 4 4

Como pode ser visto na Tabela 4.4, a remoção dos atributos t e u (Temperatura e

Umidade, respectivamente) não altera a estrutura dos conjuntos elementares, o que leva

a crer que estes atributos são dispensáveis. Isto não vale para o atributo p (Pressão),

pois houve uma diminuição no número de conjuntos elementares, indicando neste caso,

que este atributo é indispensável, pois com definido na seção 4.3, as estruturas

formadas pela relação de indiscernibilidade mantêm o menor grupo de objetos

discerníveis, ou seja, a capacidade de diferenciar objetos está na representação dos

conjuntos elementares, logo se estes são alterados, também é modificada a capacidade

de discernir os objetos em um sistema de informação.

Uma vez exploradas as noções de reduções e núcleo, formalmente será definida a

computação do conjunto RED, que é o alicerce para as definições citadas.

Sendo SD um sistema de decisão com n objetos, a matriz de discernibilidade de SD é

uma matriz simétrica n x n com entradas cij, que é dado na Equação 4.10. Cada entrada

consiste em um conjunto de atributos que difere os objetos xi e xj (Komorowski et al,

1999).

)}()(|{ jiij xaxaAac ≠∈= para i,j = 1, ..., n (4.10)

61

A função de discernibilidade fA para um sistema de informação SD é uma função

Booleana de m variáveis Booleanas **1 ,..., maa (correspondente aos atributos a1,..., am),

definida como (Komorowski et al, 1999):

},1|{),...( ***1 ∅≠≤≤≤∨∧= ijijnA cnijcaaf (4.11)

onde }|{ **ijij caac ∈=

O conjunto de todos implicantes primos de fA 1 determina o conjunto de todas as

reduções de A, denotado por RED(A).

Cada linha da função de discernibilidade corresponde a uma coluna da matriz de

discernibilidade. Esta matriz é simétrica e com a diagonal vazia.

Com relação às reduções, existem variantes na computação das mesmas, levando em

conta um atributo em específico, um elemento ou o atributo de decisão. Em vista disto,

se tem as chamadas reduções relativas, que como o próprio nome sugere são reduções

que tem como objetivo calcular o conjunto RED construindo a função de

discernibilidade com referências específicas e não com todo o universo U. São

mostradas abaixo estas reduções:

Pode-se construir uma função Booleana somente considerando a coluna k da matriz de

discernibilidade, ao invés de todas as colunas, obtendo-se então a função de

discernibilidade k-relativa. O conjunto de todos os implicantes desta função determina

o conjunto de todas as reduções k-relativas. Estas reduções revelam a quantidade

1 Um implicante de uma função Booleana f é qualquer conjunção de literais (variáveis ou as negações delas) tal que se os valores destes literais são verdadeiros sob um valor arbitrário v então o valor da função f sob v também é verdade. Um implicante primo é um implicante mínimo.

62

mínima de informações necessárias para discernir xk ∈ U (ou mais precisamente, [xk] ⊆

U) de todos os outros objetos.

Assim como a função de discernibilidade k-relativa, e devido à importância do atributo

de decisão d, então, seja SD = (U; A ∪ {d}) um sistema de decisão consistente e dada

M(SD) = cij, como uma matriz de discernibilidade, será construída uma nova matriz

)()( dij

d cM =SD assumindo ∅=dijc se d(xi) = d(xj) e caso contrário }{ dcc ij

dij −= . A

matriz Md(SD) é chamada de matriz de discernibilidade relativa à decisão. Desta matriz

é construída a função de discernibilidade )(SDdMf , cujo conjunto de implicantes primos

define o conjunto de todas as reduções relativas à decisão de SD, ou matriz de

discernibilidade d-relativa (Komorowski et al, 1999).

Exemplo 7

Ainda tomando como base o sistema de decisão mostrado na Tabela 4.2, é calculada a

redução do sistema em questão, por meio da matriz e função de discernibilidade,

expressas pelas Equações 4.10 e 4.11, respectivamente.

Tabela 4.5 – Matriz de discernibilidade.

x1 x2 x3 x4 x5 x6

x1 ∅ p u ∅ p p, u, t

x2 p ∅ p, u p, u ∅ p, u, t

x3 u p, u ∅ u p p, u, t

x4 ∅ p, u u ∅ p p, u, t

x5 p ∅ p p ∅ p, u, t

x6 p, u, t p, u, t p, u, t p, u, t p, u, t ∅

63

Depois de montada a matriz de discernibilidade, o passo seguinte é a constituição da

função de discernibilidade que são as conjunções de cada entrada (ou célula da Tabela

4.5). Em cada célula, as variáveis booleanas são conectadas por meio do operador

disjuntivo. O resultado pode ser visto abaixo:

f(X) = (p)∧(u) ∧(p) ∧(p∨u∨t) ∧

(p∨u)∧( p∨u) ∧( p∨u∨t) ∧

(u)∧(p) ∧( p∨u∨t) ∧

(p)∧( p∨u∨t) ∧

(p∨u∨t)

Outra forma de representação da função acima é:

f(X) = (p)(u)(p)(p+u+t)

. (p+u)(p+u)( p+u+t)

. (u)(p)( p+u+t)

. (p)( p+u+t)

. ( p+u+t)

A redução é alcançada através da simplificação booleana da função de discernibilidade

e para este caso o resultado foi que a variável temperatura não é necessária para manter

os conjuntos elementares, ou seja, retirando esta variável o sistema de decisão mantém

as mesmas características iniciais:

f(X) = pu (abreviação de p “e” u).

Então o novo SD depois da redução é:

64

Tabela 4.6 – Novo sistema de decisão. p u Precipitação

x1 1 1 0 x2 2 1 1 x3 1 2 1 x4 1 1 1 x5 2 1 1 x6 0 0 0

Entretanto, mesmo reduzindo o sistema de decisão, existem modos de compactar mais

este e manter as mesmas informações. Esta compactação em um primeiro momento se

dá por meio da função de discernibilidade k-relativa. Neste tipo de função um elemento

é tomado como referência em relação a todos os outros. Para montar esta função basta

pegar a linha ou coluna correspondente ao elemento de referência, na matriz de

discernibilidade, como é mostrado nas funções abaixo:

f(x1) = (p)(u)(p)(p+u+t) =pu

f(x2) = (p)(p+u)(p+u)( p+u+t) = p

f(x3) = (u)(p+u)(u)(p)( p+u+t) = pu

f(x4) = (p+u)(u)(p)( p+u+t) = pu

f(x5) = (p)(p)(p)(p+u+t) = p

f(x6) = (p+u+t) (p+u+t) (p+u+t) (p+u+t) (p+u+t) =p+u+t

Nas funções k-relativas exibidas acima, pode-se notar que para alguns objetos como por

exemplo x1 e x6 há uma redução na quantidade de informação, pois a redução para todos

os atributos foi “pu”. Nos casos dos elementos x2, x5 e x6 somente o atributo “p”

(Pressão) é necessário para discernir estes de todos os outros elementos. O SD reduzido

e compactado é mostrado a seguir:

65

Tabela 4.7 – Sistema de decisão compactado. p u Precipitação

x1 1 1 0 x2 2 * 1 x3 1 2 1 x4 1 1 1 x5 2 * 1 x6 0 * 0

• - não necessário.

Com base nas decisões generalizadas mostradas no Exemplo 5, pode-se montar um

sistema de decisão consistente da seguinte forma:

Tabela 4.8 – Sistema de decisão consistente. p u Precipitação

x1, x4 1 1 0/1 x2, x5 2 * 1

x3 1 2 1 x6 0 * 0

Intuitivamente o sistema de decisão mostrado na Tabela 4.8 pode ser traduzido como

regras de tal modo:

Tabela 4.9 – Regras de decisão. Id Regra 1 (p = 1) e (u = 1) =>(c = 0) ou (c=1) 2 (p = 2) =>(c = 1) 3 (p = 1) e (u = 2) =>c = 1 4 p = 0 =>c = 0

66

4.6 “Conjuntos candidatos” (Hitting sets)

Um conjunto candidato de um dado multi-conjunto2 S = {Si | i ∈ ⊆ }, denotado por

C(S), é o conjunto B ⊆ A tal que a intersecção de B e todos os conjuntos de S seja não-

vazia, B ∩ Si ≠ ∅. O termo MC(S) denota o mínimo conjunto candidato e B ∈ MC(S)

se com a remoção de qualquer membro, B deixa de ser um conjunto candidato (Øhrn,

1999).

C(S) = {B ⊆ A | B ∩ Si ≠ ∅ para todo Si ∈ S} (4.12)

Exemplo 8

Seja S: [{a, b, c, d}, {a, b, d}, {a, b}, {c}, {d}] o conjunto MC(S) é:

{a, c, d} e {b, c, d}

O problema da computação dos primos implicantes de uma função Booleana POS

(product-of-sum), segundo Øhrn (1999) pode ser facilmente transformado em um

problema de computação de mínimos conjuntos candidatos. A vantagem desta

transformação é computacional, já que o cálculo através de simplificações Booleanas é

oneroso em muitos casos, deste modo dificultando a resolução de problemas com um

número significativo de elementos. Seja uma função Booleana POS h, composta pela

soma de n elementos, como a função de discernibilidade definida na Equação 4.11,

pode-se, então, interpreta-la como um multi-conjunto S(h):

S(h) = {Si | Si = {a*j | a

*j ∈ fA}} (4.13)

2 Multi-conjunto é uma coleção não ordenada de elementos onde o mesmo elemento pode ocorrer mais de

uma vez. O mapeamento dos elementos de um multi-conjunto, em geral é expresso no domínio dos

números naturais (Øhrn, 1999).

67

onde i = 1 .. n, j = 1..|A| e fA é a função de discernibilidade.

Exemplo 9

Seja fA = {(a + b + c + d) × (a + b + d) × (a + b) × (c) × (d)} então S(fA) é:

S(fA) = [{a, b, c, d}, {a, b, d}, {a, b}, {c}, {d}]

Com isso, o conjunto candidato de S(fA) corresponde aos implicantes de fA, assim como

a computação mínimo conjunto candidato é relativa a computação dos primos

implicantes de fA (Øhrn, 1999).

4.7 “εεεε – conjuntos candidatos aproximados” (εεεε – approximate hitting sets)

Uma solução aproximada do problema do cálculo dos conjuntos candidatos é um

conjunto de elementos “suficientes” para representar o multi-conjunto S (Øhrn, 1999).

O ε – conjunto candidato aproximado é denotado por Ca(S, ε, w), onde ε é o grau de

aproximação e w é o peso atribuído a cada membro de S como é mostrado na Equação

4.15:

∑∈

=S'

S'iS

iw Sw )()(σ (4.14)

})(

)(|{),( ε

σσε ≥∅≠∩⊆=

S|S' em

S,w

iiwa

BSSABwC (4.15)

Se B deixar de ser um ε – conjunto candidato aproximado com a remoção de qualquer

elemento, então B é dito mínimo e é denotado por MCa(S, ε, w).

Em alguns casos é possível a não utilização do peso associado aos elementos de S,

simplificando a Equação 4.15 da seguinte maneira:

68

}||

||||{),( εε ≥∅≠∩⊆=

S S em

S,BSS

ABwC iia (4.16)

A representação da Equação 4.16 é importante pois nem sempre há ponderações para os

atributos em todos os problemas de análise por meio da TCA, então nestes casos o

indicado é o uso desta equação para o cálculo das reduções.

4.8 Função de pertinência aproximativa

Em TCA a noção de função de pertinência é diferente, pois a função de pertinência

aproximativa ]1,0[: →UBXµ quantifica o grau relativo de sobreposição entre o conjunto

X e a classe de equivalência [x] para cada x, utilizando o conjunto de variáveis B ⊆ A

(Komorowski et al, 1999), (Pawlak, 1994), (Wong, 1986):

|][|

|][|x)(

B

BX x

Xx ∩=µ (4.17)

A partir da Equação 4.17, as aproximações podem ser calculadas do seguinte modo


}1)(:{)( =∈= xUxXB BXµ (4.17)

}0)(:{)( >∈= xUxXB BXµ (4.18)

}1)(0:{)( <<∈= xUxXBN BXµ (4.19)

Exemplo 10

Através da equação (4.12) temos, para X2 = {x2, x3, x4, x5}:

;12

2

|}x,x{|

|} x, x, x,{x}x,x{|

|x][|

|[x]|)x(

52

543252222

==∩=∩=B

BBX

Xµ

69

;5,02

1

|}x,x{|

|}x,x,x,x{}x,x{|

|x][|

|[x]|)x(

41

543241242

==∩=∩=B

BBX

Xµ

4.9 Rosetta Todos os conceitos básicos sobre a teoria dos conjuntos aproximativos foram abordados

anteriormente. São com estas idéias expostas que a análise por meio da TCA é

realizada. Entretanto não é um dos objetos deste estudo desenvolver ferramentas que

possibilitem a aplicação de tal teoria em um estudo de caso e sim aplicar e verificar a

qualidade dos resultados mediante o uso de uma técnica nova e pouco explorada no

Brasil, no que tange ao menos o uso desta na previsão de clima.

Existem muitos sistemas desenvolvidos cuja proposta é a utilização da TCA para a

análise de dados. Em Komorowski et al (1999) é exibida uma lista de software com este

propósito, na qual os de maior relevo são:

• Datalogic/R

• Grobian

• KDD-R

• LERS

• PRIMEROSE

• RoughFuzzyLab

• RSL (Rough Set Library)

• ROSETTA (Rough Set Toolkit for Analysis of Data)

Em especial da lista acima se pode destacar, o sistema ROSETTA, que é uma

ferramenta baseada na TCA, para realização do processo de KDD em um sistema de

informação (Øhrn, 1999). Foi desenvolvida em um esforço conjunto entre o Grupo de

Lógica do Instituto de Matemática da Universidade de Varsóvia e o Grupo de Sistemas

de Conhecimento da Universidade Norueguesa de Ciência e Tecnologia (NTNU).

70

Há uma ampla gama, neste sistema, de algoritmos que façam as diferentes etapas do

processo de KDD, o que possibilita diferentes abordagens e modelagens. Mas uma

vantagem de extrema importância do ROSETTA é a possibilidade de inclusão de novos

algoritmos, caso haja necessidade, pois este é um sistema modular, ou seja, construído

em blocos.

Entretanto há um interesse em utilização dos algoritmos referentes à TCA, descartando

deste modo outros algoritmos que “suportam” etapas do KDD tais como seleção, pré-

processamento, transformação, uma vez que estas etapas foram realizadas externamente.

Mediante isto, os algoritmos no ROSETTA que dizem respeito à TCA são responsáveis

pelo cálculo das reduções. Os principais são:

• Algoritmo Genético (SAVGeneticReducer);

• Algoritmo de Johnson (JohnsonReducer);

4.9.1 Introdução aos algoritmos genéticos

Os algoritmos genéticos (AGs) são métodos adaptativos que podem ser utilizados para

resolver problemas de busca e otimização. São inspirados no princípio Darwiniano da

evolução das espécies e na genética (Goldberg, 1989). Esta seção discute

superficialmente a utilização de AGs na computação das reduções, abordadas na teoria

dos conjuntos aproximativos, mas para uma discussão mais profunda veja Goldberg

(1989), Michalewicz (1992), Mitchell (1996) e Vinterbo & Øhrn (1999).

Os AGs usam uma analogia direta com o comportamento natural. Trabalham com uma

população de indivíduos, na qual cada um representa uma solução para o problema

apresentado.

A cada indivíduo associa-se um grau de aptidão, o que determina a sua capacidade de

competir com os demais membros da população. Para medir a aptidão de um indivíduo

é utilizada a função de aptidão. Quanto maior for sua aptidão, maior a probabilidade do

71

mesmo ser selecionado para se reproduzir, cruzando seu material genético com o de

outro indivíduo selecionado de forma igual. Este cruzamento produzirá novos

indivíduos, chamados de descendentes, que possuem características de seus pais.

Em AGs os indivíduos são vetores de bits chamados de cromossomo. Os bits estão

dispostos, em um cromossomo, ordenadamente, e cada bit é chamado de gene. Aos

valores destes bits, ou genes, é dado o nome de alelo. Estas idéias são mostradas na

Figura 4.3.

Figura 4.3 – Estrutura do cromossomo.

Os operadores genéticos mais utilizados para a evolução das populações de indivíduos

em AGs são:

• Cruzamento ou recombinação (Crossover);

• Mutação;

• Inversão.

O operador de cruzamento é caracterizado pela criação de novos indivíduos a partir da

escolha aleatória de seus genitores. Os descendentes, frutos desta operação são

diferentes de seus pais, porém apresentam características genéticas de ambos os

genitores (Figura 4.4).

Figura 4.4 – Operação de recombinação.

72

Na operação de mutação o valor de um gene do cromossomo é alterado, com o objetivo

de aumentar a diversidade na população. Um Exemplo deste operador genético é

mostrado na Figura 4.5.

Figura 4.5 – Operação de mutação.

O terceiro operador é o de inversão (Figura 4.6), que é caracterizado pela troca da

posição de dois genes, no cromossomo, escolhidos aleatoriamente. Este tipo de

operação é restrito a problema de epistasia (forte interação entre genes de um

cromossomo) (Vinterbo e Øhrn, 1999).

Figura 4.6 – Operação de inversão.

Abaixo é mostrado um pseudocódigo para um algoritmo genético simples:

Inicio

Gerar população inicial;

Calcular a função de aptidão de cada individuo;

Enquanto não ( terminou ) faça

inicio

Para ( tamanho da população )/2 faça

inicio

Selecionar dois indivíduos da geração anterior para

cruzamento (probabilidade de seleção proporcional à

função de aptidão do individuo);

Cruzar com certa probabilidade obtendo descendentes

(recombinação);

Mutação nos descendentes com certa probabilidade;

Inverter genes em indivíduos com certa probabilidade;

73

Calcular a função de aptidão dos descendentes que

sofreram mutação;

Incluir os descendentes que sofreram mutação na nova

geração;

fim

se ( população convergiu ) então

terminou = verdade;

fim

Fim

4.9.2 Algoritmo SAVGeneticReducer

Função: Implementa um algoritmo genético para computação dos mínimos conjuntos

aproximados, MCa, mostrado na seção 4.7 (Øhrn, 1999). Além do cálculo aproximado

das reduções, este algoritmo leva em consideração os custos associados aos atributos,

caso necessário. A função de aptidão é mostrada abaixo:

∅≠∩×+−×−=

||

|||,min

)(

)()()1()(

SS em BSS

Acusto

BcustoAcustoBf iiεαα (4.20)

onde ε é “fração dos candidatos” (hitting fraction) ou grau de aproximação para

soluções aproximadas, α é o parâmetro que define o peso entre o custo e as ε -conjuntos

candidatos aproximados, B é um subconjunto de A (conjunto de atributos) e S é o multi-

conjunto correspondente a função de discernibilidade.

Um outro parâmetro relativo a soluções aproximadas é o “extra keep list”, denotado por

k. “Keep list” são listas contendo subconjuntos da função de discernibilidade. Se k=0

somente uma “keep list” referente à ε é retornado. Se k > 0 então k+1 grupos de MCa

são retornados, cada grupo tendo uma aproximada grau de aproximação entre ε e 1. É

relevante observar que se k=1 então o próprio MC é retornado.

74

Exemplo: Se o usuário especificar soluções aproximadas com os parâmetros ε=0.7 e

k=3, então serão computados 4 grupos de MCa, com as “frações de acerto” 0.7, 0.8, 0.9

e 1.

Alguns outros parâmetros existentes nesta opção de cálculo de reduções são detalhados

em Vinterbo & Øhrn (1999) e Øhrn (1999).

4.9.3 Algoritmo JohnsonReducer

Função: Este algoritmo tem como principal característica retornar uma única redução.

A redução B é encontrada pela execução do algoritmo abaixo, onde S denota o conjunto

de conjuntos correspondente à função de discernibilidade, e w(s) denota o peso do

conjunto s em S.

1. B=∅;

2. Seja a o atributo que maximiza ∑w(s), onde esta soma é realiza sobre todos os

conjuntos s em S que contenham a.

3. B← a.

4. Remove todos os conjuntos s de S que contenham a.

5. Se S=∅ retorne B. Caso contrário, vá para o passo 2.

Exemplo 11

Para w=1 e B = {}.

Obs: A soma do passo 2 corresponde a um simples contador relacionado com a ocorrência do

atributo.

Dado f = (a + b + c) * (b + d) * (a + c) * (b + c) * (a + d). Isto significa que S = [{a, b,

c}, {b, d}, {a, c }, {b, c}, {a, d}]. Então os contadores associados à ocorrência de cada

atributo ficam assim:

75

w(a) =3;

w(b) =3;

w(c) =3;

w(d) =2.

Como existem várias soluções para contadores iguais a 3, arbitrariamente será escolhido

o a. Agora B={a}.

Todos os conjuntos em S que contenham o atributo a são apagados, ficando

conseqüentemente S = [{b, d}, {b, c}]. Então o procedimento é repetido novamente:

w(b) =2;

w(c) =1;

w(d) =1.

Neste caso o maior valor de w é 2, então o atributo b é escolhido e adicionado a B.

B={a, b};

Os conjuntos onde b está presente em S são apagados, ficando S = {}. Com isso o

resultado, ou melhor, a redução encontrada é B={a, b}, que é equivalente ao produto

Booleano (a*b) ou (a ∧ b).

4.10 Núcleo aproximado

Durante o desenvolvimento deste estudo houve a necessidade de criar uma idéia

associada à ocorrência das variáveis no conjunto de redução, uma vez que o núcleo é

responsável por extrair as variáveis mais importantes, desde que sua ocorrência no

conjunto de reduções seja igual a 100%. Ocorre que em muitos casos, especialmente no

caso em que são calculadas reduções aproximadas (ver seção 4.9.1), devido à

complexidade computacional ocasionada pelo grande número de atributos e elementos

envolvidos na análise, não existem variáveis com ocorrência em todas as reduções. Por

76

isso há a necessidade de definir um núcleo aproximado, que é composto por variáveis

com ocorrência superior ou igual ao parâmetro τ ∈ [0; 1].

É verdade que está idéia de núcleo, não satisfaz a conceito de um subconjunto de

atributos que tenham o mesmo particionamento, visto por meio dos conjuntos

elementares, que o conjunto com todos os membros o faz. Entretanto traz a idéia,

mesmo que seja um tanto intuitiva, de que se uma variável ocorre muitas vezes dentro

das reduções é porque a mesma tem uma importância relevante, do ponto de vista da

relação de indiscernibilidade. Abaixo é definido o conceito de núcleo aproximado:

Definição: Seja ai ∈ B, B ⊆ A, e τ ∈ [0; 1], o conjunto de variáveis contidas em RED(B)

com ocorrência no mínimo igual a τ, chamado de núcleo aproximado Na(B) é dado por:

})(|{)( τ≥= iBi agaBaN ; i = 1 .. |B| (4.21)

onde g(a, B) é a função de pertinência de a em RED(B), que é o resultado da quantidade

de vezes que a ocorre no conjunto de reduções, dividido pelo número de reduções,

sendo dada por:

|)(|

|)(|

)(

|)(|

1

BRED

aRB

ag

BRED

jij

iB

∑=

=∩= (4.22)

sendo Rj ∈ RED(B).

É válido ressaltar que RED(B) é uma espécie de multi-conjunto, como mostrado na

seção 4.6, pois é formado por uma ou mais reduções, onde cada redução é um

subconjunto de atributos.

77

Exemplo 12

Seja B = {a, b, c, d, e} o conjunto de atributos de um sistema de decisão e as reduções

para esse sistema são mostradas abaixo:

R1 = {a, b};

R2 = {b, c};

R3 = {c};

Portanto o conjunto RED(B) é dado por:

RED(B) = {R1, R2, R3} = [{a, b}, {b, c}, {c}]

4.11 Comentários finais sobre a TCA

A TCA ainda pode ser utilizada em modo híbrido, com abordagens tais como a teoria

dos conjuntos nebulosos (TCN), teoria de Dempster-Shafer, teoria da probabilidade,

redes neurais artificiais, etc. Por exemplo, podemos utilizar a TCA com a TCN de tal

maneira, para construir a função de pertinência nebulosa (Komorowski et al, 1999):

∈∈

∈=

)( se 0

)( se .50

)( se 1

)(

XNEGx

XBNx

XPOSx

xXµ

78

5 REDES NEURAIS ARTIFICIAIS

5.1 Introdução

Foram vistos, anteriormente, os conceitos básicos, tais como previsão climática, teoria

dos conjuntos aproximativos e mineração de dados, que são importantes para a

compreensão deste estudo voltado ao comportamento atmosférico.

Um dos objetivos, como já mencionado no Capítulo 1, é de reduzir as variáveis de

entrada do modelo. Como a principal característica da TCA é fazer este tipo de tarefa,

então esta é a base do estudo realizado nesta dissertação.

Num primeiro instante, uma análise por meio da teoria dos conjuntos aproximativos é

responsável pela extração das variáveis meteorológicas, mais importantes, com o

propósito de reduzi-las para obter um menor esforço computacional. O segundo passo

da análise, é a utilização de um modelo para realização das previsões climáticas, com o

intuito de validar a extração de conhecimento realizada na primeira análise.

Este modelo citado é inspirado, nos centros de pesquisas climáticas, em equações físico-

matemáticas. Entretanto esta dissertação, também tem por objeto, o uso de ferramentas

utilizadas na inteligência artificial, para o processo de previsão, neste caso, climática.

Para isso, foram escolhidas as redes neurais artificiais, que tem seu processo de

computação, inspirado nos sistemas nervosos biológicos.

Portanto, a teoria dos conjuntos aproximativos, reduz o número de variáveis de entrada,

enquanto as redes neurais artificiais servem como o modelo de produção da previsão

climática.

79

5.2 O que são as RNA? As redes neurais artificiais (RNA) têm sua inspiração no funcionamento do cérebro,

tentando assim imitá-lo por técnicas computacionais com o fim de adquirir, armazenar e

utilizar conhecimentos. Algumas definições básicas sobre as redes neurais artificiais

são:

Haykin (1994) define uma rede neural como sistemas distribuídos massivamente

paralelos que tem uma propensão natural para armazenar o conhecimento

experimental e disponibiliza-lo para uso. Em dois aspectos lembram o cérebro:

1) O conhecimento e adquirido pela rede através de um processo de

aprendizado;

2) Conexões entre os neurônios, conhecidos como pesos sinapticos, são

usadas para armazenar o conhecimento.

Segundo Kohonen (1972), as RNA são definidas como redes massivamente

paralelas e interconectadas, de simples elementos. Esses elementos devem

interagir como dados do mundo real, assim como o sistema nervoso biológico.

Para Loech e Sari (1996), as RNA são sistemas computacionais, de

implementação em software ou hardware, que imitam as habilidades

“computacionais” do sistema nervoso biológico, utilizando um grande número

de neurônios artificiais interconectados.

Os neurônios são unidades fundamentais nas redes neurais, onde, nos sistemas

biológicos estão presentes nos tecidos nervosos, incluindo o cérebro. Cada neurônio é

constituído de um corpo celular, ou soma que é o núcleo da célula. Partindo do soma

existem vários filamentos, chamados de dendritos e um mais longo denominado de

axônio. Os dendritos ligam-se a outras células, enquanto o axônio faz uma conexão

mais longa. A junção destas conexões entre células dá-se o nome de sinapses. Os sinais

se propagam de um neurônio para outro por meio de uma complicada reação

80

eletroquímica. Substâncias químicas transmissoras são liberadas pelas sinapses e entram

nos dendritos, aumentando ou baixando o potencial elétrico da célula. Quando o

potencial alcança um limiar, um pulso elétrico, chamado de potencial de ação, é

enviado pelo axônio. Sinapses que aumentam o potencial elétrico são chamadas de

excitatórias, e as que baixam inibitórias (Russell e Norvig, 1995). A estrutura de em

neurônio biológico pode se observado na Figura 5.1.

Figura 5.1 - Estrutura de um neurônio biológico.

FONTE: [http://www.din.uem.br/ia/neurais/]

Assim como nos sistemas biológicos, as redes neurais artificiais, também têm como

unidade principal o neurônio, que conectados por ligações denominadas links ou

conexões sinápticos. Cada link possui uma quantidade associada denominada peso

sináptico.

As RNA apresentam como principais vantagens às características de adaptabilidade,

generalização e tolerância a ruídos (Haykin, 1994). Essas características são de extrema

importância na aplicação das redes neurais em problema de previsão climática, devido a

complexidade de tal problema.

Existe uma grande diversidade modelos de redes reunais, entretanto o qualquer modelo

de RNA, pode ser descrita pela especificação dos seguintes componentes básicos:

http://www.din.uem.br/ia/neurais/

81

• Modelo do neurônio;

• Estrutura da rede;

• Regras de Aprendizado.

Nas seções seguintes serão tratados mais detalhes de cada tópico listado acima.

5.3 Modelo do neurônio

Um neurônio é uma unidade de processamento de informações que é fundamental para

operação de uma rede neural (Haykin, 1994). São três elementos básicos de um

neurônio:

1) Um conjunto de sinapses, que são caracterizadas por pesos.

2) Um somador dos sinais de entrada, ponderados pelas suas respectivas sinapses.

3) Uma função de ativação para limitar a amplitude do sinal de saída do neurônio.

Tipicamente os sinais de saída são normalizados nos intervalos [0, 1] ou [-1, 1].

Na Figura 5.2 é mostrado um modelo de neurônio que possui, além dos elementos

acima, um limiar θk, que tem o efeito de subtrair a entrada uk da função de ativação.

ϕ (.)ΣΣΣΣ

θk

yku

k

wk1

wk2

wkp

x1

x2

xp

.

.

.

.

.

.

Sinais deentrada

pesossinápticos

Somatório

Função deativação

Saída

Limiar

{

Figura 5.2 - Modelo de um neurônio não-linear.

FONTE: Adaptado de Haykin (1994).

82

Matematicamente um neurônio k pode ser descrito como (Haykin, 1994):

∑=

=p

jkjk xjwu

1

(5.1)

)( kkk uy θϕ −= (5.2)

onde x1, x2, …, xp são sinais de entrada; wk1, wk2, …, wkp são pesos sinápticos do

neurônio k; uk é a combinação linear dos sinais de entrada e os pesos sinápticos; θk é o

limiar; ϕ (.) é a função de ativação e yk é o sinal de saída do neurônio.

Existem diversas funções de ativação que são aplicadas nas redes neurais artificiais, as

mais comuns são:

a=purelin(n)

(a)

a=logsig(n)

(b)

a=tansig(n)

(c)

Figura 5.3 – Funções de ativação. (a)Linear; (b) Log-sigmoidal; (c) Tangente

hiperbólica sigmoidal.

FONTE: Hagan (1995)

5.4 Estrutura da rede

Definido o modelo de neurônio, a estrutura de combinação destes e suas conexões na

rede devem ser especificadas. A estrutura da rede, também conhecida como topologia

ou arquitetura, inclui as especificações da rede neural (número de neurônios, número de

83

camadas, modelo de neurônio, etc.) e a estrutura de interconexões, que descreve como

os neurônios são conectados na rede.

Na mais simples topologia de rede os neurônios são completamente conectados,

significando que todas as conexões possíveis estão presentes. Contudo, dependendo das

especificações da rede e regras de aprendizado, outros esquemas de interconexões

podem ser utilizados. A Figura 5.4 coloca exemplos de duas redes onde (a) é do tipo

completamente conectado e (b) é parcialmente conectado.

x1

x2

y

1

2

3

x1

x2

y

1

2

3

(a) (b)

Figura 5.4 - Exemplo de estrutura de interconexões. (a) completamente conectado. (b)

parcialmente conectado.

Uma RNA também é caracterizada pelo número de camadas que possui. A arquitetura

das camadas pode ser do tipo única camada ou multicamadas. Uma rede do tipo única

camada tem somente uma camada de entrada e uma de saída. Já nas redes do tipo

multicamadas, uma ou mais camadas escondidas são inseridas entre a camada de

entrada e a camada de saída. A Figura 5.5 mostra estas arquiteturas:

x1

x2

y

1

2

3

x1

x2

1a

2a

1b

2b

y3

(a) (b)

Figura 5.5 - Arquitetura da RNA. (a) RNA de uma camada. (b) RNA multicamada.

84

Existem arquiteturas de redes neurais artificiais que necessariamente não precisam estar

em camadas ou em camadas homogêneas (Haykin, 1994; Chen, 2001). Mediante isto

dependendo de como a rede processa o fluxo de informação, as RNA podem ser

divididas em:

• Redes não-recorrente (feedforward network);

• Redes recorrente.

Nas redes não-recorrentes o sinal de informação se propaga em uma só direção, da

entrada para a saída. São redes deste tipo as que possuem estruturas sem realimentação,

formadas por uma ou mais camadas, os neurônios não possuem ligações com outros

neurônios de camadas previas e muito menos com neurônios da mesma camada.

As redes recorrentes (Figura 5.6 – b) contêm, ao contrário da antecessora apresentada,

ao menos uma realimentação e também permite que o sinal de informação que flui de

um neurônio, volte para ele mesmo. Estas redes podem ter suas estruturas não

obrigatoriamente organizadas em camadas e quando são, podem possui interligações

entre neurônios de mesma camada e entre camadas não consecutivas, gerando

interconexões bem mais complexas do que as redes não-recorrentes.

x1

x2

1a

2a

1b

2b

y3

x1

x2

1

3

2

5

4 y1

y2

(a) (b)

Figura 5.6 - Divisão das arquiteturas das RNA. (a) não-recorrentes. (b) recorrentes.

85

5.5 Regra de aprendizado

A principal propriedade de uma rede neural artificial é a habilidade de incorporar

conhecimento, por meio de seus pesos sinápticos, em um procedimento chamado de

aprendizado. Este é um processo iterativo, conhecido por algoritmo de aprendizado, de

ajustes dos pesos sinápticos da rede em resposta aos estímulos externos, com o intuito

de atingir um objetivo desejado. Em geral um algoritmo de aprendizado tem três etapas:

1) Apresentação dos estímulos externos a rede;

2) Mudança dos pesos como resultado destes estímulos;

3) Avaliação da resposta da rede mediante as mudanças ocorridas na estrutura.

O modo nas quais os pesos são alterados é descrito pela regra de aprendizado, que é

uma formulação matemática chamada de atualização dos pesos. Basicamente existem

duas categorias de regra de aprendizado, que dependem do ambiente externo onde a

rede opera:

• Treinamento supervisionado;

• Treinamento não-supervisionado;

O treinamento supervisionado necessita de um par de vetores composto por o vetor de

entrada e o vetor de alvo ou saída desejada. Para este tipo de treinamento os padrões de

entradas são apresentados à rede neural, então a saída é comparada com a saída

desejada. Desta comparação é encontrado o erro, que é utilizado, de acordo com as

regras definidas pelo algoritmo de aprendizado, para atualização dos pesos, de modo

que o erro encontrado seja minimizado. Este processo é repetido até que o erro atinja

um patamar aceitável. A cada iteração dá se o nome de época ou ciclo.

No treinamento não-supervisionado, por sua vez, não há a necessidade do vetor alvo,

pois não se realiza comparações para determinar a resposta ideal. O conjunto de

treinamento modifica os pesos de forma a produzir saídas que sejam consistentes, ou

86

seja, mediante a apresentação de dois padrões similares, a rede tende a apresentar um

mesmo comportamento na sua saída.

5.6 Perceptron multicamadas (Multilayer perceptron - MLP)

O perceptron é a mais simples forma de uma rede neural, usada para classificacao de

problemas de um tipo especial de padrões ditos linearmente separáveis (Haykin, 1994).

Basicamente consiste de um único neurônio com pesos sinápticos ajustáveis e limiar

(Figura 5.7).

x1

x2

xp

y

θ

Limiar

EntradasSaída{

Figura 5.7 - Perceptron de uma única camada.

FONTE: Adaptado de Haykin (1994)

Entretanto a capacidade de aprendizado de um perceptron é muito reduzida, com

relação a problemas complexos do mundo real, além do fato de representar somente

problemas linearmente separáveis. Com o acréscimo de varias camadas na rede neural,

esta capacidade foi acrescida, porém foi com a proposta do algoritmo de aprendizado de

retro-propagação do erro (back-propagation), que as redes neurais ressoaram no mundo

acadêmico e ganharam um grande número de aplicações e pesquisas.

O perceptron multicamada, como é chamado à rede de arquitetura não-recorrente

multicamada, é composta por uma camada de entrada, uma ou mais camadas escondidas

e uma camada de saída, todas estas, compostas por neurônios, em geral completamente

conectados.

87

Uma rede perceptron multicamada tem três características (Haykin, 1994):

1) O modelo de cada neurônio na rede inclui uma não-linearidade na saída final.

Esta não-linearidade pode ser garantida por funções de ativação do tipo

logística, por exemplo;

2) A rede contém uma ou mais camadas escondidas que não são partes da entrada

ou saída;

3) A rede exibe um alto grau de conectividade, determinadas pelas sinapses da

rede;

5.6.1 O algoritmo de retro-propagação do erro

Em 1986 Rumelhart et al apresentaram o algoritmo de treinamento de retro-propagação

do erro, conhecido em inglês por backpropagation, que é uma técnica específica para a

implementacao do gradiente descendente. Entretanto os primeiros documentos na qual

utiliza-se um enfoque voltado para computação de gradiente eficientemente é feita por

Werbos em 1974 (Haykin, 1994). Com o algoritmo de retro-propagação do erro

mostrou-se que é possível treinar redes com camadas intermediárias, para a

aprendizagem de problemas complexos. Este algoritmo é utilizado nas redes Perceptron

Multicamadas (MLP – Multi Layers Perceptron), que é o modelo mais popular na

atualidade.

O algoritmo de retro-propagação do erro é um algoritmo para o aprendizado

supervisionado de uma rede neural do tipo MLP que é composto de dois passos: um

passo para frente, a propagação e um passo para trás, a retro-propagação. Em um

primeiro momento o sinal na rede neural, resultado da atividade da apresentação de um

padrão de entrada flui, ou se propaga da entrada para a saída. Na seqüência do

treinamento o erro é calculado, pela comparação do resultado na saída e o desejado para

o padrão, e então este erro é propagado da saída até a camada de entrada, modificando

os pesos de todas as camadas de acordo com o erro obtido. O objetivo geral é minimizar

88

o erro entre o desejado e a saída da rede. A Figura 5.8 mostra uma rede MLP com uma

camada escondida e um neurônio na camada de saída.

Saída

CamadaEscondida

Entrada

Oi

Wj,i

aj

Wk,j

Ik

Figura 5.8 – MLP com uma camada escondida.

FONTE: Russell e Norvig (1995).

Depois de um padrão ser apresentado à rede neural (Figura 5.8), o resultado gerado é Oi,

e consequentemente o erro na saída é Ei = (Ti – Oi) onde Ti é o valor desejado para o

padrão de entrada, Oi é a saída processada pela rede e i é a unidade correspondente.

Depois de calculado o erro os pesos são atualizados através da conexão de j para i, por

meio da equação :

Wj,i = Wj,i + α × aj × Ei × f’ (ini) (5.3)

ou de um modo mais sucinto

Wj,i = Wj,i + α × aj × ∆I (5.4)

com ∆i = Ei × f’(in i) sendo f’ a derivada da função de ativação f e α a taxa de

aprendizado ( ]1,0[∈α ).

89

Para a atualização das conexões entre a camada de entrada e a camada escondida, ∆i

deve ser dividido de para todas as conexões entre k e j, de acordo com os pesos

sinápticos:

∑ ∆=∆i

iijjj winf ,)(' (5.5)

Então a atualização dos pesos é feita de maneira análoga a situação feita entre a camada

de saída e a camada escondida.

jkjkjk IWW ∆××+= α,, (5.6)

De um modo resumido a retro-propagação do erro é descrita da seguinte forma:

a) Computar ∆ para a camada de saída e as camadas escondidas de acordo com o

erro observado;

b) Começando pela camada de saída, repetir para cada camada da rede até a

camada escondida mais próxima da entrada seja alcançada:

1) Propagar ∆ para a camada anterior;

2) Atualizar os pesos entre as duas camadas.

Em geral as redes MLP com algoritmo de retro-propagação do erro, demandam um

processo de treinamento com muitas épocas. Em muitos casos esse tempo de

treinamento pode ser diminuído, através do aumento da taxa de aprendizado α. Porém

com o aumento de α, podem ocorrer oscilações, o que é prejudicial ao treinamento, pois

em alguns casos o erro por estacionar em um mínimo local. Um modo de aumentar α

sem levar à oscilação é modificar algoritmo através da inclusão do termo momentum,

que é uma constante que determina o efeito entre as mudanças passadas dos pesos na

atual atualização dos mesmos (Russell e Norvig, 1995; Haykin, 1994).

91

6 KDD COM DADOS METEOROLÓGICOS

6.1 Introdução

Esta dissertação tem como objetivos estabelecer uma metodologia capaz de reduzir as

variáveis de entrada de um modelo baseado em técnicas empregadas na inteligência

artificial para a realização de predição climática das variáveis temperatura e

precipitação. Esta previsão tem intuito de auxiliar os métodos existentes para previsão

climática. O processo de análise é constituído basicamente de duas fases.

Na primeira, por meio do processo de descoberta de conhecimento utilizando como base

a teoria dos conjuntos aproximativos (Capítulo 4), busca-se um conjunto de variáveis, as

mais importantes, que representem toda a base de dados segundo a relação de

indiscernibilidade.

Na etapa final os dados reduzidos são apresentados a uma rede neural artificial para

realização da previsão climática. Neste caso a RNA serve como modelo para validar as

reduções feitas na etapa anterior, ou seja, ao invés de utilizar o modelo físico, usa-se o

modelo inteligente (redes neurais). A rede neural usada é do tipo Perceptron de

Múltiplas Camadas (MLP) com o algoritmo de treinamento por retro-propagação do

erro.

Observando a Figura 6.1 é possível perceber que quando analisada sazonalmente uma

variável, neste caso precipitação, apresenta um comportamento com características

parecidas. É como falar que o verão é quente, com forte pancadas de chuvas no final da

tarde, o inverno é frio, chuvoso, etc. Isto é possível porque o clima possui um

comportamento cíclico, conhecido como ciclo sazonal ou estações (Cavalcante et al,

2002). Por essa periodicidade, neste estudo, buscou-se fazer com que um sistema

computacional, aprenda esse comportamento atmosférico para as estações:

92

• Dezembro/Janeiro/Fevereiro (DJF),

• Março/Abril/Maio (MAM),

• Junho/Julho/Agosto (JJA),

• Setembro/Outubro/Novembro (SON).

(a)

(b)

(c)

Figura 6.1 – Precipitação na América do Sul. (a) Jan/1980; (b) Jan/1981 e (c) Jan/1982.

Portanto neste capítulo é abordado o processo de descoberta de conhecimento, passo a

passo, para obtenção das variáveis mais importantes no conjunto de dados

meteorológicos.

6.2 Processo de descoberta de conhecimento

De acordo com as definições apresentadas na seção 3.3, é apresentado a seguir as etapas

do processo de KDD.

6.2.1 Definição dos objetivos e seleção dos dados

O objetivo da execução deste processo é obter as variáveis mais importantes do

conjunto de dados, com o propósito de reduzir ou compactar a base de dados, para uma

posterior fase, que é treinar uma RNA para predizer o comportamento atmosférico para

longos períodos (clima).

93

Então para realizar a mineração de dados e atingir os objetivos descritos, optou-se pela

utilização de uma teoria, cuja característica intrínseca é de compactar o volume de

dados. Essa teoria é conhecida e foi abordada no Capítulo 4, como teoria dos conjuntos

aproximativos. Da TCA, existem três conceitos que estão diretamente ligados à

compactação da base de dados: a relação de indiscernibilidade, na qual um elemento

representa toda a classe; as reduções de atributos e o núcleo, que é constituído dos

atributos mais importantes e indispensáveis. Em especial será dada mais ênfase ao

núcleo e sua extensão o núcleo aproximado, pois esta é a forma mais eficaz de reduzir a

quantidade de variáveis (Walczak e Massart, 1999).

Para a realização das análises foram coletados dados do Climate Diagnostic Center/

National Oceanic and Atmospheric Administration (CDC/NOAA) em

[http://www.cdc.noaa.gov/], para o período de janeiro de 1980 a dezembro de 2000 (252

tempos ou 21 anos) e a área contida entre as latitudes [10° N, 35° S] e longitudes [80°

W, 30° W], referente à América do Sul, em uma resolução espacial em ambas as

dimensões (x, y) de 2.5° e resolução temporal (t) de 1 mês. As variáveis coletadas são

mostradas abaixo:

Tabela 6.1 – Variáveis. Variável Descrição (nível) Unidade

1 airt Temperatura do ar (superfície) °C

2 div divergência (1 σ) 1/s

3 estacao Estação do ano –

4 lat Latitude graus

5 lon Longitude graus

6 prec Precipitação (superfície) mm/dia

7 shum Umidade Específica (2 m) kg/kg

8 spres Pressão (Superfície) mb

9 temp Temperatura (0.1- 2 m) °C

10 u300 Vento Zonal (300 hPa) m/s

11 u500 Vento Zonal (500 hPa) m/s

(continua)

http://www.cdc.noaa.gov/

94

Tabela 6.1 – Conclusão. 12 u850 Vento Zonal (850 hPa) m/s

13 v300 Vento Meridional (300 hPa) m/s



Para simplificação e agilidade computacional serão analisadas cinco subáreas da

América do Sul, dispostas a cobrirem uma parte das cinco regiões brasileiras, pois

devido à grande extensão territorial do Brasil, há muitos regimes de precipitação e

conseqüentemente cada uma com seu clima típico.

As regiões são (Figura 6.2):

1. Norte (N):

long = 67.5°W, 57.5°W; lat = -7.5°S, 0°;

2. Nordeste (NE):

long = 45°W, 35°W; lat = -7.5°S, 0°;

3. Centro-Oeste (CO):

long = 62.5°W, 52.5°W; lat = -22.5°S, -15°S;

4. Sudeste (SE):

long = 52.5°W, 42.5°W; lat = -27°S,.5 -20°S;

5. Sul (S):

long = 60°W, 50°W; lat = -35°S, -27.5°S;

95

Figura 6.2 – Regiões selecionadas para análise.

As análises são realizadas de modo a comparar os dados tratados com a teoria dos

conjuntos aproximativos, mais a estimativa produzida pela rede neural artificial, com

somente a previsão da RNA, ou seja, comparar os dados com o conjunto de atributos

completos e reduzidos. A Figura 6.3 mostra os esquemas de treinamento para os testes

comparativos.

TCA RNA

RNA

Dados

Dados R

R

Figura 6.3 – Metodologia do processo de previsão climática.

Dos 21 anos da base de dados, 18 anos foram reservados para treinamento, enquanto os

3 anos restantes foram utilizados para generalização, ou seja, para testar a abordagem de

previsão climática desenvolvida neste estudo.

96

6.2.2 Pré-processamento

Nesta etapa envolve a preparação dos dados, como verificar se os dados necessitam ser

normalizados, quais atributos podem ser descartados ou acrescentados, se é necessário

converter dados para outro formato, criar atributos, etc.

São realizadas, no pré-processamento, as conversões de unidades (como as temperaturas

de Kelvin para °Celsius) e os dados de temperatura da superfície (dados de temperatura

somente da parte continental) são interpolados com os dados de temperatura da

superfície do mar (TSM ou do inglês SST), de modo a formar um só atributo

denominado temperatura (Figura 6.4).

Tem

pera

tura

da

Sup

erfíc

ieT

empe

ratu

ra d

a S

uper

fície

do

Mar

Temperatura

Figura 6.4 – Formação do atributo temperatura.

Também foram incorporadas para as análises as componentes espaciais e temporais

(longitude, latitude e tempo) mais o atributo de decisão (temperatura ou precipitação),

adicionalmente as variáveis mostradas na Tabela 6.1.

97

As análises foram feitas para a previsão de precipitação e temperatura para 1 e 3

estações adiante (∆). Por exemplo, para entradas ou condições iniciais da rede neural

referentes à DJF, as previsões para ∆ = 1 são referentes aos meses MAM e ∆ = 3 são

para SON.

Para a constituição do sistema de informação, os dados coletados no CDC/NOAA

(formato netCDF3), tiveram de ser transformados do formado tridimensional (t, y, x),

para o formato tabular (x(t), y(t)) e dispostos conforme mostra a Tabela 6.2. Este tipo de

representação é do tipo tabular com tempo repetido, tal como descrito na seção 3.7,

necessário para processamento da previsão climática neste trabalho. Neste caso para

cada tempo t existem n elementos, um para cada ponto da grade.

Tabela 6.2 – Formato dos dados.

VARIÁVEL

TEMPORAL VARIÁVEL

ESPACIAL AIRT DIV SHUM TEMP U V SST PREC d

(DECISÃO) 1 l1 a1 b1 c1 d1 e1 f1 g1 h1 h1+∆ 2 l1 a2 b2 c2 d2 e2 f2 g2 h2 h2+∆ 3 l1 a3 b3 c3 d3 e3 f3 g3 h3 h3+∆ 1 l2 a4 b4 c4 d4 e4 f4 g4 h4 h4+∆ 2 l2 a5 b5 c5 d5 e5 f5 g5 h5 h5+∆ 3 l2 a6 b6 c6 d6 e6 f6 g6 h6 h6+∆ . . .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

n ln an bn cn dn en fn gn hn hn+∆

O sistema de decisão é formado por todos os atributos condicionais (Tabela 6.1) mais o

atributo de decisão d (precipitação ou temperatura). A diferença entre os atributos

condicionais e a decisão d é que este está defasado ∆ tempos. Por exemplo, suponha-se

que a variável de decisão seja a precipitação e queira-se realizar uma estimativa desta

para 3 meses adiante, então o atributo de decisão é precipitação 3 meses adiante,

conforme Tabela 6.3.

3 netCDF (network Common Data Form) é uma interface para acesso de dados científicos e uma biblioteca que provê uma implementação da interface. [zephyr.meteo.mcgill.ca/ncar/ng4.0/nggenrl/glossary.html]

98

Tabela 6.3 – Exemplo do atributo de decisão. VARIÁVEL

TEMPORAL VARIÁVEL

ESPACIAL AIRT DIV SHUM TEMP U V SST PREC PREC+3 (DECISÃO)

JAN l1 A-Jan D-Jan S-Jan T-Jan U-Jan V-Jan S-Jan Prec - Jan Prec - Abr FEV l1 A-Fev D-Fev S-Fev T-Fev U-Fev V-Fev S-Fev Prec - Fev Prec - Mai

6.2.3 Transformação

Na etapa de transformação, conforme a definição na seção 3.3, neste estudo de caso é

necessária aplicar a categorização ou discretização, para a mineração de dados. O

processo de discretização consiste basicamente em transformar variáveis não

categóricas em variáveis categóricas. Este processo faz com que o mundo seja visto de

uma forma mais grosseira, porém determinadas metodologias, como no caso da TCA,

trabalham melhor com variáveis numéricas discretizadas do que contínuas, isto porque

uma das premissas da TCA é reduzir a precisão dos dados revelando suas regularidades

(Pawlak, 1991).

Mas esta discretização é relevante somente para a teoria dos conjuntos aproximativos e

por isso na fase de produção da previsão climática por meio das redes neurais os dados

podem ser do tipo contínuo, uma vez que as RNA trabalham bem com estes tipos de

dados, além do fato de estes estarem na sua forma real, ou como são coletados.

Dentre os muitos modos de discretizar variáveis, optou-se por um algoritmo simples que

particione as variáveis meteorológicas em apenas três classes (Figura 6.5):

1) Abaixo da média histórica;

2) Na média histórica;

3) Acima da média histórica.

Então para encontrar estas classes foi utilizado o seguinte procedimento:

99

Sendo X={x i ∈ }, i=1..n; n é o número de elementos; θ = limiar do intervalo (θ ∈ [0,

1])

O mínimo e o máximo da série histórica X são:

a = mínimo(X);

b = máximo(X);

A média histórica de X é dada por:

n

xP

n

ii

m

∑== 1 (6.1)

Para o cálculo do limite inferior é calculado um ponto a’, entre o mínimo de X e a média

Pm. A posição do ponto a’ é controlada pelo parâmetro θ, como mostrado na Figura 6.5

e é dado por:

a’ = a + ((Pm – a)* θ) (6.2)

Portanto o intervalo abaixo da média histórica é [a, a’).

De forma análoga o limite superior b’ é calculado por:

b’ = Pm + ((b – Pm) * θ) (6.3)

E o intervalo acima da média histórica é (b’, b]. A classe média histórica é definida pelo

intervalo [a’, b’]

100

a b

x

1 2 3

Pm

a' b'

Figura 6.5 – Discretização de atributos.

A importância deste método de discretização é a possibilidade de controlar a

distribuição de classes através do parâmetro θ. Em alguns casos, para determinados

valores de θ, pode-se constituir apenas duas das três classes, ou classes com uma

distribuição ruim para fins classificatórios. Neste caso deve-se variar o parâmetro de

modo a encontrar uma distribuição de classes aceitável, pois encontrar θ é empírico.

Então utilizando o método exposto anteriormente, os dados coletados, foram

categorizados em três níveis: “baixo”, “médio” e “alto”. O parâmetro θ escolhido para a

discretização foi de 0.4, porque este apresentava uma melhor distribuição de classes

(outros parâmetros testados apresentavam somente duas das três classes ou poucos

elementos pertencentes a uma classe). A distribuição das classes, em porcentagem, para

as variáveis de precipitação e temperatura estão na Tabela 6.4 e 6.5, respectivamente.

Os rótulos das classes na tabela são: 1: abaixo da média, 2 na média e 3 acima da média.

Tabela 6.4 – Distribuição de classes para prec. Variável Precipitação

Classes Regiões 1 (%) 2 (%) 3 (%) CO 24.52 67.05 8.43 N 20.90 63.67 15.42 NE 29.46 61.14 9.40 S 20.72 70.36 8.92 SE 22.05 71.69 6.27

101

Tabela 6.5 – Distribuição de classes para temp. Variável Temperatura

Classes Regiões 1 (%) 2 (%) 3 (%) CO 13.04 72.20 14.76 N 15.42 76.61 7.98 NE 26.96 27.80 45.24 S 14.58 71.79 13.63 SE 31.73 41.90 26.37

6.2.4 Mineração de dados

Realizadas as etapas anteriores, resta a execução da tarefa responsável, neste estudo de

caso, pela extração das variáveis mais importantes ou imprescindíveis para a entrada do

modelo de previsão climática baseado nas redes neurais artificiais.

O primeiro passo é o calculo das reduções. Para a computação das variáveis

indispensáveis na base de dados foi utilizado o sistema Rosetta, com o algoritmo

genético para o calculo dos conjuntos candidatos aproximados (seção 4.9). Como

principal parâmetro, a fração dos candidatos, foi adotado o valor de 0.6, ou seja, todos

os atributos que pertencem aos conjuntos candidatos aproximados, que neste caso passa

a ser a redução, que tem no mínimo 60% de presença na função de discernibilidade

(|fA|). Na Tabela 6.6, a título de exemplo é mostrado um fragmento do conjunto de 289

reduções que foram encontradas para a região CO.

Tabela 6.6 – Fragmento das reduções para a região CO. # Reducão

1 {estacao, lon, lat, airt, temp, u850, u500, u300, v850, v500, v300, shum, spres, div, precAtual} 2 {estacao, lon, lat, airt, temp, u850, u500, u300, v850, v500, v300, shum, precAtual} 3 {estacao, lon, lat, airt, temp, u850, u500, u300, v850, v500, shum, div, precAtual} 4 {estacao, lon, lat, airt, temp, u500, u300, v850, v500, v300, shum, div, precAtual} 5 {estacao, lon, lat, temp, u850, u500, u300, v850, v500, v300, shum, div, precAtual} 6 {estacao, lon, lat, airt, temp, u850, u500, u300, v850, v300, shum, div, precAtual} 7 {estacao, lon, lat, airt, temp, u850, u500, u300, v850, v500, v300, div, precAtual} 8 {estacao, lon, lat, airt, temp, u850, u500, u300, v500, shum, spres, div, precAtual} 9 {estacao, lon, lat, airt, temp, u850, u300, v850, v500, v300, shum, div, precAtual} 10 {estacao, lon, lat, airt, temp, u850, u500, v850, v500, v300, shum, div, precAtual} ... ...

102

O valor da fração dos candidatos é empírico e foi encontrado através da construção de

classificadores, que são modelos utilizados na mineração de dados, para a partir de

atributos condicionais predizer o valor de um atributo denominado decisão. Quando se

obteve o maior valor de acurácia no classificador, mediante a variação da fração dos

candidatos, chegou-se então no valor utilizado para esta dissertação.

Para a construção deste classificador, a metodologia utilizada é a mesma até então vista,

sendo que os dados são separados em dados de treinamento e teste, onde na fase de

treinamento é criado um conjunto de regras ou modelo da base de dados, que são

avaliadas pela aplicação destas nos elementos de teste. A aferição da qualidade pode ser

feita de vários modos (Øhrn, 1999), porém a empregada foi da matriz de confusão

(confusion matrix), que “mede” estatisticamente os erros e acertos realizados pelo

classificador. Na diagonal desta matriz têm-se os casos corretos, ou seja, elementos que

pertencem a uma classe e o classificador os rotulou corretamente. No restante da matriz

são classificações incorretas ou erros do classificador. No final de cada linha e coluna

estão índices relacionados com os acertos do classificador (Øhrn, 1999). Mas o índice

mais relevante é a acurácia, que exprime a qualidade do classificador, pois é calculada a

partir dos acertos em relação ao número total de casos analisados. Na Figura 6.6 é

mostrada a matriz de confusão para a região CO e com alcance de previsão de 1 estação

adiante (acurácia de 0.56 ou 56% de acertos em 454 casos testados).

baixa média alta baixa 115 42 11 0.68 média 42 96 41 0.54 alta 18 47 42 0.39

0.66 0.52 0.45 0.56 Figura 6.6 – Matriz de confusão para o CO e ∆ = 1

Desde modo então foi encontrado o valor de 0.6 da fração dos candidatos para o cálculo

das reduções, que são essenciais para a computação de outro conceito de extrema

importância para a compactação do número de variáveis da base de dados, visto a

seguir.

103

Calculadas as reduções, a próxima computação é a do núcleo aproximado, que é uma

idéia proposta nesta dissertação e está associada a atributos que tenham determinadas

ocorrências na base de dados. Intuitivamente, se uma variável ocorre muitas vezes no

conjunto de reduções, então é sinal de que esta é de fundamental importância para

discernir os elementos, mantendo desta forma uma maior consistência e diminuindo as

incertezas associadas aos dados do mundo real.

O parâmetro adotado para o núcleo aproximado é o τ que está relacionado com a

ocorrência das variáveis no conjunto de reduções RED (seção 4.10). O valor adotado

neste caso de 0.7, ou seja, são parte do núcleo aproximado, variáveis com no mínimo

70% de presença em todas as reduções calculadas. Este valor foi adotado, pois se notou

que era o mínimo, para que além dos atributos espaciais e temporais, restasse ao menos

um atributo de cunho meteorológico.

Nas Tabelas 6.7 e 6.8 são mostradas os núcleos aproximados das reduções encontradas

para cada região, para variáveis com ocorrência igual ou superior a 70% em RED. Por

exemplo, na Tabela 6.7, para região Centro-Oeste (CO) a variável estação está presente

em 95.16% de todas as reduções encontradas pela TCA.

Tabela 6.7 – Núcleo aprox. de RED para precipitação e ∆ =1.

CO N NE S SE Variável % Variável % Variável % Variável % Variável % estacao 95.16 lon 100.00 estacao 94.95 lon 97.44 lon 95.70

lon 93.77 lat 99.64 lat 93.50 estacao 97.44 lat 95.34 lat 89.97 estacao 98.91 lon 90.61 lat 95.85 estacao 93.19

u500 76.47 precAtual 72.99 temp 82.67 airt 74.12 temp 78.14 precAtual 76.12 shum 71.17 shum 80.51 u300 70.97

u850 75.09 precAtual 73.65 airt 70.97 u300 73.70

104

Tabela 6.8 – Núcleo aprox. de RED para precipitação e ∆ =3. CO N NE S SE

Variável % Variável % Variável % Variável % Variável % estacao 95.16 estacao 98.63 lon 98.91 lon 98.40 estacao 95.19 lon 93.77 lat 98.29 estacao 94.93 lat 96.49 lat 94.44 lat 89.97 lon 97.95 lat 92.39 estacao 95.85 temp 85.19 spres 76.47 precAtual 77.74 temp 81.52 airt 71.88 u300 76.12 precAtual 74.28 u500 75.09 u850 73.70

Em um primeiro momento analisando as Tabelas 6.7 e 6.7 nota-se que regiões com CO

e NE no geral têm necessidade de mais variáveis do que as regiões restantes. Isto ocorre

provavelmente porque para se ter chuva nestas regiões, as variáveis em questão são de

maior representatividade no que diz respeito a distinção do estado chuvoso do não-

chuvoso.

As Tabelas 6.9 e 6.10 exibem os núcleos aproximados das reduções encontradas na

análise pela TCA para cada região, para variáveis com ocorrência igual ou superior a

70% em RED.

Tabela 6.9 – Núcleo aprox. de RED para temperatura e ∆ =1. CO N NE S SE

Variável % Variável % Variável % Variável % Variável % lat 95.51 lon 98.42 lon 99.26 lon 100.00 tempAtual 98.53 estacao 91.67 estacao 94.64 estacao 95.94 lat 98.28 lon 95.97 tempAtual 83.33 tempAtual 91.48 tempAtual 91.51 estacao 95.88 estacao 90.84 lon 79.49 lat 86.44 div 73.43 airt 78.01 lat 89.01 airt 77.88 u850 77.60 prec 71.22 tempAtual 72.51 u500 76.28 u300 71.92 prec 70.83

Tabela 6.10 – Núcleo aprox. de RED para temperatura e ∆ =3. CO N NE S SE

Variável % Variável % Variável % Variável % Variável % estacao 99.36 lon 94.86 lat 98.38 lat 99.67 lon 97.73 lat 97.45 estacao 93.15 lon 96.43 lon 99.67 estacao 97.09 lon 96.50 lat 88.01 estacao 90.91 estacao 99.34 lat 96.44 tempAtual 72.29 prec 77.40 u500 75.97 airt 72.43 airt 85.11 u300 75.34 u500 75.00

105

No núcleo aproximado para o atributo de decisão temperatura, os atributos são mais

homogêneos em relação à cardinalidade, especialmente os casos referentes à previsão

com alcance de 3 estações adiante (Tabela 6.10).

6.2.5 Interpretação

Está é a fase final do processo, responsável pela visualização dos resultados obtidos na

mineração de dados. Como os resultados são difíceis de ser analisados e resta ainda

testar a eficiência desta compactação da base de dados, por meio do uso das redes

neurais artificiais, então no Capítulo 7 é abordado de forma mais clara o emprego dos

resultados alcançados neste capítulo, com o intuito de atingir os objetivos estabelecidos

nesta dissertação.

107

7 REDES NEURAIS ARTIFICIAIS E A PREVISÃO CLIMÁTICA

7.1 Introdução

No Capítulo 6 as variáveis mais importantes para cada região da análise foram extraídas

da base de dados, utilizando como técnica de mineração de dados a teoria dos conjuntos

aproximativos.

Para verificar a validade e qualidade da compactação dos dados, mediante a redução dos

atributos de entrada, é necessário testar os núcleos aproximados em um modelo. Neste

caso, o modelo utilizado para validar o processo de mineração de dados é o emprego das

redes neurais artificiais para aprender o comportamento do clima.

As redes neurais são instrumento bastante utilizadas na inteligência artificial, pois

apresenta uma capacidade de aprendizado e de expressar um comportamento inteligente

grande. Essa capacidade se traduz na complexidade dos problemas que as redes neurais

são capazes de aprender. Por isso essa técnica foi escolhida para ser usada no

aprendizado do clima, pois se trata de um problema de natureza caótica, portanto

complexo, além de grande volume de dados.

7.2 Treinamento das redes neurais

O tipo de rede utilizado para desempenhar a previsão climática foi uma MLP, utilizando

o algoritmo de aprendizado por retro-propagação do erro. O desempenho da rede foi

medido pelo erro quadrático médio (EQM) dado por:

∑=

−=Q

k

kkQ

EQM1

2))()((1

at (7.1)

onde Q é o número de padrões de entrada, t é o vetor desejado e a é a saída da rede.

108

A arquitetura da rede neural criada é do tipo R-k-1, onde R é o número de variáveis de

entrada e k pode ser 20, 30 ou 40 neurônios. Estes números de neurônios foram

escolhidos para verificar quais os efeitos da modificação da RNA sobre os resultados.

Durante testes preliminares verificou-se que um número de neurônios entre 20 e 30 era

suficiente para a maioria dos casos testados, então se escolheu configurações

condizentes com estes números encontrados empiricamente. As funções de transferência

dos neurônios n1 a nk, mostradas na Figura 7.1 são do tipo tangente hiperbólica

signoidal, enquanto que a função de ns é do tipo linear.

x1

x2

xR

n1

n2

nk

ns

S

.

.

.

.

.

.

.

Figura 7.1 – Arquitetura da rede neural R-k-1.

O pseudocódigo do script de treinamento da rede neural é descrito abaixo:

decisão = [precipitação, temperatura];

∆ = [ ∆1, ∆3];

regiões = [r1, r2, r3, r4, r5];

neurônios_camada_escondida = [n1, n2, n3];

para cont1=1 até |decisão|

para cont2=1 até | ∆|

para cont3=1 até |regioes|

109

parta cont4=1 até |neurônios_camada_escondida|

[tmp, desejado]=recortar_dados(região(cont3));

dados = monta_CI(tmp, decisão(cont1), ∆(cont2));

saída=treinar_rna(dados, neurônios_camada_escondida(cont4));

gerar_figuras(saída, desejado)

fim

fim

fim

fim

A função recortar_dados do script é responsável por buscar os dados referentes a

região em análise, evitando assim que toda a base de dados sirva de entrada para a rede

neural. A montagem das “condições iniciais” ou entradas da rede é realizada pela

função monta_CI. Esta montagem é feita a partir dos dados coletados na função

recortar_dados, obedecendo qual o atributo desejado (temperatura ou precipitação) e

o alcance de previsão. Em seguida a rede é treinada, variando o número de neurônios da

camada escondida, em 20, 30 ou 40 neurônios. Os resultados são analisados em forma

de figuras, além do erro médio produzido pela RNA.

Este script para previsão climática foi implementado em Matlab®. As redes foram todas

treinadas para 10000 épocas e com o erro desejado de 0.5% do valor máximo da

variável de decisão para a região em análise.

É válido lembrar que as variáveis utilizadas para treinar as redes neurais no modo

reduzido (utilização do núcleo aproximado Na) são mostradas nas Tabelas 6.7 e 6.8 para

precipitação e Tabelas 6.9 e 6.10 para temperatura. Obviamente que o conjunto

completo (COMP) é composto por todas as variáveis meteorológicas e as componentes

espaciais e temporais.

Na Tabela 7.1 são mostrados os erros médios para a precipitação, de duas redes neurais,

uma que contêm como entradas o conjunto de variáveis completo ou não-reduzido

(COMP) e a outra com as entradas reduzidas (Na). O alcance de previsão (∆) é de 1

110

estação e 20 neurônios na camada escondida da rede neural. A coluna ganho expressa,

em porcentagem, se houve uma redução do erro médio do conjunto treinado com os

atributos reduzidos em relação ao completo. O erro médio é dado em [mm/dia]

(milímetros por dia).

Tabela 7.1 – Erro médio (R-20-1, Prec, ∆=1). ∆∆∆∆=1 Ganho

Região COMP Na (%) CO 1.66 1.18 28.88 N 1.55 1.37 11.85 NE 1.94 1.70 12.00 S 1.37 1.36 0.85 SE 1.20 1.22 -2.01

Como pode ser notada somente a região SE, não apresentou uma redução do erro no

treinamento feito com conjunto reduzido de variáveis, mesmo porque os valores

encontrados então entre os mais baixos mostrados na Tabela 7.1.


Região COMP Na (%) CO 1.34 1.09 18.60 N 1.50 1.46 2.63 NE 2.05 2.00 2.55 S 1.45 1.11 23.59 SE 1.71 1.25 27.25

A Tabela 7.2, assim como sua antecessora, exibe o erro médio para o treinamento com

conjunto completo e reduzido de variáveis. Entretanto a diferença é o alcance de

previsão, que neste caso passa a ser de 3 estações adiante. Um fato importante, e que se

repete com freqüência em todas as análises para ∆ = 3 é a diminuição do erro médio

(ganho positivo), ou seja, em 100% dos casos o conjunto com variáveis reduzidas

apresentou um erro menor.

Embora isto possa parecer paradoxal, previsões para alcance maiores sejam melhores,

pode ser explicado pelo ciclo sazonal, pois quando se prevê 3 estações adiante, está

111

prevendo quase no final do ciclo, onde as condições climáticas estão voltando a ser

como eram no início do ciclo. Essa idéia fica mais clara observando a Figura 7.2

Referência

∆ =1

∆ =2

∆ =3

∆ =4

verão

inverno

primavera

outono

Figura 7.2 – Ciclo das estações

A Tabela 7.3 e 7.4 exibe os erros médios para as regiões de análise, assim como o

ganho, para rede com 30 neurônios na camada escondida.


Região COMP Na (%) CO 1.72 1.62 6.04 N 1.60 1.42 11.10 NE 1.74 1.78 -2.46 S 1.22 1.30 -6.56 SE 1.61 1.20 25.59

Com o aumento de neurônios na camada escondida para 30, houve uma quebra na

qualidade dos resultados, que em geral, aumentaram em relação aos casos apresentados

na Tabela 7.1.

112



Os resultados da Tabela 7.4 são bons no que diz respeito ao baixo erro e principalmente

que em todas as regiões ouve um ganho no erro com a aplicação do núcleo aproximado

Na.

Para o treinamento efetuado com 40 neurônios na camada escondida, as Tabela 7.5 e 7.6

mostram o erro médio e ganho.


Região COMP Na (%) CO 2.24 1.46 34.64 N 1.47 1.39 5.71 NE 1.85 1.90 -2.80 S 1.23 1.17 4.87 SE 1.27 1.17 7.29

Os resultados para treinamentos executados com 40 neurônios na camada escondida da

rede neural e alcance de previsão de 1 estação, se mantiveram num patamar aceitável,

inclusive em 80% dos casos houve ganho de Na em relação a COMP, assim como na

Tabela 7.1, embora as regiões que teve o ganho negativo sejam diferentes nestas duas

tabelas.

113



Não diferente dos outros resultados apresentados para alcance de previsão de 3 estações,

os resultados mantiveram valores próximos. As diferenças dos erros entre os resultados

para ∆ = 3 com 20, 30 e 40 neurônios são insignificante sendo na pior hipótese de 0.30

mm/dia em média. Isso não acontece para ∆ = 1, onde na pior hipótese pode alcançar

quase o dobro, ou seja, 0.58 mm/dia.

A explicação cabível neste caso para os piores resultados de ∆ = 1, é mais uma vez o

ciclo das estações, pois pelos resultados obtidos, pois as redes neurais fazem previsões a

longo prazo (3 ou talvez 4 estações) melhor do que a curto prazo, como 1 estação, por

exemplo.

Os resultados a seguir são referente ao atributo de decisão temperatura. A metodologia

é a mesma, com a diferença do atributo de decisão. Entretanto como mostra os

resultados a seguir, a temperatura é uma variável de melhor previsão. Os erros são

expressos em [°C] (graus Celsius).

Tabela 7.7 – Erro médio (R-20-1, TEMP, ∆=1). ∆∆∆∆=1 Ganho

Região COMP Na (%) CO 1.22 1.58 -29.57 N 0.42 0.48 -15.20 NE 0.48 0.52 -6.82 S 1.12 1.00 11.04 SE 0.89 0.60 32.79

114

Na Tabela 7.7 mostra os erros médios para previsão de temperatura e alcance de 1

estação. O ganho mostra que em 40% dos casos desta tabela ocorreu uma diminuição do

erro nas redes que utilizavam um conjunto de variáveis de entrada reduzido (Na). Mas

deve ser levado em consideração, os baixos erros alcançados por ambas as redes.



Ao contrário das previsões para ∆=1, os erros para ∆ = 3 apesar de baixos, apresentaram

ganho em todas as regiões analisadas. Este fato freqüentemente é visto nos resultados de

∆ = 3 para temperatura, assim como tinha acontecido com a precipitação. Como os

valores do erro em geral são baixos, mesmo para o conjunto completo, resta apenas o

ganho computacional ocasionado pelo reduzido número de variáveis obtidas do núcleo

aproximado.



No tocante ao ganho os resultados não eram os esperados (Tabelas 7.7, 7.9 e 7.11), na

variável de decisão ou alvo temperatura. Isto porque em 3 regiões, o treinamento feito

com o núcleo aproximado, não foi eficaz. Porém mesmo não havendo ganho os

resultados são aceitáveis, podendo certamente substituir a rede neural com todas as

variáveis.

115



Os valores da Tabela 7.10 para o erro médio das redes neurais são muito semelhantes

aos apresentados na Tabela 7.8. Isso indica a boa capacidade de aprendizado, por parte

da rede neural, para os casos onde a variável de decisão é a temperatura. É difícil neste

caso dizer qual a melhor arquitetura, no que diz respeito, ao valor do erro, pois todos os

casos, inclusive da Tabela 7.12, são muito próximos. Qualquer uma destas redes serviria

para fazer a previsão, mas obviamente, opta-se pela rede com menor número de

neurônios na camada escondida (neste caso 20), porque há um menor esforço

computacional.



Analogamente ao raciocínio feito para os resultados de alcance ∆ = 3, os erros da

Tabela 7.11, são idênticos aos mostrados nas Tabelas 7.7 e 7.9, assim como no tocante

do ganho, onde 3 de 5 regiões (CO, N e NE) tiveram erro maior em Na em relação a

COMP.

116



Com relação ao esforço computacional, relativo à redução de variáveis na entrada da

rede neural, há uma diminuição no tempo de treinamento nestas redes comparadas às

redes que são treinadas com o conjunto completo de variáveis. Essa redução de tempo

no treinamento é em média de 45%.

Para entender a importância destes resultados, basta lembrar que o assunto tratado nesta

dissertação é um estudo de caso e no mundo real os dados são bem mais complexos,

pois possuem mais níveis, podem ser em número maior e grandes áreas de análise (em

alguns casos global). Mediante este cenário, em um conjunto de dados de grande

volume, a redução na quantidade de variáveis que o modelo terá como entrada pode

representar, de acordo como os resultados obtidos neste estudo, uma diminuição de

esforço computacional e humano considerável.

Ainda no que tange aos resultados, existem os gráficos que são gerados a partir das

saídas das redes neurais, que são meios de observar o comportamento atmosférico e tirar

conclusões a respeito de seu estado. Estas figuras são mostradas na seção seguinte,

porém devido a enorme quantidade de gráficos, uma pequena porção deste tipo de

resultado é mostrada.

7.3 Resultados gráficos

Ao longo desta seção é mostrada a parte gráfica dos resultados, obtidos através da

estimativa de redes neurais artificiais, para previsões climáticas das variáveis de

precipitação e temperatura, com alcance de uma e três estações adiantes.

117

7.3.1 Precipitação

A precipitação é a variável mais difícil de se prever, mediante a proposta de estima esta

e a temperatura. Este fato pode ser comprovado através da observação dos resultados

gráficos, que munem o observador de elementos para fazer uma previsão climática de

qualidade. Os resultados referentes à precipitação não são tão similares ao valor real,

quanto a variável temperatura. Entretanto o que importa neste caso é a informação

passada, mesmo que os padrões não sejam idênticos.

A seguir é mostrado o resultado para a região CO (Centro-Oeste), com alcance previsão

de uma estação e uma arquitetura de rede neural do tipo 7-20-1.

Centro-Oeste, ∆∆∆∆ = 1, Reduzido, RNA: 7-20-1

Figura 7.3 – Saída da RNA para região CO.

A Figura 7.3 exibe as estimativas da rede neural mediante a apresentação do conjunto

de dados não utilizados para o treinamento, ou seja, a generalização da rede. A linha em

118

vermelho é a produzida pela RNA, a verde é o valor real da variável e a linha azul é a

diferença ou erro absoluto entre o real e o previsto.

Neste caso o erro médio visualmente gira em torno de 1 mm/dia, o que é considerado

aceitável. A rede responde bem aos padrões de entrada produzindo desta forma saída,

que embora superestimadas, expressam a realidade.

Figura 7.4 – Previsão Climática de Prec. da RNA para região CO em DJF98/99.

Um exemplo de correspondência entre o real e o estimado, pode ser observado nas

Figuras 7.4 e 7.5. Na Figura 7.4 é mostrada a média de precipitação para a região CO

nos meses de dezembro, janeiro e fevereiro de 1998 e 1999. A imagem mostra um

padrão gradiente que cresce na diagonal sudoeste-nordeste, com máximas no nordeste

da região analisada. O real mostra algo, embora visualmente diferente, que condiz em

parte com o estimado pela RNA, que é um padrão gradiente com mínimas no sudoeste e

máxima no norte e nordeste da região.

119

Figura 7.5 – Precipitação para região CO em DJF98/99.

Norte , ∆∆∆∆ = 1, Reduzido, RNA: 5-30-1

Figura 7.6 – Saída da rede para região N.

120

Figura 7.7 – Previsão Climática de Prec. da RNA para região N em JJA98.

A Figura 7.7 é uma boa amostra de estimativas bem sucedidas pela RNA. Neste caso é

mostrado um padrão gradiente com mínimas no sudeste e máximas no noroeste da

região analisada. O mesmo padrão é mostrado na Figura 7.8. Contudo existe uma

dificuldade da RNA executar tais previsões, como mostrado na Figura 7.6, onde o erro

tem picos acima de 4 mm/dia. Por isso nem todos os padrões são parecidos e às vezes

são completamente errados. Mas em um contexto geral, a estimativa de padrões errados

não compromete a qualidade das previsões climáticas pelas redes neurais.

121

Figura 7.8 – Precipitação para região CO em DJF98/99.

Norte, ∆∆∆∆ = 1, Reduzido, RNA: 5-30-1

Figura 7.9 – Previsão Climática de Prec. da RNA para região N em SON98.

122

Outro comportamento similar é apresentado nas Figuras 7.9 e 7.10, com um gradiente

que cresce do leste para o oeste da região. É importante observar que o mínimo é no

nordeste da região, exatamente o que expressa os valores reais. A máxima está

localizada no oeste, tanto na estimativa como no real.

Figura 7.10 – Precipitação para região N em SON98.

123

Nordeste, ∆∆∆∆ = 1, Reduzido, RNA: 6-20-1

Figura 7.11 – Saída da RNA para região NE.

Figura 7.12 – Previsão Climática de Prec. da RNA para região NE em DJF98/99.

124

Na região NE, assim como na região N, se nota os valores relativamente altos que

atinge o erro na Figura 7.11.

Na Figura 7.12 da previsão da rede, é um caso em que a interpretação leva a mesma

conclusão a respeito da predição. A figura indica valores mínimos de precipitação no

sul, especialmente no sudeste da região em análise e conseqüentemente máxima no

norte do retângulo que mostra a previsão da RNA.

Do mesmo modo os valores reais, mostrados na Figura 7.13, indicam um padrão de

mínima precipitação no sudeste e máxima no norte e nordeste. A máxima no nordeste,

não foi capturada pela RNA, mas a informação de que choverá menos na parte de baixo

do retângulo da área em análise e mais encima é importante para previsão climática.

Figura 7.13 – Precipitação para região NE em DJF98/99.

125

7.3.2 Temperatura

A previsão climática para temperatura, na forma gráfica é mostrada nesta seção. As

estimativas da RNA, para esta variável são semelhantes com os padrões reais,

decorrente dos baixos erros alcançados pela rede neural.

Centro-Oeste, ∆∆∆∆ = 1, Completo, RNA: 15-40-1


O erro médio mostrado na Figura 7.14 (linha azul) é baixo, o que corrobora com os

padrões encontrados pela RNA e as semelhanças com o real. A resposta da rede é

excelente aos elementos de entrada, com exceção dos primeiros, onde os erros foram

mais acentuados.

126

Figura 7.15 – Previsão Climática de Temp. da RNA para região CO em SON98.

Os padrões exibidos na Figura 7.15 indicam que as menores temperaturas são no

sudeste e sudoeste, com uma região centro-norte de temperaturas mais elevadas.

Exatamente estas informações são passadas pela imagem da Figura 7.16, que

corresponde ao real. Exceção seja feita a um pequeno padrão “triangular” que aparece

um pouco deslocado do centro do retângulo da área de análise e não aparece na

estimativa da RNA.

Mas do ponto de vista da informação que é transmitida ao observador, às duas imagens

referem-se às mesmas coisas. O significado do padrão triangular que aparece na

imagem real (Figura 7.16) é de máxima temperatura. Na estimativa da rede, o mesmo

local também é de temperatura elevadas. Portanto a mesma informação de duas formas

diferentes são mostradas nas Figuras 7.15 e 7.16.

127

Figura 7.16 – Temperatura para região CO em SON98.

Sul, ∆∆∆∆ = 1, Reduzido, RNA: 5-40-1

Figura 7.17 – Saída da RNA para região S.

128

Baixos erros e alta sensibilidade da rede neural aos estímulos, são características

marcantes para esta região, conforme a Figura 7.17.

Figura 7.18 – Previsão Climática de Temp. da RNA para região S em MAM98.

Os baixos erros podem ser evidenciados através de uma comparação entre as Figuras

7.18 e 7.19. Os mesmos padrões presentes em uma imagem estão na outra. As máximas

de temperatura neste caso estão no noroeste e leste e mínimas no centro-sul do retângulo

da área reservada a análise.

As regiões S (sul) e SE (sudeste) do Brasil são as que apresentam melhores resultados

tanto visuais, quanto numéricos. As semelhanças ocorrem, com poucas exceções, em

todas as estações do ano durante os três anos escolhidos para generalização da rede

neural. Deste modo, é fácil concluir que estas regiões, para a temperatura, são de alta

previsibilidade.

129

Figura 7.19 – Temperatura para região S em MAM98.

Sudeste, ∆∆∆∆ = 1, Reduzido, RNA: 4-20-1

Figura 7.20 – Saída da RNA para região SE.

130

Do mesmo modo que a região S (sul) do Brasil, esta também é proporciona erro muito

pequenos, onde nos primeiros elementos da Figura 7.20 é quase que nulo, acentuando-

se depois.

Figura 7.21 – Previsão Climática de Temp. da RNA para região SE em JJA98.

Maiores temperaturas no sudeste, com a diagonal tendo menores valores para esta

variável, são as características das Figuras 7.21 e 7.22. Um pequeno detalhe é o padrão

de mínimas temperaturas do sudoeste da área de análise, que são retratadas por ambas

as imagens.

131

Figura 7.22 – Temperatura para região SE em JJA98.

Centro-Oeste, ∆∆∆∆ = 3, Reduzido, RNA: 4-30-1


132

Não fugindo da marca característica das previsões climáticas para a variável

temperatura, que são baixos erros e altas correlações nas imagens geradas, baseadas nas

estimativas das redes neurais e nos valores reais, está à região CO para alcance de três

estações adiante.

Pode ser observado, por meio de comparação entre as Figuras 7.14 e 7.23, de que a

previsão para três estações é melhor do que estimativas para ∆ =1. Isto já acontecia para

a variável de previsão precipitação.

Figura 7.24 – Previsão Climática de Temp. da RNA para região CO em JJA98.

As Figuras 7.24 e 7.25, não diferente de quase a totalidade das estimativas para

temperatura pelas redes neurais artificiais, são idênticas, com máxima no norte e

mínimas no sudeste e sudoeste da área de análise.

133

Figura 7.25 – Temperatura para região CO em JJA98.

É fato de que existe uma imensa quantidade de imagens, que foram geradas pelo script

de treinamento das redes neurais, porém um pequeno fragmento foi exibido neste

capítulo, como o intuito de exemplificar e demonstrar a aplicabilidade das redes neurais

no processo de previsão climática com o número de variáveis reduzidas.

135

8 CONCLUSÕES

Nesta dissertação foi aplicada a previsão climática um processo híbrido baseado na

teoria dos conjuntos aproximativos e nas redes neurais artificiais, na qual o objetivo foi

estimar o comportamento médio atmosférico sazonal com um alcance temporal de 1 a 3

estações, com a redução do conjunto de variáveis de entrada da RNA. Para a execução

da redução das variáveis de entrada, por meio da TCA, foram calculadas a reduções

(RED), e as variáveis com ocorrência maior de 70% em RED são chamadas de núcleo

aproximado.

O que se pode observar em todos os resultados no cálculo do núcleo aproximado

(Tabelas 6.7, 6.8, 6.9 e 6.10) é que as variáveis: latitude, longitude e estação estiveram

presentes em 95% das análises realizadas, indicando uma forte relação espaço-

temporal entre os dados.

Os núcleos aproximados foram aplicados às redes neurais artificiais com o propósito de

fazer um estudo comparativo entre uma situação em que a rede é exposta aos dados com

um conjunto completo de variáveis e outra em que o número de variáveis é diminuído

de modo a tornar a computação mais eficiente.

Depois que estas variáveis foram aplicadas efetivamente para redução das entradas da

RNA, para ∆ = 1, em 57% dos casos houve um ganho (diminuição do erro quadrático

médio) do conjunto reduzido (RED) em relação ao conjunto completo de atributos. Para

∆ = 3 o ganho na diminuição do EQM ocorre em 100% dos casos. Em ambos ∆ em 78%

dos casos houve ganho na diminuição do EQM.

Observou-se que o erro médio produzido pelas redes que previam temperatura eram

inferiores as redes de previsão de precipitação. Isto se estende também as imagens

geradas, com base nas saídas das redes neurais, quando aplicado os dados de

generalização, ou seja, que nunca foram apresentados à rede. A qualidade e de extração

136

de informações visuais são bem mais explicitas nas estimativas de temperatura do que

na precipitação.

Padrões de complexidade elevada são estimados pela RNA, como nos casos das Figuras

7.18 e 7.21. Fato que não acontece, com freqüência, com a previsão de precipitação,

onde as informações retiradas das imagens são semelhantes meramente no significado

físico, deixando a desejar, evidentemente se comparada a temperatura, na correlação

visual.

As temperaturas talvez sejam mais previsíveis do que as precipitações, pela sua pequena

variação em termos média ao longo do tempo, por exemplo, as temperaturas do verão

para a região sudeste ficam em torno de 22°C na média, o que varia pouco de ano para

ano, em geral.

Em relação às arquiteturas adotas com 20, 30 ou 40 neurônios na camada escondida, a

conclusão chegada é de que a melhor é de 20 unidades, pois os resultados com as

demais configurações são semelhantes, com pequenas diferenças entre si. E o ponto de

vista do esforço de computação é crucial, para este estudo, pois se trata de uma

dissertação que propõe redução das variáveis de entrada de um modelo de previsão

climática, então nada mais justo prezar por uma arquitetura que valorize a eficiência

computacional, já que as redes com 30 e 40 neurônios, em teste realizados, acrescia de

5% a 10% de tempo em relação ao tempo de treinamento da rede do tipo R-20-1.

Falando de esforço computacional, as reduções de variáveis para as redes neurais

surtiram o efeito esperado, uma vez que houve a diminuição de tempo em relação às

redes treinadas com todas as variáveis. Para testes realizados para mensurar qual o

ganho de tempo reduzindo as variáveis, o valor encontrado foi em média de 45%, ou

seja, reduzindo as variáveis de entrada, se pode encurtar o treinamento das redes neurais

pela metade.

137

É importante observar as semelhanças entre o observado, e as estimativas climáticas das

RNA, que para a variável de temperatura consegue se aproximar do real com um erro

consideravelmente baixo e identificar padrões que segundo especialista Camargo

(2004), não é possível detectar pelo modelo numérico em vigor para aquelas regiões.

Mesmos com imagens não-semelhantes, que acontece freqüentemente na previsão de

precipitação, as informações visuais retiradas são as mesma do que a imagem real.

Então o raciocino de que é possível reduzir as variáveis de entrada e realizar previsões

confiáveis é verdadeiro, mediante os resultados apresentados ao longo desta dissertação.

O uso de uma metodologia similar a esta apresentada, viria somar a métodos existentes,

além de poupar tanto o esforço computacional quanto o humano, de modo a tornar

previsões climáticas ágeis e mais confiáveis.

Portanto a metodologia utilizada no contexto global, tanto na previsão climática de

temperatura como na precipitação mostrou-se eficaz, considerando pontos fortes:

• As análises bem sucedidas com um reduzido número de variáveis de entrada.

Foi possível utilizar um número reduzido de variáveis de entrada para um

modelo, que neste caso foram às redes neurais artificiais, com o propósito de

executar previsões climáticas com alcance de uma e três estações no futuro;

• Possibilidade de implementação para tornar-se operacional e realizar previsões

climáticas reais, devido à facilidade de implementação desta metodologia e

capacidade de diminuir esforços humanos e computacionais;

• Possibilidade de implementação em hardware das redes neurais para efetuar tal

tarefa;

• Abertura de novos horizontes, tanto no que diz respeito a trabalhos futuros,

quanto na aplicação na previsão climática, no uso conjunto desta metodologia

com os modelos numéricos em operação, com o propósito de oferecer novos

138

produtos, como a identificação das regiões mais ou menos chuvosas e mais ou

menos quentes, além de oferecer maior respaldo as previsões climáticas de modo

a somar os conhecimentos já existentes.

Ao longo deste estudo foram vistos os principais elementos necessários para a

implementação da metodologia almejada. Assuntos como previsão climática, redes

neurais artificiais, teoria dos conjuntos aproximativos, mineração de dados e descoberta

de conhecimento foram discutidos para que servissem de alicerce metodológico.

Mediante tudo abordado e implementado, as contribuições apresentadas nesta

dissertação são:

• Uso de um método próprio de discretização, já que os existentes não eram

adequados ao tipo de problema abordado. Três classes ou categorias eram

desejadas para a realização da mineração de dados com a TCA. Muitos métodos

de discretização retornavam duas classes ou uma distribuição ruim. Então se

optou pela criação de um algoritmo de discretização bastantes simples, abordado

na seção 6.1.3, que tem como característica o parâmetro θ que é responsável

pelo aumento ou diminuição das classes desejadas.

• Utilização da teoria dos conjuntos aproximativos como técnica de mineração de

dados na previsão climática de várias regiões da América do Sul. Não foram

encontrados na literatura trabalhos que utilizassem a TCA na previsão climática,

mesmo que de modo hibrido (com as redes neurais). Porém na meteorologia

existe um trabalho de Fernández-Baizán et al. (2000) que trata de mineração de

dados temporais em variáveis meteorológicas utilizando a TCA. Neste trabalho

os autores tem como objetivo gerar um conjunto de regras que descrevam o

próximo valor de velocidade do vento no porto de Gijón (Espanha).

• Criação da definição do núcleo aproximado na teoria dos conjuntos

aproximativos, em decorrência da necessidade de coletar as variáveis de maior

139

ocorrência no conjunto de reduções. Com isso é possível encontrar as variáveis

mais importantes, dentro do conjunto RED, o que não acontecia com o núcleo

que “enxergava” apenas as variáveis com 100% de ocorrência em todas as

reduções.

Foi necessária a criação desta definição porque o não foi possível o calculo do

núcleo, que é a intersecção de todas as reduções, devido a computação do

conjunto RED ser realizado por meio de uma aproximação dos conjuntos

candidatos. Isto resultou em um número elevado de reduções (em alguns casos

chegou a 250) e que não tinha nenhuma variável com ocorrência de 100%. Este

era o problema, pois era necessário extrair as variáveis mais importantes da base

de dados, entretanto as ferramentas matemáticas não ofereciam subsídios.

A partir da idéia de selecionar variáveis que estivessem presentes num

determinado número de reduções, é que fora criada a definição de núcleo

aproximado. Intuitivamente é fácil notar a importância das variáveis que se

encaixam neste perfil. Se uma variável ocorre muitas vezes no conjunto de

reduções é sinal de que ela é de extrema importância, segundo a relação de

indiscernibilidade, para manter os conjuntos elementares próximos do original.

• Criação de uma metodologia de auxílio à previsão de clima baseado na

Inteligência Artificial, com a habilidade de prever padrões climatológicos, para 1

e 3 estações.

140

REFERÊNCIAS BIBLIOGRÁFICAS

ANDERSON C.W.; SIJERCIC Z. Classification of EEG signals from four subjects

during five mental tasks. Solving Engineering problems with Neural Networks. In:

INTERNATIONAL CONFERENCE ON ENGINEERING APPLICATIONS IN

NEURAL NETWORKS (EANN'96), 1996, London. Proceedings… London: Kingston

University, 1996. p. 407-414.

BETTINI, C., WANG, X. S.; JAJODIA, S. Testing complex temporal relationships

involving multiple granularities ans its applications to data mining (extend abstract). In:

ACM SIGACT-SIGMOD-SIGART SYMPOSIUM IN PRINCIPLES OF DATABASE

SUSTEMS (PODS), 1996. Montreal, Canada. Electronic Proceedings… Montreal:

ACM, 1996. Disponível em: http://www.dsi.unimi.it/bettini/rec-pub.html. Acesso em:

abr 2003.

BJORVAND, A. T. Time series and rough sets. Department of Computer Systems and

Telematics, The Norwegian Institute of Technology. Dissertação de Mestrado, 1996.

CAMARGO JR., H. Introdução à previsão climática. (Instituto Nacional de Pesquisas

Espaciais, Cachoeira Paulista, 2004). Comunicação pessoal.

CAVALCANTI, I. F. A. ET AL. Global climatological features in a simulation using

the CPTEC-COLA AGCM. Jounal of Climate, v. 15, n.27, p. 2965-2988, 2002.

CAVALCANTI, I. F. A. Previsão climática no CPTEC-INPE. Disponível em:

<http://tucupi.cptec.inpe.br/products/climanalise/cliesp10a/precli.html>. Acesso em: abr

2003.

INSTITUTO NACIONAL DE PESQUISAS ESPACIAIS. Centro de Previsão do

Tempo e Estudos Climáticos (INPE-CPTEC). FAQ (frequently asked question) -

http://www.dsi.unimi.it/bettini/rec-pub.html

http://tucupi.cptec.inpe.br/products/climanalise/cliesp10a/precli.html

141

Clima. Disponível em: <www.cptec.inpe.br/products/clima/portal/faqs.shtml>. Acesso

em: abr, 2003.

INSTITUTO NACIONAL DE PESQUISAS ESPACIAIS. Centro de Previsão do

Tempo e Estudos Climáticos (INPE-CPTEC). Portal de previsões numéricas.

Disponível em: www.cptec.inpe.br/prevnum/exp_global.shtml . Acesso em: maio, 2003.

CHEN, Z. Data mining and uncertain reasoning: an integrated approach. New York:

John Wiley & Sons, 2001.

DEMPSTER, A. P. Upper and lower probabilities induced by a multivalued mapping.

Annals Mathematics Statistics, v.38, n. 2. p. 325-339, 1967.

FAYYAD, U. et al. From data mining to knowledge discovery: an overview. Menlo

Park: AAAI Press, 1996.

FERNANDES, A. M. R. Inteligência artificial : noções gerais. Florianópolis: Visual

Books, SC. 2003.

FERNÁNDEZ-BAIZÁN C. et al. Mining time series of meteorological variables using

rough sets –A case study. In: WORKSHOP ON BINDING ENVIRONMENTAL

SCIENCES AND ARTIFICIAL INTELLIGENCE (BESAI'2000), 2000, Berlin,

Germany. Proceedings… Berlin: [s.n.], 2000.

GOEBEL, M.; GRUENWALD, L. A survey of data mining and knowlodge discovery

software tools. SIGKDD Explorations, v. 1, p. 20-33, 1999.

Golan R.; Edwards D. Temporal rules discovery using datalogic/R+ with stock market

data. Ziarko, W. P. In: INTERNATIONAL WORKSHOP ON ROUGH SETS AND

KNOWLEDGE DISCOVERY (RSKD'93), 4., Alberta, Canada. Proceedings... Alberta:

Springer, p. 74-81. 1993.

http://www.cptec.inpe.br/products/clima/portal/faqs.shtml

http://www.cptec.inpe.br/prevnum/exp_global.shtml

142

GOLDBERG D. E. Genetic algorithms in search, optimization, and machine

learning. Reading, Mass: Addison-Wesley,1989.

GUTIÉRREZ, J. M et al. Redes probabilísticas y neuronales en las ciencias

atmosféricas. 2004. Disponível em:

<http://grupos.unican.es/ai/meteo/MeteoLab.html.> Acesso em: abr 2004. Series

Monográficas.

HOLSHEIMER M.; SIEBES A. Data mining: the search for knowledge in databases..

Amsterdam, the Netherlands: CWI, Jan. 1994. Report CSR9406

INSTITUTO NACIONAL DE METEOROLOGIA (INMET). Meteorologia básica.

Disponível em:

<http://www.inmet.gov.br/aprenda_inmet/saiba_como/meteoro_basica>. Acesso em:

abr 2003.

INSTITUTO NACIONAL DE PESQUISAS ESPACIAIS (INPE). Portal de previsões

numéricas. São José dos campos. Disponível em: <

http://www.cptec.inpe.br/prevnum/exp_ensemble.shtml>. Acesso em: abr 2003.

HAGAN, M. T. et al. Neural network design. Boston, EUA: PWS Publishing

Company, 1995.

HAYKIN, S. Redes neurais: princípios e práticas. Porto Alegre: Bookman, 2001.

KOMOROWSKI, J. et al. Rough sets: a tutorial. In: Pal, S.K. ; Skowron, A. (eds.),

Rough fuzzy hybridization: a new trend in decision-making. Singapore: Springer-

Verlag, 1999.

http://grupos.unican.es/ai/meteo/MeteoLab.html

http://www.inmet.gov.br/aprenda_inmet/saiba_como/meteoro_basica

http://www.cptec.inpe.br/prevnum/exp_ensemble.shtml

143

KOHONEN, T. Correlation matrix memories. IEEE Transactions on Computers, v.

21, p. 353-359, 1972.

LOESCH, C. ; SARI, S. T. Redes neurais artificiais: fundamentos e modelo.

Blumenau: FURB, 1996.

LORENZ, E. N. A study of the predictability of a 28-variable atmospheric model.

Tellus, v. 17, p. 321-333, 1965.

LORENZ, E. N. Deterministic non-periodic flow. J. Atmos. Sci., v. 20, p. 130-141,

1963.

LORENZ, E. N. The predictability of a flow which possesses many scales of motion.

Tellus, v. 21, p. 289-307, 1969.

MICHALEWICZ Z. Genetic algorithms + data structures = evolution programs.

New York: Springer Verlag, , 1992.

MITCHELL M. An introduction to genetic algorithms. Cambridge: MIT press, 1996.

NICOLETTI, M. C. ; UCHÔA, J. Q. Conjuntos aproximados sob a perspectiva de

função de pertinência. In: SIMPÓSIO BRASILEIRO DE AUTOMAÇÃO

INTELIGENTE (SBAI), 3. 1997, Vitória. Anais… Vitória: Universidade Federal do

Espírito Santo, p. 307-312, 1997.

ØHRN, A. Discernibility and rough sets in medicine: tools and applications.

Norwegian University of Science and Technology, Department of Computer and

Information Science, NTNU. Tese de Doutorado, 1999.

144

PANG-NING, T. et al. Finding spatio-termporal patterns in earth science data: goals,

issues and results. In: KDD TEMPORAL DATA MINING WORKSHOP (KDD2001),

San Francisco. Proceedings… San Francisco: [s.n.], 2001.

PARSAYE, K.; et al. Intelligent databases: object-oriented, deductive and hypermedia

technologies. New York: John Willey, 1989.

PAWLAK Z. Rough sets. International Journal of Computer and Information

Sciences, v.11. p. 341-356, 1982.

PAWLAK, Z.; SKOWRON, A. Rough membership functions. In: R. Yager, M. Fedrizzi

J. Kacprzyk (Eds.). Advances in the Dempster-Shafer theory of evidence. NewYork:

Wiley, p. 251-271, 1994.

PAWLAK, Z. Rough sets – theorical aspects of reasoning about data. Dordrecht:

Kluver Academic Publishers, 1991.

PESSOA, A. S. A. Aplicação da Teoria dos Conjuntos Aproximativos na Classificação

de Tarefas Mentais Utilizando Sinais de EEG. In. VI ENCONTRO DE MODELAGEM

COMPUTACIONAL, 2003, Nova Friburgo Anais, Nova Friburgo, 2003.

PESSOA, A. S. A.; POLITI, J.; PAIVA, J. A. C. Uma aplicação de mineração de dados

geográficos utilizando a teoria dos conjuntos aproximativos. In: Congresso Nacional

Matemática Aplicada e Computacional, 26., 2003, São José do Rio Preto. Anais... São

José do Rio Preto, [s.n], 2003.

RODDICK J.; LEES G. B. Paradigms for spatial and spatio-temporal data mining. In:

Miller. H.; Han, J. (Eds). Geographic data mining and knowledge discovery. Taylor

& Francis, 2001. Disponível em: http://citeseer.ist.psu.edu/roddick01paradigms.html.

http://citeseer.ist.psu.edu/roddick01paradigms.html

145

RODDICK, J. F.; SPILIOPOULOU, M. A bibliography of temporal, spatial and spatio-

temporal data mining research. SIGKDD Explorations. 1999 ACM SIGKDD, June. v.

1, n.1, 1999.

RØED G. Knowledge extraction from process data: a rough set approach to data mining

on time series. Disponível em: <www.citeseer.nj.nec.com/119626.html> Acesso em:

Mar 1999.

RUSSELL S. J.; NORVIG P. Artificial intellingence: a modern approach. New Jersey:

Prentice Hall, 1995

SCUDERI, S. Conjuntos rough. Leopoldianum. Revista de Estudos e Comunicação

da Universidade Católica de Santos. Ano 27, n. 75, p. 185-197 . 2003.

SERRA, L. A essência do bussiness intellingence. São Paulo: Berkeley Brasil, 2002.

SHAFER, G. A mathemathical theory of evidence. Princeton: Princeton University

Press, 1976.

SKOWRON, A.; RAUSZER C. The discernibility matrices and functions in information

systems. In: Slowinski, R. (Ed.). Intelligent decision support: handbook of

applications and advances to rough sets theory. Dordrecht: Kluwer Academic Publisher,

1992. p. 331-362.

SLOWINSKI, R. Intelligent decision support. handbook of applications and advances

of the rough sets theory. Dordrecht: Kluwer Academic Publishers, 1992.

STEINBACH, M. et al. Temporal Data Mining for the Discovery and Analysis of

Ocean Climate Indices In: KDD TEMPORAL DATA MINING WORKSHOP, 2002,

Edmonton, Alberta, Canada. Proceedings… Edmonton: [s.n], 2002.

http://www.citeseer.nj.nec.com/119626.html

146

VINTERBO, S.; ØHRN, A. Approximate minimal hitting sets and rule templates. In: Predictive models in medicine: some methods for construction and adaptation. 1999. PhD thesis, Department of Computer and Information Science, Norwegian University of Science and Technology (NTNU), Trondheim, Norway. NTNU report 1999:130, ISBN 82-7984-011-7. 23 pages. Disponível em: <http://www.idi.ntnu.no/~staalv/dev/thesis.ps.gz>.Acesso em: June 2001.

WALCZAK, B.; MASSART, D. L. Rough sets theory – tutorial. Chemometrics and

Intelligent Laboratory Systems, v. 47, n.1, p. 1-16, Elsevier. 1999.

WONG, S. K. M.; ZIARKO, W. Comparison of the probabilistic approximate

classification and the fuzzy set model. Fuzzy Sets and Systems, v. 21, p. 357-362,

1986.

ZADEH L. A. Fuzzy sets. Informations and Control, v. 8, p. 65-70, 1965.

ZADEH, L. A. Fuzzy sets as a basis for a theory of possibility. Fuzzy Sets and Systems, v. 1, p 3-28, 1978.

http://www.idi.ntnu.no/~staalv/dev/thesis.ps.gz

PUBLICAÇÕES TÉCNICO-CIENTÍFICAS EDITADAS PELO INPE

Teses e Dissertações (TDI)

Manuais Técnicos (MAN)

Teses e Dissertações apresentadas nos Cursos de Pós-Graduação do INPE.

São publicações de caráter técnico que incluem normas, procedimentos, instruções e orientações.

Notas Técnico-Científicas (NTC)

Relatórios de Pesquisa (RPQ)

Incluem resultados preliminares de pesquisa, descrição de equipamentos, descrição e ou documentação de programa de computador, descrição de sistemas e experimentos, apresenta- ção de testes, dados, atlas, e docu- mentação de projetos de engenharia.

Reportam resultados ou progressos de pesquisas tanto de natureza técnica quanto científica, cujo nível seja compatível com o de uma publicação em periódico nacional ou internacional.

Propostas e Relatórios de Projetos (PRP)

Publicações Didáticas (PUD)

São propostas de projetos técnico-científicos e relatórios de acompanha-mento de projetos, atividades e convê- nios.

Incluem apostilas, notas de aula e manuais didáticos.

Publicações Seriadas

Programas de Computador (PDC)

São os seriados técnico-científicos: boletins, periódicos, anuários e anais de eventos (simpósios e congressos). Constam destas publicações o Internacional Standard Serial Number (ISSN), que é um código único e definitivo para identificação de títulos de seriados.

São a seqüência de instruções ou códigos, expressos em uma linguagem de programação compilada ou inter- pretada, a ser executada por um computador para alcançar um determinado objetivo. São aceitos tanto programas fonte quanto executáveis.

Pré-publicações (PRE)

Todos os artigos publicados em periódicos, anais e como capítulos de livros.

minerac˘ao de dados meteorol~ ogicos pela...

Documents