pagina de rosto -...
TRANSCRIPT
INPE-14165-TDI/1082
IMPLEMENTAÇÃO DE UMA METODOLOGIA PARA MINERAÇÃO DE DADOS APLICADA AO ESTUDO DE NÚCLEOS
CONVECTIVOS
Jacques Politi
Dissertação de Mestrado do Curso de Pós-Graduação em Computação Aplicada, orientada pelos Drs. Stephan Stephany e Margarete Oliveira Domingues, aprovada em
03 de fevereiro de 2005.
INPE São José dos Campos
2006
681.3:550.5 Politi, J Implementação de uma metodologia para mineração de dados aplicada ao estudo de núcleos convectivos / J. Politi.- São José dos Campos: INPE, 2005. 149p.0; (INPE-14165-TDI/1082). 1Mineração de dados. 2.Conjuntos aproximativos. 3.Sistemas convectivos. 4.Descargas elétricas atmosféricas. 5.Estimador de núcleo. 6.Meteorologia. I.Título.
III
AGRADECIMENTOS
Inicialmente, gostaria de agradecer a todos os meus familiares, que sempre me
incentivaram e estiveram junto comigo nos momentos mais decisivos da minha vida
pessoal e acadêmica. Em especial a meu pai, Alberto Politi, o auxílio financeiro durante
o período em que estava sem bolsa de estudo, possibilitando a minha dedicação
exclusiva ao mestrado.
Meus sinceros agradecimentos aos meus orientadores, Dr. Stephan Stephany e Dra.
Margarete Oliveira Domingues, pela orientação, motivação e sobretudo amizade.
Agradeço também ao Dr. Odim Mendes Junior a co-orientação, compartilhando seu
conhecimento e participando ativamente em diversas etapas do projeto.
Agradeço ao Programa de Apoio a Pós-graduação (PROAP - CAPES) o auxílio
financeiro que possibilitou a apresentação de alguns resultados desta dissertação em
diversos eventos científicos.
Agradeço a todos os meus colegas em São José dos Campos, o apoio e companheirismo,
e em especial, ao grande amigo Alex Sandro Aguiar Pessoa, por me incentivar a atuar
na carreira científica.
Agradeço também ao Met. Cesar A. A. Beneti (SIMEPAR) e ao RINDAT os dados de
descargas elétricas atmosféricas utilizados neste trabalho, ao CPTEC/INPE os dados
observacionais, à FAPESP (projeto IPE, processo n° 1988/0105-5, pelos dados), e ao
CNPq pelo apoio financeiro fornecido (processos n° 478707/2003-7, 477819/03-6 e
131384/2003-1) .
V
RESUMO
Neste trabalho, implementou-se uma metodologia para mineração de dados (data mining) aplicada ao estudo de núcleos convectivos utilizando a teoria dos conjuntos aproximativos (rough sets). A mineração de dados foi efetuada em uma base de dados de natureza espaço-temporal, composta de dados de descargas elétricas do tipo nuvem-solo, índices de estabilidade obtidos utilizando-se dados de estações de radiossondagem e dados de inicialização de um modelo meteorológico de mesoescala. Devido à grande quantidade de dados de descargas elétricas, necessitou-se de um método para a redução destes dados. Para isto, foram investigados diversos métodos de representação espacial, visando agrupar espacialmente as ocorrências de descargas elétricas em entidades denominadas centros de atividade elétrica. Essa redução possibilitou identificar padrões em um tempo aceitável, além de permitir a integração com os demais dados. Este estudo buscou informações desconhecidas e potencialmente úteis nessa base de dados e demonstrar o potencial da metodologia proposta. Os resultados obtidos validam a ferramenta desenvolvida.
VII
IMPLEMENTATION OF METHODOLOGY FOR DATA MINING APPLIED
TO THE STUDY OF CONVECTIVE NUCLEOUS
ABSTRACT
In this work, a methodology for data mining was implemented using the rough sets theory and applied to the study of convective nucleous. Data mining has been used to analyze large volumes of data trying to identify frequent correlations, patterns, and outliers, in the most varied domains of applications, including scientific research. In this study, data mining was applied to a spatial-temporal database composed of occurrence data of electric discharge of the type cloud-to-ground, stability indexes obtained from radiosounding stations, and initialization data of the a mesoscale meteorological model. In face of the large amount of electric discharge data, a method for reducing these data was required. Several methods of spatial representation of data were investigated, in order to spatially group discharge occurrence data in entities that were named centers of electrical activity. This reduction allowed to identify patterns in a feasible amount of time, and made possible the integration with the remaining data. The objective of this work was to detect unknown and potentially useful information in the considered database and to demonstrate the potential of the proposed methodology. The results prove the feasibility of the developed tool.
IX
680È5,2�
LISTA DE FIGURAS
LISTA DE TABELAS
LISTA DE SÍMBOLOS
LISTA DE SIGLAS E ABREVIATURAS
CAPÍTULO 1 - INTRODUÇÃO .......................................................................................19
CAPÍTULO 2 - MINERAÇÃO DE DADOS ....................................................................25
2.1 – Definição e Características ..........................................................................................25 2.2 – Áreas de Aplicação da Mineração de Dados ...............................................................26 2.3 – Aplicações Científicas .................................................................................................27 2.4 – Mineração de Dados Científicos Espaço-Temporais...................................................28 2.5 – Classificação da Mineração de Dados .........................................................................31 2.6 – Funcionalidades e Objetivos da Mineração de Dados .................................................32 2.7 – O Processo de Descoberta de Conhecimento ..............................................................35 2.8 – Ambientes de Dados ....................................................................................................37
CAPÍTULO 3 - TÉCNICAS DE REDUÇÃO DE DADOS ..............................................39
3.1 – Tipos de Redução de Dados.........................................................................................39 3.2 – Redução de Dados Espaço-Temporais ........................................................................40 3.2.1 – 3DLQWEDOO....................................................................................................................41 3.2.2 – Histogramas Multivariados.......................................................................................41 3.2.3 – &OXVWHULQJ..................................................................................................................41 3.2.4 – .HUQHO�(VWLPDWRU.......................................................................................................41 3.3 – Comparação Entre as Técnicas Utilizadas...................................................................44
CAPÍTULO 4 - TEORIA DOS CONJUNTOS APROXIMATIVOS ..............................59
4.1 – Características ..............................................................................................................59 4.2 – Definições ....................................................................................................................60 4.2.1 – Sistemas de Informação e Sistemas de Decisão .......................................................60 4.2.2 – Relação de Indiscernibilidade ...................................................................................61 4.2.3 – Reduções ...................................................................................................................62 4.2.4 – Aproximação dos Conjuntos.....................................................................................63 4.2.5 – Geração de Regras ....................................................................................................64 4.3 – Exemplo de Mineração de Dados ................................................................................65 4.4 – O Sistema ROSETTA..................................................................................................70 4.4.1 – Recursos Oferecidos .................................................................................................71
CAPÍTULO 5 - NÚCLEOS CONVECTIVOS .................................................................79
5.1 – Estrutura Convectiva e Elétrica ...................................................................................79 5.2 – Índices de Estabilidade ................................................................................................82 5.2.1 – Índice CAPE .............................................................................................................83 5.2.2 – Índice CIN.................................................................................................................85
X
5.2.3 – Índice SLI .................................................................................................................85 5.2.4 – Índice K.....................................................................................................................86 5.2.5 – Índice Totals .............................................................................................................87
CAPÍTULO 6 - METODOLOGIA ....................................................................................89
6.1 – Objetivo .......................................................................................................................89 6.2 – Definição do Problema ................................................................................................89 6.3 – Coleta e Seleção dos Dados .........................................................................................89 6.3.1 – Dados de Descargas Elétricas ...................................................................................90 6.3.2 – Dados de Inicialização do Modelo Eta/CPTEC........................................................91 6.3.3 – Dados de Radiossondagens.......................................................................................91 6.4 – Pré-Processamento.......................................................................................................91 6.5 – Transformação .............................................................................................................93 6.6 – Mineração de Dados e Interpretação ...........................................................................98
CAPÍTULO 7 - RESULTADOS .....................................................................................101
7.1 – Descrição dos Testes..................................................................................................101 7.2 – Redução de Dados .....................................................................................................104 7.3 – Regras ........................................................................................................................106
CAPÍTULO 8 - CONCLUSÃ O .....................................................................................113
REFERÊNCIAS BIBLIOGRÁFICAS ............................................................................117
APÊNDICE A - DESCRIÇÃO DO FORMATO UALF ................................................125
APÊNDICE B - REGRAS DE DECISÃO OBTIDAS ....................................................127
APÊNDICE C - O SISTEMA ROSETTA .......................................................................145
APÊNDICE D - FORMATO DE ENTRADA (DADOS DE RADIOSSONDAGEM) .149
XII
LISTA DE FIGURAS
2.1 – Dados espaço-temporais .............................................................................................29
2.2 – Etapas do ciclo de descoberta de conhecimento .........................................................35
3.1 – Esquema ilustrativo da região de influência do estimador de núcleo.........................42
3.2 – Exemplos de métodos de representação espacial, analisados no dia 14 de
setembro de 1999 no intervalo das 04:00h. às 04:30h.. ...............................................46
3.3 – Exemplos dos campos de estimação de densidade );3,0( 0xr =λ obtidos com as
diferentes funções de in terpolação K . .......................................................................47
3.4 – Exemplos dos campos de estimação de densidade ),( 0xrλ obtidos com o kernel
gaussiano para diferentes valores do raio de influência (r). ........................................49
3.5 – Exemplos dos CAEs obtidos com o kernel gaussiano para diferentes valores do
filtro para descargas esparsas.......................................................................................50
3.6 – Visualização dos campos obtidos com a técnica kernel gaussiano, confrontada
com as imagens do satélite GOES-8 Canal 4 (infravermelho) ....................................52
3.7 – Campos de estimação de densidade ),( 0xrλ para quadros sucessivos com tempo
de integração de 15 minutos, durante o período das 05:00 às 07:00 (UTC) do dia
14 de setembro de 1999 ...............................................................................................54
3.8 – Exemplos do acompanhamento do CAE 1 de diversos parâmetros ...........................56
3.9 – Campos de estimação de densidade ),( 0xrλ para as descargas com polaridades
positivas (a) e negativas (b), para quadros sucessivos com tempo de integração de
15 minutos, durante o período das 05:00 às 05:30 (UTC) do dia 14 de setembro
de 1999.........................................................................................................................57
4.1 – Ilustração dos conceitos de aproximação inferior, superior, região de borda e
região externa...............................................................................................................64
5.1 – Ilustração da instabilidade condicional em um diagrama skew T log P. ....................84
6.1 – Estações de coleta de dados de descargas elétricas do RINDAT. ..............................90
6.2 – Diagrama da implementação da metodologia .............................................................99
7.1 – Região de análise ......................................................................................................102
XIII
7.2 –Resultados da redução dos dados de descargas elétricas em CAEs. As letras
indicam os respectivos testes .....................................................................................105
C.1 – Exemplo de uma árvore de projeto do sistema ROSETTA......................................145
C.2 – Exemplo de uma área de trabalho do sistema ROSETTA ........................................146
XIV
LISTA DE TABELAS
2.1 – Representação ESPAÇO-TEMPORAL.......................................................................30
2.2 – Representação ESPAÇO-TEMPORAL compacta I ....................................................30
2.3 – Representação ESPAÇO-TEMPORAL COMPACTA II ............................................31
3.1 – Funções de interpolação K mais utilizadas..................................................................43
4.1 – Sistema de informação.................................................................................................65
4.2 – Sistema de decisão .......................................................................................................65
4.4 – Matriz de discernibilidade ...........................................................................................68
4.5 – Sistema de decisão após reduções ...............................................................................68
4.6 – Sistema de decisão após redução k-relativa .................................................................69
4.7 – Sistema de decisão reduzido ........................................................................................70
4.8 – Regras de decisão ........................................................................................................70
4.9 – Regra de decisão obtida pelo ROSETTA....................................................................74
5.1 – Variáveis do perfil atmosférico ...................................................................................82
5.2 – Valores típicos de SLI e tipo de estabilidade associado ..............................................86
7.1 – Descrição dos testes realizados..................................................................................102
7.2 – Classificação dos parâmetros mais importantes ........................................................107
7.3 – Freqüência dos valores dos parâmetros mais importantes.........................................109
7.4 – Limites utilizados para a discretização dos valores dos indices estabilidade ............111
B.1 – Regras obtidas para o teste 1 .....................................................................................127
B.2 – Regras obtidas para o teste 2 .....................................................................................129
B.3 – Regras obtidas para o teste 3 .....................................................................................130
B.4 – Regras obtidas para o teste 4 .....................................................................................131
B.5 – Regras obtidas para o teste 5 .....................................................................................132
B.6 – Regras obtidas para o teste 6 .....................................................................................133
B.7 – Regras obtidas para o teste 7 .....................................................................................134
B.8 – Regras obtidas para o teste 8 .....................................................................................135
B.9 – Regras obtidas para o teste 9 .....................................................................................136
B.10 – Regras obtidas para o teste 10 .................................................................................137
XV
B.11 – Regras obtidas para o teste 11 .................................................................................138
B.12 – Regras obtidas para o teste 12 .................................................................................139
B.13 – Regras obtidas para o teste 13 .................................................................................140
B.14 – Regras obtidas para o teste 14 .................................................................................141
B.15 – Regras obtidas para o teste 15 .................................................................................142
B.16 – Regras obtidas para o teste 16 .................................................................................143
XVI
LISTA DE SÍMBOLOS
A - Conjunto de atributos
C - Conjunto de atributos condicionais
D - Conjunto de atributos de decisão
E - Esperança
K - Função de interpolação do kernel estimator
m - Número de descargas dentro da região de influência S
0x - Ponto em que se deseja estimar a densidade
r - Raio de influência
S - Região circular de influência do kernel estimator
σ - Desvio padrão da amostra
λ - Função de densidade de probabilidade do kernel estimator
µ - Média da amostra
2v - Variância da amostra
∫ - Integral
∑ - Somatória
U - Conjunto universo
∅ - Conjunto vazio
- Conjunção
- Disjunção
⊆ - Está contido
∩ - Intersecção
∪ - União
XVIII
LISTA DE SIGLAS E ABREVIATURAS
ACC – Acurácia
ADaM – Algorithm Development And Mining system
CAE – Centro de Atividade Elétrica
CAPE – Convective Available Potential Energy
Cb – Nuvem Cumulonimbus
CIN – Convective Inhibition
CONQUEST – CONcurrent QUErrying in Space and Time
CPTEC – Centro de Previsão de Tempo e Estudos Climáticos do INPE
DBMS – DataBase Management System
GOES – Geostationary Operational Environmental Satellites
GPS – Global Position System
GRADS – GRid Analysis and Display System
GRIB – GRIdded Binary
GUI – Graphical User Interface
IMPACT – Improved Accuracy from Combined Technology
INPE – Instituto Nacional de Pesquisas Espaciais
IPE – Interdisciplinary Pantanal Experiment
KDD – Knowledge Discovery in Databases
LHS – Left Hand Side
MATLAB – MATrix LABoratoty
NASA – National Aeronautics and Space Administration
NCEP - National Centers for Environmental Prediction
NPP – Net Primary Production
NS – Nuvem-Solo
NTNU – Norwegian University of Science and Technology
OCI – Ocean Climate Indices
ODBC – Open Database Connectivity
POSS – Palomar Observatory Sky Survey
XIX
RHS – Right Hand Side
RINDAT – Rede Integrada Nacional de Detecção de Descargas Atmosféricas
ROSETTA – Rough Set Toolkit for Analisys of Data
SD – Sistema de Decisão
SETI – Search for Extraterrestrial Intelligence
SI – Sistema de Informação
SLI – Índice de Levantamento (Lift Index)
SPIN! – Spatial mining for data of Public INterest
SUP – Suporte
TT – Índice Totals
UTC – Universal Time Coordinator
UALF – Universal ASCII Lightning Format
19
CAPÍTULO 1
INTRODUÇÃO
Nas últimas duas décadas houve um crescimento significativo na quantidade de informação
armazenada em formatos eletrônicos. Estima-se que a quantidade de informação no mundo
dobra a cada 20 meses (Szalay et al., 2000). Isso foi proporcionado basicamente pela queda
de preços dos equipamentos de armazenamento/processamento e pelos avanços nos
mecanismos de captura e geração de dados, tais como leitores de código de barras, sensores
remotos e satélites espaciais. Segundo Piatetsky-Shapiro (1991) os dados produzidos e
armazenados em larga escala não podem ser lidos ou analisados por especialistas por meio
de métodos manuais tradicionais, tais como planilhas de cálculos e relatórios informativos
operacionais, onde o especialista testa sua hipótese usando a base de dados. Por outro lado,
sabe-se que grandes quantidades de dados equivalem a um maior potencial de informação.
Diante deste cenário, surge a necessidade de se explorar estes dados para extrair
informações úteis.
Analisar essa crescente quantidade de informação não é uma tarefa trivial e demanda a
utilização de técnicas computacionais avançadas para descobrir padrões ocultos e
potencialmente úteis entre os dados. Esse é o objetivo da mineração de dados, também
conhecida como extração de conhecimento, arqueologia de dados ou colheita de
informações. Os métodos de mineração de dados são formados pela interseção de diferentes
áreas. As áreas mais relacionadas são:
• Aprendizagem de Máquinas (Langley, 1996; Shavlik e Diettrich,1990).
• Inteligência Computacional (Bittencourt, 2001).
• Processamento de Alto Desempenho (Foster, 1995).
• Estatística (Elder IV e Pregibon, 1996).
• Banco de Dados.
20
Em particular, na área de Inteligência Computacional, as técnicas mais utilizadas em
Mineração de dados são:
• Redes Neurais Artificiais (Haykin, 1994).
• Indução de Regras (Nilsson, 1980).
• Algoritmos Genéticos (Goldberg, 1989).
• Lógica Nebulosa (Zadeh, 1965).
• Teoria dos Conjuntos Aproximativos (Pawlak, 1982).
A mineração de dados necessita ser um processo eficiente, pois lida com grandes
quantidades de dados e com algoritmos de complexidade computacional elevada. Existem
basicamente três formas de acelerar esse processo: reduzindo a quantidade de dados,
otimizando algoritmos e utilizando técnicas de processamento paralelo e/ou distribuído.
Além da questão do desempenho, deve-se preocupar com a qualidade e a forma com que os
dados estão armazenados, ou seja, se contêm inconsistências, valores ausentes, ou
necessitem de algum tipo de transformação. Esses problemas para serem solucionados
demandam grande parte do tempo necessário durante o processo de descoberta. Os métodos
de mineração de dados podem ser aplicados em praticamente todas as áreas do
conhecimento e são agrupados principalmente em 3 grupos: mineração de dados comercial,
mineração de dados na internet e a mineração de dados científica (Chen, 2001).
Grande parte das aplicações científicas envolve dados temporais, espaciais e espaço-
temporais. Uma bibliografia sobre esses tipos de aplicações é descrita por Roddick e
Spiliopoulou (1999). Atualmente existem poucos sistemas de mineração de dados científicos
que trabalham com dados espaço-temporais. Dentre eles destaca-se o sistema Algorithm
Development and Mining System1 (ADaM), Graves e Ramachandran, (1999). Esse sistema,
utilizado pela NASA e pela National Science Fundation dos EUA, é constituído por 75
módulos e suporta todo o ciclo de mineração de dados, possuindo algoritmos de
processamento de imagens, clustering, reconhecimento de padrões, filtros, entre outros
1 http://datamining.itsc.uah.edu/adam/
21
(Behnke et al., 1999). Outro sistema para análise de dados espaço-temporais é o projeto
Spatial Mining for Data of Public Interest 1 (SPIN!), May, M. (2000). Esse sistema necessita
que os dados de entrada estejam em um formato compatível com Sistemas de Informação
Geográfica (SIG) e possui algoritmos para determinação de clusters espaciais, regras de
associação espaciais, e um sistema de visualização que possibilita a exploração espacial dos
dados.
Como proposta de trabalho, foi desenvolvida uma metodologia para a mineração de dados
científicos espaço-temporais, cujo objetivo é a caracterização e o acompanhamento de
núcleos convectivos, por meio de dados de descargas elétricas atmosféricas do tipo Nuvem-
Solo (NS), dados de perfis atmosféricos observacionais e campos provenientes da análise do
National Centers for Environmental Prediction (NCEP), utilizada para inicializar o modelo
Eta (Chou, 1996) do Centro de Previsão de Tempo e Estudos Climáticos do INPE (CPTEC).
Essa caracterização busca encontrar quais os parâmetros meteorológicos que mais
influenciam a atividade elétrica das estruturas convectivas. Consideram-se como núcleos
convectivos um ou mais aglomerados de nuvens Cumulonimbus. Foram utilizados dados da
segunda campanha do Experimento Interdisciplinar do Pantanal (IPE-2), que ocorreu
durante o período de 14 a 23 de setembro de 1999, e dados que englobam a terceira
campanha (IPE-3), do período de 1 de fevereiro a 30 de março de 2002. Esses dados foram
escolhidos em virtude da disponibilidade desde o início do projeto.
A presente metodologia foi desenvolvida devido à necessidade de uma melhor localização e
caracterização dos núcleos convectivos no Brasil. Um dos métodos atuais utilizados para o
acompanhamento dos núcleos convectivos é feito por meio de imagens geradas por radares e
satélites meteorológicos geo-estácionários. Entretanto, a área de cobertura desses radares é
pequena e não é capaz abranger toda a extensão geográfica do nosso país, prejudicando
análises espaciais detalhadas de algumas regiões específicas. Por outro lado, as imagens
geradas por esses satélites são coletadas em intervalos de tempo em torno de 30 minutos,
sendo então transmitidas e processadas, fazendo com que não estejam disponíveis em tempo
real. Devido a essa freqüência de amostragem, perde-se a resolução temporal, tornando mais
1 http://www.ais.fhg.de/KD/SPIN/index.html
22
difícil uma análise mais detalhada de um determinado núcleo convectivo. Por outro lado, os
dados de descargas elétricas do tipo nuvem-solo estão disponíveis com uma freqüência
muito maior (menos de mili-segundo) do que as imagens de satélites, além de possuir uma
maior região de abrangência em nosso país em relação as imagens de radar e, portanto,
podem ser utilizados como uma ferramenta auxiliar na detecção e acompanhamento dos
núcleos convectivos.
No tocante a sistemas de mineração de dados, a princípio, o ADaM e o SPIN! não são
capazes de suprir as necessidades do objetivo proposto devido às suas peculiaridades. Ao
analisar diversos casos de estudo do sistema ADaM, constatou-se que o mesmo apresenta
como principal funcionalidade a mineração de dados por meio de imagens, auxiliando na
detecção de diversos fenômenos meteorológicos, dentre os quais relâmpagos, ciclones,
nuvens e precipitações. Além do domínio de aplicação ser diferente, os dados do presente
trabalho não são imagens e esse sistema possui pouca documentação disponível e seu código
fonte não é aberto, o que dificultaria sua utilização nesta pesquisa. O sistema SPIN! possui
limitações semelhantes e exige que os dados de entrada estejam num formato compatível a
um Sistema de Informação Geográfico.
1.1 Contribuição da dissertação
O presente trabalho propõe e implementa uma metodologia para mineração de dados
científicos espaço-temporais, aplicada à caracterização de núcleos convectivos. Esta
metodologia inclui uma aplicação inédita de uma técnica de análise espacial - a técnica do
estimador de núcleo (kernel estimator) - para redução dos dados espaço-temporais de
ocorrências de descargas atmosféricas. Esta técnica possibilita o rastreamento de
aglomerados de ocorrências de descargas elétricas associadas a núcleos convectivos e
também a posterior integração desses dados de forma quantitativa a dados de perfis
atmosféricos, para fins de mineração de dados. As técnicas de mineração de dados utilizadas
neste trabalho buscam encontrar correlações entre variáveis que compõem o perfil
atmosférico e a atividade elétrica associada às estruturas convectivas. Os resultados obtidos
para um caso de teste, ou seja, as regras de decisão são apresentadas e discutidas, validando
23
a metodologia e expondo seu potencial de aplicação e sua extensibilidade a outros tipos de
dados disponíveis.
A evolução da metodologia deste trabalho foi divulgada em trabalhos anteriores e evoluiu
também devido às críticas e sugestões recebidas quando da submissão e/ou apresentação dos
mesmos (Politi et al., 2003; Politi et al., 2004).
1.2 Organização dos capítulos
O segundo Capítulo apresenta a teoria relacionada com a mineração de dados, incluindo as
funcionalidades e objetivos que podem ser alcançados, técnicas para melhorar o
desempenho, áreas de aplicação, etc. O terceiro Capítulo descreve técnicas de redução de
dados e, em particular, a técnica proposta neste trabalho para se obter os padrões desejados
em um tempo aceitável. O quarto Capítulo refere-se à teoria dos conjuntos aproximativos,
implementada no sistema de mineração de dados ROSETTA. O quinto Capítulo aborda o
caso de estudo, seus objetivos e desafios. O sexto Capítulo descreve a metodologia utilizada
e o sétimo apresenta os resultados obtidos com a mineração de dados. O oitavo Capítulo
refere-se a conclusão e as considerações finais, bem como os desafios que foram superados,
e as futuras aplicações da metodologia desenvolvida. Os Apêndices A e D apresentam os
formatos dos dados utilizados no trabalho, o Apêndice B apresenta as tabelas com as regras
de decisão geradas e o Apêndice C descreve algumas características dos sistema de
mineração de dados ROSETTA.
25
CAPÍTULO 2
MINERAÇÃO DE DADOS
Neste Capítulo são abordados alguns tópicos referentes à mineração de dados, tais como as
funcionalidades e objetivos que podem ser alcançados, a estrutura do processo de mineração
de dados e as técnicas para melhorar o desempenho e suas áreas de aplicação. Dentre as
áreas de aplicação, enfoca-se a mineração de dados científicos mais precisamente em dados
de natureza espaço-temporal, em virtude dos dados analisados neste trabalho pertencerem a
essa categoria.
2.1 – Definição e Características
Mineração de dados é um conjunto de técnicas computacionais para a extração de
informações desconhecidas e potencialmente úteis em grandes volumes de dados por meio
de um resumo compacto dos mesmos. O termo “mineração de dados” é uma das etapas de
um processo maior denominado descoberta de conhecimento em banco de dados (KDD -
Knowledge Discovery in Databases (KDD), Fayyad et al. (1996). Esse processo provê a
infra-estrutura necessária para a mineração de dados, incluindo as etapas necessárias para
construir uma base de dados consistente, reduzida e confiável para a descoberta das
informações desejadas. Esse processo também é conhecido como extração de conhecimento,
arqueologia de dados ou colheita de informações.
As características principais do processo de mineração de dados são:
• O conhecimento descoberto é representado em uma linguagem de alto nível que
pode ser entendido pelos usuários.
• As descobertas sintetizam uma determinada visão do conteúdo dos dados.
26
• O conhecimento descoberto é interessante de acordo com os fins dos usuários.
• O processo de descoberta deve ser eficiente.
2.2 – Áreas de Aplicação da Mineração de Dados
A mineração de dados pode ser aplicada em praticamente todas as áreas do conhecimento e
seus métodos podem ser agrupados em diversas categorias (Chen, 2001):
• Mineração de dados comercial
Neste tipo de mineração de dados, o objetivo principal é obter vantagens
competitivas no mercado por meio da descoberta, por exemplo, do perfil de compra
do consumidor. Uma vez determinado o perfil do consumidor, é possível auxiliar
departamentos de marketing a elaborar campanhas de mala direta mais direcionadas,
ou aprimorar a logística do sistema em busca de atender melhor as necessidades dos
consumidores. Outros tipos de problemas também podem ser abordados, tais como
análise de crédito, detecção de fraude etc.
• Mineração de dados na internet
O principal objetivo dessa categoria de mineração de dados é melhorar a pesquisa e a
extração de informações na Internet. O domínio de aplicações da mineração de dados
na Internet não é claramente definido, devido à diversidade e ao grande volume de
informações processadas. Isso proporciona aplicações em praticamente todas as
áreas, por exemplo, na área de segurança de redes, podendo ser utilizada para
detectar padrões de invasão.
• Mineração de dados científica
Nesta categoria de mineração de dados, o objetivo é detectar padrões freqüentes e
construir modelos capazes de simular o comportamento de determinado fenômeno
físico, químico ou biológico. Pode ser utilizada na construção de sistemas
especialistas que auxiliem processos de diagnóstico em diversas áreas. Devido ao
27
caso de estudo deste trabalho pertencer a essa categoria, na seção seguinte são
descritas em maiores detalhes algumas aplicações científicas.
2.3 – Aplicações Científicas
Nas duas décadas passadas, houve um rápido avanço em computação de alto desempenho e
ferramentas para aquisição de dados em uma grande variedade de domínios científicos.
Esses dados podem ser provenientes de diversos equipamentos, tais como: radares, GPS,
sensores, instrumentos ópticos, sondas, satélites etc, gerando uma enorme quantidade de
dados da ordem de Terabytes ou Petabytes. Juntamente com essa explosão de dados estão os
avanços nas tecnologias de banco de dados e redes de comunicação. Isso resultou numa
crescente necessidade por ferramentas e técnicas para analisar eficientemente bancos de
dados científicos com o objetivo de interpretar os mais variados fenômenos físicos.
A mineração de dados científica tem sido aplicada com sucesso em um grande número de
áreas. Dentre estas destacam-se a seguir algumas aplicações que estão relacionadas com
interesses e pesquisas do INPE nas áreas Espacial e Atmosférica.
2.3.1 Aplicações geológicas e geofísicas
Dentre os muitos trabalhos interessantes que foram desenvolvidos na área de climatologia
global, destaca-se um trabalho sobre o estudo de correlações entre índices climáticos
oceânicos (OCI – Ocean Climate Indices), relacionados ao fenômeno El Nino, e dados da
Rede de Produção Primária (NPP – Net Primary Production), a qual é responsável pela
assimilação de dióxido de carbono atmosférico pelas plantas (Steinbach et al., 2002). Outro
exemplo é um trabalho que estuda a ocorrência de tornados na região Sul do Brasil
(Marcelino, 2003).
Em particular, o autor desenvolveu um estudo para caracterizar deslizamentos de terra na
Região da Reprêsa Billings-SP (Politi et al., 2003). Os parâmetros de entrada para a
caracterização eram mapas temáticos da região, contendo as características geológicas,
declividade e uso do solo. Os resultados obtidos foram, de certa forma, óbvios e de
28
conhecimento dos especialistas no problema, devido ao número de parâmetros de entrada
ser demasiadamente pequeno.
Um aspecto interessante é que muitas dessas aplicações combinam aspectos temporais e
espaciais, aumentando a quantidade de dados e conseqüentemente a complexidade do
problema. Um dos primeiros sistemas para mineração de dados cientifica foi o CONQUEST
(CONcurrent QUErrying in Space and Time) (Stolorz, 1995).
2.3.2 Aplicações astrofísicas e cosmológicas
Analisar dados dessa natureza é fundamental para tentar responder questões sobre a origem
do universo, sua evolução e a existência de formas inteligentes de vidas extraterrestres. A
principal fonte de dados astrofísicos está na forma de análise (survey) do céu em diferentes
segmentos do espectro eletromagnético. Um dos primeiros sistemas desenvolvidos para
analisar dados dessa natureza foi o SKICAT (Sky Image Classification and Archiving Tool)
(Fayyad et al., 1993) e (Weir et al., 1995) cujo objetivo era classificar automaticamente
objetos celestes nos dados do Palomar Observatory Sky Survey (POSS-II) que consistia de
aproximadamente 107 galáxias e 108 estrelas.
Recentemente, um projeto de nome SETI@home (Search for Extraterrestrial Intelligence)
(Anderson, 1999) ganhou proeminência devido, em grande parte, ao seu uso inteligente do
grande recurso computacional da Internet. Esse projeto analisa os dados coletados do Radio-
Telescópio de Arecibo em Porto Rico para procurar padrões e anomalias indicando
inteligência extraterrestre. Os dados são divididos em pacotes de 330K e enviados aos
clientes participantes. Esses clientes procuram por artefatos interessantes nos dados e
reportam potenciais anomalias ao servidor.
2.4 – Mineração de Dados Científicos Espaço-Temporais
Grande parte das aplicações científicas envolve dados temporais, espaciais e espaço-
temporais. Uma bibliografia sobre esses tipos de aplicações é descrita por Roddick e
29
Spiliopoulou (1999). Nas seções seguintes apresentam-se algumas formas de representar os
dados espaço-temporais.
2.4.1 Formas de representar os dados espaço-temporais
Os dados de natureza espaço-temporal descrevem as alterações nas características de uma
determinada região no decorrer do tempo. Essas características estão associadas a
parâmetros de localização (por exemplo, latitude e longitude) e podem gerar mapas para um
dado instante de tempo. A Figura 2.1 ilustra essa característica.
FIGURA 2.1 – Dados espaço-temporais.
FONTE: Modificada de Steinbach et al. (2002).
Os dados podem ser representados de forma discreta ou contínua. Na representação discreta,
cada ocorrência de um determinado evento é associada às características temporais,
espaciais e físicas (por exemplo, temperatura, pressão e umidade) para aquele ponto. Na
representação contínua, para uma determinada região de influência são associados valores
calculados dessas características. O cálculo desses valores varia de acordo com a aplicação,
por exemplo, podem ser utilizados valores médios de determinadas características, ou algum
outro tipo de interpolação que represente de fo rma mais adequada a característica em
questão.
Latitude
Longitude
Temperatura Pressão
Umidade
Latitude
Longitude
Temperatura Pressão
Umidade
Tempo
30
Os algoritmos de mineração de dados geralmente buscam informações em dados dispostos
na forma tabular. Assim, os mapas gerados para dados espaço-temporais devem ser
preferencialmente convertidos em tabelas. Existem diversas formas de converter esses
mapas em tabelas, cada uma delas associada com um determinado objetivo.
Na Tabela 2.1 apresenta-se uma forma possível de representar os dados espaço-temporais,
na qual há uma linha para cada ponto do espaço para um dado instante de tempo.
TABELA 2.1 – Representação espaço-temporal.
Localização Tempo Temperatura Pressão Umidade (1,1) T1 Baixa Média Média (1,2) T1 Baixa Média Média (1,3) T1 Média Média Média
... ... ... ... ... (1,1) T2 Alta Média Alta (1,2) T2 Alta Baixa Alta (1,3) T2 Alta Média Alta
FONTE: Adaptada de Pang-Ning et al. (2001).
Devido essa característica, deve-se procurar reduzir também o número de intervalos de
tempo na base de dados, ou seja, agrupando os dados em intervalos de tempos maiores com
o intuito de reduzir o número de linhas. Entretanto, deve-se tomar o cuidado com o intervalo
de tempo escolhido, já que alguns fenômenos ocorrem com freqüências relativamente altas.
Esta tabela poderia ser modificada de forma a simplificar a representação temporal evitando
repetições por meio de uma tupla única para cada instante de tempo, como apresentado na
TABELA 2.2. Entretanto as informações referentes aos valores dos atributos encontram-se
todas dentro de uma mesma célula, prejudicando a visualização e aplicação de alguns
algoritmos.
TABELA 2.2 – Representação espaço-temporal compacta I.
Localização T1 T2 T3 ... (1,1) (PA,TB,UM) (PB,TA,UM) (PA,TB,UM) (1,2) (PA,TB,UM) (PB,TA,UM) (PA,TB,UM) (1,3) (PA,TB,UM) (PA,TB,UM) (PB,TA,UM)
31
... (n,n) (PA,TB,UM) (PA,TB,UM) (PA,TB,UM)
FONTE: Adaptada de Pang-Ning et al. (2001).
Nesta Tabela, as abreviações contidas dentro de cada célula representam os valores de cada
atributo, no caso PA=Pressão Alta, TB=Temperatura Baixa, e assim por diante.
Existe ainda uma outra representação, que consiste em agrupar as informações temporais
com as informações físicas, como pode ser observado na TABELA 2.3.
TABELA 2.3 – Representação espaço-temporal compacta II.
Localização Temperatura T1
Temperatura T2
Pressão T1
Pressão T2
(1,1) Baixa Média Média Baixa (1,2) Baixa Média Média Baixa (1,3) Média Média Média Média
... ... ... ... ... (n,n) Alta Média Alta Alta
Essas representações são exemplos possíveis, podendo serem alteradas ou ampliadas de
acordo com as necessidade e os métodos de mineração de dados aplicados.
2.5 – Classificação da Mineração de Dados
Existem muitas formas de classificar a mineração de dados (Zaïane, 1999). Abaixo estão
descritas algumas delas:
• máquinas, algoritmos genéticos, lógica nebulosa, etc.
• Tipo de fonte de dados : isto é, de acordo com a origem dos dados. Por exemplo,
dados espaciais, temporais, multimídias, textuais, internet, etc.
• Modelo de dados: isto é, a forma com que os dados estão armazenados. Por
exemplo, em um banco relacional, um banco orientado a objetos, um
datawarehouse, etc.
32
• Tipo de conhecimento descoberto: isto é, de acordo com o objetivo do problema.
Por exemplo, regras de caracterização, discriminação, associação, classificação,
etc.
• Técnicas de análise utilizadas : Podem ser utilizadas, redes neurais, estatística,
aprendizagem de Grau de interação do usuário: Podem ser utilizado sistemas
baseados em consultas, onde o usuário gera um conjunto de hipóteses e testa a sua
validade contra os dados, exigindo grande conhecimento do problema por parte do
usuário. É também conhecida como Analise Confirmatória do ponto de vista da
Estatística. Existem os sistemas interativos, onde o usuário acrescenta seu
conhecimento para auxiliar a descoberta de padrões pelo sistema. E por último os
sistemas autônomos, que vasculham os dados na procura de padrões freqüentes,
tendências e generalizações sobre os dados sem intervenção ou ajuda do usuário.
2.6 – Funcionalidades e Objetivos da Mineração de Dados
Os tipos de padrões que podem ser descobertos dependem das funcionalidades (ou tarefas)
empregadas na mineração de dados. Existem dois tipos principais de funcionalidades ou
objetivos em mineração de dados: mineração de dados descritiva, que descreve as
características existentes nos dados, e mineração de dados preditiva, que tenta prever valores
de atributos baseados na inferência dos dados disponíveis. As funcionalidades da mineração
de dados e os tipos de conhecimento que podem ser descobertos são apresentados
resumidamente abaixo (Zaïane, 1999; Fayyad et al., 1996):
Caracterização – A caracterização de dados é um resumo geral das características dos
objetos em uma classe alvo e produz regras de caracterização. Os dados relevantes para a
classe especificada pelo usuário são normalmente retornados por uma consulta ao banco de
dados e passam rapidamente sobre um módulo de resumo que extrai a essência dos dados
em diferentes níveis de abstração. Por exemplo, pode-se querer caracterizar os consumidores
de uma vídeo- locadora que regularmente alugam mais de 30 filmes por ano.
Discriminação – Produz as denominadas regras de discriminação e é basicamente uma
comparação das características gerais dos objetos entre duas classes referidas como classe
33
alvo e classe oposta. Por exemplo, comparam-se as características gerais dos consumidores
que alugaram mais que 30 filmes no último ano com aqueles que alugaram menos de 5
filmes. As técnicas usadas para discriminação são muito similares as técnicas utilizadas para
caracterização, com exceção que as regras de discriminação resultam em medidas
comparativas.
Associação – Produz as denominadas regras de associação. Estuda a freqüência de itens que
ocorrem juntos em bancos de dados, e utiliza como critério de freqüência um limite
chamado suporte, que identifica os conjuntos de itens freqüentes. Outro limite utilizado é a
confiança, que é uma probabilidade condicional que um item aparece em uma transação
quando outro item aparece, é usado como ponto pivô das regras de associação. Regras de
associação são freqüentemente utilizadas em análise de mercados (market basket analysis).
Por exemplo, poderia ser útil para o gerente da vídeo- locadora conhecer quais filmes sempre
são alugados juntos ou se existe alguma relação entre alugar um certo tipo de filme e
comprar pipoca ou refrigerante. Como exemplo cita-se a regra abaixo:
AlugarTipo(X, “jogo”) & ?Idade(X, “13-19”) = ?Compra(X, “refrigerante”) [s=2%,c=55%]
Para a avaliação de uma determinada regra, são utilizadas métricas estatísticas. Neste caso,
utiliza-se o suporte (s=2%) que indica que 2% das transações consideradas são
consumidores entre 13-19 anos que alugam um jogo e compram refrigerante. Utiliza-se
também a confiança (c=55%) que indica uma certeza de que 55% dos consumidores também
pertencem a essa categoria.
Classificação – Também conhecida como classificação supervisionada, utiliza uma
determinada classe rotulada para ordenar os objetos em uma coleção de dados.
Normalmente utiliza um conjunto de treinamento onde todos os objetos são associados com
as classes conhecidas. O algoritmo de classificação aprende a partir do conjunto de
treinamento e constrói um modelo. O modelo é utilizado para classificar novos objetos. Por
exemplo, depois de começar uma política de crédito o gerente da vídeo-locadora pode
analisar o comportamento dos consumidores e rotulá- los de acordo com três possíveis
34
valores: “seguro”, “risco” e “muito risco”. Essa análise geraria um modelo que poderia ser
utilizado para aceitar ou rejeitar pedidos de crédito no futuro.
Regressão – Esta funcionalidade é conceitualmente similar à tarefa de classificação. A
maior diferença é que nessa tarefa o atributo meta, ou objetivo, é contínuo, isto é, pode
tomar qualquer valor real ou qualquer número inteiro num intervalo arbitrário, ao invés de
um valor discreto (Quinlan, 1993).
Predição – Têm atraído considerável atenção dada as potenciais implicações de prever com
sucesso em um contexto comercial. Existem dois tipos de predição: um prevê alguns valores
de dados indisponíveis ou tendências pendentes e o outro prevê uma classe rotulada para
determinado dado. Essa última está intimamente ligada à classificação. Uma vez que o
modelo de classificação é construído com base no seu conjunto de teste, a classe rotulada de
um objeto pode ser predita baseada nos valores dos atributos do objeto e nos valores de
atributos das classes. Predição é, entretanto, mais referenciada à previsão de valores
numéricos que estão faltando, ou acréscimo/decréscimo de tendências em dados temporais.
Agrupamento (Clustering) – Similar à classificação, segmentação é a organização de dados
em classes. Entretanto, diferente da classificação, as classes são desconhecidas e o algoritmo
de segmentação deve descobrir classes aceitáveis. Segmentação é também chamada de
classificação não-supervisionada. Existem muitas técnicas de segmentação, todas baseadas
no princípio de maximizar a similaridade entre objetos na mesma classe (similaridade intra-
classe) e minimizar a similaridade entre objetos de diferentes classes (similaridade inter-
classe).
Anomalias (Outliers) – Anomalias são elementos de dados que não podem ser agrupados
em uma dada classe. Também conhecida como exceções e surpresas, elas sempre são muito
difíceis de identificar. Enquanto as anomalias podem ser consideradas ruídos ou descartadas
em algumas aplicações, elas podem revelar importante conhecimento em outros domínios e
assim as suas análises podem ser muito significativas e preciosas.
35
Análise de evolução e desvios – Fazem parte da análise de dados temporais. Na análise de
evolução, os modelos extraem tendências nos dados, caracterizando, comparando,
classificando ou agrupando os dados temporais. Em análises de desvio, por outro lado,
consideram-se as diferenças entre valores medidos e valores esperados e tenta-se encontrar a
causa para os desvios a partir dos valores antecipados.
É comum que os usuários não tenham uma idéia clara dos tipos de padrões que podem ou
necessitam descobrir a partir dos dados que tem em mãos. Por isso é importante ter um
sistema de mineração de dados versátil que possibilite descobrir diferentes tipos de
conhecimento e em diferentes níveis de abstração. Isso torna a interatividade uma
importante característica de um sistema de mineração de dados.
2.7 – O Processo de Descoberta de Conhecimento
O processo de mineração de dados ou KDD consiste basicamente de seis fases e cada fase
pode interagir com as demais. Desse modo, os resultados produzidos numa fase podem ser
utilizados para melhorar os resultados das próximas fases. Esse cenário indica que o
processo de KDD é iterativo, buscando sempre aprimorar os resultados a cada iteração. Caso
o resultado obtido na última etapa não seja satisfatório, deve-se retornar a etapa conveniente,
tornando o processo cíclico. A Figura 2.2 ilustra todo o processo.
FIGURA 2.2 – Etapas do ciclo de descoberta de conhecimento.
FONTE: Modificada de Fayyad et al. (1996).
36
1) Definição do problema: inclui descrever cuidadosamente o problema, determinar se
o uso da mineração de dados é apropriado, decidir a forma de entrada e saída dos
dados, decidir relações custo/benefício etc.
2) Coleta e seleção dos dados: decidir como e quais dados serão coletados. Existem
algumas perguntas que são feitas para auxiliar essa etapa, tais como, se existe a
necessidade de coletar dados de outros bancos, se existe alguma informação
estatística sobre os dados, etc.
3) Pré-processamento: eliminação de ruídos e erros, estabelecimento de procedimentos
para verificação de valores faltantes; estabelecimento de convenções para nomeação
e outros passos demorados para a construção de uma base de dados consistente. Por
exemplo, verificar se os dados necessitam ser normalizados, quais atributos podem
ser descartados, se é necessário converter dados para outro formato, etc. Essa é a
etapa mais lenta do processo, tomando tipicamente cerca de 50-80% do tempo total,
que realmente foi constatado no desenvolvimento desse trabalho.
4) Transformação: alguns passos opcionais podem ser utilizados para auxiliar nas
etapas seguintes e são altamente recomendados, dentre eles destaca-se a redução do
volume de dados.
5) Mineração de dados: aplicação dos algoritmos para descoberta de padrões nos
dados; envolve a seleção de métodos/técnicas/modelos que são mais adequados para
realizar a análise desejada.
6) Interpretação/avaliação: consiste na saída/visualização dos resultados obtidos pelo
processo de mineração de dados. Os padrões obtidos serão utilizados como
ferramenta de suporte à decisão por parte do usuário. Este deverá avaliar a
adequação dos padrões identificados pelo processo no tocante a extração de
conhecimento desejado. Caso o resultado não seja satisfatório, o usuário poderá
repetir um ou mais passos para refinar o processo.
37
2.8 – Ambientes de Dados
A mineração de dados pode envolver muitas diferentes técnicas para diferentes propostas e
pode ser feita em diferentes plataformas (Chen, 2001). Os dados podem estar armazenados
da seguinte forma:
a) Arquivos texto: Caso o volume de dados seja relativamente pequeno, pode-se
utilizar essa abordagem e carregar os dados diretamente na memória principal,
fazendo com que o desempenho dos algoritmos seja maior, evitando operações de
entrada/saída em disco.
b) Sistemas de gerenciamento de bancos de dados (DBMS – DataBase Management
System): Quando se lida com grandes quantidades de dados, é necessário usar um
DBMS para gerenciar os acessos de entrada e saída.
c) Datawarehouse: Um datawarehouse é um sistema de gerenciamento de banco de
dados relacional desenvolvido especificamente para atender as necessidades no
processamento de consultas. Superficialmente, pode-se definir datawarehouse como
um repositório centralizado de dados, livre de inconsistências, não-volátil e onde os
dados são armazenados por longos períodos de tempo, em torno de 5 a 10 anos.
Além dessas formas de armazenamento, os dados podem estar em arquivos multimídias,
como imagens, sons e vídeos, e podem ser tratados diretamente ou
convertidos/transformados para uma formato tabular, de acordo com a necessidade de
adaptação de determinados algoritmos.
39
CAPÍTULO 3
TÉCNICAS DE REDUÇÃO DE DADOS
A mineração de dados necessita ser um processo eficiente, pois trabalha com grandes
quantidades de informação e com algoritmos de complexidade computacional elevada. Ao
reduzir-se o volume de dados a ser analisado, possibilita-se que os algoritmos utilizados nas
etapas posteriores do ciclo de mineração de dados apresentem um desempenho melhor.
Neste Capítulo, apresentam-se os tipos de redução de dados, mais especificamente os
relacionados com dados espaço-temporais, e a comparação das diversas técnicas
pertencentes a cada tipo de redução aplicadas ao estudo de núcleos convectivos.
3.1 – Tipos de Redução de Dados
Existem três formas de redução de dados: redução de dimensões, redução de valores e
redução de casos (Chen, 2001).
Na redução de dimensões, também conhecida como seleção de atributos, o objetivo é
identificar e remover atributos redundantes e irrelevantes. Muitas técnicas foram
desenvolvidas para identificar esses atributos, sendo que algumas delas utilizam o
conhecimento de um especialista e outras somente os dados. Com o auxílio de um
especialista do problema, pode-se excluir atributos que certamente não serão utilizados no
processo, ou então agrupar vários atributos em diversas classes, como por exemplo,
atributos espaciais, atributos físicos etc. Quando se utilizam apenas os dados, necessita-se de
técnicas computacionais que identifiquem automaticamente quais atributos são redundantes.
Dentre as técnicas disponíveis, tem-se a Teoria dos Conjuntos Aproximativos, que será vista
em detalhes no Capítulo 4.
40
Na redução de valores, é reduzido o domínio de valores para um determinado atributo.
Podem-se utilizar técnicas de “arredondamento” para representar os valores originais;
“segmentação” que permite que valores similares pertençam a mesma classe; discretização
onde se substitui valores contínuos por intervalos de valores, etc.
A redução de casos consiste em selecionar subconjuntos de registros na base de dados. É
uma etapa muito importante, pois nem sempre é necessário analisar todos os casos para se
ter uma solução ótima.
3.2 – Redução de Dados Espaço-Temporais
Na redução de dados espaço-temporais busca-se principalmente uma forma de representação
conveniente e otimizada que seja capaz de agrupar dados de acordo com suas características
espaciais e temporais. Essa representação permite que conjuntos de dados com
características espaciais e temporais semelhantes sejam representados por apenas um
registro na base de dados, possibilitando uma redução de casos a serem analisados.
No contexto desse trabalho, os dados que mais necessitam desse tipo de redução, são os
dados de descargas elétricas NS, por se tratarem de dados pontuais e por serem coletados à
uma alta freqüência (da ordem de centenas de nanossegundos), gerando com isso um
volume elevado de dados. Portanto, neste trabalho, busca-se agrupar as descargas elétricas
NS em entidades que se denominam Centros de Atividade Elétrica (CAEs), por meio de
técnicas de representação espacial discutidas a seguir.
Diversas metodologias foram testadas para a representação espaço-temporal das descargas
NS: paintball (plotar eventos), histogramas multivariados, clustering (agrupamento), bem
como técnicas baseadas em estimadores de densidade (Bailey e Gatrell, 1995), mais
precisamente o kernel estimator (Silverman, 1990). Nas seções seguintes, será apresentada
cada uma das técnicas investigadas.
41
3.2.1 – Paintball
Baseia-se em plotar cada uma das instâncias de descargas elétricas num dado instante, sendo
que nos instantes seguintes as ocorrências anteriores são preservadas, formando uma “área
marcada” que delimita a região onde ocorreu a atividade elétrica.
3.2.2 – Histogramas Multivariados
Divide-se o espaço onde as descargas elétricas estão distribuídas numa grade retangular de
tamanho fixo, e para cada célula da grade, calcula-se o número de descargas elétricas
ocorridas em um determinado intervalo de tempo. De acordo com o número de ocorrências
dentro de cada célula define-se uma escala de cor para facilitar a visualização.
3.2.3 – Clustering
Todos os algoritmos de clustering têm como objetivo agrupar em classes elementos com
características comuns, no caso descargas elétricas, buscando maximizar a similaridade
entre elementos de uma mesma classe (intra-classe) e minimizar a similaridade entre
elementos de classes distintas (inter-classe), de acordo com uma métrica pré-determinada,
como por exemplo, a distância Euclidiana (Chen, 2001). A aplicação das técnicas de
clustering ao estudo de sistemas convectivos objetiva, portanto fazer o agrupamento das
descargas elétricas em entidades com características comuns. Diversos algoritmos de
clustering foram testados, dentre eles: K-means, Expectation Maximization (EM), Cobweb,
Fuzzy K-Means, Subtractive Clustering e Hierarchical Cluster.
3.2.4 – Kernel Estimator
Nesta técnica, para o caso bidimensional, considera-se uma região genérica A que engloba
n ocorrências observadas localizadas em nxx ,...,1 e define-se uma região circular de
42
influência AS ⊂ centrada numa localização de interesse 0x , que constitui um ponto de
ocorrência, e delimitada por um raio de influência r , como esquematizado na Figura 3.1.
FIGURA 3.1 – Esquema ilustrativo da região de influência do estimador de nucleo.
Ajusta-se então uma função de densidade de probabilidade λ(r,x0) sobre as ocorrências
consideradas num intervalo de tempo determinado nessa região de influência S . Essa
função, desconhecida, compõe uma superfície cuja altura sobre o plano bidimensional
considerado será proporcional à quantidade de ocorrências por unidade de área, ponderando-
as pela distância de cada ocorrência a 0x .
A função λ(r,x0) é calculada a partir das m ocorrências localizadas em S , ajustadas por uma
função de interpolação K , conhecida como estimador de núcleo (kernel estimator) da
função de densidade de probabilidade λ(r,x0), conforme a Equação (3.1):
∑=
=m
iiyK
mrxr
120 )(
1),(λ (3.1)
em que rxxdy ii /),( 0= , na qual ),( 0 ixxd é a distância euclidiana de cada ponto da
ocorrência ix à localização de interesse 0x .
O raio de influência )0( >r que define a vizinhança do ponto a ser interpolado, controla a
“suavidade” da superfície gerada, sendo também chamado smoothing parameter. Quanto
43
maior for esse raio, mais suavizada será a superfície gerada, e vice-versa, sendo sua escolha
um fator importante, pois define o diâmetro médio dos campos gerados. A função de
interpolação K é também uma função de densidade de probabilidade, sendo, no entanto,
conhecida e escolhida convenientemente. Considerando-se que a função K seja simétrica, as
seguintes propriedades são satisfeitas:
∫∞
∞−
= 1)( dyyK , ∫∞
∞−
= 0)( dyyyK , e ∫∞
∞−
≠= 0)( 22 vdyyKy (3.2)
em que 2v é a variância da distribuição. Em conseqüência disso, λ(r,x0) pertence à classe de
funções contínuas com todas as suas derivadas contínuas.
Em resumo, aplica-se uma função de densidade de probabilidade conhecida (K ) a um
conjunto de ocorrências em S para se obter a função de densidade de probabilidade
desejada (λ ). Segundo Epanechnikov (1969), a escolha da função de interpolação K não é
crítica para o desempenho estatístico do método, mas certamente tem influência na
representação obtida. As funções K mais comuns estão apresentadas na Tabela 3.1:
TABELA 3.1 – Funções de interpolação K mais utilizadas.
)(yK Epanechnikov
− 2
51
154
3y , para 5<y
0 , caso contrário Biweight ( )221
1615
y− , para 1<y
0 , caso contrário Triangular y−1 , para 1<y
0 , caso contrário Gaussiano ( )2/2
21 ye −
π
Retangular 21 , para 1<y 0 , caso contrário
FONTE: Silverman (1990).
Segundo Silverman (1990), existem critérios para ajuste automático ótimo do parâmetro de
suavização r. O método mais amplamente utilizado para avaliar o valor de r, proposto por
44
Rosenblatt (1956), baseia-se no erro quadrático médio integrado (MISE – mean integrated
square error).
O MISE avalia a precisão global de uma dada função ∧f como estimador da função
verdadeira f, sendo definido por:
]))()({[ 2∫ −=∧
dxxfxfEMISE (3.3)
Quando λ(r,x0) é uma gaussiana, pode-se demonstrar que o MISE é minimizado para 5/1* mcr = , com
5/1
22364,1*
=
µσ
vc (3.4)
sendo µ a média e 2v a variância associadas à função de interpolação K , e σ o desvio
padrão da amostra de dados. Quando a função K é também uma gaussiana, então
σ06,1* =c , ou seja, 5/106,1 −= mr σ . Essa técnica para estimação do raio de influência é
freqüentemente utilizada, sendo conhecida como regra prática de Silverman (Silverman’s
rule of thumb), segundo Lee (2003).
3.3 – Comparação Entre as Técnicas Utilizadas
Dentre as técnicas de redução de dados espaço-temporais apresentadas na seção anterior, a
técnica paintball não foi satisfatória, pois a integração no tempo resultou em campos não
contínuos, i.e. campos que apresentavam ausência de descargas (“buracos”). Conforme o
intervalo de tempo escolhido para integração, o campo obtido por ser grande e descontínuo,
como se pode observar na Figura 3.2a. Além disso, essa técnica só permitia a identificação
visual dos núcleos convectivos.
45
No intuito de obter uma representação mais adequada, buscou-se agrupar as ocorrências de
descargas NS, em células de tamanho fixo numa grade retangular (histogramas
multivariados). Com a utilização dessa técnica, alguns dos problemas encontrados na
representação paintball foram solucionados, como por exemplo, a existência de “buracos”
nos campos encontrados. Entretanto, a descontinuidade espacial permaneceu, uma vez que,
em uma célula a atividade elétrica poderia estar relativamente intensa e na célula vizinha
poderia estar totalmente inativa, sem nenhum tipo de “suavização”, como pode ser
observado na Figura 3.2b. Cores quentes (tal como o vermelho) indicam um número elevado
de descargas dentro da célula e cores frias (como o azul), um número baixo. A ausência de
suavidade nessa representação torna-se mais evidente quando se observam os campos
gerados no instante posterior, devido à grande variação do número de descargas NS na
célula em questão. Outra desvantagem dessa técnica é que a grade retangular pode não
conter adequadamente um núcleo convectivo, mesmo considerando a possibilidade da
redução do tamanho de cada célula.
Para contornar o problema da descontinuidade espacial, e buscar formas que representem
mais precisamente os núcleos convectivos, utilizaram-se algoritmos de clustering. Dentre os
algoritmos de clustering testados, o cluster hierárquico é o que mais se aproximou dos
objetivos desse trabalho. Ele não necessita do número de clusters como parâmetro de
entrada. Além disso, faz com que os centros dos clusters coincidam com os centros reais e
possibilita a identificação das descargas pertencentes a cada cluster, sendo que o “diâmetro”
máximo pode ser ajustado pelo especialista. Entretanto após diversos testes, comprovou-se
que esta técnica também não era adequada. Isso ocorre, pois os clusters resultantes possuem
formatos irregulares (poligonais), e isso dificulta o acompanhamento da evolução temporal
desses núcleos de descargas, como se observa na Figura 3.2c. Os demais algoritmos de
clustering foram descartados devido à dependência de alguns parâmetros de entrada
previamente desconhecidos, como o número de clusters a serem encontrados.
A aplicação da técnica baseada no kernel estimator ao problema de uma estimativa de
localização dos núcleos convectivos (Figura 3.2d), proposta e desenvolvida neste trabalho,
possibilitou a identificação de regiões fontes de atividade elétrica mais suaves. O resultado
46
obtido foi uma imagem composta de campos que indicam a “concentração” de descargas
elétricas, cuja escala indica o número de descargas por área e por unidade de tempo
(conforme a NBR5419).
(a) - Paintball
(b) – Histogramas multivariados
(c) Clustering hierárquico
(d) – Kernel estimator
FIGURA 3.2 – Exemplos de métodos de representação espacial, analisados no dia 14 de
setembro de 1999 no intervalo das 04:00h. às 04:30h. (a) paintball, (b)
grupamento em grade, (c) cluster hierárquico e (d) kernel estimator.
Após os testes com as diversas metodologias, foi escolhida a técnica kernel estimator, em
razão da representação obtida (campo suavizado), às suas propriedades estatísticas, à
flexibilidade de conFiguração de seus parâmetros e devido à sua ampla aplicabilidade em
diversas áreas (Silverman, 1990; Grillenzoni, 2004; e Flahaut et al., 2003). A seguir essa
técnica será analisada em maiores detalhes.
47
Todos os testes da técnica kernel estimator, foram feitos utilizando 0,3º graus como tamanho
da célula da matriz bidimensional, devido às comparações visuais apresentarem melhores
resultados.
Uma das características avaliadas foi o tipo da função de interpolação K . A Figura 3.3
exemplifica as representações obtidas com os cinco tipos de função de interpolação K
descritas na Tabela 3.1, considerando-se r = 0,3º fixo. O período de ocorrências abrangido é
das 05:00 às 05:30 (UTC) do dia 14 de setembro de 1999 e então a imagem correspondente
integra as descargas temporalmente próximas do centro do intervalo, ou seja, o instante
05:15 (UTC), incluindo ocorrências 15 min anteriores e 15 min posteriores, sendo esse
instante utilizado para identificar a imagem. Os campos são visualizados com uma escala de
cores, correspondendo o vermelho à maior densidade de ocorrência de descargas.
(a) - Epanechnikov (b) – gaussiano
FIGURA 3.3 – Exemplos dos campos de estimação de densidade );3,0( 0xr =λ obtidos com
as diferentes funções de interpolação K : (a) Epanechnikov, (b) gaussiano,
(c) biweight, (d)triangular e (e) retangular.
(continua)
48
(c) - biweight (d) - triangular
(e) - retangular
FIGURA 3.3 – Conclusão.
Dentre os tipos de funções avaliadas, todas apresentaram representações semelhantes do
ponto de vista espacial, com variações apenas na escala do fenômeno. Optou-se pelo kernel
gaussiano pois este torna possível o uso de um critério automático para escolha do raio de
influência, conforme anteriormente exposto. Assim, a Figura 3.4, mostra as representações
obtidas com o kernel gaussiano para o mesmo intervalo de tempo da Figura 3.3, comparando
diferentes valores do raio de influência (r ) como valor ótimo dado pela regra prática de
Silverman. Nesta Figura, as ocorrências de descargas elétricas são representadas como
pontos pretos.
49
(a) Raio de Silverman (b) r=0,1
(c) r=0,3 (d) r=0,5
(e) r=1,0 (f) r=2,0
FIGURA 3.4 – Exemplos dos campos de estimação de densidade ),( 0xrλ obtidos com o
kernel gaussiano para diferentes valores do raio de influência (r): (a) r dado pela regra
prática de Silverman, (b) r= 0,1; (c) r=0,3; (d) r=0,5, (e) r=1,0 e (f) r=2,0.
50
Na Figura 3.4, é possível observar que quanto maior fo r o raio de influência, maior será a
superfície gerada e maior a suavização obtida. O raio de influência dado pela regra prática
de Silverman, que necessita ser calculado para cada célula da grade, mostrou ser o mais
adequado para o estudo realizado, pois os campos gerados delimitam de forma mais precisa
a região de atividade elétrica.
Outra característica avaliada na Figura 3.5 foi a variação do parâmetro “filtro”. Esse
parâmetro é responsável pela transformação dos valores contínuos dos campos gerados em
valores binários. Essa transformação torna-se necessária para segmentar os campos gerados
de acordo com a escala do fenômeno que se deseja analisar. Além dessa característica, esse
parâmetro pode ser utilizado para remover as descargas esparsas.
(a) Sem filtro
(b) f=0,05
FIGURA 3.5 – Exemplos dos CAEs obtidos com o kernel gaussiano para diferentes valores
do filtro para descargas esparsas:(a) sem filtro;(b) f=0,05.
51
(c) f=0,10
(d) f=0,20
(e) f=0,30
(f) f=0,50
FIGURA 3.5 (continuação) – Exemplos dos CAEs obtidos com o kernel gaussiano para
diferentes valores do filtro para descargas esparsas: (c) f=0,10; (d) f =0,20;
(e) f=0,30 e (f) f=0,50.
Como é possível observar, quanto menor o valor do filtro, maior é a correlação com a
imagem original obtida pelo kernel estimator. Por outro lado, nem sempre é interessante
obter essa semelhança, devido às estruturas resultantes poderem possuir uma área superior à
análise desejada. Ao utilizarem-se valores elevados de filtro, busca-se analisar estruturas
com atividade elétrica mais concentrada, tais como convecções locais. E valores baixos são
utilizados para analisar outros fenômenos, como por exemplo, sistemas convectivos de
mesoescala.
52
Na Figura 3.6, tem-se uma visualização dos resultados obtidos com o kernel gaussiano, para
dois instantes de tempo, confrontados com as imagens obtidas por meio do satélite geo-
estacionário GOES-8, canal 4 (infravermelho). As Figuras 3.5 (a) e (b) correspondem,
respectivamente aos instantes 23:00 (UTC) do dia 14/09/1999 e 05:00h (UTC) do dia
15/09/1999. Para esses instantes foram obtidas as imagens GOES, bem como aquelas
obtidas por meio do kernel gaussiano para intervalos de 1 hora centrados nesses instantes.
Como se pode observar, os CAEs encontram-se dentro das regiões delimitadas pelas nuvens
convectivas (áreas mais claras), e indicam quais dessas possuem atividade elétrica. Não há
uma correspondência exata entre as regiões de Cbs das imagens GOES com os CAEs, uma
vez que estes correspondem a intervalos de tempo, enquanto que as imagens são
instantâneas. Outrossim, essa confrontação tem caráter ilustrativo, uma vez que as escalas e
projeções cartográficas não são as mesmas nestes exemplos. Ressalta-se também que foram
tomadas as escalas de intensidade mais convenientes, em cada caso, para os CAEs. Contudo
a técnica estabelecida caracteriza um potencial de uso em comparação de campos,
viabilizando análises ou aplicações.
FIGURA 3.6 – Visualização dos campos obtidos com a técnica kernel gaussiano,
confrontada com as imagens do satélite GOES-8 Canal 4 (infravermelho): (a)
14/09/1999 às 23:00 (UTC), (b) 15/09/1999 às 05:00 (UTC).
(continua)
53
(a)
(b)
FIGURA 3.6– Conclusão.
Fonte: Mendes e Domingues, 2002 (imagens GOES-8).
Na Figura 3.7, tem-se uma seqüência temporal da evolução dos campos gerados pela técnica
kernel gaussiano, com raio de influência dado pela regra prática de Silverman, durante o
período das 05:00 às 07:00 (UTC) do dia 14 de setembro de 1999, com tempo de integração
de 15 minutos, sendo possível observar um comportamento suave e contínuo, que possibilita
um melhor acompanhamento dos núcleos convectivos.
54
FIGURA 3.7 – Campos de estimação de densidade ),( 0xrλ para quadros sucessivos com
tempo de integração de 15 minutos, durante o período das 05:00 às 07:00
(UTC) do dia 14 de setembro de 1999.
(continua)
CAE 1
55
FIGURA 3.7– Conclusão.
Nessa evolução, observa-se o pico de atividade elétrica na região de Foz do Iguaçu/PR
precisamente às 06:45 (UTC) (quadro 8).
Porém, como uma vantagem da técnica, é possível também fazer um acompanhamento não-
visual dos CAEs gerados pela técnica kernel estimator. Na Figura 3.8 observa-se o
acompanhamento de diversos parâmetros do CAE 1, situado inicialmente na latitude=-28,2º
e longitude=-51º, durante o mesmo período da Figura 3.7.
56
(a) nº de descargas (b) nº de descargas positivas
(c) nº de descargas negativas (d) carga
(e) área (f) densidade
FIGURA 3.8 – Exemplos do acompanhamento do CAE 1 de diversos parâmetros: (a) nº
descargas, (b) nº descargas positivas, (c) nº descargas negativas; (d) carga, (e)
área e (f) densidade.
A evolução temporal das características apresentadas nos gráficos da Figura 3.8, apresenta
informações detalhadas sobre um determinado CAE. Diante desse cenário, algumas
57
características podem representar um conhecimento interessante para o meteorologista ou ao
especialista interessado, como por exemplo, o parâmetro “carga”. Esse parâmetro indica a
quantidade de energia estocada em um determinado intervalo de tempo. A análise desse
parâmetro auxilia a identificação do período de formação e dissipação de um núcleo
convectivo. Além dessa, outras análises são possíveis.
Outra característica que pode ser avaliada é a polaridade das descargas elétricas. Na Figura
3.9 tem-se duas seqüências temporais da evolução dos campos gerados pela técnica kernel
gaussiano, com raio de influência dado pela regra prática de Silverman, durante o período
das 05:00 às 05:30 (UTC) do dia 14 de setembro de 1999, com tempo de integração de 15
minutos. A Figura 3.9a refere-se às descargas positivas, enquanto que a Figura 3.9b, às
negativas, podendo-se observar que o número de descargas positivas foi menor em relação
ao número de descargas negativas, nesse período analisado.
(a) descargas positivas
(b) descargas negativas
FIGURA 3.9 – Campos de estimação de densidade ),( 0xrλ para as descargas com
polaridades positivas (a) e negativas (b), para quadros sucessivos com tempo
de integração de 15 minutos, durante o período das 05:00 às 05:30 (UTC) do
dia 14 de setembro de 1999.
(continua)
59
CAPÍTULO 4
TEORIA DOS CONJUNTOS APROXIMATIVOS
No presente trabalho, na etapa de mineração de dados propriamente dita, foi utilizado o
sistema ROSETTA1 (Rough Set Toolkit for Analisys of Data), que é um software utilizado
para análise de dados baseado na Teoria dos Conjuntos Aproximativos (Øhrn, 1999). A
seguir apresentam-se algumas características dessa teoria e do sistema ROSETTA.
4.1 – Características
A Teoria dos Conjuntos Aproximativos foi desenvolvida por Zdzislaw Pawlak (1982) no
começo da década de 80 para lidar com dados incertos e vagos em aplicações de Inteligência
Artificial. Essa teoria tem se mostrado como uma base teórica para a solução de muitos
problemas com mineração de dados, principalmente no que diz respeito à redução de dados.
Uma das vantagens desta teoria é que não necessita de nenhuma informação preliminar ou
adicional sobre os dados, ao contrario do que acontece na teoria dos conjuntos nebulosos
que necessita de uma função de pertinência para transformar os dados reais em valores
nebulosos (Chen, 2001). Além dessa característica, destacam-se a obtenção de conjuntos
mínimos de dados que possibilitam a geração de regras de decisão, o tratamento quantitativo
da incerteza, métricas estatísticas para avaliar a importância das regras, e muitos dos
algoritmos são particularmente adaptáveis para o processamento paralelo.
A teoria dos conjuntos aproximativos baseia-se principalmente nas relações de
indiscernibilidade ou similaridade entre os objetos (registros). Essas relações permitem que
um sistema de informação (registros + atributos condicionais) seja particionado em classes
de equivalência, de acordo com determinados subconjuntos de atributos. Ao expandir o
1 http://rosetta.lcb.uu.se/general/download/
60
conceito de sistema de informação para sistema de decisão (registros + atributos
condicionais + atributos de decisão) podem-se obter situações ou regras não-determinísticas,
como por exemplo, registros que contenham os mesmos valores de atributos condicionais,
mas com valores de atributos de decisão diferentes (inconsistências). Devido à necessidade
de quantificar esse não determinismo, surgem os conceitos de aproximação inferior e
aproximação superior. Na primeira, os elementos do conjunto certamente pertencem à
determinada classe e na segunda os elementos possivelmente pertencem à classe. A
diferença entre aproximação superior e aproximação inferior forma a região conhecida como
borda ou fronteira.
4.2 – Definições
O entendimento dos conceitos ficará mais claro nas seções seguintes onde são apresentadas
definições formais e um exemplo de sua aplicação na mineração de dados. A seguir
apresentam-se as principais definições da teoria dos conjuntos aproximativos.
4.2.1 – Sistemas de Informação e Sistemas de Decisão
Um Sistema de Informação (SI) é um par ordenado ),( AUSI = onde U é um conjunto
finito de elementos não vazio chamado Universo, e A é um conjunto finito de elementos
chamados Atributos. Os elementos do Universo serão referenciados como Objetos. Cada
atributo Aa ∈ é uma função total aVUa →: , onde aV é o conjunto de valores para o
atributo a (Politi, 2001; Molestad, 1996).
Um Sistema de Decisão (SD) é um ),( AUSI = para quais os atributos em A são
classificados em conjuntos disjuntos de atributos de condição C e atributos de
decisão ),( ∅=∩∪= DCDCAD .
Um SD pode ser desnecessariamente grande apresentando redundâncias em pelo menos dois
aspectos:
61
• quando objetos “iguais” são representados muitas vezes;
• quando alguns atributos são supérfluos.
Com relação aos objetos “iguais” que são representados muitas vezes, existe uma relação de
equivalência, denominada Relação de Indiscernibilidade que tem a propriedade de agrupar
os objetos iguais em apenas uma classe.
Os atributos que são considerados “supérfluos” são removidos do SD por meio de uma
técnica chamada de Redução.
4.2.2 – Relação de Indiscernibilidade
Com um determinado subconjunto de atributos AB ⊆ em um SD é associada uma relação
de equivalência )(BIND , chamada Relação de Indiscernibilidade (Politi, 2001; Molestad,
1996), definida na Equação (4.1) como:
)()(|),{()( 2 yaxaUyxBIND =∈= para cada Ba ∈ }, (4.1)
em que )(/ BINDU representa o conjunto de todas as classes de equivalência da relação
)(BIND .
A intuição por trás da relação de indiscernibilidade é que, selecionando um conjunto de
atributos AB ⊆ define-se uma partição do universo em conjuntos de objetos que não
podem ser discernidos/distinguidos usando apenas os atributos em B .
Nas Seções seguintes, as definições são dadas em termos das classes de equivalência iE
induzidas pela relação de indicernibilidade )(/ BINDU ; e não pelos próprios objetos. Em
outras palavras, cada objeto iE é representado pela classe x , e essa classe contém todos os
objetos que são indiscerníveis de iE segundo os atributos de B .
62
4.2.3 – Reduções
Uma Redução de SD é um conjunto de atributos AB ⊆ tal que
)()( AINDBIND SDSD = . Em outras palavras, uma redução (RED(B)) é o conjunto “mínimo”
de atributos de A que preserva o particionamento do universo, em relação ao conjunto de
atributos original.
As reduções são calculadas a partir de uma matriz simétrica, chamada Matriz de
Discernibilidade, formada pelos atributos discerníveis (diferentes) de )(/ BINDU .
Formalmente essa matriz é dada pela Equação (4.2).
)(/,1,)},({)( BINDUnjijimBM nnDD =≤≤= × , (4.2)
A entrada ),( jimD na matriz de discernibilidade é o conjunto de atributos de B que
discernem classes de objetos )(/, BINDUEE ji ∈ , conforme a Equação (4.3):
)}()(|{),( jiD EaEaBajim ≠∈= para nji ,...2,1, = (4.3)
Uma vez construída a matriz de discernibilidade, seus elementos são organizados em uma
Função de Discernibilidade, composta pelas conjunções das disjunções dos elementos
),( jiD EEm , definida formalmente pela Equação (4.4).
(4.4)
A determinação das reduções é feita por meio da simplificação da função de
discernibilidade e é considerado um problema “NP-hard” (Skowron e Grzymala-Busse,
1991). Contudo, existem bons algoritmos estocásticos, por exemplo, baseados em
algoritmos genéticos, que computam as reduções em um tempo aceitável, caso o número de
atributos não seja muito alto.
}..1{, nji ∈
),( jiD EEm=)(Bf
63
É possível construir uma função de discernibilidade somente considerando uma coluna k
(variável relativa a um objeto específico) da matriz de discernibilidade, ao invés de todas as
colunas, para então obter a função de discernibilidade k-relativa.
O conjunto dos termos desta função, determina o conjunto de todas reduções k-relativas.
Estas reduções revelam a quantidade mínima de informações necessárias para discernir xk ∈
U (ou mais precisamente, [xk] ⊆ U) de todos os outros objetos.
4.2.4 – Aproximação dos Conjuntos
Segundo Skowron e Grzymala-Busse (1991) um sistema de decisão pode geralmente ser
dividido em duas partes distintas, uma é totalmente determinística (crisp) e outra não-
determinística (rough). A partição do universo, resultante da relação de indicernibilidade,
pode gerar classes que contenham valores iguais para os atributos condicionais e valores
diferentes para os atributos de decisão. Neste caso, existe uma inconsistência tornando essas
classes não-determinísticas. A noção de determinismo está relacionada com a aproximação
superior e inferior dos conjuntos.
A aproximação inferior XB definida na Equação (4.5) e a aproximação superior XB
definida na Equação (4.6) de um conjunto de objetos UX ⊆ com referência ao conjunto de
atributos AB ⊆ (definindo uma relação de equivalência em U ) podem ser definidas em
termos de classes na relação de equivalência, como segue (Politi, 2001; Molestad, 1996):
}|)(/{ XEBINDUEXB ⊆∈= U (4.5)
}|)(/{ ∅≠∩∈= XEBINDUEXB U (4.6)
Chamadas de aproximação B-Inferior e B-Superior, respectivamente. A região
XBXBXBNB −=)( é chamada de B-Borda de X . O conjunto XBUXEXT −=)( é então
chamado de B-região externa de X e estes objetos certamente podem ser classificados como
não pertencentes a X. A aproximação inferior XB é o conjunto de elementos de U que
64
podem ser classificados como “certamente dentro” de X, de acordo com o conjunto de
atributo B . O conjunto XB contém os objetos que podem “possivelmente” ser classificados
como elementos de X . A região da borda contém elementos que não podem nem ser
classificados como sendo definitivamente dentro ou definitivamente fora de X , novamente
usando atributos B . Na Figura 4.1, são ilustrados os conceitos acima descritos.
FIGURA 4.1 – Ilustração dos conceitos de aproximação inferior, superior, região de borda e
região externa.
4.2.5 – Geração de Regras
As reduções efetuadas em um SD podem ser sintetizadas em um conjunto mínimo de regras
chamadas de regras de decisão. Uma vez computadas as reduções, as regras podem ser
construídas por meio da leitura dos elementos e seus respectivos valores. O predecessor de
uma regra, também conhecido como Left Hand Side (LHS) é composto pelo conjunto de
atributos condicionais com seus respectivos valores, e são conectados com outros atributos
condicionais por meio do conectivo lógico “E”. O sucessor de uma regra, também
conhecido como Right Hand Side (RHS), é composto pelos valores dos atributos de decisão
com seus respectivos valores. Podem ocorrer situações não-determinísticas onde a conexão
entre os atributos de decisão é feita pelo conectivo “OU”.
Na seção seguinte, apresenta-se um exemplo detalhado de mineração de dados utilizando a
teoria dos conjuntos aproximativos para auxiliar na fixação dos conceitos acima descritos.
65
4.3 – Exemplo de Mineração de Dados
Na Tabela 4.1, observa-se um Sistema de Informação (SI), composto por 3 atributos
condicionais que representam a “Umidade”, “Pressão” e “Temperatura” de uma
determinada região, e os objetos xn representam as ocorrências observadas.
TABELA 4.1 – Sistema de informação.
Acrescentando o atributo de decisão “Descarga” (refere-se à ocorrência de descargas
elétricas), tem-se o Sistema de Decisão (SD) da Tabela 4.2. Aplicando a definição de
relação de indicernibilidade para todos os atributos (condicionais+decisão), agrupam-se
todos os objetos do SD em classes de equivalência. O número de objetos de cada classe de
equivalência é totalizado sendo representado pelo atributo suporte.
TABELA 4.2 – Sistema de decisão.
Umidade Pressão Temperatura Descarga Suporte E1 Baixa Alta Alta Sim 8 E2 Alta Baixa Alta Sim 10 E3 Alta Alta Muito alta Sim 7 E4 Baixa Alta Normal Não 10 E5 Alta Baixa Alta Não 7 E6 Baixa Alta Muito alta Sim 8
Por questão de simplicidade adotam-se as seguintes nomenclaturas para os atributos:
u = umidade;
p = pressão;
t = temperatura;
d = descarga;
Umidade Pressão Temperatura x1 Baixa Alta Alta x2 Alta Baixa Alta x3 Alta Alta Muito alta x4 Baixa Alta Normal x5 Alta Baixa Alta x6 Baixa Alta Muito alta ...
66
O universo e os atributos são respectivamente:
U = {E1, E2, E3, E4, E5, E6};
A = {u, p, t};
d = {d}.
O domínio dos atributos condicionais e o atributo de decisão são:
Vu = {Alta, Baixa};
Vp = {Alta, Baixa};
Vt = {Alta, Muito Alta, Normal};
Vr = {Sim, Não};
As classes de decisão são obtidas por meio do domínio de valores para o atributo de decisão,
neste caso se obtém duas classes:
X = ASim = {E1, E2, E3, E6};
Y = ANão = {E4, E5}.
Alguns exemplos da relação de indiscernibilidade são mostrados abaixo:
IND (u) = [{E1, E4, E6}, {E2, E3, E5}];
IND (p) = [{E1, E3, E4, E6}, {E2, E5}];
IND (u, p) = [{E1, E4, E6}, {E2, E5}, {E3}];
IND (A) = [{E1}, {E2 , E5}, {E3}, {E4}, {E6}];
Na Tabela 4.3 são observadas as aproximações para o SD. As aproximações são obtidas em
função da partição do Universo pelas classes de decisão. Simplificadamente, as
aproximações inferiores )(B são formadas por todos os objetos que apresentam valores dos
atributos condicionais únicos, não gerando decisões “contraditórias” (inconsistentes). Por
exemplo, tomando como referência a classe E1, não é encontrada nenhuma outra classe com
67
os valores de atributos condicionais iguais, portanto essa classe pode ser caracterizada como
“certamente” dentro da classe de decisão X.
As aproximações superiores )(B são formadas pelas aproximações inferiores e pelas classes
que geram decisões contraditórias. Em outras palavras, são formadas pelas classes que
apresentam valores de atributos condicionais “idênticos”, e valores do atributo de decisão
diferentes. Por exemplo, as classes E2 e E5 apresentam valores iguais para os atributos
condicionais e valores diferentes para o atributo de decisão, gerando a contradição. Portanto
essas classes são caracterizadas por pertencerem “possivelmente” a classe de decisão X ou a
classe de decisão Y.
TABELA 4.3 – Aproximações do sistema de decisão.
X = ASim Y = ANão =)(XB [{x1}, {x3}, {x6}]; =)(YB {x4};
=)(XB [{x1}, {x2, x5}, {x3}, {x6}]; =)(YB [{x4}, {x2, x5}];
BNB(X) = )(XB – =)(XB {x2, x5} BNB(Y) = )()( YBYB − = {x2, x5}
EXT(X) = U– =)(XB {x4}. EXT(Y) = U– =)(YB [{x1}, {x3}, {x6}].
A região de borda ou fronteira (BNB) é formada apenas pelas classes que apresentam
contradição, e a região externa (EXT) é formada pelos elementos que certamente não
pertencem à determinada classe.
A identificação dos atributos “supérfluos” é feita por meio das reduções. Para a
determinação das reduções é necessária a construção da matriz e da função de
discernibilidade. A construção da matriz de discernibilidade é feita por meio de uma
comparação entre os valores dos atributos para duas determinadas classes. Os atributos que
apresentam valores diferentes são colocados nas células da matriz de discernibilidade. Na
Tabela 4.4, observa-se a matriz de discernibilidade do SD. Note que a matriz é simétrica, e
bastaria apenas fazer metade desta matriz e espelhar o restante.
68
TABELA 4.4 – Matriz de discernibilidade.
E1 E2 E3 E4 E5 E6 E1 ∅ u, p u, t t u, p t E2 u, p ∅ p, t u, t ∅ u, p, t E3 u, t p, t ∅ u, t p, t u E4 t u, t u, t ∅ u, p, t t E5 u, p ∅ p,t u, p, t ∅ u, p, t E6 t u, p ,t u t u, p, t ∅
A construção da função de discernibilidade é feita por meio da concatenação dos atributos
de cada célula da matriz de discernibilidade pelo conectivo lógico OU (∨). Posteriormente,
cada célula é concatenada pelo conectivo lógico E (∧), como pode ser observado abaixo:
f(X) = (u∨p) ∧ (u∨ t) ∧ (t) ∧ (u∨p) ∧ (t)
(p∨ t) ∧ (u∨ t) ∧ (u∨p∨ t)
(u∨ t) ∧ (p∨ t) ∧ (u)
(u∨p∨ t) ∧ (t)
(u∨p∨ t)
É feita a simplificação booleana da função de discernibilidade, obtendo-se assim o conjunto
reduzido de atributos. Optou-se por este tipo de simplificação devido à simplicidade de
implementação e seleção. O conjunto obtido de atributos é:
f(X) = (u∨ t)
Portanto o atributo pressão (p) é desnecessário para a caracterização.
Então o novo SD após a redução é exibido na Tabela 4.5:
TABELA 4.5 – Sistema de decisão após reduções.
Umidade Temperatura Descarga Suporte E1 Baixa Alta Sim 8 E2 Alta Alta Sim 10 E3 Alta Muito alta Sim 7
69
E4 Baixa Normal Não 10 E5 Alta Alta Não 7 E6 Baixa Muito alta Sim 8
Ainda é possível reduzir as informações contidas no SD acima calculando as funções k-
relativas para cada classe, a partir da matriz de discernibilidade (cada coluna contém
informação de um elemento em relação aos outros), como é mostrado a seguir:
f(E1) = (u∨p) ∧ (u∨ t) ∧ (t) ∧ (u∨p∨ t) = (p∧ t)∨(u∧ t)
f(E2) = (u∨p) ∧ (p∨ t) ∧ (u∨ t) ∧ (u∨p∨ t) = (u∧p)∨(p∧ t)∨(u∧ t)
f(E3) = (u∨ t) ∧ (p∨ t) ∧ (u∨ t) ∧ (p∨ t) ∧ (u) = (u∧p)∨(u∧ t)
f(E4) = (t) ∧ (u∨ t) ∧ (u∨ t) ∧ (u∨p∨ t) ∧ (t) = t
f(E5) = (u∨p) ∧ (p∨ t) ∧ (u∨p∨ t) ∧ (u∨p∨ t) = p∨(u∧ t)
f(E6) = (t) ∧ (u∨p∨ t) ∧ (u) ∧ (t) ∧ (u∨p∨ t) = u∧ t
As funções k-relativas acima sugerem quais informações são necessárias para que uma
classe “E” mantenha sua classificação inicial de acordo com o número de atributos
condicionais reduzido. Por exemplo, na função f(E1) = (p∧ t)∨(u∧ t), observa-se dois termos:
o primeiro é composto pelos atributos “Pressão” e “Temperatura” e o segundo pelos
atributos “Umidade” e “Temperatura”. A redução feita da função f(X) apresenta os atributos
“Umidade” e “Temperatura”, sendo igual ao segundo termo da função f(E1). Portanto não
existe nenhuma redução de informação para esta classe. Por outro lado, para a classe E4
(f(E4) = t), observa-se apenas o atributo “Temperatura”. Isso indica que para essa classe, é
possível suprimir o atributo “Umidade”, pois ainda é mantida a relação IND(A). O SD após
a redução de valores pelas funções k-relativas é apresentado na Tabela 4.6.
TABELA 4.6 – Sistema de decisão após redução k-relativa.
Umidade Temperatura Descarga Suporte E1 Baixa Alta Sim 8 E2 Alta Alta Sim 10 E3 Alta Muito alta Sim 7 E4 * Normal Não 10 E5 Alta Alta Não 7 E6 Baixa Muito alta Sim 8
70
* - não necessário.
Em virtude das classes E2 e E5 apresentarem os mesmos valores de atributos condicionais
torna-se possível unir as duas classes, reduzindo o número de reduções, como pode ser
observado na Tabela 4.7.
TABELA 4.7 – Sistema de decisão reduzido.
Umidade Temperatura Descarga Suporte E1 Baixa Alta Sim 8
E2, E5 Alta Alta Sim ou Não 17 (10, 7) E3 Alta Muito alta Sim 7 E4 * Normal Não 10 E6 Baixa Muito alta Sim 8
A partir do sistema de decisão reduzido, são sintetizadas as regras de decisão por meio da
leitura dos objetos/classes e seus respectivos valores.
Na Tabela 4.8 são exibidas as regras de decisão formada a partir do sistema de decisão
reduzido, juntamente com suas respectivas métricas para avaliação.
TABELA 4.8 – Regras de decisão.
Id Regras Cov. RHS Acurácia 1 (u = Baixa) e (t = Alta) => (r = Sim) 0.24 1.00 2 (u = Alta) e (t = Alta) =>(r = Sim) ou (r=Não) 0.30, 0.41 0.59, 0.41 3 (u = Alta) e (t = Muito Alta) => (r = Sim) 0.21 1.00 4 (t = Normal) => (r = Não) 0.59 1.00 5 (u = Baixa) e (t = Muito Alta) => (r = Sim) 0.24 1.00
Maiores detalhes sobre as métricas de avaliação podem ser obtidas no final da Seção
4.4.1.
4.4 – O Sistema ROSETTA
O sistema ROSETTA é um conjunto de componentes de software utilizado para análise de
dados, baseado na Teoria dos Conjuntos Aproximativos. Foi desenvolvido em um esforço
71
cooperativo entre o Knowledge Discover Group da NTNU (Norwegian University of
Science and Technology), na Noruega e o Logic Group da Universidade de Varsóvia,
Polônia.
4.4.1 – Recursos Oferecidos
O sistema ROSETTA é capaz de suportar todo o ciclo de mineração de dados apresentado
na seção 2.7. Pode-se separar o sistema ROSETTA em duas partes distintas: kernel e front-
end. O kernel é uma biblioteca de classes desenvolvida em C++ para mineração de dados,
com suporte a teoria dos conjuntos aproximativos. O front-end é a interface gráfica do
usuário (Graphical User Interface – GUI) e foi desenvolvida para trabalhar em sistemas
operacionais Windows 95/98/NT. O kernel pode ser utilizado de dois modos: junto com a
GUI ou através de linhas comandos diretas (Øhrn, 1999).
4.4.2 - Importação de dados
O sistema ROSETTA oferece suporte à quase todos os tipos de fontes de dados pertinentes a
interface ODBC (Open Database Connectivity). Isto permite que o ROSETTA importe
dados tabulares diretamente de uma grande variedade de fontes, por exemplo, planilhas do
Microsoft Excel, arquivos de texto e bancos de dados de sistemas como Oracle®, dBase®
ou MSAccess®.
Durante a importação dos dados, são construídos dicionários de dados automaticamente.
Tais dicionários são metadados que contêm informação sobre atributos, por exemplo,
nomes, tipos e unidades. Toda a comunicação entre o kernel e o front-end é assinalada por
estes dicionários, de forma que a informação gerada para o usuário possa ser exibida em
condições do domínio de modelagem. Também podem ser importados dicionários de dados
e podem ser exportados explicitamente.
72
Pré-processamento
O sistema ROSETTA é capaz de remover registros de dados que estejam incompletos,
completar valores de atributos com valores determinados, substituir valores de atributos. Os
tipos de algoritmos de pré-processamento disponíveis são:
• Remove incompletes (Remoção de registros incompletes)
• Mean/mode fill (Preenchimento com a média)
• Conditioned mean/mode fill (Preenchimento condicional)
• Combinatorial completion (Preenchimento combinacional)
• Conditioned combinatorial completion (Preenchimento condicional-
combinacional)
Discretização
A transformação de dados pode acontecer em uma grande variedade de modos e essas
transformações normalmente são orientadas pela aplicação. O procedimento de
transformação mais comum em mineração de dados é a discretização. Basicamente
corresponde a uma aproximação mais “grosseira” do universo, fazendo uma redução no
conjunto de valores dos objetos. Para atributos numéricos, podem-se introduzir intervalos
que possibilitem a substituição por rótulos lingüísticos e permitam que sejam tratados de
forma qualitativa em lugar de entidades quantitativas. Para atributos simbólicos, podem-se
escolher categorias e fundi- las em uma única.
São implementadas várias funções de discretização alternativas dentro do sistema
ROSETTA, inclusive métodos baseados em preservação de discernibilidade, minimização
de entropia, “equal frequency binning” e várias aproximações Naive (Nguyen e Skowron,
1995; Nguyen e Nguyen, 1996). Atributos também podem ser discretizados manualmente.
Os tipos de algoritmos de transformação disponíveis são:
• Boolean reasoning algorithm (Algoritmo de raciocínio booleano)
73
• Manual discretization (Discretização manual)
• Entropy/MDL algorithm (Algoritmo de Entropia/MDL)
• Equal frequency binning (Freqüências iguais)
• Naive algorithm (Algoritmo Naive)
• Semi-naive algorithm (Algoritmo Semi-Naive)
• From file with cuts (A partir do arquivo de cortes)
• Boolean reasoning algorithm (RSES) - (Algoritmo de raciocínio booleano)
• From file with cuts (RSES) - (A partir do arquivo de cortes)
Neste trabalho, os algoritmos utilizados foram: discretização manual (cortes definido pelo
especialista), e Equal frequency binning.
Redução de atributos
As atuais opções do sistema ROSETTA para redução incluem algoritmos genéticos
(Vinterbo e Øhrn, 2000), heurísticos (Johnson, 1974), aproximações singulares (Holte,
1993), força bruta (Synak, 1995), reduções dinâmicas (Bazan et al., 1994), entre outros.
O ROSETTA também oferece várias opções de filtros para as reduções individuais ou
regras. Além de propriedades básicas como, por exemplo, cobertura e precisão, filtrando por
critérios que incluem custos de atributo, qualidades de atributos e desempenho
classificatório em bancos de dados. Os tipos de algoritmos de reduções disponíveis são:
• Genetic algorithm (Algoritmo Genético)
• Johnson’s algorithm (Algoritmo de Johnson)
• Holte’s 1R (Algoritmo de Holte)
• Manual reducer (Redutor manual)
• Dynamic reducts (RSES) (Redutores dinâmicos)
• Exhaustive calculation (RSES) (Força Bruta)
• Johnson’s algorithm (RSES) (Algoritmo de Johnson)
• Genetic algorithm (RSES) (Algoritmo Genético)
74
Neste trabalho, foi utilizado apenas o algoritmo genético, em virtude de apresentar os
melhores resultados preliminares.
Métricas para avaliação de regras
A seguir são definidas algumas métricas para quantificar os resultados obtidos através do
processo de mineração de dados.
Dado A como sendo um sistema de decisão, α como sendo a conjunção dos predecessores
que envolvem os atributos do sistema A , β (sucessor) denotando vd = , onde d é o
atributo de decisão e v pode ser qualquer valor do atributo de decisão, tem-se então
“ βα → ”, onde se lê “se α então β ”.
Por meio da regra de decisão exibida na Tabela 4.9, podem-se definir as métricas estatísticas
desse sistema.
Dados: U = 90; (Conjunto Universo – todos os elementos)
U (densidade ≥ 62) = 45; (Universo particionado pela densidade ≥ 62)
U (densidade < 62) = 45. (Universo particionado pela densidade < 62)
TABELA 4.9 – Regra de decisão obtida pelo ROSETTA.
Regra SLI([*,-1)) => Densidade([62,*)) OR Densidade([*,62))
Métricas Supp. (LHS) = [52 objeto(s)] Supp. (RHS) = [31 objeto(s), 21 objeto(s)] Acc. (RHS) = [0.596154, 0.403846] Cov. (LHS) = [0.577778] Cov. (RHS) = [0.688889, 0.466667] Length (LHS) = [1] Length (RHS) = [2]
75
Suporte
Indica o número de objetos que correspondem ao descritor α (LHS) e ao descritor β
(RHS). No exemplo dado na Tabela 4.3, 52 objetos são suportados pelo predecessor α, cujos
valores são: SLI < -1. Já no caso da conseqüência β , 31 objetos que possuem o α dado,
têm o atributo de decisão igual a Densidade > 62, e 21 objetos com Densidade < 62.
Acurácia
A acurácia (Acc. (RHS)) é definida por:
)()(
)(LHSSuppRHSSupp
RHSACC =
Para Supp. (RHS) = [31 objeto(s), 21 objeto(s)] e Supp. (LHS) = [51 objeto(s)], se tem:
596154,05131
)( ==RHSACC , para Densidade > 62
403846,05121
)( ==RHSACC , para Densidade < 62
Cobertura
As coberturas, Cov (LHS) e Cov (RHS), são definidas respectivamente:
||)(
)(U
LHSSuppLHSCov = ou
|)(|)(
)(vdU
RHSSuppRHSCov
x ==
76
Nota-se que cobertura indica a relação entre a “regra e o universo” ou a “classe de decisão a
qual ela pertence”. Regras com alta cobertura são consideradas mais
significativas. A cobertura, portanto, no exemplo dado, é:
Para Supp. (LHS) = [51 objeto(s)] e Supp. (RHS) = [31 objeto(s), 21 objeto(s)]:
577778,09051
)( ==LHSCov
688889,04531
)( ==RHSCov , para densidade > 62;
466667,04521
)( ==RHSCov , para densidade < 62;
Comprimento (Length)
Indica o número de predecessores e sucessores de uma regra de decisão.
Para o exemplo:
SLI([*,-1)) => Densidade([62,*)) OR Densidade([*,62))
Length (LHS) = 1, pois o número de atributos condicionais (predecessores) para esta regra é
igual a 1 (SLI).
Length (RHS) = 2, pois o número de valores do atributo de decisão (sucessores) para esta
regra é igual a dois (Densidade>62 e Densidade<62).
77
Automação e exportação de regras
O ROSETTA oferece apoio por automatização parcial de sucessões de comando longas e
repetitivas. Através de scripts, fluxos consecutivos de dados podem ser definidos e
executados.
Podem ser exportadas regras de decisão como conjuntos de regras codificadas na linguagem
Prolog, e C++. Isto estabelece um vínculo do sistema ROSETTA para máquinas de
inferência avançadas, onde as regras podem ser utilizadas junto com qualquer teoria de
domínio disponível como parte de um sistema especialista.
Outras características do sistema ROSETTA podem ser visualizadas no Apêndice C.
79
CAPÍTULO 5
NÚCLEOS CONVECTIVOS
Neste Capítulo são descritos alguns conceitos sobre a estrutura dos núcleos convectivos,
bem como o processo de formação e as técnicas de detecção de descargas elétricas nuvem-
solo. São apresentados também, índices de estabilidade baseados em perfis de temperatura,
pressão e umidade, que são integrados com os dados de descargas elétricas para fins de
mineração de dados.
5.1 – Estrutura Convectiva e Elétrica
Consideram-se núcleos convectivos um ou mais aglomerados de nuvens Cumulonimbus
(Cb). Estas nuvens são caracterizadas pelo forte movimento vertical e sua grande extensão,
atingindo cerca de 16 km a 18 km de altura nos trópicos. O processo de formação destas
nuvens depende da instabilidade atmosférica e das condições dinâmicas predominantes. Na
atmosfera existe água na forma de vapor misturado ao ar e é a condensação deste vapor que
origina as nuvens (MacGorman e Rust, 1998). O ciclo de vida dessas nuvens Cb divide-se
em três estágios: inicial (ou Cumulus), maduro e dissipativo. Estes estágios caracterizam-se
em função do sentido do movimento vertical predominante das correntes de ar em seu
interior. O ciclo de vida de uma Cb em geral é de uma a três horas. As nuvens Cb atuam
como um gerador elétrico, recompondo as cargas na atmosfera (MacGorman e Rust, 1998).
A estrutura elétrica das nuvens Cb pode ser caracterizada simplificadamente, como um
dipolo elétrico vertical com o centro de carga positiva principal na parte superior e o centro
de carga negativa na parte inferior. Dentro das nuvens, cargas intensas desenvolvem-se a
partir da colisão entre diferentes tipos de partículas como os cristais de gelo e granizo,
atingindo às vezes a carga elétrica total de até centenas de coulombs. Admitem-se algumas
variações para este processo de carregamento, que são os processos microscópicos e
80
macroscópicos com variações, denominados processo indutivo e processo termoelétrico,
respectivamente (Uman, 1987; Mendes e Domingues, 2002).
Os relâmpagos são constituídos por descargas elétricas atmosféricas, de caráter transiente,
portando uma alta corrente elétrica (em geral, superior a várias dezenas de quilo-ampéres).
Eles são conseqüências das cargas elétricas que se acumulam em nuvens Cb (10-100C) e
ocorrem quando o campo elétrico excede localmente a capacidade isolante do ar (>400
kV/m).
Devido à questão da segurança no ambiente cotidiano na superfície, os relâmpagos que
conectam nuvem-solo (NS) são de grande interesse e mais facilmente pesquisadas, sendo
objeto do presente estudo. Esses relâmpagos podem ser formados de apenas uma descarga
ou de múltiplas descargas (propriedade denominada multiplicidade), apresentando intervalos
entre descargas subseqüentes de 3 a 500 milissegundos, com o valor típico em torno de 40
milissegundos. Porém, se esses relâmpagos neutralizam cargas negativas do centro de onde
se originam, eles são denominados relâmpagos negativos; se neutralizam cargas positivas,
relâmpagos positivos (MacGorman e Rust, 1998; Uman, 1987; Volland, 1984).
Quanto às etapas de descarga, um relâmpago do tipo NS inicia-se por uma fraca descarga
luminosa, que se propaga geralmente do centro de carga da nuvem de tempestade em
direção ao solo criando um canal ionizado. Esta descarga é denominada líder escalonado
(stepped leader). O líder escalonado algumas vezes ramifica-se, contudo seus ramos podem
não estender-se até o solo. Quando a parte frontal do líder escalonado aproxima-se do solo,
o campo elétrico do solo torna-se suficientemente intenso para dar origem a uma descarga
do solo para a descarga incidente, chamada descarga conectante. Esta descarga geralmente
vinda de objetos pontiagudos no solo como árvores e edifícios, ao conectar-se com a parte
frontal do líder escalonado transforma-se numa descarga de intensa luminosidade
denominada descarga de retorno (stroke). Para que ocorram múltiplas descargas, é
necessário que ocorra uma nova descarga denominada líder contínuo. O líder contínuo
inicia-se na região onde se originou o líder escalonado propagando-se normalmente no canal
81
já ionizado pelo líder escalonado. Esse processo pode se repetir até o decaimento do canal
(Uman, 1987; Mendes e Domingues, 2002).
Os sistemas de detecção e localização de descargas atmosféricas do tipo NS baseiam-se em
alguns princípios simples, mas operacionalmente eficientes. A seguir apresentam-se as
técnicas de detecção mais utilizadas.
A técnica de Localização Direcional emprega duas ou mais antenas/sensores que medem o
ângulo azimutal entre o sensor e a descarga elétrica, mais especificamente o sinal decorrente
da descarga de retorno. Esse ângulo é tipicamente determinado por meio de 2 antenas
ortogonais em forma de anel (loop). Quando 3 ou mais antenas são utilizadas, pode ser
empregada a triangulação para minimizar os erros no ângulo medido. A técnica de Tempo
de Chegada emprega 3 ou mais antenas/sensores que medem a diferença dos tempos de
chegada do sinal da descarga elétrica. Cada par de sensores fornece uma curva hiperbólica
que descreve o lugar geométrico das localizações que satisfazem a diferença de tempo
medida. A intersecção de duas ou mais destas curvas possibilita localizar o ponto onde
ocorreu a descarga. Finalmente, o método Improved Accuracy from Combined Technology
(IMPACT), como expresso em seu nome, é a combinação das duas técnicas acima expostas.
Esta é a técnica empregada nos dados de ocorrências de descargas elétricas NS utilizados
neste trabalho, provenientes do Rede Integrada de Descargas Atmosféricas (RINDAT).
Além dos dados de descargas elétricas NS, foram utilizados dados observacionais de perfil
atmosférico e campos provenientes da análise utilizada para inicializar o modelo
meteorológico de mesoescala Eta/CPTEC (Chou, 1996).
O Eta/CPTEC é um modelo numérico de previsão de tempo em que a topografia é
representada em degraus, expressa por uma coordenada vertical conhecida como Eta
(Mesinger et al., 1988; Black, 1994). O modelo tem como variáveis de inicialização
principais a temperatura do ar, a componente zonal e meridional do vento, a umidade
específica, o geopotencial em vários níveis de pressão e a pressão à superfície. A partir
desses dados é possível calcular diversos índices relativos à estabilidade atmosférica.
82
Dentre os campos provenientes da análise utilizada para inicializar o modelo Eta/CPTEC,
utilizou-se as variáveis descritas na Tabela 5.1, sendo que algumas foram obtidas ao nível do
solo, e outras nos níveis de 200hPa, 500hPa e 850hPa.
TABELA 5.1 – Variáveis do perfil atmosférico.
Sigla Descrição Unidade Variáveis ao nível do solo psnm Pressão ao nível do mar hPa pslc Pressão de superfície hPa u10m Vento zonal à 10 metros m/s v10m Vento meridional à 10 metros m/s Variáveis em diversos níveis de pressão (200, 500 e 850)hPa zgeo Altura Geopotencial gpm uvel Vento Zonal m/s vvel Vento Meridional m/s temp Temperatura Absoluta K umrl Umidade Relativa - omeg Omega Pa/s umes Umidade Específica kg/kg
Todas as variáveis, referentes a diversos níveis de pressão, serão representadas, deste
ponto em diante, pelo seu nome seguido de um índice subscrito que indica o nível de
pressão. Por exemplo, uvel500 é o vento zonal no nível de 500hPa.
5.2 – Índices de Estabilidade
Os índices de estabilidade atmosférica utilizados neste trabalho são baseados em perfis
verticais de temperatura, pressão e umidade. Estes índices são usados para sintetizar
algumas características termodinâmicas típicas de situações convectivas. Os índices
utilizados na presente metodologia de mineração de dados são: Energia Potencial
Convectiva Disponível (CAPE), Inibição Convectiva (CIN ou CINE), Lift Index (SLI),
índice Totals (TT) e o índice K. A seguir é feita uma breve descrição dos mesmos.
83
5.2.1 – Índice CAPE
O índice CAPE avalia a Energia Potencial Convectiva Disponível, que é a energia
necessária para ascender uma parcela de ar verticalmente desde o nível de convecção livre
(LFC) até o nível de flutuabilidade neutra (LNB), (Williams, 1995; Williams e Renno, 1993;
Moncrieff e Green, 1972). O CAPE é expresso por:
dzT
TTgCAPE
LNB
LFC a
ap∫−
=
em que g é a aceleração da gravidade, pT é a temperatura de uma parcela de ar e aT é a
temperatura do ambiente. Tipicamente, valores de CAPE maiores que 1000 estão associados
a instabilidade atmosférica a qual pode dar origem a atividades convectivas.
Na Figura 5.1, é ilustrado a instabilidade condicional em um diagrama skew T log P. A linha
tracejada representa a temperatura do ponto de orvalho (Td), a linha preta e continua
representa a temperatura do ar (T) e a linha cinza e contínua representa o processo de
ascensão da parcela de ar. O CAPE é representado pela área positiva (cinza claro),
compreendida entre a curva do processo de ascensão da parcela e a sondagem real, desde o
nível de convecção livre (LFC) até o nível de flutuabilidade neutra (LNB).
84
FIGURA 5.1 – Ilustração da instabilidade condicional em um diagrama skew T log P. O
CAPE é representado pela área positiva (cinza claro), CIN é representado
pela área negativa (cinza escuro), e o SLI é representado a partir da diferença
entre a temperatura do ar e a temperatura da parcela no nível de 500hPa.
O uso do índice CAPE para estimar atividade convectiva deve levar em consideração dois
aspectos (Doswell e Rasmussen, 1994):
(a) Valores altos de CAPE podem não estar necessariamente associados a atividades
convectivas, pois podem estar ocorrendo fatores dinâmicos que inibam a
convecção. Isso se deve ao fato de o CAPE ser um índice de natureza
termodinâmica.
85
(b) O valor do CAPE é sensível à escolha da parcela de ar amostrada, a qual depende
da padronização escolhida para os níveis de integração.
5.2.2 – Índice CIN
O índice CIN refere-se à Inibição Convectiva, representando a energia necessária para
ascender pseudoadiabaticamente uma parcela de ar verticalmente desde a superfície até o
LFC ou do LNB até a tropopausa. Na Figura 5.1 o CIN representa a área negativa (cinza
escuro). Embora outros fatores possam ser favoráveis para o desenvolvimento da convecção,
se a inibição convectiva é suficientemente grande não haverá formação de convecção
profunda (Williams e Renno, 1993). O CIN é expresso por:
dzT
TTgCIN
LFC
SUP a
ap∫−
=
em que g é a aceleração da gravidade, pT é a temperatura de uma parcela de ar e aT é a
temperatura do ambiente.
5.2.3 – Índice SLI
O índice de levantamento SLI (Lift Index) é obtido pela diferença entre a temperatura
ambiente e a temperatura de uma parcela ascendida até a média troposfera (500 hPa).
Quando a parcela levantada é mais fria que o ambiente em 500 hPa, o SLI é positivo. Isso
implica que a parcela tem uma densidade maior que a do ambiente e tenderá a descer.
Similarmente, se a parcela levantada estiver mais quente que o ambiente, o SLI é negativo, e
a parcela tende a subir (Galway, 1958). O SLI é dado por:
)( 500 LTTSLI −=
86
em que 500T é a temperatura do ar ambiente em 500 hPa e LT é a temperatura da parcela
levantada até 500 hPa.O SLI pode ajudar a avaliar se as condições de estabilidade na média
troposfera favorecem a convecção, conforme ilustrado na Tabela 5.2.
TABELA 5.2 – Valores típicos de sli e tipo de estabilidade associado.
Intervalo Tipo de Enstabilidade SLI ≥ 0 Estável, mas há possibilidade de pequena convecção
-3 ≤ SLI < 0 Pequena instabilidade -6 ≤ SLI < -3 Instabilidade moderada -9 ≤ SLI < -6 Muito instável
SLI < -9 Extremamente instável FONTE: Science and Operations Officer, NOAA.
5.2.4 – Índice K
O índice K pode ser correlacionado com a probabilidade de ocorrência de tempestades. Um
valor de K maior que 35 indica grande possibilidade de desenvolvimento de convecção. Este
índice é uma medida de atividade convectiva baseada na taxa de variação vertical de
temperatura, e no conteúdo de umidade e extensão vertical da camada úmida na baixa
atmosfera (Domingues et al. 2004). A diferença de temperatura entre 850 hPa e 500 hPa é
utilizada para parametrizar a taxa de variação vertical de temperatura. A temperatura do
ponto de orvalho (Td) em 850 hPa provê informação do conteúdo de umidade na baixa
atmosfera. A extensão vertical da camada úmida é representada pela diferença entre a
temperatura do ar e a temperatura do ponto de orvalho em 700 hPa. O índice K é dado por:
)()( 700700850500850 TdTTdTTK −−+−=
em que 850T é a temperatura em 850 hPa, 500T é a temperatura em 500 hPa , 700T é a
temperatura em 700 hPa, 850Td é a temperatura do ponto de orvalho em 850 hPa e 700Td é a
temperatura do ponto de orvalho em 700 hPa. Valores típicos do índice K, associados à
atividade convectiva, podem variar de acordo com a localidade, a estação do ano e as
situações de tempo associadas.
87
5.2.5 – Índice Totals
O índice Totals (TT) é dado pela soma de outros dois índices convectivos, o Vertical Totals
e o Cross Totals. O primeiro expressa o gradiente de temperatura vertical (lapse-rate) entre
duas superfícies, em geral 850 hPa e 500hPa. O outro índice é a diferença entre a
temperatura do ponto de orvalho em 850 hPa e a temperatura do ar na média troposfera (500
hPa), estando associada ao teor de umidade nos baixos níveis atmosféricos (Miller, 1972). O
índice Totals é expresso por:
500850850 2)( TTdTTT −+=
em que 850T é a temperatura em 850hPa, 500T é a temperatura em 500hPa, 850Td é a
temperatura do ponto de orvalho em 850hPa.
Os valores críticos de TT para ocorrência de convecção variam de acordo com a região de
interesse, mas de um modo geral pode-se dizer que valores acima de 44 estão associados a
atividades convectivas.
89
CAPÍTULO 6
METODOLOGIA
6.1 – Objetivo
Objetivou-se desenvolver uma metodologia para mineração de dados voltada para a análise
de núcleos convectivos.
Como já foi discutido na Seção 2.7, devem-se seguir as etapas do processo de descoberta de
conhecimento em banco de dados. A seguir descreve-se detalhadamente cada uma das
etapas aplicadas ao problema.
6.2 – Definição do Problema
O problema consiste em caracterizar núcleos convectivos por meio de traçadores associados
a atividades termoelétrodinamicas, utilizando dados de descargas elétricas atmosféricas do
tipo nuvem-solo, dados para inicialização do modelo Eta/CPTEC e índices de estabilidade
obtidos em estações de radiosondagem. Essa caracterização é apresentada na forma de
regras de decisão do tipo “if-then” obtidas pelo software de mineração de dados ROSETTA,
e auxilia uma análise quantitativa da influência de alguns parâmetros meteorológicos na
atividade convectiva.
6.3 – Coleta e Seleção dos Dados
Neste projeto foram utilizados três tipos de fontes de dados. Nas Seções seguintes essas
fontes são descritas em maiores detalhes e quais variáveis foram selecionadas para serem
investigadas com as técnicas de mineração de dados.
90
6.3.1 – Dados de Descargas Elétricas
Os dados analisados são provenientes de vários instrumentos de medida e detecção de
descargas elétricas atmosféricas. Os dados são de natureza espaço-temporal e encontram-se
em arquivos textos no formato UALF, descrito no apêndice A. Foram utilizados dados da
segunda campanha do Experimento Interdisciplinar do Pantanal (IPE-2), que ocorreu
durante o período de 14 a 23 de setembro de 1999, e dados que englobam a terceira
campanha (IPE-3), do período de 1 de fevereiro a 30 de março de 2002. Na Figura 6.1, são
apresentadas as localizações das estações de coleta de dados do RINDAT (Rede Integrada
de Descargas Atmosféricas).
FIGURA 6.1 – Estações de coleta de dados de descargas elétricas do RINDAT.
Esses dados foram previamente analisados e caracterizados por especialistas, o que torna a
sua escolha de grande utilidade para validar a metodologia. Outro fator decisivo para a
escolha desses dados, refere-se a sua disponibilidade desde o início do projeto. Dentre todas
as variáveis contidas nos conjuntos de dados, foram utilizadas as seguintes:
• Variáveis temporais (ano, mês, dia, hora, minuto e segundo)
• Variáveis espaciais (latitude e longitude)
• Variáveis físicas (polaridade, pico de corrente, tempo de subida, tempo pico)
91
O domínio de valores para a variável polaridade, pode ser positivo ou negativo. A variável
pico de corrente é dada em Amperes, e a variável tempo de subida e tempo pico, são dadas
em segundos e correspondem ao tempo em que a descarga leva para atingir a intensidade de
corrente máxima, e o tempo em que a descarga leva para reduzir sua intensidade até zero,
respectivamente.
6.3.2 – Dados de Inicialização do Modelo Eta/CPTEC
Para inicialização do modelo Eta/CPTEC, utilizaram-se dados do NCEP, referentes ao
período correspondente aos experimentos IPE-2 e IPE-3. Esses dados encontram-se em
arquivos textos no formato GRIB1 (GRIdded Binary). Dentre as variáveis disponíveis nesses
arquivos, utilizou-se apenas as variáveis descritas na Tabela 5.1.
6.3.3 – Dados de Radiossondagens
Esses dados foram obtidos do CPTEC durante o período de 1 de fevereiro a 30 de março de
2002, e compreendem as estações de radiossondagens da aeronáutica pertencentes às regiões
Sul, Sudeste e Centro-Oeste do Brasil. A partir desses dados foram calculados os seguintes
índices de estabilidade para cada estação: CAPE, TT, SLI e K. O período de amostragem
desses dados varia de acordo com a estação de radiosondagem, sendo que em determinadas
estações os dados são coletados em períodos de 12 horas, e em outras em períodos de 24
horas, centrados em 00UTC e 12UTC.
6.4 – Pré-Processamento
Conforme citado na Seção 2.7, o processo de mineração de dados pode possuir uma
intersecção entre suas etapas, e essa intersecção torna-se mais evidente entre as etapas de
pré-processamento e transformação dos dados. Portanto, alguns dos passos descritos a seguir
podem ser considerados também como etapas de transformação.
1 http://www.wmo.ch/web/www/WDM/Guides/Guide-binary-2.html
92
Inicialmente foi necessário implementar diversos scripts na linguagem AWK para pré-
processar os dados brutos de descargas elétricas, a fim de torná-los adequados para a leitura
no ambiente MATLAB® (MATLAB=MATrix LABoratory). O MATLAB® foi escolhido
como ferramenta de pré-processamento e transformação dos dados, devido sua facilidade
para fazer cálculos com matrizes, seus comandos são muito próximos da forma com que são
escritas expressões algébricas (ao contrário da programação tradicional, tornando mais
simplificado o seu uso) e possui um sistema de visualização capaz de gerar gráficos
bidimensionais, tridimensionais, de maneira relativamente simples.
Os dados de inicialização do NCEP para o modelo Eta/CPTEC requerem um pré-
processamento para integrá- los ao ambiente MATLAB®, uma vez que esse ambiente não lê
diretamente arquivos no formato GRIB. Inicialmente, esses dados foram convertidos para o
formato NetCDF, utilizando scripts desenvolvidos para o sistema GRADS 1. Uma vez
convertidos para o formato NetCDF, os dados foram novamente convertidos para o formato
HDF utilizando um utilitário chamado CDF2HDF2, possibilitando assim, que fossem
integrados ao ambiente MATLAB®.
Os dados de índices de estabilidade derivados de radiossondagens, não necessitaram de
nenhum tratamento especial para serem incorporados ao ambiente MATLAB®. Após todos
os dados estarem disponíveis ao ambiente MATLAB®, inicia-se o pré-processamento
composto das seguintes etapas:
1) Eliminação de descargas elétricas com parâmetros incompletos ou impróprios: Essa
etapa torna-se necessária para construir uma base de dados consistente, eliminando registros
com valores impróprios de latitude e longitude, intensidade de pico ou valores nulos.
2) Eliminação de descargas elétricas fora da região de análise: o sistema permite que seja
selecionada apenas uma determinada região (zoom in), com base no retângulo envolvente
1 http://grads.iges.org/grads/grads.html 2 http://ioc.unesco.org/oceanteacher/resourcekit/M3/Converters
93
definido por valores máximos e mínimos de latitude e longitude, possibilitando uma redução
de dados a serem analisados.
3) Eliminação de descargas elétricas fora do intervalo de tempo especificado: o sistema
permite que seja selecionado o intervalo de tempo ao qual se deseja analisar, portanto
reduzindo o volume de dados.
4) Separação de descargas elétricas de acordo com sua polaridade: As análises podem ser
feitas utilizando todas as descargas, somente as descargas positivas ou somente as descargas
negativas.
5) Agrupamento das variáveis temporais ano, mês, dia, hora, minuto e segundo na
variável segundo: Ao considerar-se apenas uma variável temporal, torna-se mais fácil a
separação das descargas em fatias de tempo (maior detalhamento na Seção 6.5).
6) Cálculo da carga total de uma descarga: Novo parâmetro calculado a partir da
intensidade de pico, tempo de subida e tempo de descida, ambos em relação ao instante em
que é atingido esse pico. O cálculo é dado pela Equação (6.1)
2))(*( TDTSI
CARGA+
= , (6.1)
Em que I é a intensidade de pico, TS é o tempo de subida e TD é o tempo de descida.
Esse parâmetro foi utilizado como um fator de ponderação para a função kernel estimator
possibilitando portanto, a geração de CAEs associados a grandezas físicas, e não apenas a
localização geográfica das descargas.
6.5 – Transformação
Essa etapa tem por objetivo fazer a redução dos dados de descargas elétricas e integrá- los
com os outros parâmetros meteorológicos descritos nas Seções 5.1 e 5.2. No Capítulo 3,
foram analisadas diversas técnicas de redução de dados e concluiu-se que a mais adequada
94
ao caso de estudo é a técnica kernel estimator. Por essa razão, as outras técnicas
investigadas foram descartadas e o modo como foram implementadas não é descrito. A
seguir, descreve-se a implementação da etapa de transformação.
Inicialmente prepara-se uma matriz bidimensional cujo número de elementos nas dimensões
horizontal e vertical seja proporcional a área da região de análise. A proporcionalidade está
relacionada com um parâmetro denominado “definição”, definido pelo usuário, que indica
qual o comprimento em graus de uma célula dessa matriz. O número de elementos da matriz
é dado pela razão entre as diferenças dos máximos e mínimos de latitudes e longitudes dessa
região, e o parâmetro definição. Portanto, quanto menor o valor desse parâmetro, maior será
o número de elementos dessa matriz, proporcionando uma representação mais precisa dos
CAEs gerados. Por outro lado, esse aumento de precisão acarreta em uma perda
considerável de desempenho do sistema.
Para um melhor acompanhamento dos CAEs, um mapa político dessa região é gerado. Em
seguida é feita uma integração temporal dos dados de descargas elétricas em intervalos de
tempos definidos pelo usuário (parâmetro denominado no contexto do trabalho de
“timestep”), conforme a escala do fenômeno que se deseja estudar. Para cada elemento da
matriz bidimensional acima descrita, é então calculada a função kernel estimator, utilizando
os dados de descargas elétricas referentes ao interva lo de tempo integrado. Caso seja de
interesse do usuário, o mesmo poderá utilizar o parâmetro “carga” como fator de
ponderação para a função kernel estimator.
Ao final desse processo tem-se uma matriz composta pelos valores obtidos com a técnica
kernel estimator e com isso será possível fazer um acompanhamento dos CAEs gerados por
meio de imagens. Essas imagens, para os diversos intervalos de integração, são sintetizadas
em um arquivo de vídeo no formato AVI. A matriz deve passar por um filtro definido pelo
usuário, que tem como objetivo eliminar as descargas esparsas e permitir a identificação dos
CAEs mais ativos. Com o filtro, a matriz deixa de possuir valores reais e passa a possuir
valores binários possibilitando a identificação de cada CAE. Sem a aplicação desse filtro, é
95
possível que as estruturas encontradas possuam uma área muito grande, prejudicando a
integração com os demais parâmetros.
Cada CAE é então submetido ao processo de integração com os parâmetros meteorológicos,
e outros parâmetros. Esses parâmetros acrescentados representam um resumo das principais
características de um CAE, e são apresentados a seguir:
1) Centro: Indica em qual posição do espaço (latitude e longitude) encontra-se o centro de
um CAE. Existem 2 métodos para a determinação desse centro. O primeiro consiste no
“centro geométrico” propriamente dito, e o segundo é obtido por meio do “valor máximo”
retornado pela função kernel estimator ponderado pelo parâmetro “carga” para um
determinado CAE, representando portanto a região de atividade elétrica mais intensa. A
escolha dos métodos fica a critério do usuário, sendo mais recomendável o segundo método
devido a não dependência da geometria do CAE gerado.
2) Número de descargas: Indica o número total de descargas elétricas que pertencem a um
determinado CAE.
3) Área: Representa a área total de um CAE em graus.
4) Densidade: É calculada pela razão do número total de descargas pela área.
5) Número de descargas positivas: Indica o número total de descargas elétricas com
polaridade positiva que pertencem a um determinado CAE.
6) Número de descargas negativas: Indica o número total de descargas elétricas com
polaridade negativa que pertencem a um determinado CAE.
7) Carga: O valor de cada ponto para esse parâmetro é calculado multiplicando-se a carga
calculada de uma descarga elétrica (Equação 6.1) pela sua distância euclidiana até o ponto
em que se deseja estimar a densidade (ponto xo – Figura 3.1). Esse produto é então utilizado
como parâmetro para a função kernel estimator. Para um determinado CAE que abrange
96
diversos pontos da grade retangular, é então escolhido o maior desses valores para
representar a carga total de um CAE.
A integração com os outros parâmetros meteorológicos depende do tipo de fonte de dados
que se pretende integrar. A seguir descrevem-se os métodos de como a integração é feita
utilizando os dados para inicialização do NCEP para o modelo Eta/CPTEC, bem como a
integração com os dados processados em radiossondagens.
Devido a um melhor gerenciamento de memória, os dados de inicialização do NCEP para o
modelo Eta/CPTEC são lidos apenas nessa etapa de transformação. A integração é feita pela
identificação do ponto de grade do modelo mais próximo ao centro de um determinado
CAE, e a partir disso todas as variáveis do modelo (para aquele ponto) são incorporadas ao
registro do CAE.
Dois testes de pertinência foram utilizados para verificar se um determinado CAE encontra-
se na área de atuação de uma estação de radiosondagem. No primeiro teste, aplicável na
maioria dos casos, verifica-se se a estação está dentro do perímetro do CAE. No caso de
CAEs compostos por apenas um ponto de grade ou dispostos em uma única linha da matriz
bidimensional, nos quais não é possível determinar o perímetro, recorre-se ao segundo teste
de pertinência. Este teste consiste em verificar se uma estação está dentro de um “raio de
influência” pré-estabelecido, a partir do centro do CAE.
Após essa verificação, os parâmetros das estações de radiosondagem podem ser integrados
visando dois tipos diferentes de análises. Na primeira, tomam-se como referência os CAEs,
ou seja, para todos os CAEs são feitos os testes de pertinência e em caso positivo todos os
índices de estabilidade da estação de radiosondagem são incorporadas ao registro do CAE.
No segundo tipo de análise, tomam-se como referência as estações de radiosondagem, isto é,
para todas as estações de radiosondagem, verifica-se se existe algum CAE na região, e em
caso positivo é acrescentado apenas um parâmetro binário que indica a existência ou
ausência de CAEs nas proximidades.
97
O número de tabelas resultantes da integração vai depender do tipo de fonte de dados
utilizada. Para os dados de inicialização do modelo Eta/CPTEC, a integração resulta em uma
tabela com as informações resumidas dos CAEs e dos parâmetros do modelo. Já para os
dados das estações de radiosondagem, a integração resulta em duas tabelas, sendo uma com
base nos CAEs e a outra com base nas estações de radiosondagem.
Terminada a formação das tabelas integradas para todo o intervalo de tempo analisado,
inicia-se a identificação temporal dos CAEs. Esse procedimento é constituído pela
verificação das posições geográficas de um determinado CAE no decorrer do tempo.
Inicialmente, os CAEs são ordenados temporalmente. Então, o sistema toma como
referência um determinado CAE, e a partir dele, todos os registros de CAEs em intervalos
de tempo posteriores a ele passam por um teste que verifica se a distância espacial entre o
CAE de referência e o CAE atual é menor que um limite pré-estabelecido pelo usuário. Em
caso positivo, atribui-se a esses registros o índice do CAE de referência. Após a atribuição,
esses registros são removidos da tabela original e transportados para uma outra tabela com
os CAE já identificados. O processo é então repetido até que todos os registros da tabela
original sejam removidos e transportados para a tabela com os CAEs identificados.
Uma vez feita a identificação temporal dos CAEs, o sistema é capaz de plotar gráficos com
a evolução temporal de um determinado parâmetro para um dado CAE, possibilitando
estudar a variação da densidade, área, número de ocorrências e outros parâmetros,
permitindo que seja detectado o nascimento e morte de um núcleo convectivo. Ao final da
etapa de transformação são obtidas as saídas de resultados:
• Vídeos que representam a evolução espaço-temporal dos núcleos convectivos.
• Gráficos que representam a evolução temporal de alguns parâmetros de um núcleo
convectivo.
• Tabelas com as informações resumidas dos CAEs integrados com os outros
parâmetros meteorológicos. No caso de integração com os dados do NCEP, existe
apenas uma tabela, e no caso da integração com dados de radiosondagens existem
98
duas tabelas, conforme a descrição vista anteriormente. Essas tabelas são usadas
como parâmetro de entrada para o sistema de mineração de dados ROSETTA.
6.6 – Mineração de Dados e Interpretação
As tabelas obtidas com a etapa de transformação encontram-se em arquivos textos com os
campos separados por tabulações. Esses arquivos são importados para o formato MsExcel®,
e posteriormente importados pelo sistema ROSETTA.
No sistema ROSETTA, inicialmente é feita uma discretização com o objetivo de reduzir o
domínio de valores dos atributos. Essa discretização pode ser feita por meio de dois
métodos: o primeiro, chamado de discretização manual, consiste em utilizar a experiência de
um especialista no caso de estudo para definir os intervalos que formam as classes discretas.
O segundo método consiste em utilizar os algoritmos do próprio sistema ROSETTA, para
fazer a discretização de forma automática (Equal frequency binning).
Os dados discretizados são então submetidos a um algoritmo de redução (algoritmo
genético) baseado na Teoria dos Conjuntos Aproximativos, que gera regras de decisão que
devem ser avaliadas de acordo com as métricas estatísticas. As regras que devem possuir
maior importância são aquelas associadas a um alto significado estatístico, ou seja, uma
maior cobertura RHS, e são submetidas ao especialista para a validação de seu significado
físico ou até mesmo investigação de regras até então desconhecidas. Caso o resultado inicial
não seja satisfatório, pode ser feito um refinamento do processo.
No diagrama apresentado na Figura 6.2, é possível ter uma visão geral da metodologia
implementada. Inic ialmente os dados das diversas fontes disponíveis são inseridos no
ambiente MATLAB® por meio das técnicas descritas na Seção 6.4. Na etapa posterior, são
gerados imagens e vídeos do acompanhamento dos CAEs, os quais constituem a
visualização dos resultados obtidos pela aplicação da técnica kernel estimator. Ainda como
produto do ambiente MATLAB®, são geradas as tabelas compostas dos CAEs que são
utilizadas como dados de entrada para o sistemas ROSETTA. O sistema ROSETTA gera
99
então as regras de decisão que são interpretadas e validadas pelo especialista,
complementando as etapas da metodologia.
FIGURA 6.2 – Diagrama da implementação da metodologia.
MATLAB
Visualização
ROSETTA
Especialista
Dados NCEP -> ETA
Dados Radissondagens
Dados RINDAT Vídeos e
Imagens (CA
Tabelas (CAEs)
Regras
101
CAPÍTULO 7
RESULTADOS
Neste Capítulo são discutidos os resultados obtidos na mineração de dados, que no contexto
desse trabalho tem por objetivo encontrar correlações entre os dados de descargas elétricas
NS (representados por CAEs) e outros dados meteorológicos, de forma a auxiliar na
caracterização de núcleos convectivos.
Na Seção 3.4, foi discutida detalhadamente uma outra funcionalidade da metodologia
desenvolvida, referente ao acompanhamento dos núcleos convectivos. Por essa razão torna-
se desnecessária a exploração desses resultados neste Capítulo.
A seguir demonstram-se alguns testes para a mineração de dados.
7.1 – Descrição dos Testes
Foram realizados 16 testes que estão descritos na Tabela 7.1. O número de parâmetros
configuráveis dos testes é elevado, permitindo com isso uma grande quantidade de
combinações possíveis. Sem informações adicionais sobre os dados e do problema físico
propriamente dito, a escolha desses parâmetros torna-se muito complexa. Alguns parâmetros
foram definidos com o auxílio de um especialista, outros foram definidos empiricamente. Os
parâmetros definidos pelo especialista são: timestep (integração temporal – Seção 6.5),
CAPE, Dif_psnm/pslc, u10m, v10m, uvel, vvel e omega (Tabela 5.1). Todos os outros
parâmetros foram definidos empiricamente.
Os testes foram realizados na região limitada pelas latitudes mínimas e máximas de -30º à -
10º respectivamente, e pelas longitudes mínimas e máximas de -60º à -35º, como pode ser
observado na Figura 7.1.
102
FIGURA 7.1 – Região de análise.
O parâmetro “raio de influência” foi definido automaticamente pela regra de Silverman. O
filtro para as descargas esparsas foi definido empiricamente com o valor de 10%, baseado
em comparações visuais entre os testes realizados. Todos os testes utilizaram como tamanho
da célula da grade bidimensional o valor de 0,3º (cerca de 33 km), no intuito de obter uma
representação mais precisa dos CAEs. O valor escolhido para definir o corte para a
discretização do parâmetro CAPE foi 1000m2 /s2, em virtude de que valores acima desse
número apresentam uma instabilidade moderada.
TABELA 7.1 – Descrição dos testes realizados.
Identificador do Teste Parâmetro 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
MATLAB - Préprocessamento 1) Experimento 2 2 2 2 3 3 3 3 - - - - - - - - 2) Integração E E E E E E E E R R R R R R R R 3) Timestep(h) 1 3 1 3 1 3 1 3 1 1 3 3 1 1 3 3 4) Área de influência (º) - - - - - - - 1 1 1 1 1 1 1 1 1 5) Deslocamento(h) 0 0 0 0 0 0 0 0 0 6 0 6 0 6 0 6
ROSETTA – Discretização e Data Mining 6) Dif_psnm/pslc -/+ -/+ -/+ -/+ -/+ -/+ -/+ -/+ 7) U10M,v10m -/+ -/+ -/+ -/+ -/+ -/+ -/+ -/+ 8) Uvel, vvel -/+ -/+ -/+ -/+ -/+ -/+ -/+ -/+ 9) Omega -/+ -/+ -/+ -/+ -/+ -/+ -/+ -/+ 10) Demais param. 2 2 3 3 2 2 3 3 2 2 2 2 3 3 3 3
103
A seguir descrevem-se os parâmetros para melhor entendimento dos testes:
1) Experimento: Nos testes numerados de 1 à 4, o período de análise corresponde ao IPE-2,
e nos testes numerados de 5 à 8, o período de análise corresponde ao IPE-3. Do teste 9 ao 16
os dados de descargas elétricas NS utilizados são do período que engloba o experimento
IPE-3, e referem-se ao período de 01 de fevereiro a 30 de março de 2002.
2) Integração: “E”, indica que os dados de descargas elétricas foram integrados com dados
do modelo Eta/CPTEC, e “R” indica que foram integrados com índices de estabilidade
obtidos das estações de radiosondagem.
3) Timestep: O tempo de integração foi escolhido com o auxílio do especialista, no intuito
de não ultrapassar a duração típica de um núcleo convectivo.
4) Área de influência: indica a distância máxima em graus para verificação de pertinência
de um CAE nas proximidades das estações de radiosondagem.
5) Deslocamento: Consiste em deslocar a faixa de integração dos dados de descargas
elétricas, em um determinado número de horas. Os dados de descargas elétricas integrados
com os dados de inicialização do modelo Eta/CPTEC não necessitaram de deslocamento,
pois a taxa de amostragem do modelo é de 6 horas, possibilitando a análise de todos os
períodos de um dia. Por outro lado, os dados das estações de radiosondagem possuem taxas
de amostragem de 12 ou 24 horas, e são coletados às 00 UTC ou 12 UTC. Assim,
eventualmente, os dados de descargas a serem integrados com os dados das estações de
radiossondagem, podem compreender períodos em que a atividade elétrica é baixa, devido
ao horário local em que estariam ocorrendo. Por esse motivo, em alguns testes deslocou-se
de 6 horas os dados de descargas elétricas em relação aos horários de observação dos dados
das estações de radiossondagem.
104
6) Dif_psnm/pslc: Este parâmetro indica a variação da pressão atmosférica em relação ao
período anterior de amostragem do modelo Eta/CPTEC, ou seja, 6 horas. Optou-se por uma
abordagem qualitativa, no intuito de verificar se a pressão aumentou ou diminuiu.
7,8,9) u10m, v10m, uvel, vvel, omega: Optou-se por uma abordagem qualitativa visando
apenas determinar o sentido dos ventos meridionais e zonais. Os parâmetros uvel, vvel e
omega analisou-se apenas nos níveis de 850hPa, 500hPa e 200hPa.
10) Demais parâmetros : Os parâmetros restantes na análise são: temperatura (temp),
umidade específica (umes), umidade relativa (umrl) nos níveis de 850hPa, 500hPa e 200hPa.
Outros parâmetros são: inibição convectiva (CIN), índice K, e Totals (TT). Todos esses
parâmetros foram discretizados automaticamente, em 2 ou 3 intervalos possuindo o mesmo
número de elementos em cada um. (algoritmo Equal Frequency Binning – ROSETTA).
7.2 – Redução de dados
Conforme citado na Seção 3.1, a mineração de dados necessita ser um processo eficiente e
ao reduzir o volume de dados a ser analisado, possibilita-se que os algoritmos utilizados nas
etapas posteriores do ciclo de mineração de dados apresentem um desempenho melhor.
Na Figura 7.1. observa-se gráficos que representam os valores absolutos do número de
descargas NS e o número de CAEs formados a partir delas, para os testes descritos na
Tabela 7.1. Alguns testes não foram apresentados, pois representam os mesmos dados,
variando apenas o número de intervalos utilizado no sistema ROSETTA. Analisando esses
resultados no tocante à redução de dados (descargas agrupadas na forma de CAEs), o
sistema comportou-se de maneira eficaz reduzindo os dados iniciais em cerca de 99% .
105
11369
92
6552
87
17921
116
Negativas Positivas Todas
(a)
33990
110
19326
95
53316
129
Negativas Positivas Todas
(b)
26272
157
5190
125
31462
170
Negativas Positivas Todas
(c)
50148
174
10562
142
60710
189
Negativas Positivas Todas
(d)
58235
359
66846
303
125081
378
Negativas Positivas Todas
(e)
135429
54314906
357
150335
584
Negativas Positivas Todas
(f)
115004
37717379
341
132383
413
Negativas Positivas Todas
(g)
270231
58430598
417
300829
631
Negativas Positivas Todas
(h) FIGURA 7.2 – Resultados da redução dos dados de descargas elétricas em CAEs. As letras
indicam os respectivos testes: (a) Teste 1; (b) Teste 2; (c) Teste 5;
(d) Teste 6; (e) Teste 9; (f) Teste 10; (g) Teste 11; (h) Teste 12.
106
Na Figura 7.1 é possível observar a redução obtida para o número total de descargas
negativas, o total das positivas e o total geral. Note-se que, em cada caso de redução, o
número total de CAEs refere-se a uma geração de CAEs específica (negativos, positivos ou
totais). Assim, em cada teste, a soma do número de descargas positivas e negativas fornece o
número total, mas o mesmo não se aplica aos CAEs. Cada teste, do (1) ao (12), refere-se a
um determinado valor do parâmetro timestep. Observa-se que, quanto maior o intervalo de
tempo definido para a integração, maior será o número de descargas elétricas envolvidas no
processo de redução.
A redução do número de descargas elétricas obtida pela geração das entidades denominadas
CAEs, possibilitou a integração com as outras variáveis do perfil atmosférico, por meio das
técnicas descritas no Capítulo 6. Devido o número de CAEs resultantes ser
significativamente menor que o número de descargas elétricas, facilitando o uso do sistema
ROSETTA para a geração das regras.
7.3 – Regras
Para os testes realizados com os CAEs integrados com os dados do NCEP para inicialização
do modelo Eta/CPTEC, utilizaram-se 3 tabelas: descargas negativas, descargas positivas e
todas as descargas, totalizando 24 tabelas em virtude dos 8 testes realizados nessa categoria.
Essa divisão tornou-se necessária para agregar a variável física “carga” às ocorrências de
descargas negativas e positivas, enquanto que a tabela que contém todas as descargas utiliza
como parâmetro de decisão a “concentração”, levando em consideração apenas a
distribuição espacial das ocorrências, sem agregar/ponderar por meio de alguma variável
física, como por exemplo a própria carga. Os domínios de valores para a carga e a
concentração não são claramente definidos, uma vez que apresentam variações grandes em
função do número de descargas elétricas envolvidas, o intervalo do tempo de integração
definido, além de outros parâmetros.
107
Com a integração feita com os dados de radiossondagens, acrescenta-se uma tabela, que
indica a ocorrência de atividade elétrica nas proximidades das estações de radiosondagem,
totalizando 32 tabelas em virtude dos 8 testes para essa categoria.
Analisar essas 56 tabelas não é uma tarefa trivial, uma vez que retornam um grande número
de regras de decisão. Dentre todas as regras obtidas em todos os testes, selecionaram-se
apenas as 10 regras mais importantes para cada teste, ou seja, as que possuíam uma maior
cobertura RHS. Nas tabelas com regras no Apêndice B, exibem-se apenas as regras com
métricas estatísticas mais importantes descritas na Seção 4.4.1, no caso Sup LHS/RHS e
Cobertura RHS.
Para um melhor entendimento das regras, devem-se conhecer previamente os dados e a
forma com que fo ram processados/discretizados. Alguns parâmetros foram discretizados em
2 intervalos, isso indica que regras que possuem apenas esse parâmetro e apresentam
Cobertura RHS próxima a 50% devam ser desconsideradas, pois o significado estatístico é
baixo. Por outro lado, se esses 50% forem encontrados em regras que possuam mais de 1
parâmetro no LHS ou que o parâmetro seja dividido em mais que 2 intervalos, essa regra
deverá ser considerada. Portanto não basta analisar o percentual absoluto da regra, pois as
regras com parâmetros mais particionados ou com mais de 2 parâmetros, tendem a ter
Cobertura RHS com valores mais reduzidos.
A análise das regras será feita de forma global, uma vez que muitos parâmetros constituintes
das principais regras repetem-se em vários testes. Para uma consulta mais detalhada, deve-se
recorrer ao Apêndice B.
Na Tabela 7.2, foi feita uma verificação de quais os parâmetros mais importantes para a
tarefa de caracterização dos núcleos convectivos, ou seja, os parâmetros que mais ocorreram
no conjunto total de regras.
108
TABELA 7.2 – Classificação dos parâmetros mais importantes.
Número total de Regras = 461 Regras
Eta/CPTEC= 240 Regras
Radiosonda = 221
parâmetro nº de regras parâmetro
nº de regras parâmetro
nº de regras parâmetr o
nº de regras
dif_psnm 39 zgeo_200 22 cine_0 8 K 148 dif_pslc 11 zgeo_500 27 umes_200 7 TT 152 uvel_200 21 zgeo_850 19 umes_500 8 SLI 137 uvel_500 26 temp_200 10 umes_850 16 CAPE 124 uvel_850 7 temp_500 11 umrl_200 1 vvel_200 12 temp_850 14 umrl_500 2 vvel_500 20 omeg_200 34 umrl_850 3 vvel_850 20 omeg_500 34 u10m 8 omeg_850 15 v10m_0 7 cape_0 1
Observa-se nessa tabela que os parâmetros mais importantes para a integração com os dados
de inicialização do modelo Eta/CPTEC são: dif_psnm, omeg_200, omeg_500, zgeo_500,
uvel_500, zgeo_200, uvel_200, vvel_500 e vvel_850. Para os dados integrados com
estações de radiosondagem, é necessária a análise de todos os parâmetros, uma vez que a
diferença entre número de ocorrências nas regras é pequena. Essa tabela foi utilizada como
ponto de partida para a determinação das regras mais importantes.
A Tabela 7.3, apresenta a ocorrência dos valores dos parâmetros mais importantes para os
dados integrados com os dados de inicialização do modelo Eta/CPTEC, e é utilizada para
determinar os padrões globais encontrados.
109
TABELA 7.3 – Freqüência dos valores dos parâmetros mais importantes.
Parâmetro Nº de regras Pos Neg
dif_psnm 39 0 39 dif_pslc 11 0 11 uvel_200 21 21 0 uvel_500 26 26 0 uvel_850 7 4 3 vvel_200 12 10 2 vvel_500 20 10 10 vvel_850 20 0 20 u10m 8 1 7 v10m_0 7 0 7 omeg_200 34 0 34 omeg_500 34 0 34 omeg_850 15 0 15
A seguir, descrevem-se algumas interpretações desses parâmetros mais importantes para os
dados de inicialização do modelo Eta/CPTEC.
O parâmetro que teve maior destaque foi a variação de pressão (psnm/pslc), que apresentou
queda em 100% dos casos em que ocorreram atividade elétrica mais intensa, em relação às 6
horas anteriores. A atividade elétrica mais intensa está relacionada à valores altos do
parâmetro carga e concentração, que foram discretizados em 2 ou 3 intervalos, conforme a
Tabela 7.1. Além disso, as regras que contém esse parâmetro possuem os maiores índices de
cobertura RHS atingindo valores de até 83%.
A variável omega também foi de grande destaque na análise, apresentando valores negativos
em 100% dos casos, estando também relacionados com a atividade elétrica mais intensa,
para os três níveis de 200hPa, 500hPa e 850hPa. Outra característica interessante nesse
parâmetro, é que em 100% das regras está associado a alguma outra variável física, nunca
aparecendo isoladamente. Ao estar associado com outros parâmetros, a Cobertura RHS
tende a apresentar valores mais reduzidos, mas nesse caso, não apresentou grandes quedas e
podem-se observar regras com Cobertura RHS de até 76%.
Quanto aos ventos meridionais (vvel) observou-se um padrão comum aos dois
experimentos. Esse padrão reflete que os ventos meridionais em pequenas altitudes
(850hPa), ou próximas da superfície (v10m), apresentam sentido Norte-Sul em 100% dos
110
casos. Para as médias altitudes (500hPa) não são claramente definidos, apresentando 50%
para o sentido Sul-Norte e 50% para o sentido Norte-Sul. E nas grandes altitudes o sentido é
invertido em 83% dos casos, apresentando sentido Sul-Norte. Todos esses valores estão
associados à atividade elétrica mais intensa.
Para os ventos zonais (uvel) nos níveis de 200hPa e 500hPa, 100% dos casos apresentam o
sentido Oeste-Leste. Para o nível de 850hPa, 57% apresentam sentido Oeste-Leste e 43%
apresentam sentido Leste-Oeste.
Dois tipos de tabelas foram analisados para os dados integrados com os índices de
estabilidade obtidos a partir dos dados das estações de radiossondagem. No primeiro tipo de
tabela é verificada a ocorrência de descargas elétricas nas proximidades das estações de
radiossondagem, enquanto que no segundo tipo, é verificada a intensidade dos CAEs.
Os padrões encontrados para o primeiro tipo de tabela, indicam que a ocorrência de
descargas elétricas está relacionada a valores altos dos parâmetros K, TT, e a valores baixos
do parâmetro SLI. Por outro lado, a não ocorrência de descargas elétricas está associada a
valores opostos desses parâmetros.
Ao analisar-se o segundo tipo de tabela, verifica-se que além desses padrões serem comuns,
o parâmetro CAPE torna-se mais importante, aparecendo com maiores índices de cobertura
RHS e seus valores altos (acima de 1000m2/s2) estão sempre relacionados com atividade
elétrica mais intensa, e os valores baixos (abaixo de 1000m2 /s2) com pouca atividade
elétrica.
Os padrões descritos acima exibem as características globais das 56 tabelas analisadas.
Deve-se lembrar que para todos os conjuntos de regras, pode haver exceções que, no entanto
não comprometem o resultado e interpretação final. Uma análise minuciosa de regras
isoladas depende do nível de detalhamento que o especialista no domínio do problema
deseja.
111
O número elevado de tabelas analisadas dificulta a interpretação e avaliação dos padrões
encontrados. No entanto, esse número tornou-se elevado devido ao número de testes
executados, buscando explorar as várias características de conFigurações da metodologia
desenvolvida.
Em virtude dos intervalos de discretização dos índices de estabilidade K, TT e SLI serem
calculados automaticamente, os valores considerados baixos e altos apresentam variações.
Na Tabela 7.4, são apresentados os valores médios limite para cada índice de forma a se
delimitar 2 ou 3 intervalos de discretização.
TABELA 7.4 – Limites utilizados para a discretização dos valores dos indices de estabilidade.
2 intervalos 3 intervalos Baixo Alto
TT 45 44 47 K 34 32 36 SLI -1,2 -2,2 -0,3
Observa-se que valores de corte que são considerados baixos quando se utilizam 2 intervalos
podem ser considerados altos no caso de 3 intervalos. Essa característica pode resultar em
conclusões equivocadas, no caso de serem feitas análises globais. Entretanto, como neste
caso a variação dos intervalos é relativamente pequena, pode-se assumir essa aproximação.
113
CAPÍTULO 8
CONCLUSÃO
Neste trabalho desenvolveu-se uma metodologia para mineração de dados, aplicado ao
estudo de núcleos convectivos por meio de descargas elétricas atmosféricas nuvem-solo,
dados de perfis atmosféricos observacionais e campos provenientes da análise do NCEP
utilizada para inicializar o modelo Eta/CPTEC.
A metodologia desenvolvida também permitiu fazer um acompanhamento visual dos
núcleos convectivos em intervalos de tempo reduzidos, proporcionando uma melhor
continuidade espacial em relação às imagens produzidas por radares e satélites. Além desse
acompanhamento visual, é possível estudar a variação de diversos parâmetros relacionados
com os núcleos convectivos, tais como, carga, densidade, área, número de descargas entre
outros. Essa análise possibilita a identificação do período de formação e dissipação de um
núcleo convectivo, sendo de grande interesse por parte dos meteorologistas.
A implementação possui duas partes distintas: A primeira é responsável pelo pré-
processamento, redução e transformação de dados, integração com outras variáveis e
visualização, sendo desenvolvida na linguagem MATLAB®. E a segunda é responsável pela
mineração de dados propriamente dita e utiliza-se o sistema ROSETTA.
A mineração de dados deve ser um processo eficiente, e por essa razão uma das tarefas de
maior importância foi à redução de dados. Os dados de descargas elétricas NS foram os que
mais necessitaram de reduções, por se tratarem de dados pontuais e por serem coletados à
uma alta freqüência, gerando um grande volume de dados. Dentre as diversas técnicas
investigadas para a redução desses dados, optou-se pela técnica kernel estimator, em virtude
da representação obtida apresentar maiores semelhanças com as estruturas convectivas
114
identificadas em imagens de satélites. A utilização dessa técnica permitiu uma redução
significativa do volume total de dados, atingindo cerca de 99%. Essa redução viabilizou a
utilização dos algoritmos de mineração de dados do sistema ROSETTA.
Além da redução do volume de dados de descargas elétricas, a utilização da técnica kernel
estimator permitiu a integração com os dados de inicialização do NCEP para o modelo
Eta/CPTEC e com os índices de estabilidade processados nas estações de radiossondagem.
Na etapa de mineração de dados, o sistema ROSETTA apresentou um bom desempenho em
razão do volume reduzido de dados, e demonstrou diversas vantagens na sua aplicação.
Possui algoritmos de discretização, reduz o número de atributos, gera regras de decisão e
avalia a importância dos padrões.
A etapa de pré-processamento no ambiente MATLAB foi responsável pela maior parte do
tempo de desenvolvimento deste trabalho. Isso se justifica devido à dificuldade de encontrar
um método otimizado para a representação espacial e integração das descargas elétricas com
outros dados de diversas fontes e formatos. Essa etapa também foi responsável por cerca de
80% do tempo de processamento para cada teste realizado.
O número de testes executados foi elevado, visando explorar as variações dos principais
parâmetros de conFiguração, demonstrando a potencialidade da metodologia desenvolvida.
No entanto, devido ao grande número de parâmetros, não foi possível testar exaustivamente
todas as combinações possíveis.
Os padrões encontrados apresentam-se na forma de regras “if-then” e refletem as principais
correlações entre os dados de descargas elétricas NS, variáveis de inicialização do NCEP
para o modelo Eta/CPTEC, e índices de estabilidade processados em estações de
radiosondagem. Esses resultados expressam de forma resumida alguns dos padrões de
conhecimento geral dos meteorologistas para os conjuntos de dados analisados, portanto
validando a metodologia utilizada.
115
Uma das limitações atuais do sistema diz respeito à inserção de novos dados. Atualmente o
sistema é capaz de ler dados de descargas elétricas no formato UALF, dados do modelo
NCEP para inicialização do modelo Eta/CPTEC no formato HDF, e dados de estações de
radiossondagem no formato descrito no apêndice D. Entretanto, deve-se verificar o nome,
ordem e quantidade das variáveis, a fim de permitir que a integração seja feita de forma
adequada.
A metodologia desenvolvida é capaz de suportar todo o ciclo de KDD, pré-processando,
transformando, integrando e extraindo informações a partir de dados brutos de diversos tipos
e formatos. Os parâmetros de conFiguração permitem uma maior flexibilidade para que as
análises sejam refinadas de acordo com a necessidade dos usuários.
Trabalhos futuros
Os casos de estudo utilizados neste trabalho foram úteis no intuito de explorar a
flexibilidade da metodologia desenvolvida, bem como validar os padrões encontrados com o
auxílio dos meteorologistas. No entanto, é necessário realizar mais testes, com bases de
dados mais extensas, para encontrar padrões que sejam desconhecidos para a meteorologia e
áreas afins.
A metodologia foi desenvolvida utilizando a linguagem MATLAB® e outras ferramentas
para o pré-processamento dos dados. A utilização da metodologia para análises em bases de
dados mais extensas, demandaria uma implementação dos algoritmos numa linguagem de
alto nível, tal como C/C++ ou FORTRAN, de forma a otimizar o desempenho destes
algoritmos e possibilitar a paralelização do código.
Uma aplicação potencial da metodologia refere-se ao auxílio à previsão de tempo a
curtíssimo prazo. Alterando algumas estruturas referente à integração dos dados, será
possível analisar outras bases de dados visando aplicações específicas em diversos
domínios.
117
REFERÊNCIAS BIBLIOGRÁFICAS
Anderson, D. The Search for Extraterrestrial Intelligence. Berkeley: Technical report,
Space Sciences Laboratory, University of California at Berkeley, 1999. Disponível em:
<http://setiathome.ssl.berkeley.edu/> Acesso em: 20 maio 2004.
Bailey T. C.; Gatrell A. C. Interactive Spatial Data Analysis. England: Longman
Scientific & Technical, 1995.
Bazan, J. G., Skowron, A.; Synak, P. Dynamic reducts as a tool for extracting laws from
decision tables. In: International Symposium on Methodologies for Intelligent Systems, 869
of Lecture Notes in Artificial Intelligence, pages 346–355. Springer-Verlag, 1994.
Behnke, J.; Dobinson, E.; Graves, S.J.; Hinke, T; Nichols, D.; Stolorz, P. Workshop on
Issues in the Application of Data Mining to Scientific Data, Final Report, University of
Alabama in Huntsville, Oct. 19-21, 1999.
Bittencourt, G. Inteligência artificial: ferramentas e teorias. 2 ed. Florianópolis: Editora da
Universidade Federal de Santa Catarina, 2001. 362p.
Black, T. L. The new NMC mesoescale Eta model: description and forecast examples.
Weather and Forecasting, v. 9, n. 2, p. 265-278, 1994.
Chen, Z - Data mining and uncertain reasoning: an integrated approach. New York: John
Wiley & Sons, 2001.
Chou, S. Modelo Regional Eta. Climanálise Especial Edição Comemorativa de 10 anos,
p.27 , 1996. (MCT/INPE/CPTEC).
118
Domingues, M. O.; Mendes Junior, O.; Chou, S. C.; Sá, L. D. A.; Manzi, A. O. Análise das
condições atmosféricas durante a 2ª Campanha do Experimento Interdisciplinar do Pantanal
Sul Mato-Grossense. Revista Brasileira de Meteorologia, v.19, n.1, p. 73-88, 2004.
Doswell, C. A.; Rasmussen, E. R. The effect of neglecting the virtual temperature correction
on CAPE calculation. Weather and Forecasting, v. 9, n. 4, p. 625-629, 1994.
Elder IV, J. F.; Pregibon, D. A. Statistical perspective on knowledge discovery in data bases.
In: Fayyad U. M. et al. (ed.) Advances in knowledge discovery and data mining.
Cambridge: AAAI/MIT Press, 1996. p. 83-113.
Epanechnikov, V. A. Nonparametric estimation of multidimensional probability density.
Theory of Probabability and It´s Applications , v. 14, n. 2, p. 153-158, 1969.
Fayyad, U. M.; PiatetskyShapiro, G.; Smyth, P. The KDD process for extracting useful
knowledge from volumes of data. Communications of the ACM, v. 39, n. 11, p. 27-34,
1996.
Fayyad, U.,Weir, N.; Djorgovski, S. Automated cataloging and analysis of ski survey image
databases: the SKICAT system. In: Conf. on Information and Knowledge Management, 2.
Washington, DC. Proceedings...Washington, 1993. p. 527-536.
Flahaut, B.; Mouchart, M.; Martin, E. S.; Thomas, I. The local spatial autocorrelation and
the kernel method for identifying black zones - A Comparative Approach. Accident
Analysis and Prediction, v. 35, n. 6, p. 991-1004, 2003.
Foster, I. Designing and building parallel programs . New York: Addison-Wesley, 1995.
Galway, J.G. The lifted index as a predictor of latent instability. Bulletin of the American
Meteorological Society, v. 29, n. 37, p. 528-529, 1956.
119
Goldberg, D. E. Genetic algorithms in search, optimization, and machine learning.
Reading: Addison-Wesley, 1989.
Graves, S.J.; Ramachandran, R. ADaM: algorithm development and mining system. Earth
Observing System Investigators Working Group (IWG). Vail, CO, June 15-17, 1999.
Disponível em:
<http://datamining.itsc.uah.edu/adam/> Acesso em: 15 jun 2004.
Grillenzoni, C. Non-parametric smoothing of spatio-temporal point processes. Journal of
Statistical Planning and Inference, v. 33, n. 2, p. 25-36, 2004.
Haykin, S. Neural networks: A Comprehensive Foundation. New York: Macmillan
College Publishing Company, 1994.
Holte, R. C. Very simple classification rules perform well on most commonly used datasets.
Machine Learning, v. 11, n. 1, p. 63-91, April 1993.
Johnson, D. S. Approximation algorithms for combinatorial problems. Journal of
Computer and System Sciences, v. 9, n. 3, p. 256-278, 1974.
Komorowski, J.; Pawlak, Z.; Polkowski, L.; Skowron, A. Rough sets: a tutorial. In: Pal, S.;
Skowron, A. (ed.) Rough Fuzzy Hybridization. Singapore: Springer Verlag, 1999. p. 3-98.
Langley, P.; Elements of machine learning. Palo Alto-CA: Morgan Kaufmann, 1996.
Lee, S.; Lecture Notes for MECT2 Nonparametric Methods . London: University
College, 2003.
Marcelino, I. P. V. Análise de episódios de tornado em Santa Catarina: caracterização
sinótica e mineração de dados. 2003. (INPE-12145-TDI/969). Dissertação (Mestrado em
120
Sensoriamento Remoto) - Instituto Nacional de Pesquisas Espaciais, São José dos Campos.
2003.
May, M.: SPIN! an Integrated Spatial Knowledge Discovery Platform. Sankt Augustin:
Fachgruppentreffen Maschinelles Lernen der Gesellschaft für Informatik, Leopold 2000.
GMD Report. Disponíve em: <http://www.ais.fhg.de/KD/SPIN/index.html>. Acesso em: 15
jun 2004.
MacGorman, D. R.; Rust, W. D. The electrical nature of storms . Oxford: Oxford
University, 1998. 422 p.
Mendes Junior, O.; Domingues, M. O. Introdução a Eletrodinâmica Atmosférica – Revista
Brasileira de Ensino de Física, SBF, v. 24, n. 01, p.3-19, Março 2002.
Mesinger, F.; Janjic, Z. I.; Nickovic, S.; Deaevn, D. G. The step-mountain coordinate:
model description and performance for cases of alpine lee ciclogenesis and for case of
appalachian redevelopment. Monthly Weather Review, v. 17, n. 7, p.1493-1518, 1988.
Miller, R.C. Notes on analysis and severe storm forecasting procedures of the Air Force
Global Weather Central. Headquarters: Air Weather Service, USAF, 1972. 190 p.
Molestad, T., A Rough set Framework for Data Mining of Propositional Default Rules. In:
International Symposium on Methodologies for Intelligent Systems, 9. June 9-13.
Proceedings...Poland: Lecture Notes in Computer Science 1079 Springer, 1996.
Moncrieff, M.W., J.S.A. Green. The propagation of steady convective overturning in shear.
Quart. J. Roy. Meteor. Soc., v. 98, n. 3, p. 336-352, 1972.
Nguyen, H. S. and Nguyen, S. H.. Some efficient algorithms for rough set methods. In:
Conference on Information Processing and Management of Uncertainty in Knowledge-
121
Based Systems, 5. (IPMU’96), July 1996, Granada, Spain. Proceedings...Granada: IPMU,
1996. p. 1451–1456.
Nguyen, H S. and Skowron, A. Quantization of real-valued attributes. In: International Joint
Conference on Information Sciences, 2. Proceedings...Wrightsville Beach: MASL
Publications, September 1995. p. 34-37.
Nilsson, N. J., Principles of Artificial Intelligence. Palo Alto, CA: Tioga, 1980.
Øhrn, Aleksander. Discernibility and rough sets in medicine: tools and applications.
Department of Computer and Information Science. Norwegian University of Science
and Technology, 1999. Disponível em:
<http://rosetta.lcb.uu.se/general/download/> Acesso em: 22 março 2004.
Pang-Ning, T.; Steinbach, M.; Kumar, V.; Klooster, S.; Potter, C.; Torregrosa, A. Finding
spatio-termporal patterns in earth science data: goals, issues and results. KDD Temporal
Data Mining Workshop, KDD2001 (2001).
Pawlak, Z.; Rough Sets. International Journal of Computer and Information Sciences,
v. 11, n. 5, p. 341-356, 1982.
Piatetsky-Shapiro, G. Knowledge discovery in real databases: a report on the IJCAI-89
Workshop. AI Magazine , v. 11, n. 5, p. 68-70, Janeiro 1991.
Politi, J. Mineração de dados utilizando a metodologia dos conjuntos rough. Trabalho de
Conclusão de Curso desenvolvido para o curso de Engenharia de Computação. Santos:
Universidade Católica, 2001.
Politi, J.; Paiva, J.A.C., Pessoa, A.S.A. Uma aplicação de mineração de dados geográficos
utilizando a teoria dos conjuntos aproximativos. In: Congresso Nacional Matemática
122
Aplicada e Computacional, 26. São José do Rio Preto. Anais...São José do Rio Preto: INPE,
2003.
Politi, J.; Stephany, S.; Domingues, M. O. Implementação paralela de mineração de dados
aplicada ao estudo de núcleos convectivos. In: Workshop dos Cursos de Computação
Aplicada do Inpe, 3. São José dos Campos. Anais...São José dos Campos, INPE, 2003.
Politi, J.; Stephany, S.; Domingues, M.O.; Mendes Junior, O. Tracing atmospheric
convective activity by means of data mining techniques. In: Latin-America Conference on
Space Geophysics, 7. Atibaia. Proceedings...Atibaia, 2004.
Politi. J.; Stephany. S.; Mendes Junior, O.; Domingues, M. O. Implementação de um
ambiente para mineração de dados aplicado ao estudo de núcleos convectivos. In: Workshop
dos Cursos de Computação Aplicada do INPE (WORCAP-2004), 4. São José dos Campos.
Anais… São José dos Campos, 2004.
Politi. J., Stephany. S., Domingues, M. O., Mendes Jr. A data mining methodology for
tracing convective kernels from cloud-to-ground discharge and other atmospheric datasets.
In: LBA Scientific Conference, 3. Brasília. Proceedings...Brasília, 2004.
Politi, J.; Stephany, S.; Domingues, M. O.; Mendes Jr. O. Implementação de um ambiente
para mineração de dados aplicado ao estudo de núcleos convectivos. In: Workshop dos
Cursos de Computação Aplicada do Inpe, 4. São José dos Campos. Anais...São José dos
Campos, 2004.
Quinlan, J. R. C4.5: programs for machine learning. San Mateo, CA: Morgan Kaufmann,
1993.
Roddick, J. F., Spiliopoulou, M. A bibliography of temporal, spatial and spatio-temporal
data mining research. ACM SIGKDD, v. 1, n. 1, p. 254-259, June 1999.
123
Rosenblatt, M. Remarks on some nonparametric estimates of a density function. Ann.
Math. Statist., v. 27, n. 2, p. 832-837, 1956.
Shavlik, J. W.; Diettrich, T. G. Readings in machine learning. San Mateo: Morgan
Kaufmann, 1990.
Silverman, B. W. Density estimation for statistics and data analysis. Monographs on
Statistics and Applied Probability. New York: Chapman and Hall, 1990
Skowron, A.; Grzymala-Busse, J. From Rough Set Theory to Evidence Theory.
Technical report. Warsaw: University of Technology Publishing House, 1991.
Steinbach, M.; Tan, P.; Kumar, V.; Klooster, S.; Potter, C. Temporal data mining for the
discovery and analysis of ocean climate indices 2002.
Stolorz, P.; Mesrobian, E.; Muntz, R.; Santos, J.; Shek, E.; Yi, J.; Mechoso, C.; Farrara, J.
Fast spatio-temporal data mining from large geophysical datasets. In: International
Conference on Knowledge Discovery and Data Mining, 1. August 1995, Montreal, Quebec,
Canada. Proceedings...Montreal, 1995. p. 300-305.
Szalay, A.; Kunszt, P. Z.; Thakar, A.; Gray,J.; Slut, D. R. Designing and mining multi-
terabyte astronomy archives: The sloan digital sky survey. In: ACM SIGMOD.
Proceedings...New York: ACM Press, 2000. p. 451-462.
Synak, P. Rough set expert system user’s guide . Poland: Institute of Mathematics, Warsaw
University, 1995. Version 1.0.
Uman, M. A. The lightning discharge. Florida: Academic Press, 1987. 377 p.
Vinterbo, S.; Øhrn, A. Minimal approximate hitting sets and rule templates. International
Journal of Approximate Reasoning, v. 25, n. 2, p. 123-143, 2000.
124
Volland, H. Atmospheric electrodynamics. Berlin: Springer-Verlag, 1984. 205 p.
Weir, N.; Fayyad, U.; Djorgovski, S.; Roden, J. The SKICAT system for processing and
analyzing digital imaging sky surveys. Publications of Astronomy Society, v. 107, n. 3, p.
1243, December 1995.
Williams, E. Meteorological Aspects of Thunderstorms. Handbook of atmospheric
electrodynamics. London: CRC Press, 1995. cap. 2, v. 1.
Williams E.; Renno N. An analysis of the conditional instability of the tropical atmosphere.
Monthly Weather Review, v. 121, n. 1, p. 21-36, 1993.
Zadeh, L. A.; Fuzzy Sets. Information and Control, v. 8, n. 8, p. 65-70, 1965.
Zaïane, O. R. Principles of knowledge discovery in databases. Department of Computing
Science University of Alberta, 1999. Disponível em:
<http://www.cs.ualberta.ca /~zaiane/courses/cmput690/> Acesso em: 10 fev. 2004
125
APÊNDICE A – DESCRIÇÃO DO FORMATO UALF
O formato UALF é composto pelos seguintes campos: 1 2 3 4 5 6 7 8 9 10 11 12 13 0 1999 9 19 0 0 3 10953680 -20.57 -52.76 -19 0 0
14 15 16 17 18 19 20 21 22 23 24 25 3 147.4 7.90 0.6 1.5 4.0 51.2 -0.0 0 0 0 1
Campo Descrição 1 Inteiro positivo denotando o número da versão do formato UALF 2 Ano (todos os campos de data e hora são em Hora UTC) 3 Mês, sendo Janeiro como 1 e Dezembro como 12 4 Dia do mês, 1 a 31 5 Hora, 0 a 23 6 Minuto, 0 a 59 7 Segundo, 0 a 60 8 Nanosegundo, 0 a 999999999 9 Latitude da localização calculada em graus decimais, com 4 casas decimais, -90.0 a 90.0 10 Longitude da localização calculada em graus decimais, com 4 casas decimais, -180.0 a 180.0 11 Pico estimado de corrente em kilo-Amperes, 0 a 9999 12 Multiplicidade para dados de relâmpagos (1 a 99) ou 0 para strokes 13 Número de sensores participando na solução, 2 a 99 14 Grau de liberdade quando otimizando localização, 0 a 99 15 Ângulo da elipse girando no sentido horário a partir de 0 graus Norte, 0 a 180.0 graus 16 Comprimento do semi -eixo maior da elipse em quilômetros, 0 a 50.0km 17 Comprimento do semi -eixo menor da elipse em quilômetros, 0 a 50.0km 18 Valor do chi-quadrado da otimização da localização, 0 a 999.9 19 Tempo de subida da forma de onda em micro-secundos, 0 a 99.9 20 Tempo de pico até zero da forma de onda em micro-secundos, 0 a 999.9 21 Tempo de subida máxima da forma de onda em kilo-Amperes por micro-segundo, 0 a 999.9 22 Indicador de tipo de descarga, 1 se descarga nuvem-nuvem, 0 para nuvem-solo 23 Indicador de Ângulo, 1 se os dados de ângulo do sensor são usados para computar posição,
caso contrário:0 24 Indicador de Sinal, 1 se os dados de sinal do sensor são usados para computar posição, caso
contrário:0 25 Indicador de Tempo, 1 se os dados de tempo do sensor são usados para computar posição,
caso contrário:0
127
APÊNDICE B – REGRAS DE DECISÃO OBTIDAS
As regras de decisão apresentadas a seguir são compostas de um conjunto de predecessores
α e um conjunto de sucessores β , e devem ser lidas da seguinte forma: “se α então β ”.
São visualizadas três métricas estatísticas associadas às regras, e estão detalhadas na Seção
4.4.1. Quando uma regra apresenta mais que um sucessor, ela pode ser dividida em duas
regras. Utilizando a primeira regra como exemplo, a leitura é feita da seguinte forma:
“SE a diferença de pressão(dif_psnm) for negativa ([*,0)) ENTÃO carga > 28 em 74% dos
casos (Cov RHS – primeiro membro)”
“SE a diferença de pressão(dif_psnm) for negativa ([*,0)) ENTÃO carga < 28 em 33% dos
casos (Cov RHS – segundo membro)”
TABELA B.1 – Regras obtidas para o teste 1.
Regra Sup LHS Sup RHS Cov RHS(%)
Descargas Negativas
dif_psnm[*;0)=>carga[28;*) OR carga[*;28) 49 34;15 74;33
dif_psnm[*;0) AND uvel_500[0;*)=>carga[28;*) OR carga[*;28) 44 32;12 70;26
zgeo_850[*;1526)=>carga[28;*) OR carga[*;28) 46 30;16 65;35
uvel_500[0;*) AND temp_200[*;218)=>carga[28;*) OR carga[*;28) 41 25;16 54;35
omeg_850[*;0) AND omeg_200[*;0)=>carga[28;*) OR carga[*;28) 40 24;16 52;35
dif_psnm[*;0) AND u10m_0[*;0)=>carga[28;*) OR carga[*;28) 37 24;13 52;28
zgeo_850[*;1526) AND zgeo_500[*;5853)=>carga[28;*) OR carga[*;28) 31 24;7 52;15
omeg_850[*;0) AND zgeo_500[*;5853)=>carga[28;*) OR carga[*;28) 37 23;14 50;30
omeg_850[*;0) AND temp_500[*;264)=>carga[28;*) OR carga[*;28) 40 23;17 50;36
dif_psnm[*;0) AND vvel_850[*;0)=>carga[28;*) OR carga[*;28) 33 23;10 50;21
Descargas Positivas temp_200[*;218)=>carga[5;*) OR carga[*;5) 44 30;14 70;32
uvel_500[0;*) AND temp_200[*;218)=>carga[5;*) OR carga[*;5) 42 29;13 67;29
v10m_0[*;0) AND uvel_500[0;*)=>carga[5;*) OR carga[*;5) 45 29;16 67;36
omeg_500[*;0) AND omeg_200[*;0)=>carga[5;*) OR carga[*;5) 42 28;14 65;31
zgeo_850[*;1523) AND uvel_500[0;*)=>carga[5;*) OR carga[*;5) 43 28;15 65;34
zgeo_850[*;1523)=>carga[5;*) OR carga[*;5) 44 28;16 65;36
vvel_850[*;0) AND omeg_200[*;0)=>carga[5;*) OR carga[*;5) 39 27;12 63;27
vvel_500[*;0)=>carga[5;*) OR carga[*;5) 44 27;17 63;38
cine_0[*;-54)=>carga[*;5) OR carga[5;*) 44 17;27 39;63
temp_500[*;264)=>carga[5;*) OR carga[*;5) 44 27;17 63;39
128
TABELA B.1 (continuação) – Regras obtidas para o teste 1.
Regra Sup LHS Sup RHS Cov RHS(%)
Descargas Todas dif_psnm[*;0)=>conc[30;*) OR conc[*;30) 61 41;20 71;34
dif_psnm[*;0) AND uvel_500[0;*)=>conc[30;*) OR conc[*;30) 55 39;16 67;28
zgeo_850[*;1526)=>conc[30;*) OR conc[*;30) 58 38;20 66;34
zgeo_850[*;1526) AND uvel_500[0;*)=>conc[30;*) OR conc[*;30) 57 38;19 66;33
temp_200[*;218)=>conc[30;*) OR conc[*;30) 58 37;21 64;36
vvel_850[*;0) AND omeg_500[*;0)=>conc[30;*) OR conc[*;30) 58 37;21 64;36
vvel_850[*;0) AND omeg_200[*;0)=>conc[30;*) OR conc[*;30) 51 36;15 62;26
zgeo_500[*;5851)=>conc[30;*) OR conc[*;30) 58 36;22 62;38
zgeo_200[*;12346)=>conc[30;*) OR conc[*;30) 58 36;22 62;38
omeg_850[*;0) AND omeg_200[*;0)=>conc[*;30) OR conc[30;*) 54 18;36 31;62
129
TABELA B.2 – Regras obtidas para o teste 2.
Regra Sup LHS Sup RHS Cov RHS(%)
Descargas Negativas dif_psnm[*;0)=>carga[110;*) OR carga[*;110) 63 43;20 78;36
temp_850[292;*)=>carga[110;*) OR carga[*;110) 55 38;17 69;30
umes_850[0.01061;*)=>carga[110;*) OR carga[*;110) 55 37;18 67;32
dif_psnm[*;0) AND u10m_0[*;0)=>carga[110;*) OR carga[*;110) 54 37;17 67;30
umrl_850[*;66)=>carga[*;110) OR carga[110;*) 55 20;35 63;27
dif_psnm[*;0) AND uvel_850[*;0)=>carga[110;*) OR carga[*;110) 50 35;15 63;27
umes_200[0.00006;*)=>carga[*;110) OR carga[110;*) 56 23;33 41;60
temp_850[292;*) AND umrl_850[*;66)=>carga[110;*) OR carga[*;110) 45 33;12 60;21
temp_850[292;*) AND uvel_500[0;*)=>carga[110;*) OR carga[*;110) 47 32;15 58;27
u10m_0[*;0) AND temp_850[292;*)=>carga[110;*) OR carga[*;110) 42 32;10 58;18
Descargas Positivas
temp_200[*;218)=>carga[13;*) OR carga[*;13) 48 34;14 72;29
uvel_500[0;*) AND temp_200[*;218)=>carga[13;*) OR carga[*;13) 45 32;13 68;27
uvel_500[0;*) AND omeg_200[*;0)=>carga[13;*) OR carga[*;13) 51 32;19 68;39
zgeo_850[*;1527) AND uvel_500[0;*)=>carga[13;*) OR carga[*;13) 45 31;14 65;29
zgeo_850[*;1527)=>carga[13;*) OR carga[*;13) 48 31;17 65;35
cine_0[*;-43.95520)=>carga[13;*) OR carga[*;13) 48 29;19 61;39
zgeo_200[*;12359)=>carga[13;*) OR carga[*;13) 48 28;20 59;41
vvel_850[*;0) AND omeg_500[*;0)=>carga[13;*) OR carga[*;13) 42 28;14 59;29
cine_0[*;-43) AND uvel_500[0;*)=>carga[13;*) OR carga[*;13) 43 27;16 57;33
temp_850[292;*)=>carga[13;*) OR carga[*;13) 47 27;20 57;41
Descargas Todas
dif_psnm[*;0)=>conc[148;*) OR conc[*;148) 71 47;24 73;36
omeg_500[*;0) AND omeg_200[*;0)=>conc[148;*) OR conc[*;148) 60 41;19 64;29
vvel_850[*;0) AND omeg_500[*;0)=>conc[148;*) OR conc[*;148) 59 38;21 59;32
umes_500[0.00201;*)=>conc[148;*) OR conc[*;148) 63 38;25 59;38
umrl_500[50;*)=>conc[148;*) OR conc[*;148) 64 38;26 59;40
temp_850[292;*)=>conc[148;*) OR conc[*;148) 64 38;26 59;40
dif_psnm[*;0) AND omeg_200[*;0)=>conc[148;*) OR conc[*;148) 49 37;12 57;18
vvel_850[*;0) AND omeg_200[*;0)=>conc[148;*) OR conc[*;148) 55 37;18 57;27
omeg_850[*;0) AND omeg_200[*;0)=>conc[148;*) OR conc[*;148) 55 37;18 57;27
dif_psnm[*;0) AND omeg_500[*;0)=>conc[148;*) OR conc[*;148) 47 35;12 54;18
130
TABELA B.3 – Regras obtidas para o teste 3.
Regra Sup LHS Sup RHS Cov RHS(%)
Descargas Negativas dif_psnm[*;0)=>carga[96;*) OR carga[*;14) OR carga[14;96) 49 24;11;14 80;35;45
dif_psnm[*;0) AND uvel_500[0;*)=>carga[96;*) OR carga[*;14) OR carga[14;96) 44 22;8;14 73;25;45
dif_psnm[*;0) AND omeg_850[*;0)=>carga[96;*) OR carga[*;14) OR carga[14;96) 39 20;11;8 66;35;25
omeg_850[*;0) AND omeg_200[*;0)=>carga[96;*) OR carga[*;14) OR carga[14;96) 40 18;9;13 60;29;41
zgeo_850[*;1520)=>carga[96;*) OR carga[*;14) OR carga[14;96) 31 17;4;10 56;12;32
dif_psnm[*;0) AND u10m_0[*;0)=>carga[96;*) OR carga[*;14) OR carga[14;96) 37 17;9;11 56;29;35
dif_psnm[*;0) AND vvel_850[*;0)=>carga[96;*) OR carga[*;14) OR carga[14;96) 33 17;7;9 56;22;29
dif_psnm[*;0) AND omeg_500[*;0)=>carga[96;*) OR carga[14;96) OR carga[*;14) 29 16;6;7 53;19;22
dif_psnm[*;0) AND v10m_0[*;0)=>carga[96;*) OR carga[*;14) OR carga[14;96) 30 16;6;8 53;19;25
dif_psnm[*;0) AND uvel_850[*;0)=>carga[96;*) OR carga[*;14) OR carga[14;96) 34 16;8;10 53;25;32
Descargas Positivas
vvel_500[*;0)=>carga[33;*) OR carga[1;33) OR carga[*;1) 44 22;10;12 76;34;41
vvel_850[*;0) AND vvel_500[*;0)=>carga[33;*) OR carga[1;33) OR carga[*;1) 33 22;5;6 76;17;20
zgeo_500[*;5820) AND vvel_500[*;0)=>carga[33;*) OR carga[1;33) 25 22;3 76;10
zgeo_500[*;5820) AND omeg_500[*;0)=>carga[33;*) OR carga[1;33) OR carga[*;1) 26 22;3;1 76;10;3
zgeo_850[*;1508) AND vvel_850[*;0)=>carga[33;*) OR carga[1;33) 26 22;4 76;14
v10m_0[*;0) AND omeg_500[*;0)=>carga[33;*) OR carga[*;1) OR carga[1;33) 38 22;10;6 76;34;20
zgeo_850[*;1508)=>carga[33;*) OR carga[1;33) 29 22;7 76;24
vvel_500[*;0) AND omeg_500[*;0)=>carga[33;*) OR carga[1;33) OR carga[*;1) 34 22;5;7 76;17;24
vvel_850[*;0) AND zgeo_500[*;5820)=>carga[33;*) OR carga[1;33) OR carga[*;1) 25 22;2;1 76;6;3
zgeo_850[*;1508) AND zgeo_500[*;5820)=>carga[33;*) OR carga[1;33) 25 22;3 76;10
Descargas Todas
dif_psnm[*;0) AND uvel_500[0;*)=>conc[106;*) OR conc[8;106) OR conc[*;8) 55 28;17;10 74;44;26
omeg_850[*;0) AND omeg_200[*;0)=>conc[*;8) OR conc[8;106) OR conc[106;*) 54 10;18;26 26;46;68
zgeo_850[*;1516)=>conc[106;*) OR conc[8;106) OR conc[*;8) 39 24;8;7 63;21;18
vvel_850[*;0) AND omeg_200[*;0)=>conc[106;*) OR conc[8;106) OR conc[*;8) 51 24;18;9 63;46;23
dif_psnm[*;0) AND vvel_850[*;0)=>conc[106;*) OR conc[8;106) OR conc[*;8) 45 24;13;8 63;33;21
dif_psnm[*;0) AND omeg_850[*;0)=>conc[8;106) OR conc[106;*) OR conc[*;8) 47 15;23;9 38;61;23
dif_psnm[*;0) AND omeg_200[*;0)=>conc[106;*) OR conc[8;106) OR conc[*;8) 41 23;14;4 61;36;10
dif_psnm[*;0) AND v10m_0[*;0)=>conc[106;*) OR conc[8;106) OR conc[*;8) 40 23;10;7 61;26;18
zgeo_500[*;5834)=>conc[106;*) OR conc[8;106) OR conc[*;8) 39 23;9;7 61;23;18
v10m_0[*;0) AND omeg_500[*;0)=>conc[106;*) OR conc[*;8) OR conc[8;106) 47 23;10;14 61;26;36
131
TABELA B.4 – Regras obtidas para o teste 4.
Regra Sup LHS
Sup RHS
Cov RHS(%)
Descargas Negativas
omeg_850[*;0) AND omeg_200[*;0)=>carga[31;291) OR carga[291;*) OR carga[*;31) 43 12;23;8 32;64;22
dif_psnm[*;0) AND uvel_850[*;0)=>carga[291;*) OR carga[31;291) OR carga[*;31) 50 22;22;6 61;59;16
dif_psnm[*;0) AND vvel_500[0;*)=>carga[31;291) OR carga[*;31) OR carga[291;*) 44 22;6;16 59;16;44
dif_psnm[*;0) AND vvel_850[*;0)=>carga[291;*) OR carga[31;291) OR carga[*;31) 47 20;19;8 56;51;22
omeg_500[*;0) AND omeg_200[*;0)=>carga[291;*) OR carga[31;291) OR carga[*;31) 44 20;14;10 56;38;27
dif_psnm[*;0) AND omeg_500[*;0)=>carga[291;*) OR carga[31;291) OR carga[*;31) 37 20;13;4 56;35;11
dif_psnm[*;0) AND omeg_200[*;0)=>carga[291;*) OR carga[31;291) OR carga[*;31) 39 19;17;3 53;46;8
cape_0[1000;*)=>carga[31;291) OR carga[291;*) OR carga[*;31) 42 15;19;8 41;53;22
vvel_200[*;0)=>carga[291;*) OR carga[31;291) OR carga[*;31) 43 19;12;12 53;32;32
dif_psnm[*;0) AND omeg_850[*;0)=>carga[31;291) OR carga[291;*) OR carga[*;31) 43 16;19;8 43;53;22
Descargas Positivas
vvel_850[*;0) AND omeg_500[*;0)=>carga[28;*) OR carga[6;28) OR carga[*;6) 42 22;10;10 71;31;31
omeg_500[*;0) AND omeg_200[*;0)=>carga[28;*) OR carga[*;6) OR carga[6;28) 42 22;11;9 71;34;28
uvel_500[0;*) AND omeg_500[*;0) AND omeg_200[*;0)=>carga[28;*) OR carga[*;6) OR carga[6;28) 37 21;8;8 68;25;25
vvel_850[*;0) AND omeg_200[*;0)=>carga[28;*) OR carga[*;6) OR carga[6;28) 32 21;6;5 68;19;16
omeg_850[*;0) AND omeg_200[*;0)=>carga[28;*) OR carga[*;6) OR carga[6;28) 36 20;8;8 65;25;25
uvel_500[0;*) AND vvel_200[*;0)=>carga[28;*) OR carga[6;28) OR carga[*;6) 39 18;13;8 58;41;25
vvel_500[*;0)=>carga[28;*) OR carga[6;28) OR carga[*;6) 38 18;9;11 58;28;34
temp_200[*;217)=>carga[28;*) OR carga[6;28) OR carga[*;6) 32 18;8;6 58;25;19
zgeo_850[*;1520) AND vvel_500[*;0)=>carga[28;*) OR carga[6;28) OR carga[*;6) 28 18;7;3 58;22;9
omeg_850[*;0) AND omeg_500[*;0)=>carga[28;*) OR carga[6;28) OR carga[*;6) 42 18;12;12 58;37;37
Descargas Todas dif_psnm[*;0)=>conc[295;*) OR conc[44;295) OR conc[*;44) 71 36;24;11 83;56;26
dif_psnm[*;0) AND uvel_500[0;*)=>conc[295;*) OR conc[44;295) OR conc[*;44) 66 33;22;11 77;51;26
dif_psnm[*;0) AND vvel_850[*;0)=>conc[295;*) OR conc[44;295) OR conc[*;44) 52 28;17;7 65;40;16
dif_psnm[*;0) AND omeg_850[*;0)=>conc[295;*) OR conc[44;295) OR conc[*;44) 49 28;14;7 65;33;16
dif_psnm[*;0) AND omeg_200[*;0)=>conc[295;*) OR conc[44;295) OR conc[*;44) 49 28;16;5 65;37;12
dif_psnm[*;0) AND omeg_500[*;0)=>conc[295;*) OR conc[44;295) OR conc[*;44) 47 28;13;6 65;30;14
dif_psnm[*;0) AND v10m_0[*;0)=>conc[295;*) OR conc[44;295) OR conc[*;44) 45 26;12;7 60;28;16
zgeo_850[*;1518)=>conc[295;*) OR conc[44;295) OR conc[*;44) 43 26;7;10 60;16;23
dif_psnm[*;0) AND u10m_0[*;0)=>conc[295;*) OR conc[44;295) OR conc[*;44) 53 24;19;10 56;44;23
zgeo_850[*;1518) AND vvel_850[*;0)=>conc[295;*) OR conc[44;295) OR conc[*;44) 34 24;5;5 56;11;11
132
TABELA B.5 – Regras obtidas para o teste 5.
Regra Sup LHS Sup RHS Cov RHS(%)
Descargas Negativas umes_850[0.01299;*)=>carga[*;64) OR carga[64;*) 78 31;47 39;60
zgeo_500[5879;*)=>carga[*;64) OR carga[64;*) 78 31;47 39;60
uvel_850[0;*)=>carga[64;*) OR carga[*;64) 75 43;32 55;40
zgeo_500[5879;*) AND uvel_200[0;*)=>carga[*;64) OR carga[64;*) 70 27;43 34;55
uvel_500[0;*) AND temp_500[267;*)=>carga[64;*) OR carga[*;64) 67 42;25 53;31
cine_0[-6;*) AND omeg_500[*;0)=>carga[*;64) OR carga[64;*) 72 30;42 37;53
zgeo_200[12462;*) AND uvel_200[0;*)=>carga[64;*) OR carga[*;64) 71 42;29 53;36
uvel_500[0;*) AND zgeo_200[12462;*)=>carga[64;*) OR carga[*;64) 68 41;27 52;34
zgeo_200[12462;*) AND vvel_200[0;*)=>carga[64;*) OR carga[*;64) 69 41;28 52;35
temp_850[291;*) AND uvel_200[0;*)=>carga[*;64) OR carga[64;*) 69 28;41 35;52
Descargas Positivas
zgeo_200[12466;*)=>carga[*;7) OR carga[7;*) 62 21;41 33;66
zgeo_200[12466;*) AND uvel_200[0;*)=>carga[*;7) OR carga[7;*) 59 19;40 30;64
umes_850[0.01300;*)=>carga[*;7) OR carga[7;*) 62 23;39 36;62
umes_850[0.01300;*) AND uvel_200[0;*)=>carga[*;7) OR carga[7;*) 60 21;39 33;62
temp_850[291;*)=>carga[7;*) OR carga[*;7) 62 38;24 61;38
zgeo_500[5880;*)=>carga[*;7) OR carga[7;*) 62 24;38 38;61
temp_500[267;*)=>carga[*;7) OR carga[7;*) 62 24;38 38;61
temp_500[267;*) AND uvel_200[0;*)=>carga[*;7) OR carga[7;*) 58 21;37 33;59
zgeo_500[5880;*) AND uvel_200[0;*)=>carga[*;7) OR carga[7;*) 58 21;37 33;59
temp_850[291;*) AND uvel_200[0;*)=>carga[7;*) OR carga[*;7) 57 37;20 59;31
Descargas Todas
zgeo_500[5879;*)=>conc[*;72) OR conc[72;*) 85 32;53 37;62
zgeo_850[1524;*)=>conc[*;72) OR conc[72;*) 85 37;48 43;56
zgeo_500[5879;*) AND uvel_200[0;*)=>conc[*;72) OR conc[72;*) 74 26;48 30;56
zgeo_500[5879;*) AND omeg_200[*;0)=>conc[*;72) OR conc[72;*) 71 25;46 29;54
zgeo_500[5879;*) AND omeg_500[*;0)=>conc[*;72) OR conc[72;*) 68 22;46 25;54
cine_0[-6;*) AND omeg_500[*;0)=>conc[*;72) OR conc[72;*) 75 30;45 35;52
zgeo_500[5879;*) AND uvel_500[0;*)=>conc[*;72) OR conc[72;*) 68 23;45 27;52
dif_pslc[*;0) AND cine_0[-6;*)=>conc[*;72) OR conc[72;*) 76 31;45 36;52
zgeo_850[1524;*) AND omeg_200[*;0)=>conc[*;72) OR conc[72;*) 70 26;44 30;51
zgeo_850[1524;*) AND uvel_200[0;*)=>conc[*;72) OR conc[72;*) 74 30;44 35;51
133
TABELA B.6 – Regras obtidas para o teste 6.
Regra Sup LHS Sup RHS Cov RHS(%)
Descargas Negativas umes_850[0.01289;*)=>carga[121;*) OR carga[*;121) 86 54;32 62;36
zgeo_500[5879;*)=>carga[*;121) OR carga[121;*) 87 35;52 40;59
umes_850[0.01289;*) AND omeg_500[*;0)=>carga[121;*) OR carga[*;121) 78 49;29 56;33
omeg_500[*;0) AND zgeo_200[12460;*)=>carga[121;*) OR carga[*;121) 77 47;30 54;34
dif_pslc[*;0) AND cine_0[-6;*)=>carga[121;*) OR carga[*;121) 78 47;31 54;35
umrl_850[81;*) AND uvel_500[0;*)=>carga[121;*) OR carga[*;121) 75 47;28 54;32
zgeo_500[5879;*) AND uvel_200[0;*)=>carga[*;121) OR carga[121;*) 78 32;46 36;52
zgeo_500[5879;*) AND omeg_200[*;0)=>carga[*;121) OR carga[121;*) 72 26;46 29;52
zgeo_500[5879;*) AND omeg_500[*;0)=>carga[*;121) OR carga[121;*) 75 29;46 33;52
uvel_500[0;*) AND zgeo_200[12460;*)=>carga[121;*) OR carga[*;121) 74 45;29 51;33
Descargas Positivas
zgeo_200[12463;*)=>carga[14;*) OR carga[*;14) 71 51;20 71;28
temp_500[267;*)=>carga[14;*) OR carga[*;14) 71 48;23 67;32
zgeo_200[12463;*) AND uvel_200[0;*)=>carga[14;*) OR carga[*;14) 67 48;19 67;26
umes_850[0.01301;*)=>carga[14;*) OR carga[*;14) 71 48;23 67;32
zgeo_500[5878;*)=>carga[*;14) OR carga[14;*) 71 23;48 32;67
temp_500[267;*) AND uvel_200[0;*)=>carga[14;*) OR carga[*;14) 68 46;22 64;30
temp_850[291;*)=>carga[*;14) OR carga[14;*) 71 25;46 35;64
zgeo_500[5878;*) AND uvel_200[0;*)=>carga[*;14) OR carga[14;*) 66 21;45 29;63
temp_500[267;*) AND zgeo_200[12463;*)=>carga[14;*) OR carga[*;14) 60 45;15 63;21
uvel_500[0;*) AND zgeo_200[12463;*)=>carga[14;*) OR carga[*;14) 64 45;19 63;26
Descargas Todas
zgeo_200[12461;*)=>conc[123;*) OR conc[*;123) 94 60;34 63;35
umes_850[0.01291;*)=>conc[123;*) OR conc[*;123) 94 60;34 63;35
zgeo_500[5879;*)=>conc[*;123) OR conc[123;*) 94 36;58 37;61
zgeo_200[12461;*) AND uvel_200[0;*)=>conc[123;*) OR conc[*;123) 87 55;32 58;33
umes_850[0.01291;*) AND omeg_500[*;0)=>conc[123;*) OR conc[*;123) 82 53;29 56;30
omeg_500[*;0) AND zgeo_200[12461;*)=>conc[123;*) OR conc[*;123) 81 53;28 56;29
zgeo_200[12461;*) AND vvel_200[0;*)=>conc[123;*) OR conc[*;123) 79 53;26 56;27
umes_850[0.01291;*) AND uvel_200[0;*)=>conc[123;*) OR conc[*;123) 85 53;32 56;33
cine_0[-7;*) AND omeg_500[*;0)=>conc[123;*) OR conc[*;123) 85 52;33 55;34
zgeo_500[5879;*) AND omeg_200[*;0)=>conc[*;123) OR conc[123;*) 76 25;51 26;54
134
TABELA B.7 – Regras obtidas para o teste 7.
Regra Sup LHS Sup RHS Cov RHS(%)
Descargas Negativas vvel_200[0;*) AND umes_200[0.00008;*)=>carga[116;*) OR carga[34;116) OR carga[*;34) 54 17;27;10 33;51;19
vvel_500[0;*) AND vvel_200[0;*)=>carga[*;34) OR carga[116;*) OR carga[34;116) 50 13;26;11 25;50;21
vvel_500[0;*)=>carga[*;34) OR carga[116;*) OR carga[34;116) 51 13;26;12 25;50;23
umes_850[*;0.01264)=>carga[*;34) OR carga[34;116) OR carga[116;*) 53 26;15;12 50;28;23
u10m_0[*;0) AND temp_850[*;291)=>carga[*;34) OR carga[34;116) OR carga[116;*) 48 25;12;11 48;23;21
umes_500[0.00330;0.00372)=>carga[*;34) OR carga[34;116) OR carga[116;*) 54 7;22;25 13;42;48
vvel_500[0;*) AND omeg_200[*;0)=>carga[*;34) OR carga[116;*) OR carga[34;116) 47 11;25;11 21;48;21
vvel_500[0;*) AND omeg_500[*;0)=>carga[*;34) OR carga[116;*) OR carga[34;116) 42 8;25;9 15;48;17
uvel_500[0;*) AND umes_200[0.00008;*)=>carga[34;116) OR carga[116;*) OR carga[*;34) 54 25;17;12 47;33;23
uvel_850[0;*) AND vvel_500[*;0)=>carga[116;*) OR carga[*;34) OR carga[34;116) 56 17;14;25 33;27;47
Descargas Positivas
zgeo_200[12478;*)=>carga[*;4) OR carga[15;*) OR carga[4;15) 41 4;23;14 9;56;33
uvel_850[0;*) AND vvel_500[*;0)=>carga[*;4) OR carga[15;*) OR carga[4;15) 49 17;22;10 40;54;24
temp_500[267;*)=>carga[*;4) OR carga[15;*) OR carga[4;15) 41 7;22;12 17;54;29
vvel_500[*;0) AND zgeo_200[12478;*)=>carga[*;4) OR carga[15;*) OR carga[4;15) 34 4;21;9 9;51;21
uvel_850[0;*) AND vvel_850[*;0)=>carga[*;4) OR carga[15;*) OR carga[4;15) 51 19;21;11 45;51;26
uvel_500[0;*) AND zgeo_200[12478;*)=>carga[*;4) OR carga[15;*) OR carga[4;15) 37 4;21;12 9;51;29
dif_pslc[*;0) AND omeg_200[*;0)=>carga[*;4) OR carga[4;15) OR carga[15;*) 50 14;21;15 33;50;37
dif_pslc[*;0) AND omeg_500[*;0)=>carga[*;4) OR carga[4;15) OR carga[15;*) 54 15;21;18 36;50;44
u10m_0[0;*)=>carga[*;4) OR carga[15;*) OR carga[4;15) 50 16;20;14 38;49;33
temp_500[267;*) AND zgeo_200[12478;*)=>carga[*;4) OR carga[15;*) OR carga[4;15) 33 4;20;9 9;49;21
Descargas Todas
dif_pslc[*;0) AND omeg_200[*;0)=>conc[*;41) OR conc[41;131) OR conc[131;*) 76 20;24;32 35;42;57
umes_200[*;0.00007)=>conc[41;131) OR conc[131;*) OR conc[*;41) 55 11;15;29 19;27;51
umes_200[0.00008;*) AND vvel_200[0;*)=>conc[131;*) OR conc[41;131) OR conc[*;41) 60 17;28;15 30;49;26
umes_500[0.00330;0.00372)=>conc[41;131) OR conc[131;*) OR conc[*;41) 57 22;27;8 39;48;14
zgeo_500[*;5874) AND omeg_500[*;0)=>conc[41;131) OR conc[*;41) OR conc[131;*) 51 14;27;10 25;47;18
temp_500[*;267)=>conc[41;131) OR conc[131;*) OR conc[*;41) 57 15;15;27 26;27;47
dif_pslc[*;0) AND v10m_0[*;0)=>conc[*;41) OR conc[41;131) OR conc[131;*) 65 20;19;26 35;33;46
zgeo_500[*;5874) AND uvel_500[0;*)=>conc[41;131) OR conc[*;41) OR conc[131;*) 51 14;26;11 25;46;20
umrl_200[*;50)=>conc[41;131) OR conc[131;*) OR conc[*;41) 57 13;18;26 23;32;46
umes_200[0.00008;*) AND vvel_850[*;0)=>conc[41;131) OR conc[131;*) OR conc[*;41) 60 26;17;17 46;30;30
135
TABELA B.8 – Regras obtidas para o teste 8.
Regra Sup LHS Sup RHS
Cov RHS(%)
Descargas Negativas
dif_pslc[*;0) AND vvel_200[0;*)=>carga[*;70) OR carga[243;*) OR carga[70;243) 75 19;34;22 33;59;38
dif_pslc[*;0) AND omeg_200[*;0)=>carga[*;70) OR carga[243;*) OR carga[70;243) 81 22;32;27 38;55;47
vvel_500[0;*)=>carga[*;70) OR carga[243;*) OR carga[70;243) 54 12;31;11 21;53;19
umes_850[*;0.01243)=>carga[*;70) OR carga[243;*) OR carga[70;243) 58 31;12;15 53;21;26
dif_pslc[*;0) AND omeg_500[*;0) AND vvel_200[0;*)=>carga[*;70) OR carga[243;*) OR carga[70;243) 68 18;29;21 31;50;36
vvel_500[0;*) AND omeg_500[*;0)=>carga[*;70) OR carga[243;*) OR carga[70;243) 48 9;29;10 15;50;17
umes_500[0.00328;0.00372)=>carga[243;*) OR carga[*;70) OR carga[70;243) 57 29;11;17 50;18;29
vvel_500[0;*) AND omeg_200[*;0)=>carga[*;70) OR carga[243;*) OR carga[70;243) 49 9;29;11 15;50;18
umes_500[0.00328;0.00372) AND vvel_200[0;*)=>carga[243;*) OR carga[*;70) OR carga[70;243) 47 29;5;13 50;9;22
dif_pslc[*;0) AND vvel_200[0;*) AND omeg_200[*;0)=>carga[*;70) OR carga[243;*) OR carga[70;243) 55 12;28;15 21;48;26
Descargas Positivas
u10m_0[*;0) AND omeg_850[*;0)=>carga[*;8) OR carga[8;32) OR carga[32;*) 59 20;14;25 43;29;53
temp_850[292;*)=>carga[32;*) OR carga[8;32) OR carga[*;8) 47 24;16;7 51;33;15
umes_850[*;0.01254) AND uvel_200[0;*)=>carga[*;8) OR carga[32;*) OR carga[8;32) 44 24;9;11 51;19;23
zgeo_200[12478;*)=>carga[32;*) OR carga[8;32) OR carga[*;8) 47 24;18;5 51;37;11
temp_200[220.00301;220.76500)=>carga[8;32) OR carga[32;*) OR carga[*;8) 48 12;23;13 25;49;28
umes_850[0.01331;*) AND uvel_200[0;*)=>carga[32;*) OR carga[8;32) OR carga[*;8) 45 23;14;8 49;29;17
umes_850[0.01331;*)=>carga[32;*) OR carga[8;32) OR carga[*;8) 46 23;15;8 49;31;17
uvel_200[0;*) AND temp_200[220.00301;220.76500)=>carga[8;32) OR carga[32;*) OR carga[*;8) 45 12;23;10 25;49;21
temp_850[292;*) AND uvel_200[0;*)=>carga[32;*) OR carga[8;32) OR carga[*;8) 43 23;15;5 49;31;10
temp_200[220.00301;220.76500) AND omeg_200[*;0)=>carga[8;32) OR carga[32;*) OR carga[*;8) 40 11;22;7 23;47;15
Descargas Todas dif_pslc[*;0) AND vvel_200[0;*)=>conc[*;61) OR conc[273;*) OR conc[61;273) 79 20;35;24 32;56;38
umes_500[0.00328;0.00374)=>conc[273;*) OR conc[*;61) OR conc[61;273) 64 32;13;19 51;21;30
umrl_500[67;75)=>conc[273;*) OR conc[61;273) OR conc[*;61) 63 30;20;13 48;32;21
umes_500[0.00328;0.00374) AND uvel_200[0;*)=>conc[273;*) OR conc[*;61) OR conc[61;273) 55 29;12;14 46;19;22
temp_850[292;*)=>conc[61;273) OR conc[273;*) OR conc[*;61) 63 29;20;14 46;32;22
vvel_500[0;*) AND omeg_200[*;0)=>conc[*;61) OR conc[273;*) OR conc[61;273) 52 8;29;15 13;46;24
umes_850[0.01319;*)=>conc[61;273) OR conc[273;*) OR conc[*;61) 62 23;29;10 37;46;16
vvel_500[0;*)=>conc[*;61) OR conc[273;*) OR conc[61;273) 57 10;29;18 16;46;29
omeg_500[*;0) AND umes_500[0.00328;0.00374)=>conc[273;*) OR conc[*;61) OR conc[61;273) 59 29;12;18 46;19;29
umes_200[0.00008;*) AND omeg_500[*;0)=>conc[273;*) OR conc[61;273) OR conc[*;61) 74 25;29;20 40;46;32
136
TABELA B.9 – Regras obtidas para o teste 9.
Regra Sup LHS Sup RHS Cov RHS(%)
Ocorrencia de Descargas K[32;*)=>OCOR(0) OR OCOR(1) 387 343;44 46;80
SLI[-1;*)=>OCOR(0) OR OCOR(1) 452 423;29 57;52
SLI[-1;*) AND CAPE[*;1000)=>OCOR(0) OR OCOR(1) 402 376;26 51;47
TT[*;44)=>OCOR(0) OR OCOR(1) 384 364;20 49;36
TT[*;44) AND CAPE[*;1000)=>OCOR(0) OR OCOR(1) 265 250;15 34;27
TT[*;44) AND SLI[*;-1)=>OCOR(0) OR OCOR(1) 98 92;6 12;10
Descargas Negativas
K[35;*) AND TT[45;*)=>carga[*;42) OR carga[42;*) 22 4;18 14;69
SLI[-1;*) AND CAPE[*;1000)=>carga[*;42) OR carga[42;*) 23 18;5 66;19
K[*;35) AND SLI[-1;*)=>carga[*;42) OR carga[42;*) 17 15;2 55;7
TT[45;*) AND CAPE[1000;*)=>carga[*;42) OR carga[42;*) 17 3;14 11;53
TT[45;*) AND SLI[*;-1)=>carga[*;42) OR carga[42;*) 16 3;13 11;50
K[35;*) AND CAPE[1000;*)=>carga[*;42) OR carga[42;*) 16 3;13 11;50
K[*;35) AND CAPE[*;1000)=>carga[*;42) OR carga[42;*) 16 13;3 48;11
K[*;35) AND SLI[-1;*) AND CAPE[*;1000)=>carga[*;42) OR carga[42;*) 15 13;2 48;7
K[35;*) AND TT[45;*) AND CAPE[1000;*)=>carga[*;42) OR carga[42;*) 15 3;12 11;46
K[35;*) AND TT[45;*) AND SLI[*;-1)=>carga[*;42) OR carga[42;*) 14 3;11 11;42
Descargas Positivas K[*;36)=>carga[*;2) OR carga[2;*) 30 20;10 74;37
SLI[-2;*)=>carga[*;2) OR carga[2;*) 31 19;12 70;44
TT[46;*)=>carga[*;2) OR carga[2;*) 27 11;16 40;59
K[36;*) AND SLI[*;-2)=>carga[2;*) OR carga[*;2) 14 12;2 44;7
K[36;*) AND TT[*;46)=>carga[2;*) OR carga[*;2) 8 6;2 22;7
K[36;*) AND TT[*;46) AND SLI[*;-2)=>carga[2;*) 4 4 14
CAPE[*;1000)=>carga[*;2) OR carga[2;*) 3 2;1 7;3
Descargas Todas
CAPE[1000;*)=>conc[36;*) OR conc[*;36) 24 17;7 65;26
K[*;35)=>conc[*;36) OR conc[36;*) 24 17;7 65;26
CAPE[1000;*) AND TT[46;*)=>conc[36;*) OR conc[*;36) 18 14;4 53;15
CAPE[1000;*) AND SLI[*;-1)=>conc[36;*) OR conc[*;36) 20 14;6 53;23
TT[46;*) AND SLI[*;-1)=>conc[36;*) OR conc[*;36) 18 14;4 53;15
CAPE[1000;*) AND K[35;*)=>conc[36;*) OR conc[*;36) 16 13;3 50;11
CAPE[*;1000) AND K[*;35)=>conc[*;36) OR conc[36;*) 16 13;3 50;11
CAPE[1000;*) AND TT[46;*) AND SLI[*;-1)=>conc[36;*) OR conc[*;36) 15 11;4 42;15
CAPE[*;1000) AND TT[46;*)=>conc[*;36) OR conc[36;*) 10 3;7 11;26
TT[46;*) AND SLI[-1;*)=>conc[*;36) OR conc[36;*) 10 3;7 11;26
137
TABELA B.10 – Regras obtidas para o teste 10.
Regra Sup LHS Sup RHS Cov RHS(%)
Ocorrencia de Descargas K[32;*) AND TT[44;*)=>OCOR(0) OR OCOR(1) 282 239;43 33;54
SLI[-1;*) AND CAPE[*;1000)=>OCOR(0) OR OCOR(1) 402 377;25 53;31
TT[44;*) AND SLI[*;-1)=>OCOR(0) OR OCOR(1) 238 198;40 27;50
SLI[*;-1) AND CAPE[1000;*)=>OCOR(0) OR OCOR(1) 256 221;35 31;44
TT[*;44) AND SLI[-1;*)=>OCOR(0) OR OCOR(1) 286 271;15 38;18
K[*;32) AND TT[*;44)=>OCOR(0) OR OCOR(1) 279 266;13 37;16
K[*;32) AND CAPE[*;1000)=>OCOR(0) OR OCOR(1) 271 258;13 36;16
K[32;*) AND CAPE[1000;*)=>OCOR(0) OR OCOR(1) 176 148;28 20;35
TT[44;*) AND CAPE[*;1000)=>OCOR(0) OR OCOR(1) 217 193;24 27;30
K[32;*) AND SLI[-1;*)=>OCOR(0) OR OCOR(1) 188 166;22 23;27
Descargas Negativas
CAPE[1000;*)=>carga[*;114) OR carga[114;*) 39 20;19 54;51
K[34;*)=>carga[*;114) OR carga[114;*) 38 19;19 51;51
SLI[*;-1) AND CAPE[1000;*)=>carga[*;114) OR carga[114;*) 34 16;18 43;48
TT[46;*)=>carga[*;114) OR carga[114;*) 33 17;16 45;43
TT[*;46) AND SLI[-1;*)=>carga[*;114) OR carga[114;*) 23 15;8 40;21
TT[46;*) AND SLI[*;-1)=>carga[*;114) OR carga[114;*) 26 14;12 37;32
SLI[-1;*) AND CAPE[*;1000)=>carga[*;114) OR carga[114;*) 25 14;11 37;29
TT[*;46) AND SLI[*;-1)=>carga[*;114) OR carga[114;*) 18 5;13 13;35
TT[*;46) AND SLI[-1;*) AND CAPE[*;1000)=>carga[*;114) OR carga[114;*) 19 12;7 32;18
K[34;*) AND SLI[*;-1)=>carga[*;114) OR carga[114;*) 20 8;12 21;32
Descargas Positivas
TT[*;47)=>carga[*;5) OR carga[5;*) 36 16;20 48;62
SLI[*;-2) AND CAPE[1000;*)=>carga[5;*) OR carga[*;5) 28 14;14 43;42
SLI[-2;*) AND CAPE[*;1000)=>carga[5;*) OR carga[*;5) 25 12;13 37;39
K[34;*) AND SLI[*;-2)=>carga[*;5) OR carga[5;*) 18 12;6 36;18
K[*;34) AND CAPE[1000;*)=>carga[5;*) OR carga[*;5) 17 10;7 31;21
K[*;34) AND SLI[-2;*)=>carga[*;5) OR carga[5;*) 18 10;8 30;25
TT[47;*) AND CAPE[1000;*)=>carga[5;*) OR carga[*;5) 15 6;9 18;27
K[*;34) AND CAPE[*;1000)=>carga[5;*) OR carga[*;5) 16 8;8 25;24
K[34;*) AND CAPE[*;1000)=>carga[*;5) OR carga[5;*) 14 8;6 24;18
TT[47;*) AND SLI[-2;*)=>carga[*;5) OR carga[5;*) 10 5;5 15;15
Descargas Todas SLI[*;-1)=>conc[*;112) OR conc[112;*) 48 23;25 57;64
K[34;*)=>conc[*;112) OR conc[112;*) 40 22;18 55;46
CAPE[*;1000)=>conc[*;112) OR conc[112;*) 38 18;20 45;51
CAPE[1000;*) AND TT[46;*)=>conc[*;112) OR conc[112;*) 21 13;8 32;20
CAPE[*;1000) AND TT[*;46)=>conc[*;112) OR conc[112;*) 22 10;12 25;30
CAPE[*;1000) AND K[34;*)=>conc[112;*) OR conc[*;112) 19 9;10 23;25
K[34;*) AND TT[*;46)=>conc[112;*) OR conc[*;112) 15 5;10 12;25
K[*;34) AND TT[46;*)=>conc[*;112) OR conc[112;*) 12 9;3 22;7
CAPE[1000;*) AND K[*;34) AND TT[46;*)=>conc[*;112) OR conc[112;*) 7 5;2 12;5
138
TABELA B.11 – Regras obtidas para o teste 11.
Regra Sup LHS Sup RHS Cov RHS(%)
Ocorrencia de Descargas K[32;*)=>OCOR(0) OR OCOR(1) 387 343;44 46;80
TT[44;*)=>OCOR(0) OR OCOR(1) 404 365;39 49;70
K[32;*) AND TT[44;*)=>OCOR(0) OR OCOR(1) 282 246;36 33;65
SLI[-1;*) AND CAPE[*;1000)=>OCOR(0) OR OCOR(1) 402 377;25 51;45
K[32;*) AND SLI[*;-1) AND CAPE[1000;*)=>OCOR(0) OR OCOR(1) 155 133;22 18;40
TT[44;*) AND CAPE[*;1000)=>OCOR(0) OR OCOR(1) 217 198;19 27;34
K[32;*) AND SLI[-1;*)=>OCOR(0) OR OCOR(1) 188 171;17 23;30
Descargas Negativas
SLI[-1;*) AND CAPE[*;1000)=>carga[*;96) OR carga[96;*) 25 19;6 67;22
K[35;*) AND TT[45;*)=>carga[*;96) OR carga[96;*) 22 4;18 14;66
K[*;35) AND TT[*;45)=>carga[*;96) OR carga[96;*) 19 15;4 53;14
TT[45;*) AND CAPE[1000;*)=>carga[*;96) OR carga[96;*) 16 2;14 7;51
K[35;*) AND SLI[*;-1)=>carga[*;96) OR carga[96;*) 16 3;13 10;48
K[35;*) AND CAPE[1000;*)=>carga[*;96) OR carga[96;*) 15 2;13 7;48
K[*;35) AND SLI[-1;*)=>carga[*;96) OR carga[96;*) 16 13;3 46;11
K[35;*) AND TT[45;*) AND CAPE[1000;*)=>carga[*;96) OR carga[96;*) 14 2;12 7;44
K[35;*) AND TT[45;*) AND SLI[*;-1)=>carga[*;96) OR carga[96;*) 14 2;12 7;44
TT[45;*) AND SLI[*;-1) AND CAPE[1000;*)=>carga[*;96) OR carga[96;*) 13 2;11 7;40
Descargas Positi vas
K[37;*)=>carga[4;*) OR carga[*;4) 25 19;6 79;25
TT[47;*)=>carga[*;4) OR carga[4;*) 24 8;16 33;66
SLI[-1;*)=>carga[*;4) OR carga[4;*) 21 14;7 58;29
K[37;*) AND TT[47;*)=>carga[4;*) OR carga[*;4) 16 14;2 58;8
K[37;*) AND CAPE[1000;*)=>carga[4;*) OR carga[*;4) 15 14;1 58;4
SLI[-1;*) AND CAPE[*;1000)=>carga[*;4) OR carga[4;*) 18 13;5 54;20
TT[47;*) AND SLI[*;-1)=>carga[4;*) OR carga[*;4) 15 12;3 50;12
K[*;37) AND CAPE[*;1000)=>carga[*;4) OR carga[4;*) 15 11;4 45;16
K[*;37) AND SLI[-1;*)=>carga[*;4) OR carga[4;*) 14 10;4 41;16
K[37;*) AND TT[47;*) AND CAPE[1000;*)=>carga[4;*) OR carga[*;4) 10 9;1 37;4
Descargas Todas CAPE[1000;*)=>conc[94;*) OR conc[*;94) 25 17;8 62;29
K[36;*) AND TT[46;*)=>conc[94;*) OR conc[*;94) 21 17;4 62;14
CAPE[*;1000) AND SLI[-1;*)=>conc[*;94) OR conc[94;*) 23 16;7 59;25
CAPE[1000;*) AND SLI[*;-1)=>conc[94;*) OR conc[*;94) 23 15;8 55;29
CAPE[1000;*) AND TT[46;*)=>conc[94;*) OR conc[*;94) 16 13;3 48;11
CAPE[1000;*) AND K[36;*)=>conc[94;*) OR conc[*;94) 16 12;4 44;14
K[36;*) AND TT[46;*) AND SLI[*;-1)=>conc[94;*) OR conc[*;94) 15 12;3 44;11
K[*;36) AND SLI[-1;*)=>conc[*;94) OR conc[94;*) 15 11;4 40;14
CAPE[1000;*) AND K[36;*) AND SLI[*;-1)=>conc[94;*) OR conc[*;94) 14 10;4 37;14
TT[46;*) AND SLI[-1;*)=>conc[*;94) OR conc[94;*) 10 3;7 11;25
139
TABELA B.12 – Regras obtidas para o teste 12.
Regra Sup LHS Sup RHS Cov RHS(%)
Ocorrencia de Descargas K[32;*)=>OCOR(0) OR OCOR(1) 387 330;57 46;68
SLI[*;-1)=>OCOR(0) OR OCOR(1) 336 288;48 40;57
K[32;*) AND TT[44;*)=>OCOR(0) OR OCOR(1) 282 238;44 33;53
TT[*;44)=>OCOR(0) OR OCOR(1) 384 359;25 50;20
TT[44;*) AND SLI[*;-1)=>OCOR(0) OR OCOR(1) 238 197;41 27;49
SLI[*;-1) AND CAPE[1000;*)=>OCOR(0) OR OCOR(1) 256 219;37 31;44
TT[*;44) AND SLI[-1;*)=>OCOR(0) OR OCOR(1) 286 268;18 38;21
K[*;32) AND TT[*;44)=>OCOR(0) OR OCOR(1) 279 267;12 37;14
K[32;*) AND CAPE[1000;*)=>OCOR(0) OR OCOR(1) 176 146;30 20;36
K[32;*) AND SLI[-1;*)=>OCOR(0) OR OCOR(1) 188 162;26 22;31
Descargas Negativas
TT[*;46)=>carga[*;210) OR carga[210;*) 42 23;19 60;5
CAPE[1000;*)=>carga[*;210) OR carga[210;*) 41 20;21 52;55
SLI[*;-1) AND CAPE[1000;*)=>carga[*;210) OR carga[210;*) 35 15;20 39;52
K[*;35)=>carga[*;210) OR carga[210;*) 40 20;20 52;52
SLI[-1;*) AND CAPE[*;1000)=>carga[*;210) OR carga[210;*) 26 16;10 42;26
K[*;35) AND SLI[*;-1)=>carga[*;210) OR carga[210;*) 26 11;15 28;39
TT[*;46) AND CAPE[*;1000)=>carga[*;210) OR carga[210;*) 22 14;8 36;21
K[35;*) AND SLI[-1;*)=>carga[*;210) OR carga[210;*) 18 12;6 31;15
K[35;*) AND SLI[*;-1)=>carga[210;*) OR carga[*;210) 18 12;6 31;15
TT[*;46) AND SLI[*;-1)=>carga[*;210) OR carga[210;*) 18 6;12 15;31
Descargas Positivas
TT[45;*)=>carga[*;14) OR carga[14;*) 37 17;20 48;58
K[*;36)=>carga[*;14) OR carga[14;*) 38 19;19 54;55
K[36;*) AND SLI[*;-2)=>carga[*;14) OR carga[14;*) 17 9;8 25;23
K[36;*) AND TT[*;45)=>carga[*;14) OR carga[14;*) 7 5;2 14;5
CAPE[*;1000)=>carga[*;14) OR carga[14;*) 6 4;2 11;5
K[36;*) AND TT[*;45) AND SLI[*;-2)=>carga[14;*) 1 1 2
Descargas Todas SLI[*;-1)=>conc[*;219) OR conc[219;*) 48 18;30 42;71
CAPE[1000;*) AND SLI[*;-1)=>conc[*;219) OR conc[219;*) 37 15;22 35;52
TT[46;*)=>conc[*;219) OR conc[219;*) 39 18;21 42;50
K[35;*)=>conc[*;219) OR conc[219;*) 40 21;19 50;45
TT[46;*) AND SLI[*;-1)=>conc[*;219) OR conc[219;*) 31 14;17 33;40
CAPE[*;1000) AND SLI[-1;*)=>conc[*;219) OR conc[219;*) 27 16;11 38;26
CAPE[*;1000) AND TT[*;46)=>conc[*;219) OR conc[219;*) 23 13;10 30;23
TT[*;46) AND SLI[*;-1)=>conc[*;219) OR conc[219;*) 17 4;13 9;30
CAPE[*;1000) AND TT[*;46) AND SLI[-1;*)=>conc[*;219) OR conc[219;*) 20 13;7 30;16
CAPE[1000;*) AND TT[46;*)=>conc[*;219) OR conc[219;*) 24 12;12 28;28
140
TABELA B.13 – Regras obtidas para o teste 13.
Regra Sup LHS Sup RHS Cov RHS(%)
Ocorrencia de Descargas
K[34, *)=>OCOR(0) OR OCOR(1) 275 237, 38 32,69
K[34, *) AND TT[46, *)=>OCOR(0) OR OCOR(1) 153 128, 25 17,45
SLI[0, *) AND CAPE[*, 1000)=>OCOR(0) OR OCOR(1) 315 295, 20 40,36
K[34, *) AND SLI[*, -2)=>OCOR(0) OR OCOR(1) 93 75, 18 10,33
TT[*, 43) AND CAPE[*, 1000)=>OCOR(0) OR OCOR(1) 202 192, 10 26,18
TT[*, 43) AND SLI[0, *)=>OCOR(0) OR OCOR(1) 180 173, 7 24,13
TT[*, 43) AND SLI[0, *) AND CAPE[*, 1000)=>OCOR(0) OR OCOR(1) 172 165, 7 23,13
K[34, *) AND SLI[0, *)=>OCOR(0) OR OCOR(1) 85 73, 12 10,22
K[34, *) AND SLI[0, *) AND CAPE[*, 1000)=>OCOR(0) OR OCOR(1) 81 70, 11 10,20
SLI[-2, 0) AND CAPE[*, 1000)=>OCOR(0) OR OCOR(1) 151 141, 10 19,18
Descargas Negativas
TT[47, *)=>carga[*, 6) OR carga[6, 111) OR carga[111, *) 15 3, 3, 9 17,17,53
SLI[*, -2)=>carga[6, 111) OR carga[*, 6) OR carga[111, *) 18 7, 2, 9 39,11,53
TT[43, 47)=>carga[6, 111) OR carga[*, 6) OR carga[111, *) 20 9, 4, 7 50,22,41
K[38, *)=>carga[*, 6) OR carga[6, 111) OR carga[111, *) 17 1, 8, 8 6,44,47
K[*, 34) AND TT[*, 43)=>carga[*, 6) OR carga[6, 111) OR carga[111, *) 11 8, 2, 1 44,11,6
TT[47, *) AND SLI[*, -2)=>carga[6, 111) OR carga[111, *) 9 2, 7 11,41
TT[*, 43) AND SLI[0, *)=>carga[*, 6) OR carga[6, 111) OR carga[111, *) 10 7, 2, 1 39,11,6
TT[47, *) AND CAPE[1000, *)=>carga[*, 6) OR carga[6, 111) OR carga[111, *) 9 1, 2, 6 6,11,35
K[38, *) AND SLI[*, -2)=>carga[6, 111) OR carga[111, *) 8 3, 5 17,29
TT[43, 47) AND CAPE[1000, *)=>carga[6, 111) OR carga[*, 6) OR carga[111, *) 10 4, 1, 5 22,6,29
Descargas Positivas K[37, *)=>carga[1, 4) OR carga[*, 1) OR carga[4, *) 18 6, 2, 10 33,11,56
TT[47, *)=>carga[1, 4) OR carga[*, 1) OR carga[4, *) 17 6, 2, 9 33,11,50
TT[47, *) AND CAPE[1000, *)=>carga[1, 4) OR carga[*, 1) OR carga[4, *) 16 5, 2, 9 28,11,50
K[*, 34) AND TT[*, 45)=>carga[1, 4) OR carga[*, 1) OR carga[4, *) 12 3, 7, 2 17,39,11
K[37, *) AND TT[47, *)=>carga[1, 4) OR carga[4, *) 10 3, 7 17,39
TT[*, 45) AND SLI[-2, -1)=>carga[*, 1) OR carga[1, 4) OR carga[4, *) 9 6, 2, 1 33,11,6
TT[47, *) AND SLI[*, -2)=>carga[1, 4) OR carga[*, 1) OR carga[4, *) 10 3, 1 , 6 17,6,33
K[34, 37) AND SLI[*, -2)=>carga[1, 4) OR carga[*, 1) OR carga[4, *) 9 5, 1, 3 28,6,17
K[37, *) AND TT[47, *) AND SLI[*, -2)=>carga[1, 4) OR carga[4, *) 7 2, 5 11,28
K[34, 37) AND TT[*, 45)=>carga[1, 4) OR carga[*, 1) OR carga[4, *) 7 4, 1, 2 22,6,11
Descargas Todas
TT[48, *)=>conc[*, 5) OR conc[103, *) OR conc[5, 103) 15 3, 10, 2 18,59,11
CAPE[1000, *) AND SLI[*, -2)=>conc[5, 103) OR conc[*, 5) OR conc[103, *) 18 5, 4, 9 28,24,53
TT[48, *) AND SLI[*, -2)=>conc[*, 5) OR conc[103, *) OR conc[5, 103) 10 1, 8, 1 6,47,6
CAPE[1000, *) AND K[37, *)=>conc[5, 103) OR conc[103, *) OR conc[*, 5) 11 3, 7, 1 17,41,6
CAPE[1000, *) AND TT[48, *)=>conc[*, 5) OR conc[103, *) OR conc[5, 103) 9 1, 7, 1 6,41,6
K[37, *) AND SLI[*, -2)=>conc[5, 103) OR conc[103, *) OR conc[*, 5) 10 3, 6, 1 17,35,6
K[34, 37) AND TT[48, *)=>conc[*, 5) OR conc[103, *) 6 1, 5 6,29
CAPE[1000, *) AND K[34, 37)=>conc[*, 5) OR conc[5, 103) OR conc[103, *) 10 1, 4, 5 6,22,29
CAPE[1000, *) AND TT[44, 48)=>conc[5, 103) OR conc[*, 5) OR conc[103, *) 10 3, 2, 5 17,11,29
K[37, *) AND TT[44, 48)=>conc[5, 103) OR conc[103, *) OR conc[*, 5) 10 5, 4, 1 28,24,6
141
TABELA B.14 – Regras obtidas para o teste 14.
Regra Sup LHS Sup RHS Cov RHS(%)
Ocorrencia de Descargas
K[34, *)=>OCOR(0) OR OCOR(1) 275 235, 40 33,51
SLI[0, *) AND CAPE[*, 1000)=>OCOR(0) OR OCOR(1) 315 301, 14 42,18
TT[43, 46)=>OCOR(0) OR OCOR(1) 234 204, 30 29,38
K[28, 34)=>OCOR(0) OR OCOR(1) 254 225, 29 32,37
SLI[*, -2) AND CAPE[1000, *)=>OCOR(0) OR OCOR(1) 198 169, 29 24,37
TT[*, 43) AND CAPE[*, 1000)=>OCOR(0) OR OCOR(1) 202 194, 8 27,10
TT[46, *) AND SLI[*, -2)=>OCOR(0) OR OCOR(1) 117 96, 21 14,27
TT[*, 43) AND SLI[0, *)=>OCOR(0) OR OCOR(1) 180 175, 5 25,6
TT[*, 43) AND SLI[0, *) AND CAPE[*, 1000)=>OCOR(0) OR OCOR(1) 172 167, 5 24,6
TT[46, *) AND SLI[*, -2) AND CAPE[1000, *)=>OCOR(0) OR OCOR(1) 104 86, 18 12,23
Descargas Negativas
K[36, *)=>carga[*, 59) OR carga[59, 249) OR carga[249, *) 23 9, 9, 5 36,36,21
K[36, *) AND TT[47, *)=>carga[59, 249) OR carga[*, 59) OR carga[249, *) 13 8, 2, 3 32,8,12
SLI[-2, -1)=>carga[59, 249) OR carga[*, 59) OR carga[249, *) 14 4, 3, 7 16,12,29
TT[47, *) AND CAPE[1000, *)=>carga[*, 59) OR carga[249, *) OR carga[59, 249) 14 7, 4, 3 28,17,12
K[32, 36) AND TT[45, 47)=>carga[*, 59) OR carga[59, 249) OR carga[249, *) 12 3, 3, 6 12,12,25
K[*, 32) AND TT[*, 45)=>carga[*, 59) OR carga[59, 249) OR carga[249, *) 14 4, 4, 6 16,16,25
K[*, 32) AND CAPE*, 1000)=>carga[*, 59) OR carga[59, 249) OR carga[249, *) 11 3, 2, 6 12,8,25
K[36, *) AND CAPE[1000, *)=>carga[*, 59) OR carga[59, 249) OR carga[249, *) 13 6, 4, 3 24,16,12
TT[47, *) AND SLI[*, -2)=>carga[*, 59) OR carga[249, *) OR carga[59, 249) 14 6, 4, 4 24,17,16
K[32, 36) AND CAPE*, 1000)=>carga[*, 59) OR carga[59, 249) OR carga[249, *) 14 5, 6, 3 20,24,12
Descargas Positivas SLI[-3, -1)=>carga[*, 3) OR carga[3, 16) OR carga[16, *) 26 10, 10, 6 45,45,29
K[36, *)=>carga[3, 16) OR carga[16, *) OR carga[*, 3) 21 6, 6, 9 27,29,41
SLI[*, -3)=>carga[16, *) OR carga[3, 16) OR carga[*, 3) 18 7, 5, 6 33,23,27
K[36, *) AND CAPE[1000, *)=>carga[16, *) OR carga[3, 16) OR carga[*, 3) 13 4, 2, 7 19,9,32
SLI[-3, -1) AND CAPE[1000, *)=>carga[*, 3) OR carga[3, 16) OR carga[16, *) 17 7, 5, 5 32,23,24
K[36, *) AND TT[49, *)=>carga[3, 16) OR carga[16, *) OR carga[*, 3) 11 3, 2, 6 14,10,27
K[*, 32) AND CAPE*, 1000)=>carga[16, *) OR carga[3, 16) OR carga[*, 3) 11 3, 2, 6 14,9,27
K[36, *) AND SLI[*, -3)=>carga[16, *) OR carga[3, 16) OR carga[*, 3) 10 3, 1, 6 14,5,27
TT[*, 46) AND SLI[-1, *)=>carga[16, *) OR carga[*, 3) OR carga[3, 16) 14 5, 5, 4 24,23,18
TT[46, 49) AND CAPE[1000, *)=>carga[16, *) OR carga[3, 16) OR carga[*, 3) 14 5, 5, 4 24,23,18
Descargas Todas
CAPE[1000, *) AND SLI[*, -2)=>conc[*, 63) OR conc[174, *) OR conc[63, 174) 29 8, 11, 10 31,42,37
K[36, *)=>conc[*, 63) OR conc[174, *) OR conc[63, 174) 26 9, 7, 10 35,27,37
K[36, *) AND TT[47, *)=>conc[*, 63) OR conc[174, *) OR conc[63, 174) 16 3, 4, 9 12,15,33
CAPE[1000, *) AND TT[45, 47)=>conc[174, *) OR conc[*, 63) OR conc[63, 174) 14 8, 4, 2 31,15,7
CAPE[1000, *) AND TT[47, *)=>conc[*, 63) OR conc[63, 174) OR conc[174, *) 15 7, 4, 4 27,15,15
K[32, 36) AND TT[45, 47)=>conc[174, *) OR conc[63, 174) OR conc[*, 63) 12 6, 3, 3 23,11,12
CAPE[1000, *) AND TT[47, *) AND SLI[*, -2)=>conc[*, 63) OR conc[63, 174) OR conc[174, *) 13 6, 4, 3 23,15,12
CAPE[1000, *) AND K[32, 36)=>conc[174, *) OR conc[63, 174) OR conc[*, 63) 14 6, 5, 3 23,19,12
CAPE*, 1000) AND K[*, 32)=>conc[*, 63) OR conc[174, *) OR conc[63, 174) 12 4, 6, 2 15,23,7
K[*, 32) AND TT[*, 45)=>conc[*, 63) OR conc[174, *) OR conc[63, 174) 14 4, 6, 4 15,23,15
142
TABELA B.15 – Regras obtidas para o teste 15.
Regra Sup LHS Sup RHS
Cov RHS(%)
Ocorrencia de Descargas
K[34, *)=>OCOR(0) OR OCOR(1) 275 239, 36 33,65
TT[46, *)=>OCOR(0) OR OCOR(1) 262 234, 28 32,51
K[34, *) AND TT[46, *)=>OCOR(0) OR OCOR(1) 153 128, 25 17,45
CAPE[1000, *)=>OCOR(0) OR OCOR(1) 306 282, 24 38,44
SLI[0, *) AND CAPE[*, 1000)=>OCOR(0) OR OCOR(1) 315 297, 18 41,33
SLI[*, -2)=>OCOR(0) OR OCOR(1) 214 193, 21 26,38
K[34, *) AND SLI[*, -2)=>OCOR(0) OR OCOR(1) 93 74, 19 10,35
TT[46, *) AND CAPE[1000, *)=>OCOR(0) OR OCOR(1) 123 108, 15 15,27
TT[46, *) AND SLI[*, -2)=>OCOR(0) OR OCOR(1) 117 102, 15 14,27
TT[*, 43) AND SLI[0, *)=>OCOR(0) OR OCOR(1) 180 173, 7 24,13
Descargas Negativas
SLI[*, -2)=>carga[*, 20) OR carga[260, *) OR carga[20, 260) 20 3, 12, 5 17,67,26
TT[47, *)=>carga[*, 20) OR carga[260, *) OR carga[20, 260) 17 5, 10, 2 28,56,10
K[33, 37)=>carga[*, 20) OR carga[260, *) OR carga[20, 260) 21 7, 9, 5 39,50,26
K[37, *)=>carga[*, 20) OR carga[260, *) OR carga[20, 260) 17 3, 8, 6 17,44,31
K[33, 37) AND CAPE[1000, *)=>carga[*, 20) OR carga[260, *) OR carga[20, 260) 10 2, 7, 1 11,39,5
K[33, 37) AND SLI[*, -2)=>carga[*, 20) OR carga[260, *) OR carga[20, 260) 9 2, 6, 1 11,33,5
K[37, *) AND SLI[*, -2)=>carga[260, *) OR carga[20, 260) 9 6, 3 33,16
K[37, *) AND CAPE[1000, *)=>carga[*, 20) OR carga[260, *) OR carga[20, 260) 11 1, 6, 4 6,33,21
K[*, 33) AND SLI[0, *)=>carga[*, 20) OR carga[20, 260) OR carga[260, *) 11 4, 6, 1 22,32,6
TT[*, 44) AND SLI[0, *)=>carga[*, 20) OR carga[20, 260) OR carga[260, *) 12 5, 6, 1 28,32,6
Descargas Positivas K[39, *)=>carga[8, *) OR carga[1, 8) OR carga[*, 1) 16 10, 4, 2 62,25,12
TT[48, *)=>carga[*, 1) OR carga[8, *) OR carga[1, 8) 16 3, 9, 4 19,56,25
K[36, 39)=>carga[1, 8) OR carga[8, *) OR carga[*, 1) 15 8, 5, 2 50,31,12
SLI[*, -3)=>carga[1, 8) OR carga[8, *) OR carga[*, 1) 15 5, 7, 3 31,44,19
K[39, *) AND TT[48, *)=>carga[8, *) OR carga[1, 8) 10 7, 3 44,19
K[39, *) AND CAPE[1000, *)=>carga[8, *) OR carga[1, 8) 8 7, 1 44,6
TT[48, *) AND CAPE[1000, *)=>carga[8, *) OR carga[1, 8) OR carga[*, 1) 9 6, 2, 1 37,12,6
K[39, *) AND SLI[*, -3)=>carga[8, *) OR carga[1, 8) 7 5, 2 31,12
TT[48, *) AND SLI[*, -3)=>carga[8, *) OR carga[1, 8) OR carga[*, 1) 9 5, 3, 1 31,19,6
K[36, 39) AND CAPE*, 1000)=>carga[1, 8) OR carga[*, 1) OR carga[8, *) 6 4, 1, 1 25,6,6
Descargas Todas
CAPE[1000, *)=>conc[25, 223) OR conc[*, 25) OR conc[223, *) 25 7, 6, 12 39,33,67
SLI[*, -2)=>conc[25, 223) OR conc[*, 25) OR conc[223, *) 21 6, 4, 11 33,22,61
TT[48, *)=>conc[*, 25) OR conc[223, *) OR conc[25, 223) 17 5, 10, 2 28,56,11
K[38, *)=>conc[25, 223) OR conc[223, *) OR conc[*, 25) 15 5, 8, 2 28,44,11
K[*, 34) AND TT[*, 45)=>conc[*, 25) OR conc[25, 223) OR conc[223, *) 11 7, 3, 1 39,17,6
CAPE[1000, *) AND K[34, 38)=>conc[25, 223) OR conc[*, 25) OR conc[223, *) 12 3, 3, 6 17,17
CAPE[1000, *) AND K[38, *)=>conc[25, 223) OR conc[223, *) OR conc[*, 25) 10 3, 6, 1 33
K[38, *) AND SLI[*, -2)=>conc[25, 223) OR conc[223, *) 9 3, 6 17,33
TT[*, 45) AND SLI[0, *)=>conc[25, 223) OR conc[*, 25) OR conc[223, *) 11 5, 5, 1 28,28,6
K[34, 38) AND TT[48, *)=>conc[*, 25) OR conc[223, *) 8 3, 5 17,28
143
TABELA B.16 – Regras obtidas para o teste 16.
Regra Sup LHS Sup RHS
Cov RHS(%)
Ocorrencia de Descargas
K[34, *)=>OCOR(0) OR OCOR(1) 275 229, 46 32,55
SLI[0, *) AND CAPE[*, 1000)=>OCOR(0) OR OCOR(1) 315 300, 15 43,18
SLI[*, -2) AND CAPE[1000, *)=>OCOR(0) OR OCOR(1) 198 167, 31 24,37
TT[43, 46)=>OCOR(0) OR OCOR(1) 234 204, 30 29,36
K[28, 34)=>OCOR(0) OR OCOR(1) 254 228, 26 32,31
TT[46, *) AND SLI[*, -2)=>OCOR(0) OR OCOR(1) 117 93, 24 13,29
TT[*, 43) AND CAPE[*, 1000)=>OCOR(0) OR OCOR(1) 202 194, 8 28,10
TT[46, *) AND SLI[*, -2) AND CAPE[1000, *)=>OCOR(0) OR OCOR(1) 104 83, 21 12,25
TT[*, 43) AND SLI[0, *)=>OCOR(0) OR OCOR(1) 180 172, 8 24,10
TT[*, 43) AND SLI[0, *) AND CAPE[*, 1000)=>OCOR(0) OR OCOR(1) 172 165, 7 23,8
Descargas Negativas
K[36, *)=>carga[*, 105) OR carga[105, 630) OR carga[630, *) 26 8, 11, 7 32,42,28
TT[45, 47) AND CAPE[1000, *)=>carga[630, *) OR carga[105, 630) OR carga[*, 105) 12 9, 2, 1 36,8,4
TT[45, 47) AND SLI[*, -2)=>carga[630, *) OR carga[105, 630) 8 7, 1 28,4
TT[*, 45) AND CAPE*, 1000)=>carga[*, 105) OR carga[630, *) OR carga[105, 630) 14 7, 6, 1 28,24,4
SLI[-2, 0) AND CAPE*, 1000)=>carga[*, 105) OR carga[105, 630) OR carga[630, *) 18 7, 4, 7 28,15,28
TT[47, *) AND CAPE[1000, *)=>carga[*, 105) OR carga[105, 630) OR carga[630, *) 16 7, 6, 3 28,23,12
K[36, *) AND TT[47, *)=>carga[105, 630) OR carga[630, *) OR carga[*, 105) 14 7, 4, 3 27,16,12
K[32, 36) AND CAPE*, 1000)=>carga[*, 105) OR carga[105, 630) OR carga[630, *) 12 6, 3, 3 24,12,12
K[*, 32) AND SLI[*, -2)=>carga[*, 105) OR carga[630, *) OR carga[105, 630) 13 3, 6, 4 12,24,15
K[*, 32) AND TT[*, 45)=>carga[*, 105) OR carga[630, *) OR carga[105, 630) 15 5, 6, 4 20,24,15
Descargas Positivas K[33, 37)=>carga[9, 33) OR carga[*, 9) OR carga[33, *) 23 10, 6, 7 43,26,30
K[37, *)=>carga[*, 9) OR carga[33, *) OR carga[9, 33) 24 9, 8, 7 39,35,30
TT[47, *)=>carga[*, 9) OR carga[9, 33) OR carga[33, *) 22 8, 8, 6 35,35,26
K[37, *) AND TT[47, *)=>carga[*, 9) OR carga[33, *) OR carga[9, 33) 15 7, 4, 4 30,17,17
TT[*, 44) AND SLI[-1, *)=>carga[9, 33) OR carga[33, *) OR carga[*, 9) 15 4, 5, 6 17,22,26
K[*, 33) AND TT[*, 44)=>carga[*, 9) OR carga[9, 33) OR carga[33, *) 10 6, 1, 3 26,4,,13
K[37, *) AND SLI[*, -3)=>carga[*, 9) OR carga[33, *) 10 6, 4 26,17
K[37, *) AND TT[47, *) AND SLI[*, -3)=>carga[*, 9) OR carga[33, *) 8 6, 2 26,9
K[33, 37) AND SLI[-3, -1)=>carga[9, 33) OR carga[*, 9) OR carga[33, *) 10 5, 3, 2 22,13,9
K[*, 33) AND SLI[-1, *)=>carga[*, 9) OR carga[33, *) OR carga[9, 33) 8 5, 2, 1 22,9,4
Descargas Todas
CAPE[1000, *) AND TT[45, 47)=>conc[464, *) OR conc[*, 122) OR conc[122, 464) 15 9, 3, 3 32,11,11
CAPE*, 1000) AND SLI[-2, 0)=>conc[*, 122) OR conc[122, 464) OR conc[464, *) 20 7, 5, 8 25,18,29
K[36, *) AND TT[47, *)=>conc[122, 464) OR conc[464, *) OR conc[*, 122) 16 8, 4, 4 29,14,14
TT[45, 47) AND SLI[*, -2)=>conc[464, *) OR conc[*, 122) OR conc[122, 464) 10 7, 1, 2 25,36,7
CAPE[1000, *) AND K[32, 36)=>conc[*, 122) OR conc[122, 464) OR conc[464, *) 16 4, 5, 7 14,18,25
CAPE*, 1000) AND TT[45, 47)=>conc[*, 122) OR conc[122, 464) OR conc[464, *) 12 7, 3, 2 25,11,7
K[32, 36) AND TT[45, 47)=>conc[*, 122) OR conc[122, 464) OR conc[464, *) 12 4, 1, 7 14,4,25
CAPE*, 1000) AND TT[*, 45)=>conc[*, 122) OR conc[464, *) OR conc[122, 464) 14 7, 6, 1 25,21,4
TT[45, 47) AND SLI[-2, 0)=>conc[*, 122) OR conc[464, *) OR conc[122, 464) 13 7, 4, 2 25,14,7
K[*, 32) AND SLI[*, -2)=>conc[*, 122) OR conc[122, 464) OR conc[464, *) 13 2, 4, 7 7,14,25
145
APÊNDICE C – O SISTEMA ROSETTA
O front-end do ROSETTA trabalha sob plataformas de 32 bits e oferece um ambiente no
qual o usuário de um modo simples pode ver e acompanhar os itens de dados individuais em
um projeto de análise. Suas características incluem:
Suporte a árvores: Cada item em um projeto de análise de dados é representado por seu
próprio ícone específico para seu tipo e cada projeto organiza estes ícones em uma árvore. A
topologia da árvore exibe como os itens de dados, relacionam-se entre si, de um modo
intuitivo e imediato. Um exemplo de uma árvore de projeto é mostrado em Figura C.1.
FIGURA C.1 – Exemplo de uma árvore de projeto do sistema ROSETTA.
146
Visualização de dados: Podem ser visualizados todos os itens de dados das árvores de
projeto em janelas individuais, tipicamente em visões de tabelas. Um exemplo de uma área
de trabalho é mostrado em Figura C.2.
Figura C.2 – Exemplo de uma área de trabalho do sistema ROSETTA.
Menus pop-ups sensíveis ao contexto: A maioria dos objetos da GUI, por exemplo, ícones
em árvores de projeto, e colunas ou linhas em visualizações de dados, possuem seus
próprios menus pop-ups que são acessados pelo clique no botão direito do mouse,
possibilitando um acesso mais imediato a algoritmos e outras funções próprias do objeto.
Suporte a Drag-and-drop: Como uma alternativa para os pop-ups menus, a árvore de projeto
tem também apoio por drag-and-drop (arrastar-e-soltar). Na árvore, não apenas itens de
dados são representados por ícones, mas também outras possíveis operações.
147
Conseqüentemente, para iniciar uma computação, um ícone de algoritmo pode ser arrastado
e soltado sobre um ícone de dados, ou vice-versa.
Caixas de diálogos de parâmetros: A maioria dos algoritmos necessita de parâmetros que
determinam detalhes do comportamento deles. Freqüentemente, colocações de parâmetros
padrão são aceitáveis, mas para um melhor refinamento a fim de atender melhor um
especialista, esses algoritmos devem possuir grande flexibilidade e generalidade.
Anotações: Podem ser anotados nos itens de dados comentários do usuário. Como são
criados itens de dados novos ou são transformados, eles também adquirem automaticamente
anotações com detalhes de seu histórico e revelam como eles foram criados, quais
algoritmos que foram aplicados a eles, quais colocações de parâmetro que eram usadas, etc.
149
APÊNDICE D – FORMATO DE ENTRADA (DADOS DE RADIOSSONDAGEM)
Os dados processados em estações de radiossondagem devem estar de acordo com algumas
regras para a inserção no ambiente MATLAB. A seguir descrevem-se as características do
formato:
• Devem estar em arquivos textos
• Os campos são separados por 1 (um) espaço
• O separador decimal é o ponto ( . ).
• O nome de cada campo deve ser omitido
• A quantidade e ordem dos campos devem ser igual a da Tabela abaixo.
ano mês dia hora latitude longitude K TT SLI CAPE NCL 2002 2 2 0 -25.52 -49.17 38 51 -5 1878 900