tecnologia da informaÇÃo ana cláudia ana carnelossi andréia vieira erick tsuneto flávia...

46
TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

Upload: internet

Post on 22-Apr-2015

108 views

Category:

Documents


1 download

TRANSCRIPT

Page 2: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

DATA MINING

Page 3: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

DATA MINING

Recursos computacionais - grandes volumes de dados.

Necessidade de novas técnicas e ferramentas.

Sistemas convencionais de gerenciamento de banco de dados.

Data Mining - Mineração de Dados (três áreas: estatística clássica, inteligência artificial e aprendizado de máquina).

Page 4: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

Data mining – é o processo de extração de informações, sem conhecimento prévio, de um grande banco de dados e seu uso para tomada de decisões.

DATA MINING

Data Mining é parte de um processo maior conhecido como KDD (Knowledge Discovery in Databases) – Descoberta de Conhecimento em Bases de Dados.

Permite a extração não trivial de conhecimento previamente desconhecido e potencialmente útil de um banco de dados.

Page 5: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira
Page 6: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

Processo e Subprocesso

Descoberta de Conhecimento em Base

de Dados (KDD)

Data Mining (DM)

Page 7: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

Processo de Descoberta de Conhecimento em Base de Dados (KDD)

Iteração Interação

Page 8: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

Etapas do Processo de Descoberta de Conhecimento em Base de Dados (KDD)

Page 9: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

Etapas do Processo de Descoberta de Conhecimento em Base de Dados (KDD)

Limpeza de Dados (DC)

Qualidade dosDados Selecionados

80% do Tempo

Page 10: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

Armazenagem adequada dos Dados Pré- Processados (DW)

Dados organizados

Data Warehouse: depósito central de dados, extraído de dados operacionais, em que a informação é orientada a assuntos, não volátil e de natureza história.

Etapas do Processo de Descoberta de Conhecimento em Base de Dados (KDD)

Page 11: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

Etapas do Processo de Descoberta de Conhecimento em Base de Dados (KDD)

Mineração dos dados pré-processados e já organizados (DM)

Informações pertinentes

Data Mining: processo automatizado de extração de informações, sem conhecimento prévio, de um grande banco de dados e seu uso para tomada de decisões.

Page 12: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

Classificação

Modelos de Relacionamento entre variáveis

Análise de Agrupamento

Sumarização

Modelo de Dependência

Regras de Associação

Análise de Séries Temporais

Métodos do Data Mining para definição de Metas

Mineração dos dados pré-processados e já

organizados (DM)

MetasEstabelecidas

Page 13: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

DATA MINING - EXEMPLOS DE APLICAÇÕES

MARKETING:

Análise do perfil do consumidor;

Posicionamento de itens em prateleira;

Controle de estoque.

Page 14: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

DATA MINING - EXEMPLOS DE APLICAÇÕES

ECONOMIA:

Análise de mercado;

Análise de ações;

Análise de investimentos.

Page 15: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

DATA MINING - EXEMPLOS DE APLICAÇÕES

SEGURANÇA:

Detecta intrusões em rede;

Detecta vírus.

Page 16: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

DATA MINING - EXEMPLOS DE APLICAÇÕES

WALMART:

Análise do perfil do consumidor; Verificação de semelhanças; Otimização das atividades; Redefinição de layout; Aumento do consumo em 30%.

Page 17: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

DATA MINING - EXEMPLOS DE APLICAÇÕES

VESTIBULAR PUC – RJ:

Análise dos candidatos à vestibular;

Candidatos do sexo feminino, que trabalham e obtiveram aprovação;

Regra: não efetivavam a matrícula;

Existiam exceções.

Page 18: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

Ferramentas da Mineração de Dados

Darwin Data Mining Software

Oracle; Transformação de dados

Inteligência corporativa

Page 19: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

Darwin Data Mining Software Atuação:

- criação de padrões e correlações de dados;

Resultados;

Algoritmos;

Page 20: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

Darwin Data Mining Software Ponto Forte: wizards

Criação de modelos

Seleção

Page 21: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira
Page 22: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira
Page 23: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

FERRAMENTA CLEMENTINE

Da empresa SPSS Inc.

Essa metodologia é composta por seis fases.

Page 24: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

FERRAMENTA CLEMENTINE

Entendimento do Negócio (Business Understanding):Visa entender os objetivos e requisitos do projeto, do ponto de vista do negócio.

Entendimento dos Dados (Data Understanding):Coleta de dados e identificação dos problemas.

Preparação dos Dados (Data Preparation):Seleção dos dados relevantes.

Modelagem (Modelling):Aplicação de técnicas de modelagem para obter valores ótimos.

Avaliação (Evaluation):A partir do modelo, avalia-se os passos para verificar se representa o objetivo. Deverá obter uma decisão sobre o uso dos resultados da mineração de dados.

Utilização ou Aplicação (Deployment):Duas formas: 1. O analista recomenda ações a serem tomadas baseado no

modelo e resultados; 2. O modelo apliado a diferentes conjunto de dados.

Page 25: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

Possui uma interface de programação visual, facilitando a construção de modelos de Data Mining.

Oferece ricas facilidades para a exploração e manipulação de dados.

Possui várias técnicas de modelagem e recursos gráficos, para visualização dos dados.

As operações são representadas numa área de trabalho, formando um fluxo de dado, chamados streams.

Área de trabalho é a área de construção e manipulação dos streams e dados.

FERRAMENTA CLEMENTINE Interface

Page 26: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

FERRAMENTA CLEMENTINE Interface

Page 27: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

Na paleta de objeto localizam-se os nós, onde possuem as seguintes funções:- Source: importar dados;- Record Ops: manipular registros e campos;- Graphs: visualizar os dados a partir de gráficos;- Modelling: construir modelos a partir de diversas

técnicas de modelagem;- Output: Avaliação dos resultados com os

recursos.

FERRAMENTA CLEMENTINE Interface

Page 28: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

FERRAMENTA CLEMENTINE Interface

Page 29: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

Na paleta de modelos gerados, aparecem os resultados de um modelo construído depois de executado.

FERRAMENTA CLEMENTINE Interface

Page 30: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

FERRAMENTA CLEMENTINE Interface

Page 31: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

Para execução de um modelo, clicar no botão de execução, assim todos os streams válidos serão executados.

FERRAMENTA CLEMENTINE Interface

Page 32: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

FERRAMENTA CLEMENTINE Interface

Page 33: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

O Report Window mostra um feedback do progresso das operações.

O Status Window mostra informações sobre o que a aplicação está realizando no momento. Também mostra mensagens de pedido de retorno do usuário.

FERRAMENTA CLEMENTINE Interface

Page 34: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

FERRAMENTA CLEMENTINE Interface

Page 35: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

FERRAMENTA CLEMENTINE Estudo

Dados fornecidos pelo IBGE – Instituto Brasileiro de Geografia e Estatística.

Estes dados referem-se a Pesquisa Nacional por Amostra de Domicílios (PNAD) – 1999.

Finalidade: Produção de informações básicas para o estudo do desenvolvimento socioeconômico do País.

Os dados encontram-se disponíveis em dois arquivos, um referente a pessoas e o outro a domicílios.

Page 36: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

FERRAMENTA CLEMENTINE Estudo

Arquivo pessoas: possui informações de identificação e caracterização dos moradores.

Arquivo domicílio: possui informações com características das moradias.

O estudo analisou somente as pessoas ocupadas em atividades agrícolas.

Os dados encontram-se disponíveis em dois arquivos, um referente a pessoas e o outro a domicílios.

Variáveis selecionadas: Unidade de Federação, Sexo, Idade, Cor/Raça, Sabe Ler/Escrever, Anos de Estudo, Rendimento Mensal Domiciliar.

Page 37: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

FERRAMENTA CLEMENTINE Aplicação

1º Passo: A partir do nó Source, carregar os dois arquivos no Software Clementine.

2º Passo: Uní-los com o nó Merger.

Page 38: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

FERRAMENTA CLEMENTINE Aplicação

3º Passo: Separou-se as informações através do nó Select, dividindo-as por unidade federativa.

Page 39: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

FERRAMENTA CLEMENTINE Aplicação

4º Passo: Realizou-se uma análise exploratória de dados utilizando o nó Statistics na paleta Output.

Assim, gerou-se um relatório com várias medidas estatísticas (média, desvio padrão, erro, variância, entre outros) referente a Renda Mensal Domiciliar.

Page 40: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

FERRAMENTA CLEMENTINE Aplicação

Page 41: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

FERRAMENTA CLEMENTINE Aplicação

5º Passo: Construção de uma árvore de decisão.

Utilizou-se o nó Build C5.0 para a região Centro-Oeste.

Page 42: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

FERRAMENTA CLEMENTINE Aplicação

Foi necessário inserir diversas variáveis de entrada, então utilizou-se o nó Type.

Page 43: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

FERRAMENTA CLEMENTINE Aplicação

Resultado: árvore de decisão obtida após modelagem.

Page 44: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

FERRAMENTA CLEMENTINE Entendendo as Árvores de Decisão

As árvores de decisão funcionam e trabalham recursivamente, ou seja, ocorre a divisão dos dados com base nos valores dos campos de entrada.

Estes dados que são divididos são chamados de ramo ou galho, porém, apenas o galho inicial, onde estão englobadas todos os registro, é chamado de raiz.

Já os galhos que não podem ser mais divididos são conhecidos como galhos terminais ou folha.

Page 45: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

CONSIDERAÇÕES FINAIS

Nas ferramentas estudadas identificou-se a utilização de uma técnica específica de Data Mining, ou seja, a classificação dos dados por meio de árvores de decisão.

O uso da ferramenta proporciona aos usuários meios para encontrar informações que permitam detectar tendências e características disfarçadas e confirmar a necessidade de estudos de novas relações.

Deve ficar claro que nenhuma ferramenta de Data Mining trabalha por si só e elimina a necessidade de conhecimento, entendimento do negócio e a compreensão dos dados a serem minerados, nem mesmo substitui os analista e pesquisadores desta área.

Page 46: TECNOLOGIA DA INFORMAÇÃO Ana Cláudia Ana Carnelossi Andréia Vieira Erick Tsuneto Flávia Siqueira

CONSIDERAÇÕES FINAIS

Portanto, conclui-se que a utilização do Data Mining está crescendo, é um auxílio para as organizações tomarem as decisões com base em banco de dados, com agilidade e confiança para as decisões futuras tanto a curto como a longo prazo.