mineração de padrões frequentes

39
Mineração de Padrões Frequentes Thiago Reis da Silva Mestrado em Ciência da Computação Universidade do Estado do Rio Grande do Norte – (UERN) Universidade Federal Rural do Semi-Árido – (UFERSA)

Upload: thiago-reis

Post on 12-Jun-2015

1.099 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: Mineração de padrões frequentes

Mineração de Padrões Frequentes

Thiago Reis da Silva

Mestrado em Ciência da Computação Universidade do Estado do Rio Grande do Norte – (UERN)

Universidade Federal Rural do Semi-Árido – (UFERSA)

Page 2: Mineração de padrões frequentes

Sumário

• Introdução;

• Conceitos básicos;

• Mineração de Padrões Frequentes;

• Mineração de Regra de Associação;

• Medidas de Interesse Objetivas e Subjetivas;

• Mineração de Itemset Frequente;

• Outros tipos de mineração de regras de associação;

• Restrições baseadas em mineração de exceções;

• Estado da arte;

• Aplicação; 2

Page 3: Mineração de padrões frequentes

Introdução

• Padrões de Mineração Frequente (PRF) aparecem repetidas vezes

no BD;

• Ex.: par de itens, como, café e leite

– Sequência de como comprar uma câmera fotográfica e logo depois um cartão

de memória;

• Padrões frequentes (PF) assumem papel essência em tarefas de

Mineração de Dados (MD);

• Objetivo: encontrar padrões de determinado interesse em uma

base de dados:

– Ex.: regras de associação, agrupamentos e outras;

3

Page 4: Mineração de padrões frequentes

Introdução

• PF = suporte maior que um dado limite inferior;

– Interesse não apenas no conjunto de PF;

• A MPF respondem perguntas do tipo:

– Que regras de associação são mais interessante;

– Como podemos tirar proveito de preferências do usuário ou restrições para

acelerar o processo de mineração?

4

Page 5: Mineração de padrões frequentes

Conceitos Básicos

• Mineração de Itemset Frequente;

– Descoberta de associação e correlações;

• Ajuda no processo decisório;

– Ex.: análise de cesta de compra;

• Analisa hábitos de compra dos clientes;

• Design de estratégia de marketing;

5

Page 6: Mineração de padrões frequentes

Conceitos Básicos

• Ex.: “Clientes que compram Leite. Qual a probabilidade de

comprarem pão?”;

• Análise de cesta básica pode ajudar a criar layouts diferentes;

• Ex.:

– Itens comprados juntos podem ser colocados próximos;

– Itens comprados juntos podem ser colocados em seções diferentes;

6

Page 7: Mineração de padrões frequentes

Mineração de Padrões Frequente

• Análise de cesta básica;

• Existem vários tipos;

• A MPF podem ser classificados de diversas maneiras:

– Com base nos níveis de abstração envolvidos na regra:

– Diferentes níveis de aplicação;

• Ex.:

– Compra (X, “Computador”) → Compra (X, “Impressora HP”)

– Compra (X, “Notebook”) → Compra (X, “Impressora HP”)

7

Page 8: Mineração de padrões frequentes

Mineração de Padrões Frequente

• Com base na dimensão de dados envolvidos na regra:

• Dimensão única:

– Ex.:

– Compra (X, “Computador”) → Compra (X, “Antivírus”);

• Multidimensional:

– Ex.:

– Idade (X, “30..39”)^Renda(X, “2000..35000”) → Compra(X, “HDTV”)

8

Page 9: Mineração de padrões frequentes

Mineração de Padrões Frequente

• Com base nos tipos de valores tratados na regra:

• Booleana:

– Ex.:

– Compra (X, “Computador”) → Compra (X, “Impressora HP”);

• Quantitativo:

– Ex.:

– Idade (X, “30..39”)^Renda(X, “2000..35000”) → Compra(X, “HDTV”)

9

Page 10: Mineração de padrões frequentes

Mineração de Regra de Associação

• Importante tarefa de MD;

• Ex.: análise de cesta compra;

• As Regras de associação representam padrões onde a ocorrência de

eventos em conjunto em alta;

• Ex.: 75% que A e B → C;

• Objetivo: encontrar todos os conjuntos de itens que

frequentemente ocorre na base de dados;

10

Page 11: Mineração de padrões frequentes

Mineração de Regra de Associação

• RA = X → Y;

• (X) antecedente e (Y) consequente;

• Medidas de interesse: suporte e confiança;

• Suporte: indica a porcentagem de ocorrência concomitante dos

conjuntos X e Y na base de dados;

11

Figura 1: Regra de suporte

Page 12: Mineração de padrões frequentes

Mineração de Regra de Associação

• Confiança: indica a frequência em que a ocorrência do conjunto de

itens X implica na ocorrência do conjunto Y.

12

Figura 2: Regra de confiança

Page 13: Mineração de padrões frequentes

Mineração de Regra de Associação

• Exemplo prático:

• Itemset, X e Y, {Pão} e {Leite};

• Suporte: é comprado o nº de linha na qual

Ocorrem os 2 itemset

Suporte = 3/5 = 0,6

• Confiança: frequência em que o item consequente Y ocorre dado o

itemset antecedente X;

Confiança = ¾ = 0,75

Pão → Leite [suporte = 60%; confiança = 75%] 13

Figura 3: Análise de cesta de

compras

Page 14: Mineração de padrões frequentes

Mineração de Regra de Associação

• Problema:

• Será que o fato de uma certa regra de associação grau de confiança

alto é o suficiente para considerar a uma “boa regra”?

14

Figura 5: banco de

dados de transações

de clientes

Figura 4: Representação numérica de cada artigo do

supermercado

Page 15: Mineração de padrões frequentes

Mineração de Regra de Associação

• {Cerveja}, {Manteiga} só acontece juntos apenas em uma única

transação;

• Confiança de 100%;

• Regra não é boa (suporte 0,1666%);

• Boa: conf (r) > α e sup (r) ≥ β

15

Page 16: Mineração de padrões frequentes

Mineração de Regra de Associação

• As regras de associação surgiram como opção para responder

questões como:

– Encontre todas as regras que possuem “café” como termo consequente;

– Encontre todas as regras que possuem “café” como termo antecedente;

– Encontre todas as regras que possuem “café” como antecedente e “leite”

como consequente;

16

Page 17: Mineração de padrões frequentes

Medidas de Interesse Subjetiva e Objetiva

• Críticas ao modelo suporte/confiança;

• Problema:

– Geração excessiva de regras;

• Outras medidas foram proposta com o intuito de identificar as

regras que são de fato relevante e úteis;

• Medidas: objetivas e subjetivas;

17

Page 18: Mineração de padrões frequentes

Medidas de Interesse Subjetiva e Objetiva

• Medidas de Interesse Objetivas (MIO):

• Índices estatísticos para avaliar a força da regra;

• Regra interessante (valor do suporte > valor esperado);

• Tipos:

– Lift: regra de associação A → B, esta medida indica o quanto mais frequente

torna-se B quando A ocorre;

– Regra: Lift (A → B ) = conf (A → B)/sup(B)

18

Page 19: Mineração de padrões frequentes

Medidas de Interesse Subjetiva e Objetiva

• Medidas de Interesse Objetivas (MIO):

• Tipos:

– Rule Interest

– Regra: RI (A → B ) = sup (A → B) – supesp(A → B)

19

Page 20: Mineração de padrões frequentes

Medidas de Interesse Subjetiva e Objetiva

• Medidas de Interesse Subjetiva (MIS):

• Considera a opinião do analista;

• As MIO identificam estatisticamente a força da regra;

• Possui valores altos para a MIO e não subjetivas interessantes;

• Fatores para tornar a regra de associação subjetivamente interessante:

utilidade e a inesperabilidade;

20

Page 21: Mineração de padrões frequentes

Medidas de Interesse Subjetiva e Objetiva

• Medidas de Interesse Subjetiva (MIS):

• Medida de utilidade: se o usuário pode fazer algo a partir dela;

• Medida de inesperabilidade: considera que uma regra tem grande

chance de ser interessante se contradiz as expectativas;

• Ex.: associação entre fraldas e cervejas em um supermercado

quando os consumidores são casais jovens;

– É útil e inesperada;

21

Page 22: Mineração de padrões frequentes

Mineração de Itemset Frequente

• É uma tarefa normalmente executada sobre dados de transação de

clientes;

• O processo de descobrir itemset frequente pode ser decomposta

em 2 etapas:

– Encontrar todos os conjuntos de itemset frequente;

– Utilizar os itemset frequentes obtidos para gerar de associações;

22

Page 23: Mineração de padrões frequentes

Mineração de Itemset Frequente

• Algoritmos para a descoberta de itemset frequente:

– Apriori, FPGrowth, Max-miner, outros;

• Apriori:

– Mais utilizado;

– Baseado no fato de usar conhecimento já obtidos nos itens anteriores;

– Fases: geração, poda e validação;

23

Page 24: Mineração de padrões frequentes

Outros tipos de Mineração de Regras de Associação

• Regras de associação envolve conceitos de diferentes níveis:

• Regras de Associação Multinível:

• Pode ser extraído de forma eficiente usando hierarquias

(generalização)

24 Figura 6: Hierarquia de classificação

Page 25: Mineração de padrões frequentes

Outros tipos de Mineração de Regras de Associação

• Regras de Associação Multidimensional:

• Capacidade de minerar regras com atributos categóricos ou

quantitativos;

• Ex.: data warehouse;

• Considerando uma base de dados de um supermercado

• Ex.:

– (Sexo = “F”)^(30 < idade ≤ 35)→Forma de pagamento = “cartão de crédito”;

25

Page 26: Mineração de padrões frequentes

Outros tipos de Mineração de Regras de Associação

• Regras de Associação Hibrída:

• Uma dimensão pode aparecer repetidas vezes;

• Ex.:

– (Sexo=“M”)^(Casado=“N”)^(Produto=“Cerveja”)→ (Produto=“Salaminho”)

• É útil pois envolve dados pessoais e quantitativos;

26

Page 27: Mineração de padrões frequentes

Outros tipos de Mineração de Regras de Associação

• Regras de Associação Quantitativas:

• Dados categóricos estão associados a algum tipo de classificação;

• Dados quantitativos podem ser divididos em 2 classes:

– Indicativo e real;

• Dados quantitativos indicativos são dados numéricos que pertence

ao conjunto dos números reais;

– Ex.: 4 pães, 3 leites;

27

Page 28: Mineração de padrões frequentes

Outros tipos de Mineração de Regras de Associação

• Regras de Associação Quantitativas:

• Dados quantitativos reais são dados numéricos que pertencem ao

conjunto dos números reais e estão associados a um item

específico;

• Ex.: notas de provas;

• Nos BD de aplicações é comum a ocorrência de dados

quantitativos;

28

Page 29: Mineração de padrões frequentes

Outros tipos de Mineração de Regras de Associação

• Regras de Associação Quantitativas:

• X → Y, itemset contém valores quantitativos;

• Os itens são considerados como uma dupla (x, v);

• Ex.: (Pães(cinco) → (Leite(dois);

29

Page 30: Mineração de padrões frequentes

Restrições baseadas em mineração de exceções

• É uma tarefa complicada;

• Tipos de restrições:

– Restrições do tipo de conhecimento;

– Restrições de dados;

– Restrições de padrões interessantes;

– Restrições de regras;

30

Page 31: Mineração de padrões frequentes

Restrições baseadas em mineração de exceções

• Ex.:

• “As famílias que compram couve e linguiça, não costumam compra

brócolis”;

• Identificação de clientes com diferentes perfis de compra;

• {couve}→ {brócolis}

31

Page 32: Mineração de padrões frequentes

Estado da Arte

• Diversas áreas, tais como:

32

Figura 7: compras no cartão de créditos Figura 8: serviços bancários

Page 33: Mineração de padrões frequentes

Estado da Arte

33

Figura 9: históricos de pacientes Figura 10: combinações incomuns

de resgate de seguro

Page 34: Mineração de padrões frequentes

Estado da Arte

34

Figura 11: serviços de telecomunicações

Page 35: Mineração de padrões frequentes

Aplicações

35

Figura 12: aplicativo WEKA

Page 36: Mineração de padrões frequentes

Aplicações

36

Figura 13: regra de associação da situação dos alunos IFPI - PICOS

Figura 14: regra de associação de lentes de contato

Page 37: Mineração de padrões frequentes

Aplicações

37

Figura 15: regra de associação de votação

Figura 16: regra de associação de tempo

Page 38: Mineração de padrões frequentes

Referências Bibliográficas

• Costa, L. S. (2005). Mineração de padrões frequentes ortogonais e sua

aplicação em classificação associativa. 108p. Dissertação de mestrado,

apresentada a Universidade Federal de Minas Gerais.

• Camargo, S. S. (2008). Mineração de regras de associação no problema de

cesta de compras aplicada ao comércio varejista de confecção. 101p.

Dissertação de mestrado, apresentada a Universidade Federal do Rio

grande do Sul.

• Gonçalves, E. C. (2004). Regras de Associação e suas Medidas de Interesse

Objetivas e Subjetivas. Universidade Federal Fluminense.

38

Page 39: Mineração de padrões frequentes

Referências Bibliográficas

• Han, J.; Cheng, H.; Xin, D.; Yan, X. (2008). Frequent pattern mining: current

status and future directions. Data Min Knowl Disc (2007) 15:55–86. DOI

10.1007/s10618-006-0059-1.

• Han, J.; Kamber, M. (2000). Data Mining: Concepts and Techniques.

Morgan Kaufmann.

• Oyama, F. T. (2010). Mineração multirrelacional de regras de associação

em grandes bases de dados. 140p. Dissertação de mestrado apresentada a

Universidade Estadual Paulista.

39