controle de inferência para sistemas de base de dados estatísticos erlon rodrigues cruz

36
Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Upload: internet

Post on 18-Apr-2015

122 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Controle de inferência para sistemas de base de dados estatísticosErlon Rodrigues Cruz

Page 2: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Roteiro

Privacidade em bases de dadosBase de dados estatísticasGarantindo a privacidade

Perturbando os dadosReconstruindo a distribuiçãoClassificação dos dados em árvore de decisãoConclusãoBibliografia

Page 3: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Privacidade em bases de dados

A falta de privacidade na internet e meios de comunicação em geral pode fazer com que os usuários da internet se ponham em uma postura defensiva ao ser questionados em algum tipo de questionários.Registros detalhados de cartão de crédito de um indivíduo podem revelar seu estilo de vida.Isto prejudicaria não só as empresas mas também as pessoas que deixariam de receber os avanços provenientes da mineração de dados.

Page 4: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Privacidade em bases de dados

Quem se importa com privacidade?[Cranor]

17% dos usuários como fundamentalistas56% concordaria em fornecer dados desde que fosse mostrada alguma forma para proteção27% forneceria dados de qualquer forma

Pessoas podem não querer divulgar determinados dados enquanto não se importam com outros!Pessoas podem não ter controle ou mesmo não saber dos dados que são armazenados. Ex. Base de dados com informações medidas através de exames nos pacientes, registro de compras de um cartão de crédito.

Page 5: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

A coleta de dados

O quem terá acesso às informações que eu irei fornecer?

Funcionários maliciososVenda de informações ou pela empresa, ou por algum de seus funcionáriosA própria organização

Base de dados acessadas por muitos usuários.Como proteger os dados dos registros e possibilitar que possa ser extraída alguma informação dos mesmos?A criação de barreiras legais para prover privacidade pode fazer com que seja necessário novos mecanismos para se atingir privacidade.Meta a ser atingida: Saber a distribuição dos dados e ser capaz de criar relações entre os dados protegendo os registros individuais.

Page 6: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Garantindo a privacidade

Formas inibidorasAuditoria dos acessos à base

Formas restritivasControle de acesso as diversas tabelas do banco

Ex. Médicos possuem acessos a dados de todos pacientesAos funcionários é dados acesso somente às somas estatísticas destes dados

Formas não-restritivasAgregação de valoresDistorção de valoresDissociação dos dados

Page 7: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Duas técnicas serão mostradas

Criar uma base de dados que proteja os registros e forneça dados estatísticos, i.e., distribuição dos valores, média, soma, etc.Criar uma base de dados que proteja os registros e não altere nas correlações entre os campos.

Page 8: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Base de dados estatística

O objetivo de uma base de dados estatística é prover freqüências, médias, somas e outras estatísticas referente à grupos, pessoas e organizações, protegendo os indivíduos representados na base de dados.

Um exemplo de base de dados estatística:

Questionário econômico financeiro.

Page 9: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Coletando dados

Válido somente para dados numéricos!

Foco nos dados que os usuários não querem fornecer

Page 10: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Perturbando os dadosOs valores fornecidos devem de alguma forma serem alterados antes que seja feita sua inserção na base.

Dois métodos para modificação são considerados:

DiscretizaçãoDistorção de valor: seja xi o campo a ser alterado

Uniforme: é somado à xi o valor aleatório r є[-α,+ α], sendo que a distribuição de xi dentro do intervalo é linear.

Gaussiana: é somado à xi o valor aleatório r є[-α,+ α], sendo que a distribuição de xi dentro do intervalo é uma gaussiana

Page 11: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Quantificação da privacidade

Se o valor original x pode ser estimado com uma confiança de c% implicando que x esteja no intervalo [x1,x2], então a amplitude do intervalo(x2-x1) quantifica a privacidade oferecida com c% de confiança.

W = 2αAumentando o intervalo α aumentamos o nível de privacidade

Page 12: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Intervalo de confiança

Distribuição normal

Dados concentrados sobre a média: Menor variância – Linha AmarelaDados dados mais dispersos: Maior variância – Linha Azul

Page 13: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Intervalo de confiançaPodemos estimar a probabilidade ‘c’ de que um valor esteja entre –z e z

Page 14: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Reconstrução da distribuição original

A técnica só é útil se pudermos reconstruir a distribuição dos registros originais a partir dos registros alterados!!! Será reconstruída a distribuição e não os registros individuais.Definições:

Valores originais: n valores, x1,x2,...,xn.Amostra aleatória igualmente distribuída: X1,X2,...XnVariáveis aleatórias para esconder os dados: Y1,Y2,...Yn.Fy é a função de distribuição de X1+Y1,X2+Y2,...Xn+YnFx é a função de distribuição original para X.wi = (xi + yi)

Page 15: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Reconstrução da distribuição original

Uma vez que conhecemos as distribuições de Yi, e wi e wi = (Yi + Xi), podemos saber a distribuição de Xi através do Teorema de BayesTeorema de Bayes para probabilidade:

Page 16: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Reconstrução da distribuição original

Page 17: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Reconstrução da distribuição original

Page 18: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Reconstrução da distribuição original

Média da função de distribuição para cada Xi:

Após a diferenciação:

Com uma amostragem suficientemente grande, espera-se que f’x seja bastante aproximado a função real fx.

Page 19: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Reconstrução da distribuição original

Portanto, nós conhecemos somente fy, não fx. Assim, usaremos uma distribuição uniforme como estimativa inicial para fºx e refinaremos iterativamente aplicando o seguinte algoritmo:

Page 20: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Critério de parada

O critério de parada da iteração é satisfeito quando a distribuição reconstruída é estatisticamente igual à distribuição original. Digamos:

Page 21: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Avaliação

Distorção de valor gaussiana:

Page 22: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Avaliação

Distorção de valor linear:

Page 23: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

A inserção de ruídos na base de dados pode trazer efeitos indesejados[Zahidul]

Interferência na variância (Tipo A)

Interferências nas correlações entre atributos confidenciais (Tipo B)

Interferências nas correlações entre atributos confidenciais e não confidenciais (Tipo C)

A seguinte solução propõe uma forma de alterar os dados sem criar as interferências referidas acima.

A avaliação é feita sobre árvores de decisão.

Page 24: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Classificação dos dados na árvorede decisão

Uma árvore de decisão é um discriminador de classes que recursivamente particiona o conjunto de dados até que cada partição consista inteira ou dominantemente de dados da mesma classe.

Cada nó não folha contém um split-point que testa um ou mais atributos e determina como os dados serão particionados.

Page 25: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Classificação dos dados na árvorede decisão

Uma árvore de decisão pode ser usada para delinear o perfil de futuros aplicadores classificando-os segundo sua categoria de risco.

Page 26: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Caracterização dos dados utilizados

Neste estudo foi utilizado uma base de dados do Wisconsin Breast Cancer (WBC).

O conjunto de dados possui 10 atributos numéricos cujo domínio é são os inteiros entre 1 e 10 e um atributo de classe ‘2’ ou ‘4’.

O gerador da árvore foi o Quinlan’s C5 nos 349 casos da base de dados do WBC

Page 27: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Árvore gerada com os dados não modificados

Page 28: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Passos para modificar os dados

1 – Adicionar ruído aos atributos influentes (LINAs) de cada folha da árvore através da técnica Leaf Influential Attribute Perturbation Technique(LINAPT).2 – Adicionar ruído aos atributos não influentes (LIAs) de cada folha da árvore através da técnica (LINAPT).3 – Adicionar ruídos aos atributos de classe através da técnica Randon Perturbation Technique (RPT).

Page 29: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Definições

A técnica considera que todos os atributos são sensíveis para evitar a identificação de algum registro particular.Divide-se os atributos numéricos em dois tipos: LIAs e LINAsAtributos numéricos variam de 1-10Atributos de classe podem ser 2 ou 4.

Page 30: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Passo 1

Para cada folha da árvore identifica-se os LINAs da folha. Seja A um LINA. A’ = A + εε é um ruído discreto com média μ e σ². A distribuição é escolhida de acordo com a aplicação.A’ continua pertencendo ao intervalo definido pelo valor condicional.

Page 31: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Passo 2

Para cada folha da árvore identifica-se os LIAs da folha. Seja B um LIA. B’ = B + εε é um ruído discreto com média μ e σ². A distribuição é escolhida de acordo com a aplicação.μ = 0 e σ = 27.6% do atributo do valor em questão.

Page 32: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Passo 3

Para cada folha da árvore identifica-se os campos de classe. Verifica-se se os campos são heterogêneos. Converte-se os n casos que pertencem a minoria para a maioria.Converte-se aleatoriamente n casos da maioria para a minoria. σ = 27.6% do atributo do valor em questão.

Page 33: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

ResultadosEm 7 dos 15 experimentos realizados as árvores lógicas com dados perturbados foram exatamente iguais à original.Em 5 casos alguns dados diferiram porém a extrutura da árvore não foi alterada.

Page 34: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Resultados

Em dois casos a extrutura da árvore foi ligeiramente modificada.

Page 35: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Conclusões

É possível manter a privacidade de um banco de dados alterando-se aleatóriamente os campos sem perder dados estatísticos e interrelacionados.

Existem ainda muitas outras técnicas.

Lattice Model

Cell Restriction

Random Sample Queries

Systematic rounding and systematic ranges

Dynamic Databases

Page 36: Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz

Bibliografia

[Agrawal] – “Privacy-preserving Data Mining”

[Fonseca] – “Curso de estatística”

[Denning] – “Inference controls for Statistical Databases”

[Crannor] – “Beyond Concern: Undertanding Internet User”