m©todos estat­sticos em aprendizagem

Download M©todos estat­sticos em aprendizagem

Post on 25-Jan-2016

33 views

Category:

Documents

2 download

Embed Size (px)

DESCRIPTION

Métodos estatísticos em aprendizagem. Mestrado FEI Paulo Santos. Aprendizagem: raciocínio com incerteza a partir de observações. aprender teorias probabilísticas sobre o mundo a partir da experiência; soluções gerais para os problemas de ruído, memorização e previsão ótima. - PowerPoint PPT Presentation

TRANSCRIPT

  • Mtodos estatsticos em aprendizagemMestrado FEIPaulo Santos

  • Aprendizagem: raciocnio com incerteza a partir de observaesaprender teorias probabilsticas sobre o mundo a partir da experincia;solues gerais para os problemas de rudo, memorizao e previso tima

  • Aprendizagem estatsticaConceitos fundamentais:Dados: evidncias, i.e. instanciaes de algumas ou de todas as variveis aleatrias que descrevem o domnio;Hipteses: teorias probabilsticas de como o domnio funciona incluindo teorias lgicas como casos particulares.

  • Exemplo: doce surpresaDoces de cereja e lima em embalagens idnticas. Cinco tipos de sacos de doces:h1: 100% cerejah2: 75% cereja + 25% limah3: 50% cereja + 50% limah4: 25% cereja + 75% limah5: 100% limaObservamos doces de uma sacola:Qual o tipo da sacola? Qual ser o prximo doce ?

  • Exemplo: doce surpresaDado um novo saco de doce, a varivel aleatria H (hiptese) denota o tipo do saco (h1, ..., h5)H no diretamente observvel;A medida que os doces so abertos e inspecionados, so revelados os dados - D1, D2, ... Dn, onde cada Di uma varivel aleatria com valores possveis cereja e lima.Observamos doces de uma sacola:Qual o tipo da sacola? Qual ser o prximo doce ?

  • Aprendizagem BayesianaCalcula a probabilidade de cada hiptese, considerando-se os dados, e faz previses de acordo com ela;as previses so feitas com o uso de todas as hipteses, ponderadas com suas probabilidadesA aprendizagem reduzida inferncia probabilstica

  • Aprendizagem BayesianaSeja D a repres. de todos os dados, com valor observado d; ento a probabilidade de cada hiptese obtida pela regra de Bayes:P(hi|d) = cP(d| hi)P(hi)

    A previso de uma quantidade desconhecida X:Onde cada hiptese determina uma distribuio sobre X

  • Aprendizagem BayesianaA previso de uma quantidade desconhecida X:

    Onde cada hiptese determina uma distribuio sobre X

    I.e., as previses so mdias ponderadas sobre as previses das hipteses individuais as hipteses so intermedirios entre os dados brutos e as previses.

  • de volta aos docesSuponha que a distribuio a priori sobre h1,..., h5 seja dada por A probabilidade dos dados calculada sob a suposio de que as observaes so independentementes e identicamente distribudas:P(d|hi) = j P(dj|hi)i.e, uma observao no depende das anteriores, dado as hipteses

  • de volta aos docesSuponha que a sacola seja realmente uma sacola s com doces de lima (h5) e que os primeiros 10 doces sejam todos de lima; entoP(d|h3) = j P(dj|h3) = 0.510(metade dos doces em h3 de lima)Como as probabilidades mudam com novas observaes ?

  • Probabilidade Posterior de HiptesesProb a priori

  • Probabilidades prevista de que o prximo doce seja de lima

  • Probabilidades prevista de que o prximo doce seja de lima

  • Aprendizagem BayesianaDada a distribuio a priori de todas as hiptesesA hiptese verdadeira eventualmente domina a previso BayesianaA previso tima quer o conjunto de dados seja pequeno ou grandepara problemas reais de aprendizagem o espao de hipteses em geral muito grande ou infinito

  • Aprendizagem Bayesiana aproximada : MAPFazer previses com uma nica hiptese: a mais provvel:hi que maximize P(hi|d)hiptese de mximo a posteriori: MAP previses aproximadamente Bayesianas:P(X|d) P(X|hMAP)aps 3 doces de lima seguidos hMAP= h5 o 4o doce ser previsto de lima com 100% de certeza

  • MAPmaximizar P(hi|d) P(hi|d) = cP(d| hi)P(hi)logo hMAP para maximizar P(d| hi)P(hi) equivalente a minimizar:- log2 P(d|hi) - log2 P(hi)

  • MAPOutra possibilidade tomar o logaritmo de:P(hi|d) = cP(d| hi)P(hi)logo hMAP para maximizar P(d| hi)P(hi) e equivalente a minimizar:- log2 P(d|hi) - log2 P(hi)nmero de bits necessriospara especificar hinmero adicional de bits paraespecificar os dados

  • MAP- log2 P(d|hi) - log2 P(hi)nmero de bits em hipara especificar(explicar) os dadosnmero adicional de bits paraespecificar os dados(considere que nenhum bit necessrio se a hiptese prev os dados exatamente: log 1 = 0

  • MAP- log2 P(d|hi) - log2 P(hi)

    Minimizar isso significa, portanto, encontrar a hiptese que encontre a compactao mxima dos dados

  • MAPencontrar a hiptese que encontre a compactao mxima dos dadosPrincipal idia por traz d aprendizagem por comprimento mnimo de descrio (CMD) [minimum description length (MDL) learning]:minimizar o tamanho da hiptese e das codificaes dos dados

  • Aprendizagem de parmetros com dados completosAprendizagem de parmetros com dados completos:descoberta dos parmetros numricos para um modelo de probabilidade cuja estrutura fixaDados so completos quando cada ponto de dados contm valores para toda varivel no modelo de probabilidade que est sendo aprendido. simplificam o processo de aprendizagem

  • Exemplosaco de doces de um novo fabricante cujas propores de cereja e lima so completamente desconhecidas (entre 0 e 1)quantidade contnua de hiptesesO parmetro () a proporo de doces de cereja (1 - a prop de lima)A hiptese h

  • Exemplosupondo que todas as propores so igualmente provveis a priori:mxima probabilidade razovelModelando como uma rede Bayesiana:

  • Aprendizagem de parmetros em redes BayesianasDesembrulhando N doces (c de cereja e N - c lima)

    A hiptese de mxima probabilidade dada pelo valor de que maximiza essa expresso, tambm obtido maximizando-se:

  • Aprendizagem de parmetros em redes Bayesianas

    O valor de mxima probabilidade de obtido por:

  • Aprendizagem de parmetros de mxima probabilidadeEscrever uma expresso para a probabilidade dos dados como uma funo dos parmetrosEscrever a derivada da probabilidade logartmica com relao a cada parmetroEncontrar os valores de parmetros tais que as derivadas sejam iguais a zero

  • Aprendizagem de parmetros de mxima probabilidadePrincipal problema (small sample size problem):para conjuntos de dados pequenos, alguns eventos recebem probabilidade zerodiviso no definida

  • Outro exemplo:Embalagens de doces coloridas de vermelho e verdea embalagem de cada doce selecionada probabilisticamente, segundo alguma distribuio condicional desconhecida, dependendo do sabor

  • Mltiplos parmetros trs parmetros , 1, 2. A probabilidade de ver um doce de cereja em uma embalagem verde (segundo a semntica de redes Bayesianas) :

  • Multiplos parmetrosDesembrulhamos N doces: c (cer.) e l (lima)rc de cereja tem embalagens vermelhasgc de cereja tem embalagens verdesrl e gl analogamente

  • Mltiplos parmetrosA probabilidade dos dados , portanto:

  • Mltiplos parmetros

  • Mltiplos parmetrosesses resultados podem ser estendidos a qqr rede Bayesiana cujas probabilidades condicionais so dadas como tabelascom dados completos, o problema de aprendizagem de parmetros por mxima probabilidade se decompe em problemas de aprendizagem separados: um para cada parmetro.os valores de parmetros para uma varivel, dados seus pais, so as frequncias observadas dos valores de variveis para cada configurao dos valores dos pais

  • Aprendizagem de parmetros de mxima probabilidade: modelo Gaussiano Linearmodelos de probabilidade contnuosos princpios so idnticos aos do caso discretoEx. aprendizagem de parmetros de uma funo de densidade gaussiana sob uma nica varivel:

  • parmetros desse modelo:: mdia e : desvio padroSejam os valores observados x1, ..., xN. Ento a probabilidade logartmica :

  • Definindo as derivadas como zero:i.e. o valor de mxima probabilidade da mdia a mdia das amostras e o valor de mxima probabilidade do desvio-padro a raiz quadrada da varincia das amostras

  • Considere um modelo gaussiano linear com um pai contnuo X e um filho contnuo Y.Para aprender a distribuio condicional P(Y|X) podemos maximizar a probabilidade condicional:

    para os parmetros: 1, 2 e

  • (yj - (1xj + 2 ))2 o erro para (xj,yj) E a soma de erros quadrticosquantidade minimizada por regresso linear

  • a minimizao da soma dos erros quadrticos fornece o modelo de linha reta de mxima probabilidade, desde que os dados sejam gerados com rudo gaussiano de varincia fixa.

  • Aprendizagem de estruturas de redes BayesianasAt agora supomos que a estrutura da rede bayesiana dada: somente aprende-se os parmetrosEm alguns casos o modelo causal est indisponvel ou em disputa

  • Aprendizagem de estruturasAbordagem bvia:buscar um modelo: iniciar com um modelo que no contenha nenhum vnculo e comear a adicionar pais correspondentes a cada n, ajustando os parmetros e medindo a exatido do modelo resultante.comear com um palpite inicial sobre a estrutura e utilizar busca por subida de encosta para fazer modificaes, retornando os parmetros aps cada mudana de estrutura.modificaes: inverso, adio ou eliminao de arcos.busca sobre ordenaes possveis

  • Aprendizagem de estruturasUma boa estrutura foi encontrada?testar se as asseres de independncia condicional implcitas na estrutura so realmente satisfeitas nos dados. P(Sex/Sab, Bar|VaiEsperar) = P(Sex/Sab|VaiEsperar)P(Bar|VaiEsperar)Verificar nos dados se esta equao vlida.ainda que a estrutura descreva a verdadeira natureza causal do domnio, flutuaes estatsticas no conjunto de dados significam que a equao nunca ser satisfeita exatamente, e ento precisamos utilizar um teste estatstico apropriado para verificar se existe evidncia estatstica suficiente de que a hiptese de independncia foi violadaquanto mais rgido for este teste, mais vnculos sero adicionados e maior o risco de superadaptao.

  • Aprendizagem de variveis ocultasVariveis ocultas (ou latentes)ex. registros mdicos contm sintomas observveis e o tratamento, mas raramente uma observao da doena!Por que no construir um modelo sem esta varivel?