agentes baseados em utilidade gustavo danzi de andrade geber ramalho {gda,glr}@cin.ufpe.br

Agentes Baseados em Agentes Baseados em UtilidadeUtilidade

Gustavo Danzi de AndradeGustavo Danzi de Andrade

Geber RamalhoGeber Ramalho{gda,glr}@cin.ufpe.br{gda,glr}@cin.ufpe.br

RelembrandoRelembrando

Um agente Está em um mundo descrito por um conjunto

de estados S ={s1, s2,...,sn}

Pode realizar, neste mundo, um conjunto de ações A ={a1, a2,...,at}

As conseqüências de suas ações são descritas por uma função de transição

Mundo determinístico T(si,aj) sk Mundo não-determinístico (função estocástica)

(si,aj) {(pt,st), (pk,sk), ... (ps,ss)} onde pk é a probabilidade do estado ser ak

Agentes capazes de ... Tomar decisões racionais baseado no que acredita e deseja

Diferentemente de um agente lógico Pode tomar decisões em ambientes com incertezas e

objetivos conflitantes Possui uma escala contínua de medida de qualidade sobre os

estados

Funções de Utilidade associam um valor a um estado Indica a “felicidade” por estar nesse estado U(S) = utilidade estado S de acordo com o agente Ex.: s1 = {rico, famoso}, s2 = {pobre, famoso}

U(s1) = 10

U(s2) = 5

O que veremosO que veremos

RoteiroRoteiro

Ambientes Determinísticos e Não-Determinísticos

Funções de Utilidade

Funções de Utilidade Multi-atributo

Teoria do Valor da Informação

Teoria dos Jogos

Princípio da Maximização da Utilidade: agente racional deve escolher ações que maximizam sua utilidade !

Mundo determinístico Isto é feito escolhendo diretamente a ação de maior

utilidade

Mundo determinístico É preciso considerar todos os possíveis estados de saída

de cada ação não-determinista e escolher a que maximiza a utilidade esperada

Escolha de açõesEscolha de ações

Exemplo: S = {(rico,famoso), (rico,desconhecido), (pobre,famoso),

(pobre,desconhecido)} A = {trabalhar, participar do BigBrother} Transições de estados (dinâmica do ambiente):

T[(pobre,desconhecido), trabalhar] = (rico, desconhecido) T[(pobre,desconhecido), part. BB] = (rico, famoso)

Função de Utilidade: U(rico,famoso) = 10 U(rico,desconhecido) = 8 U(pobre,famoso) = 5 U(pobre,desconhecido) = 0

Supondo que o agente é pobre e desconhecido (estado inicial), qual a melhor ação a executar?

Participar do BigBrother...

Ambiente determinístico: exemploAmbiente determinístico: exemplo

Para cada saída possível é associada uma probabilidade: P (Result(A) | Do(A), E)

Onde, E resume a evidência que o agente possui do mundo

Do(A) indica que a ação A foi executada no estado atual

Utilidade esperada de uma ação A dado a evidência do mundo E:

UE(A|E) = i P(Resulti(A)|Do(A),E) x U(Resulti(A))

Nesta aula: Tomadas de Decisões Simples O agente decide apenas uma vez

Em ambientes não-determinísticosEm ambientes não-determinísticos

Um Robô deve transportar uma caixa

E = a caixa é de metal

a1 = Chutar: s1, caixa no destino 20% U(s1) = 10

s2, caixa no meio do caminho 30% U(s2) = 5

s3, caixa longe destino 50% U(s3) = 0

a2 = Carregar: s1, caixa no destino 80% U(s1) = 10

s4, caixa na origem 20% U(s4) = 0

UE(a1) = 0,20 x 10 + 0,30 x 5 + 0,50 x 0 = 3,5

UE(a2 ) = 0,80 x 10 + 0,20 x 0 = 8

Exemplo 1Exemplo 1

A melhor ação é Carregar (a2)

RoteiroRoteiro





Teoria dos Jogos

Funções de Utilidade são, essencialmente, heurísticas!

Preferências racionais permitem descrever o melhor comportamento como aquele que maximiza UE Propriedades do “desejo” do agente Caso satisfaçam as restrições racionais, pode-se

garantir a existência de uma Função de Utilidade U(S) R

Notação: A B: A é preferível a B A ~ B: agente indiferente entre A e B A B: agente prefere A à B ou é indiferente Para ações não-deterministas:

A e B são loterias: distribuições probabilísticas sobre um conjunto de estados de saída

Funções de UtilidadeFunções de Utilidade

Axiomas da Teoria da Utilidade: Ordenabilidade: (A > B) ( B > A) (A ~ B)

Transitividade: (A > B) (B > C) (A > C)

Continuidade: A > B > C p [p.A; 1 - p.C] ~ B

Substitutibilidade: A ~ B [p.A; 1 – p.C] ~ [p.B; 1 – p.C]

Monotonicidade:A > B ( p q [p.A; 1 – p.B] [q.A; 1 – q.B] )

Decomponibilidade:[p.A; 1 – p. [q.B; 1 – q.C] ] ~ [p.A; (1 – p)q.B; (1 – p)(1 – q). C]

Restrições RacionaisRestrições Racionais

Exemplo 2: A Utilidade do DinheiroExemplo 2: A Utilidade do Dinheiro

Como seria a função de utilidade do dinheiro?

Situação: Um jogador está ganhando um prêmio de R$ 1.000.000 É oferecida uma aposta: Cara ou Coroa

Se aparecer cara jogador perde tudo Se aparecer coroa jogador ganha R$ 3.000.000

Hipótese 1: Linear? U(x) = x Calculando o Valor Monetário Esperado de Aceitar a

Aposta: 0.5 U(R$ 0) + 0.5 U(R$ 3.000.000) = $ 1.500.000

Calculando o Valor Monetário Esperado de Recusar a Aposta:

1 U(R$ 1.000.000) = R$ 1.000.000 (menor) Isso indica que seria melhor aceitar a aposta...

Exemplo 2: A Utilidade do DinheiroExemplo 2: A Utilidade do Dinheiro

Hipótese 2: Não-linear? U(0) = 0 U(1.000.000) = 100 U(3.000.000) = 150 Calculando o Valor Monetário Esperado:

EU (Aceitar) = 0.5 U(0) + 0.5 U(3.000.000 ) = 75 EU (Rejeitar) = U(1.000.000) = 100

A melhor opção é rejeitar a aposta... Onde, Sk = riqueza atual do jogador

Na prática, o valor do dinheiro depende da situação atual: U(k,n) = onde k é a riqueza atual e n o novo ganho À medida que k cresce, a utilidade de n diminui....

Conclusão: Utilidade não é diretamente proporcional ao valor monetário Dependa da mudança no estilo de vida...

RoteiroRoteiro





Teoria dos Jogos

Como tratar funções de utilidades com várias variáveis X1, ..., Xn ? Ex.: Construir aeroporto,

Variáveis: Segurança, Custo, Poluição sonora U (Segurança, Custo, Poluição sonora) = ?

Existem duas situações: Dominância:

decisões podem ser tomadas sem combinar os valores dos atributos em um único valor da utilidade

Estrutura de Preferência e Utilidade Multi-atributo: utilidade resultante da combinação dos valores dos atributos pode ser especificada concisamente

Funções Multi-atributoFunções Multi-atributo

Se um estado S1 possui valores melhores em todos seus atributos do que S2, então existe uma dominância total de S1 sobre S2

i Xi(B) Xi(A) (e portanto U(B) U(A))

Dominância total raramente acontece na prática...

Dominância TotalDominância Total

Na prática, dominância estocástica pode ser definida usando apenas um raciocínio qualitativo Ex.: custo de construção aumenta com a distância para a cidade: S1 é mais próximo da cidade do que S2 S1 domina S2

estocasticamente sobre o custo

$- 2,8-5.2

P

S1

S2

Exemplo, custo de construir um aeroporto: Em S1 valor uniformemente distribuído entre $2,8 e $4,8 bilhões

Em S2 valor uniformemente distribuído entre $3 e $5,2 bilhões

Dada a informação que a utilidade decresce com custo:

S1 domina estocasticamente S2

UE de S1 é pelo menos tão alta quanto UE de S2

Dominância EstocásticaDominância Estocástica

Supondo que existem n atributos com d possíveis valores: No pior caso, serão necessários dn valores (preferência

sem regularidade)

A Teoria da Utilidade Multi-atributo assume que preferências de agentes possuem certa regularidade (estrutura) Abordagem básica é tentar identificar essas regularidades!

Agentes com uma certa estrutura em suas preferências terão uma função: U(x1,...,Xn) = f[ f1(x1),...,f2(x2) ] Onde espera-se que f seja uma função simples!

Se os atributos forem mutuamente independentes...

Estrutura de Preferência e Utilidade Multi-atributoEstrutura de Preferência e Utilidade Multi-atributo

Atributos mutuamente independentes: X1 e X2 são preferencialmente independente de X3 se, e

somente se: Preferência entre {x1, x2, x3} e {x1’, x2’, x3} não depende em x3

Independência preferencial mútua (MPI): todos os pares de atributos são preferencialmente independente com relação aos demais Ex.: Segurança, Custo, Poluição sonora

Com MPI, o comportamento preferencial do agente pode ser descrito como uma maximização da função: Caso determinista: V (x1 ... xn) = i Vi(xi) (somatório) Caso não-determinista: basta estender para lidar com

loterias

Estrutura de Preferência e Utilidade Multi-atributoEstrutura de Preferência e Utilidade Multi-atributo

Exemplo 3Exemplo 3

Construir aeroporto: Variáveis: Segurança, Custo, Poluição sonora U (Segurança, Custo, Poluição sonora) =

V(Segurança) – V(Custo) – V(Poluição sonora)

V(Segurança) = Número de itens de segurança construídos

V(Custo) = Custo total da construção em milhões de R$

V(Poluição sonora) = População afetada (taxa por 100 mil hab.)

RoteiroRoteiro





Teoria dos Jogos

Teoria do Valor da InformaçãoTeoria do Valor da Informação

Problemas anteriores assumiam que todas as informações estavam disponíveis

O que acontece quando: Cabe ao agente buscar as informações necessárias Obtenção de informações tem um custo associado Ex.: solicitação de um exame por parte de um médico

A Teoria do Valor da Informação permite que o agente escolha quais informações adquirir

Exemplo: comprar os direitos de exploração de reservas de petróleo: Dois blocos A e B, apenas um possui óleo com valor C; Probabilidade de comprar o bloco certo = 0,5 O preço de cada bloco é C/2 Consultor oferece uma pesquisa para detectar qual

bloco possui petróleo. Qual o valor dessa informação?

Exemplo 4Exemplo 4

Solução: Calcular o valor esperado da informação =

valor esperado da melhor ação dada a informação – valor esperado da melhor ação sem a informação;

Pesquisador irá informar: “há óleo em A” ou “há óleo em B”. Então:

Melhor ação com a informação: C Melhor ação sem a informação: (0,5 x C) + (0,5 x 0)

= C/2 Valor esperado da informação: C – C/2 = C/2

Exemplo 4Exemplo 4

Uma informação só terá valor caso gere uma mudança de plano, e se esse novo plano for significativamente melhor do que o antigo.

S1 e S2: dois estados distintos U1 (S1) > U2 (S2)

Nova evidência NE produzirá novas utilidades esperadas U1’ e U2’ Vale a pena adquirir NE?

Para uma situação clara, a informação não é necessária... Para uma escolha obscura, a informação é valiosa...

Exemplo 4Exemplo 4

RoteiroRoteiro





Teoria dos Jogos

Agentes baseados em utilidade podem atuar em ambientes incertos...

Mas o que acontece quando a incerteza é proveniente de outros agentes e de suas decisões? E se as essas decisões são influenciadas pelas nossas? A Teoria dos Jogos trata essas questões É usada para tomar decisões sérias (decisões de preço,

desenvolvimento de defesa nacional, etc)

Teoria dos JogosTeoria dos Jogos

Na Teoria dos Jogos, jogos são compostos de: Jogadores Ações Matriz de Resultado

Cada jogador adota uma Estratégia (diretriz) Estratégia Pura:

Diretriz determinística: uma ação para cada situação Estratégia Mista:

Ações selecionadas sobre uma distribuição probabilística

Teoria dos JogosTeoria dos Jogos

Dois ladrões (Alice e Bob) são presos perto da cena do crime e interrogados separadamente

Ações: testemunhar, recusar

Matriz de resultados:

Dilema do Prisioneiro: Eles devem testemunhar ou se recusarem a testemunhar? Ou seja, qual estratégia adotar?

Estratégia Dominante: Estratégia que domina todas as outras É irracional não usar uma estratégia dominante, caso exista

Testemunhar

Recusar

Testemunhar

A = -5; B = -5 A = -10; B = 0

Recusar A = 0; B = -10

A = -1; B = -1

Bob

Alice

Exemplo 5Exemplo 5

Qual será a decisão de Alice se ela for racional? E de Bob? Testemunhar (estratégia dominante)

Equilíbrio de Estratégia Dominante: Situação onde cada jogador possui uma estratégia dominante

Então, eis que surge o dilema: Resultado para o ponto de equilíbrio é Pareto Dominated

pelo resultado {recusar, recusar} ! Um resultado é dito “Pareto Dominated” por outro se todos

jogadores preferirem esse outro resultado

Há alguma maneira de Alice e Bob chegarem ao resultado (-1, -1)? Opção permitida mais pouco provável Poder atrativo do ponto de equilíbrio !

Exemplo 5Exemplo 5

Equilíbrio de Nash: Agentes não possuem intenção de mudar de estratégia Condição necessária para uma solução John Nash provou que todo jogo possui um equilíbrio

assim definido

Equilíbrio de Estratégia Dominante é um Equilíbrio de Nash

Mas esse conceito afirma mais: Existem estratégias que se equilibram mesmo que não

existam estratégias dominantes

Equilíbrio de NashEquilíbrio de Nash

Exemplo: Uma companhia de fabricante de hardware (Best) e

outra de discos (ACME)

Dois equilibrios de Nash: {dvd, dvd} e {cd, cd} Um equilíbrio Pareto Dominated

Best

ACME

DVD CD

DVD A = 9; B = 9 A = -1; B = -5

CD A = -5; B = -1

A = 5; B = 5

Exemplo 6Exemplo 6

RoteiroRoteiro





Teoria dos Jogos

Em resumo...Em resumo... Funções de Utilidade:

Associam a cada estado um valor real Indica a “felicidade” do agente em estar em cada estado

Princípio de Maximização da Utilidade:“Um agente racional deve escolher a ação que

maximiza sua utilidade esperada”

Utilidade Esperada Indica a utilidade de uma ação a que pode resultar em

diversos estados s i

UE(s,a) = ∑ i T(s,a,s i) . U(s i)

Teoria dos Jogos: Estratégias dominantes e equilíbrios

agentes baseados em utilidade gustavo danzi de andrade geber ramalho {gda,glr}@cin.ufpe.br

Documents