cin- ufpe 1 agentes inteligentes experimento... wumpus ambientes arquiteturas
TRANSCRIPT
CIn- UFPE
1
Agentes Inteligentes
Experimento...
Wumpus
Ambientes
Arquiteturas
sensoresAgente
efetuadores
a m
b i
e n
t e
Raciocinadormodelo do ambiente.
conhecimento.objetivos,...
Lembrando...
Agente Inteligente• dada uma seqüência perceptiva, escolhe, segundo seus
conhecimentos, as ações que satisfazem melhor seu objetivo
CIn- UFPE
3
Experimento do “Robô Humano”
CIn- UFPE
4
Partes do robô
Partes:• 1 Cérebro (1 pessoa)• 2 Braços (1 por pessoa = 2 pessoas)• 1 sistema de visão (1 pessoa)
Cérebro• não pode ver• fala com todas as partes do robô• controla os braços indicando
– ângulos de giro– deslocamento em uma direção e distância dadas– força a aplicar
• pode fazer perguntas aos braços e sistema de visão• pode pedir para o sistema de visão se deslocar para obter outros
ângulos de visão• pode desenhar ambiente em uma folha de papel
CIn- UFPE
5
Partes do robô
Braços• não podem ver• não devem ouvir o que diz o sistema de visão• tem tato pouco refinado• podem responder sim ou não ao cérebro (ex. estão tocando
em algo?)• seguem instruções do cérebro
Sistema de visão• não pode fornecer informação sem ter sido claramente
perguntado pelo cérebro• pode distinguir diferentes objetos e estimar distâncias• pode mover-se de forma a dar informações visuais a partir de
diferentes ângulos
CIn- UFPE
6
A tarefa
Voluntários?• Braços e olhos saem da sala...• Cérebro recebe a tarefa
Algumas conclusões• Um modelo do mundo
– é imprescindível e econômico (resume todo o ocorrido)– dá suporte ao raciocínio
• Conhecimento prévio do mundo é importante• Coordenar diferentes sistemas é complicado• A percepção e a execução são imperfeitas• Feedback visual e de força são imprescindíveis• No mundo real é mais complicado
– tem muito conhecimento implícito– A maioria dos sistemas de visão não são móveis
• ...
CIn- UFPE
7
O Mundo do Wumpus
CIn- UFPE
8
Bem-vindos ao “Mundo do Wumpus”
Wumpus
Agente caçador de tesouros
CIn- UFPE
9O Mundo do Wumpus: formulação do problema
Ambiente:• paredes, Wumpus, cavernas, buracos, ouro
Estado inicial:• agente na caverna (1,1) com apenas uma flecha• Wumpus e buracos em cavernas quaisquer
Objetivos:• pegar a barra de ouro e voltar à caverna (1,1) com vida
CIn- UFPE
10O Mundo do Wumpus: formulação do problema
Percepções: • fedor (ao lado do Wumpus)• brisa (ao lado dos buracos)• brilho (na caverna do ouro)• choque (contra a parede da caverna) • grito do Wumpus (quando morre)
Ações:• avançar para próxima caverna• girar 90 graus à direita ou à esquerda• pegar um objeto na mesma caverna que o agente• atirar na direção para onde o agente está olhando (a flecha
pára quando encontra uma parede ou mata o Wumpus)• sair da caverna
CIn- UFPE
11
Codificação do Mundo do Wumpus
1
2
3
41 2 3
4
início
fedor
Abrisa B
W
brisa
brisa
fedor
fedorbrisa, luz
B
B
brisa
brisa
OA - AgenteW - WumpusB - BuracoO - OuroX? - possível XV - Caverna visitada
Percepção = [fedor,brisa,brilho, choque,grito]
CIn- UFPE
12
1
2
3
41 2 3
4
A
Raciocinando e Agindo no Mundo do Wumpus
Representação do conhecimento do agente:
1
2
3
41 2 3
4
okA
ok
V
okok
ok
ok
(a) início (b) depois do 1o movimento
[nada,nada,nada,nada,nada] [nada,brisa,nada,nada,nada]
B?
B?
b
CIn- UFPE
13
1
2
3
41 2 3
4
ok
Aok
V Vbok
W
f
Raciocinando e Agindo no Mundo do Wumpus
Depois de passar por (1,1), chega a (2,1)...
ok
B!
[fedor,nada,nada,nada,nada]
Vai para (2,2), (2,3) e encontra o ouro!!!
1
2
3
41 2 3
4
ok
A
fok
V Vbok
B!
W
Vok
V
f b lB?
B?
ok
(c) Decide ir para (2,2), único OK não visitado
CIn- UFPE
14
Exercício... Vamos achar o ouro?
1
2
3
41 2 3
4
A
B!
W!
O
B!
CIn- UFPE
15
Caracterização do Ambiente
Exemplos de agentesAgente Dados
perceptivosAções Objetivos Ambiente
Diagnósticomédico
Sintomas,paciente, exames
respostas, ...
Perguntar,prescrever exames,
testar
Saúde do paciente,minimizar custos
Paciente,gabinete, ...
Análise deimagens de
satélite
Pixels imprimir umacategorização
categorizarcorretamente
Imagens desatélite
Tutorial deportuguês
Palavrasdigitadas
Imprimir exercícios,sugestões,
correções, ...
Melhorar odesempenho do
estudante
Conjunto deestudantes
Filtrador demails
mensagens Aceitar ou rejeitarmensagens
Aliviar a carga deleitura do usuário
Mensagens,usuários
Motorista detaxi
Imagens,velocímetro,
sons
brecar, acelerar,dobrar, falar com
passageiro, ...
Segurança,rapidez, economia,
conforto,...
Ruas, pedestres,carros, ...
Músico de jazz Sons seus e deoutros músicos,
grades deacordes
Escolher e tocarnotas no andamento
Tocar bem, sedivertir, agradar
Musicos,publico, grades
de acordes
CIn- UFPE
17
Ambiente
Classes de ambientes• Físico: robôs• Software: softbots• Realidade virtual (simulação do ambiente físico): softbots e
avatares
Propriedades de um ambiente• acessível x inacessível• estático x dinâmico• determinista x não-determinista• discreto x contínuo• episódico x não-episódico• tamanho: número de percepções, ações, objetivos,...
CIn- UFPE
18
Ambientes: propriedades
Acessível: quando os sensores do agente conseguem perceber todos os aspectos relevantes do ambiente para a escolha da ação• ex. wumpus não é acessível, xadrez é
Determinista: o próximo estado do ambiente pode ser completamente determinado pelo estado atual e as ações selecionadas pelo agente (= incerteza do fruto da ação)• semi-determinista: se tem outros atores agindo
imprevisivelmente para mudar o “estado do mundo”• ex. wumpus determinista, robocup não-determinista, xadres
semi-determinista
CIn- UFPE
19
Ambientes: propriedades
Episódico: a experiência do agente é dividida em episódios e ação em um episódio não depende das ações que ocorreram em episódios prévios• exemplo: classificador de imagens é episódico, xadrez não
Estático: o ambiente não muda enquanto o agente está escolhendo a ação a realizar. • Semi-estático: o ambiente não muda enquanto o agente
delibera, mas o "score" do agente muda• ex. xadrez c/ relógio semi-estático, xadrez estático, táxi
dinâmico• obs: há mundos dinâmicos e deterministas (ex. esteira de
fábrica)
CIn- UFPE
20
Ambientes: propriedades
Discreto: quando existe um número distinto e claramente definido de percepções e ações em cada turno• ex. médico (consulta) discreto, táxi dinâmico
O Tamanho do ambiente é dado por: número de percepções, ações e objetivos possíveis
Exemplos de ambientes
Agente acessível determinista episódico estático discreto
xadrez sem relógio Sim +/- Não Sim Sim
xadrez com relógio Sim +/- Não Semi sim
gamão sim não não sim sim
motorista de taxi Não Não Não Não Não
médico Não Não Não Não Não
tutor Não Não Não Não Sim
Analisador de imagem Sim Sim Sim Semi Não
Busca na web Não +/- Sim Não Sim
Filtrador de mail Sim +/- Sim Não Sim
Músico Sim Não Não Não Não
CIn- UFPE
22
Simulação do ambiente
Às vezes é mais conveniente simular o ambiente• mais simples• permite testes prévios• evita riscos, etc...
O ambiente (programa)• recebe os agentes como entrada• fornece repetidamente a cada um deles as percepções
corretas e recebe as ações• atualiza os dados do ambiente em função dessas ações e
de outros processos (ex. dia-noite)• é definido por um estado inicial e uma função de atualização• deve refletir a realidade
CIn- UFPE
23
Arquiteturas de Agentes
CIn- UFPE
24
Algoritmo básico
Ciclo de Agente• Percebe• Raciocina (interpreta percepção e escolhe ação)• Executa ação
Arquiteturas• Agente tabela• Agente reativo puro• Agente reativo com estado interno (autômato) • Agente cognitivo (baseado em objetivos)• Agente otimizador• Agente adaptativo
autonomiacomplexidade
CIn- UFPE
25
ambiente
sensores
efetuadores
Tabelapercepções ações
. .
. .
Agente
Agente tabela
Funcionamento• Para cada percepção, procura na tabela a ação correspondente
Vantagens• muito eficiente!!
CIn- UFPE
26
Agente tabela
Limitações• Mesmo Problemas simples -> tabelas muito grandes
– ex. xadrez 30^100• Nem sempre é possível, por ignorância ou questão de tempo,
construir a tabela • Não há autonomia nem flexibilidade
Este agente só tem fins didáticos!!! Não vale nem a pena pensar nele
CIn- UFPE
27
Agente puramente reativo
Am
bie
nte
Sensores
Efetuadores
RegrasPercepção Ação
CIn- UFPE
28
Agente Reativo Puro
Funcionamento• Usa regras associando diretamente percepção com ação
– ex. Se velocidade > 60 então multar– ex. Se luz do freio do carro da frente acender, então frear
• Dada a percepção, encontra a primeira regra que casa e executa ação
Exemplo no Wumpus• IF visualPerception = glitter THEN action = pick
(representação pseudo-lógica)
CIn- UFPE
29
Agente Reativo Puro
Vantagens e desvantagens• Regras condição-ação: representação inteligível, modular e
eficiente • Não pode armazenar uma seqüência perceptiva, pouca
autonomia
Limitações do agente reativo puro no mundo do Wumpus• um agente ótimo deveria:
– recuperar o ouro ou– determinar que é muito perigoso pegar o ouro e– em qualquer dos casos acima, voltar para (1,1) e sair da
caverna.• Um agente reativo nunca sabe quando sair,
– estar com o ouro e estar na caverna (1,1) não fazem parte da sua percepção (se pegou, esqueceu).
– esses agentes podem entrar em laços infinitos.
CIn- UFPE
30Agente reativocom estado interno
Am
bie
nte
Sensores
Efetuadores
Modelodos
ambientespassados e atual
Interpretadorde percepção
Escolhedor de ação
Atualizador domodelo do ambiente
Agente reativo com estado interno
Funcionamento: idem anterior + modelo do mundo (memória)• Regras associando indiretamente percepção com ação via
construção e manutenção de um modelo do ambiente– Ação depende da percepção atual + anteriores + ações
anteriores... • Antes de agir, já atualiza o modelo do ambiente
– Ex. Fazer uma ultrapassagem em um carro
Motivação• O ambiente inteiro não é acessível no mesmo momento
– ex. ultrapassagem de um carro• Percepções instantâneas iguais podem corresponder a
estados diferentes– ex. Wumpus: cavernas visitadas
Agente reativo com estado interno
Novos conhecimentos (regras) para atualização do mundo• percepção modelo modelo’• Modelo’ modelo’’ (talvez)• Modelo’’ ação• ação modelo’’ modelo’’’
Regras percepção modelo modelo• IF visualPercept at time T is glitter
AND location of agent at time T is (X,Y)THEN location of gold at time T is (X,Y)
• X,Y,T see(glitter,T) loc(agent,X,Y,T) loc(gold,X,Y,T).
CIn- UFPE
33Regras de agente reativo com estado interno
Regras modelo modelo• IF known that agent is with gold at time T
AND known that location of agent at time T is (X,Y)THEN known that location of gold at time T is (X,Y)
Regras modelo ação• IF known that location of agent at time T = (X,Y)
AND known that location of gold at time T = (X,Y) THEN choose action at time T to be pick
CIn- UFPE
34Regras de agente reativo com estado interno
Regras ação modelo modelo• IF choosen action at time T was pick
THEN known that agent is with gold at time T+1
Desvantagem: • Autonomia, mas não muito• não tem objetivo, não pensa no futuro (só na ação
imediata)!!!
CIn- UFPE
35Agente deliberativo/cognitivo (baseado em objetivo)
Am
bie
nte
Sensores
Efetuadores
Modelo dos ambientespassados e atual
Interpretadorde percepção
Escolhedor de ação
Atualizadordo modelo
do ambiente
Preditorde ambientes
futuros
Modelo de ambientesfuturos hipotéticos
ObjetivosAtualizadordo objetivos
Agente Cognitivo
Funcionamento (associação percepção-ação)• Mediada por modelo do ambiente e objetivo do agente• Pode envolver encadear regras para construir plano multi-
passo necessário para atingir objetivo a partir de modelo– ex. taxista encontrando a rota para o destino do passageiro– ex. taxista freia porque quer evitar prejuízo e dor de cabeça no
futuro
Contém os 4 tipos de regras do agente reativo com estado interno + 2 novos tipos de regras:• Regras: objetivo modelo ação• Regras: objetivo modelo objetivo’
Trata o objetivo explicitamente e pensa no futuro!!!!
CIn- UFPE
37
Regras de agente Cognitivo
Regras objetivo modelo ação (ações)
//O agente escolhe um caminho para o objetivo
• IF goal of agent at time T is to be in location (X,Y) AND agent is in (X-1, Y-1) at time T-N AND known that location (X,Y-1) is safe at time T-NAND known that location (X,Y) is safe at time T-NTHEN choose action Go to X,Y via (X,Y-1)
CIn- UFPE
38
Regras de agente deliberativo
Regras objetivo modelo ação (ações)
//O agente pode variar a escolha conforme o objetivo, como não matar o wumpus para pegar logo o ouro
• IF goal of agent is to get the gold
AND agent is in (X-1, Y) at time T AND known that the gold is in location (X,Y)
AND known that location (X,Y) is safe at time TAND known that Wumpus is in location (X-1,Y+1) at time TAND known that the agent has na arrow at time TTHEN choose action Go to X,Y
CIn- UFPE
39
Regras de agente deliberativo
Regras objetivo modelo objetivo
//Se o agente queria estar com o ouro e conseguiu, atualizar objetivo para ir para (1,1)
• IF goal of agent at time T is to be with gold at time T+N AND agent is with gold at time T+1 THEN update goal of agent at time T+1 to be in location (1,1) at time T+M
CIn- UFPE
40
Agente cognitivo (baseado em objetivo)
Vantagens e desvantagens:• Mais complicado e ineficiente,• porém mais flexível e autônomo
– ex. se começa a chover, já sabe que não pode confiar no freio• Não trata objetivos conflitantes
– ex. chegar ao destino pelo caminho mais curto, seguro, barato, rápido e bonito
CIn- UFPE
41
Agente otimizador (baseado em utilidade)
Am
bie
nte
Sensores
Efetuadores
Modelo dos ambientespassados e atual
Interpretadorde percepção
Escolhedor de ação
Atualizadordo modelo
do ambiente
Preditorde ambientes
futuros
Modelo de ambientesfuturos hipotéticos
Objetivospotencialmente
conflitantes
Utilidades dos objetivos ou ações
Atualizadordo objetivos
CIn- UFPE
42
Regras de agente otimizador
Associação percepção-ação:– Mediada por modelo do ambiente, objetivos do agente e
utilidades da realização parcial de conjuntos de objetivos– Envolve métodos de otimização: busca, pesquisa operacional,
etc.
Contém 5 dos 6 tipos de regras do agente deliberativo, substituindo:• regras objetivo modelo ação
...por:• regras objetivo modelo utilidade, e• regras utilidade ação
sensores
efetuadores
Agente
Gerador de problemas
crítico
elemento de aprendizagem
avaliação
objetivos de aprendizagem
elemento de execução (agente)
trocas
conhecimento
a m
b i
e n
t e
t
t+1
t
Agente que aprende
Vantagem: tem adaptabilidade (aprende)• Ex. motorista sem o mapa da cidade