autor: javier insa cabrera director: josé hernández orallo 26 de septiembre de 2011

Autor: Javier Insa CabreraDirector: José Hernández Orallo

26 de septiembre de 2011

• Introducción• Sistema de evaluación

• Requisitos• Aprendizaje por refuerzo• Complejidad de los entornos• Factible• Clase de entornos Λ

• Evaluación de un algoritmo de IA• Evaluación y comparación de distintos sistemas inteligentes• Conclusiones y trabajo futuro

2/26

CAPTCHA Discrimina entre humanos y máquinas. Cada vez discrimina menos.

Tests psicométricos (por ejemplo, tests IQ) Son antropomórficos. Problemas obtenidos de manera subjetiva y validados de manera empírica.

Evaluación de IA Problemas específicos. No se sabe muy bien lo que se está midiendo.

Psicología comparada Compara distintas especies.

Inteligencia general: Aptitud para dar respuesta a problemas de diferente índole.

3/26

Precedentes en evaluación de inteligencia

Actualmente no existe ningún método apropiado para evaluar la inteligencia general en máquinas.




4/26

Requisitos deseables de un sistema de evaluación universal de inteligencia general:

1. Debe evaluar y discriminar cualquier tipo de sistema inteligente conocido o aun

por construir/descubrir.

2. Debe medir cualquier nivel de inteligencia y cualquier escala de tiempo.

3. Lo que se esté midiendo ha de representar la noción más general de

inteligencia.

4. Debe derivarse de nociones computacionales bien fundadas.

5. La precisión dependerá sobretodo de la cantidad de tiempo que se evalúe.

6. Debe ser factible.

¿Cómo trata de conseguir todo esto? 5/26

Agenteπ

Entornoμ

Observación

Acción

Recompensa

Interacción

¿Cómo les decimos a los sujetos que vamos a evaluar su inteligencia? Condicionamiento por recompensas.

Debe evaluar cualquier tipo de sistema inteligente conocido o aun por construir/descubrir

6/26

Debe medir cualquier nivel de inteligencia

Los entornos deben poder ser de distintas complejidades.

¿Cómo medimos la complejidad?

Complejidad para describir el entorno. Complejidad Kolmogorov.

7/26

Distribución universal.

Discriminativo.

Sensible a las recompensas.

Interacciones computables e instantáneas desde el punto de vista del agente.

¿Cómo seleccionar los entornos?

Debe discriminar cualquier tipo de sistema inteligente

Lo que se esté midiendo ha de representar la noción más general de inteligencia

¿Cómo medimos la inteligencia?

8/26

π

+1

1

2

3

-1

Espacio:

9/26

G E+1 -1

+1

-1

-1

+1

Recompensas:

Good y Evil no pueden estar simultáneamente en la misma celda. Se elige aleatoriamente cual se mueve.

Good y Evil siguen un patrón de comportamiento.

-1

10/26

G

E

π

Recompensas1ª Iteración:2ª Iteración:3ª Iteración:4ª Iteración:

Recompensa media: +1+0.5+0.25

+10

+1-1

Sesión de evaluación:

+0.67

11/26




12/26

Probar si un algoritmo de IA obtiene resultados coherentes en esta clase de entornos.

Agentes evaluados

• Q-learning

• Aleatorio

• Seguidor trivial

• Oráculo

13/26

3 Celdas 6 Celdas 9 Celdas

Entornos donde hemos evaluado:

• Distintas complejidades.

• Promedio de 100 entornos con 10.000 iteraciones.

• Patrón de Good y Evil con 100 movimientos en promedio.

14/26

9 Celdas Todos los

entornos

Complejidad de los entornos:

15/26




16/26

Probar si el sistema de evaluación discrimina correctamente a dos tipos distintos de

sistemas inteligentes en función de su inteligencia real.

Agentes evaluados

Agente biológico: Seres humanosTécnica de IA: Q-learning

17/26

Experimento: 20 tests.

Configuración de cada test.

Hay que evaluar a los humanos en un periodo de tiempo razonable. Aproximadamente alrededor de 20 - 25 minutos.

18/26

Interfaz:

b:E:πGa::

Algoritmos de IAHumanos

19/26

Resultados:

20/26

Resultados:

21/26




22/26

Conclusiones

• Es la primera vez que se evalúan diferentes sistemas de IA con un test general no dedicado a ninguna tarea concreta.

• Es la primera vez que se usa el mismo test general para evaluar humanos y máquinas.

• El sistema de evaluación ofrece resultados coherentes al evaluar un algoritmo de IA.

• El sistema de evaluación no discrimina correctamente dos sistemas inteligentes.

Conocimiento adquirido

• Este sistema de evaluación no evalúa la inteligencia general, aunque es posible que sí parte de ella.

• Es muy difícil proporcionar un entorno complejo.

23/26

Trabajo futuro

• Introducir comportamiento social en los entornos.

• Construir el test autoajustando la complejidad de los entornos en función de la

inteligencia del sujeto y adaptarse mejor con una distribución adaptativa.

• Volver a evaluar distintos tipos de sistemas inteligentes y comprobar si con los

cambios realizados se obtienen resultados más coherentes.

24/26

Evaluating a reinforcement learning algorithm with a general intelligence test.• CAEPIA, volume 7023. LNAI series, Springer, 2011. (to appear)• J. Insa-Cabrera and D.L. Dowe and J. Hernández-Orallo

Comparing humans and AI agents.• Artificial General Intelligence, volume 6830 of Lecture Notes in Computer Science,

pages 122-132. Springer Berlin / Heidelberg, 2011.• J. Insa-Cabrera and D. Dowe and S. España-Cubillo and M.V. Hernández-Lloreda and

J. Hernández-Orallo.

On more realistic environment distributions for defining, evaluating and developing intelligence.

• Artificial General Intelligence, volume 6830 of Lecture Notes in Computer Science, pages 82-91. Springer Berlin / Heidelberg, 2011.

• J. Hernández-Orallo and D.L. Dowe and S. España-Cubillo and M.V. Hernández-Lloreda and J. Insa-Cabrera

25/26

http://users.dsic.upv.es/proy/anynt/human1/test.html

autor: javier insa cabrera director: josé hernández orallo 26 de septiembre de 2011

Documents