learning and adaptivity in interactive recommender systems

28
Learning and adaptivity in interactive recommender systems Autores: Tariq Mahmood, Francesco Ricci Pontificia Universidad Cat´olica October 29, 2015 Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 1 / 28

Upload: others

Post on 21-Nov-2021

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Learning and adaptivity in interactive recommender systems

Learning and adaptivity in interactive recommendersystems

Autores: Tariq Mahmood, Francesco Ricci

Pontificia Universidad Catolica

October 29, 2015

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 1 / 28

Page 2: Learning and adaptivity in interactive recommender systems

Overview

1 Motivacion

2 Modelo

3 Estudio de un Caso

4 Evaluacion

5 Resultados

6 Conclusiones

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 2 / 28

Page 3: Learning and adaptivity in interactive recommender systems

Motivacion

Los sistemas de recomendacion tradicionales se desvıan de unamanera natural de recomendar.

Los sistemas de recomendacion conversacionales, no son adaptivos.

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 3 / 28

Page 4: Learning and adaptivity in interactive recommender systems

Solucion?

MDPs

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 4 / 28

Page 5: Learning and adaptivity in interactive recommender systems

Idea de implementacion

La idea es construir un sistema con dos componentes, una quemuestra informacion al usuario y la otra que se dedica a optimizar lasrecomendaciones hechas al usuario dada sus acciones.

El sistema decide mostrar o no la peticion hecha por el usuario segunlo que lo acerque mas a su objetivo.

El sistema optimiza su estrategia de recomendacion para que elusuario alcance su objetivo.

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 5 / 28

Page 6: Learning and adaptivity in interactive recommender systems

Modelo

Recordemos que un MDP es una tupla < S ,A,T ,R > donde

S es el conjunto de estados, que representan las diferentes situacionesque el agente recomendador se puede encontrar mientras interactuacon el usuario. Cada estado s ∈ S es una tupla < u, r > donde ucorresponde al estado actual del usuario y r es el estado actual delagente recomendador.

A es un conjunto de las posibles acciones del sistema. Este conjuntode acciones se relaciona con la polıtica. Diremos que una polıtica π esuna funcion π : S → A, en donde para s ∈ S indica que π(s) = a paraa ∈ A.

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 6 / 28

Page 7: Learning and adaptivity in interactive recommender systems

Modelo

T una funcion de transicion. Donde T (s, a, s ′) es la probabilidad determinar en el estado s ′ si ejecutamos a desde s.

R una funcion de recompensa. Donde R(s, a), asigna un valor escalarpor cada accion a ejecutada en s. Para efectos del problema,asumiremos recompensa negativa para cualquier estado no terminal yrecompensa positiva por terminar en el objetivo.

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 7 / 28

Page 8: Learning and adaptivity in interactive recommender systems

Como calculamos la polıtica

Reinforcement Learning al Rescate

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 8 / 28

Page 9: Learning and adaptivity in interactive recommender systems

Policy iteration

La idea del algoritmo de optimizacion es la siguiente, supongamos que elsistema esta en el estado S0, entonces dada una polıtica inicial arbitraria, elsistema decide ejecutar a0. En respuesta, el usuario elige alguna accion loque lleva al sistema al estado S1 y recompenza al agente con r0. Es intuitivoquerer encontrar la polıtica π tal que se maximize la recompenza.

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 9 / 28

Page 10: Learning and adaptivity in interactive recommender systems

Policy iteration

Definimos que el valor de un estado s bajo la polıtica π, V π(s), como larecompenza acoumulada esperada, cuando el agente comienza en s y sigueπ despues. Entonces tenemos que:

V π(s) = R(s, π(s)) + γ∑s′∈S

T (s, π(s), s ′)V π(s ′)

Donde s ′ ∈ S es el siguiente estado alcanzado, cuando el agente toma laaccion π(s) en s. Entonces, para calcular el π∗ optimo se reduce al siguienteproblema de optimizacion:

V π∗(s) = maxπE (∞∑t=0

γtRt)

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 10 / 28

Page 11: Learning and adaptivity in interactive recommender systems

Policy iteration

V π∗(s) = maxaR(s, a) + γ∑s′∈S

T (s, a, s ′)V π∗(s ′)

π∗(s) = argmaxaR(s, a) + γ∑s′∈S

T (s, a, s ′)V π∗(s ′)

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 11 / 28

Page 12: Learning and adaptivity in interactive recommender systems

Recomendacion adaptativa

Con el modelo dado y una polıtica inicial arbitraria, el agente itera sobre lossiguientes pasos en cada ejecucion.

Evaluacion de la polıtica: se computa V π como lo senalamosanteriormente.

Mejora de la polıtica: se utiliza V π para mejorar la polıtica.

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 12 / 28

Page 13: Learning and adaptivity in interactive recommender systems

Estudio de un Caso

NutKing, es una empresa de viaje que quiere recomendar a sus turistascual serıa su plan de viaje ideal.

NutKing,utiliza un sistema recomendador conversacional basado enfiltrado colaborativo.

Nutking, imita lo que serıa una sesion de recomendacion tradicionalcon el agente de viaje.

Al comenzar, el usuario indica sus preferencias, estas son utilizadascomo restricciones para generar recomendaciones y guıar la busqueda.

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 13 / 28

Page 14: Learning and adaptivity in interactive recommender systems

Funcionamiento Nutking

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 14 / 28

Page 15: Learning and adaptivity in interactive recommender systems

Funcionamiento Nutking

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 15 / 28

Page 16: Learning and adaptivity in interactive recommender systems

Funcionamiento Nutking

Polıtica rıgida no adaptativa.

Baja aceptacion de las sugerencias 28%.

Posibilidad de mejora.

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 16 / 28

Page 17: Learning and adaptivity in interactive recommender systems

Como construimos el modelo MDP

Primero modelamos el sistema que interactua con el usuario, este consisteen cinco paginas P = {S ,QF ,R,T ,G} donde S es la pagina de inicio dondeel usuario inicia sesion, QF es el formulario para generar una consulta, T esla pagina de ajuste de busqueda R el resultado y G el objetivo. Un set deseis funciones de informacion F = {go, exec ,modq, acct, rejct, add}.

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 17 / 28

Page 18: Learning and adaptivity in interactive recommender systems

Como construimos el modelo MDP

Figure: Modelo de funcionamiento

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 18 / 28

Page 19: Learning and adaptivity in interactive recommender systems

Como construimos el modelo MDP

Figure: Diagrama de estados con las acciones del sistema

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 19 / 28

Page 20: Learning and adaptivity in interactive recommender systems

Como construimos el modelo MDP

La funcion de recompenza es simple, es constante y negativa para cualquierestado no terminal y positiva para cualquier estado objetivo.

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 20 / 28

Page 21: Learning and adaptivity in interactive recommender systems

Evaluacion

Para evaluarlo se utilizaron usuarios simulados, donde se mejoraba lapolıtica con Policy Iteration. Esta simulacion de usuario corresponde a unusuario que comienza en S − go y esta en busqueda de un itemt = (v1, ..., vn). Donde v1, ..., vn son los valores usados por el usuario paraajustar la busqueda.

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 21 / 28

Page 22: Learning and adaptivity in interactive recommender systems

Modelo de comportamiento del usuario

Cuando el usuario esta en QF − exec , como modificara la queryactual. El usuario simplemente agrega a la query el siguiente valor delitem de prueba.

Cuando el sistema sugiere un ajuste de query, el usuario puede elegirT −modq, T − acct o T − rejct, el usuario acepta si alguna de lasfeatures esta presente en el item. Rechaza si la lista es mas pequenaque un threshold y ejecuta la query original. En cualquier otro casomodifica la query

El usuario agregara al carro si el item de test es encontrado en el topN de los items retornados por la query, sino optara por modificar laconsulta.

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 22 / 28

Page 23: Learning and adaptivity in interactive recommender systems

Aprendizaje de Polıtica

Se estimaron las transiciones de probabilidad con simulaciones aleatoriasde usuarios. Y despues se ejecuto iteracion de polıtica segun lo explicadoanteriormente.

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 23 / 28

Page 24: Learning and adaptivity in interactive recommender systems

Resultados

Se dejo que el algoritmo de evaluacion de polıtica corriera por 100 intentosy el algoritmo de iteracion por 10 iteraciones.

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 24 / 28

Page 25: Learning and adaptivity in interactive recommender systems

Transiciones

Figure: Transiciones para QF-execq

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 25 / 28

Page 26: Learning and adaptivity in interactive recommender systems

Politica optima

Figure: Polıtica optima para γ cte.

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 26 / 28

Page 27: Learning and adaptivity in interactive recommender systems

Polıtica optima

Figure: Polıtica optima para costo cte.

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 27 / 28

Page 28: Learning and adaptivity in interactive recommender systems

Conclusiones y Trabajo a futuro

El sistema efectivamente mejora las polıticas tomadas versus unsistema conversacional rıgido.

Se muestra que un sistema de recomendacion adaptivo es factibleutilizando MDPs.

Se debe probar este sistema con usuarios reales para ver siefectivamente se mejora la tasa de aceptacion.

Autores: Tariq Mahmood, Francesco Ricci (UC) Sistemas recomendadores October 29, 2015 28 / 28