web usage mining - temas avanzados
TRANSCRIPT
WEB MINING
Web Usage MiningJuan Azcurra
Introducción2
Web Usage Mining: descubrimiento automáticode patrones en los clicks realizados sobre unsitio Web y los datos recolectados o generadoscomo resultado de las interacciones de losusuarios con uno o más sitios Web.
Objetivo: analizar los patrones decomportamiento de los usuarios interactuandocon un sitio Web.
Los patrones descubiertos son generalmenterepresentados como colecciones de páginas,objetos o recursos que son accedidos por ungrupo de usuarios con un objetivo en común.
Introducción3
Los datos utilizados para Web Usage Mining:
Logs de servidores web.
Contenido del sitio.
Datos acerca de los visitantes, obtenidos de fuentes
externas.
Datos de otras aplicaciones.
No siempre están disponibles todos.
Cuando si están, deben ser integrados.
Logs de servidores Web4
1 2006-02-01 00:08:43 1.2.3.4 - GET /classes/cs589/papers.html - 200 9221
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727)
http://dataminingresources.blogspot.com/
2 2006-02-01 00:08:46 1.2.3.4 - GET /classes/cs589/papers/cms-tai.pdf - 200 4096
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727)
http://maya.cs.depaul.edu/~classes/cs589/papers.html
3 2006-02-01 08:01:28 2.3.4.5 - GET /classes/ds575/papers/hyperlink.pdf - 200
318814 HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1)
http://www.google.com/search?hl=en&lr=&q=hyperlink+analysis+for+the+web+survey
4 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/announce.html - 200 3794
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)
http://maya.cs.depaul.edu/~classes/cs480/
5 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/styles2.css - 200 1636
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)
http://maya.cs.depaul.edu/~classes/cs480/announce.html
6 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/header.gif - 200 6027
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)
http://maya.cs.depaul.edu/~classes/cs480/announce.html
Proceso de Web Usage Mining5
Fase de preparación de datos6
Preprocesamiento de datos7
Limpieza de datos8
Data cleaning / cleansing
Eliminar referencias irrelevantes y campos en
logs
Eliminar referencias a navegaciones de robots
Eliminar referencias erroneas
Agregar referencias faltanets debido a caching
(una vez realizada la sesionización)
Identificar sesiones
(sesionización)9
En el análisis de uso de la Web, los datos están
en sesiones de visitas al sitio: la actividad
realizada por un usuario desde el momento que
ingresa al sitio hasta que lo deja.
Dificultad para obtener datos confiables de uso
debido a servidores proxy y aplicaciones de
ocultamiento, referencias pérdidas debido a
cache y la imposibilidad de los servidores de
distinguir entre diferentes visitas.
Estrategias de sesionización10
Heurísticas de sesionización11
Ejemplo de sesionización12
Identificación de usuario13
Ejemplo de identificación de
usuario14
PageView15
Un pageview es una representación agregada
de una colección de páginas Web
contribuyendo a visualizar en el navegador del
usuario el resultado de una acción simple (un
click).
Conceptualmente, cada pageview puede ser
visualizado como una colección de objetos o
recursos representando un especifico “evento
de usuario”, ej: leyendo un artículo, mirando una
páginad e producto o agregando un producto al
carrito de compras.
Path completion16
Caché en el cliente o servidor puede derivar enreferencias de accesos perdidas para laspáginas que se encuentran en el caché.
Por ejemplo:
Si un usuario regresa a una página A durante lamisma sesión, probablemente podrá ver laversión descargada anteriormente de A que seencuentra en el caché de su computadora y porlo tanto no se vuelve a solicitar al servidor.
Esto ocasiona que la segunda referencia a A nosea registrada en el log del servidor Web.
Referencias perdidas por caché17
Path completion18
El problema es inferir referencias perdidas
debido a uso de caché.
Conocer caminos de navegación efectivos
requiere conocimiento extensivo de la
estructura de links dentro del sitio.
Información de referencia en los logs del
servidor puede ser usada en la desambiguación
de inferencias de caminos.
Integración con eventos de e-
commerce19
Puede ser orientado a productos o visitas
Utilizados para trackear y analizar conversión
de navegadores a compradores.
La mayor dificultad para eventos de e-commerce
es definir e implementar los eventos para un sitio.
Otro desafio importante es la integración exitosa
de los datos obtenidos de la navegación.
Eventos orientados a producto20
Vista de producto
Ocurre cada vez que un producto aparece en una
visita a una página.
Tipos típicos: imagen, link, texto.
Click a productos
Ocurre cada vez que un usuario hace click en un
producto para obtener mayor información.
Eventos orientados a productos21
Cambios en carritos de compra
Agregar o eliminar productos del carrito
Modificar productos en el carrito (cantidad u otracaracteristica)
Compra de producto u oferta
Los eventos de compra ocurren separadamentepara cada producto en el carrito de compras.
Los sitios de subastas pueden rastrear eventosde oferta además de las compras de productos.
Proceso de Web Usage Mining22
Integración con el contenido del
sitio23
Integración con la estructura de
links24
Análisis de e-commerce25
Análisis de sesiones26
Forma más simple de análisis: examinar
inviduos o grupos de individuos desde el log del
server y datos de e-commerce.
Ventajas:
Obtener información sobre los clientes tipicos.
Trazar problemas específicos en el sitio.
Desventajas:
Volumen alto de datos.
Dificil de generalizar.
Análisis de sesiones: reportes
agregados27
Forma más común de análisis
Los datos son agregados a niveles
predeterminados (días o sesiones).
Ventajas:
Vista general de utilización del sitio.
Minimo espacio en disco para procesamiento.
Desventajas:
Problemas para bucear en los datos.
OLAP28
Permite cambios en los niveles de agregación
para múltiples dimensiones.
Generalmente asociado a un Data Warehouse.
Pros y contras
Muy flexible.
Requiere más recursos que los reportes
estáticos.
Data Mining29
Itemset frecuente
La Home Page y el Carrito de Compras sonvisitados juntos por el 20% de las sesiones.
Las categorias Libros y Música son visitadosjuntos en 1.5% de las sesiones.
Reglas de asociación
Cuando la Home Page es visitada, el Carrito deCompras es visto tambien el 90% del tiempo.
Cuando la categoria Libros es visitada en unasesión, la categoria Música también es visitadael 5% del tiempo.
Data Mining (cont)30
Patrones secuenciales
Agrega una dimensión extra a las dos anteriores, el
tiempo.
El x% del tiempo, cuando A aparece en una
transacción, B también aparece.
Ejemplo: La página PlayStation PSP Vita es visitada
despues de PlayStation PSP el 50% de las veces,
esto ocurre en el 5% de las sesiones.
Clustering: basado en contenido o uso
Segmentación cliente / visitante
Categorización de páginas y productos
Aplicaciones de Data Mining31
Personalización32
Personalización Web: “personalizar laexperiencia de navegación de un usuarioajustando el look and feel y contenidodependiendo los intereses y necesidades delusuario.
Motivos:
Mejorar y profundizar la relación con el cliente.
Proveer relación continua para mejorar la lealtaddel cliente.
Proveer la habilidad de medir el comportamientodel cliente e identificar como el cliente responde alos esfuerzos de marketing.
Enfoques tipicos33
Filtros basados en reglas Proveer contenido basado en reglas predefinidas (ej.,
si el usuario hace click en A y utiliza X navegador,agregar el link C)
Filtros colaborativos Brindar recomendaciones a los usuarios basado en
las respuestas de otros usuarios similares.
Filtros basados en contenidos Analizar las páginas que visita el usuario y
recomendar aquellas con contenido similar.
Métodos hibridos Combinación de filtros colaborativos y de contenidos.