web usage mining - temas avanzados

WEB MINING

Web Usage MiningJuan Azcurra

Introducción2

Web Usage Mining: descubrimiento automáticode patrones en los clicks realizados sobre unsitio Web y los datos recolectados o generadoscomo resultado de las interacciones de losusuarios con uno o más sitios Web.

Objetivo: analizar los patrones decomportamiento de los usuarios interactuandocon un sitio Web.

Los patrones descubiertos son generalmenterepresentados como colecciones de páginas,objetos o recursos que son accedidos por ungrupo de usuarios con un objetivo en común.

Introducción3

Los datos utilizados para Web Usage Mining:

Logs de servidores web.

Contenido del sitio.

Datos acerca de los visitantes, obtenidos de fuentes

externas.

Datos de otras aplicaciones.

No siempre están disponibles todos.

Cuando si están, deben ser integrados.

Logs de servidores Web4

1 2006-02-01 00:08:43 1.2.3.4 - GET /classes/cs589/papers.html - 200 9221

HTTP/1.1 maya.cs.depaul.edu

Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727)

http://dataminingresources.blogspot.com/

2 2006-02-01 00:08:46 1.2.3.4 - GET /classes/cs589/papers/cms-tai.pdf - 200 4096


Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727)

http://maya.cs.depaul.edu/~classes/cs589/papers.html

3 2006-02-01 08:01:28 2.3.4.5 - GET /classes/ds575/papers/hyperlink.pdf - 200

318814 HTTP/1.1 maya.cs.depaul.edu

Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1)

http://www.google.com/search?hl=en&lr=&q=hyperlink+analysis+for+the+web+survey

4 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/announce.html - 200 3794


Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)

http://maya.cs.depaul.edu/~classes/cs480/

5 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/styles2.css - 200 1636



http://maya.cs.depaul.edu/~classes/cs480/announce.html

6 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/header.gif - 200 6027



http://maya.cs.depaul.edu/~classes/cs480/announce.html

Proceso de Web Usage Mining5

Fase de preparación de datos6

Preprocesamiento de datos7

Limpieza de datos8

Data cleaning / cleansing

Eliminar referencias irrelevantes y campos en

logs

Eliminar referencias a navegaciones de robots

Eliminar referencias erroneas

Agregar referencias faltanets debido a caching

(una vez realizada la sesionización)

Identificar sesiones

(sesionización)9

En el análisis de uso de la Web, los datos están

en sesiones de visitas al sitio: la actividad

realizada por un usuario desde el momento que

ingresa al sitio hasta que lo deja.

Dificultad para obtener datos confiables de uso

debido a servidores proxy y aplicaciones de

ocultamiento, referencias pérdidas debido a

cache y la imposibilidad de los servidores de

distinguir entre diferentes visitas.

Estrategias de sesionización10

Heurísticas de sesionización11

Ejemplo de sesionización12

Identificación de usuario13

Ejemplo de identificación de

usuario14

PageView15

Un pageview es una representación agregada

de una colección de páginas Web

contribuyendo a visualizar en el navegador del

usuario el resultado de una acción simple (un

click).

Conceptualmente, cada pageview puede ser

visualizado como una colección de objetos o

recursos representando un especifico “evento

de usuario”, ej: leyendo un artículo, mirando una

páginad e producto o agregando un producto al

carrito de compras.

Path completion16

Caché en el cliente o servidor puede derivar enreferencias de accesos perdidas para laspáginas que se encuentran en el caché.

Por ejemplo:

Si un usuario regresa a una página A durante lamisma sesión, probablemente podrá ver laversión descargada anteriormente de A que seencuentra en el caché de su computadora y porlo tanto no se vuelve a solicitar al servidor.

Esto ocasiona que la segunda referencia a A nosea registrada en el log del servidor Web.

Referencias perdidas por caché17

Path completion18

El problema es inferir referencias perdidas

debido a uso de caché.

Conocer caminos de navegación efectivos

requiere conocimiento extensivo de la

estructura de links dentro del sitio.

Información de referencia en los logs del

servidor puede ser usada en la desambiguación

de inferencias de caminos.

Integración con eventos de e-

commerce19

Puede ser orientado a productos o visitas

Utilizados para trackear y analizar conversión

de navegadores a compradores.

La mayor dificultad para eventos de e-commerce

es definir e implementar los eventos para un sitio.

Otro desafio importante es la integración exitosa

de los datos obtenidos de la navegación.

Eventos orientados a producto20

Vista de producto

Ocurre cada vez que un producto aparece en una

visita a una página.

Tipos típicos: imagen, link, texto.

Click a productos

Ocurre cada vez que un usuario hace click en un

producto para obtener mayor información.

Eventos orientados a productos21

Cambios en carritos de compra

Agregar o eliminar productos del carrito

Modificar productos en el carrito (cantidad u otracaracteristica)

Compra de producto u oferta

Los eventos de compra ocurren separadamentepara cada producto en el carrito de compras.

Los sitios de subastas pueden rastrear eventosde oferta además de las compras de productos.

Proceso de Web Usage Mining22

Integración con el contenido del

sitio23

Integración con la estructura de

links24

Análisis de e-commerce25

Análisis de sesiones26

Forma más simple de análisis: examinar

inviduos o grupos de individuos desde el log del

server y datos de e-commerce.

Ventajas:

Obtener información sobre los clientes tipicos.

Trazar problemas específicos en el sitio.

Desventajas:

Volumen alto de datos.

Dificil de generalizar.

Análisis de sesiones: reportes

agregados27

Forma más común de análisis

Los datos son agregados a niveles

predeterminados (días o sesiones).

Ventajas:

Vista general de utilización del sitio.

Minimo espacio en disco para procesamiento.

Desventajas:

Problemas para bucear en los datos.

OLAP28

Permite cambios en los niveles de agregación

para múltiples dimensiones.

Generalmente asociado a un Data Warehouse.

Pros y contras

Muy flexible.

Requiere más recursos que los reportes

estáticos.

Data Mining29

Itemset frecuente

La Home Page y el Carrito de Compras sonvisitados juntos por el 20% de las sesiones.

Las categorias Libros y Música son visitadosjuntos en 1.5% de las sesiones.

Reglas de asociación

Cuando la Home Page es visitada, el Carrito deCompras es visto tambien el 90% del tiempo.

Cuando la categoria Libros es visitada en unasesión, la categoria Música también es visitadael 5% del tiempo.

Data Mining (cont)30

Patrones secuenciales

Agrega una dimensión extra a las dos anteriores, el

tiempo.

El x% del tiempo, cuando A aparece en una

transacción, B también aparece.

Ejemplo: La página PlayStation PSP Vita es visitada

despues de PlayStation PSP el 50% de las veces,

esto ocurre en el 5% de las sesiones.

Clustering: basado en contenido o uso

Segmentación cliente / visitante

Categorización de páginas y productos

Aplicaciones de Data Mining31

Personalización32

Personalización Web: “personalizar laexperiencia de navegación de un usuarioajustando el look and feel y contenidodependiendo los intereses y necesidades delusuario.

Motivos:

Mejorar y profundizar la relación con el cliente.

Proveer relación continua para mejorar la lealtaddel cliente.

Proveer la habilidad de medir el comportamientodel cliente e identificar como el cliente responde alos esfuerzos de marketing.

Enfoques tipicos33

Filtros basados en reglas Proveer contenido basado en reglas predefinidas (ej.,

si el usuario hace click en A y utiliza X navegador,agregar el link C)

Filtros colaborativos Brindar recomendaciones a los usuarios basado en

las respuestas de otros usuarios similares.

Filtros basados en contenidos Analizar las páginas que visita el usuario y

recomendar aquellas con contenido similar.

Métodos hibridos Combinación de filtros colaborativos y de contenidos.

web usage mining - temas avanzados

Technology