![Page 1: Prétraitement et classification des données complexes dans le domaine du e-commerce](https://reader035.vdocuments.mx/reader035/viewer/2022081603/56813625550346895d9d9cb7/html5/thumbnails/1.jpg)
Prétraitement et classification des données
complexes dans le domaine du e-commerce
Sergiu Chelcea, Alzennyr Da Silva, Yves Lechevallier, Doru Tanasa, Brigitte Trousse
Projet AxIS INRIA Sophia Antipolis et Rocquencourt
![Page 2: Prétraitement et classification des données complexes dans le domaine du e-commerce](https://reader035.vdocuments.mx/reader035/viewer/2022081603/56813625550346895d9d9cb7/html5/thumbnails/2.jpg)
FDC 2006 2
Motivations
Présenter sur l'ensemble des données de clickstream proposé lors du challenge 2005 d'ECML/PKDD:
- les bénéfices de notre méthode de prétraitement multi-sites, approche originalement proposé par Tanasa (thèse de doctorat 2005)
et
- les analyses d’une méthode de classification non supervisée (Lechevallier & Verde 2004) appliqué sur la notion de période de temps.
![Page 3: Prétraitement et classification des données complexes dans le domaine du e-commerce](https://reader035.vdocuments.mx/reader035/viewer/2022081603/56813625550346895d9d9cb7/html5/thumbnails/3.jpg)
FDC 2006 3
Plan
1. Prétraitement multi-sites
- construction des visites multi-sites des utilisateurs « Groupe de SessionIDs »
- première analyse statistique multi-sites
2. Approche par la classification croisée - calcul du tableau de confusion entre les classes
de période de temps et les classes de produits - analyses du magasin le plus visité : shop 4
3. Conclusions
![Page 4: Prétraitement et classification des données complexes dans le domaine du e-commerce](https://reader035.vdocuments.mx/reader035/viewer/2022081603/56813625550346895d9d9cb7/html5/thumbnails/4.jpg)
FDC 2006 4
Description des données
Ensemble des données clickstream : 576 fichiers log = 3,617,171 requêtes sur un période de 24 jours ;
sept magasins différents concernant les sites du e-commerce de la République Tchèque ;
pages Web interconnectées ;
Chaque requête contient le PHP SessionIDPHP SessionID généré automatiquementpour chaque nouvelle visite d’un utilisateur sur chaque serveur (IDs uniques).
=> sans visites intersites par les utilisateurs
5 tableaux décrivant l’information sur les produits, les magasins (shops), les types de produits, les catégories et les thèmes ;
![Page 5: Prétraitement et classification des données complexes dans le domaine du e-commerce](https://reader035.vdocuments.mx/reader035/viewer/2022081603/56813625550346895d9d9cb7/html5/thumbnails/5.jpg)
FDC 2006 5
Tableau 2. Format de description des requêtesShopID Date IP address SessionID Page Referrer
11 1074585663 213.151.91.186 939dad92c4…84208dca /
11 1074585670 213.151.91.186 87ee02ddcff…7655bb9e /ct/?c=148 http://www.shop2.cz
Prétraitement des données
Données brutes:
Tableau 1. Nombre de requêtes par magasin ShopID Site name (shop) #Requests
10 www.shop1.cz 509,68811 www.shop2.cz 400,04512 www.shop3.cz 645,72414 www.shop4.cz 1,290,87015 www.shop5.cz 308,36716 www.shop6.cz 298,03017 www.shop7.cz 164,447
![Page 6: Prétraitement et classification des données complexes dans le domaine du e-commerce](https://reader035.vdocuments.mx/reader035/viewer/2022081603/56813625550346895d9d9cb7/html5/thumbnails/6.jpg)
FDC 2006 6
Prétraitement des données
Tanasa & Trousse (IEEE Intelligent Systems 2004)Thèse Tanasa (2005)
![Page 7: Prétraitement et classification des données complexes dans le domaine du e-commerce](https://reader035.vdocuments.mx/reader035/viewer/2022081603/56813625550346895d9d9cb7/html5/thumbnails/7.jpg)
FDC 2006 7
Tableau 3. Format du fichier log transformé (après la fusion) Datetime IP SessionID URL Referrer
2004-01-20 09:01:03 213.151.91.186 939dad92c4…84208dca http://www.shop2.cz/ -
2004-01-20 09:01:10 213.151.91.186 87ee02ddcff…7655bb9e http://www.shop2.cz/ct/?c=148 http://www.shop2.cz/
Prétraitement des données
• Structuration des données Un SessionIDSessionID représente une seule visite dans chaque magasin La notion de visites intersites par les utilisateurs: nous regroupons les SessionIDs qui appartenant au même utilisateur (même IP) dans un « Groupe of SessionIDs ». en comparant le champ Referer avec les URLs accédés précédemment.
522,410 SessionIDs ont été réunis dans 397,629 Groupesce qui constitue 23.88% de réduction
• Fusion et nettoyage des données
![Page 8: Prétraitement et classification des données complexes dans le domaine du e-commerce](https://reader035.vdocuments.mx/reader035/viewer/2022081603/56813625550346895d9d9cb7/html5/thumbnails/8.jpg)
FDC 2006 8
Modèle relationnel de la base de données
![Page 9: Prétraitement et classification des données complexes dans le domaine du e-commerce](https://reader035.vdocuments.mx/reader035/viewer/2022081603/56813625550346895d9d9cb7/html5/thumbnails/9.jpg)
FDC 2006 9
0
1000
2000
3000
4000
5000
6000
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Hour
Vis
its
Monday
Tuesday
Wednesday
Thursday
Friday
Saturday
Sunday
0
50
100
150
200
250
300
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Hour
Gro
ups
Fig. 1. Visites par jour et par heure:
Analyse statistique sur des périodes temporelles classiques
• Beaucoup de visites les mardis et les mercredis• Beaucoup de visites pendant l’heure du déjeuner • Très peu de nouvelles visites le samedi et le dimanche
(a) globalement (b) multi-sites
![Page 10: Prétraitement et classification des données complexes dans le domaine du e-commerce](https://reader035.vdocuments.mx/reader035/viewer/2022081603/56813625550346895d9d9cb7/html5/thumbnails/10.jpg)
FDC 2006 10
Données: Sélection des pages ls du magasin 4 (le plus visité)
0
200 000
400 000
600 000
800 000
1 000 000
1 200 000
1 400 000
10 11 12 14 15 16 17
Shop
Acc
ess
/ct /ls /dt /znacka /akce others
Approche dévelopée par Yves Lechevallier & Rosanna Verde (2004)
Classification d’un tableau de comptage en fonction des tranches horaires
![Page 11: Prétraitement et classification des données complexes dans le domaine du e-commerce](https://reader035.vdocuments.mx/reader035/viewer/2022081603/56813625550346895d9d9cb7/html5/thumbnails/11.jpg)
FDC 2006 11
Modèle relationnel BD: facile d’extraire un tableau de comptage
Ligne: l’individu (un jour de semaine, une heure) 7 jours X 24 heures = 168 individus
Colonne: une variable multi-catégories représente le nombre de requetes sur chaque
produit demandé par les utilisateurs durant une période spécifique de temps
Classification d’un tableau de comptage en fonction des tranches horaires
![Page 12: Prétraitement et classification des données complexes dans le domaine du e-commerce](https://reader035.vdocuments.mx/reader035/viewer/2022081603/56813625550346895d9d9cb7/html5/thumbnails/12.jpg)
FDC 2006 12
Classification d’un tableau de comptage en fonction des tranches horaires
Tableau 4. Quantité de produits enregistrés sur shop 4 en fonction du jour de la semaine et de l’heure
Jour de la semaine x Heure Produit (nombre de requêtes)
Lundi_0Built-in electric hobs (10),Built-in dish washers 60cm (64),Corner single sinks (50), ...
Lundi_1
Free standing combi refrigerators (44),Corner single sinks (50), Built-in hoods (60), ...
… …
Samedi_22Built-in microwave ovens (27),Built-in dish washers 45cm (38),Built-in dish washers 60cm (85), ...
Samedi_23Built-in freezers (56),Kitchen taps with shower (45), Garbage disposers (32), ...
![Page 13: Prétraitement et classification des données complexes dans le domaine du e-commerce](https://reader035.vdocuments.mx/reader035/viewer/2022081603/56813625550346895d9d9cb7/html5/thumbnails/13.jpg)
FDC 2006 13
57,7%
Tableau 5. Tableau de confusion entre “période de temps” et “produit”
Produit_1 Produit _2 Produit _3 Produit _4 Produit _5 Total% produit
plus significant
Période_ 1 2847 5084 3284 2265 2471 15951
Période_ 2 11305 31492 12951 1895 9610 67253
Période_3 33107 55652 36699 5345 20370 151173
Période_4 22682 46322 30200 5165 27659 132028
Période_5 9576 20477 19721 2339 7551 59664
Période_6 1783 3515 2549 392 11240 19479
Période_7 15019 14297 8608 1397 6014 45335
Total 96319 176839 114012 18798 84915 490883
57,7%
5084
31492
55652
11240
46322
20477
15019
11240
31,8%
46,8%
36,8%
35%
34,3%
33,1%
Classification d’un tableau de comptage en fonction des tranches horaires
![Page 14: Prétraitement et classification des données complexes dans le domaine du e-commerce](https://reader035.vdocuments.mx/reader035/viewer/2022081603/56813625550346895d9d9cb7/html5/thumbnails/14.jpg)
FDC 2006 14
Résultats de la classification d’un tableau de comptage en fonction des tranches horaires
Tableau 6. Regroupement des produits Product_5 Cardinal: 1
/product/Free standing combi refrigerators
Tableau 7. Regroupement des tranches horaires Period_6 Cardinal: 8
Friday_2, Friday_6, Friday_17, Friday_18, Friday_19, Friday_20, Saturday_5, Tuesday_4
![Page 15: Prétraitement et classification des données complexes dans le domaine du e-commerce](https://reader035.vdocuments.mx/reader035/viewer/2022081603/56813625550346895d9d9cb7/html5/thumbnails/15.jpg)
FDC 2006 15
Exemple d’un résultat surprenant:
La classe produit numéro 5 a été défini uniquement par le type de produit « Free standing combi refrigerators »
qui a été consulté notamment les Vendredis entre 17:00 et 20:00 (classe période 6)
57,7% de ce type produit a été demandé durant cette période.
Ces informations peuvent être très utiles pour les stratégies de vente comme: promotions rapides, vente croisée, pubs, etc.
Classification d’un tableau de comptage en fonction des tranches horaires
![Page 16: Prétraitement et classification des données complexes dans le domaine du e-commerce](https://reader035.vdocuments.mx/reader035/viewer/2022081603/56813625550346895d9d9cb7/html5/thumbnails/16.jpg)
FDC 2006 16
Conclusions 1. Prétraitement multi-sites - structuration des visites d’un utilisateur dans plusieurs sites: « Groupe de SessionIDs » - analyse statistique multi-sites
2. Classification en fonction des tranches horaires
- application de cette méthode sur les données provenant des fichiers « logs » dans le domaine du
e-commerce - résultats prometteurs
![Page 17: Prétraitement et classification des données complexes dans le domaine du e-commerce](https://reader035.vdocuments.mx/reader035/viewer/2022081603/56813625550346895d9d9cb7/html5/thumbnails/17.jpg)
FDC 2006 17
Données
Type de pages:
ID Type de page Description #Requêtes %
1 /ct Catégorie de produit 228,991 6.33
2 /ls Fiche produit 1,363,187 37.68
3 /dt Détail du produit 1,233,570 34.1
4 /znacka Liste des marques ou détails d’une marque 88,189 2.43
5 /akce Offres actuelles 26,260 0.72
6 /df Comparaison des paramètres produit 57,939 1.60
7 /findf Recherche textuelle de produits et accessoires 55,139 1.52
8 /findp Recherche basée sur les paramètres 93,455 2.58
9 /setp Etablir les paramètres d’affichage 11,752 0.32
10 /poradna Conseil en ligne 107,711 2.97
11 /kosik Panier d’achat, details du contract, enregistrer une commande
35,487 0.98
12 / Page principale 219,218 6.06
13 /obchody-elektro Liste des magasins de produits électroniques 10,926 0.30
14 /kontakt Information de contact 6,104 0.16
15 /faq Foire aux questions 861 0.02
16 /onakupu Informations sur l’achat 6,659 0.18
17 /splatky Possibilités d’achat au crédit 2,846 0.07
18 /mailc Disponibilité de produits 6,680 0.18
19 /mailp Envoyez cette page 6,905 0.19
20 /mailf Envoyez un feedback 1,855 0.05
21 /mailr Formulaire de plainte 494 0.01
Total 3,564,228 98,45