SETIT2007
2.1. Le commerce électronique
Le commerce électronique [KAL 97], [OCD 98],
[OCD 99] permet l’abondance de l'information
concernant les clients, les produits et services. Ceci
permet d'entreprendre une démarche CRM efficace en
agissant sur les fonctionnalités relatives à la forme de
la relation et son contenu [CAD 02] en offrant une
flexibilité sans précédent dans la vente.
Ainsi la fidélisation des clients s'accroît pour les
sites e-commerce où le coût d’acquisition d’un client
est très élevé. « Without the glue of loyalty, even the
best-designed e-business model will collapse. » [REI
00].
2.2. L'entrepôt de données (data warehouse)
Un entrepôt de données permet de recueillir et de
centraliser les données à analyser sous forme d'une
collection orientées sujet, intégrées, non volatiles et
historisées, organisées pour le support d'un processus
d'aide à la décision [INM 92]. Pour cela, les données
qui sont extraites de toutes les sources vont être, au
préalable, transformées pour consolider correctement
l'entrepôt de données.
Les différences qui distinguent un entrepôt de
données d'un système opérationnel sont à la fois
d'ordre conceptuel, car l'objectif est différent et d'ordre
technique, car la structure et les processus sont
différents. Ainsi, le modèle entité/association sur
lequel repose la conception des bases de donnée est
inadapté à la conception d’un entrepôt de données.
[KIM 97]. Ce dernier est typiquement modélisé par
des modèles multidimensionnels (appelés aussi cube
de données).
Il existe deux approches pour construire ces
modèles multidimensionnels. L'approche MOLAP
(Multidimensional MOLAP) et l'approche ROLAP
Relational OLAP) qui utilise un SGBD relationnel
pour stocker le cube de donnée. [BEL 00]
2.3. Le data mining
Le data mining est définit comme “un processus
d’aide à la décision où les utilisateurs cherchent des
modèles d’interprétation dans les données ” [PAR 96].
Il constitue ainsi le meilleur moyen permettant la mise
à jour de nouvelles corrélations, tendances et modèles
significatifs formant les connaissances cachées.
Les analyses qui découlent du data mining, nous
permettent soit de corroborer une analyse prévisible,
par des méthodes d'estimations, classifications ou
prédictions. Soit elles mettent en évidence des liens à
priori sans aucun rapport, en identifiant les formes de
données qui pourraient être significatives (cas des
achats simultanés dans une grande surface).
Dans le cadre de ce travail, on a appliqué deux
grandes fonctions du data mining.
2.3.1. Les règles d'associations
Cette technique appelée aussi panier de la
ménagère, permet d'étudier ce que les clients achètent
de manière à savoir qui ils sont et pourquoi ils font
certains achats et quels produits sont le plus souvent
achetés ensemble
Elle est l'une des techniques data mining les plus
utilisée actuellement, du fait de la généricité de la
structure des transactions auxquelles elle s'applique et
de la grande utilité des règles d'inférence qu'elle
découvre. [CHA 98]
Les règles générées et qui sont de la forme "Si
action1 ou condition alors action2", sont claires et
explicites et sont assorties de deux critères d'intérêt :
Le support et la confiance de l'association.
Le premier critère mesure la représentativité des
cas observés en calculant le nombre de fois où
l'association est respectée par rapport au pourcentage
de la population totale, alors que le second mesure la
vérification de la probabilité conditionnelle dans la
sous-population concernée par la condition de la règle.
Pour la règle par exemple « si les produits 1 et 2
ont été choisis alors achat du produit 3 », ", le niveau
de confiance est le nombre de fois où la règle « les
produits 1 et 2 ont été choisis » est respectée. Le
support est par exemple « 75% des individus ont
choisi les produits 1 et 2 ».
Le but de l'analyse du panier de la ménagère est
d'identifier des règles "vraies" dans la population
considérée. Une règle est déclarée "vraie" si elle
présente à la fois un support et une confiance
supérieure à un seuil déterminé.
Dans le cas où la mesure d'intérêt choisie par
l'utilisateur est la fréquence, relativement à un seuil
fixé à priori, alors les connaissances recherchées dans
la base de données s'appellent les motifs fréquents.
2.3.1.1 Extraction des itemsets
fermés fréquents
L'approche d'extraction itemsets fermés fréquents
[PAS 00], [PAS 99] permet de ne générer qu’un sous
ensemble réduit de règles associatives du point de vue
de la taille tout en évitant toute perte du point de vue
de la connaissance [BAS 00], [STU 01], [BEN 03],
[GOD 89]. Elle peut être définie par les hypothèses
suivantes :
Etant donné un ensemble I d'articles, ou item,
chaque transaction de la base de données est un sous
ensemble de I ou itemset. La structure des transactions
peut également être perçue comme un tableau de
booléens où chaque case correspond à la présence ou
non d'un article dans la transaction.
Si la base de données contient des valeurs réelles
plutôt que booléennes, il est d'ailleurs possible de se
ramener au cas booléen par la détermination
automatique d'intervalles de valeurs pour chaque
produit [SRI 96]. Chaque valeur de la base de données
est associée à un booléen indiquant si la valeur
appartient à l'intervalle ou pas.
Ainsi, les algorithmes d'extraction d'itemsets
fermés cherchent des relations causales entre itemsets.
- 3 -