Approche data mining pour la gestion de la relation client

publicité
SETIT 2007
4th International Conference: Sciences of Electronic,
Technologies of Information and Telecommunications
March 25-29, 2007 – TUNISIA
Approche data mining pour la gestion de la relation
client : application à la personnalisation d'un site de
e-commerce
h. NECIR *, h. DRIAS **
*
Université des Sciences et de la Technologie Houari Boumediene,
Laboratoire de Recherche en Intelligence Artificielle (LRIA), Département d’informatique, Faculté
d’Electronique et d’informatique.
USTHB, El Alia BP 32, Bab Ezzouar, Alger, Algérie
[email protected]
**
Université des Sciences et de la Technologie Houari Boumediene,
Laboratoire de Recherche en Intelligence Artificielle (LRIA), Département d’informatique, Faculté
d’Electronique et d’informatique
USTHB, El Alia BP 32, Bab Ezzouar, Alger, Algérie
[email protected]
Abstract: Actuellement, avec les nouvelles contraintes liées au développement important d’Internet, des services en
lignes et de l’intensification de la concurrence, il est économiquement moins cher pour une entreprise de conserver et de
fidéliser sa clientèle que de chercher à élargir ses parts de marché par une politique conquérante.
Cependant, établir une démarche CRM efficace, ne peut être envisagée que sous forme d'un ensemble d'actions
coordonnées au service d’objectifs précis et concrets à atteindre.
Ainsi, face à ce champs de prospection immense, beaucoup de questions restent posées : quelles stratégies doit on
adopter dans notre relation avec le e-client et quelles sources de création de valeur peut-on actionner dans une
démarche CRM?
Dans cet article, on s’intéresse à ces problématiques et en particulier à la personnalisation de la relation client comme
principal facteur de la fidélité à un site e-commerce.
Pour atteindre ces objectif, on adoptera une démarche e-CRM, utilisant des techniques data mining. Ceci sera appliqué à
la personnalisation d'un site e-commerce dont la teneur et la structure sera dynamiquement réorganisée suivant le
comportement d'achat et les centres d’intérêt des différents clients.
Key words: CRM, Data mining, e-commerce, e-CRM, fidélité client, personnalisation.
Cette capacité permettra à l’entreprise une rapidité
de prise de décision et un véritable pilotage de la
fonction marketing, grâce à une connaissance
beaucoup plus étoffée et fine du comportement du
client.
INTRODUCTION
Actuellement, une bonne gestion d’entreprise ne
peut se faire sans une meilleure compréhension de la
relation client par le biais d’une meilleure
connaissance des comportements de ce dernier.
Dans ce travail, il s’agit d’intégrer, en plus de la
conception du site e-commerce, un module de data
mining qui permet d’extraire des informations
pertinentes à partir de l’ensemble des transactions
effectuées par les clients.
Pour atteindre cet objectif, deux atouts existent : le
commerce électronique et le Data mining.
Le commerce électronique permet d’utiliser les
transactions électroniques afin de collecter une grande
masse d’informations. Cette dernière sera exploitée et
analysée grâce au data mining afin de y découvrir de
l’information implicite et utile.
Ces connaissances déduites du gisement de
données vont êtres exploités pour personnaliser
dynamiquement la teneur et la structure du site de
vente qui sera réorganisée suivant le comportement de
des différents types de clients.
-1-
SETIT2007
Dans cet objectif, notre travail sera organisé
comme suit :
connaissance qu’a l’entreprise de celui-ci est accru et
les besoins en études de marché sont réduits.
Après une introduction générale, nous nous
intéresserons à définir le CRM et son importance dans
la fidélisation du client.
Au-delà de l’augmentation du montant de leurs
achats, les clients fidèles recommandent leur
fournisseur à d’autres clients potentiels, ce qui
représente une nouvelle source de profit. Ce
phénomène est encore amplifié et accéléré sur Internet
grâce aux communautés virtuelles [JAL 97]; [REI 00].
Nous établirons, par la suite, les préalables au
succès d'une démarche CRM. Ceci nous permettra
d'aborder des notions importante tel que : le ecommerce, le data warehouse et le data mining.
On distingue trois grandes catégories d'outils CRM
[CIN 02] :
Nous définirons les différentes étapes d'une
démarche CRM et ensuite nous expliciterons la
démarche qu'on a adoptée.
Nous présenterons quelques interfaces de notre site
et enfin, une conclusion et des perspectives d'études
clôturent ce travail.
1. CRM et fidélisation du client
•
Les outils d'automatisation des forces de ventes,
qui permettent le suivi des clients et prospects.
•
Les outils qui définissent les segmentations et
typologies des clients et orchestrent les
campagnes.
•
Les outils pour le suivi client après vente.
Actuellement, on voit l'émergence du e-CRM qui
est la gestion de la relation client utilisant le canal
Internet.
La gestion de la relation client connue sous le nom
de CRM (Customer Relationship Management), est
définit [NEW 00] comme "un processus de
modification du comportement du client, cherchant à
apprendre à partir de chaque interaction avec ce
dernier. Le CRM vise également à traiter le client de
manière individualisée et à renforcer le lien existant
entre celui-ci et l'entreprise".
Par rapport au CRM classique, cette approche peut
offrir des opportunités bien plus diversifiées, et surtout
à moindre coût, pour améliorer la commercialisation
d'un produit et fidéliser la clientèle.
Grâce à Internet, les informations relatives à la
clientèle sont désormais accessibles à l'ensemble des
structures de l'entreprise avec différents niveaux
d'interaction entre l'entreprise et le client.
Ce processus interactif a pour objectif de réaliser
l’équilibre optimum entre les investissements de
l’entreprise et la satisfaction des besoins des clients
afin de générer un maximum de profit [ECC 05].
Dans cette étude, nous emploierons le mot CRM et
e-CRM de façon indifférente puisqu'on considère que
les deux concepts sont en somme une même démarche
avec seulement des différences relatives aux
possibilités, spécificités et exigences de l’outil
Internet.
Les revenus de l'entreprise sont améliorés, d’une
part, par une réduction des coûts en utilisant des
médias plus appropriés et moins chers, et d’autre part
par un meilleur ciblage des actions marketing qui
induisent un retour sur investissement supérieur où
encore grâce à la diminution des plaintes des clients
qui sont davantage satisfaits.
2. Les préalables pour un CRM efficace
Dans cette stratégie, l’entreprise vise à optimiser
ces performances commerciales en se concentrant sur
le long terme. Elle peut ainsi même sacrifier des
avantages de court terme dans l’espoir d’une
permanence sécurisante au sein de la relation [ABI
02].
Les projets CRM ont, actuellement, des
obligations de rentabilité et de pérennité de plus en
plus importantes. Ils doivent s’intégrer le plus possible
au système d’information de l’entreprise.
Un projet CRM ne peut donc s’improviser et doit
toujours justifier le budget qui lui est alloué en
démontrant sa rentabilité et sa capacité à évoluer tout
en gardant sa cohérence.
Le CRM met l’accent sur la fidélisation du client
afin d’augmenter ces parts en s'attachant à satisfaire
ces besoins. Cette fidélité étant conçue comme la plus
importante sinon la seule source de performance de
l’entreprise à long terme [HES 94], [JON 95].
Face à ces enjeux de taille, la définition d’objectifs
quantifiés précis et étalés dans le temps et auxquels
sont associés des indicateurs de performance
permettra de lever les doutes et les incompréhensions
sur la viabilité et l'utilité de chaque étape de
construction. Ceci passe par le respect des principes et
objectifs financiers de l’entreprise ainsi que par des
choix technologiques adéquat.
Cette fidélisation du client passe par sa satisfaction
vis-à-vis des attributs des produits ou services et des
informations échangées [SPR 96] et se traduira
toujours par une stratégie de valeur bâtie sur une
confiance mutuelle [REI 00] qui influencera
positivement son engagement pour maintenir une
relation durable [DWY 87] ; [MOO 93] ; [MOR94] ;
[GAR 99].
Actuellement, le commerce électroniques, les
entrepôts de donnée et le data mining sont les trois
technologies qui ont le rôle le plus fondamental dans
une démarche CRM.
Par ailleurs, grâce à la communication personnelle
et au dialogue permanent avec le client, la
-2-
SETIT2007
2.1. Le commerce électronique
de manière à savoir qui ils sont et pourquoi ils font
certains achats et quels produits sont le plus souvent
achetés ensemble
Le commerce électronique [KAL 97], [OCD 98],
[OCD 99] permet l’abondance de l'information
concernant les clients, les produits et services. Ceci
permet d'entreprendre une démarche CRM efficace en
agissant sur les fonctionnalités relatives à la forme de
la relation et son contenu [CAD 02] en offrant une
flexibilité sans précédent dans la vente.
Elle est l'une des techniques data mining les plus
utilisée actuellement, du fait de la généricité de la
structure des transactions auxquelles elle s'applique et
de la grande utilité des règles d'inférence qu'elle
découvre. [CHA 98]
Ainsi la fidélisation des clients s'accroît pour les
sites e-commerce où le coût d’acquisition d’un client
est très élevé. « Without the glue of loyalty, even the
best-designed e-business model will collapse. » [REI
00].
Les règles générées et qui sont de la forme "Si
action1 ou condition alors action2", sont claires et
explicites et sont assorties de deux critères d'intérêt :
Le support et la confiance de l'association.
Le premier critère mesure la représentativité des
cas observés en calculant le nombre de fois où
l'association est respectée par rapport au pourcentage
de la population totale, alors que le second mesure la
vérification de la probabilité conditionnelle dans la
sous-population concernée par la condition de la règle.
2.2. L'entrepôt de données (data warehouse)
Un entrepôt de données permet de recueillir et de
centraliser les données à analyser sous forme d'une
collection orientées sujet, intégrées, non volatiles et
historisées, organisées pour le support d'un processus
d'aide à la décision [INM 92]. Pour cela, les données
qui sont extraites de toutes les sources vont être, au
préalable, transformées pour consolider correctement
l'entrepôt de données.
Pour la règle par exemple « si les produits 1 et 2
ont été choisis alors achat du produit 3 », ", le niveau
de confiance est le nombre de fois où la règle « les
produits 1 et 2 ont été choisis » est respectée. Le
support est par exemple « 75% des individus ont
choisi les produits 1 et 2 ».
Les différences qui distinguent un entrepôt de
données d'un système opérationnel sont à la fois
d'ordre conceptuel, car l'objectif est différent et d'ordre
technique, car la structure et les processus sont
différents. Ainsi, le modèle entité/association sur
lequel repose la conception des bases de donnée est
inadapté à la conception d’un entrepôt de données.
[KIM 97]. Ce dernier est typiquement modélisé par
des modèles multidimensionnels (appelés aussi cube
de données).
Le but de l'analyse du panier de la ménagère est
d'identifier des règles "vraies" dans la population
considérée. Une règle est déclarée "vraie" si elle
présente à la fois un support et une confiance
supérieure à un seuil déterminé.
Dans le cas où la mesure d'intérêt choisie par
l'utilisateur est la fréquence, relativement à un seuil
fixé à priori, alors les connaissances recherchées dans
la base de données s'appellent les motifs fréquents.
Il existe deux approches pour construire ces
modèles multidimensionnels. L'approche MOLAP
(Multidimensional MOLAP) et l'approche ROLAP
Relational OLAP) qui utilise un SGBD relationnel
pour stocker le cube de donnée. [BEL 00]
2.3.1.1 Extraction
des
fermés fréquents
itemsets
L'approche d'extraction itemsets fermés fréquents
[PAS 00], [PAS 99] permet de ne générer qu’un sous
ensemble réduit de règles associatives du point de vue
de la taille tout en évitant toute perte du point de vue
de la connaissance [BAS 00], [STU 01], [BEN 03],
[GOD 89]. Elle peut être définie par les hypothèses
suivantes :
2.3. Le data mining
Le data mining est définit comme “un processus
d’aide à la décision où les utilisateurs cherchent des
modèles d’interprétation dans les données ” [PAR 96].
Il constitue ainsi le meilleur moyen permettant la mise
à jour de nouvelles corrélations, tendances et modèles
significatifs formant les connaissances cachées.
Etant donné un ensemble I d'articles, ou item,
chaque transaction de la base de données est un sous
ensemble de I ou itemset. La structure des transactions
peut également être perçue comme un tableau de
booléens où chaque case correspond à la présence ou
non d'un article dans la transaction.
Les analyses qui découlent du data mining, nous
permettent soit de corroborer une analyse prévisible,
par des méthodes d'estimations, classifications ou
prédictions. Soit elles mettent en évidence des liens à
priori sans aucun rapport, en identifiant les formes de
données qui pourraient être significatives (cas des
achats simultanés dans une grande surface).
Si la base de données contient des valeurs réelles
plutôt que booléennes, il est d'ailleurs possible de se
ramener au cas booléen par la détermination
automatique d'intervalles de valeurs pour chaque
produit [SRI 96]. Chaque valeur de la base de données
est associée à un booléen indiquant si la valeur
appartient à l'intervalle ou pas.
Dans le cadre de ce travail, on a appliqué deux
grandes fonctions du data mining.
2.3.1. Les règles d'associations
Cette technique appelée aussi panier de la
ménagère, permet d'étudier ce que les clients achètent
Ainsi, les algorithmes d'extraction d'itemsets
fermés cherchent des relations causales entre itemsets.
-3-
SETIT2007
Une règle d'inférence qui s'écrit I ⇒ J pour les
itemsets I et J, a pour signification que "la plupart des
transactions qui contiennent les articles de I
contiennent également les articles de J". [CHA 98]
éléments : le k-générateur candidat, sa fermeture, qui
est un itemset fermé candidat, et leur support.
À la fin de l'itération k, l'algorithme stocke un
ensemble contenant les k-générateurs fréquents, leurs
fermetures, qui sont des itemsets fermés fréquents, et
leurs supports. Durant chaque itération k, la fermeture
de tous les k-générateurs ainsi que leur support sont
calculés. La détermination des fermetures des
générateurs est basée sur la propriété que la fermeture
d'un itemset est égale à l'intersection de tous les objets
du contexte le contenant et dont le décompte fournit le
support du générateur qui est identique au support de
sa fermeture.
On associe généralement à une règle de ce type un
support, correspondant au nombre de transactions qui
vérifient cette règle, (c'est à dire les transactions qui
contiennent I ∪ J ), et une confiance, qui évalue la
probabilité qu'une transaction qui contient I contienne
aussi J. [CHA 98]
sup port(I ⇒ J ) = sup port(I ∪ J ) =
Card({transaction t ∈ BD
(I ∪ J ) ⊆ t})
confiance( I ⇒ J ) =
sup port(I ∪ J )
sup port(I )
(1)
Tous les k-générateurs fréquents, dont le support
est supérieur ou égal à minsup, ainsi que leur
fermeture sont sauvegardés, les autres (k-motifs non
fréquents et les k-motifs non générateurs) sont
supprimés (le produit (Webcam) n’est pas pris car son
support est < 2/7). L'itemset fermé (Portable, Souris)
est contenue dans la fermeture de portable alors on
l’élimine.
(2)
Dans cette étude, nous avons utilisé l’algorithme
d'extraction des itemsets fermés fréquents close [PAS
99], [PAS 00].
Ainsi, l'ensemble des (k+1)-générateurs candidats
de l'itération suivante, est construit en joignant les kgénérateurs fréquents de l'ensemble des itemsets
fermés fréquents identifiés durant l'itération k. Les
itérations cessent lorsque aucun nouveau générateur
ne peut être créé et l'algorithme s'arrête alors.
Le fonctionnement de l’algorithme débute par la
construction d'un contexte d'extraction qui est un
tableau de transaction/produits où nous mettons un 1,
la où le produit figure dans la transaction, sinon un 0.
Figure 1. Contexte d'extraction
Figure 3. Tableau des 2-generateurs et leurs fermés
L'algorithme commence par initialiser l'ensemble
des 1-générateurs avec la liste des 1-itemsets du
contexte. On calcul le support de chaque 1générateurs (la fréquence d’apparition de chaque 1générateurs dans le contexte). On supprime les non
fréquents (dont le support est strictement inférieur à
minsup). On calcul ensuite leurs fermés en effectuant
une intersection des « intensions » de toutes les
transactions qui possèdent ce motif.
Tous les 2-itemsets dans la fig 5 sont fréquents,
donc nous les conservons tous et nous passons à la
génération des 3-itemsets fréquents.
Les deux 3-itemsets Portable, Clavier, souris et
Portable, Clavier, Imprimante sont inclues dans un 2itemsets fermé fréquent Portable, clavier, souris,
imprimante trouvé précédemment. Close s’arrête et
l’ensemble des 3-générateurs est vide.
Si on considère, le contexte d'extraction donné à la
fig1 avec un support minimum minsup=2/7, on
obtiendra :
3. Les étapes d'une démarche CRM
La mise en œuvre d'une politique CRM consiste
avant tout à modifier les processus opératoires au sein
de l'entreprise et à mettre le client au premier rang des
priorités.
En général, une approche CRM repose, sur un
processus en 4 étapes [PEP 99} :
3.1. Identification du client
Figure 2. Tableau des 1-generateurs et leurs fermés
L'identification du client concerne en plus des
informations personnelles (nom, age, adresse,….), les
relations du client et ces désirs.
L’algorithme exécute ensuite un ensemble
d'itérations. Durant chaque itération k de l'algorithme,
un ensemble de k-générateurs candidats est considéré.
Chaque élément de cet ensemble est constitué de trois
Ceci englobe l’historique du client et ces
-4-
SETIT2007
communes entre les clients pour aboutir à des
classifications qui ne se sont pas connues au départ.
consommations (les produits et les services achetés)
ainsi que les caractéristiques des produits achetés.
L'identification du client se fait soit de manière
transparente grâce aux données collectées, à l'insu de
l'internaute, de par sa simple navigation par
l'utilisation des informations relatives à l'adresse IP, le
clickstream (séquence de clics), les cookies,
l'identifiant de session,…; ou bien l'identification se
fait de manière explicite et volontaire, et dans se cas il
y a nécessité d'avoir l’apport volontaire de
l’utilisateur.
Ceci
est
possible
notamment
par l'utilisation d'un pseudonyme et d'un mot de passe
pour chaque client ainsi que par l'utilisation des
différents formulaires que le client remplis sur le site.
3.3. L’interaction avec le client
L'interactivité avec le client est une notion clef
dans une démarche CRM car elle permet au client de
savoir que l'entreprise s'intéresse à lui et à ses
réactions.
L'interactivité est une occasion d'apprendre à
mieux connaître les valeurs, les besoins, les centres
d'intérêts et les priorités du client en établissant un
dialogue avec lui.
Les centres de contact constituent le meilleur et le
plus efficace moyen pour interagir avec le client.
Plusieurs formes de communication peuvent être mise
en oeuvre : e-mail, téléphone, chat,…. En fonction de
l'entreprise, il convient de déterminer lesquelles
privilégier avant et après la vente.
L'identification du client permet de déduire les
centres d’intérêt de ce dernier et surtout d’éviter de lui
proposer des offres inadaptées.
3.2. La différenciation des besoins
Les newsletters constituent aussi un moyen
efficace pour tenir au courant le client des dernières
nouveautés et possibilités offertes par le site de vente.
La différenciation des besoins des clients permet
d'adapter les produits ou les services et de les
hiérarchiser par ordre de priorité pour chacun d'eux.
Un forum de discussion ouvert à tous ou privé
(connexion par identifiant et mot de passe) peut
rendre le site plus interactif et permet aux visiteurs du
site de communiquer et de débattre en eux directement
sur le site sur des sujets qui doivent apporter une réelle
valeur ajoutée.
Elle consiste à distinguer à partir de critères
objectifs tels que les caractéristiques d'achat,
fréquence de visites sur le site, les préférences
affichées, ….. , les besoins d'une communauté ou
segment de clients qui peuvent être prédéfini ou non.
3.2.1. La segmentation
La segmentation est le découpage d’un ensemble
de clients en un nombre assez réduit de sousensembles homogènes, que l’on appelle segments;
selon un ou plusieurs critères. Chaque critère doit être
pertinent dont le sens où il doit être fortement lié aux
comportements et attitudes des clients à l’égard des
produits auxquels on s’intéresse, facilement
mesurable, avec une valeur opératoire pour
l’entreprise pour orienter ses efforts en ce qui
concerne sa relation avec le client. [LAC 02]
La mise en place sur le site de jeux promotionnels
tel que les loteries ou des concours permet aussi
d'augmenter le trafic et d'attirer et de fidéliser les
clients.
Parmi les critères de segmentation les plus
couramment retenus par les entreprises, on peut citer
le potentiel d’achat, la part de marché, la fidélité et le
comportement et la culture.
3.4. La personnalisation
Enfin, un site e-commerce peut proposer des
sondages et des enquêtes aux prés de ces visiteurs en
leurs posant des questions liées à leurs satisfactions
vis-à-vis de l'activité du site et des services offerts.
Ceci peut constituer une vraie mine de connaissance
supplémentaire.
R. Kimball et R. Merz1 [KIM 00], définissent la
personnalisation pour un site e-commerce comme "la
livraison au visiteur du site d'un contenu façonné
spécifiquement pour tenter cet individu. La
personnalisation désigne aussi la capacité offerte à un
visiteur de site Web de définir explicitement des
préférences de consultation''.
Les segments retenus doivent être suffisamment
différents les uns des autres pour justifier des
politiques CRM distinctes.
Ainsi, on distingue traditionnellement
approches de segmentation suivantes [BRU 02] :
les
Le Gartner Group définit la personnalisation
comme "toute interaction avec le client dans laquelle
le message, l'offre ou le contenu a été taillé sur mesure
pour un client ou groupe de clients spécifiques".
Segmentation a priori. Cette approche consiste à
diviser les clients en groupes homogènes selon leurs
attributs basiques (familles
avec enfants, avec
voiture,...).
Ainsi, à partir de ces deux définitions, on peut dire
que la personnalisation d'un site e-commerce
permettra au client d’avoir l'impression qu'il peut
presque toujours trouver et sans difficulté ce qu'il
recherche.
Segmentation supervisée. Cette approche de
segmentation consiste à déterminer d’abord quels sont
les groupes auxquels on souhaite aboutir avant de
réaliser cette segmentation.
Cette personnalisation et réorganisation dynamique
de la teneur et de la structure du site et de l’offre selon
Segmentation
non
supervisée.
Cette
segmentation part de la recherche de caractéristiques
-5-
SETIT2007
les données extraites du comportement des utilisateurs
[OSM 01], [TAP 01] constitue le meilleur moyen pour
éviter de perdre un client submergé par l'abondance de
l'information disponible[ARI 00] .
en ligne. Cette option, facilite le traitement des
données qui auront le même format et la même
structure et limitera le candidat à donner que les
informations nécessaires.
Selon une étude réalisée par Intelliquest, ‘45% des
visiteurs reviennent sur un site Web parce que
l'information proposée est adaptée à leurs
nécessités’[GAV 02].
Le premier formulaire correspond au formulaire
d'inscription. Le second formulaire est celui qui est
utilisé lors de chaque achat. Les informations du
formulaire d'inscription doivent être sujettes à
vérification car les internautes n'aiment en général pas
fournir des informations sur leur vie privée. Ils sont
souvent tentés de fournir des renseignements
incorrects pour conserver leur anonymat.
4. Approche adoptée
Notre approche CRM se base sur les 4 étapes
citées précédemment.
Pour les informations du formulaire d'achat, on
s'est limité aux seules données indispensables à la
transaction et qui sont pratiquement toujours correctes
(l'adresse postale de livraison, le nom et le
prénom,…). Ceci permet aussi d'éviter que ce recueil
des données, ne lasse le client qui risque d’abandonner
sa démarche en cours particulièrement s'il rencontre
un formulaire relativement long.
Ces étapes sont précédées par la mise en place d'un
data warehouse afin de stocker les donner sous un
format approprier pour l'analyse.
4.1. Mise en place du data warehouse
Nous avons mis en place un data warehouse afin
de disposer d'un système de gestion centralisé qui
serve de réservoir pour cumuler les informations des
différentes bases de données opérationnelles et dont la
capacité peut aller jusqu'à plusieurs téra-octets.
L'identification du client englobe aussi ses actions
et qui concerne l’historique de ces transactions ainsi
que les caractéristiques des produits achetés.
Nous avons adopté le modèle ROLAP étant donné
son
efficacité
pour
stocker
les
données
multidimensionnelles et la facilité de l'intégrer dans
les SGBDs relationnels existants
4.3. La différenciation des besoins
Pour différencier les besoins, on a eu recours à une
segmentation supervisée des clients selon le montant
et la régularité ou fréquence d’achats du client. On a
ainsi établit 3 groupes de clients :
Pour modéliser le système ROLAP, nous avons
choisi le schéma en étoile [KIM 96], étant donné qu'il
est considéré comme la structure qui offre la meilleure
performance et celle qui le plus largement utilisé dans
les applications industrielles (les groupes Redbrik et
Informix. [BEL 00]
1) Les très bon clients : ils ont la plus grande valeur
pour l'entreprise. Notre objectif est de les conserver en
les faisant entrer dans une relation plus forte.
2) Les clients moyens : ils représentent la marge de
progression de l'entreprise. Ces clients peuvent être
encore plus rentables.
Les mesures de notre schéma en étoile, sont
représentées par une table des faits vente et chaque
dimension par une table de dimension (ici la table
produit, client et temps). La table des faits référence
les tables de dimensions en utilisant une clé étrangère
pour chacune d'elles et stocke les valeurs des mesures
pour chaque combinaison de clés.
3) Les petit clients : Ce sont des clients occasionnels.
Notre objectif est de les inciter à augmenter leur
fréquence et leur panier d'achat.
4.3.1. Démarche de segmentation adoptée
On a adopté une démarche de segmentation
supervisée qui combine les deux approches de
segmentation qui sont RFM et par chiffre d'affaire.
[BRU 02]
Notre approche, exploite les informations stockées
dans la table des fait pour calculer, pour chaque client,
sa fréquence d'achat notée freq et le montant accumulé
de ces achats notée mont et qui représentent
respectivement le nombre de fois où le client a
effectué des achats et le montant accumulé de ces
achats jusqu'à la date de segmentation.
Par la suite, on calcule la fréquence moyenne des
visites
Figure 4. Schéma du data warehouse adoptée
4.2. Identification du client
freq _ moy = ∑ freq nb _ client
Pour notre approche, l'identification du client
concerne en plus des informations personnelles (nom,
age, adresse,….), les relations du client et ces désirs.
(3)
Pour chaque client, on calcule le montant moyen
d'achat.
L'identification du client se fait par un formulaire
-6-
SETIT2007
mont _ moy = ∑ mont nb _ client
communauté. Pour notre approche, nous avons reparti
nos clients selon les trois communautés citées
précédemment.
(4)
On construit une matrice M à deux dimensions où
nous mettons dans la première colonne un 1 dans le
cas où la fréquence d'achat du client dépasse la
freq_moy, sinon on met un 0.
Ainsi, au fur et à mesure de ses achats et visites,
on proposera au client une interface d’accueil
différente de telle façon qu'il se sente bien accueilli et
privilégié en changeant de communauté.
Pour la deuxième colonne, nous mettons un 1 dans
le cas où le montant d'achat du client dépasse le
mont_moy, sinon on met un 0.
L’administrateur se sert de la démarche de
segmentation déjà expliquée pour effectuer le travail
de détermination (lui affecter une catégorie).
A la fin, chaque client I, sera classé de la façon
suivante :
Si
M [i,1] =1 et M [i,2] =1 alors
Client I
∈ {Tresbonclient
}
M [i,1] =0 ou (exclusif) M [i,2] =0
alors Client I ∈ {client moyen}
Si
Si
(5)
(6)
M [i,1] =0 et M [i,2] =0 alors
Client I
∈ {petit client}
(7)
Cependant, l’administrateur reste libre d'introduire
lui-même les moyennes et fréquences d'achats.
4.4. L’interaction avec le client
Pour notre approche, l'interactivité avec le client se
fait via les messages reçus ou émis et qui peuvent
porter sur plusieurs raisons (intérêt pour un produit,
volonté d’achat, suivi de commandes, etc.).
Ces messages peuvent indiquer aussi le degré de
satisfaction ou réclamation vis-à-vis d'un produit ou
d'un service.
Figure 5. Personnalisation de la présentation
Etant donné l'importance de l’aspect ergonomie
dans toute relation sur Internet. nous avons opté pour
des interfaces très épurées avec très peu d’images
animées permettant de renforcer la crédibilité de
l'organisation avec un temps d'affichage d'une page
très court.
On a préconisé pour l'écriture du message un
formulaire de contact qui permet au visiteur ou au
client de rédiger directement un message sur
l'interface du site.
Tous client qui envoie un message est informé par
email sur ces préoccupations et son message est
ensuite automatiquement intégré au niveau de
l'entrepôt pour être analysé par la suite pour donner
des connaissances concernant le nombre de contacts
par jour, par semaine et par mois. On a aussi la
possibilité de faire une analyse qualitative des
messages pour évaluer la satisfaction des visiteurs et
des clients qui vont aider dans notre stratégie e-CRM.
On a eu recours à l'usage des couleurs pour
personnaliser les divers composants (modification de
la couleur du fond de la page, des cadres entourant les
éléments, etc.). De plus, on a aussi modifié la
localisation, le dimensionnement des différents
éléments constitutifs de l'interface du site, comme le
catalogue des produits qui n’apparaît pas de la même
façon pour les trois interfaces.
Afin de permettre une grande facilité et liberté de
navigation, nous avons utilisé pour nos pages un texte
suffisamment aéré avec des éléments d'informations
hiérarchisé par niveau d'importance avec la possibilité
pour l’utilisateur de revenir à la page d'accueil et aux
principales rubriques par un simple clic, quelque soit
la page sur laquelle il se trouve.
Nous avons aussi laissé la possibilité au client de
s'inscrire dans un newsletter afin de l'informer de
toutes les nouveautés et possibilités offertes par la
société.
4.5. la personnalisation
Pour notre approche, on a préconisé une
personnalisation de la présentation et du contenu.
Enfin, et afin de permettre au visiteur de mieux
assimiler l'information, on a dans certaines étapes
(inscription par exemple) présenté l'information par
étapes avec des liens hypertexte pour le chaînage des
différentes étapes.
4.5.1. Personnalisation de l'interface
La personnalisation de la présentation consiste à
rediriger un client vers une interface spécifique à sa
-7-
SETIT2007
4.5.2. Personnalisation des prix des produits
Suivant le segment du client (très bon, moyen ou
petit client), on a une réduction des prix de vente des
produits. Pour cela, on multiplie le prix réel du produit
avec le coefficient de réduction qui est préalablement
déterminé.
Pour chaque communauté de client, les produits à
réduire sont ceux qui sont achetés avec une fréquence
d’apparition (Qj) et dont la quantité globale achetée
dépasse un certain seuil (Q) défini par
l’administrateur.
De plus le rapport entre le montant (Tj) (pour cette
quantité Qj) et montant global de cette catégorie
dépassent un certain paramètre (T). Cette démarche
peut être résumée ainsi :
Figure 7. Personnalisation du contenu
Cette approche de personnalisation permet de
simplifier grandement les pages et d'accroître la
pertinence des informations présentées à l'écran, sans
pour autant réduire la richesse du site.
4.6. Système de classification des clients
Afin de mettre à la disposition du service
marketing des outils lui permettant de mieux
segmenter la clientèle, nous avons implémenté un
arbre de décision qui nous permet de voir la répartition
de nos clients sur l’ensemble de nos 3 segments de
client suivant certains critères.
L’exploration de l’arbre de sa racine jusqu’aux
feuilles nous donne le pourcentage de clients dans
chacun des trois segments suivant le chemin parcouru.
Les feuilles de notre arbre ne déterminent pas la classe
d’un client mais permettent d’évaluer la classe à
laquelle il pourrait appartenir avec une certaine
probabilité.
On a utilisé les critères suivants :
Age : c’est un attribut important dans toute étude
de population. On a divisé ce critère en trois
intervalles qui sont :
Figure 6. Algorithme pour réduire les prix.
4.5.3. Personnalisation du contenu
La personnalisation du contenu des pages du site
se fait suivant les comportements d’achats des clients
de chaque segment.
[0, 16] : les jeunes, [17, 50] : les adultes
[51 et plus] : les vieux.
Sexe : ce critère est aussi important, il divise la
population en deux catégories homme et femme.
On a adopté une des méthodes de personnalisation
les plus utilisées et qui consiste à déterminer quels
produits sont les plus susceptibles d'intéresser le client
afin de les lui présenter en premier lieu.
Montant : comme il s’agit d’un site de vente, cette
composante est prépondérante pour la classification.
Cette valeur fixée par l’administrateur scindera la
population en deux parties.
On a utilisé la technique d'extraction des itemsets
fermés fréquents déjà présentée, puisque elle est
considérée comme la meilleure technique pour
extraire des connaissances sur les achats groupés des
clients.
Pays : un site marchant ouvert sur Internet doit
permettre à toutes personnes d’y accéder. Ce critère
nous permettra de voir l'entendue de la popularité de
notre site 'nationale, international,..).
Nous avons appliqué l’algorithme Close [PAS 99],
[PAS 00] pour sa simplicité et la qualité des résultats
qu’il délivre. Close permet la détermination efficace
des ensembles fermés, tout en réduisant le nombre
d’accès aux données du contexte étudié. [AOU 05].
Un noeud représente une classe d'individus de plus
en plus fine depuis la racine. Un arc représente un
prédicat de partitionnement de la classe source.
A chaque niveau de l’arbre, dans l’ensemble des
attributs (exceptés ceux déjà utilisés), l’entropie
sélectionne un l’attribut à appliquer sur un nœud.
-8-
SETIT2007
5.1. Interface communauté A (petits clients)
Donc pour chaque attribut candidat, on va calculer son
entropie et on choisit celui qui a l'entropie la plus
basse. On a I(S1,…, Sm) correspond à la quantité
d'information nécessaire pour classifier l'ensemble des
tuples.
Interface communauté A
Familles produits
Taux de réduction
communauté A
i =1
I (s1 ,..., s m ) = ∑ Pi log 2( Pi )
(8)
m
Soit A un attribut candidat possédant v valeurs
(a1,…, av). A permet de partitionner l'ensemble S en v
sous-ensembles (S1,…, Sv). Si comprend les tuples
ayant la valeur ai pour A. Soit Sij le nombre de tuples
du sous-ensemble Sj appartenant à Ci.
j =1
∑
)/ S X I (S
Entropie de (A) =E (A) =-
(S
v
1j
+ ... + S mj
1j
+ ... + S mj )
(9)
Options d'aide
La figure ci-dessous donne un aperçu sur une
classification possible de nos clients
Panier
Option de recherche
5.2. Interface communauté B (clients moyens)
Interface communauté B
Option de recherche
taux de réduction
communauté B
Produits les plus vendus
5.3. communauté C (bons clients)
Interface communauté C
taux de réduction
communauté C
Figure 8. Classification des clients
5. Réalisation
Notre plateforme fonctionne selon une architecture
3 tiers. Les utilisateurs humains interagissent avec le
système par un simple navigateur Web. De cette
manière, aucune installation ou configuration
particulière n'est nécessaire du coté de l'utilisateur.
Nous nous sommes contentés de présenter ici que
les interfaces qui définissent notre démarche de
personnalisation. Les interface habituel pour un site ecommerce ont été réalisées mais ont a jugé qu'il n'était
pas utile de les présentées.
Option de recherche
-9-
Produits les plus vendus
SETIT2007
5.7. Extraction des produits à réduire
5.4. Interface consultation d'un produit
Nombre de nouveaux produits à afficher
Détails d'un produit
Produits associé aux achats du client
5.5. Segmentations des clients
Fréquence
Segmentation des clients
seuil du montant
5.8. Système de classification des clients
Critères de classification
5.6. Génération des produits qui se vendent
ensemble
Introduction du ssupport
Liste de clients
Graphique de classification
6. Conclusion
Dans le cadre de ce travail, il s’agissait de réaliser
une plate forme de E-commerce personnalisée, qui
intègre toutes les fonctionnalités pour couvrir un cycle
d’achat complet et d’intégrer un système data mining
permettant à l’entreprise d’améliorer ces prestations
via une connaissance plus fine des comportements des
clients.
Cette solution apporte de la nouveauté au niveau
ergonomique en utilisant une interface intuitive, tant
du point du client que de l’entreprise.
L’option de personnalisation, permet d’améliorer
la relation entreprise client et de créer un climat de
confiance entre eux. Pour ce faire, nous avons mis en
pratique trois interfaces web qui sont destinées aux
trois communautés de nos clients obtenues grâce à une
segmentation supervisé de la clientèle. On a aussi
opéré une réduction du prix de vente sur les produits
les plus demandés.
Liste des produits générés par l'algorithme close
- 10 -
SETIT2007
Cependant, d’autres améliorations restent à réaliser
afin d’améliorer les fonctionnalités existantes et d’en
rajouter d’autres. La mise en place d’une technique
d'internationalisation, permettant l'exploitation du
système aux utilisateurs utilisant d'autres langues que
le français (en particulier l'arabe et l'anglais).
matérialisées, des index et de la fragmentation
dans la Conception logique et physique d’un
Entrepôt de données, Thèse de Doctorat,
Université de Clermont-ferrant II, France, 2000
Une étude sur le comportement du visiteur
permettra de voir aussi la popularité de notre site ainsi
que les pages les plus visitées. On peut aussi améliorer
les fonctionnalités de sécurité des transactions et
établir un profil plus étoffer du client et essayer
d’utiliser d’autres techniques pour faire la
segmentation.
Cette contribution ne prétend pas apporter des
réponses exhaustives à toutes les questions posées au
départ.
D’autres
recherches
qualitatives
et
quantitatives seront nécessaires pour pouvoir mieux
appréhender ces notions. Pour ce faire, il serait
intéressant de voir les perceptions des usagers du web
marchand quant aux démarches CRM des entreprises
et à leurs perceptions de la personnalisation de la
relation, notamment la propension du client à donner
des informations privées en échange de produits et
services personnalisés.
–
[BEN 03] S. Benyahia, Cherif C. L., Mineau G.,
Jaoua A.. Découverte des règles associatives non
redondantes : application aux corpus textuels.
Journées francophones d’Extraction et Gestion des
Connaissances (EGC’2003), France 2003.
–
[BRU 02] Bruant, J. Les enjeux de la segmentation
dans la relation client, thèse de Mastère en
Management des Systèmes d’Information et des
Technologies, Ecole des Mines de Paris 2002,
–
[CHA 98] Boris Charpiot, L'extensibilité par la
répartition thématique des accès à un système
d'informations distribuées, thèse de doctorat de
l'université de rennes. Mention: informatique,
décembre 1998
–
[CAD 02] Cadiat A-C. et De Moerloose C.
L’impact d’Internet sur la gestion de la relation
client, étude de cas dans le secteur du transport de
colis express, Actes de la 1ère Journée Nantaise de
Recherche sur le e-marketing 2002.
–
[CIN 02] Cinquin L., Lalande P-A. et Moreau N.
Le projet CRM : "relation client et Internet",
Editions Eyrolles. 2002.
–
[DAV 94] B. A. Davey, H. A. Priestley.
Introduction to lattices and order. Cambridge
University Press, Fourth edition, 1994
–
[DWY 87] Dwyer F.R., Schurr P.H. & Oh S.
Developping buyer-seller relationships, Journal of
Marketing, 51, 2, 11-27. (1987).
–
[ECC 05] Document tiré du site :
http://www.eccs.com, ECCS, the European CRM
Portal.
–
[GAR 99] Garbarino E. & Johnson M.S. the
different roles of satisfaction, trust and
commitment in customer relationships, Journal of
Marketing, 63, 2, 70-87. 1999.
–
[GAV 02] G. Gavray, Personnalisation des
sites Web : élaboration d'une méthodologie
de mise en œuvre et application au cas
DGTRE, mémoire d’ingéniorat, Université
Catholique de Louvain, 2002.
–
[GOD 89] Godin R. Complexité de structures de
treillis. Annales des Sciences Mathématiques du
Québec, 13(1) :19–38, 1989.
–
[HES 94] Heskett J.L., Jones T.O., LovermanG.W.,
SasserJrw.E. SchlesingerL.A. Putting the ServiceProfit Chain to Work, Harvard Business Review,
Boston, Vol. 72, pp.164-174. 1994.
–
[JAN 01] Janowski, W. Sarner, A. Five
Opportunities for Personalization. Gartner Group,
05/2001, pp. 1
–
[KAL 97] Kalakota, Ravi., Whinston, Andrew B.
'Electronic Commerce: A Manager's Guide,
Addison-Wesley 1997.
–
[KIM 97] R. Kimball. A dimensional modeling
REFERENCES
–
[ABI 02] A. Abidi, La quête de la fidélité du
consommateur : marketing relationnel, marketing
one-to-one et CRM. Explorations conceptuelles,
Actes de la 7ème Journée de Recherche en
Marketing de Bourgogne, CRG, IAE, Université
Toulouse I, novembre 2002.
–
[AGR 96] R. Agrawal, A. Gupta and S. Sarawagi.
Modeling multidimensional databases. Research
Report : IBM Almaden Research Center, San Jose,
CA, 1996
–
[ANS 03] S. Ansaf, Recherche de motifs fréquents
pour l'extraction de règles d'association et de
caractérisation, thèse présentée pour l'obtention
du grade de Docteur de l'Université d'Orléans,
Discipline Informatique, 2003
–
–
–
[AOU 05] K. Aouiche, Techniques de fouille de
donnée pour l’optimisation automatique des
performances des entrepôts de données, Thèse de
doctorat, laboratoire ERIC, Université Lumière
Lyon2, décembre 2005.
[ARI 00] Ariely D. (2000), Controlling the
information Flow: Effects on consumers Decision
Making and Preferences, Journal of Consumer
Research, Vol. 27, pp.1-20.
[BAS 00] Y. Bastide, N. Pasquier, R. Taouil, L.
Lakhal, G. Stumme, Mining minimal nonredundant association rules using frequent closed
itemsets, Proceedings of the Intl. Conference
DOOD’2000, LNCS, Springer-verlag, July 2000,
p. 972-986.
–
[BAZ 01] M. Bazsalicza, P. Naïm, Data Mining
pour le Web, Eyrolles, 2001.
–
[BEL 00] L. Bellatreche, utilisation des vues
- 11 -
SETIT2007
manifesto. DBMS Magazine, August 1997
–
[KIM 00] Kimball, R. Merz, R. Le Data
Webhouse. Eyrolles, 2000
–
[LAC 02] H. Lacroix–Sablayrolles. Etes-vous
vraiment orienté Client ? .Ed. Dunod, 2002.
–
[MER 93] Merkator, théorie et pratique du
marketing, Jacques Lendrevue et Denis Lindon.
Edition Dalloz, 1993.
–
–
[MOL 00] Möller K. & Halinnen A. Relationship
Marketing Theory: Its Roots and Direction,
Journal of Marketing Management, 16, 29-54.
2000.
[MOH 00] M. Mohania, S.Samtania, J. F.
Roddick, and Y. Kambayashi. Advances and
research directions in data warehousing
technology. Australian Journal of Information
Systems, 2000
–
[NEW 00] Newell, F. loyaty.com. McGraw-Hill,
2000
–
[INM 92] Inmon W.H. Building the Data
Warehouse. John Wiley, 1992
–
[JAL 97] Jallat F., Le Nagard E. & Steyer A.
(1997), Vers un marketing relationnel et tribal :la
transformation
des
opérateurs
de
télécommunication, Décision Marketing, 11, 3,
21-29.
–
–
Association Rules. Lecture Notes in Computer
Science, Vol. 1540. 1999. p 398-416
[JON 95] Jones T.O., Sasser JrW.E. (1995), Why
Satisfied Customers Defec, Harvard Business
Review, Vol. 73, N°6, pp.88-99.
[MOO 96] Moon Y. and Nass C. How Real Are
Computer Personalities? Psychological Responses
to Personality Types in Human-Computer
Interaction, Communication Research, Vol. 23,
pp.651-674. 1996.
–
[MOO 93] Moorman C., Desphandé R. & Zaltman
G. Factors Affecting Trust in Market
Relationships. Journal of Marketing. 1993,
–
[MOR 94] Morgan R.M. & Hunt S.D. The
Commitment-trust Theory of Relationship
Marketing, Journal of Marketing, 58, 3, 20-38.
(1994).
–
[OCD 98] Organisation pour la Coopération et le
Développement Économique (OCDE), Conférence
on Electronic Commerce, octobre 7-9 1998,
document disponible électroniquement à http://ecom.ic.gc.ca/english/releases/413.html.
–
[OCD 99] ‘Définir et mesurer le commerce
électronique’, Atelier de l'OCDE du 21 avril 1999
disponible
électroniquement
à.
http://www.oecd.org/dsti/sti/it/ec/act/agenda_ECw
orkshop.htm
–
[OSM, 01] Osmar R. Zaıane. Web usage mining
for a better web-based learning environment.
Proceedings of Conference on Advanced
Technology for Education, pages 450–455, 2001.
–
[PAS 99] N. Pasquier, Y. Bastide, R. Taouil, L.
Lakhal. Discovering Frequent Closed Itemsets for
- 12 -
–
[PAS 00] N. Pasquier, Y. Bastide, R. Taouil, G.
Stumme, L. Lakhal, Mining Minimal Nonredundant Association Rules Using Frequent
Closed Itemsets. Lecture Notes in Computer
Science, Vol. 1861. 2000. p 972-986
–
[PAR 96] Parsaye K. Surveying Decision Support:
New Realms of Analysis. Information Discovery,
Inc. 1996
–
[PEC 99] Peck H., Payne A., Christopher M. &
Clarck M. Relationship Marketing, Strategy &
Implementation, Oxford, Butterworth Heinemann.
1999.
–
[REI 00] Reichheld F.F. & Schefter P. E-Loyalty
Your Secret Weapon on the Web, Harvard Business
Review, July-August, 105-113. 2000
–
[REI 90] Reichheld F.F. & Sasser E. Zero
Defections: Quality Comes to Services, Harvard
Business Review, September-October, 105-111.
(1990).
–
[SPR 96] Spreng R.A., MacKenzie S.B. &
Olshavsky R.W. A Reexamination of the
Determinants of Consumer Satisfaction, Journal of
Marketing, 60, 3, 15-32. (1996).
–
[SRI 96] Srikant Ramakrishnan , Rakesh Agrawal,
Mining quantitative Association Rules in Large
Relationnal Tables, In ACM SIGMOD. (1996).
–
[STU 01] Stumme G., Taouil R., Bastide Y.,
Pasquier N., Lakhal L., Intelligent structuring and
reducing of association rules with formal concept
analysis, Proc. KI’2001 conference, LNAI 2174,
Springer-verlag, September 2001, p. 335-350
–
[TAP, 01] K. Tapan, Creating adaptive web
servers using incremental web log mining,
Master’s thesis, Computer Science Department,
University of Maryland, Baltimore County, 2001
Téléchargement