Proposition!de!thèse!CIFRE!
!
Apprentissage+semi‐supervisé+à+partir+de+données+complexes,+
Application+au+e‐Marketing++
!
1. Contexte
IVIDENCE, société spécialisée en e-Marketing, développe des stratégies de ciblage
Marketing relationnel basées sur l’e-Mailing. L’objectif étant de cibler le maximum de
clients potentiels avec le minimum de rejets au retour. Il s’agit d’une problématique
complexe qui est actuellement abordée par des approches classiques du marché,
qui sont basées – au mieux – sur le volume et sur un ciblage monocritère à base de
facteurs descriptifs (habituellement des caractéristiques démographiques, comme le
sexe et/ou l’âge pour ouvrir le canal Marketing).
Etant basé sur ce type de ciblage, IVIDENCE, envoie une quantité considérable d’e-
mails. Elle obtient au retour, des taux d’ouverture allant de 5% à 15% sur les bases
de données ‘actives’ (contenant des personnes ayant au moins ouvert un e-mail
durant les 3 derniers mois). Le taux de clic sur ces mêmes bases est de l’ordre de
1% et les taux de transformation approchent les 0.1% (une transformation signifie
une inscription réussie par l’internaute à un service de type ventes privées ou autre).
Cependant, les bases ‘inactives’ ont des taux d’ouverture beaucoup plus faibles
(~0.5%) mais sont beaucoup plus réactives (taux de clics de 0.2%).
Par ailleurs, l’inventaire, c'est-à-dire le nombre d’e-mails routables (« envoyables »)
par jour est fini. Chaque internaute ne peut recevoir plus de 1 à 5 e-mails par
semaine selon l’accord qu’il a donné lors de la mise à disposition proactive de son
adresse e-mail (processus dit « opt-in » partenaire).
En outre, les données utilisées pour le ciblage marketing présentent plusieurs
problèmes de plusieurs natures: (1) une complexité due à la nature même des
données (descriptives, comportementales, manquantes, etc.), (2) une variable à
expliquer (Client) partiellement active et (3) un aspect multimodal de cette dite-
variable (ouverture, clic ou transformation).
IVIDENCE a développé à cet effet des stratégies et solutions techniques destinées à
détecter des critères descriptifs, qui permettent de cibler les clients potentiels et d’y
identifier des profils similaires à des extraits d’une base de référence. Cependant,
passer de ces données brutes (détections simples) à la mise en évidence de
comportements de consommation de nature complexe, nécessitera des travaux en
apprentissage automatique et data mining.
Par conséquent, la problématique décrite ci-dessus s’inscrit dans le cadre de
l’apprentissage semi-supervisé des données complexes. Il s’agit d’un domaine peu
abordé dans la communauté d’apprentissage automatique. Il est donc opportun de
s’attaquer à ce genre de problème dans tous ses aspects de visualisation et de
classification avec des systèmes intelligibles et des architectures évolutives et
adaptables à ce type de données.