Proposition de thèse CIFRE

publicité
Proposition de thèse CIFRE Apprentissage semi‐supervisé à partir de données complexes, Application au e‐Marketing 1. Contexte
IVIDENCE, société spécialisée en e-Marketing, développe des stratégies de ciblage
Marketing relationnel basées sur l’e-Mailing. L’objectif étant de cibler le maximum de
clients potentiels avec le minimum de rejets au retour. Il s’agit d’une problématique
complexe qui est actuellement abordée par des approches classiques du marché,
qui sont basées – au mieux – sur le volume et sur un ciblage monocritère à base de
facteurs descriptifs (habituellement des caractéristiques démographiques, comme le
sexe et/ou l’âge pour ouvrir le canal Marketing).
Etant basé sur ce type de ciblage, IVIDENCE, envoie une quantité considérable d’emails. Elle obtient au retour, des taux d’ouverture allant de 5% à 15% sur les bases
de données ‘actives’ (contenant des personnes ayant au moins ouvert un e-mail
durant les 3 derniers mois). Le taux de clic sur ces mêmes bases est de l’ordre de
1% et les taux de transformation approchent les 0.1% (une transformation signifie
une inscription réussie par l’internaute à un service de type ventes privées ou autre).
Cependant, les bases ‘inactives’ ont des taux d’ouverture beaucoup plus faibles
(~0.5%) mais sont beaucoup plus réactives (taux de clics de 0.2%).
Par ailleurs, l’inventaire, c'est-à-dire le nombre d’e-mails routables (« envoyables »)
par jour est fini. Chaque internaute ne peut recevoir plus de 1 à 5 e-mails par
semaine selon l’accord qu’il a donné lors de la mise à disposition proactive de son
adresse e-mail (processus dit « opt-in » partenaire).
En outre, les données utilisées pour le ciblage marketing présentent plusieurs
problèmes de plusieurs natures: (1) une complexité due à la nature même des
données (descriptives, comportementales, manquantes, etc.), (2) une variable à
expliquer (Client) partiellement active et (3) un aspect multimodal de cette ditevariable (ouverture, clic ou transformation).
IVIDENCE a développé à cet effet des stratégies et solutions techniques destinées à
détecter des critères descriptifs, qui permettent de cibler les clients potentiels et d’y
identifier des profils similaires à des extraits d’une base de référence. Cependant,
passer de ces données brutes (détections simples) à la mise en évidence de
comportements de consommation de nature complexe, nécessitera des travaux en
apprentissage automatique et data mining.
Par conséquent, la problématique décrite ci-dessus s’inscrit dans le cadre de
l’apprentissage semi-supervisé des données complexes. Il s’agit d’un domaine peu
abordé dans la communauté d’apprentissage automatique. Il est donc opportun de
s’attaquer à ce genre de problème dans tous ses aspects de visualisation et de
classification avec des systèmes intelligibles et des architectures évolutives et
adaptables à ce type de données.
1 2. Objectifs
L’objectif de cette thèse est de s’appuyer sur la masse de données récoltées pour
mettre en place dix à vingt catégories (par pays) représentant le comportement des
consommateurs. Ces catégories pouvant être d’abord modélisées par différents
profils de clients. Ensuite, chaque profil doit être caractérisé par un sous-ensemble
de descripteurs pertinents permettant sa caractérisation et son interprétation
préalablement difficile à faire.
Dans le cadre de cette thèse nous proposons de développer des outils de data
mining à base de modèles d’apprentissage semi-supervisé génératif pour
l’exploration de grande masses de données complexes. Les techniques utilisées
actuellement dans le domaine, sont basées sur la propagation de l’information de la
supervision (variable à expliquer) ou sur l’intégration de contraintes dans un
processus non-supervisé. Les résultats obtenus par la mise en œuvre de ces outils
sont généralement de bonne qualité, mais présentent quelques limitations.
L'axe principal du travail scientifique sera donc autour de l’apprentissage semisupervisé, en exploitant à la fois, la structure géométrique offerte par la partie nonlabélisée et l’information offerte par les contraintes extraites par la partie labélisée.
L’objectif est d’offrir un système intelligible pour la découverte de profils de
consommation à partir de données complexes et hétérogènes, pour un meilleur
ciblage e-mailing. Il s’agit de traiter finement la population représentée par ces
données pour une interprétation pertinente et optimale.
3. Profil recherché
-
Etudiant, niveau Bac +5, ingénieur ou Master en Informatique /
Statistiques/ M athématiques appliquées
Des connaissances en apprentissage statistique et data mining
Programmation en Matlab, C/C++ , …
4. Contacts
M erci d’envoyer une lettre de motivation, un CV et éventuellement un
relevé de notes et une lettre de recommandation à :
- Khalid Benabdeslem, Université Lyon1 – GAMA, [email protected],
- Eric Didier, IVIDENCE, [email protected]
- Nicolas Gourdeau, IVIDENCE, [email protected]
2 
Téléchargement