!
1!
Proposition!de!thèse!CIFRE!
!
Apprentissage+semi‐supervisé+à+partir+de+données+complexes,+
Application+au+e‐Marketing++
!
1. Contexte
IVIDENCE, société spécialisée en e-Marketing, développe des stratégies de ciblage
Marketing relationnel baes sur l’e-Mailing. L’objectif étant de cibler le maximum de
clients potentiels avec le minimum de rejets au retour. Il s’agit d’une problématique
complexe qui est actuellement abordée par des approches classiques du marché,
qui sont basées au mieux sur le volume et sur un ciblage monocritère à base de
facteurs descriptifs (habituellement des caractéristiques démographiques, comme le
sexe et/ou l’âge pour ouvrir le canal Marketing).
Etant basé sur ce type de ciblage, IVIDENCE, envoie une quantité considérable d’e-
mails. Elle obtient au retour, des taux d’ouverture allant de 5% à 15% sur les bases
de données ‘actives’ (contenant des personnes ayant au moins ouvert un e-mail
durant les 3 derniers mois). Le taux de clic sur ces mes bases est de l’ordre de
1% et les taux de transformation approchent les 0.1% (une transformation signifie
une inscription ussie par l’internaute à un service de type ventes privées ou autre).
Cependant, les bases ‘inactives’ ont des taux d’ouverture beaucoup plus faibles
(~0.5%) mais sont beaucoup plus réactives (taux de clics de 0.2%).
Par ailleurs, l’inventaire, c'est-à-dire le nombre d’e-mails routables (« envoyables »)
par jour est fini. Chaque internaute ne peut recevoir plus de 1 à 5 e-mails par
semaine selon l’accord qu’il a don lors de la mise à disposition proactive de son
adresse e-mail (processus dit « opt-in » partenaire).
En outre, les données utilisées pour le ciblage marketing présentent plusieurs
problèmes de plusieurs natures: (1) une complexité due à la nature me des
dones (descriptives, comportementales, manquantes, etc.), (2) une variable à
expliquer (Client) partiellement active et (3) un aspect multimodal de cette dite-
variable (ouverture, clic ou transformation).
IVIDENCE a velop à cet effet des stratégies et solutions techniques destinées à
détecter des critères descriptifs, qui permettent de cibler les clients potentiels et d’y
identifier des profils similaires à des extraits d’une base de référence. Cependant,
passer de ces données brutes (détections simples) à la mise en évidence de
comportements de consommation de nature complexe, nécessitera des travaux en
apprentissage automatique et data mining.
Par conséquent, la problématique décrite ci-dessus s’inscrit dans le cadre de
l’apprentissage semi-supervisé des données complexes. Il s’agit d’un domaine peu
abordé dans la communauté d’apprentissage automatique. Il est donc opportun de
s’attaquer à ce genre de probme dans tous ses aspects de visualisation et de
classification avec des systèmes intelligibles et des architectures évolutives et
adaptables à ce type de données.
!
2!
2. Objectifs
L’objectif de cette thèse est de s’appuyer sur la masse de données récoltées pour
mettre en place dix à vingt catégories (par pays) représentant le comportement des
consommateurs. Ces catégories pouvant être d’abord molisées par différents
profils de clients. Ensuite, chaque profil doit être caractérisé par un sous-ensemble
de descripteurs pertinents permettant sa caractérisation et son interprétation
préalablement difficile à faire.
Dans le cadre de cette thèse nous proposons de développer des outils de data
mining à base de modèles d’apprentissage semi-supervisé génératif pour
l’exploration de grande masses de données complexes. Les techniques utilisées
actuellement dans le domaine, sont basées sur la propagation de l’information de la
supervision (variable à expliquer) ou sur l’intégration de contraintes dans un
processus non-supervisé. Les sultats obtenus par la mise en œuvre de ces outils
sont généralement de bonne qualité, mais présentent quelques limitations.
L'axe principal du travail scientifique sera donc autour de l’apprentissage semi-
supervisé, en exploitant à la fois, la structure géotrique offerte par la partie non-
labélisée et l’information offerte par les contraintes extraites par la partie labélisée.
L’objectif est d’offrir un système intelligible pour la découverte de profils de
consommation à partir de données complexes et hétérogènes, pour un meilleur
ciblage e-mailing. Il s’agit de traiter finement la population représentée par ces
données pour une interprétation pertinente et optimale.
3. Profil recherché
- Etudiant, niveau Bac +5, ingénieur ou Master en Informatique /
Statistiques/ Mathématiques appliquées
- Des connaissances en apprentissage statistique et data mining
- Programmation en Matlab, C/C++ ,
4. Contacts
Merci d’envoyer une lettre de motivation, un CV et éventuellement un
relevé de notes et une lettre de recommandation à :
- Khalid Benabdeslem, UniversiLyon1 GAMA, [email protected],
- Eric Didier, IVIDENCE, ed@ivicence.com
- Nicolas Gourdeau, IVIDENCE, [email protected]
1 / 2 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !