Proposition de thèse CIFRE Apprentissage semi‐supervisé à partir de données complexes, Application au e‐Marketing 1. Contexte IVIDENCE, société spécialisée en e-Marketing, développe des stratégies de ciblage Marketing relationnel basées sur l’e-Mailing. L’objectif étant de cibler le maximum de clients potentiels avec le minimum de rejets au retour. Il s’agit d’une problématique complexe qui est actuellement abordée par des approches classiques du marché, qui sont basées – au mieux – sur le volume et sur un ciblage monocritère à base de facteurs descriptifs (habituellement des caractéristiques démographiques, comme le sexe et/ou l’âge pour ouvrir le canal Marketing). Etant basé sur ce type de ciblage, IVIDENCE, envoie une quantité considérable d’emails. Elle obtient au retour, des taux d’ouverture allant de 5% à 15% sur les bases de données ‘actives’ (contenant des personnes ayant au moins ouvert un e-mail durant les 3 derniers mois). Le taux de clic sur ces mêmes bases est de l’ordre de 1% et les taux de transformation approchent les 0.1% (une transformation signifie une inscription réussie par l’internaute à un service de type ventes privées ou autre). Cependant, les bases ‘inactives’ ont des taux d’ouverture beaucoup plus faibles (~0.5%) mais sont beaucoup plus réactives (taux de clics de 0.2%). Par ailleurs, l’inventaire, c'est-à-dire le nombre d’e-mails routables (« envoyables ») par jour est fini. Chaque internaute ne peut recevoir plus de 1 à 5 e-mails par semaine selon l’accord qu’il a donné lors de la mise à disposition proactive de son adresse e-mail (processus dit « opt-in » partenaire). En outre, les données utilisées pour le ciblage marketing présentent plusieurs problèmes de plusieurs natures: (1) une complexité due à la nature même des données (descriptives, comportementales, manquantes, etc.), (2) une variable à expliquer (Client) partiellement active et (3) un aspect multimodal de cette ditevariable (ouverture, clic ou transformation). IVIDENCE a développé à cet effet des stratégies et solutions techniques destinées à détecter des critères descriptifs, qui permettent de cibler les clients potentiels et d’y identifier des profils similaires à des extraits d’une base de référence. Cependant, passer de ces données brutes (détections simples) à la mise en évidence de comportements de consommation de nature complexe, nécessitera des travaux en apprentissage automatique et data mining. Par conséquent, la problématique décrite ci-dessus s’inscrit dans le cadre de l’apprentissage semi-supervisé des données complexes. Il s’agit d’un domaine peu abordé dans la communauté d’apprentissage automatique. Il est donc opportun de s’attaquer à ce genre de problème dans tous ses aspects de visualisation et de classification avec des systèmes intelligibles et des architectures évolutives et adaptables à ce type de données. 1 2. Objectifs L’objectif de cette thèse est de s’appuyer sur la masse de données récoltées pour mettre en place dix à vingt catégories (par pays) représentant le comportement des consommateurs. Ces catégories pouvant être d’abord modélisées par différents profils de clients. Ensuite, chaque profil doit être caractérisé par un sous-ensemble de descripteurs pertinents permettant sa caractérisation et son interprétation préalablement difficile à faire. Dans le cadre de cette thèse nous proposons de développer des outils de data mining à base de modèles d’apprentissage semi-supervisé génératif pour l’exploration de grande masses de données complexes. Les techniques utilisées actuellement dans le domaine, sont basées sur la propagation de l’information de la supervision (variable à expliquer) ou sur l’intégration de contraintes dans un processus non-supervisé. Les résultats obtenus par la mise en œuvre de ces outils sont généralement de bonne qualité, mais présentent quelques limitations. L'axe principal du travail scientifique sera donc autour de l’apprentissage semisupervisé, en exploitant à la fois, la structure géométrique offerte par la partie nonlabélisée et l’information offerte par les contraintes extraites par la partie labélisée. L’objectif est d’offrir un système intelligible pour la découverte de profils de consommation à partir de données complexes et hétérogènes, pour un meilleur ciblage e-mailing. Il s’agit de traiter finement la population représentée par ces données pour une interprétation pertinente et optimale. 3. Profil recherché - Etudiant, niveau Bac +5, ingénieur ou Master en Informatique / Statistiques/ M athématiques appliquées Des connaissances en apprentissage statistique et data mining Programmation en Matlab, C/C++ , … 4. Contacts M erci d’envoyer une lettre de motivation, un CV et éventuellement un relevé de notes et une lettre de recommandation à : - Khalid Benabdeslem, Université Lyon1 – GAMA, [email protected], - Eric Didier, IVIDENCE, [email protected] - Nicolas Gourdeau, IVIDENCE, [email protected] 2