- Bonne connaissance du Machine Learning et au minimum d`une

Offre de stage à Total TRTG (Total Recherche et Technologie de Gonfreville )
en Big Data Machine Learning.
La branche Total Raffinage-Chimie (RC)
Issus de la transformation du pétrole brut, Total produit dans ses raffineries et ses usines
pétrochimiques, des carburants, des fiouls domestiques et marins, des lubrifiants, bitumes,
et de nombreux autres produits intermédiaires ainsi que des polymères utilisés dans la
fabrication des matières plastiques.
Partout dans le monde, nos équipes développent des procédés grâce à des techniques de
pointe, mises en œuvre dans nos sites de production. Avec 21 raffineries et 26 sites
pétrochimiques,
Total se positionne parmi les 10 premiers raffineurs et pétrochimistes mondiaux.
Le stage proposé se déroulerait dans un des Centres de Recherche RC du Groupe Total
situé à Gonfreville à proximité du Havre. Sa durée serait de 6 mois maximum.
Il se fera au sein du Service Mathématiques Appliquées et Statistiques sous la supervision et
l’encadrement du Dr Pierre Pestiaux en complément du support éventuel de l’école du
stagiaire.
Les premiers tests de Big Data Mining appliqué à la recherche des causes de
disfonctionnements industriels se sont avérés concluants. Ces tests exploitent des données
industrielles issues de capteurs et stockées sur dess serveurs appropriés.
Vu les volumes de données concernés et le caractère sensible du problème, la
compréhension et le choix des algorithmes est critique.
Profil idéal du candidat :
-
Bonne connaissance du Machine Learning et au minimum d’une technique
de Random Forest.
Pratique des langages R et Python.
Bonnes notions de Big Data et Data Science et des environnements
associés comme Spark.
Bonne pratique de l’anglais technique en compréhension et rédaction.
Sujet : Classification, Régression et remplacement des valeurs manquantes au moyen des
algorithmes de forêts aléatoires (Random Forest).
Contexte
Dans le domaine du Big Data, les volumes de données deviennent très importants, la nature
des données peut être variée et la vitesse de traitement peut être critique. Une famille de
traitements de données construit de manière combinatoire de grands nombres d’arbres
décisionnels qui sont consolidés pour donner le ou les meilleurs arbres permettant de
classer et prédire les données. L’algorithme le plus connu et fréquemment utilisé est celui de
Breiman. Malheureusement, il reste empirique et pourrait ne pas être le meilleur en termes
de performances et de robustesse.
Sujet proposé
Comparer la robustesse et les performances d’un choix d’algorithmes de forêts aléatoires à
la méthode de L. Breiman sur des données simulées et réelles.
Méthodologie envisagée
Se familiariser avec les références transmises et sélectionner quelques algorithmes open
source en R et/ou Python.
Générer les données simulées et mettre à disposition les données réelles.
Etablir les critères de comparaison et effectuer les tests.
Résultats attendus
Rapport final décrivant les différents algorithmes de la manière la plus compréhensible
possible, comparaison des résultats en robustesse et performances.
Recommandations et mise à disposition des algorithmes retenus avec guide d’utilisation.
Références
Breiman, L. (1996) Bagging predictors. Machine Learning, 24 (2):123–140, 1996.
Breiman., L. (2001) Random forests. Machine Learning, 45(1): 5–32, 2001.
Une note de synthèse en anglais comprenant de nombreuses références sera transmise au
candidat retenu.