- Bonne connaissance du Machine Learning et au minimum d`une

Téléchargement

Offre de stage à Total TRTG (Total Recherche et Technologie de Gonfreville )

en Big Data Machine Learning.

La branche Total Raffinage-Chimie (RC)

Issus de la transformation du pétrole brut, Total produit dans ses raffineries et ses usines

pétrochimiques, des carburants, des fiouls domestiques et marins, des lubrifiants, bitumes,

et de nombreux autres produits intermédiaires ainsi que des polymères utilisés dans la

fabrication des matières plastiques.

Partout dans le monde, nos équipes développent des procédés grâce à des techniques de

pointe, mises en œuvre dans nos sites de production. Avec 21 raffineries et 26 sites

pétrochimiques,

Total se positionne parmi les 10 premiers raffineurs et pétrochimistes mondiaux.

Le stage proposé se déroulerait dans un des Centres de Recherche RC du Groupe Total

situé à Gonfreville à proximité du Havre. Sa durée serait de 6 mois maximum.

Il se fera au sein du Service Mathématiques Appliquées et Statistiques sous la supervision et

l’encadrement du Dr Pierre Pestiaux en complément du support éventuel de l’école du

stagiaire.

Les premiers tests de Big Data Mining appliqué à la recherche des causes de

disfonctionnements industriels se sont avérés concluants. Ces tests exploitent des données

industrielles issues de capteurs et stockées sur dess serveurs appropriés.

Vu les volumes de données concernés et le caractère sensible du problème, la

compréhension et le choix des algorithmes est critique.

Profil idéal du candidat :

- Bonne connaissance du Machine Learning et au minimum d’une technique

de Random Forest.

- Pratique des langages R et Python.

- Bonnes notions de Big Data et Data Science et des environnements

associés comme Spark.

- Bonne pratique de l’anglais technique en compréhension et rédaction.

Sujet : Classification, Régression et remplacement des valeurs manquantes au moyen des

algorithmes de forêts aléatoires (Random Forest).

Contexte

Dans le domaine du Big Data, les volumes de données deviennent très importants, la nature

des données peut être variée et la vitesse de traitement peut être critique. Une famille de

traitements de données construit de manière combinatoire de grands nombres d’arbres

décisionnels qui sont consolidés pour donner le ou les meilleurs arbres permettant de

classer et prédire les données. L’algorithme le plus connu et fréquemment utilisé est celui de

Breiman. Malheureusement, il reste empirique et pourrait ne pas être le meilleur en termes

de performances et de robustesse.

Sujet proposé

Comparer la robustesse et les performances d’un choix d’algorithmes de forêts aléatoires à

la méthode de L. Breiman sur des données simulées et réelles.

Méthodologie envisagée

Se familiariser avec les références transmises et sélectionner quelques algorithmes open

source en R et/ou Python.

Générer les données simulées et mettre à disposition les données réelles.

Etablir les critères de comparaison et effectuer les tests.

Résultats attendus

Rapport final décrivant les différents algorithmes de la manière la plus compréhensible

possible, comparaison des résultats en robustesse et performances.

Recommandations et mise à disposition des algorithmes retenus avec guide d’utilisation.

Références

Breiman, L. (1996) Bagging predictors. Machine Learning, 24 (2):123–140, 1996.

Breiman., L. (2001) Random forests. Machine Learning, 45(1): 5–32, 2001.

Une note de synthèse en anglais comprenant de nombreuses références sera transmise au

candidat retenu.

1 / 2 100%

Documents connexes

Conférence-débat - Une éthique des algorithmes

Apprentissage Information Contenu

La fouille des règles d`association est un processus qui permet de

Comment répartir des points « uniformément » dans l`espace

Machine Learning

Intro Métaheuristiques

AZURE MACHINE LEARNING Analyse prédictive

Entreprise 29 - Offre 141

L`algorithme une aide à la compréhension de nouveaux concepts

Premiers algorithmes en géométrie. NIVEAU : secondes EXERCICE

stage_reco_2014

algorithmes-gs

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

- Bonne connaissance du Machine Learning et au minimum d`une

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

- Bonne connaissance du Machine Learning et au minimum d`une

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib