Extracting Knowledge from Economic Data - GIPSA-Lab

publicité
THESE
PhD POSITION
Date: 10/05/2017
DATE – Extracting Knowledge from Economic Data
Laboratoire de recherche: GIPSA-lab et PACTE, Grenoble, France
Collaboration possible avec IBM et Dataiku.
Coordonnateurs :
ROBU Bogdan, GIPSA-lab, +33 (0)4 76 82 64 23, [email protected]
JOB Louis, PACTE, [email protected]
LANDAU Ioan, GIPSA-lab, [email protected]
CONTEXTE : Dans le cadre du projet DATE, nous voulons travailler sur une Approche
par identification de systèmes et techniques adaptatives pour l’apprentissage et l’extraction
de la connaissance dans le domaine de l’économie.
Cette thèse est une collaboration entre le laboratoire PACTE (sciences économiques)
et le laboratoire GIPSA-lab (automatique).
Les automaticiens spécialistes en identification de systèmes et en régulation adaptative
s’intéressent depuis 50 ans aux techniques d’apprentissage en développant les concepts
et des algorithmes sophistiqués pour l’adaptation des modèles mathématiques par
apprentissage automatique. La méthodologie utilisée actuellement en fouille de
données (data mining) pour l’extraction des modèles prédictifs est très similaire (techniques
par apprentissage) aux techniques utilisées en identification des systèmes physiques mais
certains points n’ont pas la même maturité. L’objet du travail de thèse est donc de participer
à l’amélioration des techniques traditionnellement utilisées en data mining en s’inspirant de,
en adaptant et en développant des algorithmes (d’identification et/ou d’apprentissage) issus
des techniques de l’automatique. En particulier, dans le cadre des techniques adaptatives,
les aspects de choix de variables d’intérêt, d’ordre de modèle (complexité), de validation de
modèle (statistique) sont des éléments fondamentaux pour fournir de bons modèles de
prédiction, utilisables en temps réel.
DESCRIPTION et RESULTATS ESCOMPTES :
L’objet des travaux de recherche du chercheur doctorant est plus particulièrement de
reformuler le problème de fouille de données pour l’extraction de modèles de prédiction,
dans le domaine de l’économie, en un problème d’identification de système. Ce travail
nécessite d’abord de considérer et de comprendre quelques cas d’étude parmi les très
nombreux sujets d’intérêt:
a) l’analyse comparative entre plusieurs pays de l’influence des dépenses publiques et de
la dette publique sur l’évolution du PIB ;
b) l’analyse de l’influence potentielle de l’intégration des pays dans l’UE sur une
modification de la distribution statistique des revenus ;
c) l’analyse de la relation entre l’évolution de l’activité économique, l’utilisation de
ressources naturelles et les émissions polluantes.
A l’issue et /ou en parallèle à cette phase de compréhension de la problématique des cas
d’étude, la partie méthodologique consiste en le développement d’une nouvelle procédure
pour la fouille de données en introduisant des algorithmes nouveaux pour :
GIPSA-lab
Campus universitaire
961 rue de la Houille Blanche - BP46
F-38402 GRENOBLE Cedex
www.gipsa-lab.fr
UMR 5612
CNRS, Grenoble INP,
UJF, Stendhal
THESE
PhD POSITION





Le traitement du biais (composante à l’équilibre)
L’estimation de la complexité (ordre du modèle)
L’estimation des paramètres du modèle
La validation (statistique) du modèle
La fouille de données active (par excitation exogène du système)
Ces algorithmes seront ensuite évalués comparativement sur des bases de données
disponibles (benchmarking) de l’Insee, l’Eurostat, la Banque Mondiale, le FMI, le World
Wealth & Income Database en utilisant les algorithmes développées dans le cadre du projet
ainsi que les logiciels spécialisées existants comme IBM Watson Analytics1 et Dataiku2. En
fonction des résultats des améliorations sur la prédiction du logiciel Dataiku DSS pourrait
être envisagée dans le cadre de la collaboration.
KEYWORDS : adaptive modelling, applied economics, knowledge extraction,
machine learning.
BOURSE : OUI, bourse déjà acquise dans le cadre du projet IRS DATE.
INFORMATIONS : Le chercheur doctorant recruté travaillera en collaboration avec IBM
autour de leur produit IBM Watson Analytics ainsi qu’avec l’entreprise Dataiku.
DATE DE DEBUT DE LA THESE : septembre 2017
DATE LIMITE DE CANDIDATURE : 10.06.2017
PUBLICATIONS :
1. Abbas, M. &. (2012). L’OMC et le système commercial international.
Développements récents en Economie et Finances Internationales, A.Colin.
2. Åström, K. J. (1979). Adaptive Control. Report TFRT.
3. Bourbonnais, R. &. (2008). Analyse des séries temporelles. Dunod.
4. Han, J. a. (2011). Data mining: concepts and techniques. MA, USA: Elsevier.
5. Hastie, T., & al. (2009). The Elements of Statistical Learning, Data Mining, Inference,
and Prediction. Springer New York.
6. Job, L., & Asghari, M. (2008). Trade, Environmental Policy and Environmental
Quality. International Conference Cerdi. Clermont-Ferrand.
7. Landau, I., & al. (2011). Adaptive Control. Second edition, Springer.
8. Lardic, S., & Mignon, V. (2002). Econométrie des séries temporelles
macroéconomiques et financières. Economica.
9. Mitchell, T. M. (1997). Machine learning. Burr Ridge, IL: McGraw Hill.
10. Saridis, G. (1970). Learning Applied to Successive Approximation Algorithms. IEEE
Transactions on Systems Science and Cybernetics, Volume: 6, Issue: 2, 97-103.
11. Zhu, X., & Goldberg, B. A. (2009). Introduction to semi-supervised learning.
Synthesis lectures on artificial intelligence and machine learning, 1-130.
1
http://www.ibm.com/analytics/us/en/technology/advanced-analytics/#products
2
https://www.dataiku.com/
GIPSA-lab
Campus universitaire
961 rue de la Houille Blanche - BP46
F-38402 GRENOBLE Cedex
www.gipsa-lab.fr
UMR 5612
CNRS, Grenoble INP,
UJF, Stendhal
Téléchargement