THESE PhD POSITION Date: 10/05/2017 DATE – Extracting Knowledge from Economic Data Laboratoire de recherche: GIPSA-lab et PACTE, Grenoble, France Collaboration possible avec IBM et Dataiku. Coordonnateurs : ROBU Bogdan, GIPSA-lab, +33 (0)4 76 82 64 23, [email protected] JOB Louis, PACTE, [email protected] LANDAU Ioan, GIPSA-lab, [email protected] CONTEXTE : Dans le cadre du projet DATE, nous voulons travailler sur une Approche par identification de systèmes et techniques adaptatives pour l’apprentissage et l’extraction de la connaissance dans le domaine de l’économie. Cette thèse est une collaboration entre le laboratoire PACTE (sciences économiques) et le laboratoire GIPSA-lab (automatique). Les automaticiens spécialistes en identification de systèmes et en régulation adaptative s’intéressent depuis 50 ans aux techniques d’apprentissage en développant les concepts et des algorithmes sophistiqués pour l’adaptation des modèles mathématiques par apprentissage automatique. La méthodologie utilisée actuellement en fouille de données (data mining) pour l’extraction des modèles prédictifs est très similaire (techniques par apprentissage) aux techniques utilisées en identification des systèmes physiques mais certains points n’ont pas la même maturité. L’objet du travail de thèse est donc de participer à l’amélioration des techniques traditionnellement utilisées en data mining en s’inspirant de, en adaptant et en développant des algorithmes (d’identification et/ou d’apprentissage) issus des techniques de l’automatique. En particulier, dans le cadre des techniques adaptatives, les aspects de choix de variables d’intérêt, d’ordre de modèle (complexité), de validation de modèle (statistique) sont des éléments fondamentaux pour fournir de bons modèles de prédiction, utilisables en temps réel. DESCRIPTION et RESULTATS ESCOMPTES : L’objet des travaux de recherche du chercheur doctorant est plus particulièrement de reformuler le problème de fouille de données pour l’extraction de modèles de prédiction, dans le domaine de l’économie, en un problème d’identification de système. Ce travail nécessite d’abord de considérer et de comprendre quelques cas d’étude parmi les très nombreux sujets d’intérêt: a) l’analyse comparative entre plusieurs pays de l’influence des dépenses publiques et de la dette publique sur l’évolution du PIB ; b) l’analyse de l’influence potentielle de l’intégration des pays dans l’UE sur une modification de la distribution statistique des revenus ; c) l’analyse de la relation entre l’évolution de l’activité économique, l’utilisation de ressources naturelles et les émissions polluantes. A l’issue et /ou en parallèle à cette phase de compréhension de la problématique des cas d’étude, la partie méthodologique consiste en le développement d’une nouvelle procédure pour la fouille de données en introduisant des algorithmes nouveaux pour : GIPSA-lab Campus universitaire 961 rue de la Houille Blanche - BP46 F-38402 GRENOBLE Cedex www.gipsa-lab.fr UMR 5612 CNRS, Grenoble INP, UJF, Stendhal THESE PhD POSITION Le traitement du biais (composante à l’équilibre) L’estimation de la complexité (ordre du modèle) L’estimation des paramètres du modèle La validation (statistique) du modèle La fouille de données active (par excitation exogène du système) Ces algorithmes seront ensuite évalués comparativement sur des bases de données disponibles (benchmarking) de l’Insee, l’Eurostat, la Banque Mondiale, le FMI, le World Wealth & Income Database en utilisant les algorithmes développées dans le cadre du projet ainsi que les logiciels spécialisées existants comme IBM Watson Analytics1 et Dataiku2. En fonction des résultats des améliorations sur la prédiction du logiciel Dataiku DSS pourrait être envisagée dans le cadre de la collaboration. KEYWORDS : adaptive modelling, applied economics, knowledge extraction, machine learning. BOURSE : OUI, bourse déjà acquise dans le cadre du projet IRS DATE. INFORMATIONS : Le chercheur doctorant recruté travaillera en collaboration avec IBM autour de leur produit IBM Watson Analytics ainsi qu’avec l’entreprise Dataiku. DATE DE DEBUT DE LA THESE : septembre 2017 DATE LIMITE DE CANDIDATURE : 10.06.2017 PUBLICATIONS : 1. Abbas, M. &. (2012). L’OMC et le système commercial international. Développements récents en Economie et Finances Internationales, A.Colin. 2. Åström, K. J. (1979). Adaptive Control. Report TFRT. 3. Bourbonnais, R. &. (2008). Analyse des séries temporelles. Dunod. 4. Han, J. a. (2011). Data mining: concepts and techniques. MA, USA: Elsevier. 5. Hastie, T., & al. (2009). The Elements of Statistical Learning, Data Mining, Inference, and Prediction. Springer New York. 6. Job, L., & Asghari, M. (2008). Trade, Environmental Policy and Environmental Quality. International Conference Cerdi. Clermont-Ferrand. 7. Landau, I., & al. (2011). Adaptive Control. Second edition, Springer. 8. Lardic, S., & Mignon, V. (2002). Econométrie des séries temporelles macroéconomiques et financières. Economica. 9. Mitchell, T. M. (1997). Machine learning. Burr Ridge, IL: McGraw Hill. 10. Saridis, G. (1970). Learning Applied to Successive Approximation Algorithms. IEEE Transactions on Systems Science and Cybernetics, Volume: 6, Issue: 2, 97-103. 11. Zhu, X., & Goldberg, B. A. (2009). Introduction to semi-supervised learning. Synthesis lectures on artificial intelligence and machine learning, 1-130. 1 http://www.ibm.com/analytics/us/en/technology/advanced-analytics/#products 2 https://www.dataiku.com/ GIPSA-lab Campus universitaire 961 rue de la Houille Blanche - BP46 F-38402 GRENOBLE Cedex www.gipsa-lab.fr UMR 5612 CNRS, Grenoble INP, UJF, Stendhal