machine learning : enjeux et opportunités Pierre Gaillard – Inria Paris Paris Sciences & Data 2 février 2017 Note : présentation basée sur celle de Francis Bach pour le petit déjeuner de l’ENS (nov. 2016) 1 un nouveau contexte Machine Learning : « intelligence artificielle qui consiste à apprendre et modéliser un phénomène » Machine Learning ⊂ Statistiques + Informatique Big data / machine learning / data science / intelligence artificielle / deep learning, une révolution ? - progrès techniques : calcul, coûts de stockage 2 loi de moore 3 loi de moore 3 loi de moore Limites : – les débits ne suivent pas – miniaturisation Ý limites de la physique traditionnelle Ý physique quantique 3 un nouveau contexte Machine Learning : « intelligence artificielle qui consiste à apprendre et modéliser un phénomène » Machine Learning ⊂ Statistiques + Informatique Big data / machine learning / data science / intelligence artificielle / deep learning, une révolution ? - progrès techniques : calcul, coûts de stockage - de plus en plus de données : Volume, Variété, Vélocité, Véracité – IBM : 1018 bytes de données créés / jour — 90% ont moins de deux ans – Dans tous les domaines : sciences, industrie, vie personnelle – De toutes les formes : vidéo, texte, clics 4 énergie Des compteurs intelligents sont installés tous les foyers en France : - 35 millions de consommations individuelles - gros volume de données disponible en “temps réel” Comment tirer profit de toute cette informations ? - pour optimiser la production d’électricité - pour optimiser la consommation des particuliers en pilotant directement leur consommation. 5 publicité sur internet Des milliards de visiteurs visitent chaque jours des pages sur internet. Ý modèle économique grandement basé sur la publicité. Comment l’optimiser ? 6 photos personnelles Comment les trier ? Comment y faire des recherches en fonctions des objets, personnes, actions, interactions entre objets ? 7 climat – géoscience L’amélioration des outils de mesure permet de collecter en temps réel des données météorologiques à des mailles spatiales et temporelles de plus en plus fines. Ý mieux comprendre les interactions terre-océan, le changement climatique, la genèse des cyclones,… 8 nouveaux enjeux interdisciplinaires Recherche méthodologique nourrie par les autres disciplines - Bio-informatique, traitement du signal, … - Dégager des méthodes quantitatives communes Liens avec l’ industrie - Problème et éthique de l’accès aux données - Partenariats académie-industrie : doctorats,… Nouvelles expertises conjointes - Compétence mathématique avec pensée informatique - Compétence informatique avec formation mathématique 9 nouveaux enjeux scientifiques Comprendre théoriquement les méthodes qui fonctionnent très bien en pratique - Apprentissage profond - GANs : Generative Adversarial Networks Ý permettent de générer de nouvelles données Éviter l’aspect boîte noire et rendre les résultats interprétables. Passage à l’échelle des algorithmes 10 une évolution du contexte mais même solution… Années 1960 : ordinateurs trop peu puissants IBM 1620, 1960 Fréquence de processeur : 50 Hz Prix > $ 100 000 Aujourd’hui : trop de données Solution : un seul passage sur les données (Robin et Monro, 1956) ) Algorithme d’optimisation convexe : θn = θn−1 − γn ∂ℓ(yn , ⟨θn−1 , φ(xn )⟩ 11 toujours plus de données ? informatique distribué 12 nouveaux enjeux scientifiques Comprendre théoriquement les méthodes qui fonctionnent très bien en pratique - Apprentissage profond - GANs : Generative Adversarial Networks Ý permettent de générer de nouvelles données Éviter l’aspect boîte noire et rendre les résultats interprétables. Passage à l’échelle des algorithmes Ý informatique distribué S’adapter aux nouvelles données 13 des données de plus en plus grande Statistique classique : grand nombre n d’observation par rapport à d d n 14 des données de plus en plus grande Nouvelles données : nombre de variables explicatives d très grand aussi 14 des données de plus en plus grande Nouvelles données : nombre de variables explicatives d très grand aussi Exemple : genèse des cyclones 14 des données de plus en plus grande Nouvelles données : nombre de variables explicatives d très grand aussi Exemple : genèse des cyclones Ý Il faut faire des hypothèses de parcimonie : succès théoriques récents. 14 nouveaux enjeux scientifiques Comprendre théoriquement les méthodes qui fonctionnent très bien en pratique - Apprentissage profond - GANs : Generative Adversarial Networks Ý permettent de générer de nouvelles données Éviter l’aspect boîte noire et rendre les résultats interprétables. Passage à l’échelle des algorithmes Ý informatique distribué S’adapter aux nouvelles données Apprentissage non-supervisé encore très ouvert - Nombreuses applications : voitures autonomes, énergie,… 15 16