*2cmMachine Learning : enjeux et opportunités

publicité
machine learning : enjeux et opportunités
Pierre Gaillard – Inria Paris
Paris Sciences & Data
2 février 2017
Note : présentation basée sur celle de Francis Bach pour le petit déjeuner de l’ENS (nov. 2016)
1
un nouveau contexte
Machine Learning : « intelligence artificielle qui consiste à apprendre et modéliser un
phénomène »
Machine Learning ⊂ Statistiques + Informatique
Big data / machine learning / data science / intelligence artificielle / deep learning,
une révolution ?
- progrès techniques : calcul, coûts de stockage
2
loi de moore
3
loi de moore
3
loi de moore
Limites : – les débits ne suivent pas
– miniaturisation Ý limites de la physique traditionnelle Ý physique quantique
3
un nouveau contexte
Machine Learning : « intelligence artificielle qui consiste à apprendre et modéliser un
phénomène »
Machine Learning ⊂ Statistiques + Informatique
Big data / machine learning / data science / intelligence artificielle / deep learning,
une révolution ?
- progrès techniques : calcul, coûts de stockage
- de plus en plus de données : Volume, Variété, Vélocité, Véracité
– IBM : 1018 bytes de données créés / jour — 90% ont moins de deux ans
– Dans tous les domaines : sciences, industrie, vie personnelle
– De toutes les formes : vidéo, texte, clics
4
énergie
Des compteurs intelligents sont installés tous les foyers en France :
- 35 millions de consommations individuelles
- gros volume de données disponible en “temps réel”
Comment tirer profit de toute cette informations ?
- pour optimiser la production d’électricité
- pour optimiser la consommation des particuliers en pilotant directement leur
consommation.
5
publicité sur internet
Des milliards de visiteurs visitent chaque jours des pages sur internet.
Ý modèle économique grandement basé sur la publicité.
Comment l’optimiser ?
6
photos personnelles
Comment les trier ? Comment y faire des recherches en fonctions des objets,
personnes, actions, interactions entre objets ?
7
climat – géoscience
L’amélioration des outils de mesure permet de collecter en temps réel des données
météorologiques à des mailles spatiales et temporelles de plus en plus fines.
Ý mieux comprendre les interactions terre-océan, le changement climatique, la
genèse des cyclones,…
8
nouveaux enjeux interdisciplinaires
Recherche méthodologique nourrie par les autres disciplines
- Bio-informatique, traitement du signal, …
- Dégager des méthodes quantitatives communes
Liens avec l’ industrie
- Problème et éthique de l’accès aux données
- Partenariats académie-industrie : doctorats,…
Nouvelles expertises conjointes
- Compétence mathématique avec pensée informatique
- Compétence informatique avec formation mathématique
9
nouveaux enjeux scientifiques
Comprendre théoriquement les méthodes qui fonctionnent très bien en pratique
- Apprentissage profond
- GANs : Generative Adversarial Networks Ý permettent de générer de nouvelles
données
Éviter l’aspect boîte noire et rendre les résultats interprétables.
Passage à l’échelle des algorithmes
10
une évolution du contexte mais même solution…
Années 1960 : ordinateurs trop peu puissants
IBM 1620, 1960
Fréquence de processeur : 50 Hz
Prix > $ 100 000
Aujourd’hui : trop de données
Solution : un seul passage sur les données (Robin et Monro, 1956)
)
Algorithme d’optimisation convexe : θn = θn−1 − γn ∂ℓ(yn , ⟨θn−1 , φ(xn )⟩
11
toujours plus de données ? informatique distribué
12
nouveaux enjeux scientifiques
Comprendre théoriquement les méthodes qui fonctionnent très bien en pratique
- Apprentissage profond
- GANs : Generative Adversarial Networks Ý permettent de générer de nouvelles
données
Éviter l’aspect boîte noire et rendre les résultats interprétables.
Passage à l’échelle des algorithmes Ý informatique distribué
S’adapter aux nouvelles données
13
des données de plus en plus grande
Statistique classique : grand nombre n d’observation par rapport à d
d
n
14
des données de plus en plus grande
Nouvelles données : nombre de variables explicatives d très grand aussi
14
des données de plus en plus grande
Nouvelles données : nombre de variables explicatives d très grand aussi
Exemple : genèse des cyclones
14
des données de plus en plus grande
Nouvelles données : nombre de variables explicatives d très grand aussi
Exemple : genèse des cyclones
Ý Il faut faire des hypothèses de parcimonie : succès théoriques récents.
14
nouveaux enjeux scientifiques
Comprendre théoriquement les méthodes qui fonctionnent très bien en pratique
- Apprentissage profond
- GANs : Generative Adversarial Networks Ý permettent de générer de nouvelles
données
Éviter l’aspect boîte noire et rendre les résultats interprétables.
Passage à l’échelle des algorithmes Ý informatique distribué
S’adapter aux nouvelles données
Apprentissage non-supervisé encore très ouvert
- Nombreuses applications : voitures autonomes, énergie,…
15
16
Téléchargement