Data Science et Big data - Thierry Artières

publicité
Apprentissage Automatique, Big
Data et Data Science
Thierry Artières
T. Artières - LIF / AMU - Ecole Centrale
Marseille
Le machine learning : un paradigme
de programmation
Quel algorithme?
T. Artières - LIF / AMU - Ecole Centrale
Marseille
L’Apprentissage Automatique: un
paradigme de programmation
Quel algorithme?
[Farabet et al., IEEE PAMI, 2012]
T. Artières - LIF / AMU - Ecole Centrale
Marseille
L’Apprentissage Automatique: un
paradigme de programmation
Quel algorithme?
Epilepsie
/
Pas d’épilepsie
T. Artières - LIF / AMU - Ecole Centrale
Marseille
• Le cas Jeopardy : Jeu télévisé
– On nous donne une réponse, on doit trouver la
question
• Exemple de réponse : Stendhal
Question à trouver : Qui a écrit le Rouge et le Noir ?
• IBM DeepQA program (QA = Question Answering)
– A gagné à Jeopardy (2011)
– Peut être étendu à d’autres domaines
•
Domaine médical, juridique etc
L’Apprentissage Automatique
Adapté pour tout type de tâches de décision, de
prédiction
– Pour lesquelles on ne connait pas d’algorithme
– Pour lesquelles on ne veut pas passer par une étape de
formalisation
•
Champs d’applications
• Réflexion : Intelligence Artificielle et jeux
• Interprétation textuelle : Recherche d’information, résumé
automatique, traduction automatique, analyse de sentiment, analyse
de réputation
• Robotique et systèmes autonomes
• Taches perceptives : images, vidéos, parole, musique, gestes
• Recommandation et personnalisation
• Inférence sur des données relationnelles (sociales) et graphes, web
T. Artières - LIF / AMU - Ecole Centrale
advertising…
Marseille
Contexte de la société de l’information
Les Vs
La data-isation
Et puis?
T. Artières - LIF / AMU - Ecole Centrale
Marseille
Contexte de la société de l’information
Les Vs
L’or noir n’est qu’un
produit brut…
La data-isation
Et puis?
T. Artières - LIF / AMU - Ecole Centrale
Marseille
Contexte de la société de l’information
Les Vs
L’or noir n’est qu’un
produit brut…
La data-isation
Et puis?
Bienvenue dans la
data science !
T. Artières - LIF / AMU - Ecole Centrale
Marseille
L’Apprentissage Automatique et la
science des données
Informatique
Programmation Apprentissage
Automatique
Complexité
Bases de données
T. Artières - LIF / AMU - Ecole Centrale
Marseille
Fondamental
Mathématiques
Statistiques
L’Apprentissage Automatique et la
science des données
Informatique
Fondamental
Programmation
Complexité
Bases de données
Mathématiques
Statistiques
Data science
Hacking
Ingénierie des
données
Calcul GPU et //
Web
T. Artières - LIF / AMU - Ecole Centrale
Marseille
Applicatif
Expertise de
domaine
L’Apprentissage Automatique et la
science des données
Informatique
Fondamental
Programmation
Complexité
Bases de données
Mathématiques
Statistiques
Data science
Hacking
Raffiner l’or noir
Ingénierie des
données
Calcul GPU et //
Web
T. Artières - LIF / AMU - Ecole Centrale
Marseille
Applicatif
Expertise de
domaine
Kaggle
•
Site de rencontre entre
entreprises et datascientists
•
Gros succès en termes de
participation
•
Hétérogénéité des participants
•
Rendu possible par l’apparition
de nombreux toolkits de ML
gratuits (Weka, Scikit-learn) et
payants
•
Matthieu S. (UPMC 2013)
127th /219,547
T. Artières - LIF / AMU - Ecole Centrale
Marseille
Ce que le big data change (en AA)
Nombreux problèmes « tous les jours »
Nouvelles tâches à inventer
Changement profond dans la manière de résoudre
une tâche
• N=All
• Qualité variable et amoindrie des données
T. Artières - LIF / AMU - Ecole Centrale
Marseille
Ce que le big data change
Approche traditionnelle
Approche « Big Data »
Problème clairement identifié
Besoins multiples
Sélection limitée de données
représentatives
Collection la plus large de
données
Examen rendu aisé par la taille
limitée
Utilisation de méthodes
statistiques
Estimation d’un modèle
T. Artières - LIF / AMU - Ecole Centrale
Marseille
L’exemple des réseaux de neurones
• 1980-1990 : Vague des RNs
– Irrigue tous les domaines de la Reconnaissance Des Formes
• 2005-Aujourd’hui : Renouveau / Apprentissage profond
– Algorithmes (modérément) nouveaux
– Usage massif de données d’entrainement
Avancées majeures sur divers problèmes réels durs
(Vision, Parole, Texte)
T. Artières - LIF / AMU - Ecole Centrale
Marseille
L’exemple de la Traduction
Automatique
• 1990
– IBM fait une avancée majeure
• La traduction vue comme un TRES gros problème statistique
– Espace |Phrases en Anglais| -> |Phrases en Français|
• Ressources importantes (transcriptions parlement canadien
Fr/En) mais limitées : Millions de documents
• 2000
– Google
• Énorme corpus
– Milliards de documents
– diverses qualités plus ou moins alignés
• Cela fonctionne beaucoup mieux
T. Artières - LIF / AMU - Ecole Centrale
Marseille
Téléchargement