big data

publicité
Presenté par
François Laviolette
Jeudi 26 avril 2016
courriel: [email protected]
http://crdm.ulaval.ca/
www.ift.ulaval.ca
1
Qu’est-ce que le « Big Data » ?
• Qui a entendu le mot « Big Data » ?
• Qui en a entendu parler ?
• Qui a une petite idée de ce que c’est ?
• Qui sait ce que c’est ?
www.ift.ulaval.ca
2
Nous avons de plus en plus de façons nouvelles
d’aller chercher de plus en plus de données!!!
www.ift.ulaval.ca
3
Qu’est-ce que le « Big Data » ?
• D’abord, quel est le bon terme français?
• Les Français parlent de mégadonnées
• Nous avons choisi l’expression données massives,
entre autre parce que nous pensons que le Big Data
n’est pas qu’un problème de quantité.
www.ift.ulaval.ca
4
Les 4 V des données massives
• Volume
• Vélocité
• Variété
• Véracité
Lorsque nous sommes en présence d’un ou plusieurs de ces V,
Nous faisons face à un problème de données massives.
http://saisa.eu/blogs/Guidance/wp-content/uploads/2013/08/big-data-infographic.png
www.ift.ulaval.ca
5
Les défis du “Big Data” !
• Ainsi, les données massives forcent le développement de
nouvelles méthodes pour:
• entreposer et retrouver la donnée
• effectuer les analyses et autres calculs
• visualiser l’information
• réaliser les prises de décisions associées
www.ift.ulaval.ca
7
www.ift.ulaval.ca
8
Le paradigme Map-reduce
On ne peut plus centraliser les données !
www.ift.ulaval.ca
9
Si on souhaite chercher à valoriser les données en
situation « Big Data », en gros il y a deux cas
 Possible
• Le problème est bien défini: on sait ce qu’on cherche
Exemples:
o Netflix
o Geovoxel
o Watson
 Très difficile
• Il y a de l’information dans nos données,
- … On veut aller la chercher
- Quelle information au juste ?
- Toute l’information !!!!
- Oui, mais là …
www.ift.ulaval.ca
- …
10
10
Nonpeur
si: du grand frère de « Big Data » ?
Doit-on avoir
Réponse: oui, en fait pas vraiment plus qu’avant,
mais un peu quand même et finalement non si…
www.ift.ulaval.ca
12
En fait, on ne peut espérer une
confidentialité parfaite
• Le cas de Netflix
• Le cas Sweeney-2000
• Informations médicales sur 135 000
employés de l’état du Massachusetts.
• Version anonyme partagée pour la recherche.
• Aucune information personnelle, mais certaines caractéristiques
individuelles.
• À l’aide d’une liste des voteurs, Dr. Latyana Sweeney identifie William
Weld, alors gouverneur de l’état, et obtient donc accès à son historique
médical.
« According to the Cambridge Voter list, six people had his particular
birth date; only three of them were men; and, he was the only one in his
5-digit ZIP code." »
www.ift.ulaval.ca
13
En fait, on ne peut espérer une
confidentialité parfaite
•
a
• Mais renoncer aux données, c’est se couper de grandes
possibilités !
• On doit chercher un compromis entre la protection du
citoyen et l’intérêt collectif.
•
a
• On doit aussi avoir le réflexe de conserver nos données et
les voir comme « bien public »
• La SAAQ renonce à son projet « Ajusto »
• Les données des produits scannés en épicerie appartiennent à une
compagnie privée
www.ift.ulaval.ca
14
L’apprentissage automatique et les données massives
Le diagramme de Venn de Drew Conway sur le Big Data
www.ift.ulaval.ca
17
Apprentissage automatique 101
Field of study that gives computers the ability to learn without
being explicitly programmed.
-Arthur Samuel (1959)
Du point de vue de la problématique des données massives:
• Pour: les tâches d’étiquetages et de prédiction sont plus
faciles à implémenter
• Contre: la phase d’apprentissage difficilement compatible
avec le paradigme Map-Reduce
www.ift.ulaval.ca
18
L’apprentissage supervisé
(un exemple)
www.ift.ulaval.ca
19
L’apprentissage supervisé
Des Entrées d’entrainements
Généralement une entrée est encodée sous
Exemple
plus précis
forme d’un vecteur (x , x , … , x )
1
2
d
Le classement des Entrées
d’entrainements est
fait par un expert humain
www.ift.ulaval.ca
20
Les étiquettes (labels)
En apprentissage supervisé, les étiquettes peuvent être:
• {- , +}
(classification binaire)
• Un ensemble fini
(classification multi-classe)
• Un réel
(régression)
• Un objet complexe
(prédiction de structures)
www.ift.ulaval.ca
21
Que doit être la tâche d’apprentissage en pratique?
• Trouver un classificateur h qui fera le moins d’erreurs
possible sur les exemples qu’il aura à classer dans l’avenir
• Pour ce faire, l’algorithme doit chercher un classificateur qui
o fait peu d’erreurs sur l’ensemble d’entrainement
o sans pour autant sur-apprendre cet ensemble
• Le tout doit se calculer efficacement !!
www.ift.ulaval.ca
23
Exemple d’algorithme d’apprentissage:
les réseaux de neurones
NN find a new encoding of the data, a
more suitable representation for the task.
Recall: entries are encoded as a vector
(x1 , x2 , … , xd)
www.ift.ulaval.ca
24
Un réseau de Neurones apprend
une représentation des données
www.ift.ulaval.ca
25
Scene$Labeling$via$Deep$Learning$
L’étiquetage d’une scène par des réseaux profonds
[Farabet$et$al.$ICML$2012,$PAMI$2013]$
www.ift.ulaval.ca
[Farabet$et$al.$ICML$2012,$PAMI$2013]$
26
19$
Que fais-je, moi, avec des données ?
• Je suis le directeur du centre de recherche en
données massives de l’Université Laval
• Je développe de nouveaux algorithmes
d’apprentissage automatique
• J’applique ces algorithmes pour
www.ift.ulaval.ca
27
Le Centre de recherche
en donnée massive de l’Université Laval
• Premier centre de recherche sur le « Big Data »
au Québec et même au Canada
• 36 chercheurs
• 88 étudiants maîtrise et doctorat
• 4 facultés
(Sciences et Génie, Médecine, Foresterie, Sciences de l’Administration,
Possiblement aussi: sciences de l’agriculture et de l’alimentation)
• 11 départements
(Informatique, Mathématique, Génie informatique, Biochimie, Biologie,
Médecine, Médecine sociale et préventive, Génie industriel, Sciences
géomatiques, Opération et systèmes de décision)
• une coordonnatrice scientifique, Mme Lynda Robitaille
Courriel: [email protected]
• Site web: http://crdm.ulaval.ca/
www.ift.ulaval.ca
28
Programme de recherche
• Le centre est un développeur de méthodes et processus liés aux
données massives
• 3 thèmes
• Bio-informatique
• Traitement de données non
ou partiellement structurées
• Sécurité et confidentialité des données
www.ift.ulaval.ca
29
Pertinence du centre
• Chercheurs aux prises avec des avalanches de données de
moins en moins structurées
• Industrie qui réalise qu’il est important de savoir traiter et
analyser ces données.
• À titre d’exemples:
• En génomique : SNIP au lieu du génome complet.
• En foresterie : scan 3d de chaque tronc d’arbre abattu, effacés chaque jour!
• Donc, le centre est
• accompagnateur pour les projets de recherche à l’Université Laval
• porte d’entrée des compagnies qui veulent valoriser leurs données
www.ift.ulaval.ca
Que fais-je, moi, avec des données ?
• Mon groupe de recherche, le GRAAL,
développe de nouveaux algorithmes
d’apprentissage automatique
et les appliquent à l’analyse de données dans
différents champs de recherche
• J’applique ces algorithmes pour mieux
comprendre différents problèmes scientifiques
www.ift.ulaval.ca
31
L’algorithme DANN:
L’apprentissage par transfert
•
aussi connu comme domain adaptation, distribution drift, covariate
shift,…)
•
Quand l’étiquetage d’exemples d’entraînement pour chaque
tâche de prédiction est trop coûteuse
distribution
Distribution cible
Distribution source
Données
étiquetée
s
Données non
étiquetées
Données
étiquetée
s
Algo d’apprentissage
Exemple
non étiqueté
Prédicteur
Algo d’apprentissage
Prédiction
Le paradigme de
l’apprentissage supervisé
Exemple
non étiqueté
Prédicteur
Prédiction
Le paradigme de
l’apprentissage par transfert
www.ift.ulaval.ca
• Ceci ne fonctionne que si la tâche source (apprise) et la tâche
cible (à apprendre) sont similaires.
32
Exemples d’apprentissage par transfert
• Exemple 1:
• Source: données de santé collectées en Amérique du Nord
• Cible: données de santé collectées en Asie
• Exemple 2:
• Source: pointage automatique de livres basé sur des
commentaires de clients
• Cible: même type de donnée,s mais à propos de DVD (ou
des petits électro de cuisine)
www.ift.ulaval.ca
33
DANN, a neural network for transfer learning
FL et al.
FL et al.
www.ift.ulaval.ca
34
L’algorithme du SCM:
Un algo qui produit des classifieurs épars
• L’algorithme Set Covering Machine (SCM)
• cherche un classifieur avec un petit nombre de règles tout
en faisant peu d’erreurs sur l’ensemble d’apprentissage
• s’il en existe un qui est performant en entrainement, il
aura une bonne garantie de généralisation (c’est l’idée du
Rasoir d’Occam)
• Interprétable par l’humain
• Très rapide et bien adapté au Big Data
www.ift.ulaval.ca
35
Exemple d’un classifieur SCM
Mais l’agorithme de SCM cherche un classifieur épars !!!
-
-
-
+
+
-
-
-
+
+
-
+
++
+
+
-
+
-
-- -
-
-
www.ift.ulaval.ca
36
SCM pour données génomiques FL et al
• En quelques heures de calcul, nous avons trouvé des
mécanismes connus et validés de résistance aux
antibiotiques
www.ift.ulaval.ca
37
Nos algorithmes sont aussi utilisés pour
la découverte de médicaments
www.ift.ulaval.ca
38
www.ift.ulaval.ca
Téléchargement