Lien vers la présentation

publicité
ACCUEIL
CYBERSÉCURITÉ
ASSOCIATION
COBIT5®
PUBLICATIONS
EMPLOIS
MON COMPTE
Les données
massives (ou « Big Data »)
Opportunités et risques liés au « Big Data »
et
un de ses outils de prédilection
l’apprentissage automatique (ou « Machine Learning »)
8 Décembre 2015
7 CPE
Université Laval, Pavillon Desjardins, Cercle, 4ième étage 2325, Rue de l'Université, Québec, (Québec) G1K 7P4
Description de l’événement
Cette journée a pour objectif de vous faire découvrir l’univers passionnant du « Big Data » et des aspects prédictifs que l’on peut en tirer. Ce sera l’occasion de
voir des utilisations concrètes qui en sont déjà faites ainsi que le potentiel pour vos organisations. Nous verrons également que le recours au Big Data présente
son lot de défis et de risques. Ainsi vous serez en mesure d’apprécier les impacts sur nos domaines d’expertise que sont la gouvernance des TI, la gestion des
risques, la gestion de la sécurité et l’audit des systèmes d’information.
Presenté par
François Laviolette
Programme
Conférencier
Organisation
Sujet
Heure de début
Durée
Mot de bienvenue et introduction à la journée
8h30
10 min
Mardi 8 décembre 2015
David Henrard
email: [email protected]
À venir
http://crdm.ulaval.ca/
Notion de Big Data et son exploitation
www.ift.ulaval.ca
8h40
30 min
La confidentialité des données statistiques
9h10
40 min
Anne­Sophie Charest
1
Le Centre de recherche
en donnée massive de l’université Laval
• Premier centre de recherche sur le « Big Data » au Québec et
même au Canada
• 36 chercheurs
• 4 facultés
(Sciences et Génie, Médecine, Foresterie, Sciences de l’Administration, sciences de
l’agriculture et de l’alimentation)
• 11 départements
(Informatique, Mathématique, Génie informatique, Biochimie, Biologie,
Médecine, Médecine sociale et préventive, Génie industriel, Sciences géomatiques, Opération et
systèmes de décision)
• une coordonnatrice scientifique, Mme Lynda Robitaille
Courriel: [email protected]
• Site web: http://crdm.ulaval.ca/
www.ift.ulaval.ca
3
Programme de recherche
• Le centre est un développeur de méthodes et processus liés aux
données massives
• 3 thèmes
• Bio-informatique
• Traitement de données non
ou partiellement structurées
• Sécurité et confidentialité des données
www.ift.ulaval.ca
4
Qu’est-ce que le « Big Data » ?
• D’abord, quel est le bon terme Français?
• Les Français parlent de mégadonnées
• Nous avons choisi l’expression données massives,
entre autre parce que nous pensons que le Big Data
n’est pas qu’un problème de quantité.
www.ift.ulaval.ca
5
Les 4 V des données massives
• Volume
• Vélocité
• Variété
• Véracité
Lorsque nous sommes en présence d’un ou plusieurs de ces V,
Nous faisons face à un problème de données massives.
http://saisa.eu/blogs/Guidance/wp-content/uploads/2013/08/big-data-infographic.png
www.ift.ulaval.ca
6
Nous avons de plus en plus de facons nouvelles
d’aller chercher de plus en plus de données!!!
www.ift.ulaval.ca
9
Si on souhaite chercher à valoriser la donnée en
situation « Big Data », en gros il y a deux cas
 Possible
• Le problème est bien défini (on sait ce qu’on cherche
Exemples:
o Netflix
o Geovoxel
o Watson
 Très difficile
• Il y a de l’information dans nos données,
- … On veut aller la chercher
- Quelle information au juste ?
- Toute l’information !!!!
- Oui, mais là …
www.ift.ulaval.ca
- …
11
11
Les défis du “Big Data” !
• Les données massives forcent le développement de
nouvelles méthodes pour:
• entreposer et retrouver la donnée
• effectuer les analyses et autres calculs
• Visualiser l’information
• réaliser les prises de décisions associées
Pour tout ceci:
L’apprentissage automatique
(« Machine Learning ») est
un outils de prédilection !
www.ift.ulaval.ca
13
www.ift.ulaval.ca
15
L’apprentissage automatique et les données massives
The Drew Conway Venn’s diagram about Big Data
www.ift.ulaval.ca
17
Apprentissage automatique 101
Field of study that gives computers the ability to learn without
being explicitly programmed.
-Arthur Samuel (1959)
Du point de vue de la problématique des données massives:
•
Pour: les tâches d’étiquetages et de prédiction
sont plus facile à implémenter
•
Contre: la phase d’apprentissage difficilement compatible
avec le paradigme Map-Reduce
www.ift.ulaval.ca
19
Le paradigme Map-reduce
www.ift.ulaval.ca
21
Les principaux paradigmes de l’apprentissage automatique
• Apprentissage supervisé
– on a: des données d’entrainement comprenant leurs
étiquettes associées
• Apprentissage non supervisé
– on: des données d’entrainement mais pas leurs étiquettes
associées
• Apprentissage semi-supervisé
– on a: des données d’entrainement dont une partie seulement
ont leurs étiquettes associées
• Apprentissage par renforcement
– apprentissage à partir d’expériences qui résultent par
l’attribution ou non de récompenses
www.ift.ulaval.ca
23
L’apprentissage supervisé
(un exemple)
www.ift.ulaval.ca
25
L’apprentissage supervisé
Des Entrées d’entrainements
Généralement une entrée est encodée sous
Exemple
plus précis
forme d’un vecteur (x , x , … , x )
1
2
d
Le classement des Entrées
d’entrainements est
fait par un expert humain
www.ift.ulaval.ca
26
Les étiquettes (labels)
En Apprentissage supervisé, les étiquettes peuvent être:
• {- , +}
(classification binaire)
• Un ensemble fini
• Un réel
(classification multi-classe)
(régression)
• Un objet complexe
(prédiction de structures)
www.ift.ulaval.ca
29
Que doit être la tâche d’apprentissage en pratique?
•
Essayer de trouver un classificateur h qui fera le moins d’erreurs possible
sur les exemples qu’il aura à classer dans l’avenir
•
Pour ce
o
o
o
•
faire, l’algorithme doit chercher un classificateur qui
fait peu d’erreurs sur l’ensemble d’entrainement
sans pour autant sur-apprendre cet ensemble
On doit donc minimiser une fonction objective qui minimise un
compromis entre
 le taux d’erreur en entrainement et
 une fonction de « régularisation »
Le tout doit se calculer efficacement !!
www.ift.ulaval.ca
32
Exemple d’algorithme d’apprentissage:
1.- les réseaux de neuronnes
www.ift.ulaval.ca
35
Un réseau de Neurones apprend
une représentation des données
www.ift.ulaval.ca
38
Scene$Labeling$via$Deep$Learning$
L’étiquetage d’une scène par des réseaux profonds
[Farabet$et$al.$ICML$2012,$PAMI$2013]$
www.ift.ulaval.ca
[Farabet$et$al.$ICML$2012,$PAMI$2013]$
39
19$
Exemple d’algorithme d’apprentissage:
2.- les méthodes à noyaux (le SVM)
• On cherche un classificateur h qui est un séparateur linéaire dans
un espace vectoriel de très haute dimension.
o Ainsi, il peut s’exprimer comme h(x)= sgn(w  x)
• De plus on cherche le séparateur linéaire de marge maximal
o ce qui a un effet de régularisation
w
x
www.ift.ulaval.ca
40
Exemple d’algorithme d’apprentissage:
3.- les algorithmes parcimonieux (ex.: le SCM)
• L’algorithme « Set Covering Machine » (SCM)
• Cherche un classificateur qui soit une conjonction (ou une
disjonction) de règles simples
• Cette conjonction doit être la plus petite possible tout en ne
faisant pas trop d’erreurs sur l’ensemble d’entrainement
www.ift.ulaval.ca
44
Exemple d’algorithme d’apprentissage:
3.- les algorithmes parcimonieux (ex.: le SCM)
Mais le SCM cherche la parcimonie !!!
+
+
Si on peut trouver un classificateur parcimonieux
qui fasse peu d’erreurs d’entrainement:
• Bonne garanties de généralisation
(effet de régularisation) - • Donne un classificateur interprétable
- par l’humain
• L’algorithme est très rapide et bien
- adapté-au contexte « Big Data »
-
+
+
-
+
++
+
+
-
+
-- -
-
-
www.ift.ulaval.ca
46
Exemple d’algorithme d’apprentissage:
4.- les méthodes d’ensembles (les votes de majorités)
• Nous avons plusieurs classificateurs (appelé les « weak learners »)
qui ont déjà été entrainés
• Chacun d’eux ayant possiblement été entrainé
o Sur une portion des données seulement ou
o Par un algorithme très rapide, mais peu fiable
• On intègre tous ces classificateurs en un seul par vote de majorité
• Exemples: Adaboost, Forests aléatoires, MinCq, …
www.ift.ulaval.ca
• C’est une solution possible au problème de compatibilité « machine
Learning—Map Reduce) sauf que…
48
www.ift.ulaval.ca
Téléchargement