ACCUEIL CYBERSÉCURITÉ ASSOCIATION COBIT5® PUBLICATIONS EMPLOIS MON COMPTE Les données massives (ou « Big Data ») Opportunités et risques liés au « Big Data » et un de ses outils de prédilection l’apprentissage automatique (ou « Machine Learning ») 8 Décembre 2015 7 CPE Université Laval, Pavillon Desjardins, Cercle, 4ième étage 2325, Rue de l'Université, Québec, (Québec) G1K 7P4 Description de l’événement Cette journée a pour objectif de vous faire découvrir l’univers passionnant du « Big Data » et des aspects prédictifs que l’on peut en tirer. Ce sera l’occasion de voir des utilisations concrètes qui en sont déjà faites ainsi que le potentiel pour vos organisations. Nous verrons également que le recours au Big Data présente son lot de défis et de risques. Ainsi vous serez en mesure d’apprécier les impacts sur nos domaines d’expertise que sont la gouvernance des TI, la gestion des risques, la gestion de la sécurité et l’audit des systèmes d’information. Presenté par François Laviolette Programme Conférencier Organisation Sujet Heure de début Durée Mot de bienvenue et introduction à la journée 8h30 10 min Mardi 8 décembre 2015 David Henrard email: [email protected] À venir http://crdm.ulaval.ca/ Notion de Big Data et son exploitation www.ift.ulaval.ca 8h40 30 min La confidentialité des données statistiques 9h10 40 min Anne­Sophie Charest 1 Le Centre de recherche en donnée massive de l’université Laval • Premier centre de recherche sur le « Big Data » au Québec et même au Canada • 36 chercheurs • 4 facultés (Sciences et Génie, Médecine, Foresterie, Sciences de l’Administration, sciences de l’agriculture et de l’alimentation) • 11 départements (Informatique, Mathématique, Génie informatique, Biochimie, Biologie, Médecine, Médecine sociale et préventive, Génie industriel, Sciences géomatiques, Opération et systèmes de décision) • une coordonnatrice scientifique, Mme Lynda Robitaille Courriel: [email protected] • Site web: http://crdm.ulaval.ca/ www.ift.ulaval.ca 3 Programme de recherche • Le centre est un développeur de méthodes et processus liés aux données massives • 3 thèmes • Bio-informatique • Traitement de données non ou partiellement structurées • Sécurité et confidentialité des données www.ift.ulaval.ca 4 Qu’est-ce que le « Big Data » ? • D’abord, quel est le bon terme Français? • Les Français parlent de mégadonnées • Nous avons choisi l’expression données massives, entre autre parce que nous pensons que le Big Data n’est pas qu’un problème de quantité. www.ift.ulaval.ca 5 Les 4 V des données massives • Volume • Vélocité • Variété • Véracité Lorsque nous sommes en présence d’un ou plusieurs de ces V, Nous faisons face à un problème de données massives. http://saisa.eu/blogs/Guidance/wp-content/uploads/2013/08/big-data-infographic.png www.ift.ulaval.ca 6 Nous avons de plus en plus de facons nouvelles d’aller chercher de plus en plus de données!!! www.ift.ulaval.ca 9 Si on souhaite chercher à valoriser la donnée en situation « Big Data », en gros il y a deux cas Possible • Le problème est bien défini (on sait ce qu’on cherche Exemples: o Netflix o Geovoxel o Watson Très difficile • Il y a de l’information dans nos données, - … On veut aller la chercher - Quelle information au juste ? - Toute l’information !!!! - Oui, mais là … www.ift.ulaval.ca - … 11 11 Les défis du “Big Data” ! • Les données massives forcent le développement de nouvelles méthodes pour: • entreposer et retrouver la donnée • effectuer les analyses et autres calculs • Visualiser l’information • réaliser les prises de décisions associées Pour tout ceci: L’apprentissage automatique (« Machine Learning ») est un outils de prédilection ! www.ift.ulaval.ca 13 www.ift.ulaval.ca 15 L’apprentissage automatique et les données massives The Drew Conway Venn’s diagram about Big Data www.ift.ulaval.ca 17 Apprentissage automatique 101 Field of study that gives computers the ability to learn without being explicitly programmed. -Arthur Samuel (1959) Du point de vue de la problématique des données massives: • Pour: les tâches d’étiquetages et de prédiction sont plus facile à implémenter • Contre: la phase d’apprentissage difficilement compatible avec le paradigme Map-Reduce www.ift.ulaval.ca 19 Le paradigme Map-reduce www.ift.ulaval.ca 21 Les principaux paradigmes de l’apprentissage automatique • Apprentissage supervisé – on a: des données d’entrainement comprenant leurs étiquettes associées • Apprentissage non supervisé – on: des données d’entrainement mais pas leurs étiquettes associées • Apprentissage semi-supervisé – on a: des données d’entrainement dont une partie seulement ont leurs étiquettes associées • Apprentissage par renforcement – apprentissage à partir d’expériences qui résultent par l’attribution ou non de récompenses www.ift.ulaval.ca 23 L’apprentissage supervisé (un exemple) www.ift.ulaval.ca 25 L’apprentissage supervisé Des Entrées d’entrainements Généralement une entrée est encodée sous Exemple plus précis forme d’un vecteur (x , x , … , x ) 1 2 d Le classement des Entrées d’entrainements est fait par un expert humain www.ift.ulaval.ca 26 Les étiquettes (labels) En Apprentissage supervisé, les étiquettes peuvent être: • {- , +} (classification binaire) • Un ensemble fini • Un réel (classification multi-classe) (régression) • Un objet complexe (prédiction de structures) www.ift.ulaval.ca 29 Que doit être la tâche d’apprentissage en pratique? • Essayer de trouver un classificateur h qui fera le moins d’erreurs possible sur les exemples qu’il aura à classer dans l’avenir • Pour ce o o o • faire, l’algorithme doit chercher un classificateur qui fait peu d’erreurs sur l’ensemble d’entrainement sans pour autant sur-apprendre cet ensemble On doit donc minimiser une fonction objective qui minimise un compromis entre le taux d’erreur en entrainement et une fonction de « régularisation » Le tout doit se calculer efficacement !! www.ift.ulaval.ca 32 Exemple d’algorithme d’apprentissage: 1.- les réseaux de neuronnes www.ift.ulaval.ca 35 Un réseau de Neurones apprend une représentation des données www.ift.ulaval.ca 38 Scene$Labeling$via$Deep$Learning$ L’étiquetage d’une scène par des réseaux profonds [Farabet$et$al.$ICML$2012,$PAMI$2013]$ www.ift.ulaval.ca [Farabet$et$al.$ICML$2012,$PAMI$2013]$ 39 19$ Exemple d’algorithme d’apprentissage: 2.- les méthodes à noyaux (le SVM) • On cherche un classificateur h qui est un séparateur linéaire dans un espace vectoriel de très haute dimension. o Ainsi, il peut s’exprimer comme h(x)= sgn(w x) • De plus on cherche le séparateur linéaire de marge maximal o ce qui a un effet de régularisation w x www.ift.ulaval.ca 40 Exemple d’algorithme d’apprentissage: 3.- les algorithmes parcimonieux (ex.: le SCM) • L’algorithme « Set Covering Machine » (SCM) • Cherche un classificateur qui soit une conjonction (ou une disjonction) de règles simples • Cette conjonction doit être la plus petite possible tout en ne faisant pas trop d’erreurs sur l’ensemble d’entrainement www.ift.ulaval.ca 44 Exemple d’algorithme d’apprentissage: 3.- les algorithmes parcimonieux (ex.: le SCM) Mais le SCM cherche la parcimonie !!! + + Si on peut trouver un classificateur parcimonieux qui fasse peu d’erreurs d’entrainement: • Bonne garanties de généralisation (effet de régularisation) - • Donne un classificateur interprétable - par l’humain • L’algorithme est très rapide et bien - adapté-au contexte « Big Data » - + + - + ++ + + - + -- - - - www.ift.ulaval.ca 46 Exemple d’algorithme d’apprentissage: 4.- les méthodes d’ensembles (les votes de majorités) • Nous avons plusieurs classificateurs (appelé les « weak learners ») qui ont déjà été entrainés • Chacun d’eux ayant possiblement été entrainé o Sur une portion des données seulement ou o Par un algorithme très rapide, mais peu fiable • On intègre tous ces classificateurs en un seul par vote de majorité • Exemples: Adaboost, Forests aléatoires, MinCq, … www.ift.ulaval.ca • C’est une solution possible au problème de compatibilité « machine Learning—Map Reduce) sauf que… 48 www.ift.ulaval.ca