Presenté par François Laviolette Jeudi 26 avril 2016 courriel: [email protected] http://crdm.ulaval.ca/ www.ift.ulaval.ca 1 Qu’est-ce que le « Big Data » ? • Qui a entendu le mot « Big Data » ? • Qui en a entendu parler ? • Qui a une petite idée de ce que c’est ? • Qui sait ce que c’est ? www.ift.ulaval.ca 2 Nous avons de plus en plus de façons nouvelles d’aller chercher de plus en plus de données!!! www.ift.ulaval.ca 3 Qu’est-ce que le « Big Data » ? • D’abord, quel est le bon terme français? • Les Français parlent de mégadonnées • Nous avons choisi l’expression données massives, entre autre parce que nous pensons que le Big Data n’est pas qu’un problème de quantité. www.ift.ulaval.ca 4 Les 4 V des données massives • Volume • Vélocité • Variété • Véracité Lorsque nous sommes en présence d’un ou plusieurs de ces V, Nous faisons face à un problème de données massives. http://saisa.eu/blogs/Guidance/wp-content/uploads/2013/08/big-data-infographic.png www.ift.ulaval.ca 5 Les défis du “Big Data” ! • Ainsi, les données massives forcent le développement de nouvelles méthodes pour: • entreposer et retrouver la donnée • effectuer les analyses et autres calculs • visualiser l’information • réaliser les prises de décisions associées www.ift.ulaval.ca 7 www.ift.ulaval.ca 8 Le paradigme Map-reduce On ne peut plus centraliser les données ! www.ift.ulaval.ca 9 Si on souhaite chercher à valoriser les données en situation « Big Data », en gros il y a deux cas Possible • Le problème est bien défini: on sait ce qu’on cherche Exemples: o Netflix o Geovoxel o Watson Très difficile • Il y a de l’information dans nos données, - … On veut aller la chercher - Quelle information au juste ? - Toute l’information !!!! - Oui, mais là … www.ift.ulaval.ca - … 10 10 Nonpeur si: du grand frère de « Big Data » ? Doit-on avoir Réponse: oui, en fait pas vraiment plus qu’avant, mais un peu quand même et finalement non si… www.ift.ulaval.ca 12 En fait, on ne peut espérer une confidentialité parfaite • Le cas de Netflix • Le cas Sweeney-2000 • Informations médicales sur 135 000 employés de l’état du Massachusetts. • Version anonyme partagée pour la recherche. • Aucune information personnelle, mais certaines caractéristiques individuelles. • À l’aide d’une liste des voteurs, Dr. Latyana Sweeney identifie William Weld, alors gouverneur de l’état, et obtient donc accès à son historique médical. « According to the Cambridge Voter list, six people had his particular birth date; only three of them were men; and, he was the only one in his 5-digit ZIP code." » www.ift.ulaval.ca 13 En fait, on ne peut espérer une confidentialité parfaite • a • Mais renoncer aux données, c’est se couper de grandes possibilités ! • On doit chercher un compromis entre la protection du citoyen et l’intérêt collectif. • a • On doit aussi avoir le réflexe de conserver nos données et les voir comme « bien public » • La SAAQ renonce à son projet « Ajusto » • Les données des produits scannés en épicerie appartiennent à une compagnie privée www.ift.ulaval.ca 14 L’apprentissage automatique et les données massives Le diagramme de Venn de Drew Conway sur le Big Data www.ift.ulaval.ca 17 Apprentissage automatique 101 Field of study that gives computers the ability to learn without being explicitly programmed. -Arthur Samuel (1959) Du point de vue de la problématique des données massives: • Pour: les tâches d’étiquetages et de prédiction sont plus faciles à implémenter • Contre: la phase d’apprentissage difficilement compatible avec le paradigme Map-Reduce www.ift.ulaval.ca 18 L’apprentissage supervisé (un exemple) www.ift.ulaval.ca 19 L’apprentissage supervisé Des Entrées d’entrainements Généralement une entrée est encodée sous Exemple plus précis forme d’un vecteur (x , x , … , x ) 1 2 d Le classement des Entrées d’entrainements est fait par un expert humain www.ift.ulaval.ca 20 Les étiquettes (labels) En apprentissage supervisé, les étiquettes peuvent être: • {- , +} (classification binaire) • Un ensemble fini (classification multi-classe) • Un réel (régression) • Un objet complexe (prédiction de structures) www.ift.ulaval.ca 21 Que doit être la tâche d’apprentissage en pratique? • Trouver un classificateur h qui fera le moins d’erreurs possible sur les exemples qu’il aura à classer dans l’avenir • Pour ce faire, l’algorithme doit chercher un classificateur qui o fait peu d’erreurs sur l’ensemble d’entrainement o sans pour autant sur-apprendre cet ensemble • Le tout doit se calculer efficacement !! www.ift.ulaval.ca 23 Exemple d’algorithme d’apprentissage: les réseaux de neurones NN find a new encoding of the data, a more suitable representation for the task. Recall: entries are encoded as a vector (x1 , x2 , … , xd) www.ift.ulaval.ca 24 Un réseau de Neurones apprend une représentation des données www.ift.ulaval.ca 25 Scene$Labeling$via$Deep$Learning$ L’étiquetage d’une scène par des réseaux profonds [Farabet$et$al.$ICML$2012,$PAMI$2013]$ www.ift.ulaval.ca [Farabet$et$al.$ICML$2012,$PAMI$2013]$ 26 19$ Que fais-je, moi, avec des données ? • Je suis le directeur du centre de recherche en données massives de l’Université Laval • Je développe de nouveaux algorithmes d’apprentissage automatique • J’applique ces algorithmes pour www.ift.ulaval.ca 27 Le Centre de recherche en donnée massive de l’Université Laval • Premier centre de recherche sur le « Big Data » au Québec et même au Canada • 36 chercheurs • 88 étudiants maîtrise et doctorat • 4 facultés (Sciences et Génie, Médecine, Foresterie, Sciences de l’Administration, Possiblement aussi: sciences de l’agriculture et de l’alimentation) • 11 départements (Informatique, Mathématique, Génie informatique, Biochimie, Biologie, Médecine, Médecine sociale et préventive, Génie industriel, Sciences géomatiques, Opération et systèmes de décision) • une coordonnatrice scientifique, Mme Lynda Robitaille Courriel: [email protected] • Site web: http://crdm.ulaval.ca/ www.ift.ulaval.ca 28 Programme de recherche • Le centre est un développeur de méthodes et processus liés aux données massives • 3 thèmes • Bio-informatique • Traitement de données non ou partiellement structurées • Sécurité et confidentialité des données www.ift.ulaval.ca 29 Pertinence du centre • Chercheurs aux prises avec des avalanches de données de moins en moins structurées • Industrie qui réalise qu’il est important de savoir traiter et analyser ces données. • À titre d’exemples: • En génomique : SNIP au lieu du génome complet. • En foresterie : scan 3d de chaque tronc d’arbre abattu, effacés chaque jour! • Donc, le centre est • accompagnateur pour les projets de recherche à l’Université Laval • porte d’entrée des compagnies qui veulent valoriser leurs données www.ift.ulaval.ca Que fais-je, moi, avec des données ? • Mon groupe de recherche, le GRAAL, développe de nouveaux algorithmes d’apprentissage automatique et les appliquent à l’analyse de données dans différents champs de recherche • J’applique ces algorithmes pour mieux comprendre différents problèmes scientifiques www.ift.ulaval.ca 31 L’algorithme DANN: L’apprentissage par transfert • aussi connu comme domain adaptation, distribution drift, covariate shift,…) • Quand l’étiquetage d’exemples d’entraînement pour chaque tâche de prédiction est trop coûteuse distribution Distribution cible Distribution source Données étiquetée s Données non étiquetées Données étiquetée s Algo d’apprentissage Exemple non étiqueté Prédicteur Algo d’apprentissage Prédiction Le paradigme de l’apprentissage supervisé Exemple non étiqueté Prédicteur Prédiction Le paradigme de l’apprentissage par transfert www.ift.ulaval.ca • Ceci ne fonctionne que si la tâche source (apprise) et la tâche cible (à apprendre) sont similaires. 32 Exemples d’apprentissage par transfert • Exemple 1: • Source: données de santé collectées en Amérique du Nord • Cible: données de santé collectées en Asie • Exemple 2: • Source: pointage automatique de livres basé sur des commentaires de clients • Cible: même type de donnée,s mais à propos de DVD (ou des petits électro de cuisine) www.ift.ulaval.ca 33 DANN, a neural network for transfer learning FL et al. FL et al. www.ift.ulaval.ca 34 L’algorithme du SCM: Un algo qui produit des classifieurs épars • L’algorithme Set Covering Machine (SCM) • cherche un classifieur avec un petit nombre de règles tout en faisant peu d’erreurs sur l’ensemble d’apprentissage • s’il en existe un qui est performant en entrainement, il aura une bonne garantie de généralisation (c’est l’idée du Rasoir d’Occam) • Interprétable par l’humain • Très rapide et bien adapté au Big Data www.ift.ulaval.ca 35 Exemple d’un classifieur SCM Mais l’agorithme de SCM cherche un classifieur épars !!! - - - + + - - - + + - + ++ + + - + - -- - - - www.ift.ulaval.ca 36 SCM pour données génomiques FL et al • En quelques heures de calcul, nous avons trouvé des mécanismes connus et validés de résistance aux antibiotiques www.ift.ulaval.ca 37 Nos algorithmes sont aussi utilisés pour la découverte de médicaments www.ift.ulaval.ca 38 www.ift.ulaval.ca