Big Data et analyse des données : une (petite) ( i ) introduction i d i Yves Gueniffey Ecole des Mines de Nancy Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 1 Comment la révolution sociale des données change (presque) tout d’après Andreas Weigend, Stanford (ex Amazon) Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 2 Construire des ordinateurs Janvier 2014 Big Data et Analyse des données - Yves Gueniffey Connecter des ordinateurs Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 1970’s 97 3 1980’s 9 4 Connecter des pages Janvier 2014 Big Data et Analyse des données - Yves Gueniffey Connecter des gens Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 1990’s 99 5 2000’s 6 Connecter des capteurs Janvier 2014 2010’s Big Data et Analyse des données - Yves Gueniffey 7 Le téléphone p mobile • Capte le contexte et la situation - Lumière, sons ambiants - Géo-localisation (lieu, mouvement) • Permet des interactions à la vitesse de la lumière • Janvier 2014 Micro-tâches Micro tâches (annotations) lié à une personne Big Data et Analyse des données - Yves Gueniffey 8 L’internet des objets j Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 9 L’internet des objets j Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 10 L’internet des objets j Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 11 L’internet des objets j Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 12 A la base ? Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 13 Création / Production de données La quantité de données que chaque personne produit double chaque 1,5 … 2 années 1 5 2 années • après cinq années x 10 • après dix années x 100 • après vingt è i années é x 10000 Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 14 g the “Surfing Tsunami” Science: 11 February 2011 Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 15 Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 16 Data Deluge Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 17 Qu’est-ce que le Data Mining? Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 18 Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 19 Des exemples… p Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 20 Qu’est-ce que le Data Mining? Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 21 Qu’est-ce que le Data Mining? Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 22 La montée du trading à haute fréquence (2008-2012) chaque jour de cotation (9:30-16:00), heure NY) est dessiné avec une couleur qui va du violet pour les données les plus anciennes au rouge pour les plus récentes. Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 23 Le "Flash Crash » : Un accident du trading hautes-fréquences Le 6 mai 2010, l’indice Dow Jones ((Industrial Average) g ) (DJIA) ( ) a chuté d’environ 600 points (5.7%), puis est revenu à son niveau « normal » (entre 14:42:46 et 14:47:02) Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 24 Inside Google’s Data Centers Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 25 Centre de traitement de Google d Th de The D Dalles ll en Oregon O Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 26 La logistique Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 27 La logistique Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 28 Risque : où sont vos données? Photo credits: Janvier 2014 Harvey Rutt http://www.ecs.soton.ac.uk/regenesis/pictures/ Big Data et Analyse des données - Yves Gueniffey 29 WIRED MAGAZINE: Issue 16.07 Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 30 Les paradigmes de la science (Jim Gray) Il y a 800 ans : la science était empirique elle décrivait les phénomènes naturels Il y a 500 ans : la science devient théorique généralisation à partir de modèles Il y a quelques dizaines d’années, introduction de l’informatique simulation des phénomènes complexes Aujourd’hui : exploration des données (eScience) théorie de ll’expérimentation Unification de la théorie, expérimentation et de la simulation avec l’exploration statistique des bases de données données en temps réel et distribuées en provenance de capteurs ou générées par simulation traitées par informatique Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 31 Q ’ Qu’est-ce que le l Data D Mining Mi i ? Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 32 Qu’est-ce Qu est-ce que le Data Mining ? Data mining (knowledge discovery in databases) : Autres noms : Janvier 2014 Extraction d’informations d informations intéressantes (non-triviales, non triviales implicites, inconnues auparavant et potentiellement utiles) ou de structures à partir des données contenues dans de grandes bases de données Data mining : fouille de données Knowledge discovery in databases (KDD), extraction de connaissances analyse des données connaissances, données, archéologie des données, moisson d’information, intelligence économique (business intelligence), etc. 33 Big Data et Analyse des données - Yves Gueniffey “Combien” d’information ? On pourra bientôt tout indexer et enregistrer L majeure La j partie ti d de cette tt information sera inconnue des humains Synthétiser les données, repérer des tendances détecter des anomalies sont donc des techniques essentielles Tout E Enregistré ité Zetta 21 Tous les livres MultiMédia Exa 18 Peta 15 Tous les livres (mots) .Film D’après Jim Gray et Gordon Bell Microsoft Research Photo 24 Yecto, 21 zepto, 18 atto, 15 femto, 12 pico, 9 nano, 6 micro, 3 milli Janvier 2014 Yotta 24 Livre Big Data et Analyse des données - Yves Gueniffey Tera 12 Giga 9 Mega 6 Kilo 3 34 Pourquoi fouiller les données ? Point de vue scientifique Les données sont collectées et enregistrées à des vitesses énormes (GB/h) Capteurs sur un satellite NASA EOSDIS archive plusieurs pétabytes de données géoscientifiques par an Télescopes observent les cieux Analyse du génôme simulations scientifiques térabytes de données générées en quelques heures Les techniques q traditionnelles d’analyse y sont impraticables Le Data mining peut aider les scientifiques À analyser automatiquement de grands ensembles de données À formuler des hypothèses Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 35 Pourquoi fouiller les données ? P i td Point de vue commercial i l Des monceaux de données sont saisis et stockés Données du Web achats en hyper/supermarchés Opérations bancaires Les ordinateurs L di t d deviennent i td de plus l en plus l puissants et de moins en moins chers La pression de la compétition est forte Fournir de meilleurs services à des tranches ciblées de clients (CRM, Customer Relationship M Management) ) Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 36 Détection des anomalies Repérer des activités significativement éloignées de la “normalité” normalité Applications: Détection des fraudes à la carte de crédit Détection des intrusions dans les réseaux Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 37 Big Data et Analyse des données - Yves Gueniffey 38 Couponing Janvier 2014 Data Mining : Un processus de dé découverte t d de connaissance i Evaluation des structures Data mining: le “noyau” du processus de découverte de la p connaissance Data Mining D Données é ““ciblées” iblé ” Entrepôt de données (Data Warehouse) Sélection Nettoyage Intégration des données Bases de données Janvier 2014 39 Big Data et Analyse des données - Yves Gueniffey Multidisciplinary Statistics Pattern Neurocomputing p g Recognition Machine Data Mining g Learning AI Databases KDD Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 40 Les méthodes de la statistique et d’analyse y des données sont au cœur du « moteur » du Data Mining Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 41 Analyse des données Une introduction D’après : Ludovic Lebart, Alain Morineau et Marie Piron. Statistique exploratoire multidimensionnelle. Dunod. Brigitte Escofier et Jérôme Pagès, Analyses factorielles simples et multiples. Dunod. Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 42 Q Quelles types yp de données pour p quels problèmes ? Quelques milliers de variables (p) Quelques millions d’individus ((n)) Janvier 2014 X Variables : (n p) (n, Données Nominales O Ordinales di l Discrètes Continues Ratios Big Data et Analyse des données - Yves Gueniffey 43 Analyse n-variée Données « Températures » ID bord bres cler gren lill lyon mars mont nant nice i pari renn stra tlse villes janvier fevrier mars avril mai juin juillet aout septembre octobre novembre decembre bordeaux 5,6 6,6 10,3 12,8 15,8 19,3 20,9 21 18,6 13,8 9,1 6,2 brest 6,1 5,8 7,8 9,2 11,6 14,4 15,6 16 14,7 12 9 7 clermont 2,6 3,7 7,5 10,3 13,8 17,3 19,4 19,1 16,2 11,2 6,6 3,6 grenoble 1,5 3,2 7,7 10,6 14,5 17,8 20,1 19,5 16,7 11,4 6,5 2,3 lille 2,4 2,9 6 8,9 12,4 15,3 17,1 17,1 14,7 10,4 6,1 3,5 lyon 2,1 3,3 7,7 10,9 14,9 18,5 20,7 20,1 16,9 11,4 6,7 3,1 marseille 5,5 6,6 10 13 16,8 20,8 23,3 22,8 19,9 15 10,2 6,9 montpellier 5,6 6,7 9,9 12,8 16,2 20,1 22,7 22,3 19,3 14,6 10 6,5 nantes 5 5,3 8,4 10,8 13,9 17,2 18,8 18,6 16,4 12,2 8,2 5,5 nice i 75 7,5 85 8,5 10 8 10,8 13 3 13,3 16 7 16,7 20 1 20,1 22 7 22,7 22 5 22,5 20 3 20,3 16 11 5 11,5 82 8,2 paris 3,4 4,1 7,6 10,7 14,3 17,5 19,1 18,7 16 11,4 7,1 4,3 rennes 4,8 5,3 7,9 10,1 13,1 16,2 17,9 17,8 15,7 11,6 7,8 5,4 strasbourg 0,4 1,5 5,6 9,8 14 17,2 19 18,3 15,1 9,5 4,9 1,3 toulouse 4,7 5,6 9,2 11,6 14,9 18,7 20,9 20,9 18,3 13,3 8,6 5,5 Le tableau donne les moyennes des températures mensuelles calculées sur 30 ans (entre 1931 et 1960) de 15 villes de France (extraites du Quid) Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 44 Description statistique ANALYSE EN COMPOSANTES PRINCIPALES STATISTIQUES SOMMAIRES DES VARIABLES CONTINUES EFFECTIF TOTAL : 15 POIDS TOTAL : 15.00 +-------------------------------------------------------+----------------------+----------------------+ | NUM . IDEN - LIBELLE EFFECTIF POIDS | MOYENNE ECART-TYPE | MINIMUM MAXIMUM | +-------------------------------------------------------+----------------------+----------------------+ | 1 . janv - janvier 15 15.00 | 3.97 1.94 | 0.40 7.50 | | 2 . fevr - fevrier 15 15.00 | 4.83 1.81 | 1.50 8.50 | | 3 . mars - mars 15 15.00 | 8.23 1.48 | 5.60 10.80 | | 4 . avri - avril 15 15.00 | 10.98 1.37 | 8.90 13.30 | | 5 . mai - mai 15 15.00 | 14.43 1.45 | 11.60 16.80 | | 6 . juin - juin 15 15.00 | 17.83 1.73 | 14.40 20.80 | | 7 . j juil - j juillet 15 15.00 | 19.83 2.06 | 15.60 23.30 | | 8 . aou - aout 15 15.00 | 19.57 1.94 | 16.00 22.80 | | 9 . sept - septembre 15 15.00 | 16.99 1.79 | 14.70 20.30 | | 10 . oct - octobre 15 15.00 | 12.32 1.77 | 9.50 16.00 | | 11 . nov - novembre 15 15.00 | 7.93 1.74 | 4.90 11.50 | | 12 . dec - decembre 15 15.00 | 4.85 1.89 | 1.30 8.20 | |-------------------------------------------------------|----------------------|----------------------- La matrice des corrélations MATRICE DES CORRELATIONS | janv fevr mars avri mai juin juil aou sept oct nov dec -----+-----------------------------------------------------------------------------------janv | 1.00 fevr | 0.97 1.00 mars | 0.84 0.93 1.00 avri | 0.61 0.76 0.92 1.00 mai | 0.36 0.55 0.77 0.95 1.00 juin | 0.34 0.52 0.76 0.94 0.99 1.00 juil | 0.30 0.49 0.72 0.91 0.98 0.99 1.00 aou | 0.41 0.59 0.80 0.95 0.98 0.99 0.99 1.00 sept | 0.60 0.76 0.91 0.98 0.94 0.94 0.93 0.97 1.00 oct | 0.85 0.94 0.97 0.91 0.77 0.76 0.74 0.81 0.93 1.00 nov | 0.95 0.99 0.93 0.78 0.59 0.57 0.55 0.64 0.80 0.96 1.00 dec | 0.99 0.97 0.83 0.62 0.38 0.36 0.32 0.43 0.62 0.87 0.96 1.00 -----+-----------------------------------------------------------------------------------| janv fevr mars avri mai juin juil aou sept oct nov dec Corrélation R significative au risque 5% si |R| > 2/ Janvier 2014 Big Data et Analyse des données - Yves Gueniffey n-3 45 Multidiagramme Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 46 Icon Plot (15villes 12v*15c) bordeaux brest clermont lyon marseille paris rennes Janvier 2014 grenoble lille montpellier nantes nice strasbourg toulouse vichy Clockwise: janvier fevrier mars avril mai juin j ill t juillet aout septembre octobre novembre decembre Big Data et Analyse des données - Yves Gueniffey 47 Icon Plot (15villes 12v*15c) bordeaux brest clermont grenoble lille lyon marseille montpellier nantes nice paris rennes strasbourg toulouse vichy Janvier 2014 Big Data et Analyse des données - Yves Gueniffey face/w = janvier ear/lev = fevrier halfface/h = mars upface/ecc = avril loface/ecc = mai nose/l = juin mouth/cent th/ t = juillet j ill t mouth/curv = aout mouth/l = septembre eyes/h y = octobre eyes/sep = novembre eyes/slant = decembre 48 http://www gapminder org/ http://www.gapminder.org/ Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 49 Analyse y multi-dimensionnelle de données On prend les variables « ensemble » DECRIRE Janvier 2014 Groupes homogènes d’individus Particularités Anomalies EXPLIQUER Sous-systèmes de variables Variables redondantes Facteurs (fonctions (f d des variables) synthétiques Big Data et Analyse des données - Yves Gueniffey 50 Espaces de représentation (1) Variables I n d i v i d u s X= (n p) Janvier 2014 j i x1 x1 x11 j p xi1 xnp xij xip xn1 xnj xnp 51 Big Data et Analyse des données - Yves Gueniffey Espaces de représentation (2) j X i x11 x1 j xi1 xnp xij xi x1 p p p Rp xi xij xip j xi1 xn1 Janvier 2014 xnj xnp 1 ESPACE DES INDIVIDUS 1 point=1 individu=1 ligne de X 1 axe=1 variable p axes, n points Big Data et Analyse des données - Yves Gueniffey 52 Espaces de représentation (3) j X i x11 xi1 x1 x1 j p xnp xij xip n xnj xj Rn xij i x1 j xn1 Janvier 2014 xnj xnp 1 ESPACE DES VARIABLES 1 point=1 variable=1 colonne de X 1 axe=1 individu n axes, p points Big Data et Analyse des données - Yves Gueniffey 53 D Deux ffamilles ill de d méthodes éth d (1) Configuration « invisible » Visualisation dans le meilleur espace réduit Méthodes « factorielles » Janvier 2014 Analyse en composantes principales Analyse factorielle des correspondances simples Analyse factorielle des correspondances multiples Big Data et Analyse des données - Yves Gueniffey 54 « Projeter sur un plan » Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 55 Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 56 Les Ambassadeurs de Hans Holbein ((1497 – 1543)) Janvier 2014 57 Big Data et Analyse des données - Yves Gueniffey Cercle des corrélations Mois d d’été été « climat continental » Nord « effet tqille » Sud Mois d’hiver « climat Janvier 2014 Big Data et Analyse des données - Yves Gueniffey océanique » 58 Plan factoriel 1-2 « continental » Nord Sud « océanique » Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 59 Deux familles de méthodes (2) Configuration « invisible » Classification dans ll’espace espace complet Janvier 2014 Classification hiérarchique Partition Big Data et Analyse des données - Yves Gueniffey 60 Classification hiérarchique Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 61 Plan factoriel 1-2 Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 62 « Philosophie Phil hi » de l’Analyse l Analyse de données « Consentir une perte d’information pour obtenir bt i un gain i de d signification i ifi ti » Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 63 LL’analyse analyse statistique (d’après Alain Morineau) Considérons la décomposition classique : DONNEE = STRUCTURE + RESIDU Janvier 2014 Pour la statistique classique (mathématique) c'est la partition de la variance en « variance expliquée » (par le modèle choisi) et la « variance résiduelle » Pour l'analyse des données : Pour les analyses factorielles : décomposition en « axes principaux » et « sous-espace sous espace résiduel » Pour la classification : décomposition de la variance en « variance intra-groupe » et « variance inter-groupe » Big Data et Analyse des données - Yves Gueniffey 64 DONNEE = STRUCTURE + RESIDU La STATISTIQUE (modélisante): Elle dirige Ell di i son microscope i sur la l partie ti RESIDU (la STRUCTURE est dans le modèle choisi) Janvier 2014 Régression Discriminante Analyse de variance… variance La statistique manipule l le l résidu é d qui est un élément élé « abstrait b » L'examen des résidus renseigne sur la qualité du modèle choisi Big Data et Analyse des données - Yves Gueniffey 65 DONNEE = STRUCTURE + RESIDU L'ANALYSE DES DONNEES (exploratoire) : Elle dirige son phare sur la partie STRUCTURE Analyse Anal se factorielle… facto ielle Classification, arbre de segmentation… L'analyse des données manipule les données elles-mêmes L'e men de la L'examen l structure t t ee estt à pe peu de chose ho e p près è l'e l'examen men de la donnée elle-même Exploration patiente et approfondie des grands tableaux « Individus x Variables » Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 66 Le Data mining On travaille sur de grosses bases de données amorphes et évolutives (capteurs + bases de données -> numérisation systématique de l’information) On utilise les méthodes : de l'analyse des données (orientées structures) de la statistique (orientées é modèles) è les techniques de l'Intelligence Artificielle (algorithmes) et les techniques informatiques d'accès aux bases de données. Le contexte est nouveau : On doit prendre en compte les contraintes liées au volume des données et donc des calculs l l Aller vite et être automatique (autant que possible) Les données ne sont jamais familières à l'utilisateur Les données ou les bases de données sont dispersées Les données sont non échantillonnées (souvent non échantillonnables) plus de 50% de données non numériques q Souvent p Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 67 Data Mining et éthique… Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 68 La NSA… Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 69 Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 70 Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 71 De nouveaux métiers Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 72 “Data is the new oil.” Andreas Weigend, Weigend Stanford (ex Amazon) “The future belongs to companies i and d people l that th t turn t data into products products” Mike Loukides, O’Reilly Media Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 73 “The The ability to take data to be able to understand it,, to process it, to extract value from it, to visualise it to communicate it it, that’s that s going to be a hugely important skill in the next decades.” Janvier 2014 Hal Varian, Chief Economist, Google Big Data et Analyse des données - Yves Gueniffey 74 Janvier 2014 Janvier 2014 Big Data et Analyse des données - Yves Gueniffey Big Data et Analyse des données - Yves Gueniffey 75 76 Janvier 2014 Big Data et Analyse des données - Yves Gueniffey 77