Statistiques et Sciences des Données Journée Big Data, SPC 30 novembre 2015 Tableau général I Apport théorique et algorithmique des statistiques pour l'étude des grands jeux de données I I I I I Nature interdisciplinaire par essence, besoin de travailler avec un spécialiste des données Thèmes actuels: biologie/médecine, astronomie, ville connectée, histoire, ... Incorporation naturelle dans des demandes de nancement Besoins indirects en infrastructure Prise en compte des méthodes pour grands jeux de données dans les formations I I DU Big Data à l'IUT Paris Descartes Masters de Modélisation et Statistique de l'UFR Math-Info de Paris Descartes Apprentissage statistique sur données de grande taille Problématique : les données de grande taille obligent à adapter les méthodes pour tenir en compte la complexité algorithmique. Apprentissage statistique: I Classication supervisée I Classication non supervisée I Estimation de paramètres (modèle linéaire, points de rupture, ...) I Prédiction Big Data: I Algorithmes linéaires ou quasi-linéaires I Méthodes on-line Exemple 1: Comparaison de graphes issus de métagénomique Collaboration: Paris Diderot (informatique) et UPMC (biologie) Type de données: Graphes de comparaison de courtes séquences, prélevés dans des estomacs de lézards de types diérents. Taille des données: 10 GB, 1 million de graphes, 100-1000 sommets par graphe Problème appliqué: Caractériser les graphes qui se ressemblent (ou pas) pour comparer les bactéries présentes Problème statistique: Classication d'un très grand nombre de données complexes I Choix de résumés pertinents et rapides à déterminer pour les objets à classer I Classication ecace Principal dé: Les algorithmes standards sont trop lents pour les données de grande taille. Apprentissage statistique en grande dimension (np) Problématique : les données de grande dimension sont aujourd'hui omni-présentes dans les domaines applicatifs mais leur traitement reste complexe. Classication supervisée et non supervisée: I modèles Gaussiens HD pour le clustering et la classication, I clustering discriminatif permettant la visualisation des clusters, Estimation de la dimension intrinsèque : (PPCA), I dans le cas du modèle probabilistic PCA Sélection de variables en clustering et régression: I clustering parcimonieux par pénalisation `1 , I régression grande dimension sparse. Exemple 2: Recherche de marqueurs génétiques sanguins pré-diagnostic dans le cancer du sein Collaboration: Université de Tromso (épidémiologie et informatique) Type de données: Données RNA, miRNA, méthylation dans des cellules sanguines avant le diagnostic du cancer du sain Taille des données: Plusieurs dizaines de milliers de relevés dans quelques centaines d'échantillons Problème appliqué: Déterminer les gènes/miRNA/zones méthylées dont les changements sont annonciateurs d'un diagnostic précis: screening/clinique et local/métastasé Problème statistique: I Sélection de variables I Prédiction Principal dé: Travailler en grande dimension: le nombre d'observations est bien inférieur au nombre de paramètres à inférer. Apprentissage statistique sur données atypiques Problématique: les données modernes sont de types variés (réseaux, fonctions, mixtes) et il est nécessaire de proposer des méthodes adaptées à cette variété de types. Classication dans les réseaux: I modèles supervisés et semi-supervisés d'espaces latents, I détection de communautés non observées dans des réseaux, I comparaison de sous-réseaux grâce à leur structure en clusters, Classication de données fonctionnelles: I modélisation et classication dans des sous-espaces fonctionnels, Classication de données hétérogènes: I modélisation par processus gaussiens parcimonieux et estimation au travers de fonctions noyaux. Exemple 3: Inférence et perturbation de réseaux de régulation Collaboration: Institut Curie (oncologie), Génopole et Université de Montpellier (bioinformatique). Type de données: Expression des gènes/mutations/nombre de copies de l'ADN dans des cellules normales et tumorales de la vessie Condition 1 Condition 2 (1) (1) (1) ∈ Rp1 (X1 , . . . , Xn ), X i 1 (2) (2) (2) ∈ Rp2 (X1 , . . . , Xn ), X i 2 comparison inference comparison Taille des données: Plusieurs dizaines de milliers de mesures dans quelques centaines d'échantillons Problème appliqué: Déterminer les gènes dont la régulation est problématique dans les tumeurs et les régulateurs responsables Problème statistique: I Inférer un réseau de référence dans les cellules normales I Dénir un modèle de perturbation dans les cellules tumorales Principal dé: Travailler en grande dimension, intégrer des données hétérogènes, objet organisés en réseaux . 3 −3 −2 600 −1 800 1 2 3 −3 0 1 1000 AMRb: proportionsPopulation P 2 −1 0 1 2 3 10 10 15 −10 −30 −5 −15 3 −15 −2 AMRb (MSE= 45.212 ) 0 −10 −20 −30 −40 −3 400 0 5 10 0 0.8 0.6 0.4 0.2 200 −1 AMRp (MSE= 26.442 ) Problématique : dans de nombreuses situations pratiques, le phénomène à modéliser est évolutif (dans le temps) ou son observation est biaisée (labels incertains). 0 −2 0 2 −40 −30 −20 −10 1 10 0 0 −1 MR (MSE= 3704.4 ) −20 −2 −40 −3 −40 −30 −40 −30 −40 −30 Apprentissage statistique adaptatif −3 −5 −20 −15 010 115 Population AMRb: parameter space P* 2 3 −3 −2 −1 0 1 2 3 AMRb: MCMC results Modèles adaptatifs en régression : I modèles paramétriques pour la régression adaptative, I modèle bayésien pour les mélanges de régressions adaptatives, Classication supervisée avec labels incertains : I classication robuste par mélange de mélanges, I classication robuste par modèle d'espace latent, Classication supervisée avec classes non observées : classes de nouveautés. I méthodes de découverte de