Statistiques et Sciences des Données

publicité
Statistiques et Sciences des Données
Journée Big Data, SPC
30 novembre 2015
Tableau général
I
Apport théorique et algorithmique des statistiques pour l'étude des grands jeux de
données
I
I
I
I
I
Nature interdisciplinaire par essence, besoin de travailler avec un spécialiste des
données
Thèmes actuels: biologie/médecine, astronomie, ville connectée, histoire, ...
Incorporation naturelle dans des demandes de nancement
Besoins indirects en infrastructure
Prise en compte des méthodes pour grands jeux de données dans les formations
I
I
DU Big Data à l'IUT Paris Descartes
Masters de Modélisation et Statistique de l'UFR Math-Info de Paris Descartes
Apprentissage statistique sur données de grande taille
Problématique : les données de grande taille obligent à adapter les méthodes pour
tenir en compte la complexité algorithmique.
Apprentissage statistique: I Classication supervisée
I Classication non supervisée
I Estimation de paramètres (modèle linéaire, points de
rupture, ...)
I Prédiction
Big Data: I Algorithmes linéaires ou quasi-linéaires
I Méthodes on-line
Exemple 1: Comparaison de graphes issus de métagénomique
Collaboration: Paris Diderot
(informatique) et
UPMC (biologie)
Type de données: Graphes de
comparaison de courtes
séquences, prélevés dans
des estomacs de lézards
de types diérents.
Taille des données: 10 GB, 1 million de graphes, 100-1000 sommets par graphe
Problème appliqué: Caractériser les graphes qui se ressemblent (ou pas) pour
comparer les bactéries présentes
Problème statistique: Classication d'un très grand nombre de données complexes
I Choix de résumés pertinents et rapides à déterminer pour les
objets à classer
I Classication ecace
Principal dé: Les algorithmes standards sont trop lents pour les données de
grande taille.
Apprentissage statistique en grande dimension (np)
Problématique : les données de grande dimension sont aujourd'hui omni-présentes
dans les domaines applicatifs mais leur traitement reste complexe.
Classication supervisée et non supervisée: I modèles Gaussiens HD pour le
clustering et la classication,
I clustering discriminatif permettant la visualisation des clusters,
Estimation de la dimension intrinsèque :
(PPCA),
I
dans le cas du modèle probabilistic PCA
Sélection de variables en clustering et régression: I clustering parcimonieux par
pénalisation `1 ,
I régression grande dimension sparse.
Exemple 2: Recherche de marqueurs génétiques sanguins pré-diagnostic
dans le cancer du sein
Collaboration: Université de Tromso (épidémiologie et informatique)
Type de données: Données RNA, miRNA, méthylation dans des cellules sanguines
avant le diagnostic du cancer du sain
Taille des données: Plusieurs dizaines de milliers de relevés dans quelques centaines
d'échantillons
Problème appliqué: Déterminer les gènes/miRNA/zones méthylées dont les
changements sont annonciateurs d'un diagnostic précis:
screening/clinique et local/métastasé
Problème statistique: I Sélection de variables
I Prédiction
Principal dé: Travailler en grande dimension: le nombre d'observations est bien
inférieur au nombre de paramètres à inférer.
Apprentissage statistique sur données atypiques
Problématique: les données modernes
sont de types variés
(réseaux, fonctions,
mixtes) et il est
nécessaire de proposer
des méthodes adaptées
à cette variété de types.
Classication dans les réseaux: I modèles supervisés et semi-supervisés d'espaces
latents,
I détection de communautés non observées dans des réseaux,
I comparaison de sous-réseaux grâce à leur structure en clusters,
Classication de données fonctionnelles: I modélisation et classication dans des
sous-espaces fonctionnels,
Classication de données hétérogènes: I modélisation par processus gaussiens
parcimonieux et estimation au travers de fonctions noyaux.
Exemple 3: Inférence et perturbation de réseaux de régulation
Collaboration: Institut Curie
(oncologie), Génopole
et Université de
Montpellier
(bioinformatique).
Type de données: Expression des
gènes/mutations/nombre
de copies de l'ADN dans
des cellules normales et
tumorales de la vessie
Condition 1
Condition 2
(1)
(1)
(1)
∈ Rp1
(X1 , . . . , Xn ), X
i
1
(2)
(2)
(2)
∈ Rp2
(X1 , . . . , Xn ), X
i
2
comparison
inference
comparison
Taille des données: Plusieurs dizaines de milliers de mesures dans quelques centaines
d'échantillons
Problème appliqué: Déterminer les gènes dont la régulation est problématique dans les
tumeurs et les régulateurs responsables
Problème statistique: I Inférer un réseau de référence dans les cellules normales
I Dénir un modèle de perturbation dans les cellules tumorales
Principal dé: Travailler en grande dimension, intégrer des données hétérogènes,
objet organisés en réseaux .
3
−3
−2
600
−1
800
1
2
3
−3
0
1
1000
AMRb: proportionsPopulation P
2
−1
0
1
2
3
10
10 15
−10
−30
−5
−15
3 −15
−2
AMRb (MSE= 45.212 )
0
−10
−20
−30
−40
−3
400
0
5
10
0
0.8
0.6
0.4
0.2
200
−1
AMRp (MSE= 26.442 )
Problématique : dans de nombreuses
situations pratiques, le
phénomène à modéliser
est évolutif (dans le
temps) ou son
observation est biaisée
(labels incertains).
0
−2
0
2
−40 −30 −20 −10
1
10
0
0
−1
MR (MSE= 3704.4 )
−20
−2
−40
−3
−40 −30
−40 −30
−40 −30
Apprentissage statistique adaptatif
−3
−5
−20
−15
010
115
Population
AMRb: parameter
space P*
2
3
−3
−2
−1
0
1
2
3
AMRb: MCMC results
Modèles adaptatifs en régression : I modèles paramétriques pour la régression
adaptative,
I modèle bayésien pour les mélanges de régressions adaptatives,
Classication supervisée avec labels incertains : I classication robuste par
mélange de mélanges,
I classication robuste par modèle d'espace latent,
Classication supervisée avec classes non observées :
classes de nouveautés.
I
méthodes de découverte de
Téléchargement