Exploration de données scientifiques multi-échelles

Exploration de données

scientifiques multi-échelles

École thématique RISC-E, Nicolas Brodu, 11 octobre 2016

Données Scientifiques

Le Big Data en sciences ?

– Résolution et multiplicité des capteurs (e.g. images multispectrales)

– Volume d’images de grandes tailles (e.g. photos de manips)

– Nature des données multi-physique (e.g. ultrasons, voltage, photos, etc)

– Dimensionalité élevée (e.g. paramètres d’une simulation)

– Taille des enregistrements (e.g. séries mesurées sur plusieurs années)

Mesures

Modélisation

Prédictions

Validation

Conséquence : Diicile pour un humain « non aidé » de

percevoir des relations ou motifs récurrents dans les données,

de les modéliser, de tester des hypothèses, etc.

Pas seulement pour l’analyse de données : informatisation à tous les

niveaux de la boucle méthodologique

Données Scientifiques

Comparatif avec le “Big Data” commercial

Google / Facebook / Amazon / etc… Votre manip / terrain / mesures physio /…

Finalité = gagner des sous

– Données mesurées = toutes vos traces

– Modèles comportementaux

robustes ⇒ profilage utilisateur

– Demandes des investisseurs/clients

à prendre en compte

– Services rendus aractifs ⇒ publicité

Finalité = comprendre ce qui se passe

– Données mesurée selon hypothèses/modèle

ou question scientifique précise

– Connaissances disciplinaires à prendre en

compte:physique, biologie, etc.

– Faire mieux que l’état de l’art, dose d'inconnu

– Publications

Moyens disponibles

– Jeu d’entraînement, validation

«illimités»

– Puissance de calcul «illimitée»

Moyens disponibles

– Mesures de référence

= votre temps / argent du labo

– Votre laptop, un PC ou le cluster du labo

Objectifs très variés mais, de façon générale, il est utile de :

- Trouver les points intéressants (statistiques ≠ bruit de fond, anomalies ou pas)

- Aux échelles intéressantes (pas forcément celle d'acquisition)

- Et modéliser leur dynamique (diérents formalismes, pas tous appropriés)

Extraction de caractéristiques

Caractéristiques ?

– Espace de valeurs à fort potentiel, mesurées ou calculées sur les données brutes

– D’intérêt disciplinaire, souvent en lien avec une hypothèse / un modèle

– E.g.: Indice de végétation calculé à partir de bandes spectrales, tenseur des

contraintes calculé à partir de forces microscopiques, etc.

= Espace de recherche des points intéressants

En quoi des points sont-ils « intéressants » ?

– Critères statistiques :ce qui dière du reste (erreurs/outliers ? phénomène rare ?)

– Critères dynamiques : perturbation, changement d’aracteur

– Critères informatifs :points porteurs de l’information

Analyse guidée (proche de l’apprentissage supervisé)

– Partant d’exemples connus, on cherche des points similaires

Fouille exploratoire (proche de l’apprentissage non supervisé)

– Extraction automatique de groupes (clustering), de modèle de la dynamique, etc.

De diérentes natures

Données hétérogènes

Sources multiples, de natures diérentes

Échelles d’acquisition multiples

Sources multiples, de natures diérentes

Pas l’objet principal de cee présentation

En général, pour ces données, éviter les modèles linéaires (dont SVM simples):

a*x1 + b*x2 + c*x3 … ≷ seuil ? N'est généralement pas homogène !

Préférer par exemple les modèles ensemblistes, où chaque feature est traitée

séparément, puis les décisions sont combinées de façon probabiliste sur

l'ensemble des classificateurs (e.g. forêts d'arbres de décisions aléatoires).

Ou encore les méthodes "à noyau", où des fonctions projeent chaque feature

dans un espace de Hilbert, et où on peut travailler dans l'espace produit.

f(x1, ·) ⊗ f(x2, ·) ⊗ f(x3, ·) …

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

Exploration de données scientifiques multi-échelles

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Exploration de données scientifiques multi-échelles

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib