Analyse des données

publicité
Traitement et analyse de données biologiques
Objectifs
-
Redonner le sens pratique à des étudiants gavés de théorie (« je connais mais ne
sais pas l’appliquer »); c’est pourquoi cette UE est très accèe sur la pratique.
-
Savoir se débrouiller seul (passer à la pratique, repérer la situation, travailler vite
et bien). Etre capable d’analyser ses propres données expérimentales, de
production ou de marketing (contexte stage, labo, bureau d’étude, entreprise, …)
-
Parler un langage de base en statistique (et éviter les excès : « l’inférence de
l’inféron ») permettant de faire appel aux spécialistes lorsque cela est nécessaire
-
Ne pas confondre bioinformatique et biostatistique!
-
Essayer de mieux décrypter notre monde
-
Prendre des responsabilités (et des risques mesurés)
-
En faire profiter le CV
1
Traitement et analyse de données biologiques
Plan de travail
- Traitement et analyse de données, le contexte spécifique de la biologie
(Tout ce que vous avez toujours voulu savoir sur les Biostats, le Big Data,
les Data Scientist et autres mots sympathiques)
- L’essentiel sur les statistiques descriptives
- Les graphiques de qualité professionnelle
- Analyse univariée
- Analyse multivariée : analyse factorielle, régression linéaire et ANOVA
Et nous disposons de seulement 25 heures pour tout cela !
2
Traitement et analyse de données biologiques
Méthode de travail
Nous allons travailler (si possible) en salle de la façon suivante :
Travail en groupe
-
Analyse et résolution d’un problème en utilisant les fiches de cours
(qui peuvent être données en live au tableau)
-
Travailler par groupe de 3 étudiants avec 2 ordinateurs, un pour la
recherche (utiliser internet et forum) l’autre pour le calcul
-
Résoudre une problématique et rendre 1 fiche d’analyse en fin de séance
-
Quizz intervenant n’importe quand (y répondre le plus vite possible)
Salle informatique
-
Logiciels à disposition
-
Site web de soutien (et vidéos de résumé ?)
Synthèses
-
Débriefing
-
Corrections faites par l’enseignant
3
Statistique / Analyse des données
-
Rapide historique
Statistique provient du latin status signifiant état.
Depuis les temps les plus reculés (Babylone, Égypte, Chine, Grèce,
Rome,…), les États voulaient disposer d'informations sur leurs sujets
(recensements de population) et sur les ressources qu'ils produisaient ou les
biens possédaient (cf rouleaux de papyrus, colonne ou tablettes d’argile au
musée du Louvre). Les statistiques étaient alors purement descriptives.
A partir du 17ème siècle s'est développé le calcul des probabilités et des
méthodes statistiques sont apparues en Allemagne, en Angleterre et en
France. De nombreux scientifiques y ont apporté leur contribution, dont vous
avez surement entendu parler : Pascal, Bernoulli, Moivre, Laplace, Gauss,
Mendel, Pearson, Fischer, Student, Wilcoxon, …
L’une des missions assignées aux premiers ordinateurs (années 1950) étaient
de faciliter le recensement de la population américaine…
Il n’est actuellement pas un domaine ou une discipline, scientifique ou non, qui
puisse se passer de l’outil statistique. Où nous mènera le Big Data?
4
Univac - 1951
Système de Gestion de Base de Données (SGBD)
Quelques définitions
- Une base de données c’est essentiellement une collection structurée
d’informations non nécessairement du même type (format)
- Une base de données est usuellement localisée en un seul lieu et un seul
support (dupliqué en fait) qui est généralement informatique (numérique)
- Pièce centrale des dispositifs informatiques qui servent à la collecte, le
stockage et l’utilisation des informations
- SGBDR, acronyme de Système de Gestion de Base de Données
Relationnelles : logiciel moteur qui pilote la base et en permet la
manipulation et l’exploitation (interrogation).
- Toutes les secondes le volume d’information ne cesse d’augmenter
contribuant au Big Data. Mais sans analyse et sans base de données
(contribuant à préparer les données à leur analyse), le Big Data n’est rien.
BIG DATA
Définition
Ensembles de données tellement volumineux qu'ils deviennent difficiles à manipuler et à analyser
avec des outils classiques de gestion de base de données ou de gestion de l'information. L’outil
statistique doit être repensé pour eux (data mining = fouille de données; techniques
d’apprentissage,…). On ne sait pas vraiment ce que l’on va y chercher. On essaye de trouver un
sens à cette masse considérable d’information (en Zétaoctets).
Synonymes
Mégadonnées, données massives, datamasse
Analyse du Big Data
Stockage : l’accès se fait via le réseau (cloud computing). Le Big Data s'accompagne du
développement d'applications à visée analytique, qui traitent les données pour en tirer du sens.
Ces analyses sont appelées Big Analytics («broyage de données»).
Historique
7
BIG DATA
8
BIG DATA
Les 3 V
Croissance des données « tri-dimensionnelle » :
les analyses complexes répondent à la règle dite «des 3V»
Volume, Vitesse et Variété
Volume
Le volume des données stockées aujourd’hui est en pleine expansion
Environ 4 zettaoctets en 2015
Vélocité
Fréquence à laquelle les données sont générées, capturées et partagées! Elles doivent être
analysées en temps réel (Data Stream Mining). Risque pour l'Homme de perdre une grande partie
de la maîtrise du système >>> Trading haute fréquence : des "robots" sont capables de lancer des
ordres d'achat ou de vente de l'ordre de la nanoseconde.
Variété
Les data centers sont devant un véritable défi : la variété des données. Il ne s'agit pas de données
relationnelles traditionnelles, elles sont brutes, semi-structurées, non structurées >>> analyses
d’autant plus complexes qu’elles portent sur les liens entre des données de natures différentes.
9
Big Data
Le Big Data et la recherche scientifique
Parmi les plus gros pourvoyeurs de données. Les approches massives basées sur une logique
d’exploration des données et de recherche d’induction sont complémentaires des approches
classiques basées sur l'hypothèse initiale formulée (Ouf! On respire!)
Les approches massives en biologie
-
Génomique et toutes les « omiques » >>> Décoder le génome humain a originellement pris 10 ans,
cela peut désormais être fait en moins d'une semaine : les séquenceurs d'ADN ont progressé d'un facteur
10 000 les dix dernières années, soit 100 fois la loi de Moore (caractérisée par un facteur 100 sur 10 ans)
-
Environnement
-
Epidémiologie
-
Big Brain
-
Drug Design …
Autres
-
Physique : Large Hadron Collider; Astronomie; Climat et Météo
-
Gestion du temps réel
-
Banques
-
Réseaux sociaux (Facebook : , Twitter,…) et autres monstres (Google, Yahoo, …)
-
Assurances …
10
Analyse Multivariée
Dans cette perspective:
-
je vous propose d’apprendre à travailler conjointement avec différents types
d’informations
- vous allez pouvoir appliquer (enfin) vos connaissance ;
- acquérir de la méthode et de la rigueur;
- devenir progressivement autonomes dans l’analyse de vos propres données;
- vous préparer à l’étape 1 du traitement massif des données…
- Il va y avoir beaucoup de travail, mais ça en vaut la peine
11
Analyse Multivariée
Les outils
Nous allons utiliser quelques connaissances indispensables pour nous mener en
douceur vers l’analyse multivariée.
Statistiques
-
Types de variables
-
Loi normale
-
Risque a et Pvalue
-
Proportion, moyenne et notion de variance (indispensable pour l’AF)
-
Test du Chi-deux et de Fisher exact (rappels)
-
L’analyse factorielle (AFC,ACP,AMF)
Logiciels
-
L’outil graphique
-
Une petite connaissance du logiciel R et d’EXCEL
Autres
Une certaine logique d’interprétation
12
Fichiers, support de l'information
-
Collection/recueil des données (data collection)
L'origine des données est multiple (homme, machines, automates, ordinateurs,
capteurs, satellites, serveurs,….), mais l'information collectée en biologie transite
toujours par des fichiers, très souvent texte non formatés (ASCII, universels)
pour permettre un échange aisé (portabilité).
-
Traitement des données (data processing)
Consiste en la préparation des données (filtre, tri, regroupement, mise à
l’échelle, normalisation, organisation en tableaux…) afin qu’elles soient
analysables.
-
Analyse des données (data analysis)
C'est surtout dans cette étape qu’intervient l'outil statistique. On interprète les
résultats, on les compare avec ceux déduits de la théorie des probabilités.
Si certains logiciels sont dédiés à l'acquisition et au traitement des données d’un
domaine précis de la biologie, on utilise les mêmes outils statistiques, donc les
mêmes logiciels d'analyse de données quelque soit la discipline impliquée.
13
Un outil d’aide à la décision
Acquisition des données expérimentales
(Observations,
expérience, conditions dans
lesquelles les relevés ont été
faits !…)
Collecter / Acquérir (données brutes)
ETAPE 1
Décrire / Filtrer
Statistiques
ETAPE 2
descriptives
Résumer et visualiser
(Synthèse Numérique)
Caractériser (distribution, tendance)
(Synthèse Graphique)
Modèle ; lois
Affiner
statistiques
(Références, Caculs)
ETAPE 3
Comparer
(si informations disponibles)
Interprétation des données
(risque associé / degré de confiance)
- Décider l’action
(risque associé)
- Prévoir, simuler, inférence statistique
(risque associé)
ETAPE 4
C'est à l'humain d'apprécier le risque avant d'agir ! Les statistiques permettent de chiffrer ce risque.
Statistique – Analyse des données
Statistique descriptive
L'objectif de la statistique descriptive est de décrire, c'est-à-dire de résumer et représenter en un
minimum de chiffres, de graphes et de mots les données, observations synchrones, récoltées ou
disponibles (terrain, labo, entreprise, usine, satellite, réseaux, clientèle, …) qui sont associées à
des distributions d’échantillons (ou de populations, notamment dans le cas du Big Data).
Statistique inférentielle
Consiste à induire, avec une certaine marge d'erreur, les caractéristiques inconnues d'une
population à partir d'un échantillon issu de cette population.
Trois grandes phases de développement :
1 - A la fin du 19e siècle, avec les travaux de Fisher, Pearson, Neyman, …
conduisant aux notions fondamentales de vraisemblance, test d'hypothèse, intervalle de
confiance.
2 - Dans un second temps, l'informatique a permis l'explosion des techniques de simulation par
application des techniques de rééchantillonnage :
méthode de Monte Carlo, bootstrap, …
3 - Depuis une dizaine d’années, le saut vers l’inconnu : Le Big Data …
15
Statistiques descriptives à 1 variable - Tri à plat

Décrire
Distribution
Position : moyenne, mode, médiane, …
(ordre de grandeur)

Résumer
paramètres et graphes
Forme (symétrie, tendance…)
Dispersion : écart-type, variance, quantiles, …
(répartition autour de l'ordre de grandeur)

Comparer
Echantillons – Populations
Statistique – Analyse des données
QUIZZ n°1
Q1 - Pouvez vous citer une contribution de Laplace ?
Q2 - Pouvez vous citer une contribution de Mendel ?
Q3 - Pouvez vous citer une contribution de Pearson ?
Q4 - Définissez (le plus simplement/synthétiquement possible) la loi de Bernoulli
17
Statistique – Analyse des données
De l’Analyse Univariée à l’Analyse Multivariée
On commence par analyser séparément les variables avant de les traiter
conjointement (par paires). Le regroupement des colonnes apparaissant dans les
fichiers de données s’effectue au travers d'un tableau récapitulatif de leurs
caractéristiques. Il s’agit d'une démarche progressive : on effectue les calculs en
dimension 1 (analyse univariée) avant de passer a la dimension 2 (analyse
bivariée).
Les calculs en dimensions supérieures font appel a des calculs plus généraux,
souvent vectoriels (matrices), regroupés sous le terme d'analyse multivariée.
On est ainsi amené à comparer les résultats de ces analyses à une, deux
dimensions ou plus et à quantifier le degré de confiance qu'on peut accorder a
ces résultats en réalisant des intervalles de confiance et des tests statistiques.
L'utilisation de logiciels ne dispense pas de connaitre, de reconnaître et de savoir
interpréter les formules qui en découlent. Tout au plus, ceci nous libère t-il de
devoir les apprendre par cœur.
18
Analyse des données
L’aspect logiciel
Quelque soit la discipline impliquée, biologie, psychologie, économétrie,
physique…, on utilise souvent les mêmes logiciels d'analyse de données.
Parmi ces logiciels : R (libre, gratuit, universel, GNU) qui ne cesse de
prendre de l'importance (y compris dans les traitements de gros volumes de
données : RevolutionR), STATA, CCSS, SAS, S, EXCEL, etc…
Nous allons apprendre à nous servir de deux logiciels pour analyser les
données : R et EXCEL (sans faire de programmation car il faut bien faire un
choix stratégique).
19
Analyse des données
Le logiciel R
R est avant tout un logiciel entièrement dédié à l’analyse statistique
Il offre une grande souplesse d'utilisation, il est compatible avec de très nombreux
formats d'entrée et il dispose d'une importante et sans cesse croissante, bibliothèque
de modules dédiés à des applications spécifiques (évolution, protéine, plans
d'expérience, traitement cartographique, brain, génomique, biologie structurale,
environnement, graphisme,….).
Il est, en outre, doté d'un langage de programmation et est interfaçable avec des
bases de données. Seul limite : R est très rapide mais il dépend de la mémoire vive
de l'ordinateur sous laquelle il fonctionne (les capacités de la mémoire vive ne
cessant d'augmenter on peut s'attendre à ce que cela ne soit plus une limite
Enfin, dans ses dernières versions, le logiciel peut fonctionner en cluster (réseau
d'ordinateur partageant le temps de calcul).
20
Analyse des données
Notre premier apprentissage
Suivre les instructions au tableau
21
Statistiques descriptives à 1 variable - Tri à plat
Présentation des acteurs, exemples concrets et règles de calculs
Le centre de recherche d'une société spécialisée dans les biotechnologies a récemment mis
au point une nouvelle variété céréalière.
Le rendement en quintaux de cette nouvelle variété a été relevé dans la région Centre sur un
échantillon de parcelles témoin (1 ha chacune) en condition de culture « bio ».
On a demandé à une jeune stagiaire d'exploiter rapidement et au mieux ces résultats.
Rendements mesurés :
102 ; 104,5 ; 121,63 ; 122,5 ; 103,23 ; 106 ; 107,25 ; 106,44 ; 110 ; 111,3 ; 112,23 ; 96,6 ; 120
; 102 ; 103,2 ; 104 ; 127,56 ; 113,5 ; 95 ; 101,125 ; 125 ; 96 ; 114 ; 109 ; 92,3 ; 106,65 ; 107,7 ;
113,8 ; 115 ; 109,3 ; 123,325 ; 124,1 ; 113,5 ; 112,21 ; 111,56 ; 110 ; 112,22 ; 129 ; 133,25 ;
102 ; 114,5 ; 94,25 ; 116 ; 115,2 ; 125 ; 109,4 ; 108,55 ; 96,2 ; 116,6 ; 117,3 ; 97,5 ; 117,66 ;
117,8 ; 117,5 ; 118,22 ; 118 ; 117,5 ; 119 ; 114,3 ; 90 ; 96,2 ; 116,6 ; 123,56 ; 115 ; 120,23
Commentaires …
Statistique – Analyse des données
QUIZZ n°2
Q1 - Echantillon ou population?
Q2 - Combien de variables peut-on identifier ?
Q3 - Quel type de graphique peut-on réaliser avec ces données ?
Q4 - Peut-on faire ce graphique avec n’importe quel logiciel ?
Q5 - Y-a-t-il une loi de probabilité qui peut être invoquée?
Q6 - A quoi pourait-on comparer ces données?
23
Variables, lois de probabilités et
tests associés
Les quatre types de variables
Qualitative
Nominale
Ordinale
Quantitative
Discrète
Continue
24
Variables, lois de probabilités et
tests associés
Les graphiques
Variable Qualitative : on utilise des diagrammes à secteurs circulaires (pies, camemberts),
des diagrammes en tuyaux d'orgue ou encore des diagrammes en bandes. Il s’agit de
représenter des aires proportionnelles aux fréquences des modalités prises par la variable.
Variable Quantitative discrète : On utilise un diagramme en bâtons, complété du diagramme
des fréquences cumulées (diagramme cumulatif) qui est la représentation graphique de la
fonction de répartition de la variable.
Variable Quantitative discrète : le diagramme représentant la série est un histogramme
composé des rectangles juxtaposés dont chacune des bases est égale à l’intervalle de chaque
classe et dont la hauteur est telle que l’aire de chaque rectangle soit proportionnelle aux
effectifs (histogramme des effectifs) ou aux fréquences de la classe correspondante
(histogramme des fréquences). On peut aussi utiliser en ordonnées la densité de probabilité
(aire totale égale à 1, facilitant les comparaisons avec une distribution théorique).
25
Variables, lois de probabilités et
tests associés
Schéma de synthèse
26
27
Statistiques descriptives à 1 variable - Tri à plat
Présentation des acteurs, exemples concrets et règles de calculs
Rendement en qt/ha de la nouvelle variété céréalière
n = 65
Xo = 111 qt/ha
o = 10 qt/ha
Me = 112 qt/ha
Xo.25 = 112 qt/ha
effectif
15
]80, 85]
]85, 90]
]90, 95]
]95, 100]
]100, 105]
]105, 110]
]110, 115]
]115, 120]
]120, 125]
]125, 130]
]130, 135]
0
1
3
5
8
11
14
13
7
2
1
10
5
R2 =0,997
0
87,5
92,5
97,5
102,5
107,5
112,5
117,5
122,5
127,5
132,5
rendement (qt/ha)
Tendance ?
Bi 253 Exam 2 Spring 2005
Distribution de fréquence de la teneur en
Cadmium dans150 échantillons d'eau.
average = 31 (65%)
Hey - 67 students, or 32% of those who took the exam,
got 35 points or higher (A or B) -- very good!!
16
14
12
10
8
6
4
2
0
0
10
20
30
40
Antirhinum
Histogramme et polygone des fréquences
Téléchargement