Traitement et analyse de données biologiques Objectifs - Redonner le sens pratique à des étudiants gavés de théorie (« je connais mais ne sais pas l’appliquer »); c’est pourquoi cette UE est très accèe sur la pratique. - Savoir se débrouiller seul (passer à la pratique, repérer la situation, travailler vite et bien). Etre capable d’analyser ses propres données expérimentales, de production ou de marketing (contexte stage, labo, bureau d’étude, entreprise, …) - Parler un langage de base en statistique (et éviter les excès : « l’inférence de l’inféron ») permettant de faire appel aux spécialistes lorsque cela est nécessaire - Ne pas confondre bioinformatique et biostatistique! - Essayer de mieux décrypter notre monde - Prendre des responsabilités (et des risques mesurés) - En faire profiter le CV 1 Traitement et analyse de données biologiques Plan de travail - Traitement et analyse de données, le contexte spécifique de la biologie (Tout ce que vous avez toujours voulu savoir sur les Biostats, le Big Data, les Data Scientist et autres mots sympathiques) - L’essentiel sur les statistiques descriptives - Les graphiques de qualité professionnelle - Analyse univariée - Analyse multivariée : analyse factorielle, régression linéaire et ANOVA Et nous disposons de seulement 25 heures pour tout cela ! 2 Traitement et analyse de données biologiques Méthode de travail Nous allons travailler (si possible) en salle de la façon suivante : Travail en groupe - Analyse et résolution d’un problème en utilisant les fiches de cours (qui peuvent être données en live au tableau) - Travailler par groupe de 3 étudiants avec 2 ordinateurs, un pour la recherche (utiliser internet et forum) l’autre pour le calcul - Résoudre une problématique et rendre 1 fiche d’analyse en fin de séance - Quizz intervenant n’importe quand (y répondre le plus vite possible) Salle informatique - Logiciels à disposition - Site web de soutien (et vidéos de résumé ?) Synthèses - Débriefing - Corrections faites par l’enseignant 3 Statistique / Analyse des données - Rapide historique Statistique provient du latin status signifiant état. Depuis les temps les plus reculés (Babylone, Égypte, Chine, Grèce, Rome,…), les États voulaient disposer d'informations sur leurs sujets (recensements de population) et sur les ressources qu'ils produisaient ou les biens possédaient (cf rouleaux de papyrus, colonne ou tablettes d’argile au musée du Louvre). Les statistiques étaient alors purement descriptives. A partir du 17ème siècle s'est développé le calcul des probabilités et des méthodes statistiques sont apparues en Allemagne, en Angleterre et en France. De nombreux scientifiques y ont apporté leur contribution, dont vous avez surement entendu parler : Pascal, Bernoulli, Moivre, Laplace, Gauss, Mendel, Pearson, Fischer, Student, Wilcoxon, … L’une des missions assignées aux premiers ordinateurs (années 1950) étaient de faciliter le recensement de la population américaine… Il n’est actuellement pas un domaine ou une discipline, scientifique ou non, qui puisse se passer de l’outil statistique. Où nous mènera le Big Data? 4 Univac - 1951 Système de Gestion de Base de Données (SGBD) Quelques définitions - Une base de données c’est essentiellement une collection structurée d’informations non nécessairement du même type (format) - Une base de données est usuellement localisée en un seul lieu et un seul support (dupliqué en fait) qui est généralement informatique (numérique) - Pièce centrale des dispositifs informatiques qui servent à la collecte, le stockage et l’utilisation des informations - SGBDR, acronyme de Système de Gestion de Base de Données Relationnelles : logiciel moteur qui pilote la base et en permet la manipulation et l’exploitation (interrogation). - Toutes les secondes le volume d’information ne cesse d’augmenter contribuant au Big Data. Mais sans analyse et sans base de données (contribuant à préparer les données à leur analyse), le Big Data n’est rien. BIG DATA Définition Ensembles de données tellement volumineux qu'ils deviennent difficiles à manipuler et à analyser avec des outils classiques de gestion de base de données ou de gestion de l'information. L’outil statistique doit être repensé pour eux (data mining = fouille de données; techniques d’apprentissage,…). On ne sait pas vraiment ce que l’on va y chercher. On essaye de trouver un sens à cette masse considérable d’information (en Zétaoctets). Synonymes Mégadonnées, données massives, datamasse Analyse du Big Data Stockage : l’accès se fait via le réseau (cloud computing). Le Big Data s'accompagne du développement d'applications à visée analytique, qui traitent les données pour en tirer du sens. Ces analyses sont appelées Big Analytics («broyage de données»). Historique 7 BIG DATA 8 BIG DATA Les 3 V Croissance des données « tri-dimensionnelle » : les analyses complexes répondent à la règle dite «des 3V» Volume, Vitesse et Variété Volume Le volume des données stockées aujourd’hui est en pleine expansion Environ 4 zettaoctets en 2015 Vélocité Fréquence à laquelle les données sont générées, capturées et partagées! Elles doivent être analysées en temps réel (Data Stream Mining). Risque pour l'Homme de perdre une grande partie de la maîtrise du système >>> Trading haute fréquence : des "robots" sont capables de lancer des ordres d'achat ou de vente de l'ordre de la nanoseconde. Variété Les data centers sont devant un véritable défi : la variété des données. Il ne s'agit pas de données relationnelles traditionnelles, elles sont brutes, semi-structurées, non structurées >>> analyses d’autant plus complexes qu’elles portent sur les liens entre des données de natures différentes. 9 Big Data Le Big Data et la recherche scientifique Parmi les plus gros pourvoyeurs de données. Les approches massives basées sur une logique d’exploration des données et de recherche d’induction sont complémentaires des approches classiques basées sur l'hypothèse initiale formulée (Ouf! On respire!) Les approches massives en biologie - Génomique et toutes les « omiques » >>> Décoder le génome humain a originellement pris 10 ans, cela peut désormais être fait en moins d'une semaine : les séquenceurs d'ADN ont progressé d'un facteur 10 000 les dix dernières années, soit 100 fois la loi de Moore (caractérisée par un facteur 100 sur 10 ans) - Environnement - Epidémiologie - Big Brain - Drug Design … Autres - Physique : Large Hadron Collider; Astronomie; Climat et Météo - Gestion du temps réel - Banques - Réseaux sociaux (Facebook : , Twitter,…) et autres monstres (Google, Yahoo, …) - Assurances … 10 Analyse Multivariée Dans cette perspective: - je vous propose d’apprendre à travailler conjointement avec différents types d’informations - vous allez pouvoir appliquer (enfin) vos connaissance ; - acquérir de la méthode et de la rigueur; - devenir progressivement autonomes dans l’analyse de vos propres données; - vous préparer à l’étape 1 du traitement massif des données… - Il va y avoir beaucoup de travail, mais ça en vaut la peine 11 Analyse Multivariée Les outils Nous allons utiliser quelques connaissances indispensables pour nous mener en douceur vers l’analyse multivariée. Statistiques - Types de variables - Loi normale - Risque a et Pvalue - Proportion, moyenne et notion de variance (indispensable pour l’AF) - Test du Chi-deux et de Fisher exact (rappels) - L’analyse factorielle (AFC,ACP,AMF) Logiciels - L’outil graphique - Une petite connaissance du logiciel R et d’EXCEL Autres Une certaine logique d’interprétation 12 Fichiers, support de l'information - Collection/recueil des données (data collection) L'origine des données est multiple (homme, machines, automates, ordinateurs, capteurs, satellites, serveurs,….), mais l'information collectée en biologie transite toujours par des fichiers, très souvent texte non formatés (ASCII, universels) pour permettre un échange aisé (portabilité). - Traitement des données (data processing) Consiste en la préparation des données (filtre, tri, regroupement, mise à l’échelle, normalisation, organisation en tableaux…) afin qu’elles soient analysables. - Analyse des données (data analysis) C'est surtout dans cette étape qu’intervient l'outil statistique. On interprète les résultats, on les compare avec ceux déduits de la théorie des probabilités. Si certains logiciels sont dédiés à l'acquisition et au traitement des données d’un domaine précis de la biologie, on utilise les mêmes outils statistiques, donc les mêmes logiciels d'analyse de données quelque soit la discipline impliquée. 13 Un outil d’aide à la décision Acquisition des données expérimentales (Observations, expérience, conditions dans lesquelles les relevés ont été faits !…) Collecter / Acquérir (données brutes) ETAPE 1 Décrire / Filtrer Statistiques ETAPE 2 descriptives Résumer et visualiser (Synthèse Numérique) Caractériser (distribution, tendance) (Synthèse Graphique) Modèle ; lois Affiner statistiques (Références, Caculs) ETAPE 3 Comparer (si informations disponibles) Interprétation des données (risque associé / degré de confiance) - Décider l’action (risque associé) - Prévoir, simuler, inférence statistique (risque associé) ETAPE 4 C'est à l'humain d'apprécier le risque avant d'agir ! Les statistiques permettent de chiffrer ce risque. Statistique – Analyse des données Statistique descriptive L'objectif de la statistique descriptive est de décrire, c'est-à-dire de résumer et représenter en un minimum de chiffres, de graphes et de mots les données, observations synchrones, récoltées ou disponibles (terrain, labo, entreprise, usine, satellite, réseaux, clientèle, …) qui sont associées à des distributions d’échantillons (ou de populations, notamment dans le cas du Big Data). Statistique inférentielle Consiste à induire, avec une certaine marge d'erreur, les caractéristiques inconnues d'une population à partir d'un échantillon issu de cette population. Trois grandes phases de développement : 1 - A la fin du 19e siècle, avec les travaux de Fisher, Pearson, Neyman, … conduisant aux notions fondamentales de vraisemblance, test d'hypothèse, intervalle de confiance. 2 - Dans un second temps, l'informatique a permis l'explosion des techniques de simulation par application des techniques de rééchantillonnage : méthode de Monte Carlo, bootstrap, … 3 - Depuis une dizaine d’années, le saut vers l’inconnu : Le Big Data … 15 Statistiques descriptives à 1 variable - Tri à plat Décrire Distribution Position : moyenne, mode, médiane, … (ordre de grandeur) Résumer paramètres et graphes Forme (symétrie, tendance…) Dispersion : écart-type, variance, quantiles, … (répartition autour de l'ordre de grandeur) Comparer Echantillons – Populations Statistique – Analyse des données QUIZZ n°1 Q1 - Pouvez vous citer une contribution de Laplace ? Q2 - Pouvez vous citer une contribution de Mendel ? Q3 - Pouvez vous citer une contribution de Pearson ? Q4 - Définissez (le plus simplement/synthétiquement possible) la loi de Bernoulli 17 Statistique – Analyse des données De l’Analyse Univariée à l’Analyse Multivariée On commence par analyser séparément les variables avant de les traiter conjointement (par paires). Le regroupement des colonnes apparaissant dans les fichiers de données s’effectue au travers d'un tableau récapitulatif de leurs caractéristiques. Il s’agit d'une démarche progressive : on effectue les calculs en dimension 1 (analyse univariée) avant de passer a la dimension 2 (analyse bivariée). Les calculs en dimensions supérieures font appel a des calculs plus généraux, souvent vectoriels (matrices), regroupés sous le terme d'analyse multivariée. On est ainsi amené à comparer les résultats de ces analyses à une, deux dimensions ou plus et à quantifier le degré de confiance qu'on peut accorder a ces résultats en réalisant des intervalles de confiance et des tests statistiques. L'utilisation de logiciels ne dispense pas de connaitre, de reconnaître et de savoir interpréter les formules qui en découlent. Tout au plus, ceci nous libère t-il de devoir les apprendre par cœur. 18 Analyse des données L’aspect logiciel Quelque soit la discipline impliquée, biologie, psychologie, économétrie, physique…, on utilise souvent les mêmes logiciels d'analyse de données. Parmi ces logiciels : R (libre, gratuit, universel, GNU) qui ne cesse de prendre de l'importance (y compris dans les traitements de gros volumes de données : RevolutionR), STATA, CCSS, SAS, S, EXCEL, etc… Nous allons apprendre à nous servir de deux logiciels pour analyser les données : R et EXCEL (sans faire de programmation car il faut bien faire un choix stratégique). 19 Analyse des données Le logiciel R R est avant tout un logiciel entièrement dédié à l’analyse statistique Il offre une grande souplesse d'utilisation, il est compatible avec de très nombreux formats d'entrée et il dispose d'une importante et sans cesse croissante, bibliothèque de modules dédiés à des applications spécifiques (évolution, protéine, plans d'expérience, traitement cartographique, brain, génomique, biologie structurale, environnement, graphisme,….). Il est, en outre, doté d'un langage de programmation et est interfaçable avec des bases de données. Seul limite : R est très rapide mais il dépend de la mémoire vive de l'ordinateur sous laquelle il fonctionne (les capacités de la mémoire vive ne cessant d'augmenter on peut s'attendre à ce que cela ne soit plus une limite Enfin, dans ses dernières versions, le logiciel peut fonctionner en cluster (réseau d'ordinateur partageant le temps de calcul). 20 Analyse des données Notre premier apprentissage Suivre les instructions au tableau 21 Statistiques descriptives à 1 variable - Tri à plat Présentation des acteurs, exemples concrets et règles de calculs Le centre de recherche d'une société spécialisée dans les biotechnologies a récemment mis au point une nouvelle variété céréalière. Le rendement en quintaux de cette nouvelle variété a été relevé dans la région Centre sur un échantillon de parcelles témoin (1 ha chacune) en condition de culture « bio ». On a demandé à une jeune stagiaire d'exploiter rapidement et au mieux ces résultats. Rendements mesurés : 102 ; 104,5 ; 121,63 ; 122,5 ; 103,23 ; 106 ; 107,25 ; 106,44 ; 110 ; 111,3 ; 112,23 ; 96,6 ; 120 ; 102 ; 103,2 ; 104 ; 127,56 ; 113,5 ; 95 ; 101,125 ; 125 ; 96 ; 114 ; 109 ; 92,3 ; 106,65 ; 107,7 ; 113,8 ; 115 ; 109,3 ; 123,325 ; 124,1 ; 113,5 ; 112,21 ; 111,56 ; 110 ; 112,22 ; 129 ; 133,25 ; 102 ; 114,5 ; 94,25 ; 116 ; 115,2 ; 125 ; 109,4 ; 108,55 ; 96,2 ; 116,6 ; 117,3 ; 97,5 ; 117,66 ; 117,8 ; 117,5 ; 118,22 ; 118 ; 117,5 ; 119 ; 114,3 ; 90 ; 96,2 ; 116,6 ; 123,56 ; 115 ; 120,23 Commentaires … Statistique – Analyse des données QUIZZ n°2 Q1 - Echantillon ou population? Q2 - Combien de variables peut-on identifier ? Q3 - Quel type de graphique peut-on réaliser avec ces données ? Q4 - Peut-on faire ce graphique avec n’importe quel logiciel ? Q5 - Y-a-t-il une loi de probabilité qui peut être invoquée? Q6 - A quoi pourait-on comparer ces données? 23 Variables, lois de probabilités et tests associés Les quatre types de variables Qualitative Nominale Ordinale Quantitative Discrète Continue 24 Variables, lois de probabilités et tests associés Les graphiques Variable Qualitative : on utilise des diagrammes à secteurs circulaires (pies, camemberts), des diagrammes en tuyaux d'orgue ou encore des diagrammes en bandes. Il s’agit de représenter des aires proportionnelles aux fréquences des modalités prises par la variable. Variable Quantitative discrète : On utilise un diagramme en bâtons, complété du diagramme des fréquences cumulées (diagramme cumulatif) qui est la représentation graphique de la fonction de répartition de la variable. Variable Quantitative discrète : le diagramme représentant la série est un histogramme composé des rectangles juxtaposés dont chacune des bases est égale à l’intervalle de chaque classe et dont la hauteur est telle que l’aire de chaque rectangle soit proportionnelle aux effectifs (histogramme des effectifs) ou aux fréquences de la classe correspondante (histogramme des fréquences). On peut aussi utiliser en ordonnées la densité de probabilité (aire totale égale à 1, facilitant les comparaisons avec une distribution théorique). 25 Variables, lois de probabilités et tests associés Schéma de synthèse 26 27 Statistiques descriptives à 1 variable - Tri à plat Présentation des acteurs, exemples concrets et règles de calculs Rendement en qt/ha de la nouvelle variété céréalière n = 65 Xo = 111 qt/ha o = 10 qt/ha Me = 112 qt/ha Xo.25 = 112 qt/ha effectif 15 ]80, 85] ]85, 90] ]90, 95] ]95, 100] ]100, 105] ]105, 110] ]110, 115] ]115, 120] ]120, 125] ]125, 130] ]130, 135] 0 1 3 5 8 11 14 13 7 2 1 10 5 R2 =0,997 0 87,5 92,5 97,5 102,5 107,5 112,5 117,5 122,5 127,5 132,5 rendement (qt/ha) Tendance ? Bi 253 Exam 2 Spring 2005 Distribution de fréquence de la teneur en Cadmium dans150 échantillons d'eau. average = 31 (65%) Hey - 67 students, or 32% of those who took the exam, got 35 points or higher (A or B) -- very good!! 16 14 12 10 8 6 4 2 0 0 10 20 30 40 Antirhinum Histogramme et polygone des fréquences