Master Biologie Intégrative 1ère année BIOSTATISTIQUES AVANCEES Yves Desdevises Observatoire Océanologique de Banyuls-sur-Mer (www.obs-banyuls.fr) 04 68 88 73 13 [email protected] http://desdevises.free.fr http://www.edu.upmc.fr/sdv/desdevises 2016-2017 PLAN 1. Rappels : données, tests, plans d’expérience, distributions 2. Comparaison de 2 groupes : variances et moyennes 3. Comparaison de plus de 2 groupes : test d’homogénéité des variances, analyses de variance à 1 et 2 facteurs 4. Relations entre variables : corrélation 5. Relations entre variables : régression simple 6. Régression multiple et analyse de covariance 7. Analyse multivariable 8. Analyse de survie Quelques références • Générales • Sokal RR & Rohlf FJ. 2012. Biometry. 4 Revised Edition, Freeman and co., New York. • Zar JH. 2009. Biostatistical Analysis. 5 Edition, Pearson. • Frontier S, Davoult D, Gentilhomme V & Lagadeuc Y. 2007. th th • • • Statistique pour les sciences de la vie et de l’environnement. Cours et exercices corrigés. Dunod. Triola MM & Triola MF. 2006. Biostatistics for the Biological and Health Science. Pearson. Traduction française en 2009 : Biostatistiques pour les sciences de la vie et de la santé. Scherrer B. 2008-2009. Biostatistiques volumes 1 et 2. Gaëtan Morin. Millot G. 2014. Comprendre et réaliser les tests statistiques à l'aide de R. 3ème édition. De Boeck. • • • • • Simplifiées Dytham C. 2011. Choosing and Using Statistics. A Biologist’s Guide. 3rd Edition. Blackwell Publishing. McKillup S. 2011. Statistics Explained. 2nd Edition. Cambridge University Press. van Emden H. 2008. Statistics for Terrified Biologists. Blackwell Publishing. Plus spécialisées Legendre P & Legendre L. 2012. Numerical Ecology. 3rd English Edition. Development in Environmental Modelling, 20. Elsevier. Underwood AJ. 1997. Experiments in Ecology. Cambridge University Press. • • Quelques logiciels • • • • • • • R (www.r-project.org) Statdisk (http://statdisk.com/) XLStat (www.xlstat.com) € Minitab (www.minitab.com) € JMP (www.jmp.com) € Statistica (www.statsoft.com) € SAS (www.sas.com/technologies/analytics/stat) € 1. INTRODUCTION RAPPELS • Statistique : Etude scientifique des données numériques décrivant les variations naturelles • Biostatistique • Application à la biologie • Important : savoir décider de la méthode à utiliser • Bien connaître les méthodes : conditions d’utilisation, limitations, ... • Penser aux statistiques avant de collecter les données Utilité et utilisation des statistiques en biologie • Description • Vue synthétique et rationnelle des données • Inférence • Economie de travail par l’étude d’échantillons représentatifs • Décision • Test d’hypothèse Pourquoi utiliser les statistiques en biologie? • Biologie : incertitude des résultats expérimentaux ou des observations • Variabilité génétique • Variabilité de réaction individuelle • Variabilité du développement Définitions • Objet = observation = élément = unité d’échantillonnage : élément sur lequel on mesure des caractéristiques (variables) • Echantillon : ensemble des objets • Population cible : ensemble des objets visés par une étude scientifique • Population statistique : ensemble des objets représentés par l’échantillon. C’est sur elle que se fait l’inférence • Variable = descripteur = facteur = trait : caractéristique mesurée ou observée sur les objets. Ex : longueur, température, ... • Variable dépendante (Y) = réponse • Variable indépendante (X) = explicative • Variable aléatoire : résultat d’un processus aléatoire, valeur précise inconnue avant la mesure • Variable contrôlée : décidée par l’expérimentateur, erreur = mesure seulement • Paramètre : caractéristique quantitative permettant une représentation condensée d’information contenue dans un ensemble de données. Ex : moyenne, pente, ... • Variance = inertie = carré moyen : somme des carrés des écarts à la moyenne (SCE)/nombre d’objets (paramètre de dispersion) • Ecart-type (standard deviation) : racine carrée de la variance. Même unité que la variable 2 Sx = √Sx • Erreur-type (standard error) : écart-type de la distribution d’échantillonnage de la moyenne (dispersion des estimations de la moyenne de plusieurs échantillons d’une même population). Sert à calculer un intervalle de confiance • Interprétation de l'écart-type • Barres d'erreurs : attention ! ? Variables ● ● ● ● ● 1 cause : 1 effet Force de frappe Modèle aléatoire Croissance Intensité de la déformation Modèle déterministe ● ● ●● ● ● ● ● ● ● ● 1 cause : n effets Dose d'engrais variabilité • Terme déterministe : loi du phénomène • Terme aléatoire : variabilité du phénomène • Hasard, fluctuations • Autres facteurs, souvent à expliquer • Analyse statistique : étude des phénomènes stochastiques • Discrimination de la loi du phénomène et de sa variabilité Différents types de variables • Binaire : 2 états. Ex : présence-absence • Multiple : plus de 2 états • Non-ordonnée = qualitative = nominale. Ex : couleur • Ordonnée • Semi-quantitative = ordinale = de rang. Ex : classes • Quantitative • Discontinue = discrète. Ex : nombre d’individus • Continue. Ex : longueur • Transformations • Standardisation : y' = (y - y)̅ /s (s = écart-type ; on obtient une variable centrée et réduite). y’̅ = 0 et s = 1, variables non-dimensionnelles • Normalisation et stabilisation des variances : y' = log (b0 + b1y) ; y' = √y ; ... • Linéarisation • Pondération Statistiques descriptives • Exploration des données • A calculer avant chaque test • Mesures standards : n, moyenne, variance (écart-type), distribution (histogramme ou graphe de quantilenormale), ... • Identifier les valeurs extrêmes ou aberrantes • A ne pas oublier... Statdisk - Explore Data Printed on Mer 10 sep 2008 at 9:08 Statdisk - Scatterplot Printed on Mer 10 sep 2008 at 9:08 X Value Plans d’échantillonnage • Principalement pour organismes fixes (ou localités, ...) • Echantillonnage aléatoire : représentatif • Aléatoire : chaque membre de la population a la même probabilité d’être choisi • Aléatoire simple : chaque échantillon de taille n a la même probabilité d’être choisi. Condition pour de nombreux tests • Echantillonnage systématique : mieux avec des informations supplémentaires (nombre total, organisation spatiale) • Risque (faible) de coïncider avec une périodicité naturelle • Echantillonnage aléatoire stratifié : échantillonnage aléatoire au sein de zones définies (strates), souvent selon des caractéristiques définies (âge, sexe, végétation, ...) • Echantillonnage en grappe • Division de la population en sections (grappes) • Sélection aléatoire des grappes • Choix de tous les membres des grappes sélectionnées • Echantillonnage opportun • En fonction des circonstances • Sur les objets faciles à obtenir • Exemple : réponses seulement de ceux qui participent de façon active à un sondage • Pas un bon plan d'échantillonnage ! Plans d’expérience • Méthode expérimentale • Travail sur un système simplifié dont on étudie la réponse à la variation de peu de facteurs à la fois • Important : rigueur • Construction : hypothèse nulle et hypothèse contraire • Répondre spécifiquement à une question (critère de validité générale) • Minimiser l’erreur de Type I • Application : analyse de variance (ANOVA) Concepts • Elément d’observation • Sur lequel on fait les mesures de la (des) variable(s) • Ex : individus, quadrats, ... • Unité d’expérimentation • Contient les éléments • Reçoit le traitement • Ex : parcelle, bassin, ... • Facteur : plusieurs valeurs possibles • Niveaux ou traitements • Contrôle • Groupe non traité • Traitement (placebo, manipulation seule, ...) • Bloc • Groupe d’unités d’échantillonnage, défini a priori • Expérience de mesure d’un phénomène naturel • En milieu naturel : pas (peu) de contrôle des variables • Mesure du profil de variabilité du phénomène • Expérience contrôlée • Utilisation de traitements contrôlés • Réduction de l’influence des autres facteurs • Elimination • Constance • Inclusion dans l’analyse • Répétition (= replication) • Mesure de la variabilité du système (répétitions biologiques, pas techniques) • Pseudoréplication • Due à la non-indépendance des observations, qui ne sont pas alors de “vrais réplicats” ➡Validité générale • Variations dues exclusivement au facteur étudié ➡Validité externe • Généralisation à d’autres systèmes • Simplification pas trop importante Aléatoire Blocs randomisés Systématique Ségrégation simple Ségrégation agrégée Ségrégation isolative Répétitions physiquement interdépendantes Pas de répétitions • • Tests statistiques Important de bien définir l’hypothèse nulle (H0) • La seule que l’on étudie = hypothèse principale • Contient généralement "=" • La statistique testée possède une distribution connue Hypothèse contraire (H1 ; "hypothèse alternative") • Contient généralement "≠", ">"ou "<" On ne peut la prouver, elle est plausible si H est 0 • rejetée • Grande importance de l’hypothèse biologique • Statistique ≠ magie !! Conditions • En général 3 conditions pour un test : • Loi (Normale, Student, F, ...) • Indépendance des observations • Homogénéité des variances (homoscédasticité) • Loi de distribution théorique générée à partir des processus naturels, sous certaines conditions : probabilité d’apparition de toutes les valeurs d’une variable • Besoin de tester la distribution observée sur l’échantillon (impossible sur la population) • Erreur de Type I (α) : probabilité de se tromper en rejetant H0 (donc H0 est vraie). Seuil fixé • Robustesse d’un test : sensibilité aux conditions d’applications • Un test est robuste s’il fonctionne bien même quand les conditions nécessaires à son fonctionnement ne sont pas optimales • Puissance d’un test : capacité à mettre en évidence de petites différences • Aptitude à rejeter H0 lorsqu’elle est fausse (= 1 - ß (erreur de Type II)) • Fonction de : test, nombre d’observations, variance, α H0 H1 p-value ("valeur-p") • Test : calcul d’une statistique-test (ou variable auxiliaire, p. ex. t ou F - voir plus loin) à l’aide des données • On peut calculer (logiciel) la probabilité d’obtenir cette valeur (ou une valeur plus extrême) dans le cas où H0 est vraie : c’est la p-value, P • Interprétation en terme de rejet ou non de H , en 0 fonction du seuil α choisi, généralement 0,05 (5 %) : • P > 0,05 : non rejet de H • P ≤ 0,05 : rejet de H 0 0 Puissance d’un test : n optimal • Question récurrente : de combien d’objets (observations, prélèvements, ...) a-t-on besoin pour établir une différence significative, s’il y en a une ? • Exemple : utilisation de la statistique-test t • Il faut d’abord estimer la variance et avoir une idée de l’écart entre populations (étude préalable) • Utilisation de la formule de t pour trouver le n nécessaire à mettre en évidence un écart significatif défini à l’aide de la valeur critique de t • Importance de l’amplitude de la différence entre la vraie valeur du paramètre testé et sa valeur supposée par hypothèse • On affine la puissance (en modifiant α, n, ...) en fonction de l’écart choisi (qui dépend du degré de précision souhaité) • Exemple : si la vraie valeur est 0,5, un test plus puissant est nécessaire pour identifier comme significativement différente de celle-ci une valeur mesurée de 0,501 qu’une valeur de 0,6 • On cherche souvent à obtenir une puissance de 0,8 : 80 % de chance de prendre la bonne décision de rejeter une hypothèse nulle fausse Test unilatéral ou bilatéral • • Unilatéral : la différence est attendue dans un certain Dépend de la formulation de H1 : hypothèse biologique sens (> ou <). • Bilatéral : on cherche seulement à savoir s’il y a une différence, quel qu’en soit le sens. • Valeurs critiques différentes (dans les tables statistiques) : seuils à partir duquel on rejette H0 ➡Différence au niveau de la puissance • • Risque d’erreur due à la variabilité des observations • Référence à une distribution, dans laquelle se place la But du test : savoir si on doit rejeter ou non H0 statistique (= paramètre) testée • Loi de distribution théorique • Exemple de la loi Normale : tests paramétriques • Génération empirique de la distribution • Tests par permutations • Pas de distribution • Tests non paramétriques • Les tests non paramétriques sont basés sur la notion de rang • Permettent de mettre en évidence des relations monotones • Pour 2 variables : augmentation ou diminution constante d’une variable quand l’autre augmente monotones non monotone Test par permutations : exemple • 20 individus en 2 groupes de 10 ; variable = taille • Question : la taille moyenne est-elle différente dans chaque groupe ? • • Statistique testée (= variable auxiliaire) : différence H0 : la taille moyenne est la même entre les moyennes • Sous H0, elle devrait se situer “autour de 0” • N’importe quelle combinaison aléatoire de 2 groupes de 10 parmi les 20 individus correspond à une réalisation de H0 • Chacune de ces réalisations va donner une différence de moyenne entre les deux groupes plus ou moins grande • Un grand nombre de ces réalisations permet de générer une distribution de la statistique sous H0 • Ces réalisations sont obtenues en permutant au hasard les données originales : test par permutations • On compare ensuite la valeur observée de la statistique à cette distribution Statistic t t* < –!t! t* = –!t! –!t!< t* <!t! t* = !t! t* > !t! 8 0 974 1† 17 Distribution théoriques • Variables discontinues • Loi binomiale • Loi de Poisson • Variables continues • Loi Normale • Loi du Khi-2 (X ) • Loi de Fisher • Loi de Student 2 • Distribution la plus importante : distribution Normale (= Gaussienne) • Théorème de la limite centrale (central limit theorem) • “Quand une variable aléatoire résulte de nombreux effets indépendants et additifs, dont aucun n’est dominant, cette variable tend à suivre une distribution normale, même si les effets ne suivent pas une telle distribution” • Souvent le cas dans la nature • Normalité : évaluation visuelle de la distribution des données • Histogramme : “en cloche” • Graphe quantile-normale (= quantile-quantile) : points en ligne droite • Mieux pour petits échantillons Statdisk - Normal Quantile Plot Printed on Mar 9 sep 2008 at 14:40 X Value Tests de normalité • A faire avant d’utiliser les tests paramétriques • Exemple : test de Shapiro-Wilk, Kolmogorov-Smirnov, … H : Distribution normale • 0 • Données multinormales : test de multinormalité • Test de Dagnelie Transformations • Beaucoup de méthodes d’analyse statistiques requièrent que les données suivent une certaine distribution, notamment la distribution Normale • Si la distribution n’est pas normale • Méthodes non-paramétriques • Transformation des données : normalité • Autre intérêt : stabilisation des variances (doivent être indépendantes des moyennes) Exemples • Données d’abondance • Distribution asymétrique • Distribution de Poisson • Distribution contagieuse • Données en proportions ou pourcentages • Transformation Logarithme • y’ = ln(y + c) • Distributions contagieuses • Transformation racine • y = √(y + c) • Distributions de Poisson : variance = moyenne • Transformation arcsinus • y = arcsin√p • Distributions en proportions • Transformation Box-Cox • Formule générale • Quand tout le reste a échoué • Pas calculable à la main : technique itérative Choix d’une méthode • 1 variable • 2 groupes : test t, test U, ... • > 2 groupes : ANOVA, ANCOVA, test de Kruskal-Wallis, ... • 2 variables • Liaison : corrélation, test du Χ • Modèle : régression simple • > 2 variables • Description : ordination sans contrainte, groupement • Test : test de Mantel, régression multiple, analyse canonique, 2 MANOVA