Master Biologie Intégrative

publicité
Master Biologie Intégrative
1ère année
BIOSTATISTIQUES
AVANCEES
Yves Desdevises
Observatoire Océanologique de Banyuls-sur-Mer
(www.obs-banyuls.fr)
04 68 88 73 13
[email protected]
http://desdevises.free.fr
http://www.edu.upmc.fr/sdv/desdevises
2016-2017
PLAN
1. Rappels : données, tests, plans d’expérience, distributions
2. Comparaison de 2 groupes : variances et moyennes
3. Comparaison de plus de 2 groupes : test d’homogénéité des
variances, analyses de variance à 1 et 2 facteurs
4. Relations entre variables : corrélation
5. Relations entre variables : régression simple
6. Régression multiple et analyse de covariance
7. Analyse multivariable
8. Analyse de survie
Quelques références
• Générales
• Sokal RR & Rohlf FJ. 2012. Biometry. 4 Revised Edition,
Freeman and co., New York.
• Zar JH. 2009. Biostatistical Analysis. 5 Edition, Pearson.
• Frontier S, Davoult D, Gentilhomme V & Lagadeuc Y. 2007.
th
th
•
•
•
Statistique pour les sciences de la vie et de l’environnement.
Cours et exercices corrigés. Dunod.
Triola MM & Triola MF. 2006. Biostatistics for the Biological and
Health Science. Pearson. Traduction française en 2009 :
Biostatistiques pour les sciences de la vie et de la santé.
Scherrer B. 2008-2009. Biostatistiques volumes 1 et 2. Gaëtan
Morin.
Millot G. 2014. Comprendre et réaliser les tests statistiques à
l'aide de R. 3ème édition. De Boeck.
•
•
•
•
•
Simplifiées
Dytham C. 2011. Choosing and Using Statistics. A Biologist’s
Guide. 3rd Edition. Blackwell Publishing.
McKillup S. 2011. Statistics Explained. 2nd Edition. Cambridge
University Press.
van Emden H. 2008. Statistics for Terrified Biologists. Blackwell
Publishing.
Plus spécialisées
Legendre P & Legendre L. 2012. Numerical Ecology. 3rd English
Edition. Development in Environmental Modelling, 20. Elsevier.
Underwood AJ. 1997. Experiments in Ecology. Cambridge
University Press.
•
•
Quelques logiciels
•
•
•
•
•
•
•
R (www.r-project.org)
Statdisk (http://statdisk.com/)
XLStat (www.xlstat.com) €
Minitab (www.minitab.com) €
JMP (www.jmp.com) €
Statistica (www.statsoft.com) €
SAS (www.sas.com/technologies/analytics/stat) €
1.
INTRODUCTION
RAPPELS
• Statistique : Etude scientifique des données
numériques décrivant les variations naturelles
• Biostatistique
• Application à la biologie
• Important : savoir décider de la méthode à utiliser
• Bien connaître les méthodes : conditions
d’utilisation, limitations, ...
• Penser aux statistiques avant de collecter les
données
Utilité et utilisation des
statistiques en biologie
• Description
• Vue synthétique et rationnelle des données
• Inférence
• Economie de travail par l’étude d’échantillons
représentatifs
• Décision
• Test d’hypothèse
Pourquoi utiliser les
statistiques en biologie?
• Biologie : incertitude des résultats expérimentaux
ou des observations
• Variabilité génétique
• Variabilité de réaction individuelle
• Variabilité du développement
Définitions
• Objet = observation = élément = unité
d’échantillonnage : élément sur lequel on mesure des
caractéristiques (variables)
• Echantillon : ensemble des objets
• Population cible : ensemble des objets visés par une
étude scientifique
• Population statistique : ensemble des objets
représentés par l’échantillon. C’est sur elle que se fait
l’inférence
• Variable = descripteur = facteur = trait :
caractéristique mesurée ou observée sur les objets.
Ex : longueur, température, ...
• Variable dépendante (Y) = réponse
• Variable indépendante (X) = explicative
• Variable aléatoire : résultat d’un processus
aléatoire, valeur précise inconnue avant la mesure
• Variable contrôlée : décidée par l’expérimentateur,
erreur = mesure seulement
• Paramètre : caractéristique quantitative
permettant une représentation condensée
d’information contenue dans un ensemble de
données. Ex : moyenne, pente, ...
• Variance = inertie = carré moyen : somme des
carrés des écarts à la moyenne (SCE)/nombre
d’objets (paramètre de dispersion)
• Ecart-type (standard deviation) : racine carrée de la
variance. Même unité que la variable
2
Sx = √Sx
• Erreur-type (standard error) : écart-type de la
distribution d’échantillonnage de la moyenne
(dispersion des estimations de la moyenne de
plusieurs échantillons d’une même population). Sert
à calculer un intervalle de confiance
• Interprétation de l'écart-type
• Barres d'erreurs : attention !
?
Variables
●
●
●
●
●
1 cause : 1 effet
Force de frappe
Modèle aléatoire
Croissance
Intensité de la déformation
Modèle déterministe
●
●
●●
● ●
●
● ●
●
●
1 cause : n effets
Dose d'engrais
variabilité
• Terme déterministe : loi du phénomène
• Terme aléatoire : variabilité du phénomène
• Hasard, fluctuations
• Autres facteurs, souvent à expliquer
• Analyse statistique : étude des phénomènes
stochastiques
• Discrimination de la loi du phénomène et de sa
variabilité
Différents types de variables
• Binaire : 2 états. Ex : présence-absence
• Multiple : plus de 2 états
• Non-ordonnée = qualitative = nominale. Ex : couleur
• Ordonnée
• Semi-quantitative = ordinale = de rang. Ex : classes
• Quantitative
• Discontinue = discrète. Ex : nombre d’individus
• Continue. Ex : longueur
• Transformations
• Standardisation : y' = (y - y)̅ /s (s = écart-type ;
on obtient une variable centrée et réduite).
y’̅ = 0 et s = 1, variables non-dimensionnelles
• Normalisation et stabilisation des variances :
y' = log (b0 + b1y) ; y' = √y ; ...
• Linéarisation
• Pondération
Statistiques descriptives
• Exploration des données
• A calculer avant chaque test
• Mesures standards : n, moyenne, variance (écart-type),
distribution (histogramme ou graphe de quantilenormale), ...
• Identifier les valeurs extrêmes ou aberrantes
• A ne pas oublier...
Statdisk - Explore Data
Printed on Mer 10 sep 2008 at 9:08
Statdisk - Scatterplot
Printed on Mer 10 sep 2008 at 9:08
X Value
Plans d’échantillonnage
• Principalement pour organismes fixes (ou localités, ...)
• Echantillonnage aléatoire : représentatif
• Aléatoire : chaque membre de la population a la
même probabilité d’être choisi
• Aléatoire simple : chaque échantillon de taille n a
la même probabilité d’être choisi. Condition pour
de nombreux tests
• Echantillonnage systématique : mieux avec des
informations supplémentaires (nombre total,
organisation spatiale)
• Risque (faible) de coïncider avec une
périodicité naturelle
• Echantillonnage aléatoire stratifié :
échantillonnage aléatoire au sein de zones
définies (strates), souvent selon des
caractéristiques définies (âge, sexe,
végétation, ...)
• Echantillonnage en grappe
• Division de la population en sections
(grappes)
• Sélection aléatoire des grappes
• Choix de tous les membres des grappes
sélectionnées
• Echantillonnage opportun
• En fonction des circonstances
• Sur les objets faciles à obtenir
• Exemple : réponses seulement de ceux qui
participent de façon active à un sondage
• Pas un bon plan d'échantillonnage !
Plans d’expérience
• Méthode expérimentale
• Travail sur un système simplifié dont on étudie la
réponse à la variation de peu de facteurs à la fois
• Important : rigueur
• Construction : hypothèse nulle et hypothèse contraire
• Répondre spécifiquement à une question (critère de
validité générale)
• Minimiser l’erreur de Type I
• Application : analyse de variance (ANOVA)
Concepts
• Elément d’observation
• Sur lequel on fait les mesures de la (des) variable(s)
• Ex : individus, quadrats, ...
• Unité d’expérimentation
• Contient les éléments
• Reçoit le traitement
• Ex : parcelle, bassin, ...
• Facteur : plusieurs valeurs possibles
• Niveaux ou traitements
• Contrôle
• Groupe non traité
• Traitement (placebo, manipulation seule, ...)
• Bloc
• Groupe d’unités d’échantillonnage, défini a priori
• Expérience de mesure d’un phénomène naturel
• En milieu naturel : pas (peu) de contrôle des variables
• Mesure du profil de variabilité du phénomène
• Expérience contrôlée
• Utilisation de traitements contrôlés
• Réduction de l’influence des autres facteurs
• Elimination
• Constance
• Inclusion dans l’analyse
• Répétition (= replication)
• Mesure de la variabilité du système (répétitions
biologiques, pas techniques)
• Pseudoréplication
• Due à la non-indépendance des observations, qui ne
sont pas alors de “vrais réplicats”
➡Validité générale
• Variations dues exclusivement au facteur étudié
➡Validité externe
• Généralisation à d’autres systèmes
• Simplification pas trop importante
Aléatoire
Blocs randomisés
Systématique
Ségrégation simple
Ségrégation agrégée
Ségrégation isolative
Répétitions physiquement
interdépendantes
Pas de répétitions
•
•
Tests statistiques
Important de bien définir l’hypothèse nulle (H0)
• La seule que l’on étudie = hypothèse principale
• Contient généralement "="
• La statistique testée possède une distribution connue
Hypothèse contraire (H1 ; "hypothèse alternative")
• Contient généralement "≠", ">"ou "<"
On
ne
peut
la
prouver,
elle
est
plausible
si
H
est
0
• rejetée
• Grande importance de l’hypothèse biologique
• Statistique ≠ magie !!
Conditions
• En général 3 conditions pour un test :
• Loi (Normale, Student, F, ...)
• Indépendance des observations
• Homogénéité des variances (homoscédasticité)
• Loi de distribution théorique générée à partir des
processus naturels, sous certaines conditions :
probabilité d’apparition de toutes les valeurs d’une
variable
• Besoin de tester la distribution observée sur
l’échantillon (impossible sur la population)
• Erreur de Type I (α) : probabilité de se tromper en
rejetant H0 (donc H0 est vraie). Seuil fixé
• Robustesse d’un test : sensibilité aux conditions
d’applications
• Un test est robuste s’il fonctionne bien même quand
les conditions nécessaires à son fonctionnement ne
sont pas optimales
• Puissance d’un test : capacité à mettre en évidence de
petites différences
•
Aptitude à rejeter H0 lorsqu’elle est fausse (= 1 - ß
(erreur de Type II))
• Fonction de : test, nombre d’observations, variance, α
H0
H1
p-value ("valeur-p")
• Test : calcul d’une statistique-test (ou variable auxiliaire,
p. ex. t ou F - voir plus loin) à l’aide des données
• On peut calculer (logiciel) la probabilité d’obtenir cette
valeur (ou une valeur plus extrême) dans le cas où H0
est vraie : c’est la p-value, P
• Interprétation en terme de rejet ou non de H , en
0
fonction du seuil α choisi, généralement 0,05 (5 %) :
• P > 0,05 : non rejet de H
• P ≤ 0,05 : rejet de H
0
0
Puissance d’un test : n optimal
• Question récurrente : de combien d’objets
(observations, prélèvements, ...) a-t-on besoin pour
établir une différence significative, s’il y en a une ?
• Exemple : utilisation de la statistique-test t
• Il faut d’abord estimer la variance et avoir une
idée de l’écart entre populations (étude préalable)
• Utilisation de la formule de t pour trouver le n
nécessaire à mettre en évidence un écart
significatif défini à l’aide de la valeur critique de t
• Importance de l’amplitude de la différence entre la
vraie valeur du paramètre testé et sa valeur supposée
par hypothèse
• On affine la puissance (en modifiant α, n, ...) en
fonction de l’écart choisi (qui dépend du degré de
précision souhaité)
• Exemple : si la vraie valeur est 0,5, un test plus
puissant est nécessaire pour identifier comme
significativement différente de celle-ci une valeur
mesurée de 0,501 qu’une valeur de 0,6
• On cherche souvent à obtenir une puissance de 0,8 :
80 % de chance de prendre la bonne décision de
rejeter une hypothèse nulle fausse
Test unilatéral ou bilatéral
•
• Unilatéral : la différence est attendue dans un certain
Dépend de la formulation de H1 : hypothèse biologique
sens (> ou <).
• Bilatéral : on cherche seulement à savoir s’il y a une
différence, quel qu’en soit le sens.
• Valeurs critiques différentes (dans les tables statistiques) :
seuils à partir duquel on rejette H0
➡Différence au niveau de la puissance
•
• Risque d’erreur due à la variabilité des observations
• Référence à une distribution, dans laquelle se place la
But du test : savoir si on doit rejeter ou non H0
statistique (= paramètre) testée
• Loi de distribution théorique
• Exemple de la loi Normale : tests paramétriques
• Génération empirique de la distribution
• Tests par permutations
• Pas de distribution
• Tests non paramétriques
• Les tests non paramétriques sont basés sur la
notion de rang
• Permettent de mettre en évidence des relations
monotones
• Pour 2 variables : augmentation ou diminution
constante d’une variable quand l’autre augmente
monotones
non monotone
Test par permutations :
exemple
• 20 individus en 2 groupes de 10 ; variable = taille
• Question : la taille moyenne est-elle différente dans
chaque groupe ?
•
• Statistique testée (= variable auxiliaire) : différence
H0 : la taille moyenne est la même
entre les moyennes
•
Sous H0, elle devrait se situer “autour de 0”
• N’importe quelle combinaison aléatoire de 2 groupes
de 10 parmi les 20 individus correspond à une
réalisation de H0
• Chacune de ces réalisations va donner une différence
de moyenne entre les deux groupes plus ou moins
grande
• Un grand nombre de ces réalisations permet de
générer une distribution de la statistique sous H0
• Ces réalisations sont obtenues en permutant au
hasard les données originales : test par permutations
• On compare ensuite la valeur observée de la
statistique à cette distribution
Statistic t
t* < –!t!
t* = –!t!
–!t!< t* <!t!
t* = !t!
t* > !t!
8
0
974
1†
17
Distribution théoriques
• Variables discontinues
• Loi binomiale
• Loi de Poisson
• Variables continues
• Loi Normale
• Loi du Khi-2 (X )
• Loi de Fisher
• Loi de Student
2
• Distribution la plus importante : distribution Normale
(= Gaussienne)
• Théorème de la limite centrale (central limit theorem)
• “Quand une variable aléatoire résulte de nombreux
effets indépendants et additifs, dont aucun n’est
dominant, cette variable tend à suivre une
distribution normale, même si les effets ne suivent
pas une telle distribution”
• Souvent le cas dans la nature
• Normalité : évaluation visuelle de la distribution des
données
• Histogramme : “en cloche”
• Graphe quantile-normale (= quantile-quantile) :
points en ligne droite
• Mieux pour petits échantillons
Statdisk - Normal Quantile Plot
Printed on Mar 9 sep 2008 at 14:40
X Value
Tests de normalité
• A faire avant d’utiliser les tests paramétriques
• Exemple : test de Shapiro-Wilk, Kolmogorov-Smirnov, …
H
:
Distribution
normale
• 0
• Données multinormales : test de multinormalité
• Test de Dagnelie
Transformations
• Beaucoup de méthodes d’analyse statistiques
requièrent que les données suivent une certaine
distribution, notamment la distribution Normale
• Si la distribution n’est pas normale
• Méthodes non-paramétriques
• Transformation des données : normalité
• Autre intérêt : stabilisation des variances
(doivent être indépendantes des moyennes)
Exemples
• Données d’abondance
• Distribution asymétrique
• Distribution de Poisson
• Distribution contagieuse
• Données en proportions ou pourcentages
• Transformation Logarithme
• y’ = ln(y + c)
• Distributions contagieuses
• Transformation racine
• y = √(y + c)
• Distributions de Poisson : variance = moyenne
• Transformation arcsinus
• y = arcsin√p
• Distributions en proportions
• Transformation Box-Cox
• Formule générale
• Quand tout le reste a échoué
• Pas calculable à la main : technique itérative
Choix d’une méthode
• 1 variable
• 2 groupes : test t, test U, ...
• > 2 groupes : ANOVA, ANCOVA, test de Kruskal-Wallis, ...
• 2 variables
• Liaison : corrélation, test du Χ
• Modèle : régression simple
• > 2 variables
• Description : ordination sans contrainte, groupement
• Test : test de Mantel, régression multiple, analyse canonique,
2
MANOVA
Téléchargement