Statistiques appliquées Les statistiques permettent de dégager les significations des données. Il faut : Décrire les données (graphe, moyenne…) Faire un test statistique adapté Interpréter et discuter Il existe deux sortes de variables : quantitatives (rendement, poids, taille…) et qualitative (sexe, variété…). La variable peut prendre différentes modalités (valeurs). Variable quantitative : Indicateur utiles : moyenne (mean), écart-type (sd), coefficient de variation (CV). Il est possible d’analyser une variable en formant des modalités (i.e. des groupes). Graph des moyennes : donne les moyennes de deux modalités. Barres d’erreurs sont soit écart type, soit un intervalle de confiance (si 95%, alors 95% des échantillons auront une moyenne comprise dans cet intervalle). Si les barres d’erreur de l’IC ne se chevauchent pas, les modalités sont significativement différentes. Boite à moustache / boxplot : montre la répartition des valeurs de la variable en quartiles. On a max et mini. Histogramme : représentation graphique des valeurs de la variable. Centrage et réduction : Transforme une variable pour donner une moyenne nulle et un écart type de 1. Permet de normaliser les données et de s’affranchir d’un effet d’échelle. Par exemple, pour une dégustation de vin on va normaliser les notes données par chaque membre du jury. On peut obtenir de variables centrées réduites mais on peut aussi : Pondérer par rapport à une mesure (choisi une référence) Pondérer par la somme totale des mesures Pondérer une valeur par ce qui la produit (métabolite pondérer par rapport à la qté de son précurseur) La notation des descripteurs : Population Effectif N Moyenne arithmétique µ Variance σ² Ecart-type σ Echantillon Effectif Estimateur de la moyenne Estimateur de la variance Estimateur de l’écart-type n 𝑥̅ S² S Choisir le test : Données qualitatives : Tests d’effectifs de khi² Variables quantitatives considérées en même temps : Une : analyse univariée Deux : analyse bivariée i.e. corrélation Plus : analyse multivariée Bilatéral ou unilatéral : Dans le doute prendre bilatéral Unilatéral si on est certain du sens de la différence avant la collecte de résultats (ex : dépollution) Les deux familles de tests : Statistiques paramétriques : suit une loi de distribution (loi normale…) Statistiques non-paramétriques : aucune hypothèse de distribution Tests non-paramétriques : Utilise les groupes pour déterminer qui est différent H0 est : la différence est significative. Soit la p-value la probabilité de commettre une erreur de première espèce (rejeter à tort). Si la p-value est inférieure à α (souvent 5%) les différences sont significative. One puissance de 90% (β = 10%) signifie qu’on donne 90 chances sur 100 de mettre en évidence une différence. Bilan sur les tests non-paramétriques : Pas d’exigence sur les distributions/variances. Pas possible d’analyser 2 facteurs et leurs interactions. Tests paramétriques : Il y a des conditions à vérifier avant et après le test !! Généralement si la répartition suit une loi normale et l’homogénéité des variances (homoscédasticité). Il ne faut pas que la variance augmente avec les valeurs des variables. ANOVA : tests sur les résidus à faire après l’ANOVA. Adjusted R-squared donne la part de variance expliquée par le modèle. Pour tester la normalité des résidus, le diagramme quantile-quantile (Q-Q plot) donne une représentation de ce que devrait suivre les points. Pour le test ANOVA, on fait un test de comparaison multiple. On obtient les intervalles de confiances : si cet intervalle contient 0, ce n’est pas significatif. Sinon on utilise les classes de tukey qui utilise les groupes. ANOVA a deux facteurs : on effectue un test de Leven en prenant les deux facteurs. On peut en déduire différentes interactions grâce au graph des effets. Transformation des données : Si les résidus ne suivent pas une loi normale on peut essayer de transformer les données (log, inverse, carré…). Les corrélations : La corrélation permet de quantifier la liaison mathématique entre deux variables quantitatives. On visualise les données grâce à un graph nuage de points. Il existe 3 tests de corrélation : Pearson (paramétrique, vérifier la normalité de chaque variable avant) Spearman (non-paramétrique) à préférer Kendall (non-paramétrique) On obtient un coefficient de corrélation qui varie entre -1 et 1. Quand on a plusieurs variables on peut faire une matrice de corrélation pour voir qui est corrélé avec qui. Il faut prendre en compte l’effet « tests multiples ». On utilise la corrélation de Holms par défaut. Les analyses multivariées : On s’intéresse à la distribution conjointe de plusieurs variables. Sous Rcmdr on fait des ACP. C’est une méthode descriptive qui représente sous forme graphique l’essentiel de l’information contenue dans un tableau de données quantitatives. Fournit des plans factoriels qui déforment la réalité. On a le % de variance expliqué par les deux axes et on peut voir se former des groupes. Il est aussi possible de faire de la classification hiérarchique (arbre phylogénétique). On peut également faire un Manova : il faut que les groupes suivent une loi normale, homoscédasticité des groupes pour chaque variable, l’homogénéité des covariances et des échantillons assez larges : 20 individus/groupes. Le heatmap, souvent associé un clustering hiérarchique, permet de visualmiser chaque variable dans chaque modalités (ex : différentes protéines dans différents individus). Tests d’effectifs de données qualitatives : Distribution suivant une loi : test de conformité à une loi Distribution ne suivant pas une loi particulière : test khi² Test de conformité, par exemple test de triangulation : 3 échantillons dont 1 différents des 2 autres. Par hasard on s’attend à ce que 1/3 des participants désignent le produit différent. On test significativité avec une loi binomiale. Test khi² doit remplir plusieurs critères. Chaque classe doit avoir une valeur théorique non nulle, 80% des classes doivent avoir une valeur théorique supérieure ou égale à 5. La régression : Il y a plusieurs types de régression : Régression linéaire : 𝐲 = 𝐚𝐱 + 𝐛 Régression linéaire multiple : 𝐲 = 𝐚𝟏 𝐱𝟏 + 𝐚𝟐 𝐱𝟐 Régression polynomiale : 𝐲 = 𝐚𝟏 𝐱𝟏𝟑 + 𝐚𝟐 𝐱𝟐𝟐 + 𝐚𝟑 𝐱𝟑 Et bien plus… La régression permet de quantifier la force d’une relation. Cela permet également de faire de l’analyse de prédiction. Il existe différentes méthodes, donc la méthode des moindres carrés, moindres carrés partiels, le maximum de vraisemblance... Ces méthodes diffèrent sur leur algorithme, leur sensibilité et les hypothèses vérifiées. On fait une régression linéaire sur les deux variables. On obtient une équation. Pour que le modèle soit valide, il faut que les résidus se répartissent de façon aléatoire autour de zéro. Si ce n’est pas le cas, il est possible de transformer les données. Régression linéaire multiple : Quels sont les facteurs corrélés à la grandeur étudiée ? On fait une matrice de nuage de points pour visualiser les effets. On fait ensuite une régression linéaire multiple et on obtient les différents coefficients en fonction des facteurs, ainsi que leur significativité. Si la P-value est supérieure à 5% il n’est pas utile de mettre le facteur dans l’équation. On va ainsi cherche le modèle le plus représentatif de la réalité, en éliminant les facteurs non significativement corrélés. Cas des données cinétiques : Il faut transformer les données en paramètres d’intérêts (par exemple absorbance maximale). On va soit ajuster soit lisser les cinétiques étudier sur un modèle pour obtenir ces paramètres. Fitting versus smoothing : Le lissage (smoothing) va réduire la distance entre les points successifs pour lisser la courbe. La force du lissage dépend de l’expérimentateur. Il ne faut pas que le lissage soit trop fort pour coller aux données. L’ajustement sur modèle (fitting) nécessite un modèle qui colle aux courbes. Si le modèle est bon, l’ajustement peut être pertinent même sur un nombre de valeurs limité. Il est possible d’ajuster des modèles par portions (morceaux). La variabilité : Les plans d’expériences cherchent à minimiser la variabilité non contrôlée (bruit de fond). C’est un phénomène naturel qui ne peut être supprimé, mais il faut le prendre en compte pour seulement considérer la variabilité liée aux facteurs qui nous intéressent. Une mesure peut être juste et/ou répétable. Si elle est répétable elle fournit des résultats similaires dans des conditions précises. Une méthode est reproductible si elle fournit des résultats similaires dans plusieurs conditions opératoires. On peut parler de mesures directes ou indirectes. Le plan d’expérience : Les effets de bords/de position : La température n’est pas homogène partout, la croissance dépend plus de la position que de ce qui est dans le puit. Les effets blocs aléatoires Si on a une expérience qui demande deux plaques, une entière pour un milieu et la deuxième pour un autre milieu, il ne faut pas faire un milieu par plaque. Il faut randomiser. Les effets blocs avec dérive Lorsqu’une expérience demande des répétitions qui se font dans la durée, il peut y avoir une dérive à cause d’un antibiotique qui se dégrade au cours du temps et donc les souches poussent mieux, ou alors des différences d’humidité ou de température en fonction du jour de manipulation… Il existe des méthodes de correction s’il y a une dérive. L’effet bloc peut être pris en compte par l’ANOVA pour ne pas être confondu avec un facteur d’intérêt. Il faut qu’il y ait une adéquation entre le plan qui est proposé et la méthode utilisé. Sinon, on peut avoir une méthode qui est efficace mais ne jamais trouver de résultats significatifs. Il faut aussi choisir le nombre de répétitions qui est utile. Pas la peine d’en faire trop si ce n’est pas nécessaire. Plan factoriel complet et explosion combinatoire : On veut tester l’impact de 17 composés sur la croissance d’une levure. Si on veut prendre trois valeurs par composé, il faut faire 129 140 163 essais : explosion combinatoire. Il existe des méthodes pour réduire le nombre d’essais : Matrices de Hadamard : plan d’expériences sans interactions, 2 modalités par facteur. Plan factoriel 2k fractionnaire : k facteurs étudiés avec 2 modalités, interactions calculées. Plans de Tagushi : 2 modalités mais sans les interactions. Les matrices de Hadamard : Il y a au moins un essai en plus que le nombre de facteurs, et le nombre d’essais doit être un multiple de 4. On prend la ligne qui convient dans la table avec les signes + et – ([ ] haut et [ ] basse). A partir de cette ligne on fait des permutations circulaires jusqu’à ce qu’on arrive avant la première ligne, et on ajoute une ligne de signes -. On randomise les lignes pour avoir le plan d’expérience. Technique extrêmement puissante pour cribler k facteurs.