généralités statistique descriptive Traitement des Données Biologiques : bases statistiques M1 - MABS Maxime Bonhomme UMR CNRS-UPS 5546, Laboratoire de Recherche en Sciences Végétales, Castanet-Tolosan 12 septembre 2011 généralités statistique descriptive Bases statistiques pour le TDB 1 généralités qu'est-ce que la statistique ? quelques dénitions 2 statistique descriptive distribution statistique : variables distribution statistique : paramètres représentation série statistique à deux variables quantitatives check-list pour une analyse statistique généralités statistique descriptive GENERALITES généralités statistique descriptive qu'est-ce que la statistique ? dénition science formelle, méthode et technique (ensemble de méthodes) science de collecter, organiser, analyser et interpréter des données (analyser les variations entre observations) le but est de disposer d'un outil d'aide à la décision démarche générale collecte des données : plan d'expérience, échantillonnage traitement des données : description, estimation de paramètres, tests d'hypothèses interprétation et conclusion exemples de problèmes abordés eet d'un traitement, comparaison phénotypique de lignées (ex : analyse de mutants) analyse d'expression (microarrays), association génotype phénotype... généralités statistique descriptive quelques dénitions population : ensemble ni ou inni des objets d'une étude statistique individu (unité de base ou unité statistique) : entité sur laquelle porte l'étude, et élément de la population - étudiant : notes, âge, catégorie,... - plante : taille, taux de croissance, teneur,... - lignée : taux de germination, précocité,... - gène : nombre de transcrits, activation,... échantillon : sous-ensemble de la population sur lequel sont eectuées les observations. Petit Robert : "petite quantité d'une marchandise que l'on montre pour donner une idée de l'ensemble" eectif : nombre total d'individus d'une population ou de l'échantillon variable ou caractère : propriété étudiée sur les individus (variable aléatoire) - - qualitative : * nominale non ordonnée : couleur, forme,... * nominale binaire : sexe, gauche/droite,... * ordinale : petit/moyen/grand, score, expression... quantitative : * discrète (dénombrable) : nombre de racines latérales,... * continue : taille, poids, concentration, temps, ratio d'expression,... distinction intervalle / rapport : le zéro est arbitraire dans une variable d'intervalle (ex : température), et signie l'absence de caractère dans une variable de rapport (ex : poids, vitesse) généralités statistique descriptive quelques dénitions série statistique : suite d'observations réalisées sur un échantillon ou une population variable aléatoire : fonction dénie sur l'ensemble des éventualités, c'est-à-dire l'ensemble des résultats possibles d'une expérience aléatoire. En particulier, si on change d'échantillon les résultats ou valeurs changent statistique descriptive : - organisation et description d'un ensemble de données - extraction d'information statistique inférentielle : - généralisation de l'échantillon à la population (tests d'hypothèses) - estimation de paramètres généralités statistique descriptive quelques dénitions plan d'expérience dispositif expérimental permettant la collecte des données en vue de répondre à une question donnée associé à la méthode statistique utilisée pour analyser les données - plans factoriels (exemple : deux traitements sur le même lot de personnes, sans interaction entre traitements) traitement B placebo de B (n=200) (n=200) traitement A traitement A traitement B traitement A placebo B (n=200) (n=100) (n=100) placebo A placebo A traitement B placebo A placebo B (n=200) (n=100) (n=100) - plans expérimental en blocs aléatoires complets -PEBAC- (exemple : eet de diérents traitements entre unités expérimentales, en champs). Le but est de réduire l'erreur expérimentale en éliminant la contribution de sources connues de variation entre les unités expérimentales 3 2 4 2 1 4 1 5 6 5 6 3 5 3 4 5 2 4 6 1 2 3 6 1 PEBAC relatif à la comparaison de six éléments : exemple de six fumures diérentes, numérotées de 1 à 6 au sein de quatre blocs généralités statistique descriptive STATISTIQUE DESCRIPTIVE généralités statistique descriptive distribution statistique : variables Variable qualitative variable qualitative fréquence (eectif) absolue : nombre d'observations par catégorie (ni ) fréquences relatives : proportion d'observations de la catégorie par rapport à l'ensemble p de catégories n (1) fi = Pp i i =1 nk fréquences cumulées (si variable ordonnée) : Ni = i X nk i =1 i X Fi = fk i =1 (2) (3) généralités statistique descriptive distribution statistique : variables Variable qualitative représentation : diagramme en barres induit inchangé réprimé 0 100 200 300 400 500 régulation (après traitement) généralités statistique descriptive distribution statistique : variables Variable qualitative représentation : camembert présidentielle 20XX UMP PS Divers Verts Centre Front gauche FN généralités statistique descriptive distribution statistique : variables Variable quantitative variable quantitative répartition en classes fréquence (eectif) absolue : nombre d'observations par classe (ni ) fréquences relatives : proportion d'observations de la classe par rapport à l'ensemble p des classes n (4) fi = Pp i i =1 nk fréquences cumulées (si variable ordonnée) : Ni = i X nk i =1 i X Fi = fk i =1 (5) (6) généralités statistique descriptive distribution statistique : variables Variable quantitative représentation : histogramme graphique représentant une distribution statistique par des rectangles verticaux de surface proportionnelle aux eectifs 200 100 0 frequency 300 400 log2 fold change −5 0 5 10 règle de Sturges : Nb classes ∼ log 2(n) + 1 généralités statistique descriptive distribution statistique : paramètres Tendance centrale paramètres d'une distribution (xi , i=1,...,n) : tendance centrale moyenne : n 1X m= x n i =1 i n X m= xk pk i =1 (7) (8) avec pk = nk /n médiane : valeur en dessous de laquelle sont situées 50% des observations quartiles : valeurs à 25%, 50% et 75% de l'eectif centiles : valeurs à x % de l'eectif mode : valeur (ou classe) la plus fréquente généralités statistique descriptive distribution statistique : paramètres 0.03 0.08 0.04 0.10 Tendance centrale Density 0.04 0.02 0.00 0.02 0.01 0.00 Density 0.06 mode moyenne médiane 40 50 60 70 80 90 0 5 10 15 20 25 30 35 généralités statistique descriptive distribution statistique : paramètres Tendance centrale autres moyennes moyenne arithmétique pondérée : valeurs (X = x1 , x2 , ..., xn ) aectées de coecients (W = w1 , w2 , ..., wn ). Pn wx m = Pi =n1 i i (9) i =1 wi moyenne harmonique, si fractions (ex : calcul de la vitesse moyenne) : n (10) m = Pn 1 i =1 x i moyenne géometrique, si multiplicatif ou cumulatif (ex : carré et rectangle de même surface) : v u n uY m = t xi (11) i =1 n ex : le carré√(rectangle moyen à deux côtés égaux) qui a même surface qu'un rectangle de côtés 3 et 7 a pour côté 2 3 ∗ 7 = 4.58 généralités statistique descriptive distribution statistique : paramètres Dispersion paramètres d'une distribution (xi , i=1,...,n) : dispersion variance (= moment centré d'ordre 2) : n 1X sn2 = (x − m )2 n i =1 i n X sn2 = (xk − m)2 pk i =1 (12) (13) valable que si on connait la vraie moyenne de la population. Donc 1 degré de liberté de moins correspondant au calcul de la moyenne (ddl = nb de valeurs qui sont libres de varier dans le calcul nal de la statistique) : X s 2−1 = n −1 1 (x − m)2 (14) =1 n i n i notations :s m et s 2 (s ) : estimateurs de la moyenne et de la variance (écart-type) de la population à partir de écart-type (standard déviation -SD) l'échantillon µ et σ 2 (σ ) : vraie moyenne et variance (écart-type) de la population E(X ) et Var(X ) : espérance (moyenne) et variance de la variable aléatoire X coecient de variation cv = s /m généralités statistique descriptive distribution statistique : paramètres Dispersion 0.3 Density 0.2 0.0 0.1 0.2 0.0 0.1 Density 0.3 0.4 m=0, s=2 0.4 m=0, s=1 −4 −2 0 x 2 4 −4 −2 0 2 4 x propriétés de la variance σ 2 (X ) = Var(X ) = E(X 2 )-E(X )2 σ 2 (X + Y ) = Var(X + Y ) = Var(X )+Var(Y ) (si X et Y indépendantes) σ 2 (X − Y ) = Var(X − Y ) = Var(X )+Var(Y ) (si X et Y indépendantes) généralités statistique descriptive distribution statistique : paramètres Dissymétrie et aplatissement paramètres d'une distribution (xi , i=1,...,n) : dissymétrie et aplatissement aplatissement (kurtosis) : n X n (n + 1) 3(n − 1)2 xi − x̄ 4 [ ( ) ]− (15) (n − 1)(n − 2)(n − 3) (n − 2)(n − 3) i =1 s = 0 pour une loi normale centrée réduite > 0 pour une distribution "pointue" < 0 pour une distribution "aplatie" dissymétrie (skewness) : n (n − 1)(n − 2) n X xi − x̄ 3 ( ) i =1 = 0 pour une distribution symétrique > 0 pour une distribution étalée à droite < 0 pour une distribution étalée à gauche s (16) généralités statistique descriptive représentation Représentation d'une série statistique exemples de distributions de fréquences 20 30 40 50 60 0.15 0.10 0 10 30 40 50 60 0 20 30 40 50 60 30 40 50 60 50 60 0.20 frequency 0.15 0.20 0.15 0.05 0.00 0.05 0.00 10 20 sym_aplatie 0.10 frequency 0.15 0.10 0.05 0.00 0 10 sym_pointue 0.20 symétrique 20 0.10 10 0.00 0.05 frequency 0.10 0.00 0.05 frequency 0.10 frequency 0.05 0.00 0 frequency bimodale 0.15 dissymétrie droite 0.15 dissymétrie gauche 0 10 20 30 40 50 60 0 10 20 30 40 généralités statistique descriptive représentation Représentation d'une série statistique Density 0.05 0.10 0.00 0.00 0.05 Density 0.10 0.15 0.15 0.20 boîte à moustache (boxplot) −5 0 5 Q1 −5 0 Q2 5 10 15 0 10 20 30 10 15 0 10 20 30 Q3 Q 1 = quartile 1 (1er quart des données), Q 2 = médiane, Q 3 = quartile 1, 3ème quart des données ; (nb : dans le cas d'une loi Normale, environ 95% des valeurs sont comprises entre les deux extêmes) généralités statistique descriptive série statistique à deux variables quantitatives Représentation 20 nuage de points 15 ● ● ● ● ● ● ● 10 ● ● ● ● ● ● ● ● ● ● ● 5 ● ● 0 note_exam ● ● ● 0 5 10 note_année 15 20 généralités statistique descriptive série statistique à deux variables quantitatives Liaison entre deux variables quantitatives X covariance Cov(X , Y ) = σXY = sxy = et Y n 1X (x − x̄ )(yi − ȳ ) n i =1 i (17) coecient de corrélation linéaire (Pearson) s (18) r = xy sx sy avec - x̄ et ȳ : estimateurs de la moyenne des variables X et Y - sx et sy : estimateurs de l'écart-type des variables X et Y - −1 < r < 1, r < 0 = corrélation négative, r > 0 = corrélation positive, r = 0 pas de corrélation entre X et Y - −∞ < sxy < +∞, sxy = 0 indépendance de X et Y coecient de détermination = r 2 - 1 = ajustement parfait - 0.7 < r < 1 = ajustement justié - r < 0.7 = ajustement non justié généralités statistique descriptive série statistique à deux variables quantitatives ● ● ● ● ● 20 20 exemple de corrélation ● ● ● ● ●● ● ●● y1 10 y2 ● ● ●● ● ● ● r = −0.99 ●●● ● ● ● ● ● ● ● ● ● 15 ● ● ● ●● ● ● ●● ● ● ● ● ● 10 15 r = 0.99 ●● ● ● ● ●● ● ● ● ● ● 5 5 ● ● ● ● ● ● ● ● ● ● 5 10 15 20 ● −10 −5 0 x2 r = 0.02 ● 20 ● r = 0.63 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −10 ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● y4 ● ● ● ● ● 10 ● ● ● 5 10 ● ● ● ● ● ● ● ● ● ● ● ● 15 30 ● ● ● 9 0 y3 5 20 x1 0 ● ● ● ● 0 0 ●● ● ● 10 11 x3 12 13 0 5 10 x4 15 20 généralités statistique descriptive série statistique à deux variables quantitatives Notion de régression BUT : faire passer une droite qui passe au plus près des points droite de régression yˆi = axi + b les coecients de la droite de régression sont calculés de manière à minimiser la somme des carrés des écarts entre les valeurs observées y et les valeurs estimées yˆ (méthode des moindres carrés) i i S = min( n X ( i 2 y (19) − ˆi ) ) sxy sx 20 ax + b avec a = i 15 ● ● ● ● ● 10 note_exam y=0.8x+3.8 ● ● ● ● ● ● ● ● ● cov=5.53 r=0.63 r²=0.40 ● ● ● ● ● ● ● ● 5 = y ● 0 droite de régression y =1 0 5 10 note_année 15 20 généralités statistique descriptive check-list pour une analyse statistique check-list individu ? population étudiée ? échantillon ou population ? eectif ? variables : nombre nature nombre de catégories (cas de var qualitative) séries -variables- indépendantes ou appariées (ex : mesure à deux temps proches, correction d'un ensemble de copies par deux examinateurs) ? variable xée (25 plantes choisies dans chacune des 4 parcelles d'une récolte : "parcelle" = xée) aléatoire (100 plantes choisies au hasard sur les 4 parcelles d'une récolte : "parcelle" = aléatoire, d'où accès à la distribution de la variable)