Traitement des Données Biologiques : bases statistiques

publicité
généralités
statistique descriptive
Traitement des Données Biologiques :
bases statistiques
M1 - MABS
Maxime Bonhomme
UMR CNRS-UPS 5546, Laboratoire de Recherche en Sciences Végétales, Castanet-Tolosan
12 septembre 2011
généralités
statistique descriptive
Bases statistiques pour le TDB
1
généralités
qu'est-ce que la statistique ?
quelques dénitions
2
statistique descriptive
distribution statistique : variables
distribution statistique : paramètres
représentation
série statistique à deux variables quantitatives
check-list pour une analyse statistique
généralités
statistique descriptive
GENERALITES
généralités
statistique descriptive
qu'est-ce que la statistique ?
dénition
science formelle, méthode et technique (ensemble de méthodes)
science de collecter, organiser, analyser et interpréter des données
(analyser les variations entre observations)
le but est de disposer d'un outil d'aide à la décision
démarche générale
collecte des données : plan d'expérience, échantillonnage
traitement des données : description, estimation de paramètres, tests
d'hypothèses
interprétation et conclusion
exemples de problèmes abordés
eet d'un traitement, comparaison phénotypique de lignées (ex : analyse
de mutants)
analyse d'expression (microarrays), association génotype phénotype...
généralités
statistique descriptive
quelques dénitions
population : ensemble ni ou inni des objets d'une étude statistique
individu (unité de base ou unité statistique) : entité sur laquelle porte
l'étude, et élément de la population
- étudiant : notes, âge, catégorie,...
- plante : taille, taux de croissance, teneur,...
- lignée : taux de germination, précocité,...
- gène : nombre de transcrits, activation,...
échantillon : sous-ensemble de la population sur lequel sont eectuées les
observations. Petit Robert : "petite quantité d'une marchandise que l'on
montre pour donner une idée de l'ensemble"
eectif : nombre total d'individus d'une population ou de l'échantillon
variable ou caractère : propriété étudiée sur les individus (variable
aléatoire)
-
-
qualitative :
*
nominale non ordonnée : couleur, forme,...
*
nominale binaire : sexe, gauche/droite,...
*
ordinale : petit/moyen/grand, score, expression...
quantitative :
*
discrète (dénombrable) : nombre de racines latérales,...
*
continue : taille, poids, concentration, temps, ratio d'expression,...
distinction intervalle / rapport : le zéro est arbitraire dans une variable d'intervalle (ex :
température), et signie l'absence de caractère dans une variable de rapport (ex : poids, vitesse)
généralités
statistique descriptive
quelques dénitions
série statistique : suite d'observations réalisées sur un échantillon ou une
population
variable aléatoire : fonction dénie sur l'ensemble des éventualités,
c'est-à-dire l'ensemble des résultats possibles d'une expérience aléatoire.
En particulier, si on change d'échantillon les résultats ou valeurs changent
statistique descriptive :
- organisation et description d'un ensemble de données
- extraction d'information
statistique inférentielle :
- généralisation de l'échantillon à la population (tests d'hypothèses)
- estimation de paramètres
généralités
statistique descriptive
quelques dénitions
plan d'expérience
dispositif expérimental permettant la collecte des données en vue de
répondre à une question donnée
associé à la méthode statistique utilisée pour analyser les données
- plans factoriels (exemple : deux traitements sur le même lot de personnes, sans interaction
entre traitements)
traitement B
placebo de B
(n=200)
(n=200)
traitement A
traitement A traitement B
traitement A placebo B
(n=200)
(n=100)
(n=100)
placebo A
placebo A traitement B
placebo A placebo B
(n=200)
(n=100)
(n=100)
- plans expérimental en blocs aléatoires complets -PEBAC- (exemple : eet de diérents
traitements entre unités expérimentales, en champs). Le but est de réduire l'erreur
expérimentale en éliminant la contribution de sources connues de variation entre les unités
expérimentales
3
2
4
2
1
4
1
5
6
5
6
3
5
3
4
5
2
4
6
1
2
3
6
1
PEBAC relatif à la comparaison de six éléments : exemple de six fumures diérentes, numérotées de 1 à 6
au sein de quatre blocs
généralités
statistique descriptive
STATISTIQUE DESCRIPTIVE
généralités
statistique descriptive
distribution statistique : variables
Variable qualitative
variable qualitative
fréquence (eectif) absolue : nombre d'observations par catégorie (ni )
fréquences relatives : proportion d'observations de la catégorie par rapport
à l'ensemble p de catégories
n
(1)
fi = Pp i
i =1 nk
fréquences cumulées (si variable ordonnée) :
Ni =
i
X
nk
i =1
i
X
Fi =
fk
i =1
(2)
(3)
généralités
statistique descriptive
distribution statistique : variables
Variable qualitative
représentation : diagramme en barres
induit
inchangé
réprimé
0
100
200
300
400
500
régulation (après traitement)
généralités
statistique descriptive
distribution statistique : variables
Variable qualitative
représentation : camembert
présidentielle 20XX
UMP
PS
Divers
Verts
Centre
Front gauche
FN
généralités
statistique descriptive
distribution statistique : variables
Variable quantitative
variable quantitative
répartition en classes
fréquence (eectif) absolue : nombre d'observations par classe (ni )
fréquences relatives : proportion d'observations de la classe par rapport à
l'ensemble p des classes
n
(4)
fi = Pp i
i =1 nk
fréquences cumulées (si variable ordonnée) :
Ni =
i
X
nk
i =1
i
X
Fi =
fk
i =1
(5)
(6)
généralités
statistique descriptive
distribution statistique : variables
Variable quantitative
représentation : histogramme
graphique représentant une distribution statistique par des rectangles
verticaux de surface proportionnelle aux eectifs
200
100
0
frequency
300
400
log2 fold change
−5
0
5
10
règle de Sturges : Nb classes ∼ log 2(n) + 1
généralités
statistique descriptive
distribution statistique : paramètres
Tendance centrale
paramètres d'une distribution (xi , i=1,...,n) : tendance centrale
moyenne :
n
1X
m=
x
n i =1 i
n
X
m=
xk pk
i =1
(7)
(8)
avec pk = nk /n
médiane : valeur en dessous de laquelle sont situées 50% des observations
quartiles : valeurs à 25%, 50% et 75% de l'eectif
centiles : valeurs à x % de l'eectif
mode : valeur (ou classe) la plus fréquente
généralités
statistique descriptive
distribution statistique : paramètres
0.03
0.08
0.04
0.10
Tendance centrale
Density
0.04
0.02
0.00
0.02
0.01
0.00
Density
0.06
mode
moyenne
médiane
40
50
60
70
80
90
0
5
10
15
20
25
30
35
généralités
statistique descriptive
distribution statistique : paramètres
Tendance centrale
autres moyennes
moyenne arithmétique pondérée : valeurs (X = x1 , x2 , ..., xn ) aectées de
coecients (W = w1 , w2 , ..., wn ).
Pn
wx
m = Pi =n1 i i
(9)
i =1 wi
moyenne harmonique, si fractions (ex : calcul de la vitesse moyenne) :
n
(10)
m = Pn 1
i =1 x
i
moyenne géometrique, si multiplicatif ou cumulatif (ex : carré et rectangle
de même surface) :
v
u n
uY
m = t xi
(11)
i =1
n
ex : le carré√(rectangle moyen à deux côtés égaux) qui a même surface qu'un rectangle de côtés 3 et 7 a
pour côté 2 3 ∗ 7 = 4.58
généralités
statistique descriptive
distribution statistique : paramètres
Dispersion
paramètres d'une distribution (xi , i=1,...,n) : dispersion
variance (= moment centré d'ordre 2) :
n
1X
sn2 =
(x − m )2
n i =1 i
n
X
sn2 =
(xk − m)2 pk
i =1
(12)
(13)
valable que si on connait la vraie moyenne de la population. Donc 1 degré de liberté de moins
correspondant au calcul de la moyenne (ddl = nb de valeurs qui sont libres de varier dans le calcul
nal de la statistique) :
X
s 2−1 = n −1 1 (x − m)2
(14)
=1
n
i
n
i
notations
:s
m et s 2 (s ) : estimateurs de la moyenne et de la variance (écart-type) de la population à partir de
écart-type (standard déviation -SD)
l'échantillon
µ et σ 2 (σ ) : vraie moyenne et variance (écart-type) de la population
E(X ) et Var(X ) : espérance (moyenne) et variance de la variable aléatoire X
coecient de variation cv = s /m
généralités
statistique descriptive
distribution statistique : paramètres
Dispersion
0.3
Density
0.2
0.0
0.1
0.2
0.0
0.1
Density
0.3
0.4
m=0, s=2
0.4
m=0, s=1
−4
−2
0
x
2
4
−4
−2
0
2
4
x
propriétés de la variance
σ 2 (X ) = Var(X ) = E(X 2 )-E(X )2
σ 2 (X + Y ) = Var(X + Y ) = Var(X )+Var(Y ) (si X et Y indépendantes)
σ 2 (X − Y ) = Var(X − Y ) = Var(X )+Var(Y ) (si X et Y indépendantes)
généralités
statistique descriptive
distribution statistique : paramètres
Dissymétrie et aplatissement
paramètres d'une distribution (xi , i=1,...,n) : dissymétrie et aplatissement
aplatissement (kurtosis) :
n
X
n (n + 1)
3(n − 1)2
xi − x̄ 4
[
(
) ]−
(15)
(n − 1)(n − 2)(n − 3)
(n − 2)(n − 3)
i =1 s
= 0 pour une loi normale centrée réduite
> 0 pour une distribution "pointue"
< 0 pour une distribution "aplatie"
dissymétrie (skewness) :
n
(n − 1)(n − 2)
n
X
xi − x̄ 3
(
)
i =1
= 0 pour une distribution symétrique
> 0 pour une distribution étalée à droite
< 0 pour une distribution étalée à gauche
s
(16)
généralités
statistique descriptive
représentation
Représentation d'une série statistique
exemples de distributions de fréquences
20
30
40
50
60
0.15
0.10
0
10
30
40
50
60
0
20
30
40
50
60
30
40
50
60
50
60
0.20
frequency
0.15
0.20
0.15
0.05
0.00
0.05
0.00
10
20
sym_aplatie
0.10
frequency
0.15
0.10
0.05
0.00
0
10
sym_pointue
0.20
symétrique
20
0.10
10
0.00
0.05
frequency
0.10
0.00
0.05
frequency
0.10
frequency
0.05
0.00
0
frequency
bimodale
0.15
dissymétrie droite
0.15
dissymétrie gauche
0
10
20
30
40
50
60
0
10
20
30
40
généralités
statistique descriptive
représentation
Représentation d'une série statistique
Density
0.05
0.10
0.00
0.00
0.05
Density
0.10
0.15
0.15
0.20
boîte à moustache (boxplot)
−5
0
5
Q1
−5
0
Q2
5
10
15
0
10
20
30
10
15
0
10
20
30
Q3
Q 1 = quartile 1 (1er quart des données), Q 2 = médiane, Q 3 = quartile 1, 3ème quart des données ;
(nb : dans le cas d'une loi Normale, environ 95% des valeurs sont comprises entre les deux extêmes)
généralités
statistique descriptive
série statistique à deux variables quantitatives
Représentation
20
nuage de points
15
●
●
●
●
●
●
●
10
●
●
●
●
●
●
●
●
●
●
●
5
●
●
0
note_exam
●
●
●
0
5
10
note_année
15
20
généralités
statistique descriptive
série statistique à deux variables quantitatives
Liaison entre deux variables quantitatives
X
covariance
Cov(X , Y ) = σXY
= sxy =
et
Y
n
1X
(x − x̄ )(yi − ȳ )
n i =1 i
(17)
coecient de corrélation linéaire (Pearson)
s
(18)
r = xy
sx sy
avec
- x̄ et ȳ : estimateurs de la moyenne des variables X et Y
- sx et sy : estimateurs de l'écart-type des variables X et Y
- −1 < r < 1, r < 0 = corrélation négative, r > 0 = corrélation positive,
r = 0 pas de corrélation entre X et Y
- −∞ < sxy < +∞, sxy = 0 indépendance de X et Y
coecient de détermination = r 2
- 1 = ajustement parfait
- 0.7 < r < 1 = ajustement justié
- r < 0.7 = ajustement non justié
généralités
statistique descriptive
série statistique à deux variables quantitatives
●
●
● ●
●
20
20
exemple de corrélation
●
●
●
● ●●
●
●●
y1
10
y2
●
●
●●
●
●
●
r = −0.99
●●●
●
●
● ●
●
●
●
●
●
15
●
●
● ●●
●
●
●●
●
●
●
●
●
10
15
r = 0.99
●●
●
●
●
●●
●
●
●
● ●
5
5
● ●
●
●
●
●
● ●
●
●
5
10
15
20
●
−10
−5
0
x2
r = 0.02
●
20
●
r = 0.63
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−10
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
y4
●
●
●
●
●
10
●
●
●
5
10
●
●
●
●
●
●
●
●
●
●
●
●
15
30
●
●
●
9
0
y3
5
20
x1
0
●
●
●
●
0
0
●●
●
●
10
11
x3
12
13
0
5
10
x4
15
20
généralités
statistique descriptive
série statistique à deux variables quantitatives
Notion de régression
BUT : faire passer une droite qui passe au plus près des points
droite de régression yˆi = axi + b
les coecients de la droite de régression sont calculés de manière à minimiser la somme des carrés
des écarts entre les valeurs observées y et les valeurs estimées yˆ (méthode des moindres carrés)
i
i
S = min(
n
X
(
i
2
y
(19)
− ˆi ) )
sxy
sx
20
ax + b avec a =
i
15
●
●
●
●
●
10
note_exam
y=0.8x+3.8
●
●
●
●
●
●
●
●
●
cov=5.53
r=0.63
r²=0.40
●
●
●
●
●
●
●
●
5
=
y
●
0
droite de régression y
=1
0
5
10
note_année
15
20
généralités
statistique descriptive
check-list pour une analyse statistique
check-list
individu ?
population étudiée ?
échantillon ou population ?
eectif ?
variables :
nombre
nature
nombre de catégories (cas de var qualitative)
séries -variables- indépendantes ou appariées (ex : mesure à deux temps proches,
correction d'un ensemble de copies par deux examinateurs) ?
variable
xée (25 plantes choisies dans chacune des 4 parcelles d'une récolte : "parcelle" = xée)
aléatoire (100 plantes choisies au hasard sur les 4 parcelles d'une récolte : "parcelle" = aléatoire,
d'où accès à la distribution de la variable)
Téléchargement