La statistique descriptive

publicité
La statistique descriptive
• objectif : présenter les données
pour que l'on puisse en prendre
connaissance facilement
La statistique descriptive
• peut concerner :
– une variable à la fois : statistique à
une dimension
– deux variables à la fois : statistique à
deux dimensions
– plus de deux variables à la fois :
statistique multidimensionnelle
La statistique descriptive
• comporte :
– les tableaux : distributions de
fréquences
– les diagrammes : graphiques
– les paramètres statistiques : réduction
des données à quelques valeurs
numériques caractéristiques
Distribution groupée :
exemple
Classe
Ci
ni
fi
Ni
Fi
[140-160[
150
10
0,05
10
0,05
[160-165[
162,5
20
0,10
30
0,15
[165-170[
167,5
30
0,15
60
0,30
[170-175[
172,5
45
0,225
105
0,525
[175-180[
177,5
40
0,20
145
0,725
[180-185[
182,5
35
0,175
180
0,90
[185-190[
187,5
15
0,075
195
0,975
[190-200[
195
5
0,025
200
1,0
N=200
k = nombre de classes
S 1k fi =1
Polygone des fréquences
Exemple
Nombre de colonies
bactériennes/dm2
1
2
3
4
5
6
7
8
9
10
11
12
45
40
35
30
25
20
15
10
5
0
1
2
3
4
5
6
ni
5
7
15
25
35
45
32
28
16
12
3
1
7
8
9
1
0
11 12
Nombre de colonies bactériennes/dm2
Histogramme : exemple
Classe
[140-160[
[160-165[
[165-170[
[170-175[
[175-180[
[180-185[
[185-190[
[190-200[
ni
10
20
30
45
40
35
15
5
Densité (*10)
5
40
60
90
80
70
30
5
90
80
70
60
50
40
30
20
10
0
140
160
170 180
190
200
Diagramme sectoriel :
exemple
GROUPE
A
B
O
AB
ni
35
9
40
16
AB
A
O
B
La moyenne arithmétique :
• Appelée moyenne notée x
– Paramètre central qui concerne
bien évidemment uniquement des
variables quantitatives.
– Calculable quelque soit la loi qui
régit la distribution.
– Somme des valeurs (T) divisée par
le nombre de mesures (N).
– Suivant la forme de présentation
des observations, différentes
formules de calcul peuvent être
employées.
La moyenne arithmétique :
• Propriétés :
– Centre de gravité de la distribution.
– La somme des écarts à la moyenne est nulle.
– Affectée par les changements de variable.
• Si y = ax + b; on a :
y = ax + b
– La moyenne contrairement à la médiane est très
sensible aux valeurs extrêmes.
– La moyenne d'un groupe résultant de la fusion
d'autres groupes n'est égale à la moyenne des
moyennes que si tous les groupes ont le même
effectif.
– Si la distribution de la variable suit une loi normale, la
moyenne et la médiane et le mode sont confondus.
– La distribution des moyennes de petits échantillons
(N<30) indépendants tirés de la même population suit
une loi normale si la distribution de la variable est
normale.
– Au delà de 30, la distribution des moyennes suit une
loi normale sans condition sur la distribution de la
variable.
– La moyenne de l'échantillon est le meilleur estimateur
de la moyenne de la population.
La moyenne : formules
• Somme des valeurs / Nbre
d'observations
N = Nombre total de mesures,
p = Nombre de valeurs différentes observées,
ni = Nombre d'occurrences de chaque valeur observée.
fi = pourcentage de la valeur observée i
g = nombre de groupes
p
N   ni
i 1
n
i
fi = N  f  1
p
i
i =1
N
p
p
i 1
i 1
i 1
T   x i   ni xi  N *  fi xi
T
x

N
p
f x
i 1
i
i
La moyenne
• Exemples
• Soit la série statistique correspondant aux tailles de 6
étudiants : 160, 170, 180, 180, 190, 200
N = 6, T = 1080, x =1080/6 = 180
• Soit la distribution suivante
Nombre de colonies
bactériennes/dm2
1
2
3
4
5
6
7
8
9
10
11
12
p = 12
x = 1 366 / 224 = 6,098
ni
5
7
15
25
35
45
32
28
16
12
3
1
N = 224
ni*xi
5
14
45
100
175
270
224
224
144
120
33
12
T = 1 366
Les autres valeurs
centrales
• Les autres moyennes
– Moyenne géométrique d'une
série de valeur positives est la
racine Nième du produit des N
valeurs. Elle est toujours
inférieure ou égale à la moyenne
arithmétique.
Les autres valeurs
centrales
• Les autres moyennes
– Moyenne harmonique d'une
série de valeurs positives est
égale à l'inverse de la moyenne
des inverses.
Les autres valeurs
centrales
• Les autres moyennes
– Moyenne quadratique est la
racine carré de la moyenne
arithmétique des carrés.
Les autres valeurs centrales
• La médiane notée x(tilde) est telle que la moitié des
˜ inférieure (ou égale) et la
observations lui sont
moitié supérieure (ou égale) : xi tel que Fi = 0,5.
– Sur les distributions symétriques (normales par
exemple) la médiane est égale à la moyenne et au
mode.
– Paramètre peu sensible aux valeurs extrêmes
– Sur une distribution non groupée :
• Si N impair, la médiane est l'observation de rang
(N+1)/2
• Si N est pair, tout nombre entre xN/2 et xN/2+1
convient. On prend la moyenne (pondérée en cas
d'exaequo) entre ces deux valeurs.
– Sur distribution groupée, la classe médiane est celle
qui contient la médiane.
• Détermination graphique
• En admettant que les observations soient réparties
uniformément dans cette classe, on a :
x i  limite inférieure de la classe contenant la médiane
D i  amplitude de la classe contenant la médiane
xi -1 - xi
f i  fréquence relative de la classe contenant la médiane
F ( x i )  fréquence relative cumulée de la classe
x˜ = x i + D i *
0,5 - F( x i)
fi
Paramètres de dispersion
• Amplitude ou étendue
– Ecart entre la valeur de l'observation maximale
et celle de l'observation minimale.
– Non définie pour les distributions groupées
– On montre que l'écart type est toujours inférieur
ou égal à la moitié de l'amplitude.
– Dans les distributions unimodales en cloche
l'écart type est égal au tiers de l'amplitude pour N
de l'ordre de 10, au quart de l'amplitude pour N
entre 15 et 50, au cinquième pour des effectifs
de 50 à 200 et au sixième pour des effectifs de
200 à 1000.
• Ecart interquartiles
– Q3 -Q1
– Englobe 50% des observations
– On utilise parfois l'écart semi-interquartile (Q3Q1)/2
– Donne naissance à la représentation en
« boxplot »
71
210 268
342
741
Paramètres de dispersion :
Variance, Écart type
• Variance et écart type
– La variance (variance) d'une série
ou d'une distribution de fréquence
est la moyenne arithmétique des
carrés des écarts à la moyenne.
^
Paramètres de dispersion :
Variance, Écart type
• Variance et écart type
– C'est par rapport à la moyenne
que la somme des carrés des
écarts est la plus faible.
^
Paramètres de dispersion :
Variance, Écart type
• Variance et écart type
– La variance de l'échantillon est
notée S2. Ce n'est pas un bon
estimateur de la variance de la
population notée s2.
^
Paramètres de dispersion :
Variance, Écart type
• Coefficient de variation (cv)
– C’est le rapport de l’écart type
divisé par la moyenne
^
• Écart type de la moyenne
– Cf distribution des moyennes de
plusieurs échantillons
Paramètres de dispersion :
Coefficient de variation
• Le coefficient de variation CV
(Coefficient of variation,
percentage standard deviation)
– CV est le rapport écart type
divisé par la moyenne.
– CV est un nombre pur, sans
unités.
– CV est totalement indépendant
des unités.
– Le CV permet de comparer la
variabilité de distributions de
variables qui ne sont pas dans
les mêmes unités.
Statistique descriptive
à 2 dimensions
• Situations :
– Nature des variables : les deux
variables peuvent être quantitatives,
qualitatives ou l'une quantitative et
l'autre qualitative.
– Séries appariées : même variable
mesurée dans deux circonstances
• Avant - Après traitement
• Cas - Témoins on apparie un témoin
dépourvu de la maladie que l'on veut
étudier sur différents points que l'on sait
lier au phénomène étudié (par exemple
pour une étude de la mortalité on apparie
sur âge, sexe, ...)
– Séries non appariées
• Deux variables mesurées chez le même
individu par exemple poids et taille; poids
et couleur des yeux...
Tableaux statistiques à
deux dimensions et
représentation graphique
• Séries
• Distribution de fréquence
• Table de contingence
Poids Taille
70
170
80
180
65
165
75
175
90
182
73
170
60
162
68
165
83
180
...
...
Taille 60
162
1
165
170
175
180
182
Tot.
1
Poids 90
85
80
75
70
65
60
55
160 165 170 175 180 185
Taille
65
68
1
1
Poids
70 73
1
75
80
83 90
1
1
1
1
1
1
1
1
1
1
1
1
1
Tot.
1
2
2
1
2
1
9
Fréquences relatives
•
•
•
•
•
Nombre de mesure totale N
Total de chaque ligne = Li
Total de chaque colonne = Ci
Effectif d'une cas = nij
Fréquences relatives:
–
–
–
–
–
nij / Li
nij / Cj
Cheveux
nij / N
Yeux Blonds Bruns Autres
Li / N
Clairs
50
20
30
Cj / N
Tot. (Li)
100
Foncés
60
80
60
200
Tot. (Cj)
110
100
90
300
300 = Nombre total de mesures
100 = Nombre d'individus ayant les yeux clairs
110 = Nombre d'individus ayant les cheveux blonds
50 / 300 = % d'individus ayant les cheveux blonds et les yeux clairs
50 / 110 = % d'individus parmi les blonds ayant les yeux clairs
50 / 100 = % d'individus parmi les yeux clairs ayant les cheveux blonds
Covariance
– Variable quantitative
– cov (x,y) = moyenne des produits des
écarts à la moyenne. 1/N * S1N(xi-x)*(yi-y)
pour i = 1 à N
– si x' = ax+b et y'=cy + d,
on a Cov(x'y') = ac Cov (x,y)
– toujours inférieure ou égale au produit des
écart types
– positive = "nuage" croissant
– négative = "nuage" décroissant
• calcul :
N
S
Cov (x,y) =
i=1
x * y i
i
Tx
*
T
y
N
N
N
S
xi * y
i=1
= Txy = somme des produits
i
• sert au calcul du coefficient de corrélation r.
Table du Khi2
Table du t de Student
Qu’est ce
qu’un test statistique ?
•A. Hypothèses statistiques
•B. Tests d’hypothèses et de signification
•C. Quelques rappels de logique :
•D. Tests bilatéraux et tests unilatéraux
•E. Les erreurs de première et de deuxième
espèces
•F. Significativité ou niveau de signification
•H. Quelques exemples de questions
A. Hypothèses statistiques
•Ce sont des affirmations relatives aux
distributions de probabilité.
•Ces affirmations peuvent être vraie ou fausse.
•Dans la plupart des tests on formule une
hypothèse dans le but de la rejeter.
•Exemple :
•le pourcentage observé dans la population est de
10%. Si l’on veut décider que le pourcentage
observé dans un groupe particulier diffère du
pourcentage observé dans la population. On
supposera qu’il n’y a aucune différence. On peut
encore formuler cette hypothèse sous la forme :
•“Toutes les différences observées sont dues à
des fluctuations d’échantillonnage : dues au
hasard.
•Une telle hypothèse est appelée hypothèse nulle
notée H0.
•Toutes les autres hypothèses sont dites
hypothèses alternatives et sont notées H1.
B. Tests d’hypothèses
et de signification
•On appelle test d’hypothèses ou de
signification les procédés statistiques qui
permettent de décider si les hypothèses sont
vraies ou fausses afin d’appréhender la réalité
que l’on ne connaît pas.
•C'est un domaine des statistiques inférentielles
•Il existe des tests différents en fonction
•du type de variables étudiées (quantitative/qualitative)
•du type de problème (comparaison de 2
moyennes/comparaison de plus de 2 moyennes)
•des conditions d'application (modélisation en terme de
loi de probabilité)
•Cependant la suite logique du déroulement
d'un test est toujours la même
D. Tests bilatéraux
et tests unilatéraux
•L’hypothèse nulle H0 retenue est le plus
souvent l’égalité. Les hypothèses alternatives
peuvent être alors toutes les autres situations
que l’on peut diviser en deux grandes
catégories : plus grand que; plus petit que.
•Lorsque l’on considère l’ensemble des
hypothèses alternatives on parle de test
bilatéral.
•Lorsque pour des questions de bon sens à
priori, on ne considère qu’une partie des
hypothèses alternatives : soit plus grand que
soit plus petit que on parle de test unilatéral.
•ex : on désire comparer la taille des enfants de
3 et 4 ans. Le test est unilatéral, on ne
"raccourcit pas les gosses"
E. Les erreurs de première
et de deuxième espèces
Risques alpha et beta
•1. L’erreur de première espèce :
•Le système de décision que l’on emploie nous amène à
rejeter l’hypothèse nulle alors que celle si est vraie.
Exemple dans un essai concernant un nouveau
médicament par rapport à un médicament plus ancien, on
conclut à un différence des traitements alors que cela
n’est pas la réalité. On commet un erreur de première
espèce.
•2. L’erreur de deuxième espèce :
•Elle représente une situation en miroir du premier cas.
On accepte l’hypothèse nulle (le plus souvent d’égalité et
on conclut à l’équivalence) alors que dans la réalité ce
n’est pas vrai. Exemple dans un essai concernant un
nouveau médicament par rapport à un médicament plus
ancien, on conclut à l’équivalence des traitements alors
que cela n’est pas la réalité. On commet un erreur de
deuxième espèce.
•3. Remarque
•Dans les tests unilatéraux, on peut isoler un cas
particulier d’erreur dite de troisièmes espèce. C’est le cas
ou l’on accepte l’hypothèse alternative (on rejette
l’hypothèse nulle). On conclut alors à une différence
signée (A>B par exemple) alors que dans la réalité, il y a
une différence mais dans l’autre sens.
F. Significativité
ou niveau de signification p
•Lorsque l’on teste une hypothèse, la probabilité
avec laquelle on accepte de réaliser une erreur de
première espèce est appelée seuil de signification
du test et est notée usuellement alpha. Ce risque
est spécifié avant l’expérience, au moment où l’on
pose le problème.
•La probabilité avec laquelle on accepte de réaliser
une erreur de deuxième espèce est notée
usuellement beta.
•La probabilité de rejeter H0 alors qu’elle est
fausse est appelée puissance du test
Puissance = 1- beta
•Il n’y a pas de lien direct entre les deux risques
alpha et beta. L’idéal serait de choisir alpha et
beta aussi proche de 0 que possible. En général on
choisit alpha très petit = 0.05 et l’on essaie de
minimiser beta (en général 0,1).
Cf calcul du nombre de sujets nécessaires.
•Le seuil de signification p est la probabilité, sous
l’hypothèse nulle d’observer une telle différence
du fait du hasard (Cf étapes d’un test).
G. Les étapes d’un test
•1. Énoncé de H0 que l’on accepte
provisoirement
•2. Énoncé des hypothèses alternatives H1 et
choix d’un test bilatéral ou unilatéral
•3. Choix d’une statistique T (ex Khi2, t de
Student, Epsilon ...) : fonction des
observations dont on connaît la loi de
probabilité quand H0 est vraie et qui va
permettre de prendre une décision.
•4. Détermination de la valeur critique C
calculée d’après cette loi et d’après le risque
alpha accepté
•5. Calcul tiré de l’échantillon de la valeur
prise t par cette statistique T
•6. Comparaison de t et de C qui aboutit à
accepter ou à rejeter H0
•7. Calcul du seuil de signification p :
probabilité d’observer au moins cette
différence du fait du hasard.
Comparaison d’un pourcentage
observé à un pourcentage
théorique Situation du problème
• Situation du problème :
– Variable qualitative dichotomique
– Conformité d’un pourcentage observé à
un pourcentage théorique
• On exprime la question sous une
forme compréhensible mais qui ne
correspond pas à la réalité.
Strictement, le pourcentage observé
(Pobs) diffère du pourcentage
théorique (Pth) (par exemple Pobs =
0,07 et Pth = 0,025). Ce qui est
intéressant c’est de savoir si cette
différence peut être attribuée au
hasard ou encore si le pourcentage de
la population dont est tiré l’échantillon
observé peut être considéré comme
valant Pth.
– Problème fréquent
– Exemple : taux de décès au cours d ’un
intervention par rapport à une référence
nationale.
Comparaison d’un pourcentage
observé à un pourcentage
théorique. H0/H1
• Hypothèses
– Hypothèse nulle H0 :
• L’échantillon peut être considéré
comme issu d ’une population
ayant comme pourcentage PH0
– PH0 = Pth
– Hypothèses alternatives :
• Test bilatéral
– PH0 # Pth
• Test unilatéral
– PH0 > pth ou (exclusif) PH0< Pth
– Statistiques utilisables
• Khi 2
• Epsilon ou u (Loi normale)
• Remarque : ces deux tests sont
équivalents et ont les mêmes
conditions d ’application :
– N * Pth > 5
– N * (1-Pth) >5
On approche une loi binomiale par
une loi normale
• Si les conditions ne sont pas
remplies on prend une autre
méthode
Comparaison d’un pourcentage
observé à un pourcentage
théorique : Khi 2
• Utilisation du KHI2. Test Bilatéral
(unilatéral possible mais moins
habituel)
– Tableau des valeurs :
Décès Non Décès
O1
O2
C1 =
C2 =
Pth*N (1-Pth)*N
Effectifs Observés
Effectifs Théoriques
– Statistique : (O1-C1) 2
Khi 2 =
DDL = 1
C1
(O2-C2)
+
Total
N
N
2
C2
Conditions : C1 > 5 et C2 >5
– Valeur critique : table du Khi 2
•Pour alpha = 0,05 Khi2 à 1 DLL = 3,84
alpha
– Décision :
Khi 2 > Khi2 On rejette H0, on accepte H1
alpha
Il existe une différence statistiquement significative
au seuil de risque alpha. On lit dans la table le seuil
de significativité p
Khi 2< Khi2
alpha
On accepte H0.
Attention au risque Bêta
Khi2 : exemple
• Exemple :
– Dans un échantillon de 200 malades, on a
observé un taux de décès dus à une
maladie cardio-vasculaire de 30% alors
que la référence nationale est de 40%.
Peux -t- on considérer que le taux observé
est statistiquement différent du taux
national au seuil de risque 5% ?
– H0
PH0 = 0.4
– H1
Test bilatéral : PH0 # 0.4
Décès Non Décès Total
Effectifs Observés
60
140
200
Effectifs Théoriques
80
120
Note :
60 = 0,3 *200
80 = 0,4 *200
2
2
(60-80)
(140-120)
= 8,33
Khi 2 =
+
80
120
DDL =1
Khi 5% = 3,84 => Rejet de H0
DDL =1
Le pourcentage de décès observés
diffère de manière significative de
40% au seuil de risque 5%
Lecture dans la table de p : 0,001 < p < 0,01
(Khi2 = 10,83
Khi 2 = 6,63)
Comparaison de
pourcentages : séries
appariées : HO/H1
• Hypothèses
– Hypothèse nulle H0
• Si le comportement est le même avant et après
(entre cas et témoins) on doit s’attendre à avoir
le même effectif de paires discordantes : de
couple Oui -> Non et de couple Non -> oui. Le
pourcentage de changement doit être de 50%>.
• Ceci revient à un test de comparaison d’un
pourcentage observé {Oui -> Non / ( Oui->Non
+ Non->Oui) ou Non -> Oui / ( Oui->Non + Non>Oui )} à un pourcentage théorique 50%
– Hypothèse alternative H1
• Bilatéral :
– Le pourcentage de Oui->Non ou de Non>Oui différe de 50%
• Unilatéral
– On peut a priori s’attendre au sens
– Statistiques utilisables
• Khi 2 : Test de Mac Nemar
• Epsilon
• Dans les 2 cas, on approche une loi binomiale
par une loi normale => Conditions d’application
Comparaison d'une distribution
observée à une distribution
• Exemple 1 : théorique
–Dans un essai thérapeutique, on a testé un
médicament sur 200 patients. Les résultats ont été
notés en bons, moyens et mauvais. On a obtenu
les pourcentages de bons résultats suivants :
45% de bons résultats, 15% de résultats
moyens et 40% de mauvais résultats
Dans la littérature ce traitement donne 75% de
bons
résultats, 22% de résultats moyens et 3% de
résultats
mauvais. Les résultats observés sont-ils
conformes à ceux de la littérature?
•H0 : Les résultats sont conformes
•H1 : Les résultats ne sont pas conformes
Table de contingence
Bons
Moyens
Mauvais
Total
Obs.
90 (0,45*200)
30
80
200
Théo
150
44
6
200
2
2
2
(90-150)
(30-44)
+
+
150
30
2
DDL = 2; Khi20,001 =13,82 => p<0,001
(80 - 6)
Khi2=
= 941,12
6
La distribution n'est pas conforme à la distribution observée
dans la littérature. Les résultats obtenus sont statistiquement moins
bons que ceux de la littérature.
Remarque : le calcul d'un seul des termes du khi 2 (le dernier par
exemple) permet de rejeter H0.
Exemple
• Exemple 1 (suite)
O
487
Nancy
489,62
403
Metz
411,28
283
Dijon
280,55
Strasbourg
195
186,55
Total
1 368
390
340
A
396,56
333,11
227
227,23
151
84
75
51
32
151,09
1 108
B
86,61
72,76
49,63
33,00
242
39
22
12
3
AB
Total
1 000
27,20
840
22,85
573
15,59
381
10,36
76
2 794
Les conditions d’application sont remplies (tous les effectifs
théoriques sont supérieurs à 5).
2
2
(487 - 489,62)
(3 - 10,36)
Khi 2 =
+ ...... +
= 12,26
489,62
10,36
DDL = (4-1)*(4-1) = 9
Khi 2 5% pour DDL 9 = 16,92
On ne met pas en évidence de différence significative entre les
distributions des groupes sanguins dans les 4 villes.
Statistique t de Student
• Statistique :
– t de Student
• Condition d’application :
– Si N < 30 : Normalité de la distribution
(cf paramètres de symétrie et
d'aplatissement)
• Données nécessaires :
– Moyenne théorique m, moyenne observée
x
– Estimateur de l’écart type
– Effectif de l’échantillon N
t=
|x-m|
s
N
• Décision :
2
DDL = N-1
 t > t alpha lu dans la table : on rejette H0. Il y a
une différence significative. On recherche dans
la table le degré de signification p.
 Remarque : Pour décider, on aurait pu calculer
p et comparer p au risque alpha retenu. Si
p<alpha on rejette H0
Exemple
• Exemple :
– On tire au sort un échantillon de 100 comprimés de
valium d’un lot de fabrication qui doit fournir des
comprimés dosés à 5mg. On obtient les résultats
suivants : Total des valeurs T= 495, Total des
carrés des valeurs U = 2500. La fabrication peutelle être considérée comme conforme au dosage
prévu ? (on prend alpha = 5%)
– H0 : La fabrication est conforme.
x=
495
4,95
100
t=
5 - 4,95
s
4952
2 2500 - 100
=
100 - 1
= 0,5025
= 0,70 DDL = 99 talpha 5% = 1,96
0,5025
100
 Le t est inférieur au talpha 5% , je ne peux pas rejeter H0. La
fabrication peut être considérée comme conforme. Mais
attention au risque Bêta.
 Remarque : t est le rapport entre l’écart des moyennes et
l’ESM.
Exemple
• Exemple : Dans une production de médicaments,
la valeur théorique de la concentration de principe
actif doit être de 12mg. L’écart type de la
population est de 1 mg. On réalise tous les jours
un échantillon de 100 comprimés destiné au suivi
de la qualité. => Pour alpha = 5%, d = 2 * 0,1
• Sur 15 jours on a les résultats suivants :
Moyenne de
l'échantillon
11,99
11,91
11,83
12,13
12,24
12,07
11,96
12,04
12,11
11,86
11,91
11,86
11,82
11,96
11,94
Sur les 15 jours un seul point
est (j5) hors limite.
12,3
12,2
12,1
12
Borne Inf.
Moyenne
11,9
Borne Supérieure
Moyenne de l'échantillon
11,8
11,7
11,6
11,5
1
2
3
4
5
6
7
8
9
10
11
12
13 14
15
Corrélation
• Position du problème
– On désire savoir, dans une population
donnée, si le poids (y) et la taille (x) d'un
individu sont deux variables indépendantes
ou, au contraire, si elles sont liées en
étudiant les variation de l’une en fonction
de l’autre et réciproquement
– Si les variables sont indépendantes yi doit
avoir, en moyenne, la même valeur
quelque soit xi et inversement.
– Pour répondre au problème posé, on
reléve sur un échantillon de N individus, les
N couples de valeurs x,y
• Définition
covariance (X,Y)
r=
var(X) * var (Y)
• Le coefficient de corrélation mesure
l’association linéaire entre X et Y
• Il fait jouer un rôle symétrique à X et Y
• Il reste identique si on change d’unité ou
d’origine
Corrélation
• Tableau des valeurs :
Poids
70
60
50
70
55
Taille
180 Poids\Taille
50
175
55
160
60
180
70
160
160
1
1
175
180
1
2
• Représentation graphique
Nuage de points
P oi ds et T ai l l e
185
180
175
170
165
160
155
0
20
40
• Paramètres :
Moyennes, Écarts type estimés, Covariance,
Coefficient de corrélation
Éléments nécessaires :
Nombre de couples : N
Total des produits X*Y
Total des X et des Y
Total des carrés des X et des Y
60
80
Corrélation
• Régression et corrélation :
– x et y sont deux variables aléatoires : x en
fonction de y et y en fonction de x ont un sens
(poids/taille) => corrélation
– y est explicable par x (action /dose) =>
régression
• Droite de régression des
moindres
carrés
Droite de régression de y en x
y
d1
•
d2
y=a+bX
•
Minimise la somme des d1i
2
2
S [yi - y(x)] = S ( yi - a - b * xi)
Cette somme, xi et yi étant
•
connus, est fonction
•
uniquement de a et b. Le
•
minimum est connu en
annulant les dérivées
partielles par rapport à a
et par rapport à b
Droite de régression de x en y
Minimise la somme des d2i
x
Divers types de résultats
• Importance de la visualisation du nuage de
points
« Amande à petit ventre »
10
-2
2
9
3
4
5
6
7
-3
8
-4
7
-5
6
5
-6
4
-7
3
-8
2
2
3
4
5
6
7
8
Forte corrélation positive r > +0,9
-9
Forte corrélation négative r < -0,9
« Amande à gros ventre »
17
16
15
14
13
12
11
10
9
8
7
6
5
4
0
2
4
6
2
4
5
4
3
2
1
0
8 -1
-2
-3
-4
-5
-6
-7
-8
-9
6
8
Faible corrélation positive
Faible corrélation négative
Pas de corrélation r voisin de 0
6
6,2
6
5,8
5,6
5
5,4
5,2
5
4
4,8
2
3
4
5
6
7
4,5
5
5,5
6
6,5
Téléchargement