Telechargé par mahmood sleiman

Stat 3

publicité
Statistiques
D.Moreaux
18 avril 2016
Table des matières
1 Introduction
1
2 Rappel : statistiques à une variable
2.1 représentation des données . . . . . . . . . . . . . . . . . . . .
2.2 Grandeurs de base . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Grandeurs dérivées . . . . . . . . . . . . . . . . . . . . . . . .
3
3
3
4
3 Rappel : équation d’une droite
3.1 Coordonnées cartésiennes . . . . . . . . . . . . . . . . . . . . .
3.2 Equation d’une droite . . . . . . . . . . . . . . . . . . . . . . .
5
5
5
4 Statistiques à deux variables
4.1 Données à plusieurs variables . . . .
4.2 Lien entre deux variables . . . . . . .
4.3 Régression linéaire . . . . . . . . . .
4.4 Corrélation linéaire . . . . . . . . . .
4.5 Coefficient de corrélation de Pearson
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
7
8
8
9
5 Compléments
5.1 Régression non linéaire . . . . . . . . . . . .
5.1.1 Régression logarithmique . . . . . . .
5.1.2 Régression exponentielle . . . . . . .
5.1.3 Régression puissance . . . . . . . . .
5.1.4 Corrélation et régression non linéaire
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
11
12
12
12
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ii
Chapitre 1
Introduction
Dans de nombreux domaines, il est intéressant de prévoir ce qu’une grandeur numérique peut valoir. Ces grandeurs numériques sont souvent le résultat de la combinaison de plusieurs facteurs, dont certains peuvent être de
nature aléatoire.
Les statistiques permettent, à partir d’un nombre de mesures suffisant,
de tenter de retrouver les lois qui régissent les nombres mesurés. Ainsi, les
fréquences associées à des grandeurs tendent vers les probabilités d’obtenir
les grandeurs en question ou la moyenne tend vers l’espérance mathématique
de la variable concernée quand le nombre d’échantillon tend vers l’infini.
Mais de nombreuses situations font apparaître plusieurs grandeurs plus
ou moins liées entre elles. Par exemple, le poids d’une caisse de fruits et le
nombre de fruits présents dans la caisse sont liés, même si les fruits ont tous
des poids différents et donc, la relation entre les deux grandeurs n’est pas
parfaitement linéaire.
Outre les grandeurs liées à une variable unique (par exemple la répartition
des poids des fruits, leur poids moyen,. . .), on s’intéressera donc également
aux relations entre deux variables.
Cela suppose deux choses, d’une part établir une fonction qui lie une des
grandeurs à l’autre et d’autre part, déterminer dans quelle mesure les deux
grandeurs sont liées l’une à l’autre par cette fonction.
Ce sont là les principaux problèmes traités dans les statistiques à deux
variables.
1
2
CHAPITRE 1. INTRODUCTION
Chapitre 2
Rappel : statistiques à une
variable
2.1
représentation des données
Les données peuvent être organisées de plusieurs manières différentes :
données brutes Chaque valeur mesurée apparaît telle qu’elle a été mesurée,
autant de fois qu’elle apparaît dans l’échantillon.
données et nombre d’occurences Chaque valeur mesurée n’apparaît qu’une
seule fois, accompagnée du nombre de fois qu’elle apparaît dans l’échantillon.
classes Les valeurs mesurées sont réparties dans des classes, accompagnées
du nombre de mesures reprises dans les classes en question. Les classes
sont des intervalles de valeurs qui couvrent l’ensemble des valeur possibles.
Les valeurs sont représentées par les symboles xi et, quand des nombres
d’occurences sont présents, ils sont représentés par les valeurs correspondantes ni .
2.2
Grandeurs de base
Lorsque l’on établi des statistiques à une variable, on est généralement
amené à calculer trois grandeurs différentes :
— Le nombre d’échantillons n. Dans le cas de données brutes, il s’agit
simplement du nombre de valeurs mesurées.
Dans les deux autres cas, cePnombre est calculé en additionnant les
nombres d’occurences : n = i ni . Par la suite, on représentera cette
3
CHAPITRE 2. RAPPEL : STATISTIQUES À UNE VARIABLE
4
valeur par n dans tous les cas.
— La somme des
P valeurs. Dans le cas des données brutes, il s’agit simplement de i xi . Dans le cas des données avec nombre d’occurences,
chaque valeur
P doit être multipliée par le nombre d’occurences correspondant : i ni xi .
Pour les données en classes, on partira du principe que les différentes
valeurs sont réparties de manière
uniforme dans la classe 1 et on consiP
dérera que la somme sera i ni ci où ci est le centre de la classe xi (la
moyenne entre ses extrémités).
P
Pour des raisons de facilité, on représentera cette somme
xi quelle
que soit la situation par la suite.
— La somme des carrés des valeurs. Pour cette somme, P
on remplacera
P
2
2
les valeurs P
par leur carré et on aura donc, selon le cas,
x
,
i
i
i ni x i
P
ou encore i ni c2i . On représentera cette valeur par
x2i .
2.3
Grandeurs dérivées
Quatre valeurs sont dérivées des grandeurs ci-dessus. Ces grandeurs permettent de communiquer des informations sur l’aspect global des données
mesurées :
P
x
2
— La moyenne arithmétique
x̄
=
des valeurs mesurées
n
P
P
x2
(xi −x̄)2
= n − x̄2 , nombre positif qui permet de
— La variance V =
n
quantifier la dispersion
des données autour de la moyenne
√
— L’écart-type σ = V dont l’utilité est la même que la Variance mais
qui possède la même unité que la moyenne (et est donc comparable à
cette dernière)
— Le coefficient de Variation CV = σx̄ qui permet de comparer l’étalement de deux échantillons de moyenne différente (une plus grande
valeur indiquant des données plus étalées).
1. ce qui est loin d’être vrai la plupart du temps
2. Il existe d’autres sortes de moyennes qui, selon le cas, privilégieront les valeurs les
plus grandes ou les plus petites
Chapitre 3
Rappel : équation d’une droite
3.1
Coordonnées cartésiennes
On peut représenter un point dans le plan par ses coordonnées par rapport
à deux axes sécants. Pour des raisons de simplicités, on se limitera à des axes
orthogonaux 1 .
Pour calculer les coordonnées d’un point par rapport à deux axes orthogonaux, on tracera les droites parallèles à ces axes et passant par le point
concerné. Chacune de ces droites croisera un des axes en un point dont on
mesure la position par rapport au point où les axes se croisent également
appelé l’origine des axes.
Il sera ainsi possible de représenter tout point par ses coordonnées (généralement notées (x, y), point mesuré sur les axes appelées respectivement
axe des X et axe des Y.
La convention veut que lorsque l’on passe de la moitié d’axe positive de
l’axe des X vers la portion positive de l’axe des Y, on parcoure un angle de 90˚
dans le sens contraire des aiguilles d’une montre. Mais les raisonnements qui
suivent peuvent parfaitement être menés en nommant les axes autrement 2
3.2
Equation d’une droite
Lorsque l’on dispose de deux points (x1 , y1 ) et (x2 , y2 ), il existe une et
une seule droite passant par des ceux points.
1. qui forment un angle droit
2. en pratique, les axes peuvent d’ailleurs porter d’autres noms tels que e1 et e2 ou ex
et ey dans la littérature.
5
6
CHAPITRE 3. RAPPEL : ÉQUATION D’UNE DROITE
L’équation de cette droite peut être exprimée par la formule suivante :
(x2 − x1 )(y − y1 ) = (y2 − y1 )(x − x1 )
Si on remplace (x, y) par les coordonnées du premier point, on obtient
l’égalité 0 = 0 et si on remplace ces valeurs par les coordonnées du second
point, on obtient (x2 − x1 )(y2 − y1 ) des deux côtés de l’égalité ce qui montre
que cette équation correspond bien à une courbe passant par les deux points
demandés. Il est possible de démontrer que dans un repère cartésien, cette
égalité correspond bien à l’équation d’une droite 3
Si (x2 − x1 ) 6= 0, on peut diviser les deux termes de cette égalité par cette
valeur et, après avoir isolé y, on obtient
y=
y2 − y1
(x − x1 ) + y1
x2 − x1
Cette expression peut continuer à être transformée pour atteindre la forme
canonique y = ax + b où a est appelé le coefficient angulaire de la droite.
A noter que si x2 = x1 , la droite est parallèle à l’axe des Y et sera
représentée par l’expression x = x1 .
3. Certaines situations utilisent des axes courbes ou dont les graduations ne sont pas
régulières. Dans ces cas, l’équation ne correspondra plus à une droite
Chapitre 4
Statistiques à deux variables
4.1
Données à plusieurs variables
Lorsque l’on relève des données statistiques, il n’est pas rare que pour
un individu 1 donné, on relève plusieurs grandeurs. Par exemple, pour des
personnes, on peut relever l’âge, la taille, le poids et le sexe.
Tout comme dans le cas des statistiques à une variable, il est possible de
relever les grandeurs de base et dérivées pour chaque donnée concernée. Par
exemple, on peut calculer la somme des poids,le poids moyen, la variance des
poids, leur écart type, . . .
Pour ce faire, il suffit d’effectuer le même traitement que pour des statistiques à une variable, en ne tenant compte que de la variable qui nous
intéresse.
4.2
Lien entre deux variables
Dans des statistiques à plusieurs variables, il peut être intéressant de
déterminer s’il existe des relation entre deux de ces variables. Pour ce faire,
on ne tiendra compte que des deux variables concernées et on pourra étudier
ces dernières sur un graphique où l’on représente dans un repère cartésien
chaque couple de données mesurées.
Chaque point ainsi représenté représente un individu. Dans certains cas,
le fait qu’une des variables évolue de façon semblable (ou opposée) à l’autre
peut être perçu.
Il est donc intéressant d’exprimer le lien entre les dites variables, sous la
forme d’une courbe qui se rapproche le plus possible des valeurs mesurées.
1. Le terme individu est utilisé en statistique qu’il s’agisse d’une personne ou d’une
chose extraite d’un échantillon
7
8
CHAPITRE 4. STATISTIQUES À DEUX VARIABLES
Lorsque la courbe utilisée est une simple droite, on parle de régression
linéaire ou d’ajustement linéaire.
La principale méthode utilisée pour la régression linéaire est la méthode
des moindres carrés. Cette méthode cherche à minimiser la somme des carrés
des différences entre les valeurs prédites par la droite de régression et les
valeurs effectives pour une des variables 2 .
Généralement, pour chaque valeur xi on calculera ainsi la valeur ŷi située
sur la droite que l’on mettra en rapport avec la valeur yi mesurée.
4.3
Régression linéaire
Pour tracer la droite de régression, on décidera pour chaque paire de
valeurs quelle est la valeur xi et quelle est la valeur yi . On considérera la
droite dont l’équation est
y = ax + b
et donc, que l’on calculera les valeurs de y en fonction des valeurs de x.
Une fois cette décision prise, on pourra calculer les coefficients a et b à
l’aide des formules ci-dessous :
P
a=
x i yi
− x̄ȳ
Pn 2
xi
− x̄2
n
Pour calculer b, on prendra en compte que la droite passe par le point
moyen du nuage de points (x̄, ȳ) et donc,
b = ȳ − ax̄
Vu que les choix de x et y sont arbitraires, on peut permuter ces deux
variables pour calculer la droite de régression qui permet de calculer x par
rapport à y.
Si les deux coefficients a sont égaux, comme les deux droites passent par
le même point (le point moyen), elles seront confondues. Dans ce cas, on
considère que l’ajustement est parfait.
4.4
Corrélation linéaire
La corrélation est une mesure de la qualité de la relation entre plusieurs
variables.
2. Une autre méthode qui pourrait être utilisée est de minimiser la distance entre les
points mesurés (xi , yi ) et la droite (ou la courbe en général) de régression.
4.5. COEFFICIENT DE CORRÉLATION DE PEARSON
9
Une valeur de corrélation nulle ou proche de zéro correspond à des données
qui ne présente aucun lien entre elles 3 .
Dans le cadre de la régression linéaire, un coefficient de corrélation négatif
indiquera qu’une des variable décroit lorsque l’autre croît et vice-versa.
Il est important de noter qu’une corrélation forte entre deux grandeurs
ne veut pas dire que l’une implique l’autre. Les deux grandeurs peuvent par
exemple être corrélées parce qu’elles sont toutes les deux le résultat d’une
cause commune.
4.5
Coefficient de corrélation de Pearson
Le coefficient de corrélation r peut être calculé comme suit :
P
r=q
(
P
xi
n
2
x i yi
n
− x̄ȳ
− x̄2 )(
P
yi 2
n
− ȳ 2 )
Si les deux variables sont totalement indépendantes, le numérateur sera
égal à 0 et donc, la corrélation est nulle
r2 est égal au produit des coefficients des deux droites de régression. Si
les deux droites sont confondues, les coefficients angulaires (a) sont l’inverse
l’un de l’autre et leur produit vaut 1.
Dans les autres cas, la valeur de r2 se trouvera entre ces deux bornes et
donc,
−1 ≤ r ≤ 1
Si la valeur de r est proche de 1 ou de -1, les deux droites de corrélation
seront proches l’une de l’autre. On dira que l’on a une bonne corrélation et
les droites de régression seront de bonnes approximation d’une valeur par
rapport à l’autre.
Dans chaque situation, on aura des valeurs de |r| pour lesquelles on jugera
que la corrélation est suffisant que pour que la régression linéaire donne
un résultat valable. En dessous de ce seuil, les droites de régression seront
considérées comme non fiables.
Si le coefficient de régression est négatif, cela signifique que la droite de
régression est décroissante (quand une grandeur augmente, l’autre diminue).
Selon les domaines, le seuil nécessaire pour que la régression soit significative peut fortement varier. Dans certains cas, on considérera qu’un seuil aussi
bas que 0.5 sera suffisant. Dans d’autres cas, on demandera une corrélation
de 0.9 voire plus.
3. Il ne faut pas oublier que les données sont généralement un échantillon et donc qu’une
faible corrélation peut apparaître dans le cadre de l’échantillon choisi
10
CHAPITRE 4. STATISTIQUES À DEUX VARIABLES
Chapitre 5
Compléments
5.1
Régression non linéaire
En substituant les valeurs de xi ou de yi ou les deux par leur logarithme,
on obtient trois autres courbes de régressions qui correspondent à des cas
que l’on rencontre également naturellement.
Les calculs des deux paramètres de ces courbes se font de la même maniètre que pour les régressions linéaires.
5.1.1
Régression logarithmique
La courbe logarithmique est une courbe qui croît de moins en moins
vite. elle donne l’impression d’un tassement des valeurs observées lorsque la
variable x augmente.
La courbe se représente par l’équation
y = a.log(x) + b
Où les valeurs de a et de b sont calculées en remplaçant xi par log(xi ) dans
les calculs de régression linéaire.
P
a=
et
log(xi )yi
− log(x)ȳ
n
P
2
2
(log(x
))
i
i
− log(x)
n
i
b = ȳ − a.log(x)
Pour calculer cette régression, on ajoutera une colonne log(xi ) et on utilisera cette dernière en lieu et place de la colonne xi
Pour tracer cette courbe, on utilisera un papier "semi-log" selon l’axe X.
La courbe sera représentée par une droite sur le papier semi-log.
11
CHAPITRE 5. COMPLÉMENTS
12
5.1.2
Régression exponentielle
La courbe exponentielle au contraire croît de plus en plus vite. Elle se
représente par l’équation
y = b′ .eax
où b′ = eb (la valeur e vaut 2.71828182846).
Pour calculer cette régression, on remplacera les valeurs yi par les valeurs
ln(yi ) où ln(x) est le logarithme Népérien de x (logarithme en base e)
Cette situation peut également se tracer sur du papier semi-log, cette fois
selon l’axe Y.
Si on utilise le logarithme en base 10, il faudra remplacer e par 10 dans
les relations ci-dessus.
5.1.3
Régression puissance
La dernière courbe est obtenue lorsque l’on remplace les deux valeurs (x
et y) par leur logarithme, on obtient la courbe de régression puissance.
y = b′ .xa
où, de nouveau, b′ = eb .
De nouveau, si on utilise un logarithme en base 10, il faudra remplacer e
par 10 dans le calcul ci-dessus.
Pour le représenter, on devra utiliser un papier log selon les deux axes.
5.1.4
Corrélation et régression non linéaire
Lorsque l’on désire envisager les régressions non linéaires, on peut calculer
les coefficients de corrélations correspondant aux quatre cas (linéaire + les
cas ci-dessus). Pour ce faire, on effectuera les mêmes substitutions de xi ou
yi que pour la régression correspondante.
Le cas qui mène à la meilleure corrélation (la valeur la plus proche de 1
ou -1) correspond à la courbe qui se rapproche le plus du nuage de points.
Cela
dèsPlors de
P demande
P
P calculer2 les 13 valeurs
2
x
,
log(x
),
x
,
i P i P log(xi ) ,
P i P
log(yi ),
yi2P
,
log(yi )2 , P
P yi , P
xi yi ,
log(xi ).yi ,
xi . log(yi ),
log(xi ) log(yi ) et n.
Téléchargement