Statistiques D.Moreaux 18 avril 2016 Table des matières 1 Introduction 1 2 Rappel : statistiques à une variable 2.1 représentation des données . . . . . . . . . . . . . . . . . . . . 2.2 Grandeurs de base . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Grandeurs dérivées . . . . . . . . . . . . . . . . . . . . . . . . 3 3 3 4 3 Rappel : équation d’une droite 3.1 Coordonnées cartésiennes . . . . . . . . . . . . . . . . . . . . . 3.2 Equation d’une droite . . . . . . . . . . . . . . . . . . . . . . . 5 5 5 4 Statistiques à deux variables 4.1 Données à plusieurs variables . . . . 4.2 Lien entre deux variables . . . . . . . 4.3 Régression linéaire . . . . . . . . . . 4.4 Corrélation linéaire . . . . . . . . . . 4.5 Coefficient de corrélation de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 7 7 8 8 9 5 Compléments 5.1 Régression non linéaire . . . . . . . . . . . . 5.1.1 Régression logarithmique . . . . . . . 5.1.2 Régression exponentielle . . . . . . . 5.1.3 Régression puissance . . . . . . . . . 5.1.4 Corrélation et régression non linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 11 11 12 12 12 i . . . . . . . . . . . . . . . ii Chapitre 1 Introduction Dans de nombreux domaines, il est intéressant de prévoir ce qu’une grandeur numérique peut valoir. Ces grandeurs numériques sont souvent le résultat de la combinaison de plusieurs facteurs, dont certains peuvent être de nature aléatoire. Les statistiques permettent, à partir d’un nombre de mesures suffisant, de tenter de retrouver les lois qui régissent les nombres mesurés. Ainsi, les fréquences associées à des grandeurs tendent vers les probabilités d’obtenir les grandeurs en question ou la moyenne tend vers l’espérance mathématique de la variable concernée quand le nombre d’échantillon tend vers l’infini. Mais de nombreuses situations font apparaître plusieurs grandeurs plus ou moins liées entre elles. Par exemple, le poids d’une caisse de fruits et le nombre de fruits présents dans la caisse sont liés, même si les fruits ont tous des poids différents et donc, la relation entre les deux grandeurs n’est pas parfaitement linéaire. Outre les grandeurs liées à une variable unique (par exemple la répartition des poids des fruits, leur poids moyen,. . .), on s’intéressera donc également aux relations entre deux variables. Cela suppose deux choses, d’une part établir une fonction qui lie une des grandeurs à l’autre et d’autre part, déterminer dans quelle mesure les deux grandeurs sont liées l’une à l’autre par cette fonction. Ce sont là les principaux problèmes traités dans les statistiques à deux variables. 1 2 CHAPITRE 1. INTRODUCTION Chapitre 2 Rappel : statistiques à une variable 2.1 représentation des données Les données peuvent être organisées de plusieurs manières différentes : données brutes Chaque valeur mesurée apparaît telle qu’elle a été mesurée, autant de fois qu’elle apparaît dans l’échantillon. données et nombre d’occurences Chaque valeur mesurée n’apparaît qu’une seule fois, accompagnée du nombre de fois qu’elle apparaît dans l’échantillon. classes Les valeurs mesurées sont réparties dans des classes, accompagnées du nombre de mesures reprises dans les classes en question. Les classes sont des intervalles de valeurs qui couvrent l’ensemble des valeur possibles. Les valeurs sont représentées par les symboles xi et, quand des nombres d’occurences sont présents, ils sont représentés par les valeurs correspondantes ni . 2.2 Grandeurs de base Lorsque l’on établi des statistiques à une variable, on est généralement amené à calculer trois grandeurs différentes : — Le nombre d’échantillons n. Dans le cas de données brutes, il s’agit simplement du nombre de valeurs mesurées. Dans les deux autres cas, cePnombre est calculé en additionnant les nombres d’occurences : n = i ni . Par la suite, on représentera cette 3 CHAPITRE 2. RAPPEL : STATISTIQUES À UNE VARIABLE 4 valeur par n dans tous les cas. — La somme des P valeurs. Dans le cas des données brutes, il s’agit simplement de i xi . Dans le cas des données avec nombre d’occurences, chaque valeur P doit être multipliée par le nombre d’occurences correspondant : i ni xi . Pour les données en classes, on partira du principe que les différentes valeurs sont réparties de manière uniforme dans la classe 1 et on consiP dérera que la somme sera i ni ci où ci est le centre de la classe xi (la moyenne entre ses extrémités). P Pour des raisons de facilité, on représentera cette somme xi quelle que soit la situation par la suite. — La somme des carrés des valeurs. Pour cette somme, P on remplacera P 2 2 les valeurs P par leur carré et on aura donc, selon le cas, x , i i i ni x i P ou encore i ni c2i . On représentera cette valeur par x2i . 2.3 Grandeurs dérivées Quatre valeurs sont dérivées des grandeurs ci-dessus. Ces grandeurs permettent de communiquer des informations sur l’aspect global des données mesurées : P x 2 — La moyenne arithmétique x̄ = des valeurs mesurées n P P x2 (xi −x̄)2 = n − x̄2 , nombre positif qui permet de — La variance V = n quantifier la dispersion des données autour de la moyenne √ — L’écart-type σ = V dont l’utilité est la même que la Variance mais qui possède la même unité que la moyenne (et est donc comparable à cette dernière) — Le coefficient de Variation CV = σx̄ qui permet de comparer l’étalement de deux échantillons de moyenne différente (une plus grande valeur indiquant des données plus étalées). 1. ce qui est loin d’être vrai la plupart du temps 2. Il existe d’autres sortes de moyennes qui, selon le cas, privilégieront les valeurs les plus grandes ou les plus petites Chapitre 3 Rappel : équation d’une droite 3.1 Coordonnées cartésiennes On peut représenter un point dans le plan par ses coordonnées par rapport à deux axes sécants. Pour des raisons de simplicités, on se limitera à des axes orthogonaux 1 . Pour calculer les coordonnées d’un point par rapport à deux axes orthogonaux, on tracera les droites parallèles à ces axes et passant par le point concerné. Chacune de ces droites croisera un des axes en un point dont on mesure la position par rapport au point où les axes se croisent également appelé l’origine des axes. Il sera ainsi possible de représenter tout point par ses coordonnées (généralement notées (x, y), point mesuré sur les axes appelées respectivement axe des X et axe des Y. La convention veut que lorsque l’on passe de la moitié d’axe positive de l’axe des X vers la portion positive de l’axe des Y, on parcoure un angle de 90˚ dans le sens contraire des aiguilles d’une montre. Mais les raisonnements qui suivent peuvent parfaitement être menés en nommant les axes autrement 2 3.2 Equation d’une droite Lorsque l’on dispose de deux points (x1 , y1 ) et (x2 , y2 ), il existe une et une seule droite passant par des ceux points. 1. qui forment un angle droit 2. en pratique, les axes peuvent d’ailleurs porter d’autres noms tels que e1 et e2 ou ex et ey dans la littérature. 5 6 CHAPITRE 3. RAPPEL : ÉQUATION D’UNE DROITE L’équation de cette droite peut être exprimée par la formule suivante : (x2 − x1 )(y − y1 ) = (y2 − y1 )(x − x1 ) Si on remplace (x, y) par les coordonnées du premier point, on obtient l’égalité 0 = 0 et si on remplace ces valeurs par les coordonnées du second point, on obtient (x2 − x1 )(y2 − y1 ) des deux côtés de l’égalité ce qui montre que cette équation correspond bien à une courbe passant par les deux points demandés. Il est possible de démontrer que dans un repère cartésien, cette égalité correspond bien à l’équation d’une droite 3 Si (x2 − x1 ) 6= 0, on peut diviser les deux termes de cette égalité par cette valeur et, après avoir isolé y, on obtient y= y2 − y1 (x − x1 ) + y1 x2 − x1 Cette expression peut continuer à être transformée pour atteindre la forme canonique y = ax + b où a est appelé le coefficient angulaire de la droite. A noter que si x2 = x1 , la droite est parallèle à l’axe des Y et sera représentée par l’expression x = x1 . 3. Certaines situations utilisent des axes courbes ou dont les graduations ne sont pas régulières. Dans ces cas, l’équation ne correspondra plus à une droite Chapitre 4 Statistiques à deux variables 4.1 Données à plusieurs variables Lorsque l’on relève des données statistiques, il n’est pas rare que pour un individu 1 donné, on relève plusieurs grandeurs. Par exemple, pour des personnes, on peut relever l’âge, la taille, le poids et le sexe. Tout comme dans le cas des statistiques à une variable, il est possible de relever les grandeurs de base et dérivées pour chaque donnée concernée. Par exemple, on peut calculer la somme des poids,le poids moyen, la variance des poids, leur écart type, . . . Pour ce faire, il suffit d’effectuer le même traitement que pour des statistiques à une variable, en ne tenant compte que de la variable qui nous intéresse. 4.2 Lien entre deux variables Dans des statistiques à plusieurs variables, il peut être intéressant de déterminer s’il existe des relation entre deux de ces variables. Pour ce faire, on ne tiendra compte que des deux variables concernées et on pourra étudier ces dernières sur un graphique où l’on représente dans un repère cartésien chaque couple de données mesurées. Chaque point ainsi représenté représente un individu. Dans certains cas, le fait qu’une des variables évolue de façon semblable (ou opposée) à l’autre peut être perçu. Il est donc intéressant d’exprimer le lien entre les dites variables, sous la forme d’une courbe qui se rapproche le plus possible des valeurs mesurées. 1. Le terme individu est utilisé en statistique qu’il s’agisse d’une personne ou d’une chose extraite d’un échantillon 7 8 CHAPITRE 4. STATISTIQUES À DEUX VARIABLES Lorsque la courbe utilisée est une simple droite, on parle de régression linéaire ou d’ajustement linéaire. La principale méthode utilisée pour la régression linéaire est la méthode des moindres carrés. Cette méthode cherche à minimiser la somme des carrés des différences entre les valeurs prédites par la droite de régression et les valeurs effectives pour une des variables 2 . Généralement, pour chaque valeur xi on calculera ainsi la valeur ŷi située sur la droite que l’on mettra en rapport avec la valeur yi mesurée. 4.3 Régression linéaire Pour tracer la droite de régression, on décidera pour chaque paire de valeurs quelle est la valeur xi et quelle est la valeur yi . On considérera la droite dont l’équation est y = ax + b et donc, que l’on calculera les valeurs de y en fonction des valeurs de x. Une fois cette décision prise, on pourra calculer les coefficients a et b à l’aide des formules ci-dessous : P a= x i yi − x̄ȳ Pn 2 xi − x̄2 n Pour calculer b, on prendra en compte que la droite passe par le point moyen du nuage de points (x̄, ȳ) et donc, b = ȳ − ax̄ Vu que les choix de x et y sont arbitraires, on peut permuter ces deux variables pour calculer la droite de régression qui permet de calculer x par rapport à y. Si les deux coefficients a sont égaux, comme les deux droites passent par le même point (le point moyen), elles seront confondues. Dans ce cas, on considère que l’ajustement est parfait. 4.4 Corrélation linéaire La corrélation est une mesure de la qualité de la relation entre plusieurs variables. 2. Une autre méthode qui pourrait être utilisée est de minimiser la distance entre les points mesurés (xi , yi ) et la droite (ou la courbe en général) de régression. 4.5. COEFFICIENT DE CORRÉLATION DE PEARSON 9 Une valeur de corrélation nulle ou proche de zéro correspond à des données qui ne présente aucun lien entre elles 3 . Dans le cadre de la régression linéaire, un coefficient de corrélation négatif indiquera qu’une des variable décroit lorsque l’autre croît et vice-versa. Il est important de noter qu’une corrélation forte entre deux grandeurs ne veut pas dire que l’une implique l’autre. Les deux grandeurs peuvent par exemple être corrélées parce qu’elles sont toutes les deux le résultat d’une cause commune. 4.5 Coefficient de corrélation de Pearson Le coefficient de corrélation r peut être calculé comme suit : P r=q ( P xi n 2 x i yi n − x̄ȳ − x̄2 )( P yi 2 n − ȳ 2 ) Si les deux variables sont totalement indépendantes, le numérateur sera égal à 0 et donc, la corrélation est nulle r2 est égal au produit des coefficients des deux droites de régression. Si les deux droites sont confondues, les coefficients angulaires (a) sont l’inverse l’un de l’autre et leur produit vaut 1. Dans les autres cas, la valeur de r2 se trouvera entre ces deux bornes et donc, −1 ≤ r ≤ 1 Si la valeur de r est proche de 1 ou de -1, les deux droites de corrélation seront proches l’une de l’autre. On dira que l’on a une bonne corrélation et les droites de régression seront de bonnes approximation d’une valeur par rapport à l’autre. Dans chaque situation, on aura des valeurs de |r| pour lesquelles on jugera que la corrélation est suffisant que pour que la régression linéaire donne un résultat valable. En dessous de ce seuil, les droites de régression seront considérées comme non fiables. Si le coefficient de régression est négatif, cela signifique que la droite de régression est décroissante (quand une grandeur augmente, l’autre diminue). Selon les domaines, le seuil nécessaire pour que la régression soit significative peut fortement varier. Dans certains cas, on considérera qu’un seuil aussi bas que 0.5 sera suffisant. Dans d’autres cas, on demandera une corrélation de 0.9 voire plus. 3. Il ne faut pas oublier que les données sont généralement un échantillon et donc qu’une faible corrélation peut apparaître dans le cadre de l’échantillon choisi 10 CHAPITRE 4. STATISTIQUES À DEUX VARIABLES Chapitre 5 Compléments 5.1 Régression non linéaire En substituant les valeurs de xi ou de yi ou les deux par leur logarithme, on obtient trois autres courbes de régressions qui correspondent à des cas que l’on rencontre également naturellement. Les calculs des deux paramètres de ces courbes se font de la même maniètre que pour les régressions linéaires. 5.1.1 Régression logarithmique La courbe logarithmique est une courbe qui croît de moins en moins vite. elle donne l’impression d’un tassement des valeurs observées lorsque la variable x augmente. La courbe se représente par l’équation y = a.log(x) + b Où les valeurs de a et de b sont calculées en remplaçant xi par log(xi ) dans les calculs de régression linéaire. P a= et log(xi )yi − log(x)ȳ n P 2 2 (log(x )) i i − log(x) n i b = ȳ − a.log(x) Pour calculer cette régression, on ajoutera une colonne log(xi ) et on utilisera cette dernière en lieu et place de la colonne xi Pour tracer cette courbe, on utilisera un papier "semi-log" selon l’axe X. La courbe sera représentée par une droite sur le papier semi-log. 11 CHAPITRE 5. COMPLÉMENTS 12 5.1.2 Régression exponentielle La courbe exponentielle au contraire croît de plus en plus vite. Elle se représente par l’équation y = b′ .eax où b′ = eb (la valeur e vaut 2.71828182846). Pour calculer cette régression, on remplacera les valeurs yi par les valeurs ln(yi ) où ln(x) est le logarithme Népérien de x (logarithme en base e) Cette situation peut également se tracer sur du papier semi-log, cette fois selon l’axe Y. Si on utilise le logarithme en base 10, il faudra remplacer e par 10 dans les relations ci-dessus. 5.1.3 Régression puissance La dernière courbe est obtenue lorsque l’on remplace les deux valeurs (x et y) par leur logarithme, on obtient la courbe de régression puissance. y = b′ .xa où, de nouveau, b′ = eb . De nouveau, si on utilise un logarithme en base 10, il faudra remplacer e par 10 dans le calcul ci-dessus. Pour le représenter, on devra utiliser un papier log selon les deux axes. 5.1.4 Corrélation et régression non linéaire Lorsque l’on désire envisager les régressions non linéaires, on peut calculer les coefficients de corrélations correspondant aux quatre cas (linéaire + les cas ci-dessus). Pour ce faire, on effectuera les mêmes substitutions de xi ou yi que pour la régression correspondante. Le cas qui mène à la meilleure corrélation (la valeur la plus proche de 1 ou -1) correspond à la courbe qui se rapproche le plus du nuage de points. Cela dèsPlors de P demande P P calculer2 les 13 valeurs 2 x , log(x ), x , i P i P log(xi ) , P i P log(yi ), yi2P , log(yi )2 , P P yi , P xi yi , log(xi ).yi , xi . log(yi ), log(xi ) log(yi ) et n.