Chapitre 4 : Statistiques I Généralités Sur une population de n individus, on cherche à étudier simultanément deux caractères quantitatifs X et Y (≪ quantitatifs ≫ signifie : qui prennent des valeurs numériques). Pour chacun des n individus (numérotés de 1 à n) de la population, notons xi et yi la valeur prise respectivement par les caractères X et Y . On présente les données de la série statistique à deux variables obtenue sous forme d’un tableau : Valeurs prises par X Valeurs prises par Y x1 y1 x2 y2 ... ... xn yn Exemple : Pays Nombre de naissances xi Population totale yi All 715 82 539 Fr 760 59 901 Esp 436 42 198 R.U. 696 59 516 It 545 57 804 Définition (Nuage de points) Dans un repère orthogonal, l’ensemble des points Ai de coordonnées (xi ; yi ), pour i allant de 1 à n, est appelé nuage de points de la série statistique à deux variables. Définition (Point moyen → Notons − x la moyenne de la Le point G de coordonnées série statistique. Rappel : II II.1 du nuage) → série des xi , et − y la moyenne des yi (1 6 i 6 n). → − → − ( x ; y ) est appelé le point moyen du nuage de points de la x1 + x2 + x3 + · · · + xn − → x = n y1 + y2 + y3 + · · · + yn → − y = n Ajustement affine Ajustement Définition Effectuer un ajustement de y en x d’un nuage de points, c’est trouver une fonction f dont la courbe représentative soit très proche du nuage. On dit que l’on réalise un ajustement affine lorsque l’ajustement se fait par une fonction affine : f (x) = ax + b et la courbe de f est une droite. Remarque – Il est intéressant de faire un ajustement affine lorsque le nuage a une forme plutôt allongée. – Ces modélisations vont permettre de faire des interpolations et extrapolations. – Il existe d’autres types d’ajustements, c’est-à-dire d’autres fonctions f qui peuvent modéliser un nuage de points. 1 II.2 Ajustement affine par la méthode des moindres carrés Définition La méthode des moindres carrés consiste à trouver une fonction affine f qui minimise la somme des carrés des écarts entre yi et les valeurs f (xi ) donnés par le modèle. On cherche donc à minimiser la somme S = A1 P1 2 + A2 P2 2 + · · · + An Pn 2 . y 9 An 8 + P6 7 + A5 A4 6 4 P3 A1 P2 + + + + A3 + 3 + + P5 + 5 P1 + Pn + A6 + P4 + A2 2 1 -2 -1 0 1 2 3 4 5 6 7 8 9 x -1 -2 Théorème (et définition) Soit (xi ; yi )16i6n une série statistique à deux variables. Il existe une unique droite ∆ associée au nuage de points Ai (xi ; yi ) (1 6 i 6 n), telle que la somme S = A1 P1 2 + A2 P2 2 + · · · + An Pn 2 soit minimale. Cette droite est appelée droite de régression de y en x, ou droite des moindres carrées associée au nuage. ∆ a une équation de la forme y = ax + b où les valeurs de a et de b sont déterminées à l’aide de la calculatrice. Remarque → → La droite de régression ∆ passe toujours par le point moyen G(− x;− y ) du nuage. Pour la tracer , il suffit donc de connaı̂tre son coefficient directeur. Les rappels sur l’utilisation de la calculatrice sont aux dernières pages du livre. 2 Propriété (Utilisation de la calculatrice pour les statistiques) Pour les calculatrices TI (82-83). 1. Rentrer les données de la série dans la calculatrice. STAT EDIT Rentrer les xi dans L1 , et les yi dans L2 . Pour effacer, utiliser CLEAR . 2. Coordonnées du point moyen G(x; y). STAT CALC 2-VAR L1 , L2 3. Coefficients a et b de la droite de régression de y en x. ∆ a une équation de la forme y = ax + b où a et b sont des réels. STAT CALC LINEREG(ax + b) L1 , L2 Propriété (Utilisation de la calculatrice pour les statistiques) Pour les calculatrices CASIO (Graph25-35-65). 1. Rentrer les données de la série dans la calculatrice. MENU STAT Rentrer les xi dans List1, et les yi dans List2. Pour tout effacer, utiliser DEL-A (delete all). Pour effacer petit à petit, DEL . 2. Coordonnées du point moyen G(x; y). Il faut d’abord s’assurer d’avoir les bons réglages : CALC SET Dans ce menu, on doit choisir : 2 2 2 2 Var Var Var Var X Y X Y List List Freq Freq : : : : List1 List2 1 1 Ensuite, pour afficher les coordonnées du point moyen x et y : CALC 2-VAR 3. Coefficients a et b de la droite de régression de y en x. ∆ a une équation de la forme y = ax + b où a et b sont des réels. Avec les mêmes réglages que précédemment : 2 2 2 2 CALC SET Var X List : List1 Var Y List : List2 Var X Freq : 1 Var Y Freq : 1 Affichage des résultats par REG X . 3 Exercice 1 (Pour vérifier l’utilisation de la calculatrice) Le tableau suivant indique les effectifs de la population en France de 2000 à 2009. année rang xi population yi (millions d’hab.) 2000 2001 2002 2003 0 1 2 3 58.86 59.27 59.69 60.1 2004 2005 2006 2007 2008 2009 4 5 6 7 8 9 60.51 60.96 61.40 61.80 62.13 62.47 1. Donner les coordonnées du point moyen de la série. Arrondir à 0.01. 2. Donner une équation de la droite d’ajustement par la méthode des moindres carrés. Arrondir les coefficients à 0.01. 3. Utiliser cette droite pour proposer une estimation de la population en 2012. Réponses : 1 1. 1. Le point moyen est G(4.5; 60.72). 2. La droite a pour équation y = 0.41x + 58.88. 3. 2012 correspond à x = 12. En remplaçant, 0.41 × 12 + 558.88 = 63.8. Suivant ce modèle, on estime qu’il y aura environ 63.8 millions de personnes en 2012. 4