Arnak Dalalyan Statistique Numérique et Analyse des Données Séance 1: Statistique Descriptive Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? Statistique Descriptive Série numérique Histogramme Fn de répartition Statistiques d’une série Tendance centrale Dispersion Stats d’ordre Boxplots Exercice Deux séries Covariance Nuage des points Droite de régression QQ-plot Exemple de Galton Arnak DALALYAN Ecole des Ponts ParisTech 1 1 Quelques Informations Arnak Dalalyan Qui suis je ? Arnak Dalalyan, chercheur en Statistique E-mail : [email protected] Page web du module : certis.enpc.fr/~dalalyan/StatNum.html Organisation du cours 8 séances de 2h de cours/exercices. 4 séances de 2h sur machine (TP), en utilisant le logiciel R. 1 examen final (2h). Evaluation : la note finale (NF) est calculée par la formule : NF = (9 × CR + 9 × EF + 2 × NP)/20. CR : note moyenne des comptes-rendus des TP. EF : note de l’examen final. NP : note de participation (devoir maison, participation aux TP,...). Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? Statistique Descriptive Série numérique Histogramme Fn de répartition Statistiques d’une série Tendance centrale Dispersion Stats d’ordre Boxplots Exercice Deux séries Covariance Nuage des points Droite de régression QQ-plot Exemple de Galton 1 2 Statistique : Motivations Arnak Dalalyan Les statistiques sont utilisées dans des domaines très variés comme : en géophysique, pour les prévisions météorologiques, la climatologie, la pollution, etc ; en démographie : le recensement permet de faire une photographie à un instant donné d’une population et permettra par la suite des sondages dans des échantillons représentatifs ; en sciences économiques et sociales, et en économétrie : l’étude du comportement d’un groupe de population ou d’un secteur économique s’appuie sur des statistiques ; en marketing : le sondage d’opinion devient un outil pour la décision ou l’investissement ; en métrologie, pour tout ce qui concerne les systèmes de mesure et les mesures elles-mêmes ; en écologie (étude des communautés végétales et des écosystèmes) Au jour d’aujourd’hui, les connaissances statistiques sont indispensables pour un ingénieur, indépendamment de la spécialisation choisie ! Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? Statistique Descriptive Série numérique Histogramme Fn de répartition Statistiques d’une série Tendance centrale Dispersion Stats d’ordre Boxplots Exercice Deux séries Covariance Nuage des points Droite de régression QQ-plot Exemple de Galton 1 3 Statistique : qu’est-ce que c’est ? Arnak Dalalyan La Statistique est une science qui comprend la collecte, l’analyse, l’interprétation de données ainsi que la présentation de ces ressources afin de les rendre compréhensibles de tous. collecte de données plan d’expérience ; interprétation et présentation des données Descriptive ; analyse des données et aide à la décision Inférentielle ; Intro Quelques infos Statistique Motivations Stat. : qu’est-ce que c’est ? Statistique L’objectif de la Statistique en tant que discipline mathématique est d’explorer les «propriétés fréquentielles» d’un jeu de données. «propriétés fréquentielles» : les propriétés qui restent invariantes par toute transformation des données (par exemple, la permutation) qui ne modifie pas la fréquence des résultats. La Statistique est une science s’appuyant sur les probabilités ! Pour ceux qui ont des lacunes en probabilités, un cours de remise à niveau a été proposé, dont les slides sont disponibles en ligne. Vous pouvez également consulter les chapitres 1-6 du polycopié de la 1ère année cermics.enpc.fr/~jourdain/probastat/poly.pdf Statistique Descriptive Série numérique Histogramme Fn de répartition Statistiques d’une série Tendance centrale Dispersion Stats d’ordre Boxplots Exercice Deux séries Covariance Nuage des points Droite de régression QQ-plot Exemple de Galton 1 4 Arnak Dalalyan Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? Statistique Descriptive Série numérique Statistique Descriptive Histogramme Fn de répartition Statistiques d’une série Tendance centrale Dispersion Stats d’ordre Boxplots Exercice Deux séries Covariance Nuage des points Droite de régression QQ-plot Exemple de Galton 1 5 Série Numérique Arnak Dalalyan On a à notre disposition n valeurs réelles - notées x1 , . . . , xn constituant les résultats d’une certaine expérience répétée n fois. source : sondages, expérience scientifiques, enregistrements historiques ; problème : données volumineuses difficile à interpréter ; objectif : résumer et trouver des outils de visualisation. Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? On dit que x1 , . . . , xn sont les valeurs d’une variable (statistique) observées sur n individus. Une variable statistique est dite discrète si le nombre de valeurs prises par cette variable est petit devant n. Statistique Descriptive Série numérique Histogramme Fn de répartition Statistiques d’une série Tendance centrale Exemple : on lance 100 fois un dé à 6 faces. nombre d’observations : 100 ; nombre de valeurs prises : 6. La variable est donc discrète. Dispersion Stats d’ordre Boxplots Exercice Deux séries Une variable qui n’est pas discrète est dite continue. Covariance Exemple : Dans le but d’étudier les taux de contamination des sols par la substance toxique PCB (biphenil polychlorinaté), 26 échantillons de sols ont été prélevés. Le taux de PCB contenus dans ces échantillons (mesurés en 10−4 g par kg de sol) sont : 3,5 9 1 15 1,6 24 12 11 8,1 107 5,3 18 23 29 8,2 49 1,8 94 9,8 12 1,5 16 Nuage des points Droite de régression QQ-plot Exemple de Galton 9,7 22 1 6 Histogramme d’une série numérique Arnak Dalalyan Variable discrète La façon la plus répendue de représenter la répartition d’une série statistique est basée sur la notion de l’histogramme. Pour une variable discrète, on définit l’histogramme comme la fonction h : R → N qui à chaque x ∈ R associe le nombre d’éléments dans la série x1 , . . . , xn égaux à x. Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? Statistique Descriptive Exemple : on lance 100 fois un dé à Série numérique Histogram of x Histogramme Fn de répartition Statistiques d’une série 20 6 faces. On obtient l’histogramme : Tendance centrale Stats d’ordre 10 Boxplots Exercice 5 Deux séries Covariance Nuage des points 0 Deux définitions coexistent : n X 1l(xi = x), effectifs i=1 h(x) = n 1X 1l(xi = x), fréquences n Frequency 15 Dispersion 1 2 3 4 5 6 Droite de régression QQ-plot x Exemple de Galton i=1 Sur les appareils photo numériques, on voit souvent affiché l’histogramme des couleurs. 1 7 Histogramme d’une série numérique Arnak Dalalyan Variable continue Pour une variable continue, on on commence par choisir une partition de R en un nombre fini d’intervalles : I0 , I1 , . . . , Ik . On dénombre ensuite le nombre d’observations dans chacun des n X intervalles : nj = 1l(xi ∈ Ij ). Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? i=1 On définit l’histogramme h(x) comme une fonction constante par morceaux donnée par : Statistique Descriptive Série numérique Histogramme Fn de répartition nj h(x) = , n|Ij | Statistiques d’une série ∀x ∈ Ij . Tendance centrale Dispersion Stats d’ordre Boxplots Histogram of a 0.05 0.05 Exercice Deux séries Nuage des points 0.03 0.03 Droite de régression QQ-plot 0.02 0.02 Exemple de Galton 0.01 0.01 Density Density 0.04 0.04 Covariance 0.00 0.00 Exemple : Dans le but d’étudier les taux de contamination des sols par la substance toxique PCB (biphenil polychlorinaté), 26 échantillons de sols ont été prélevés. Le taux de PCB contenus dans ces échantillons (mesurés en 10−4 g par kg de sol) sont : 3,5 1 . . . 1.5 9,7 9 15 . . . 16 22 0 20 20 4040 60 60 80 80 100 100 120 a 1 8 Fonction de répartition empirique Arnak Dalalyan Une représentation alternative des fréquences des valeurs contenues dans une série numérique est la fonction de répartition, appelée également histogramme cumulé. Pour un x ∈ R, la valeur en x de la fonction de répartition d’une série numérique x1 , . . . , xn est la proportion des éléments de la n 1X série inférieurs ou égaux à x : F̂n (x) = 1l(xi ≤ x) n Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? Statistique Descriptive Série numérique i=1 Histogramme L’avantage de la fonction de répartition, comparé à l’histogramme, est que sa définition est identique dans le cas d’une variable discrète et dans le cas d’une variable continue. Fn de répartition Statistiques d’une série Tendance centrale Dispersion Stats d’ordre Dans les deux exemples précédents : Exercice fonction de réparition empirique Deux séries 1.0 1.0 fonction de réparition empirique Boxplots ● Covariance ● ● ● ● Nuage des points ● 0.8 0.8 ● ● ● ● Droite de régression ● QQ-plot Fn(x) ● ● Exemple de Galton ● 0.4 Fn(x) ● 0.4 ● 0.6 0.6 ● ● ● ● ● ● 0.2 0.2 ● ● ● ● ● 0.0 0.0 ● ● 0 1 2 3 4 5 6 7 0 20 40 60 80 100 120 1 9 Meilleure vue des FdR Arnak Dalalyan fn de réparition empirique 1.0 1.0 fn de réparition empirique ● ● ● ● ● 0.8 0.8 ● ● ● ● ● 1 2 3 4 5 6 Motivations ● ● ● ● ● ● Stat. : qu’est-ce que c’est ? ● ● ● ● ● ● 0.0 0.0 ● Quelques infos ● 0.2 0.2 ● 0 Intro ● ● ● Fn(x) 0.4 0.6 Fn(x) 0.4 0.6 ● 7 0 Statistique Descriptive Série numérique 20 40 60 80 100 120 Histogramme Fn de répartition Statistiques d’une série Histogram of x Tendance centrale Histogram of a Dispersion 0.20 0.04 Density 0.10 Density 0.02 Stats d’ordre Boxplots Exercice Deux séries Covariance Nuage des points QQ-plot 0.00 0.00 Droite de régression 1 2 3 4 x 5 6 Exemple de Galton 0 20 40 60 80 100 a 1 10 Statistiques d’une série Arnak Dalalyan Statistiques de tendance centrale On appelle une statistique toute fonction qui associe aux données x1 , . . . , xn un vecteur S(x1 , . . . , xn ) ∈ Rp . On utilise les statistiques pour résumer les données. Statistiques de tendance centrale : La moyenne, notée x̄, est définie par : Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? x̄ = 1 n n X Statistique Descriptive xi . Série numérique Histogramme i=1 Fn de répartition Statistiques d’une série La médiane, notée Medx , est un nombre réel tel qu’au moins la moitié des données sont ≤ Medx et au moins la moitié des données sont ≥ Medx . Le mode, noté Modex , est la valeur la plus fréquente à l’intérieur de l’ensemble des données. Contrairement à la moyenne, la médiane et le mode ne sont pas toujours uniques. Exemple : on lance 20 fois un dé équilibré. On obtient les résultats : face effectif 1 3 x̄ = 3.7, 2 1 3 4 Medx = 4 4 5 5 5 Tendance centrale Dispersion Stats d’ordre Boxplots Exercice Deux séries Covariance Nuage des points Droite de régression QQ-plot Exemple de Galton 6 2 Modex = 4 (ou 5). 1 11 Statistiques d’une série Arnak Dalalyan Statistiques de dispersion Les trois statistiques de dispersion les plus utilisées sont la variance, l’écart-type et l’écart interquartile. La variance, notée vx , est la valeur moyenne des carrés des écarts entre les données et la moyenne : Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? n 1X vx = (xi − x̄)2 . n Statistique Descriptive Série numérique Histogramme i=1 Fn de répartition √ L’écart-type, est la racine carré de la variance : sx = vx . n 1X La déviation absolue moyenne : dx = |xi − Medx |. n i=1 L’écart interquartile est la différence entre le troisième et le premier quartile : Q3 − Q1 , où le premier quartile Q1 (respectivement, le toisième quartile Q3 ) est la médiane des données ≤ Medx (resp. ≥ Medx ). Statistiques d’une série Tendance centrale Dispersion Stats d’ordre Boxplots Exercice Deux séries Covariance Nuage des points Droite de régression QQ-plot Exemple de Galton L’écart-type et l’écart interquartile sont mesurés dans les mêmes unités que les données, mais pas la variance. 1 12 Exercice Arnak Dalalyan Soit x1 , . . . , xn une série numérique. Montrer que 1 La variance est la solution du problème des moidres carrés : n 1X vx = min (xi − a)2 a∈R n i=1 Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? Statistique Descriptive et que le minimum est atteint au point a = x̄. Série numérique Histogramme 2 La déviation absolue moyenne est la solution du problème : 1 dx = min a∈R n n X Fn de répartition Statistiques d’une série Tendance centrale Dispersion |xi − a| Stats d’ordre Boxplots i=1 Exercice Deux séries et que le minimum est atteint au point a = Medx . Covariance Nuage des points 3 On dit que la médiane est moins sensible aux données aberantes que la moyenne. Justifier cette affirmation. (Indice : on pourra considérer le cas où un des xi tend vers +∞ ou −∞, alors que tous les autres xi restent inchangés.) Droite de régression QQ-plot Exemple de Galton 1 13 Statistiques d’ordre Arnak Dalalyan Pour avoir une idée des valeurs présentes dans la série numérique, on s’intéresse souvent à mini xi et à maxi xi prise par les xi . En statistique, on on les appelle première et dernière statistiques d’ordre et utlise les notations Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? x(1) = min xi , 1≤i≤n x(n) = max xi . 1≤i≤n Statistique Descriptive Série numérique Histogramme Fn de répartition Statistiques d’une série Plus généralement, on définit la statistique d’ordre de rang k , notée x(k ) , comme la k ème plus petite valeur parmi x1 , . . . , xn . En d’autres termes, soit (i1 , . . . , in ) une permutation (il peut y en avoir plusieurs) des indices (1, . . . , n) qui classe les données dans l’ordre croissant : Tendance centrale Dispersion Stats d’ordre Boxplots Exercice Deux séries Covariance Nuage des points Droite de régression xi1 ≤ xi2 ≤ . . . ≤ xin . QQ-plot Exemple de Galton On appelle alors statistique d’ordre k la valeur x(k ) = xik . 1 14 Quantiles Arnak Dalalyan Exemple : on lance 20 fois un dé et obtient les résultats : face effectif 1 3 2 1 3 4 4 5 5 5 6 2 Intro Quelques infos Motivations La 6ème statistique d’ordre x(6) est alors 3. La 15ème statistique d’ordre x(15) = Q3 = 5. Stat. : qu’est-ce que c’est ? Statistique Descriptive Série numérique Pour toute valeur α ∈ (0, 1), on appelle quantile d’ordre α, noté qαx , de la série x1 , . . . , xn , la statistique d’ordre x(m) avec m = [αn]. On peut redéfinir les quartiles et la médiane comme suit : Histogramme Fn de répartition Statistiques d’une série Tendance centrale Dispersion Stats d’ordre Boxplots Exercice Q1 = x q0.25 , Medx = x q0.5 , Q3 = x q0.75 . Deux séries Covariance Nuage des points Droite de régression QQ-plot En pratique, ces définitions de quartiles et médiane peuvent conduire vers des résultats qui diffèrent légèrement de ceux obtenus par la première définition, mais la différence décroit lorsque la taille n de la série augmente. Exemple de Galton 1 15 Boxplots (boîtes à moustaches) Arnak Dalalyan Construction Un résumé simple et pratique de la répartition d’une série x1 , . . . , xn est donné par le quintuplet (A, Q1 , Medx , Q3 , B), où A et B représentent les limites de l’intervalle en dehors duquel les données sont considérées comme aberrantes. Medx , Q1 et Q3 sont respectivement la médiane, le premier et le troisième quartile. Ce quintuplet est utilisé pour construire le boxplot : Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? Statistique Descriptive Série numérique Histogramme Fn de répartition Statistiques d’une série Tendance centrale Dispersion Stats d’ordre Les valeurs A et B sont déterminées par les formules n o n o A = min xi : xi ≥ Q1 − 1.5∆ , B = max xi : xi ≤ Q3 + 1.5∆ . Boxplots Exercice Deux séries Covariance Nuage des points où ∆ = Q3 − Q1 . Si la série numérique a une répartition normale (Gaussienne), la probabilité qu’une valeur de la série se trouve en dehors de l’intervalle [A, B] est de 0.7%. Toutes les valeurs qui se trouvent en dehors de l’intervalle [A, B], considérées comme valeurs aberrantes, sont désignées par un symbole (?, ◦, ∗, . . .). Droite de régression QQ-plot Exemple de Galton 1 16 Boxplots (boîtes à moustaches) Arnak Dalalyan Interprétation et exercice Pour interpréter un boxplot, il faut noter que la moitié des valeurs de la série se trouvent entre Q1 et Q3 , c’est-à-dire dans la boîte du boxplot, la moitié des valeurs de la série se trouvent à gauche de la médiane, s’il n’y a pas de valeurs aberrantes, toutes les valeurs de la série se trouvent entre A et B, si la répartition de la série est symétrique, alors la médiane se trouve au milieu de la boîte et les moustaches sont de longueurs égales. Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? Statistique Descriptive Série numérique Histogramme Les boxplots sont pratiques pour comparer deux séries statistiques. Fn de répartition Statistiques d’une série Tendance centrale Exercice : dans le but d’étudier les taux de contamination des sols par Dispersion la substance toxique PCB (biphenil polychlorinaté), 26 échantillons de sols ont été prélevés. Le taux de PCB contenus dans ces échantillons (mesurés en 10−4 g par kg de sol) sont : 3,5 1 1,6 12 8,1 5,3 23 8,2 1,8 9,8 1,5 9,7 9 15 24 11 107 18 29 49 94 12 16 22 Les quatorze premières observations sont en fait des taux de PCB de régions rurales, alors que les 10 observations restantes proviennent de régions urbaines. Tracer des boxplots pour les régions rurales et urbaines. Commenter le résultat. Boxplots Stats d’ordre Exercice Deux séries Covariance Nuage des points Droite de régression QQ-plot Exemple de Galton 1 17 Covariance and corrélation Arnak Dalalyan On appelle covariance des séries numériques x1 , . . . , xn et y1 , . . . , yn la valeur n 1X sxy = (xi − x̄)(yi − ȳ ). n i=1 Quelques infos où x̄ et ȳ sont respectivement la moyenne des xi et celle des yi . On appelle coefficient corrélation (linéaire) des séries numériques x1 , . . . , xn et y1 , . . . , yn la valeur ρxy = Intro sxy , sx sy Motivations Stat. : qu’est-ce que c’est ? Statistique Descriptive Série numérique Histogramme Fn de répartition Statistiques d’une série Tendance centrale Dispersion Stats d’ordre où sx et sy sont respectivement l’écart-type des xi et celui des yi . Par convention, on pose ρxy = 0 si au moins l’un des deux écart-types sx , sy est nul. Le coefficient de corrélation est toujours entre −1 est +1 : −1 ≤ ρxy ≤ 1. Boxplots Exercice Deux séries Covariance Nuage des points Droite de régression QQ-plot Exemple de Galton De plus, |ρxy | = 1 si et seulement si les séries x1 , . . . , xn et y1 , . . . , yn sont liées par une relation affine, c’est-à-dire xi = ayi + b pour tout i = 1, . . . , n. 1 18 Nuage des points Arnak Dalalyan Supposons que l’on dispose de deux séries numériques x1 , . . . , xn et y1 , . . . , yn représentant les valeurs de deux variables prélevées sur n individus. Il est naturel et pratique de représenter ces données sous forme d’un nuage de points. Il s’agit de représenter par un symbole (losange, dans l’exemple de la Fig. 1) les n points de coordonnées (xi , yi ). A titre d’exemple, considérons les données présentées dans la Table 1.1 (cf. poly). Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? Statistique Descriptive Série numérique Histogramme Fn de répartition Les 38 individus sont des pays, alors que les deux variables X et Y sont respectivement le PIB (produit intérieur brut) par habitant et la consommation d’énergie par habitant. Le nuage de point de ces données est affiché dans la Figure 1. Statistiques d’une série Tendance centrale Dispersion Stats d’ordre Boxplots Consommation d’énergie Exercice Deux séries 10 Covariance 8 Nuage des points 6 Droite de régression 4 QQ-plot 2 Exemple de Galton 0 F IGURE: Le nuage de points représentant les données de la Table 1.1 (cf. poly). 1 19 Droite de régression Arnak Dalalyan Supposons que l’on dispose de deux séries numériques x1 , . . . , xn et y1 , . . . , yn représentant les valeurs de deux variables prélevées sur n individus. Afin d’obtenir une droite approximant le nuage de points, on calcule la droite de régression de Y sur X , donnée par l’équation y = ax + b où Intro Quelques infos sxy a= 2 , sx Motivations b = ȳ − ax̄. Stat. : qu’est-ce que c’est ? Statistique Descriptive Série numérique Pour les données de la Table 1.1, la droite de régression ainsi que son équation sont données dans ci-dessous Histogramme Fn de répartition Statistiques d’une série Consommation d’énergie Tendance centrale Dispersion 10 y = 0.00011*x + 1.3 8 Stats d’ordre 6 Boxplots di Exercice 4 Mi Deux séries 2 0 Covariance 0 1 2 3 PIB 4 5 6 7 4 F IGURE: La droite de régression pour les données de la Table 1.1. x 10 Nuage des points Droite de régression QQ-plot On voit dans la formule que la droite de régression de Y sur X ne coïncide pas, en général, avec la droite de régression de X sur Y . Exemple de Galton Si l’on note Mi le point (xi , yi ) et par di la distance entre Mi et Mi0 = (xi , axi + b), alors la droite de régression est la droite pour laquelle P 2 i di est minimale (méthode des moindres carrés). 1 20 QQ-plot (graphiques quantiles-quantiles) Arnak Dalalyan Un QQ-plot permet de voir rapidement l’adéquation d’une série numérique à une distribution, ou comparer les répartitions de deux séries numériques. Intro 1er cas : Lorsque l’on s’intéresse à l’adéquation à une distribution, l’axe des ordonnées porte les quantiles qj de la distribution observée, tandis que l’axe des abscisses porte les quantiles qj∗ correspondants de la loi théorique. 2ème cas : Lorsque l’on s’intéresse à la comparaison de deux distributions, l’axe des ordonnées porte les quantiles qjx de la série y x1 , . . . , xn , tandis que l’axe des abscisses porte les quantiles qj de la série y1 , . . . , yn . y Le nuage des points (qj∗ , qj ) (respectivement (qj , qjx )) s’aligne sur la première bissectrice lorsque la distribution théorique proposée est une bonne représentation des observations (resp., lorsque les répartitions des xi et des yi sont égales). (qj∗ , qj ) Si le nuage des points s’aligne sur une droite, alors il existe une transformation affine des observations telle que la distribution théorique proposée est une bonne représentation des observations transformées. Quelques infos Motivations Stat. : qu’est-ce que c’est ? Statistique Descriptive Série numérique Histogramme Fn de répartition Statistiques d’une série Tendance centrale Dispersion Stats d’ordre Boxplots Exercice Deux séries Covariance Nuage des points Droite de régression QQ-plot Exemple de Galton 1 21 QQ-plot : exemples Arnak Dalalyan On génère de façon aléatoire n copies indépendantes de variables (xi , ui , yi , zi ) où xi ∼ N (0, 1), ui ∼ N (0, 1), yi ∼ N (2, 4) et zi ∼ E(1). On trace, pour différentes valeurs de n, les QQplots de x sur u, de x sur y et x sur z. Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? Statistique Descriptive Série numérique Histogramme Fn de répartition Statistiques d’une série Tendance centrale Dispersion Stats d’ordre Boxplots Exercice On y voit que le premier nuage se concentre sur la bissectrice (égalité des répartitions), Deux séries Covariance Nuage des points Droite de régression le deuxième nuage se concentre autour d’une droite (égalité des répartitions après une transformation affine des variables), QQ-plot Exemple de Galton le troisième nuage n’indique aucune relation entre les deux répartitions. 1 22 Exemple de Galton Arnak Dalalyan Le terme regression a été introduit par Francis Galton, chercheur britannique du 19e siècle, Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? Statistique Descriptive Série numérique Histogramme Fn de répartition Statistiques d’une série Tendance centrale Sir Francis Galton 1822-1911 Dispersion dans le célèbre article : Regression towards mediocrity in hereditary stature Journal of the Anthropological Institute 15 : 246-63 (1886) pour décrire le phénomène biologique suivant : la taille des enfants nés des parents inhabituellement grands (ou petits) se rapproche de la taille moyenne de la population. Stats d’ordre Boxplots Exercice Deux séries Covariance Nuage des points Droite de régression QQ-plot Exemple de Galton Galton a analysé 928 données, chaque donnée étant la paire (taille moyenne des deux parents, taille de l’enfant) mesurée en pouce (1 pouce = 2,54 cm). (Les tailles des femmes sont multipliées par 1.08.) 1 23 Exemple de Galton (suite) Arnak Dalalyan On voit ci-dessous le nuage des points, la droite de régression de taille de l’enfant sur taille moyenne des parents ainsi que la droite de régression de taille moyenne des parents sur taille de l’enfant : Intro Quelques infos Motivations 74 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 72 Stat. : qu’est-ce que c’est ? ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ●● ● ● ●● ● ● ●● ●● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ●● ● ● ●●● ● ● ●● ● ● ● ●● ● ● ●● ●●● ●● ● ● ● ●●● ●● ●●● ● ● ●● ● ●● ● ●● ● ●● ● ●●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ●● ● ●● ● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●●● ● ●● ●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ●●●● ●●● ●● ● ●● ● ● ● ●● ●● ●● ● ● ●●● ● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ●● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ●●●● ● ● ● ● ● ●●● ● ●● ● ● ● ● ●● ● ● ●●●●● ●● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ●● ● ●● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ●●● ● ● ● ● ●● ●● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ●● ●● ●● ● ●●● ● ● ●● ●● ● ● ●●● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● 70 68 child 66 64 62 ● Série numérique ● ● ● ● ● Histogramme ● ● Fn de répartition Statistiques d’une série Tendance centrale Dispersion Stats d’ordre ● Boxplots ● 64 Statistique Descriptive ● ● ● ● ● ●● 66 68 70 72 parent Exercice Deux séries On remarque que, comme attendu, les deux droites ont des pentes positives. On constate également que les deux droites ne coïncident pas. Exercice : quand est-ce que les deux droites de régression coïncident ? Covariance Nuage des points Droite de régression QQ-plot Exemple de Galton 1 24 Exemple de Galton (suite et fin) On peut s’intéresser à la relation entre les répartition des variables taille de l’enfant et taille moyenne des parents : Arnak Dalalyan Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? Statistique Descriptive Série numérique Histogramme Fn de répartition Statistiques d’une série Tendance centrale Dispersion Stats d’ordre Boxplots Exercice Deux séries On voit qu’après une transformation affine, les deux variables auront à peu près la même répartition. Covariance Nuage des points Droite de régression QQ-plot Exemple de Galton 1 25