M. Ingenbleek 1997-1998 1 Introduction..............................................................................................................1-1 Un peu d'histoire............................................................................................................1-1 Survol méthodologique .................................................................................................1-2 Les étapes d'une analyse statistique...............................................................................1-2 Collecte des données..................................................................................................1-3 Analyse des données ..................................................................................................1-3 Inférence et conclusion ..............................................................................................1-3 Remarque...................................................................................................................1-3 Rappels mathématiques .............................................................................................1-4 2 Distribution des fréquences et diagrammes ..........................................................2-1 Distribution des fréquences ...........................................................................................2-1 Fonction de répartition ..................................................................................................2-6 Autres représentations ...................................................................................................2-7 3 Quantiles...................................................................................................................3-1 Introduction ...................................................................................................................3-1 Définition ......................................................................................................................3-3 Quartiles et déciles ........................................................................................................3-3 4 Mesures de tendance centrale.................................................................................4-1 Introduction ...................................................................................................................4-1 Quelques mesures de tendance centrale ........................................................................4-1 La moyenne arithmétique ..........................................................................................4-1 La moyenne harmonique............................................................................................4-2 La moyenne géométrique...........................................................................................4-2 La médiane.................................................................................................................4-2 Le mode .....................................................................................................................4-2 Propriétés.......................................................................................................................4-3 Propriété caractéristique de la moyenne arithmétique ...............................................4-3 Première propriété commune à toutes les mesures....................................................4-3 Deuxième propriété commune...................................................................................4-3 Relation entre la moyenne et la médiane ...................................................................4-4 5 Mesures de dispersion .............................................................................................5-1 Introduction ...................................................................................................................5-1 Quelques mesures de dispersion....................................................................................5-1 L'étendue....................................................................................................................5-1 L'intervalle inter-quartile ...........................................................................................5-1 L'écart moyen absolu .................................................................................................5-2 La variance.................................................................................................................5-2 L'écart-type ................................................................................................................5-2 M. Ingenbleek 1997-1998 Propriétés.......................................................................................................................5-2 Propriété de la variance..............................................................................................5-2 Première propriété commune aux mesures de dispersion..........................................5-3 Deuxième propriété commune...................................................................................5-3 6 Tableaux de contingence et mesures de dépendance............................................6-1 Introduction ...................................................................................................................6-1 Tableau de contingence .................................................................................................6-1 Première mesure de dépendance ................................................................................6-3 Calcul pratique...........................................................................................................6-4 Deuxième mesure de dépendance ...............................................................................6-5 Calcul pratique...........................................................................................................6-6 Remarques ...............................................................................................................6-10 Mesure de dépendance entre deux variables ordinales ou cardinales: Rs ...................6-10 7 Diagramme de Pareto et indice de concentration .................................................7-1 Diagramme de Pareto ....................................................................................................7-1 Indice de concentration de Gini.....................................................................................7-2 8 Principales distributions .........................................................................................8-1 Introduction ...................................................................................................................8-1 Lois de probabilité servant à la modélisation ................................................................8-1 Loi binomiale - B(n,p) ...............................................................................................8-2 Binomiale négative ....................................................................................................8-3 Loi de Poisson - ().................................................................................................8-4 Loi normale - N(m,) ................................................................................................8-4 Loi log-normale .........................................................................................................8-5 Loi de Pareto..............................................................................................................8-6 Loi exponentielle .......................................................................................................8-6 Lois utilisées dans les calculs statistiques .....................................................................8-7 Loi normale................................................................................................................8-7 Loi Chi-carrée à n degrés de liberté ...........................................................................8-7 Loi t de Student à n degrés de liberté.........................................................................8-8 Loi de F de Fisher à nl et n2 degrés de liberté ............................................................8-8 Distribution du coefficient de corrélation de Spearmann ..........................................8-9 9 Estimation: principes...............................................................................................9-1 Introduction ...................................................................................................................9-1 Propriété d'un estimateur ...............................................................................................9-1 Estimation convergente..............................................................................................9-1 Estimation sans biais..................................................................................................9-2 Estimation efficace ....................................................................................................9-2 Principe de maximum de vraisemblance.......................................................................9-3 Première étape............................................................................................................9-3 Deuxième étape .........................................................................................................9-3 M. Ingenbleek 1997-1998 Exemple.........................................................................................................................9-4 La fréquence des catastrophes ...................................................................................9-4 Le montant des dommages ........................................................................................9-6 Méthode des moindres carrés ........................................................................................9-9 Intervalle de confiance ..................................................................................................9-9 10 Estimations d'une population normale................................................................10-1 Premier cas: m inconnu, connu ................................................................................10-1 Estimation ................................................................................................................10-1 Propriétés .................................................................................................................10-2 Intervalle de confiance au niveau .........................................................................10-3 Exemple chiffré .......................................................................................................10-4 Deuxième cas: m inconnu, inconnu .........................................................................10-4 Estimations ..............................................................................................................10-5 Propriétés .................................................................................................................10-5 Intervalle de confiance au niveau pour m.............................................................10-7 Intervalle de confiance au niveau pour ² ............................................................10-9 Exemple chiffré .......................................................................................................10-9 11 Estimation d'une proportion ................................................................................11-1 Introduction .................................................................................................................11-1 Estimation....................................................................................................................11-1 Etape 1 .....................................................................................................................11-1 Etape 2 .....................................................................................................................11-1 Propriété ......................................................................................................................11-2 Intervalle de confiance au niveau a .............................................................................11-2 Exemple chiffré ...........................................................................................................11-3 Remarques ...................................................................................................................11-4 12 Estimation de la différence entre 2 moyennes.....................................................12-1 Introduction .................................................................................................................12-1 Propriété ......................................................................................................................12-1 Intervalle de confiance au niveau pour m1-m2 .........................................................12-2 Exemple chiffré ...........................................................................................................12-2 13 Test d'hypothèses: principes.................................................................................13-1 Introduction .................................................................................................................13-1 Hypothèse nulle, contre-hypothèse et test ...................................................................13-1 Risque de première et de deuxième espèce .................................................................13-2 14 Test sur une proportion.........................................................................................14-1 Test d'hypothèse ..........................................................................................................14-1 Puissance du test sur une proportion ...........................................................................14-2 15 Test d'égalité de 2 moyennes.................................................................................15-1 Echantillons indépendants...........................................................................................15-1 M. Ingenbleek 1997-1998 Conditions d'application ..........................................................................................15-1 Exemple ...................................................................................................................15-1 Distribution de U sous Ho .......................................................................................15-3 Exemple numérique .................................................................................................15-4 Echantillons appariés...................................................................................................15-4 Conditions d'application ..........................................................................................15-4 Statistique de Wilcoxon...........................................................................................15-5 Distribution de T sous Ho........................................................................................15-5 Exemple numérique .................................................................................................15-6 16 Test d'ajustement...................................................................................................16-1 Introduction .................................................................................................................16-1 Distribution discrète et complètement spécifiée .........................................................16-1 Exemple chiffré .......................................................................................................16-2 Distribution continue et complètement spécifiée ........................................................16-2 Exemple chiffré .......................................................................................................16-3 Cas général ..................................................................................................................16-3 Exemple chiffré .......................................................................................................16-4 17 Test d'indépendance entre 2 variables nominales ..............................................17-1 Introduction .................................................................................................................17-1 CHI-CARRE ...............................................................................................................17-1 Test au niveau ..........................................................................................................17-2 Exemple chiffré ...........................................................................................................17-2 18 Test d'indépendance entre 2 variables ordinales................................................18-1 Rappel..........................................................................................................................18-1 Distribution exacte de RS sous H0..............................................................................18-2 Distribution asymptotique ...........................................................................................18-3 M. Ingenbleek 1997-1998 Introduction 1 A l'origine, l'activité statistique semble avoir été le fait de chefs d'états désireux de connaître des éléments de puissance de leur état: population, potentiel militaire, richesses, ... Quelle meilleure connaissance que celle issue de l'observation systématique de tous les éléments de la société ? L'idée d'un recensement apparaît donc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus sont sumériens (5000 à 2000 ans avant J.-C.). On procédait régulièrement en Mésopotamie au relevé des personnes et des biens (3000 ans avant J.-C.). L'Egypte semble avoir été la première nation à organiser des recensements annuels à finalité fiscale (2700 à 2500 avant J.-C.). En ce temps-là, comme aujourd'hui, les déclarations des sources de revenus n'étaient pas faites sans réserves, mais les "oublis" des déclarants provoquaient leur condamnation à mort ! Jusqu'au 17e siècle les recensements seront effectués sans remettre en cause le principe de cette démarche. Remplacer une connaissance exhaustive par une extrapolation fondée sur l'examen d'une partie de la population est une attitude qui ne trouvera d'éléments de justification qu'à l'apparition des premiers résultats de probabilités autorisant une analyse (quantitative et qualitative) de l'erreur. Ainsi, au 17e siècle, VAUBAN, désireux de dresser un tableau de l'économie agricole de la France, fait observer un échantillon de terres arables dans chaque province. Dans la seconde moitié du 18e siècle, MESSANGE, MOHEAU puis LAPLACE estiment la population totale de la France avec une précision meilleure que celle du recensement de l'époque. La méthode utilisée est fondée sur l'hypothèse d'un rapport constant entre la population et le nombre annuel de naissances: ce rapport, une fois mesuré, donne la population par une simple multiplication avec le nombre de naissances, nombre suffisamment fiable à l'époque. En 1800, F. MORTON EDEN estime la population de la Grande-Bretagne à 9 millions d'habitants, chiffre qui sera confirmé en tous points par les résultats du recensement de 1801. La méthode utilisée par MORTON EDEN, bien que confirmée par les faits, nous semble avec le recul bien surprenante puisque basée sur l'hypothèse d'un rapport constant entre la population et le nombre de ... cheminées ! Statistiques Page 1-1 Introduction Néanmoins, au 19e siècle, le comportement des statisticiens reste généralement régi par le souci d'exhaustivité, sous prétexte de rigueur. Cette thèse est, entre autres, ardemment défendue par QUETELET. Il faut attendre 1895 pour que le terme "échantillon représentatif" soit utilisé pour la première fois par A. KIAER lors d'une réunion de l'Institut International de Statistique, à Berne. Pour terminer ce petit tour d'horizon d'histoire événementielle, citons une date sans importance dans l'évolution des concepts statistiques mais qui peut frapper l'imagination: en 1935, l'Institut GALLUP entre en fonction ... Les sondages d'opinion sont suffisamment habituels pour qu'ils nous servent de point de départ à ce survol méthodologique: chacun sait que plusieurs questions concernant un sujet d'actualité sont posées à un échantillon de personnes; on résume les réponses données en les présentant sous forme de pourcentages de graphiques de pourcentages par région, par groupe sociologique, etc.; ces résumés sont censés être voisins de ceux qu'on obtiendrait si on questionnait l'ensemble de la population et non pas une fraction de celle-ci. Cette démarche qui paraît si habituelle (ou naturelle) ne doit pas faire oublier les problèmes méthodologiques (et pratiques) qu'elle pose: quelles questions poser ? dans quels termes les poser (des réponses sous forme qualitative du genre "bon moyen - mauvais" apparaissant dans un questionnaire donneraient-elles les mêmes résultats si les trois niveaux de qualités étaient appelés “excellent correct - lamentable" ) ? combien de personnes interroger ? comment choisir les personnes de manière à ne pas orienter le résultat, de manière à ce que les conclusions apportées puissent être étendues à la population entière ? comment déterminer la marge de fluctuation, la marge d'erreurs, la fourchette sur les résultats une fois étendus de l'échantillon à la population entière ? L'évocation des sondages dégage les étapes parcourues dans la majorité des analyses statistiques. Statistiques Page 1-2 Introduction Point de départ de l'analyse statistique, les observations brutes sont obtenues au terme d'un processus plus au moins laborieux: enquêtes, mesures expérimentales, compilations d'archives, ... Les problèmes posés par la collecte des données (protocoles, nombres d'individus ou de mesures, etc.) ne sont pas abordés par le cours; ils n'en sont pas moins importants dans la pratique. Avant d'apporter des réponses définitives aux questions initiales qui ont motivé l'analyse statistique, il faut bien sûr examiner les données recueillies. Un examen préliminaire à vue des données, des tableaux de nombres sommaires ne doit pas être considéré comme une tâche indigne d'un statisticien: il permet de se familiariser avec les ordres de grandeur, des détecter parfois des erreurs d'encodage (un logiciel statistique peut être aveugle à ce genre d'erreur), de répondre à des questions immédiates, ... Cet examen ne fonde pas avec certitude une opinion, mais il faut connaître le matériel avec lequel on va travailler. Les procédures statistiques (sur lesquelles porte une bonne partie du cours) permettent de condenser les observations au travers de nombres ou de graphiques (souvent appelés statistiques). L'objectif commun à toutes ces procédures est de fournir une meilleure intelligibilité des données: que cette condensation soit faite sans perte, d'information ou avec perte d'information (comme c'est le plus souvent le cas). Il est naturel d'essayer une procédure puis l'autre, de revenir à la première, etc. Les procédures utilisées sont de nature descriptive; si les données sont présentées sous ces aspects multiples, elles ne permettent pas d'étendre les résultats de l'échantillon à la population entière; cette extension implique un risque d'erreur. Une simple description des données ne suffit pas en général: on souhaite mesurer le risque d'erreur inhérent à toute inférence c'est-à-dire à toute extension des résultats de l'échantillon à la population entière. Une partie du cours est consacrée à expliciter la nature du risque d'erreur et aux techniques permettant d'évaluer ce risque. La population apparaissant dans l'exemple du sondage est une population physique dont l'existence est bien réelle; mais les procédures d'inférence sont d'application dès le moment où on dispose d'une suite de valeurs observées, que ces valeurs soient effectivement des réponses fournies par des individus d'un échantillon ou que ces valeurs soient les résultats de mesures expérimentales par exemple. Dans ce dernier cas, la population n'existe pas réellement, elle devient une notion abstraite (exemple: Statistiques Page 1-3 Introduction le nombre de tempêtes par an): on peut imaginer que la population est l'ensemble des mesures expérimentales possibles, tout se passant comme si ces mesures étaient rassemblées et que l'expérience réalisée consistait à en prendre quelques unes au "hasard". Il est évident que ces notions sont parfaitement formalisées de manière à fonder avec rigueur les méthodes statistiques; nous n'insisterons pas sur cet aspect des statistiques et nous nous contenterons d'une vue simplifiée. On appelle variables nominales des variables prenant des valeurs sur lesquelles on ne peut faire ni des opérations arithmétiques, ni des comparaisons (en grandeur), comme par exemple une variable "classe sociale", une variable "sexe", etc. L'échelle nominale est utilisée pour représenter des variables dont les catégories ne sont pas naturellement ordonnées. En général, ces catégories sont représentées, pour simplifier la codification, par des nombres. Exemples: l'état civil le sexe On appelle variables ordinales des variables prenant des valeurs sur lesquelles on peut effectuer un classement, comme par exemple un classement de préférence, un classement par juge, etc. L'échelle ordinale est utilisée pour représenter des variables dont les catégories sont ordonnées. Les différentes classes ou valeurs particulières sont en relation les unes par rapport aux autres. Cette relation peut s'exprimer en termes d'algèbre des inégalités; par exemple par des expressions: plus grand que, plus rapide que, moins riche que. Les valeurs particulières d'une telle échelle sont non-quantitatives. Ils indiquent uniquement une position dans une série ordonnée et non l'importance de la différence qui existe entre 2 positions successives de l'échelle. Exemple: aimer pas du tout/moyennement/beaucoup On appelle variables cardinales des variables prenant des valeurs sur lesquelles on peut effectuer des opérations arithmétiques (addition, soustraction, multiplication, division) et des classements. Exemples: salaire distance Statistiques Page 1-4 Introduction On appelle variables continues (cardinales) des variables prenant des valeurs qui peuvent être arbitrairement proches les unes des autres. L'échelle continue est une échelle sur laquelle il existe, entre 2 valeurs adjacentes, une infinité de valeurs. La mesure d'une variable continue est toujours approximative. Exemples: taille masse vitesse longueur temps Une variable qui prend un ensemble discret ou discontinu de valeurs. Sur de telles échelles où l'intervalle entre 2 valeurs consécutives est fixe et constant, on peut dire que la mesure faite est toujours exacte. Exemples: nombre de globules blances au centimètre carré nombre d'enfants par famille Rappelons l'usage du signe de sommation: n X 1 X 2 X 3... Xn Xi i 1 Dans le cas particulier où les X1, X2,... sont égaux à une même quantité X, on trouve: n X i n. X i 1 Un simple calcul montre que: n n ( X a) X n. a i i i 1 i 1 n n (c. X ) c. X i i 1 Statistiques i i 1 Page 1-5 Distribution des fréquences et diagrammes 2 On considère une variable nominale ou discrète, par exemple l'âge d'un individu (variable discrète), le sexe d'un individu (variable nominale), sa région d'habitation (variable nominale),... En regard de chaque valeur possible pour cette variable, on porte le nombre d'individus de l'échantillon qui ont cette valeur. Par exemple, voici un échantillon de 88 patients atteints d'une maladie spécifique; pour chacun de ces patients le service médical a attribué un degré de sévérité de la maladie, ce degré de sévérité est compris entre 1 et 4 (il s'agit bien d'une variable discrète, on peut même la qualifier d'ordinale). D'autres variables ont été prélevées: le nombre de jours passés à l'hôpital (DUJ), l'âge (AGE), le résultat de 6 tests (CARDIO, DOO, RXTH, RESPI, CUT, BIO tous codés par des chiffres.). 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 DUJ SEV AGE CARDIO DOO RXTH RESPI CUT 9 5 3 11 7 9 13 12 19 29 16 13 21 30 25 11 7 20 11 3 3 2 2 1 1 3 1 3 2 3 2 3 3 2 2 2 3 1 91 83 82 81 80 80 79 79 78 78 76 76 75 74 74 73 73 73 72 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 3 3 1 3 3 3 3 3 3 3 3 3 3 2 2 3 0 3 3 0 2 2 2 1 3 2 2 2 2 2 2 2 1 2 2 3 1 0 3 2 0 0 0 2 0 3 0 2 2 3 3 0 2 0 0 0 0 2 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Statistiques BIO 7 1 1 2 1 1 3 1 4 2 3 1 2 2 2 1 2 2 2 Page 2-1 Distribution des fréquences et diagrammes 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 DUJ SEV AGE CARDIO DOO RXTH RESPI CUT 11 3 2 11 12 16 12 15 22 15 16 11 12 16 8 22 15 12 22 11 16 14 14 14 8 11 14 13 7 12 17 21 14 12 13 11 16 6 12 13 16 22 14 12 23 3 11 28 1 2 1 3 2 2 3 1 3 1 2 2 2 3 2 2 3 1 1 1 1 1 1 1 1 1 1 3 2 1 1 3 3 2 3 2 1 1 1 1 2 2 1 3 1 1 1 1 72 72 72 71 71 71 70 70 69 69 69 66 66 66 65 65 65 65 65 65 63 63 63 62 62 61 60 60 60 60 60 59 58 58 58 57 57 56 56 56 56 55 55 55 54 53 53 53 1 0 1 1 1 2 1 1 1 1 2 1 1 1 1 2 2 1 1 1 1 1 1 1 1 1 2 2 2 1 1 3 3 1 1 2 1 1 1 1 2 3 1 1 1 1 1 1 3 0 0 3 3 3 3 3 3 0 3 3 0 3 3 0 3 3 0 3 2 3 3 0 3 3 0 3 3 0 3 3 3 0 3 0 0 3 3 3 0 0 0 3 0 0 0 3 1 2 1 1 2 2 2 2 0 1 2 1 2 1 2 2 0 1 1 2 1 1 1 0 1 1 1 1 1 1 1 2 2 1 1 2 1 1 1 1 1 2 1 1 1 0 1 1 0 2 0 0 0 0 0 0 3 0 0 2 0 3 2 2 2 0 0 0 0 0 0 0 0 0 0 2 1 0 0 2 0 2 0 0 2 0 0 0 0 2 2 0 2 0 0 2 0 0 0 0 0 2 0 0 2 0 0 0 2 0 2 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 2 0 0 0 0 0 0 2 0 0 0 0 0 2 0 Statistiques BIO 4 1 1 3 2 2 3 1 1 4 2 2 2 2 1 3 3 2 2 1 1 1 4 1 1 2 1 3 2 2 1 4 1 2 3 1 1 1 2 2 1 2 3 3 1 1 1 1 Page 2-2 Distribution des fréquences et diagrammes 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 DUJ SEV AGE CARDIO DOO RXTH RESPI CUT 13 18 11 13 3 6 11 12 10 15 12 12 19 14 15 15 10 9 8 7 8 3 1 1 2 3 4 1 2 3 1 2 1 4 1 2 3 2 2 1 3 1 52 52 52 52 51 51 51 51 51 50 50 49 49 49 49 48 46 44 43 40 38 1 1 1 1 3 4 1 2 2 1 1 1 4 4 2 1 1 1 1 1 1 3 0 0 2 0 0 2 3 3 3 0 0 3 3 0 3 0 0 0 3 3 1 1 1 1 0 2 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 2 0 0 2 0 0 0 2 0 0 0 0 0 0 0 0 2 2 0 0 0 2 0 2 0 0 0 0 0 2 0 0 0 0 2 2 0 2 0 0 0 0 BIO 3 3 4 2 3 4 4 4 3 4 2 1 4 1 4 3 1 2 1 3 1 Telles quelles, les données ne peuvent être facilement interprétées. Comment se répartissent les degrés de sévérité? Pour le savoir on porte en regard de chaque degré le nombre de patients qui ont ce degré: 1 : 37 2 : 26 3 : 23 4:2 Mais il ne faut pas oublier que le nombre en face de chaque degré est un nombre absolu (fréquence absolue): 37 sur 88 patients, 26 sur 88 etc.; donner ce tableau sans le préciser n'a guère de sens; on préfère donc donner en plus le pourcentage (fréquence relative): 37 sur 88 ou 42.05%. Pour être plus parlant, on trace une barre horizontale (ou verticale) dont la longueur est proportionnelle au pourcentage. Statistiques Page 2-3 Distribution des fréquences et diagrammes Diagramme des fréquences absolues 2 4 3 SEV 23 2 26 1 37 0 5 10 15 20 25 30 35 40 Nbre patients On pourrait se poser la question suivante: "dans l'échantillon 42.05% des individus ont une gravité 1, ce pourcentage se modifie-t-il suivant les résultats du test BIO?" Pour tenter de répondre à cette question, on peut reproduire le graphique précédent pour chaque valeur de la variable BIO (c’est-à-dire pour chaque résultat du test BIO): Diagramme des fréquences absolues par valeur de SEV 7 BIO 4 4 3 2 1 3 2 1 0 5 10 15 20 25 Nbre patients Il semble bien qu'au sein de l'échantillon la réponse soit positive; pour étendre cette réponse au sein de la population, il faut quitter le domaine des statistiques descriptives et se tourner vers le chapitre consacré à l'inférence. Statistiques Page 2-4 Distribution des fréquences et diagrammes On présente souvent de tels graphiques verticalement: voilà ce qu'il donne pour la variable AGE: Diagramme des fréquences absolues 7 6 5 4 3 2 1 98 96 94 92 90 88 86 84 82 80 78 76 74 72 70 68 66 64 62 60 58 56 54 52 50 48 46 44 42 40 38 0 Age A l'aide d'un tel graphique, on voit clairement comment se distribuent les fréquences relatives (graphique de la distribution des fréquences en "tuyau d'orgue" ou histogramme des fréquences). Le graphique est encore plus parlant lorsqu'on groupe les valeurs prises par la variable AGE: Statistiques Page 2-5 Distribution des fréquences et diagrammes Diagramme des fréquences absolues Données groupées 16 14 12 10 8 6 4 2 0 [ -44] [45-49] [50-54] [55-59] [60-64] [65-69] [70-74] [75-79] [80- ] Classes d'âges Densité des fré quences fré quence é tendue En partant d'une distribution des fréquences (relatives) regroupées en classe, on définit la densité des fréquences c’est-à-dire la proportion de la distribution par unité d'étendue de la classe; la densité des fréquences est donc un quotient: fréquence divisée par une étendue. Si on se donne une densité de fréquence, on retrouve les effectifs en multipliant la densité (l'ordonnée) par l'étendue (l'abscisse): ainsi dans le cas des densités des fréquences, ce sont les aires qui représentent des effectifs et non les ordonnées. Soient Xl, X2, X3,... ,Xn, les n valeurs observées d'une variable ordinale (ou ordinale ou moins). La fonction de répartition Fn(x) (x réel quelconque) est la fonction définie par: Fn( x ) nbreXi n X C'est une fonction en escalier dont les marches sont situées aux points Xi (i=1,2,...,n) et dont la hauteur des marches est le nombre de Xi plus petits ou égaux à x divisé par n. Cette fonction dont le rôle théorique est fondamental "parle" moins que la distribution des fréquences. Statistiques Page 2-6 Distribution des fréquences et diagrammes La dernière colonne du tableau suivant donne la valeur de la fonction de répartition aux points Xi (Xl = l, X2 = 2, X3 = 3 et X4 = 4 seules valeurs distinctes observées) de la variable SEV de l'exemple précédent (la première colonne reprend les fréquences absolues, la 2e ces fréquences cumulées, la 3e les fréquences relatives (en pourcent) et la 4e ces fréquences cumulées ou la fonction de répartition): SE V 1 2 3 4 Fréq. abs. 37 26 23 2 Fréq. abs. cum. Fréq. rel. 42.05 29.55 26.14 2.27 37 63 86 88 Fréq. rel.cum. 42.05 71.59 97.73 100.00 Voici une représentation de la fonction de répartition pour la variable AGE: Diagramme des fréquences relatives cumulées ou fonction de répartition 120.0% 100.0% 80.0% 60.0% 40.0% 20.0% 0.0% 38 48 58 68 78 88 98 108 Age Il existe bien d'autres représentations que celle des diagrammes en "tuyau d'orgues", comme celle-ci donnant la répartition des valeurs de DUJ au sein de l'échantillon sous forme de "quartier de tarte": Statistiques Page 2-7 Distribution des fréquences et diagrammes Répartition des valeurs de DUJ Duj 3 5% Autres 17% Duj 6 3% Duj 7 5% Duj 8 3% Duj 9 3% Duj 22 5% Duj 11 14% Duj 16 8% Duj 15 7% Duj 12 14% Duj 14 8% Duj 13 8% Il est impossible de citer tous les graphiques possibles: diagrammes en ascenseurs, en building, nuages de points, etc. Statistiques Page 2-8 Quantiles 3 On voudrait pouvoir répondre à des questions du type: "en Belgique, une personne sur 2 a moins de quel âge?" “9 personnes sur 10 ont moins de quel âge?" Reprenons l'exemple du chapitre 2 pour voir comment répondre à ces deux questions. Dressons le tableau des fréquences absolues, des fréquences relatives exprimées en %, les fréquences absolues cumulées et les fréquences relatives cumulées exprimées en % (ou la fonction de répartition). Statistiques Page 3-1 Quantiles Age Fréquences Fréquences Fréquences Fréquences absolues relatives absolues relatives cumulées cumulées 38 1 1.1% 1 1.1% 40 1 1.1% 2 2.3% 43 1 1.1% 3 3.4% 44 1 1.1% 4 4.5% 46 1 1.1% 5 5.7% 48 1 1.1% 6 6.8% 49 4 4.5% 10 11.4% 50 2 2.3% 12 13.6% 51 5 5.7% 17 19.3% 52 4 4.5% 21 23.9% 53 3 3.4% 24 27.3% 54 1 1.1% 25 28.4% 55 3 3.4% 28 31.8% 56 4 4.5% 32 36.4% 57 2 2.3% 34 38.6% 58 3 3.4% 37 42.0% 59 1 1.1% 38 43.2% 60 5 5.7% 43 48.9% 61 1 1.1% 44 50.0% 62 2 2.3% 46 52.3% 63 3 3.4% 49 55.7% 65 6 6.8% 55 62.5% 66 3 3.4% 58 65.9% 69 3 3.4% 61 69.3% 70 2 2.3% 63 71.6% 71 3 3.4% 66 75.0% 72 4 4.5% 70 79.5% 73 3 3.4% 73 83.0% 74 2 2.3% 75 85.2% 75 1 1.1% 76 86.4% 76 2 2.3% 78 88.6% 78 2 2.3% 80 90.9% 79 2 2.3% 82 93.2% 80 2 2.3% 84 95.5% 81 1 1.1% 85 96.6% 82 1 1.1% 86 97.7% 83 1 1.1% 87 98.9% 91 1 1.1% 88 100.0% On lit dans ce tableau que, par exemple: il y a 1 personne ayant 48 ans soit 1.1% de l'échantillon il y a 6 personnes ayant moins de 48 ans soit 6.8% de l'échantillon il y a 3 personnes ayant 53 ans (soit 3.4% de l'échantillon) il y a 24 personnes ayant moins de 53 soit 27.3% de l'échantillon. Pour déterminer l'âge A tel qu'il y ait une personne sur 2 soit 50% de l'échantillon ayant moins de A ans, cherchons l'âge pour lequel on a 50% dans la dernière colonne; on trouve A=61 ans ce qui répond à la première question. Pour répondre à la deuxième question, cherchons dans la dernière colonne 90%. A 76 ans on a 88.6% et à 78 ans on a 90.9%; la réponse est donc un âge entre 76 et 78 Statistiques Page 3-2 Quantiles ans, mais l'échantillon ne permet pas de répondre plus précisément (non unicité de la réponse); pour donner toutefois une seule réponse (un seul âge), on a coutume d'interpoler linéairement entre 76 et 78 ans; A 76 2 (90.0 88.6) 77.2ans (90.9 88.6) On voit que pour répondre à des questions du type étudié, il faut "inverser" la fonction de répartition (en levant les indéterminations éventuelles). Grosso-modo, on veut définir une valeur Qp de la variable qui partage l'échantillon en deux parties: la première partie contient ceux qui ont une valeur de la variable inférieure à Qp, cette partie contenant p% des individus, et la deuxième contient ceux dont la variable est supérieure à Qp, cette partie contenant (1-p)% des individus. Qp est un quantile d'ordre p (0 p 1) si: Nbre Xi Qp Nbre Xi Qp p n n Les quantiles sont des mesures de position qui ne tentent pas de déterminer le centre d'une distribution d'observations, mais de décrire une position particulière. Cette notion est une extension du concept de la médiane (qui divise une distribution d'observations en 2 parties). Le calcul des quantiles n'a de sens que pour une variable quantitative pouvant prendre des valeurs sur un intervalle déterminé. Les quartiles divisent l'ensemble des observations en 4 parties. Les cas particuliers p = 25%, p = 50%, p = 75% définissent les quartiles; le deuxième quartile (p = 50%) est appelé la médiane. Il y a 1 individu sur 2 dont la valeur de la variable est comprise entre Q25 et Q75. Les déciles divisent l'ensemble des observations en 10 parties. Les cas particuliers p = 10%, p = 20%, .... p = 90% définissent les déciles. Statistiques Page 3-3 Mesures de tendance centrale 4 ! Une mesure de tendance centrale permet de résumer un ensemble de données relatives à une variable quantitative. Plus précisément, elle permet de déterminer une valeur fixe, appelée valeur centrale, autour de laquelle l'ensemble des données à tendance à se rassembler. Supposons que les valeurs observées X1, X2,...; Xn soient cardinales et reportons-les sur un axe: --+-------*--*-*-*-***--*---------------------> Intuitivement et à l'oeil, on situerait le "centre" de ces points: --+-------*--*-*-*O***--*---------------------> Comment traduire cette intuition à l'aide d'une expression liant les X1, ..., Xn ? La moyenne arithmétique est définie par l'expression suivante: n X 1 X 2 ... Xn X n X i i 1 n La moyenne arithmétique: dépend de la valeur de toutes les observations est fréquemment utilisée comme estimateur de la moyenne de la population peut voir sa valeur faussée par des données aberrantes Statistiques Page 4-1 Mesures de tendance centrale la somme des écarts au carré entre chaque observation Xi d'un ensemble de données et une valeur est minimale lorsque est égale à la moyenne arithmétique. n min ( X i ) 2 moyenne arithmétique i 1 La moyenne harmonique est définie par l'expression suivante: mh n n 1 i 1 i x Exemple d'utilisation: calcul de la vitesse moyenne La moyenne géométrique est définie par l'expression suivante: mg n n (1 X ) 1 i i 1 n (1 X 1 ).(1 X 2 )....(1 X n ) 1 Exemple d'utilisation: taux de croissance moyen La médiane est: le deuxième quartile Q50 est facile à déterminer puisqu'elle n'exige qu'un classement des données n'est pas influencée par des observations aberrantes est utilisée comme estimateur de la valeur centrale d'une distribution notamment lorsque celle-ci est asymétrique ou qu'elle comporte des données aberrantes la somme des écarts en valeur absolue entre chaque observation Xi d'un ensemble de données et une valeur est minimale lorsque est égale à la médiane. n min X i mé diane i 1 Le mode est: la valeur observée la plus fréquente Statistiques Page 4-2 Mesures de tendance centrale on remarque que le mode n'est pas toujours univoquement défini: il peut y avoir zéro ou plusieurs modes dans un ensemble de données " L'écart de chaque observation Xi à la moyenne X est Xi X ; cet écart est tantôt positif, tantôt négatif, plus ou moins grand suivant la valeur de Xi, mais la propriété qui caractérise X ( X est la seule quantité qui en jouit) est que la somme de ces écarts est nulle: ( X 1 X ) ( X 2 X ) ... ( Xn X ) 0 n ( X i X) 0 i 1 La démonstration de cette propriété est simple. Que devient le "centre" de la distribution déterminé à l'œil, si on effectue un changement d'origine, ou une translation ou si on rajoute une constante identique à toutes les observations ? Intuitivement, le "centre" de la distribution doit "suivre" la transformation (changement d'origine ou translation) car celle-ci ne perturbe pas la position relative des points observés. On peut vérifier facilement que les trois mesures de tendance centrale introduites vérifient cette propriété: si Yi = Xi + B alors la mesure de tendance centrale des Yi est égale à celle des Xi plus B. !" On peut se poser la même question avec un changement d'échelle, un changement d'origine. On vérifie que si Yi = A * Xi alors la mesure de tendance centrale des Yi est égale à celle des Xi multiplié par A. Pour résumer ces deux propriétés: "on peut effectuer un changement d'origine ou un changement d'unité puis calculer une mesure de tendance centrale ou, de manière Statistiques Page 4-3 Mesures de tendance centrale équivalente, calculer la mesure de tendance centrale puis effectuer le changement d'origine ou le changement d'unité sur la mesure de tendance centrale." Il n'existe pas de lien systématique entre la moyenne et la médiane; cependant si: la moyenne est supérieure à la médiane, on dit que la distribution des valeurs observées présente une dissymétrie positive la moyenne est inférieure à la médiane, on dit que la distribution des valeurs observées présente une dissymétrie négative la moyenne est égale à la médiane, on dit que la distribution des valeurs observées est symétrique En effet, si la moyenne X est plus grande que la médiane MED, on a: MED X X i X X i MED n ( X (i = 1,2,..., n) n i i 1 X ) ( X i MED) i 1 n 0 ( X i MED) i 1 en d'autres termes, les écarts positifs l'emportent en grandeur (il y a autant de XiMED positifs que négatifs) sur les écarts négatifs. Statistiques Page 4-4 Mesures de dispersion 5 ! Supposons que les valeurs observées Xl, X2, ..., Xn soient cardinales et reportons-les sur axes avec une mesure de tendance centrale marquée 0: ----+------ *--*-*-*O***--* ---------------------> Voici d'autres valeurs observées en même nombre et de même mesure de tendance centrale: --*-+---*---*---*---O--*--*--*------*-----------> Dans le premier cas toutes les valeurs sont concentrées autour de la mesure de tendance centrale, et dans le deuxième cas, elles sont très étalées autour de cette mesure. Voyons comment traduire celà dans une expression liant les X1, X2, ..., Xn. On peut classer les mesures de dispersion en 2 groupes: les mesures définies par la distance entre 2 valeurs représentatives de la distribution les mesures calculées en fonction des déviations de chaque donnée par rapport à une valeur centrale # L'étendue est la différence entre la plus grande et la plus petite des observations. Etendue X max X min # $ % L'intervalle inter-quartile est la différence entre le troisième et le premier quartile: Q75-Q25. Statistiques Page 5-1 Mesures de dispersion Il correspond donc à l'intervalle comprenant 50% des observations les plus au centre de la distribution. L'intervalle inter-quartile est une mesure de dispersion qui ne dépend pas du nombre d'observations, cette mesure est nettement moins sensible aux observations aberrantes. # Comme son nom l'indique, l'écart moyen absolu est la moyenne des écarts à la moyenne pris en valeur absolue: n XX i Ecart moyen absolu i 1 n $ On définit la variance comme la moyenne des carrés des écarts à la moyenne: X X n 2 i 2 i 1 n #% L'écart-type est la racine carrée de la variance. L'écart-type s'exprime dans les mêmes unités que les Xi, contrairement à la variance. 2 n (X i 1 i X )2 n L'écart-type est généralement noté lorsqu'il est relatif à une population et s lorsqu'il est relatif à un échantillon. " $ On peut démontrer la relation suivante: Statistiques Page 5-2 Mesures de dispersion n X U i i 1 2 n Xi X i 1 2 n. X U 2 U quelconque En d'autres termes: la somme des carrés des écarts des observations à une valeur quelconque U est égale à la somme des carrés des écarts à la moyenne plus n fois le carré de l'écart de U à X De cette relation, on déduit, en divisant par n et en prenant U=0, que: 1 n 1 n . ( X i U )2 . ( X i X )2 ( X U )2 n i 1 n i 1 1 n . ( X i U )2 2 ( X U )2 n i 1 Si U 0 2 1 n 2 . X i 2 X n i 1 2 1 2 . X i2 X n expression permettant de calculer la variance à partir de la somme des carrés et de la moyenne. De la relation citée, se déduit aussi une propriété liant la moyenne et la variance: la somme des carrés des écarts prend sa plus petite valeur avec la moyenne, ce minimum, divisé par n, est la variance. " Si on effectue une translation sur les Xi, ou un changement d'origine, la dispersion ne change pas; qu'en est-il pour les mesures de dispersion ? On vérifie facilement qu'elles ne sont pas affectées par cette transformation (par exemple, l'écart-type des Yi avec Yi= Xi+B est égal à l'écart-type des Xi). !" Par contre, si on effectue un changement d'unité, la dispersion est affectée; on vérifie que les mesures de dispersion "suivent" le changement d'unité: si Yi = A.Xi alors la mesure de dispersion des Yi est égale à celle des Xi multipliée par A. Statistiques Page 5-3 Tableaux de contingence et mesures de dépendance 6 On considère deux variables nominales ou ordinales (mais pas cardinales). On désire mesurer de quelle manière la première variable appelée variable indépendante influence la deuxième variable appelée variable dépendante. La variable dépendante dans un modèle d'analyse de régression est la variable considérée comme variant en fonction d'autres variables de l'analyse. On appelle variable indépendante dans un modèle de régression la ou les variables qui sont considérées comme exerçant une influence sur la variable dépendante ou qui expliquent les variations de la variable dépendante. Les exemples sont multiples: var. indépendante situation familiale classe d'âges salaire var. dépendante réussite scolaire performance choix politique Contingence signifie dépendance. De sorte qu'un tableau de contingence est tout simplement un tableau qui montre comment une caractéristique dépend de l'autre. On a relevé le niveau scolaire (variable dépendante) et le statut du père (variable indépendante) de 200 enfants. Le niveau scolaire est codé D1, D2 et le statut du père I1, I2, I3, I4. On regroupe les résultats dans un tableau Statistiques Page 6-1 Tableaux de contingence et mesures de dépendance D1 D2 Total I1 21 14 35 I2 I3 11 4 15 60 65 125 I4 Total 98 102 200 6 19 25 Il y a donc 21 enfants dont le niveau scolaire est D1 et le statut du père I1; il y 98 enfants de niveau D1, 125 enfants dont le statut du père est I2. Les totaux en lignes et colonnes sont appelés totaux marginaux. Tel quel ce tableau n'est pas parlant: on rajoute les fréquences relatives (en pourcent du total global, 200 dans l'exemple): I1 D1 I2 21 10.50 % 14 7.00 % 35 17.50 % D2 Total I3 60 30.00% 65 32.50 % 125 62.50 % I4 11 5.50 % 4 2.00 % 15 7.50 % 6 3.00 % 19 9.50 % 25 12.50 % Total 98 49.00 % 102 51.00 % 200 Parce que plus parlant sur la nature des dépendances éventuelles, on rajoute les fréquences relatives en pourcent des totaux marginaux lignes et colonnes (dans la cellule D1,I1: 21.43%=21/98 et 60.00%=21/35, etc): I1 D1 D2 Total 21 10.50% 21.43% 60.00% 14 7.0% 13.73% 40.00% 35 17.50% I2 60 30.00% 61.22% 48.00% 65 32.50% 63.70% 52.00% 125 62.50% I3 11 5.50% 11.22% 73.33% 4 2.00% 3.92% 26.27% 15 7.50% I4 6 3.00% 6.11% 24.00% 19 9.50% 18.63% 76.00% 25 12.50% Total 98 49.00% 102 51.00% 200 On observe par exemple que: dans l'échantillon, il y a 49.00% d'enfants au niveau D1 et 51.00% au niveau D2 si le statut du père est de I1, 60% des enfants sont au niveau D1 en revanche si le statut du père est I4, 24% des enfants sont au niveau D1 parmi les enfants qui sont au niveau D2, 3.92% ont un père de statut I3 Statistiques Page 6-6-3 Tableaux de contingence et mesures de dépendance Sans tenir compte de la variable indépendante, la valeur la plus fréquente de la variable dépendante est D2 dans l'exemple avec 102 enfants (98 n'ont pas cette valeur). En tenant compte de la variable indépendante (c’est-à-dire par statut du père), la valeur la plus fréquente n'est pas toujours D1: Statut du père I1 I2 I3 I4 Niveau le plus fréquent D1 D2 D1 D2 On peut affirmer que 98 enfants n'ont pas le niveau le plus fréquent. Comment cette affirmation s'affine-t-elle en tenant compte de la variable indépendante (du statut du père): Statut du père I1 I2 I3 I4 Niveau le plus fréquent D1 D2 D1 D2 échappent 14 60 4 6 84 On passe de 98 à 84, soit un gain relatif de 98 84 14.3% 98 On appelle LAMBDA () cette mesure de dépendance calculée sur l'exemple. Citons quelques propriétés de : 0 1 En toute généralité, on ne peut pas permuter le rôle des variables indépendante et dépendante sans changer la valeur de . Interprétons les valeurs possibles de est presque nulle: les individus n'ayant pas la valeur la plus fréquente sont aussi nombreux que l'on précise ou non les valeurs prises par la variable indépendante, Statistiques Page 6-6-3 Tableaux de contingence et mesures de dépendance cette variable n'apporte pas beaucoup d'information en liaison avec la variable dépendante, donc la dépendance est faible. est proche de 1: le nombre d'individus n'ayant pas la valeur de la variable dépendante la plus fréquente change beaucoup si l'on précise les valeurs prises par la variable indépendante: elle apporte beaucoup d'informations en liaison avec la variable dépendante, donc la dépendance est forte. Remarquons que la mesure est "aveugle" à certaines dépendances; l'exemple suivant illustre ce cas “pathologique”: D1 D2 Total I1 23 22 45 I2 54 1 55 I3 21 19 40 I4 31 29 60 Total 128 72 200 Il est facile de voir que est nul (la valeur la plus fréquente est toujours D1) cependant il existe une dépendance manifeste: “Si le statut est I2 alors le niveau est quasi toujours D1”. On peut montrer qu'il est équivalent de calculer suivant ce qui a été décrit dans l'exemple ou par l'expression suivante: max(n 1J , n2 J ,..., n Ij ) max(n1. , n2. ,..., ni . ) n.. max(n1. , n2. ,..., n I . ) où les nij, ni. et n.. sont les fréquences absolues et totaux marginaux du tableau de contingence: 1 2 ... i ... I Total 1 n11 n21 2 n12 n22 ... ... ... J n1J n2J Total n1. n2. ni1 ni2 ... niJ ni. nI1 n.1 nI2 n.2 ... ... nIJ n.J nI. n.. Statistiques Page 6-6-4 Tableaux de contingence et mesures de dépendance Définissons une mesure de dépendance entre deux variables ordinales. Pour ce faire, on définit d'abord la notion de paires d'individus concordante et discordante . Pour chaque individu on observe deux variables X et Y; pour l'individu i X prend la valeur Xi et Y la valeur Yi. Comparons les individus i et j quant à leurs variables X et Y: - on dit que “i est concordant avec j” si et seulement si: [Xi < Xj et Yi < Yj] ou [Xi > Xj et Yi > Yj] - on dit que “i est discordant avec j” si et seulement si: [Xi < Xj et Yi > Yj] ou [Xi > Xj et Yi < Yj] Bien sûr il existe des paires d'individus ni concordantes ni discordantes. Si on remarque que le nombre de paires concordantes domine, on peut suspecter une dépendance du type "si X est grand alors Y est grand"; de même, si le nombre de paires discordantes domine, on peut suspecter une dépendance du type "si X est grand alors Y est petit"; finalement si le nombre de paires concordantes est du même ordre de grandeur que le nombre de paires discordantes, on ne peut affirmer l'une ou l'autre des 2 propositions. D'où l'idée de la mesure de dépendance (Gamma) CD CC où C nb. concordants D nb. discordants Citons quelques propriétés de : -1 +1 Le signe de s'interprète: positif si les concordants dominent, négatif dans le cas contraire. On peut inverser le rôle de X et de Y sans changer la valeur de Statistiques Page 6-6-5 Tableaux de contingence et mesures de dépendance Prenons un exemple pour illustrer la démarche à suivre. Déterminons le nombre de concordants. \X Y\ + 0 - - 0 + 1 5 20 4 30 6 10 2 2 On commence par la dernière ligne du tableau (Y=-) première colonne (X=-). Quels sont les individus concordants avec ces 20 individus? Ceux en italique: \X Y\ + 0 - - 0 + 1 5 20 (°) 4 (*) 30 (*) 6 10 (*) 2 (*) 2 En effet on a 30 individus avec [X*=0 > X°=- et Y*=0 > Y°=-] 2 individus avec [X*=+ > X°=- et Y*=0 > Y°=-] 4 individus avec [X*=0 > X°=- et Y*=+ > Y°=-] 10 individus avec [X*=+ > X°=- et Y*=+ > Y°=-] 46 individus concordants avec les 20 soient 46 * 20 = 920 paires On poursuit par la dernière ligne du tableau (Y=-) deuxième colonne (X=0). Quels sont les individus concordants avec ces 6 individus ? Ceux en italique: \X Y\ + 0 - - 0 + 1 5 20 4 30 6 (°) 10 (*) 2 (*) 2 En effet on a 2 individus avec [X*=+ > X°=0 et Y*=0 > Y°=-] 10 individus avec [X*=+ > X°=0 et Y*=+ > Y°=-] 12 individus concordants avec les 6 soient 12 * 6 = 72 paires On poursuit par la dernière ligne du tableau (Y=-) troisième colonne (X=+). Quels sont les individus concordants avec ces 6 individus ? Il n'en existe pas. Statistiques Page 6-6-6 Tableaux de contingence et mesures de dépendance \X Y\ + 0 - - 0 + 1 5 20 4 30 6 10 2 2 On poursuit par la deuxième ligne du tableau (Y=0) première colonne (X=-). Quels sont les individus concordants avec ces 5 individus ? Ceux en italique: \X Y\ + 0 - - 0 + 1 5 (°) 20 4 (*) 30 6 10 (*) 2 2 En effet on a 4 individus avec [X*=0 > X°=- et Y*=+ > Y°=0] 10 individus avec [X*=+ > X°=- et Y*=+ > Y°=0] 14 individus concordants avec les 5 soient 14 * 5 = 70 paires On poursuit par la deuxième ligne du tableau (Y=0), deuxième colonne (X=0). Quels sont les individus concordants avec ces 30 individus ? Ceux en italique: \X Y\ + 0 - - 0 + 1 5 20 4 30 (°) 6 10 (*) 2 2 En effet on a: 10 individus avec [X*=+ > X°=0 et Y*=+ > Y°=0] 10 individus concordants avec les 30 soient 30 * 10 = 300 paires Au total 920 + 72 + 70 + 300 = 1362 paires concordantes. Déterminons le nombre de paires discordantes. On commence par la première ligne du tableau (Y=+) première colonne (X=-). Quels sont les individus discordants avec cet individu? Ceux en italique: \X Y\ + 0 - - 0 + 1 (°) 5 20 4 30 (*) 6 (*) 10 2 (*) 2 (*) Statistiques Page 6-6-7 Tableaux de contingence et mesures de dépendance Statistiques Page 6-6-8 Tableaux de contingence et mesures de dépendance En effet on a: 30 individus avec [X*=0 > X°=- et Y*=0 > Y°=+] 2 individus avec [X*=+ > X°=- et Y*=0 > Y°=+] 6 individus avec [X*=0 > X°=- et Y*=+ > Y°=+] 2 individus avec [X*=+ > X°=- et Y*=+ > Y°=+] 40 individus discordants avec le 1 soient 40 * 1 = 40 paires On poursuit par la première ligne du tableau (Y=+) deuxième colonne (X=0). Quels sont les individus discordants avec ces 4 individus. Ceux en italique: \X Y\ + 0 - - 0 + 1 5 20 4 (°) 30 6 10 2 (*) 2 (*) En effet on a 2 individus avec [X*=+ > X°=0 et Y*=0 > Y°=+] 2 individus avec [X*=+ > X°=0 et Y*=+ > Y°=+] 4 individus discordants avec les 4 soient 4 * 4 = 16 paires On poursuit par la première ligne du tableau (Y=0) troisième colonne (X=+). Quels sont les individus discordants avec ces 10 individus? Il n'en existe pas. \X Y\ + 0 - - 0 + 1 5 20 4 30 6 10 2 2 On poursuit par la deuxième ligne du tableau (Y=0) première colonne (X=-). Quels sont les individus discordants avec ces 5 individus? Ceux en italique: \X Y\ + 0 - - 0 + 1 5 (°) 20 4 30 6 (*) 10 2 2 (*) En effet on a: 6 individus avec [X*=0 > X°=- et Y*=- > Y°=0] 2 individus avec [X*=+ > X°=- et Y*=- > Y°=0] 8 individus discordants avec les 5 soient 8 * 5 = 40 paires Statistiques Page 6-6-9 Tableaux de contingence et mesures de dépendance On poursuit par la deuxième ligne du tableau (Y=0) deuxième colonne (X=0). Quels sont les individus discordants avec ces 30 individus? Ceux en italique: \X Y\ + 0 - - 0 + 1 5 20 4 30 (°) 6 10 2 2 (*) En effet on a: 2 individus avec [X*=+ > X°=0 et Y*=- > Y°=0] 2 individus discordants avec Ïes 30 soient 2 * 30 = 60 paires Au total 40 + 16 + 40 + 60 = 156 paires discordantes. On a donc 1362 156 79.45% 1362 156 On perd dans l'analyse toutes les paires où Xi=Xj ou Yi=Yj. On peut introduire un modifié en divisant par [nr. concordant + nr. disconcordant + EY], où EY est le nombre de paires avec [Xi<>Xj et Yi=Yj]. CD C D EY est "aveugle" à certaines dépendances. Statistiques Page 6-6-10 Tableaux de contingence et mesures de dépendance Considérons 2 variables cardinales (ou ordinales): X et Y. On désire mesurer la dépendance de Y (variable dépendante) en X (variable indépendante). Pour fixer les idées, prenons l'exemple d'un échantillon de 11 observations où X est l'âge et Y le salaire: Observation 1 2 3 4 5 6 7 8 9 10 11 X 36 45 37 42 55 28 25 30 50 49 18 Y 132 150 126 160 157 100 95 110 160 146 78 Si une petite valeur de X entraîne régulièrement une petite valeur pour Y, on peut affirmer que Y dépend de X; il en va de même, si une petite valeur de X entraîne régulièrement une grande valeur pour Y. Par contre, si une petite valeur de X entraîne indifféremment une grande ou une petite valeur de Y, on peut dire que Y ne dépend pas de X. Trions donc les valeurs de X par ordre croissant et de même pour les valeurs de Y. Observation 1 2 3 4 5 6 7 8 9 10 11 X 36 45 37 42 55 28 25 30 50 49 18 Y 132 150 126 160 157 100 95 110 160 146 78 Rangs des X 5 8 6 7 11 3 2 4 10 9 1 Rangs des Y 6 8 5 10.5 9 3 2 4 10.5 7 1 Note: si plusieurs données ont la même valeur, on utilise le rang moyen. Statistiques Page 6-6-10 Tableaux de contingence et mesures de dépendance Calculons la différence entre les rangs de X et ceux de Y. Observation 1 2 3 4 5 6 7 8 9 10 11 X 36 45 37 42 55 28 25 30 50 49 18 Y 132 150 126 160 157 100 95 110 160 146 78 Rx 5 8 6 7 11 3 2 4 10 9 1 Ry 6 8 5 10.5 9 3 2 4 10.5 7 1 Rx-Ry -1 0 1 -3.5 2 0 0 0 -0.5 2 0 Il est vain de résumer ces 11 différences par une moyenne: elle vaut nécessairement 0, en effet: (5-6)+(8-8)+(6-5)+(7-10.5)+(11-9)+(3-3)+(2-2)+(4-4)+(10-10.5)+(9-7)+(1-1) = 5+8+6+7+11+3+2+4+10+9+1-6-8-5-10.5-9-3-2-4-10.5-7-1= 1+2+3+4+5+6+7+9+9+10+11-1-2-3-4-5-6-7-8-9-10.5-10.5 = 0 Prenons plutôt le carré des différences et sommons-les: Observation 1 2 3 4 5 6 7 8 9 10 11 X 36 45 37 42 55 28 25 30 50 49 18 Y 132 150 126 160 157 100 95 110 160 146 78 Rx 5 8 6 7 11 3 2 4 10 9 1 Ry 6 8 5 10.50 9 3 2 4 10.5 7 1 Rx-Ry -1 0 1 -3.5 2 0 0 0 -0.5 2 0 (Rx-Ry)2 1 0 1 12.3 4 0 0 0 0.3 4 0 24.6 On peut démontrer que D2 (toujours positif) prend une valeur maximale égale à n.(n 2 1) ,où n est le nombre d'observations. 3 On ramène cette quantité à une valeur comprise entre -1 et +1. Statistiques Page 6-6-11 Tableaux de contingence et mesures de dépendance n.(n 2 1) 0 D 3 i 1 n 2 i n 0 D 2 i i 1 1 n.(n 2 1) 3 n 0 3. Di2 i 1 2 1 n.(n 1) n 0 6. Di2 i 1 2 2 n.(n 1) n 1 0 1 6. Di2 i 1 2 n.(n 1) 1 2 n 1 1 6. Di2 i 1 2 n.(n 1) 1 On définit le coefficient de corrélation des rangs de Spearman par l'expression: n Rs 1 6. Di2 i 1 n.(n ² 1) où Di2 Rxi R yi Dans l'exemple: 6 22.6 135.6 Rs 1 1 0.897 11 (11² 1) 1320 Si Rs est proche de -1, ou de +1, la dépendance est forte, si Rs est proche de 0, la dépendance est faible. Statistiques Page 6-6-12 Diagramme de Pareto et indice de concentration 7 Les diagrammes de Pareto sont principalement utilisés dans le contexte des analyses qualitatives (cercles de qualité,...). L'analyse de Pareto est une méthode simple permettant de séparer les causes majeures d'un problème, des causes mineures. Le diagramme de Pareto permet de distinguer d'emblée les premières causes, problèmes ou autres conditions. Pareto énonça la règle des 80/20: 80% des ventes sont attribuées à 20% des équipes de vente 80% des effets résultent de 20% des causes etc. Considérons donc une variable nominale et calculons les fréquences relatives. On appelle diagramme de Pareto le diagramme en bâtonnet des fréquences relatives, où les valeurs de la variable sont classées par ordre décroissant des fréquences. Prenons l’exemple suivant. Pendant 6 mois, on a dénombré 60 accidents à un carrefour particulièrement dangereux les causes de ces accidents ont été enregistrées: Causes dépassement mauvaise visibilité refus de priorité alcoolisme état du véhicule état de la route vitesse excessive autres causes Fréquence absolue 2 8 12 2 11 1 19 5 Le diagramme de Pareto est représenté ci-après. La fonction de répartition (fréquences relatives cumulées) est représentée sur le même graphique: les ordonnées des fréquences relatives (diagramme de Pareto) se lisent à gauche, celles de la fonction de répartition à droite. Statistiques Page 7-1 Diagramme de Pareto et indice de concentration Sur le diagramme de Pareto se distingue d’emblée la première cause d’accident: la vitesse excessive (32% des cas); les 3 premières causes expliquent 70% des accidents (le 3e bâtonnet de la fonction de répartition est à cette hauteur) et la quasitotalité (90%) des accidents est expliquée par les 5 premières causes (cfr fonction de répartition). Diagramme de Paretto 100% 80% 60% Fréq. relatives Fct répartition 40% 20% 0% Vitesse Priorité Etat véh Visibilité Autres Dépass Alcool Etat route Causes En fait, le but du diagramme est de mettre en évidence (si les données le permettent!) une répartition très déséquilibrée, c’est-à-dire une répartition où les 2 ou 3 valeurs les plus fréquentes représentent la majorité de la distribution. Dans ce cas, la hauteur des bâtonnets décroît très rapidement, ou, de manière équivalente, la fonction de répartition présente une forte concavité. Notons que a contrario, si toutes les valeurs de la variable ont la même fréquence (diagramme plat), la fonction de répartition présente des marches régulières le long d’une droite. Pour mesurer la concavité de la fonction de répartition ou pour mesurer le déséquilibre de la répartition, observons le graphique suivant. Statistiques Page 7-2 Diagramme de Pareto et indice de concentration 100% 83% 80% U T S 100% 98% 95% 92% R 70% P 60% 52% O 40% 32% N 20% B A 0% Vitesse Priorité C Etat véh D Visibilité E Autres G F Dépass Alcool Etat route Causes On y a représenté la fonction de répartition avec la base des marches reliée par des segments de droites (0N, NO, OP, PR,...) ainsi que la droite 0V. Rappelons qu’un diagramme de Pareto plat (répartition uniforme) possède une fonction de répartition dont les marches s’échelonnent régulièrement le long de cette droite. On introduit alors le coefficient de concentration de Gini défini comme étant le rapport entre l’aire du polygone 0N, NO, OP, ..., UV, V0 et l’aire du triangle rectangle 0VH. Calculons ces 2 aires: L’aire du polygone se déduit par différence entre, d’une part, l’aire S1 du polygone 0N, NO, OP, ..., UV, VH, H0 et, d’autre part, l’aire S2 du triangle 0VH. L’aire S1 se décompose à son tour en 8 aires partielles S11, S12, S13, ..., S18 S11 est l’aire du triangle 0AN soit S11 base hauteur 2 d 0.32 2 où d est la base des bâtonnets S12 est l’aire du trapèze ANOB soit S12 hauteur (grande base petite base) 2 d (0.32 0.52) 2 Semblablement, on a pour le trapèze BOPC: S13 d (0.52 0.70) 2 et ainsi de suite pour S14, ..., S18 On a donc pour S1: Statistiques Page 7-3 Diagramme de Pareto et indice de concentration d d d d (32% 52%). (52% 70%). ... (93% 100%). 2 2 2 2 d d d S1 32%. .2 52%. .2 ...100%. 2 2 2 100% S1 (32% 52% ... ). d 2 S1 5.72 d S1 32%. L’aire du triangle S2 se détermine facilement: S2 8. d 100 . 4. d 2 En rassemblant des résultats on déduit la valeur du coefficient de concentration de Gini: S1 S 2 S2 Dans l'exemple: 5.72. d 4. d 5.72 4 Gini 0.43 4. d 4 L’interprétation est simple: une valeur du coefficient proche de 0 indique une distribution proche d’une distribution uniforme. Il n'y a pas de concentration des données une valeur du coefficient proche de 1 indique un déséquilibre important dans la répartition, déséquilibre que veut mettre en évidence le diagramme de Pareto. Il y a concentration des données. Statistiques Page 7-4 Principales distributions 8 Une loi de probabilité peut admettre deux fonctions: la première consiste à décrire de la façon la plus adéquate possible un mécanisme réel étudié (répartition des salaires, répartition des âges, mesure de temps de réponses, etc), la deuxième consiste à décrire le comportement des instruments techniques utilisés dans le traitement des données. La première fonction est une fonction de modélisation: il s'agit de savoir si, par exemple, la durée de fonctionnement sans défaillance de tel appareil qu'on assimile à une variable aléatoire peut être décrit par telle loi de probabilité. La justification de l'emploi de telle loi plutôt qu'une autre est en général propre au domaine étudié. En fait cette loi est rarement connue entièrement, il subsiste en général plusieurs paramètres qui doivent être adaptés (estimés) au cas précis étudié. La loi avec ses paramètres inconnus (en fait il s'agit d'une famille de lois puisque chaque valeur assignée aux paramètres inconnus en définit une) est appelée loi théorique du phénomène étudié. La loi théorique est censée modéliser le phénomène étudié. La deuxième fonction est interne à la statistique: elle décrit le comportement (la loi de probabilité) de tel outil statistique (moyenne, variance, quantile, etc). La connaissance de ce comportement est fondamentale pour passer d'un stade descriptif à un stade inférentiel. Le comportement (la loi de probabilité) de tel outil est en géneral lié à la loi théorique du phénomène étudié; cette dépendance pose un problème: comme la loi du phénomène n'est pas connue entièrement (paramètres inconnus), le comportement des outils utilisés n'est pas non plus connu entièrement! Cependant, dans une vaste gamme de problèmes, la dépendance disparaît; il est nécessaire de connaître les conditions qui permettent de s'en assurer. Il faut remarquer que certaines lois peuvent assumer les deux fonctions. Nous allons passer en revue certaines distributions communément utilisées pour modéliser certains phénomènes physiques. Cette énumération est loin d'être exhaustive. Statistiques Page 8-1 Principales distributions Une importante classe de variables aléatoires est induite par une suite d'expériences aléatoires du type suivant: chaque observation fait apparaître (avec une probabilité p) ou non (avec une probabilité de 1-p) l'événement A; p reste constant, les observations sont mutuellement indépendantes et on effectue n observations. Xi = 0 Xi = 1 avec une probabilité p avec une probabilité (1 - p) n B ( n, p ) X i i 1 La loi binomiale décrit la répartition du nombre total d'apparition X de l'événement A. Cette loi est étudiée en détail au cours de probabilité. Retenons ici, l'expression de la densité: P[ X i ] Cin . p i .(1 p) ( n i ) où Cin est le coefficient binomial, E X E X 1 X 2 ... X n E X 1 E X 2 ... E X n p p ... p n. p n Var X Var X i i 1 n.Var ( X i ) n.(11 . . p 0.0. q ) p n. E ( X i2 ) ( E ( X i )) 2 2 n.( p p 2 ) n. p.(1 p) X = B(n,p) est la fréquence absolue de A, mais la fréquence relative X B ( n, p ) f n'est plus distribuée suivant une loi binomiale, mais n n Statistiques Page 8-2 Principales distributions B(n, p) n. p E( f ) E p n n pq p.(1 p) Var ( f ) 2 n n pq p.(1 p) n n A la lumière de l'expression de l'écart-type de f (sa dispersion), on peut dire que la fréquence relative: voit sa dispersion diminuer avec n se disperse de moins en moins autour de p, la probabilité d'apparition de l'événement, quand n augmente voit sa dispersion divisée par 2, 10 ou k (toutes autres choses restant égales) si le nombre d'observations est multiplié par 4, 100 ou k2 a une dispersion qui dépend de la probabilité d'apparition de l'événement A (avec un maximum de 1/(2n) en p = 0.5) a une moyenne de p On peut rappeller les propriétés asymptotiques de la loi binomiale. B(n, p) np n N (0,1) npq Dans le même contexte que le point précédent, on peut s'intéresser au nombre d'épreuves nécessaires pour que la fréquence absolue soit égale à k exactement: si on appelle X ce nombre, alors parmi les observations 1, 2, .... (X-1) on a (k-l) fois l'événement A et parmi les observations 1, 2, ..., X, on a k fois l'événement A. On recherche le nombre d'échecs avant le k ième succès. La loi de probabilité de X dépend de p et de k. L'expression analytique de cette loi ne nous intéresse pas directement, mais E( X ) k p Var ( X ) k .(1 p) p2 Cette loi est appliquée à la statistique des accidents et des maladies, dans les problèmes d'analyse des quantités d'individus d'une espèce donnée contenus dans un échantillon, etc. Souvent on ne connaît pas p, raison pour laquelle on monte une expérience pour en déterminer la valeur. Statistiques Page 8-3 Principales distributions La loi de Poisson décrit le nombre d'apparitions pendant une unité de temps d'un événement dont la réalisation ne dépend pas du nombre de réalisations passées et n'influe pas sur les futures (il y a indépendance entre des intervalles disjoints) les épreuves se déroulant dans des conditions stationnaires. Cette loi est étudiée en détail au cours de probabilités, retenons ici son expression analytique: P[ X n] e . n n! où est un paramètre, E( X ) Var ( X ) X N (0,1) Cette loi, dépendant d'un seul paramètre, décrit le nombre de pannes d'une chaîne ou d'un système complexe par unité de temps (régime de croisière), le nombre d'arrivées par unité de temps d'une station, les lois statistiques de sinistres, etc. Souvent on réalise un montage expérimental pour déterminer . Cette loi est capitale dans la théorie et la pratique des recherches statistiques. Son rôle pratique peut être compris en se référant au théorème central limite qui permet d'affirmer que, si une variable continue dépend d'un très grand nombre de facteurs aléatoires indépendants dont l'action est très petite et de caractère additif, alors cette variable suit une loi normale (voir cours de probabilité pour une formulation rigoureuse de cette affirmation). Son rôle théorique découle du fait que la plupart des statistiques utilisées sont (ou peuvent être approchées par) une somme de variables aléatoires remplissant les conditions du théorème central limite. L'expression analytique de la loi normale est: 1 x m 2 . 1 f ( x) .e 2 . 2 E X m Var X 2 Statistiques Page 8-4 Principales distributions C'est une distribution unimodale, symétrique par rapport à m, de moyenne m et d'écart-type . La loi normale dépend de deux paramètres: m et . Lorsque m=0 et =l, on a parle de loi normale centrée et réduite. Le théorème central limite nous dit que: N (m, ) m N (0,1) La fonction de répartition de la loi réduite (x) = P[X x] est tabulée. Par symétrie, il suffit de construire une table pour les valeurs positives de x ((-x) = 1 (x)). La fonction de répartition d'une loi normale non réduite F(x) se déduit de la table par la relation: ( x m) F ( x) ( ) La loi normale prend, avec une forte probabilité, des valeurs proches de sa moyenne, ce qui s'exprime par la règle des 3 : P X m 0.3173 3173% . P X m 2. 0.0455 4.55% P X m 3. 0.0027 0.27% Il est donc "très rare" (dans moins de 5% des cas) qu'une normale s'écarte de sa moyenne de plus de 2 fois son écart-type et "exceptionnel" (dans moins de 0,3 % des cas) qu'elle s'écarte de plus de 3 écarts-types. Il existe des liens entre les lois normale et binomiale, ces liens sont vu au cours de probabilités. Une somme de normales indépendantes (ou non) est distribuée suivant une loi normale; les moyennes s'additionnent, si les variables sont indépendantes, les variances (attention pas les écart-types !!) s'additionnent. La loi normale est très souvent utilisée dans des domaines divers: économie, médecine, biologie, théories des erreurs, etc. La loi normale est utilisée comme approximation de la loi chi-carrée, la loi t de student, la loi binomiale et la loi de Poisson. Une variable aléatoire positive X suit une loi log-normale si son logarithme (népérien) suit une loi normale. ln( X ) N (m, ) Statistiques Page 8-5 Principales distributions En d'autres termes, cette variable continue dépend d'un très grand nombre de facteurs aléatoires indépendants dont l'action est très petite et de caractère multiplicatif (l'action du facteur est proportionnelle à la valeur déjà prise par la variable au moment de cette action). L'expression analytique de cette loi ne nous intéresse pas ici, retenons: que cette loi présente un seul mode que le mode, la médiane et la moyenne se suivent dans cet ordre (dissymétrie positive). La loi log-normale dépend de deux paramètres: la moyenne et l'écart-type de la variable normale. La loi log-normale se rencontre en socio-économie, en physique des formations cosmiques, dans l'étude de la durée de vie des équipements, etc. Les lois "tronquées" se rencontrent assez souvent dans divers problèmes, ces lois décrivent le comportement de populations "tronquées", c’est-à-dire dont on a retiré tous les éléments en deça ou au-delà d'une certaine valeur x0. Cette situation peut se décrire par une loi de Pareto dont la fonction de répartition est: x F ( x) 1 0 x où x > x 0 Le mode est en x0. Cette loi dépend de deux paramètres x0 et . La loi exponentielle est la seule loi jouissant de la propriété suivante: la probabilité que la variable soit comprise entre x et x+a sachant qu'elle est supérieure à x ne dépend pas de x mais de a seulement. Par exemple, si cette variable modélise la durée de vie d'un équipement, la distribution de la durée de vie de cet équipement au delà de t sachant que cet équipement a fonctionné jusqu'en t est indépendante de t. On appelle cette propriété “propriété d'oubli”. La forme analytique de la densité de probabilité d'une exponentielle est: f ( x) . e avec x0 0 Statistiques x Page 8-6 Principales distributions Cette distribution dépend d'un paramètre . On a aussi: E( X ) 1 1 2 La distribution exponentielle décrit également la distribution de l'intervalle de temps séparant la réalisation successive de 2 événements qui suivent une loi de Poisson. Var ( X ) La loi exponentielle se rencontre dans l'étude des files d'attente, en fiabilité, etc. Voir plus haut. Cette loi apparaît naturellement dans l'étude de la distribution de probabilité de la variance calculée sur un échantillon suivant une loi normale. Donnons ici la définition de la loi Chi-carrée: la loi Chi-carrée à n degrés de liberté est la loi d'une somme de n variables normales réduites indépendantes au carré. n ( n ) N 2 (0,1) i 1 Cette loi dépend d'un seul paramètre, le nombre de degrés de liberté. 2( x y ) 2( x ) 2( y ) Une somme de Chi-carrée est distribuée suivant une Chi-carrée, les degrés de liberté s'additionnant. Les quantiles de cette distribution sont tabulés (tables à double entrée: l'ordre du quantile et le nombre de degrés de liberté). L'expression analytique de la densité ne nous intéresse pas, retenons que; E( n ) n Var ( n ) 2n Statistiques Page 8-7 Principales distributions Cette loi est unimodale et présente une dissymétrie positive. 30 2 n n N ( 2n 1,1) Pour n suffisamment grand, la variable 2 est approximativement normale de 2n 1 et d'écart-type 1 (approximation valable pour n > 30). moyenne Cette loi est liée à la distribution des écarts entre la moyenne théorique et la moyenne calculée sur un échantillon issu d'une population normale. N (0,1) tn 2n n La définition est la suivante, la loi t de Student à n degrés de liberté est la distribution du quotient d'une loi normale centrée réduite par la racine carrée d'une Chi-carrée divisée par son degré de liberté n; normale et Chi-carrée étant indépendantes. Cette loi ne dépend que d'un seul paramètre n. Les quantiles de cette distribution sont tabulés (table à double entrée: l'ordre du quantile et le nombre de degrés de liberté). L'expression analytique de la densité ne nous intéresse pas, retenons que: E (t ) 0 Var ( t ) n n 1 Cette loi est unimodale et symétrique par rapport à 0. 30 t n n N (0,1) Pour n suffisamment grand, la variable t est approximativement normale de moyenne 0 et d'écart-type 1 (approximation valable pour n > 30). ! ! Cette distribution est liée à la comparaison de deux variances. n1 Fn1 ,n2 n1 n2 n2 Statistiques Page 8-8 Principales distributions La définition est la suivante, une loi F de Fisher à nl et n2 degrés de liberté est la distribution du quotient de 2 Chi-carrées indépendantes à nl et n2 degrés de liberté divisées par leurs degrés de libertés respectifs. Cette loi dépend de 2 paramètres nl et n2. Les quantiles de cette distribution sont tabulés (tables à triple entrée: l'ordre du quantile et les 2 nombres de degrés de liberté). L'expression analytique de la densité ne nous intéresse pas. " ## Rappelons comment calculer ce coefficient mesurant la dépendance entre 2 variables ordinales (ou cardinales): 1e var 2e var X1 X2 X3 . . . Xi . . . Xn Y1 Y2 Y3 . . . Yi . . . Yn Rs 1 Rangs des X RX1 RX2 RX3 . . . RXi . . . RXn Rangs des Y RY1 RY2 RY3 . . . RYi . . . RYn D² = Diff. au carré (RX1-RY1)² (RX2-RY2)² (RX3-RY3)² . . . (RXi-RYi)² . . . (RXn-RYn)² (RXi-RYi)² 6. D ² n.(n ² 1) Déterminons la distribution de probabilité de Rs en supposant que les deux variables X et Y soient indépendantes. Les valeurs possibles pour Rs se déduisent de celles des RXi et des RYi. Les valeurs possibles pour les RXi sont les permutations des entiers 1,2,3, .... i, .... n; toutes ces permutations sont équiprobables (les Xi sont indépendantes entre elles) et comme on dénombre n! permutations, une configuration quelconque des RXi 1 apparaît avec la probabilité de . n! Le même raisonnement peut se faire pour les RYi et en supposant que les Yi sont indépendantes des Xi, la probabilité d'observer un couple quelconque de 1 configurations des RXi et des RYi est de . (n !) 2 Statistiques Page 8-9 Principales distributions Pour chacune de ces n!2 valeurs possibles pour les RXi et les RYi, on peut calculer la valeur de Rs et en déduire ainsi sa distribution de probabilité. On regroupe les différentes valeurs possibles et on affecte à chaque valeur une probabilité. Mais on peut se montrer plus astucieux: en effet, la valeur de Rs ne change pas si on permute les termes de la somme (RXi-RYi)2 . Pour dénombrer les valeurs possibles de Rs, on peut donc se limiter au cas où RX1=1, RX2=2, ... , RXn=n. Détaillons ces valeurs possibles dans le cas où n=2 (ce qui constitue un cas d'école, dans la pratique il est très risqué de tirer des conclusions sur un échantillon de 2 observations!). X 1 2 Cas possibles pour Y 1 2 Différence des rangs au carré 2 0 1 1 0 1 Valeurs du coeff. de Spearmann 1.00 -1.00 Donc Rs prend 2 valeurs +1 et -1 avec la même probabilité. Statistiques Page 8-10 Principales distributions Passons au cas n=3. X Cas possibles pour Y 1 1 2 3 3 1 2 2 1 1 2 3 3 3 3 2 1 2 2 3 1 Différence des rangs au carré 0 1 4 4 0 1 0 1 1 0 1 1 0 0 1 4 1 4 Valeurs du coeff. de Spearmann 1.00 0.50 -0.50 -1.00 0.50 -0.50 Donc Rs prend 4 valeurs distinctes : -1, -0.5, 0.5, +1 avec les probabilités de 1/6, 1/3, 1/3, 1/6. Remarquons que Rs peut prendre la valeur +1 (-1) alors que les deux variables sont indépendantes, ce cas est relativement rare (1 fois sur 6) mais possible. C oe ff. d e c orréla tio n d e S p e arm a n n =3 2.5 2 Probabilité 1.5 1 0.5 0 1 0.5 -0.5 -1 V aleu rs p o ssib les Passons au cas n=4. En présentant les valeurs possibles pour RYi dans un tableau semblable au précédent, on a: 1 2 3 4 2 1 3 4 3 1 2 4 3 2 1 4 1 3 2 4 2 3 1 4 4 1 2 3 4 2 1 3 4 3 1 2 Cas possibles pour Y 4 4 4 1 2 3 1 2 4 4 2 3 3 2 1 1 2 1 3 3 3 4 1 2 3 4 2 1 1 4 3 2 2 4 3 1 1 2 4 3 2 1 4 3 3 1 4 2 3 2 4 1 1 3 4 2 2 3 4 1 Différence des rangs au carré 9 9 9 9 0 1 4 4 0 1 0 1 4 4 0 1 1 1 1 0 4 4 4 4 4 4 0 1 1 0 1 1 4 1 0 0 1 4 4 1 0 0 1 1 1 1 1 1 4 9 4 9 1 1 4 9 4 9 1 1 4 9 4 9 Valeurs du coeff. de Spearmann 1.0 0.8 0.4 0.2 0.8 0.4 -0.2 -0.4 -0.8 -1.0 -0.4 -0.8 0.4 0.0 -0.6 -0.8 0.2 -0.4 0.8 0.6 0.0 -0.4 0.4 -0.2 0 0 0 0 1 1 0 0 4 1 1 0 Statistiques 4 0 4 0 0 1 1 0 1 1 4 0 9 1 1 1 9 0 4 1 Page 8-11 Principales distributions Donc RS prend 12 valeurs distinctes: -1, -0.8, -0.6, -0.4, -0.2, 0, +0.2, +0.4, +0.6, +0.8, +1 avec des probabilités de 1/24, 3/24=1/8, 1/24, 1/13, 2/24=1/12, 1/12, 1/12, 1/24, 1/8, 1/24. Remarquons à nouveau que RS peut prendre la valeur +1 (-1) même si les variables Xi et Yi sont indépendantes; ce cas est cependant rare: 1 fois sur 24, mais possible. C oe ff. d e c orréla tio n d e S p e arm a n n =4 4.5 4 3.5 Probabilité 3 2.5 2 1.5 1 0.5 0 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 V aleu rs p o ssib les C oe ff. d e c orréla tio n d e S p e arm a n n =5 12 10 Probabilité 8 6 4 2 0 1 0.90 0.8 0.70 0.6 0.50 0.4 0.30 0.2 0.10 0 -0.10 -0.2 -0.30 -0.4 -0.50 -0.6 -0.70 -0.8 -0.90 -1 V aleu rs p o ssib les La distribution de probabilité de RS est tabulée pour différentes valeurs de n. Statistiques Page 8-12 Estimations: principes 9 On considère un échantillon de taille n, aléatoire et simple. "Aléatoire et simple" signifie que les variables aléatoires sont: indépendantes entres elles de même distribution F(x,) Prenons un exemple. Soit une population donnée; on s'intéresse à la taille moyenne m. Supposons que la répartition des tailles individuelles soit normale de moyenne m et d'écart-type connu . On prélève un échantillon de n individus. Comment estimer m et comment donner une mesure de la précision de cette estimation? Si on appelle Xi (i=1,2,...,n) les tailles observées, Xi est une réalisation d'une variable normale de moyenne m et d'écart-type . En toute généralité, la distribution n'est pas nécessairement normale; chaque valeur observée est la réalisation (indépendante des autres valeurs) d'une variable aléatoire dont la densité de probabilité est f(x,), où est un (ou plusieurs) paramètre inconnu. ( X 1 , X 2 ,..., X n ) estimateur de une variable alé atoire La question abordée dans les chapitres qui suivent est celle de l'estimation de : comment construire une fonction des observations (un estimateur) qui donne pour tout échantillon une valeur "proche" de (l'estimation de est notée, ). est le paramètre inconnu; il ne fluctue pas, c'est une constante. Généralement, on monte une expérience en vue de l'estimer à partir des observations. Toute fonction des observations ne convient pas pour estimer ; formulons des critères que doivent remplir les estimations pour être sûres dans un certain sens. $ Un estimateur de est convergent s'il tend stochastiquement vers la valeur à estimer lorsque n tend vers l'infini, et ceci quel que soit : Statistiques Page 9-1 Estimations: principes P n 0 En d'autres termes, le risque que l'estimateur ne s'écarte du paramètre inconnu de plus de tend vers 0 lorsque le nombre d'observations tend vers l'infini. Si la probabilité de commettre une erreur absolue de plus de ne tend pas vers 0 lorsque le nombre d'observations tend vers l'infini, cet estimateur n'a guère de sens pratique. Mais cette propriété est asymptotique: elle ne joue que pour des échantillons de très grande taille. Cette propriété n'est pas suffisante à elle seule. $ On dit qu'un estimateur est sans biais si, pour tout n, l'espérance théorique de cet estimateur est égale à la valeur inconnue du paramètre: E( ) fluctue autour de . Si on calcule plusieurs fois l'estimateur sur des échantillons différents, la moyenne des estimateurs est généralement égale à . Attention estimateur paramètre inconnu variable aléatoire constante L'absence de biais élimine (en moyenne) l'erreur systématique d'estimation qui, d'une manière générale, dépend de n et qui, en cas de convergence de l'estimateur, tend vers 0 lorsque n tend vers l'infini. Le biais d'un estimateur est: b( ) E ( ) $ ## La dispersion d'un estimateur autour de la valeur inconnue du paramètre est une donnée importante; en général, on mesure cette dispersion par: E ( ) 2 D 2 ( ) 2 ( ) (pour un estimateur non biaisé, il s'agit de la variance de ). Statistiques Page 9-2 Estimations: principes On dit qu'un estimateur est efficace si la mesure de dispersion 2( ) de cet estimateur est plus petite que celle de tout autre estimateur de . La variance théorique de l'estimateur (la dispersion de l'estimateur autour du paramètre inconnu) doit être minimale parmi tous les estimateurs possibles. On peut montrer que, sous des conditions de régularité, il existe un estimateur efficace (ou asymptotiquement efficace). Construire un estimateur convergent, non biaisé et efficace n'est pas simple. Il existe plusieurs méthodes d'estimation. La méthode du maximum de vraisemblance fournit dans les cas réguliers des estimations convergentes, non biaisées et efficaces. La démarche est la suivante. % On détermine la fonction de vraisemblance L, c'est-à-dire la probabilité d'observer l'échantillon que l'on a sous les yeux. n L( X 1 , X 2 ,..., X n ; ) ( fX i ; ) i 1 f ( X 1 ; ). f ( X 2 ; )...( fX n ; ) Dans L, les Xi sont connus (ce sont les valeurs observées) et est le paramètre inconnu. Dans le cas continu, il s'agit du produit des densités de probabilité. Dans le cas discret, il s'agit de la loi de probabilité. " % Regardant L comme fonction de seulement, on prend pour estimation de la valeur qui rend L, la vraisemblance maximale c'est-à-dire l'échantillon le plus probable, le plus vraisemblable. max L( ) L( ) Comme L ou ln(L) atteignent leur extremum pour la même valeur de , on travaille de préférence avec le ln(L) car il est souvent plus facile à calculer. Dans les cas réguliers, on sait que la recherche d'un extremum revient à trouver la valeur qui annule la dérivée première du ln(L): Statistiques Page 9-3 Estimations: principes d ln( L) tel que: d df ( Xi , ) 0 d On remarque qu'il faut connaître l'expression analytique de f; cette connaissance n'est pas nécessaire pour toutes les méthodes d'estimation, comme pour la méthode des moindres carrés par exemple. Le but recherché est de prévoir, maîtriser le phénomène "montant annuel des dommages dus aux catastrophes naturelles". Il y a 2 étapes à considérer: la fréquence des catastrophes naturelles (nb de catastrophes/an) le montant des dommages dus aux catastrophes naturelles (nb de F/catastrophe) Les données: Année 1983 1987 1989 1990 1990 1990 1990 1991 1991 1992 1992 1993 1993 1994 1995 1995 1995 1995 1996 Evénements Cyclone Alicia Tempête d'hiver Cyclone Hugo Tempête Daria Tempête Herta Tempête Vivian Tempête Wiebke Typhon Mireille Incendie Oakland Cyclone Andrew Ouragan Iniki Blizzard Inondations Séisme Séisme Orage de grèle Ouragan Luis Ouragan Opal Ouragan Fran Dommages (mia $) 1.3 3.1 4.5 5.1 1.3 2.1 1.3 5.2 1.7 20 1.6 1.8 1.0 12.5 3.0 1.1 1.5 2.1 1.6 #& Le nombre de catastrophes est bien décrit par une distribution de Poisson. Statistiques Page 9-4 Estimations: principes n P ( X n) e . n! Il faut estimer sur base des observations. $ ' Quelle est la fonction du maximum de vraisemblance? Quelle est la probabilité d'obtenir l'échantillon? X1 = nb de catastrophes en 1983 X2 = nb de catastrophes en 1984 ... X14 = nb de catastrophes en 1996 L P( X 1 ; ). P( X 2 ; )... P( X 14 ; ) e . X1 X 2 Xn .e . ... e . X1 ! X2 ! Xn ! X 1 X 2 ... X n e n . . X 1 ! X 2 !... X n ! $ ( On recherche le maximum de ln(L). n. X 1 X 2 ... X n ln( L) ln e . X 1 ! X 2 !... X n ! n. ( X 1 X 2 ... X n ).ln( ) ln( X 1 ! X 2 !... X n !) Le maximum de ln(L) se trouve au point où sa dérivée première par rapport à s'annule. d ln( L) 0 d n ( X 1 X 2 ... X n ). 1 0 n ( X 1 X 2 ... X n ). 1 n ( X 1 X 2 ... X n ). X X 2 ... X n 1 n 1 Dans notre exemple: Nb Statistiques Fréq. abs. Nb total Page 9-5 Estimations: principes catastrophes par an obs. 0 1 2 3 4 5 catastrophes 4 5 3 0 2 0 0 5 6 0 8 0 19 nb. total. catastrophes nb. anné es 19 14 135 . En moyenne, il y a 1,35 catastrophes par an. Nombre de catastrophes 0.400 0.350 Fréquences relatives (%) 0.300 0.250 Fréq. rel. obs. Fréq. rel. théor. 0.200 0.150 0.100 0.050 0.000 0 1 2 3 4 5 Nb. de catastrophes par an Nous verrons plus loin si les différences entre les fréquences observées et théoriques sont significatives au point de remettre en question la loi de Poisson. Le montant des dommages est bien modélisé par une loi de Pareto: Statistiques Page 9-6 Estimations: principes x F ( x; ) 1 0 x 1 x 0 . x avec: x0 x le paramètre à estimer 1 milliard de $ le montant des dommages dF ( x; ) dx 0 . x 0 . x 1 .( 1) 1 . x 0 11 . 1 x 1 . x 0 1 . x 01 . 1 x f ( x; ) x . 0 x0 x 1 $ ' L'expression de la fonction du maximum de vraisemblance est: x L . 0 x0 x1 1 x . . 0 x0 x2 1 x ... . 0 x0 xn 1 x n.( 1) . 1 0 1 1 x0 x1 . x2 ... xn ln( L) n.ln( ) ln( x0 ) n.( 1).ln( x0 ) ( 1).ln( x1 ) ( 1).ln( x2 ) ... ( 1).ln( xn ) n. $ ( On recherche le maximum de ln(L) d ln( L) n 0 n.ln( x 0 ).1 ln( x1 ) ln( x 2 ) ... ln( x n ) d n ln( x1 ) ln( x 2 ) ... ln( x n ) n.ln( x 0 ) n ln( x1 ) ln( x 2 ) ... ln( x n ) n.ln( x 0 ) n x x x ln 1 ln 2 ... ln n x0 x0 x0 Dans notre exemple: Statistiques Page 9-7 Estimations: principes Montants (mia $) ln($/x0) 1.0 1.1 1.3 1.5 1.6 1.7 1.8 2.1 3.0 3.1 4.5 5.1 5.2 12.5 20.0 Fréq. abs. obs. 0.0 0.1 0.3 0.4 0.5 0.5 0.6 0.7 1.1 1.1 1.5 1.6 1.6 2.5 3.0 Ln($/x0)* fréq. abs. 1 1 3 1 2 1 1 2 1 1 1 1 1 1 1 0.00 0.10 0.79 0.41 0.94 0.53 0.59 1.48 1.10 1.13 1.50 1.63 1.65 2.53 3.00 17.36 n x x x ln 1 ln 2 ... ln n x0 x0 x0 19 17.36 1.094 Distribution du montant d'une catastrophe (Loi de Pareto) 1.200 Fréquences relatives cumulées (%) 1.000 0.800 Fréq. rel. cum. obs. Fréq. rel. cum. théor. 0.600 0.400 0.200 0.000 0.0 5.0 10.0 15.0 20.0 25.0 Montant (mia $) Statistiques Page 9-8 Estimations: principes ! On considère une fonction d'expression analytique connue: (x,), où x est l'argument et un (ou plusieurs) paramètre inconnu, par exemple (x,) = l + 2.x. Supposons qu'à l'issue de la i ième expérience on observe la valeur Yi de la fonction (Xi,) avec une erreur aléatoire Ei (inconnue) et avec une valeur connue de la variable auxiliaire Xi. La méthode des moindres carrés donne pour estimation la valeur qui minimise la somme des carrés des écarts SCE: SCE = (Yi - (Xi,) )2 " Une estimation ponctuelle de ( ) n'est pas suffisante: il n'y a aucune raison pour que = ; si l’estimateur est non biaisé, l'égalité est réalisée en moyenne, si l'estimateur est efficace, fluctue (est dispersé) le moins possible autour de , s'il est convergent, cette fluctuation diminue avec n. On préfère alors donner une "fourchette" encadrant , donner un intervalle [1, 2] contenant . Cependant il est impossible de donner un intervalle qui contienne avec certitude; au mieux on peut donner un intervalle qui contient avec un forte probabilité fixée à priori et égale à 1- ( petit : 10%, 5%, ou 1%). 1- est appelé le degré de confiance et l'intervalle de confiance au niveau . Statistiques Page 9-9 Population normale 10 # Soit Xl, X2, ..., Xn, un échantillon simple aléatoire tiré d'une population normale de moyenne m inconnue et d'écart-type connu; c’est-à-dire que X1, X2, ..., Xn sont des variables aléatoires normales indépendantes et identiquement distribuées suivant une loi normale de moyenne m inconnue et d'écart-type connu . Comment estimer m, quelle est la précision de cette estimation et comment construire un intervalle de confiance au niveau ? $ Construisons l'estimateur du maximum de vraisemblance de m. $ ' La fonction de vraisemblance L(X1,X2,...,Xn;) est: n L ( f ( X i ; )) i 1 1 X i m 1 . .e 2 i 1 . 2 2 n 1 X 1 m 2 . 1 .e 2 . 2 1 n 1 X 2 m . 1 . .e 2 . 2 Xi m 1 2 . . e i 1 . 2 n 2 1 X n m 2 . 1 ... .e 2 . 2 2 Le logarithme de L est: n 1 n Xi m 1 ln L ln . 2 . 2 i 1 n.ln Statistique 2 n.ln 2 n 1 . Xi m2 2 2. i 1 Page 10-1 Population normale $ ( On doit trouver la valeur de m qui rend L maximum ou qui annule la dérivée première du logarithme de L: 1 n ln( L) . Xi m2 2 m 2. m i 1 1 n . 2.( Xi m).( 1) 2. 2 i 1 n 1 .( 2 ). ( Xi m) 2. 2 i 1 1 n . ( Xi m) 2 i 1 On en déduit que la valeur m (1'estimateur recherché) de m qui annule la dérivée première est: 1 n . ( Xi m) 0 2 i 1 n ( Xi m) 0 i 1 n ( Xi ) n.m 0 i 1 n n. m Xi i 1 n m Xi i 1 n X m est-il biaisé ? Cet estimateur est non biaisé en effet: Statistique Page 10-2 Population normale n Xi E ( X ) E i 1 n 1 n . E ( Xi ) n i 1 1 n . m n i 1 1 . nm n m m est-il convergent ? On sait qu'une somme de normales indépendantes est encore une normale dont la variance est la somme des n variances ²; donc m est normale . m est donc convergent (ce résultat se généralise: de moyenne m et d'écart-type n voir cours de probabilité). On peut montrer que m est efficace. ) # Soit u (1 ) 2 le quantile d'ordre (1 ) d'une loi normale réduite. 2 Un intervalle de confiance pour m au niveau est donné par : IC ( ) X u1 . ; X u1 . 2 2 n n Vérifions cette affirmation: P X u1 . m X u1 . 2 2 n n P u1 . X m u1 . 2 2 n n X m P u1 u1 2 2 n P u1 N (0,1) u1 2 2 1 Commentons l'expression de cet intervalle de confiance. Statistique Page 10-3 Population normale Il est centré sur X , la moyenne de l'échantillon. La longueur de l'intervalle de confiance est proportionnelle à , la dispersion du phénomène étudié; cela est conforme à l'intuition: toutes autres choses restant égales, si le phénomène étudié est très dispersé, l'intervalle de confiance est plus grand que si le phénomène étudié est très peu dispersé autour du paramètre inconnu. La longueur de l'intervalle de confiance est inversement proportionnelle à n; cela est conforme à l'intuition: plus le nombre d'observations est grand, plus grande est la précision qu'on peut espérer (au même niveau , c’est-à-dire avec le même risque d'erreur). Si on veut diminuer la longueur de l'intervalle de confiance (en prenant le même risque d'erreur, c’est-à-dire en gardant le même ) on peut augmenter n; mais pour diminuer par 2 (par k) cette longueur, il faut multiplier par 4 (par k2) le nombre d'observations. Plus le risque d'erreur est petit, plus long est l'intervalle de confiance: si diminue, u augmente. (1 ) 2 $ ## La moyenne observée vaut 15.1; il y a 10 observations; on sait que vaut 0.70; on choisit un niveau de confiance 0.95 (un risque d'erreur de 5%) ; on a X 15,1 n 10 0,70 u1 1,960 2 0,70 1,960. 0,43386 2 n 10 m 15,10 0,43 u1 . l'intervalle est donc: IC 14,67;15,53 $ # Soit Xl, X2, ..., Xn, un échantillon simple aléatoire tiré d'une population normale de moyenne m inconnue et d'écart-type inconnu; c’est-à-dire que X1, X2, .... Xn sont des variables aléatoires normales, indépendantes et identiquement distribuées suivant une loi normale de moyenne inconnue et d'écart-type inconnu. Comment estimer m et , quelle est la précision de ces estimations et comment construire un intervalle de confiance au niveau pour m et ? Statistique Page 10-4 Population normale $ Construisons les estimateurs du maximum de vraisemblance de m et de $ ' Pour rappel, le logarithme de L est: Ln( L) n.ln 2 n.ln n 1 2 . Xi m 2 2. i 1 $ ( On doit trouver les valeurs de m et de qui rendent L maximum ou qui annulent les dérivées premières du logarithme de L par rapport à m et : Ln( L) 0 m on en déduit que la valeur m (1'estimateur recherché) de m qui annule la dérivée première est: m 1 n . Xi X n i 1 Pour la dérivée par rapport à : n Ln( L) n 1 .( 2). 3 . ( Xi X ) 2 2 i 1 n 1 n 3 . ( Xi X ) 2 i 1 n 1 n 3 . ( Xi X ) 2 i 1 n 1 n . ( Xi X ) 2 2 i 1 on en déduit que l'estimateur recherché est: 1 n 2 . ( Xi X ) 2 s 2 n i 1 2 s est la variance calculée sur l'échantillon. On démontre le résultat suivant: Statistique Page 10-5 Population normale X est distribuée suivant une loi normale de moyenne m et d'écart-type n X N m, n ns²/² est distribué suivant une loi chi-carrée à n-1 degrés de liberté n. s2 n 1 2 X et s² sont indépendants Les propriétés suivantes découlent de ce résultat. ' X est un estimateur non biaisé et convergent. ( s², la variance biaisée calculée sur l'échantillon, est estimateur biaisé de ², la variance de la population. En effet: l'espérance d'une chi-carrée à n-1 degrés de liberté est égale à n-1, donc (n 1) l'espérance de ns²/² est n-1 et l'espérance de s² est ² . (< ² ). n E n 1 n 1 donc n. s 2 E 2 n 1 n . E (s2 ) n 1 2 n 1 2 E (s2 ) . n s *2 n . s2 n 1 Le biais de ² est connu: n 1 ( ! 1) n s2 sous-estime 2. s*2 est la variance non-biaisée calculée sur l'échantillon. Statistique Page 10-6 Population normale s*2 n . s2 n 1 n ( X n i . n 1 n ( X i 1 i i m) 2 1 n m) 2 n 1 * s² est convergent. ) # Soit t ( n 1;1 2 ) le quantile d'ordre 1-/2 d'une distribution t à n-1 degrés de liberté; un intervalle de confiance au niveau est donné par: s s ; X t ( n 1;1 ) X t ( n 1;1 2 ) 2 n 1 n 1 Vérifions cette affirmation. Statistique Page 10-7 Population normale s s P X t( n 1;1 ) . m X t( n 1;1 ) . 2 2 n 1 n 1 s s P t( n 1;1 ) . X m t( n 1;1 ) . 2 2 n 1 n 1 n 1 P t( n 1;1 ) ( X m). t( n 1;1 ) 2 2 s n 1 n P t( n 1;1 ) ( X m). . . t( n 1;1 ) 2 2 s n ( X m) n 1 P t( n 1;1 ) . t( n 1;1 ) 2 2 s n n ( X m) n 1 P t( n 1;1 ) t( n 1;1 ) . 2 2 n. s2 2 n n 1 t P t( n 1;1 ) N (0,1). ( n 1;1 ) 2 2 2n 1 N (0,1) t P t( n 1;1 ) ( n 1;1 2 ) 2 2 n 1 n 1 P t( n 1;1 ) tn 1 t( n 1;1 ) 2 2 1 Le numérateur X m est distribué suivant une loi normale réduite. n Le ns ² ² est la racine d'une chi-carrée divisée par son degré de liberté. dénominateur n 1 Le numérateur et le dénominateur sont indépendants, le quotient est donc une t de Student à n-1 degrés de liberté. s s IC X t( n 1;1 ) . ; X t( n 1;1 ) . 2 2 n 1 n 1 s* s* X t( n 1;1 ) . ; X t( n 1;1 ) . 2 2 n n Statistique Page 10-8 Population normale En effet n . s2 n 1 *2 s s2 n n 1 * s s n n 1 s*2 Quand on passe d'une normale de connu vers une normale de inconnu, on remplace: u1 t( n 1;1 ) 2 2 s * ) # + Soit t n 1; et t n 1;1 2 2 les quantiles d'ordre /2 et 1-/2 d'une loi chi-carrée à n-1 degrés de liberté; un intervalle de confiance au niveau pour 2 est donné par n. s2 n. s2 ; tn 1;1 tn 1; 2 2 Vérifions cette affirmation. n. s2 n. s2 2 P tn 1; tn 1;1 2 2 1 1 2 P n. s2 tn 1; tn 1;1 2 2 1 1 n. s2 P 2 tn 1;1 tn 1; 2 2 1 $ ## La moyenne observée vaut 15.1 et la variance observé (s²) vaut 0,7; il y a 10 observations; on choisit un niveau de confiance 0,95 (un risque d'erreur de 5%); on a t ( n 1;1 ) t ( 9;0.025) 2,262 2 t ( n 1;1 2 ) Statistique 0,7 s 2,262 0,63084 9 n 1 Page 10-9 Population normale l’intervalle est donc: [14.47, 15.73] Statistique Page 10-10 Estimation d'une proportion 11 On s'intéresse à l'estimation de la proportion p d'individus d'une population présentant une certaine caractéristique. Pour chacun des n individus de l'échantillon, on appelle Xi (i = 1,2,...,n) l'indicateur de la caractéristique: Xi=l si et seulement si l'individu i la présente. Xi = l avec la probabilité p. Le nombre total Y (= E (Xi)) d'individus de l'échantillon qui présentent la caractéristique est distribué suivant une loi binomiale de paramètres n et p. L'estimateur "évident" de p est Y/n (la fréquence relative); retrouvons cet estimateur en appliquant la méthode du maximum de vraisemblance. $ ' La fonction de vraisemblance est: L( y; p) "Y y C yn . p y .(1 p) ( n y ) où C(n,y) est le coefficient binomial. $ ( Recherchons le maximum de L(y;p) (ou de son logarithme) par rapport à p Statistiques Page 11-1 Estimation d'une proportion ln( L) ln( C) y.ln( p) ( n y ).ln(1 p) dLn( L) y n y dp p 1 p 0 y n y p 1 p y.(1 p ) p .(n y ) y y. p p . n y. p y p . n y p n Donc l'estimateur du maximum de vraisemblance est la fréquence relative observée. La fréquence relative est un estimateur: non biaisé E ( y ) n. p E ( p ) p n n convergent car la fréquence relative observée converge vers la fréquence théorique y E p n efficace " p.(1 p) p n N p; n L'expression analytique de la distribution de Y/n est connue (elle dépend de p) Comme l'écart-type dépend du paramètre inconnu, on effectue une transformation en utilisant la propriété suivante: 1 1 g ( x ) 2.arcsin p N 2.arcsin p ; N g ( p); n n x h( x ) g 1 ( x ) sin 2 2 Remarque: les arguments des fonctions trigonométriques sont exprimés en radians. Statistiques Page 11-2 Estimation d'une proportion Soit u1 le quantile d'ordre 1-/2 d'une distribution normale réduite 2 y u1 2 n n y u1 2 z 2 2.arcsin n n z z IC sin 2 1 ; sin 2 2 2 2 z1 2.arcsin est un intervalle de confiance au niveau (approché) pour p. Vérifions cette affirmation. z z P sin 2 1 ! p ! sin 2 2 2 2 Ph( z1 ) ! p ! h( z 2 ) P g (h( z1 )) ! g ( p) ! g (h( z 2 )) P z1 ! g ( p) ! z 2 y u1 2 y u1 2 P 2.arcsin ! g ( p) ! 2.arcsin n n n n u1 y u1 y 2 2 P g ! g ( p) ! g n n n n u1 u1 y 2 2 P ! g g ( p) ! n n n y g g ( p) n P u1 ! ! u1 1 2 2 n P u1 ! N (0,1) ! u1 2 2 1 !"" 72% des personnes d'un échantillon de 50 présentent une caractéristique; on choisit un niveau de 5%. Statistiques Page 11-3 Estimation d'une proportion n 50 y 0.72 n 196 . . 174921 50 196 . z 2 2.arcsin 0.72 2.30358 50 . 174921 h( z1 ) sin 2 0.589 2 2.30358 h( z 2 ) sin 2 0.834 2 L'intervalle de confiance est donc [58.9 %; 83.4 %] z1 2.arcsin 0.72 Il existe des abaques donnant des intervalles de confiance au niveau "exacts" (non asympotiques) L'intervalle de confiance est approché, dans la pratique l'approximation est valable pour n>36 Un autre intervalle de confiance (approché) au niveau est obtenu en utilisant l'approximation normale de la binomiale p u1 2 p .(1 p ) ; p u1 2 n p .(1 p ) n où p est la fréquence relative observée. Statistiques Page 11-4 Estimation de la différence entre 2 moyennes 12 "" %& On dispose de 2 échantillons, X1,X2, ...., Xnl et Y1,Y2, ... Yn2, indépendants issus de 2 populations normales de moyennes ml et m2 inconnues de même écart-type inconnu On désire estimer la différence entre ml et m2 (m1-m2). Les résultats suivants se déduisent du résultat fondamental concernant la distribution et l'indépendance de XBAR et s²: XBAR1 (moyenne échantillon du premier échantillon) est distribué suivant une loi normale de moyenne ml et d'écart-type n1 XBAR2 (moyenne échantillon du deuxième échantillon) est distribué suivant une loi normale de moyenne ml et d'écart-type n2 ( n1 * s1² n2 * s2² ) est distribué suivant une loi chi-carrée à nl+n2-2 degrés de ² liberté où sl et s2 sont les écarts-types observés du premier et du deuxième échantillon XBAR1, XBAR2, (nl S1² + n2 s2²) sont indépendants De ces résultats, on déduit facilement que le rapport: n1 n2 2 ( X 1 X 2) (m1 m2) * est distribué suivant une loi t de Student à 1 1 n1 * s1² n2 * s2² n1 n2 nl+n2-2 degrés de liberté. Statistiques Page 12-1 Estimation de la différence entre 2 moyennes " ' Soit t le quantile d'ordre 1-/2 de la distribution de Student à nl+n2-2 degrés de liberté; un intervalle de confiance au niveau pour ml-m2 est donné par: ( X X ) t n s 2 n s 2 2 1 1 2 2 1 1 1 n1 n2 n1 n2 2 ,( X 1 X 2 ) t n1 s12 n2 s22 1 1 n1 n2 n1 n2 2 !"" Le premier échantillon est : 12, 5, 14, 3, 10, 9, 8, 11, 16. Le deuxième échantillon est : 219 19, 18, 8, 14, 12, 20, 13, 11, 15 On choisit un niveau de 5%. On a n1 = 9 n2 = 10 n1+n2-2 = 17 XBAR1= 9.778, s1² = 15.06 XBAR2 = 15.1, s2² = 16.49 XBAR1-XBAR2 = -5.322 t 9 10 2;0,975 2,110 t n1 s12 n2 s22 1 1 n1 n2 n1 n2 2 2,11 17,33 0,1114 4,07 l'intervalle de confiance est donc: -5.322 + 4.07 [-9.392 -1.2521] Statistiques Page 12-2 Test d'hypothèses: principes 13 ( !&!$ Dans certains cas, plutôt que d'estimer des paramètres inconnus sur base d'un échantillon, on préfère émettre une hypothèse concernant la population ou le phénomène étudié, et ensuite, vérifier dans quelle mesure cette hypothèse est confirmée ou infirmée par les faits. Les exemples sont multiples: telle variable sociologique influence-t-elle les résultats scolaires ? le nombre de fonctionnaires masculins et féminins de tel niveau est-il le même ? tel traitement influence-t-il le comportement de tels animaux étudiés ?, ... On remarque que l'hypothèse émise amène à une réponse non quantitative, du type "oui/non"., soit l'hypothèse est confirmée soit elle est infirmée. Remarque: les tests d'hypothèses sont normalement réalisés avant l'estimation )&!$ # '!&!$ L'hypothèse émise est appelée hypothèse nulle. La négation de cette hypothèse est appelée contre-hypothèse. Le travail théorique du statisticien consiste à mettre au point une procédure appelée test statistique, ou test d'hypothèses; en suivant les directives de calcul de ce test d'hypothèse, le statisticien déclare le rejet (noté RH0) ou l'acceptation (notée AH0) de l'hypothèse nulle. Statistiques Page 13-1 Test d'hypothèses: principes $$ $ Rejeter l'hypothèse nulle (RH0) comporte un risque: celui de rejeter comme fausse une hypothèse qui est vraie dans la réalité des faits mais qui, sur base de l'échantillon recueilli, semble déraisonnable. Ce risque est appelé le risque de première espèce et est mesuré par la probabilité de commettre l'erreur (appelée erreur de première espèce) de rejeter une hypothèse vraie. Cette probabilité est notée . Accepter l'hypothèse nulle (AH0) comporte un risque: celui d'accepter comme vraie une hypothèse qui est fausse dans la réalité des faits mais qui, sur base de l'échantillon recueilli, semble raisonnable. Ce risque est appelé le risque de deuxième espèce et est mesuré par la probabilité de commettre l'erreur (appelée erreur de deuxième espèce) d'accepter une hypothèse fausse. Cette probabilité est notée #. Exemple: H0: "est atteint d'une maladie incurable et mortelle" Erreur de 1e espèce: on lâche un infectieux dans la nature Erreur de 2e espèce: la personne n'est en fait pas malade On peut résumer les erreurs dans le tableau suivant: décision de RH0 décison de AH0 H0 est vraie erreur de espèce pas d'erreur 1e H0 est fausse pas d'erreur erreur espèce de 2e Les probabilités correspondantes sont: décision de RH0 décision de AH0 H0 est vraie 1- H0 est fausse 1-# # On souhaite que les 2 risques ( et #) soient petits; mais en général il n'est pas possible de les contrôler tous les deux simultanément. La convention adoptée est de majorer qui est appelé le niveau du test et de choisir une procédure qui, si possible, minimise #. On choisit pour une petite valeur de l'ordre de 10%, 5%, 1%. Le risque de lère espèce est donc contrôlé (il est au plus égal au niveau du test), le risque de 2ème espèce est, au mieux, le plus petit possible. La puissance du test est définie comme étant égale à 1-# (en général c'est une fonction): plus la puissance du test est élevée, plus la probabilité de RH0 une hypothèse fausse est grande et "meilleure" est la procédure choisie. Statistiques Page 13-2 Test sur une proportion 14 ( ( !&!$ Testons l'hypothèse nulle suivante: "la proportion d'individus présentant une caractéristique donnée est égale à 1/2. Un test d'hypothèse au niveau consiste à RH0 ssi u1 2 RH0 ssi 2.arcsin f 2 n où f est la fréquence relative observée et u(l-/2) le quantile d'ordre 1-/2 de la loi normale centrée réduite. Vérifions cette affirmation; nous devons vérifier que le test est au niveau , ou que le risque de lère espèce est , ou que la probabilité de rejeter l'hypothèse nulle alors qu'elle est vraie vaut : u1 2 P RH 0 H 0. vraie P 2.arcsin f 2 n u1 2 1 P 2.arcsin f ! 2 n u1 u1 2 2 P .arcsin f 1 2 ! ! 2 n n u1 u1 1 2 2 1 P ! 2.arcsin f 2.arcsin ! 2 n n 1 2.arcsin f 2.arcsin 2 ! u 1 P u1 ! 1 2 1 2 n Si H0 est vraie Statistiques Page 14-1 Test sur une proportion 1 1 2.arcsin f N 2.arcsin ; 2 n Donc, P RH 0 H 0. vraie 1 P u1 ! N (0,1) ! u1 2 2 1 (1 ) 11 Exemple chiffré Sur 82 naissances annuelles, il y a 37 chiots mâles et 45 femelles. La probabilité d'une naissance mâle est-elle la même que celle d'une naissance femelle? 2.arcsin u1 n 2 37 1473 . 1571 . 0.098 0.098 82 2 196 . 0.216 82 Comme la valeur calculée est inférieure à la valeur tabulée, on ne rejette pas l'hypothèse nulle. Un calcul simple permet d'évaluer la puissance du test précédent: la puissance du test (notée ici PUIS) est la Proba[RH0 alors que H0 est fausse]. Si H0 est fausse, c'est que le pourcentage n'est pas de 1/2 mais p; la puissance est une fonction de p: PUIS(p). Un calcul explicite donne: Statistiques Page 14-2 Test sur une proportion P RH 0 H 0. fausse Puissance( p, n) u1 2 P 2.arcsin f 2 n u1 2 1 P 2.arcsin f ! 2 n u1 u1 2 2 1 P ! 2.arcsin f ! 2 n n u1 u1 2 2 1 P ! 2.arcsin f ! 2 n n 2 u1 u1 2.arcsin f 2.arcsin p 2 2 ! ! n . 2.arcsin p 1 P n . 2.arcsin p 1 2 2 n n n 1 P n . 2.arcsin p u1 ! N ( 0,1) ! n . 2.arcsin p u1 2 2 2 2 1 n . 2.arcsin p u1 n . 2.arcsin p u1 2 2 2 2 où u est le quantile d'ordre 1-/2 d'une loi normale réduite et $ sa fonction de répartition. On remarque que la puissance dépend de n également: PUIS(p;n). P uissan ce d u test sur u ne pro po rtion 100% 90% 80% Puissance=P[RH0|H0 faux] 70% 30 40 50 100 200 500 60% 50% 40% 30% 20% 10% 0% 0.00 0.20 0.40 0.60 0.80 1.00 1.20 V aleu r d u p aram ètre in co n n u p Statistiques Page 14-3 Test sur une proportion La connaissance de PUIS(p;n) permet de répondre à 2 questions: "Si p=p0, quel est le nombre d'observations nécessaires pour rejeter l'hypothèse nulle avec une forte probabilité de A ?" Pour répondre à cette question, il suffit de résoudre l'équation en n: PUIS(p0;n) = A. Par exemple, si p0=0.25 et A=0.851, on trouve n=33. En d'autres termes, si on veut rejeter l'hypothèse nulle presque sûrement (avec une probabilité de 0.851) si la proportion est de 0.25, il faut au moins 33 observations. 2ème question: "Si on a n0 observations, quelle est la valeur de p qui conduit au rejet avec une forte probabilité de A?". Pour répondre à cette question, il suffit de résoudre l'équation en p: PUIS(p;n0) = A. Par exemple, si N=1000 et A=0.851, on trouve p=0.453. En d'autres termes, avec 1000 observations on rejette presque sûrement (avec une probabilité de 0.851) l'hypothèse nulle si p=0.453 Statistiques Page 14-4 Test d'égalité de 2 moyennes 15 ( % & ! , Les conditions d'application sont les suivantes: 2 populations indépendantes la première population est distribuée suivant une loi continue quelconque de moyenne ml (inconnue) et la deuxième est distribuée suivant la même loi mais éventuellement translatée d'une quantité % inconnue. Sur base d'un échantillon de taille nl issu de la première population et d'un échantillon de taille n2 issu de la deuxième, on veut tester l'hypothèse nulle "%=0". $ Considérons l'exemple suivant. On a mesuré la taille de 10 personnes d'un groupe social donné A et la taille de 10 personnes d'une population de référence B. Rangeons par ordre croissant les 20 mesures effectuées (seuls la dénomination du groupe et le rang qu'occupe la mesure sont repris) Populations A A A A A A A B A A B A B B Statistiques Rangs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Page 15-1 Test d'égalité de 2 moyennes Populations B B B B B B Rangs 15 16 17 18 19 20 Si, une fois groupés, les individus du groupe A occupent en général les rangs faibles (ou élevés), on peut douter de l'hypothèse nulle "%=0". Pour déterminer si les individus de l'échantillon A occupent en général les rangs faibles (ou élevés), comptons pour chaque individu de la population A, le nombre d'individus de la population B qui le précédent: Populations A A A A A A A B A A B A B B B B B B B B Rangs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total: Nb de B 0 0 0 0 0 0 0 1 1 2 4 La somme de ces nombres vaut 4. Cette statistique, notée U, est appelée "statistique de Mann-Whitney. La statistique U est d'autant plus petite ou plus grande que les deux échantillons sont translatés l'un par rapport à l'autre. On aurait pu, semblablement, compter le nombre d'individus de l'échantillon A qui précédent chaque individu de l'échantillon B: cette manière de faire n'apporte rien de neuf : la somme U' de ces nombres se déduit de U à l'aide de la relation U' = nl . n2 - U Statistiques Page 15-2 Test d'égalité de 2 moyennes " - . U est une variable aléatoire dont on peut déterminer le comportement. n1 . n2 2 n . n .(n n2 1) 2 (U ) 1 2 1 12 . Si les deux populations sont les mêmes, les rangs de la première se mélangent aux rangs de la deuxième sans tendance particulière à se situer parmi les petits ou les grands rangs. En fait toutes les configurations de rangs sont équiprobables; on peut donc par simple énumération des cas possibles déterminer la distribution de U. E (U ) La distribution de U sous H0 est ainsi tabulée pour différentes valeurs de nl et n2. La table reproduite en annexe donne le seuil de rejet de l'hypothèse nulle "%=0" au niveau =5% . Pour utiliser la table, on procède de la manière suivante: on calcule U on calcule U' = nl.n2 - U si min(U, U') est inférieur ou égal à la valeur lue dans les tables, on rejette l'hypothèse nulle "%=0" (au niveau 5%) RH 0 ssi min(U , U ') table U E (U ) n1 ,n2 N (0,1) D(U ) Pour des valeurs de nl ou de n2 plus élevées que celles des tables, on utilise l'approximation normale: on peut en effet démontrer que U centrée et réduite converge en loi vers une distribution normale de moyenne 0 et d'écart-type 1. RH 0. ssi. U E (U ) u1 2 D(U ) Concrètement, on calcule U, on lui enlève sa moyenne, on divise par son écart-type. Si la valeur ainsi obtenue dépasse en valeur absolue le quantile d'ordre 1-/2 d'une normale centrée, réduite, on rejette l'hypothèse nulle au niveau . Remarquons que, pour simplifier les calculs, la statistique U vaut U n1 . n2 Statistiques n1 .(n1 1) R1 2 Page 15-3 Test d'égalité de 2 moyennes où R1 est la somme des rangs du premier échantillon. $ & Les deux échantillons indépendants A et B suivants sont-ils significativement différents ? A: 56 60 67 71 73 80 83 87 89 B: 37 41 49 53 58 62 65 66 72 77 79 81 82 84 On a : nl=9, n2=14 et nl+n2=23 . Les valeurs ordonnées sont: 37<41<49<53<56<58<60<62<65<66<67<71<72<73<77<79<80<81<82<83<84<87<8 9 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 B B B B A B A B B B A A B A B B A B B A B A A R1 = 5 + 7 + 11 + 12 + 14 + 17 + 20 + 22 + 23 = 131 9 10 U 9 14 131 126 45 131 40 2 U ' 9 14 40 86 Comme min(40, 86) = 40 est supérieur à la valeur lue (=31) dans les tables, on accepte l'hypothèse nulle au niveau 5%. ! , Les conditions d'application sont les suivantes: 2 échantillons appariés: c'est-à-dire que pour chaque individu tiré d'une population, on dispose de 2 mesures qu'on désire comparer (par exemple une mesure "avant traitement " et une mesure "après traitement"), la première mesure est distribuée suivant une loi continue quelconque de moyenne ml (inconnue) et la deuxième est distribuée suivant la même loi mais éventuellement translatée d'une quantité % inconnue. Sur base de 2 échantillons de taille n (n valeurs pour première mesure et n pour la seconde), on veut tester l'hypothèse nulle: "%=0". Statistiques Page 15-4 Test d'égalité de 2 moyennes & / Calculons la différence des deux mesures pour chacune des paires (une différence par individu). Si les 2 échantillons ne sont pas équivalents, on pourrait le remarquer de 2 manières : un signe plus fréquent que l'autre, les différences du signe le moins fréquent seront plus petites. On peut donc mesurer l'écart entre les 2 échantillons par une statistique qui tient compte de la dissymétrie des signes et de la grandeur relative (donc des rangs) des différences en valeur absolue. La somme des rangs des différences en valeur absolue de signe le moins fréquent (appelée statistique T de Wilcoxon) satisfait à ces 2 exigences. La différence entre les 2 groupes est d'autant plus marquée que la valeur de T est petite. Une règle pratique impose de négliger les observations dont la différence est nulle. RH0 ssi T valeur tabulée " 0 . n.(n 1) 4 n.(n 1).(2n 1) D ² (T ) 24 E (T ) La distribution de probabilité de T est tabulée, pour des valeurs de n comprises entre 6 et 25 et des niveaux de 5% et 1% . T E (T ) n 25 N (0,1) D( T ) Pour une valeur de n>25, on peut utiliser l'approximation normale: T centrée et réduite converge en loi vers une distribution normale de moyenne 0 et d'écart-type 1. RH 0 ssi T E (T ) u1 2 D( T ) Concrètement, on calcule T, on lui enlève sa moyenne, on divise par son écart-type. Si la valeur ainsi obtenue dépasse en valeur absolue le quantile d'ordre 1-a/2 d'une loi normale réduite, on rejette l'hypothèse nulle au niveau . Statistiques Page 15-5 Test d'égalité de 2 moyennes $ & Groupe 1 89 8 63 30 75 88 58 92 93 81 98 Groupe 2 93 34 24 75 13 3 58 1 18 18 60 Xi-Yi -4 -26 39 -45 62 85 0 91 75 63 38 |Xi-Yi| 4 26 39 45 62 85 0 91 75 63 38 Rangs 1 2 4 5 6 9 10 8 7 3 T, somme des rangs des différences négatives (les moins nombreuses) vaut 1+2+5=8. Effectuons un test au niveau = 5 %. Le seuil de rejet lu dans les tables est de 8. On rejette donc l'hypothèse nulle. Pour utiliser l'approximation normale on calcule 10 11 la moyenne de T : 27.5 4 10 11 21 l'écart-type de T : 96.25 9.81 24 8 27.5 T centrée et réduite = 199 . 9.81 La valeur de T centrée réduite est supérieure en valeur absolue à 1.96, on rejette donc l'hypothèse nulle d'égalité des moyennes. Statistiques Page 15-6 Test d'ajustement 16 ( * On désire tester l'hypothèse nulle que la variable étudiée X est distribuée suivant une loi donnée. On distingue plusieurs cas: 1 ier cas: la distribution est discrète et entièrement spécifiée 2 ième cas: la distribution est continue et entièrement spécifiée 3 ième cas: la distribution possède des paramètres inconnus $$ " Supposons que X prenne les valeurs 1,2,...,I avec les probabilités p1,p2, pI. Dans l'échantillon de taille n, on observe nl valeurs 1 pour X, n2 valeurs 2, .. -, nI valeurs I. Les fréquences relatives sont nl/n,n2/n, ni/n. Si l'hypothèse nulle affirmant que X est distribué suivant p1,p2, pI, on s'attend à avoir ni/n proche de pi (i=1,2, I). Introduisons une mesure d'écart entre les fréquences absolues théoriques attendues (ici n*pi) et les fréquences absolues observées (ici ni): CHI CARRE (ni n. pi ) 2 n. pi Cette mesure d'écart est donc du type: ( foi fei ) 2 CHI CARRE fei où foi est la fréquence absolue observée et fei la fréquence absolue attendue (ou espérée) si l'hypothèse nulle est vraie. obs. n I 1 On peut montrer que, pour n suffisamment grand, la mesure CHI-CARRE est asymptotiquement distribuée suivant une loi chi-carré à I-1 degrés de liberté. Statistiques Page 16-1 Test d'ajustement RH 0. ssi. obs. I 1; Un test au niveau consiste donc à rejeter l'hypothèse nulle si la valeur observée CHI-CARRE dépasse la valeur du quantile d'ordre 1- d'une loi chi-carrée à I-1 degrés de liberté. Il est facile de voir que CHI-CARRE s'exprime plus commodément pour les calculs par: CHI CARRE 2 ni n n. pi $ ## Un dé a été jeté 50 fois. ni 1 2 3 4 5 6 9 6 4 10 8 13 50 pi 0.1667 0.1667 0.1667 0.1667 0.1667 0.1667 n.pi (foi-fei)^2/fei 8.3333 0.0533 8.3333 0.6533 8.3333 2.2533 8.3333 0.3333 8.3333 0.0133 8.3333 2.6133 5.92 Le dé est-il équilibré ? Choisissons un niveau de 5%, la valeur lue dans les tables C(5,0.95)= 11.07; comme la valeur observée 5.92 est inférieure à la valeur lue dans les tables, on accepte l'hypothèse nulle que le dé est équilibré. $ " On se ramène au cas précédent en subdivisant le domaine de définition (les valeurs possibles pour) de X en intervalles disjoints et exhaustifs (dont la réunion donne le domaine de définition). En appelant & la probabilité de chacun de ces intervalles, on est ramené au cas précédent. Dans la pratique, on conseille d'avoir au moins 8 intervalles et au moins 7-10 observations par intervalle. Statistiques Page 16-2 Test d'ajustement $ ## On veut tester l'hypothèse nulle que X est distribué suivant une loi normale de moyenne 1.1 et d'écart-type 0.2. On décide de prendre pour subdivision du domaine de X, 10 intervalles D1,D2,...D10: Dl= [X < 0.6] D2 = [ 0.6 < X < 0.7] D3 = [0.7 < X < 0.8] ... D9 = [ 1.3 < X < 1.4] D10 = [X > 1.4] La probabilité pi de chaque Di peut être calculée à l'aide des tables d'une loi normale réduite : . . b 11 ai 11 P Di Pai , bi i 0.2 0.2 Sur un échantillon de 1000 épreuves on a observé: Intervalles D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 ni 26 51 107 168 200 193 138 80 29 8 pi n.pi 0.0062 6.2 0.0166 16.6 0.0440 44.0 0.0889 88.9 0.1528 152.8 0.1915 191.5 0.1915 191.5 0.1528 152.8 0.0889 88.9 0.0668 0.8 CHI-CARRE = (ni-n.pi)2/n.pi 63.23 71.28 90.20 70.38 14.58 0.01 14.94 34.68 40.36 64.80 399.60 Pour un niveau de 5%, cette valeur observée dépasse de loin la valeur lue dans les tables C(9,0.95)=19.92; on rejette l'hypothèse nulle. + On commence par estimer les paramètres inconnus. On estime les pi théoriques en remplaçant les paramètres inconnus par leurs estimations et on évalue la quantité CHI-CARRE. Cependant il faut corriger les degrés de liberté en ôtant un degré par paramètre estimé. Statistiques Page 16-3 Test d'ajustement $ ## On veut tester l'hypothèse nulle que X est distribué suivant une loi de Poisson. Dans un échantillon de 400 épreuves, on a observé la répartition suivante: i 0 ou 1 2 3 4 5 6 7 8 9 10 11 12 13 14 et plus ---------------------------------------------------------ni 20 43 53 86 70 54 37 18 10 5 2 2 0 0 i La loi de Poisson est définie par pi e . , où est un paramètre inconnu. On i! estime par la moyenne observée XBAR: ^ = XBAR = (20 * 1 + 43 * 2 + ... + 2 * 12) / 400 = 4.68 Chaque pi peut ainsi être estimé. On dresse le tableau: i 0 ou 1 2 3 4 5 6 7 8 9 10 et plus nb 20 43 53 86 70 54 37 18 10 9 pi estimé 0.0527 0.1016 0.1585 0.1855 0.1736 0.1354 0.0905 0.0529 0.0275 0.0218 n x pi 21.1 40.6 63.4 74.2 69.4 54.1 36.2 21.1 11.0 8.7 CHI-CARRE CHI-CARRE 0.0552 0.1372 1.7060 1.8764 0.0044 0.0004 0.0176 0.4720 0.0908 0.0152 4.3772 Le nombre de degrés de liberté est de 9 - 1 (car il y a 1 paramètre estimé p), pour un niveau 5%, on lit dans les tables C(8,0.95)=15.51, comme la valeur observée CHICARRE est inférieure à la valeur lue dans les tables, on accepte l'hypothèse nulle que X est distribué suivant une loi de Poisson. Statistiques Page 16-4 Test d'indépendance entre 2 variables nominales 17 ( % On considère 2 caractères nominaux. On désire tester l'hypothèse nulle d'indépendance de ces 2 caractères. Le premier caractère prend les valeurs 1.,2, ..., i,.... , I et le deuxième les valeurs l, 2, ...,j, ...., J. Les observations sont rangées dans un tableau de contingence il y nij observations ayant la valeur i pour le premier caractère et la valeur j pour le 2 ième; ni+ est le nombre total d'observations ayant la valeur i pour le premier caractère (quel que soit le deuxième) et n+j est le nombre total d'observations ayant i pour valeur du 2 ième (quel que soit le premier). Au total, on a n++ observations. +)'+, Reprenons la mesure d'écart CHI-CARRE introduite pour tester un ajustement distributionnel; son expression est: Chi carré ( fo fe) 2 fe où fo est la fréquence (absolue) observée et fe la fréquence (absolue) théorique sous l'hypothèse nulle. Ici fo = nij (i=1,2,...,I et j=1,2, ... J). Pour l'hypothèse nulle d'indépendance que vaut fe, la fréquence absolue théorique ? Si les deux caractères sont indépendants, la probabilité d'observer i et j vaut: Statistiques Page 17-1 Test d'indépendance entre 2 variables nominales Pi et j Pi . P j ' ni n j . n n fe n . Pi et j ni n j . n n n .n i j n n . Finalement: ni . n j nij n 2 ni . n j 2 n ( On peut montrer que sous l'hypothèse nulle, CHI-CARRE converge en loi vers une distribution chi-carre à (I-1)(J-1) degrés de liberté. (i 1).( j 1) obs. n On en déduit qu'un test au niveau consiste à rejeter l'hypothèse nulle d'indépendance lorsque la valeur observée CHI-CARRE est supérieure à la valeur c((I-1)(J-1);1-) du quantile d'ordre 1- d'une loi chi-carré à (I-1)(J-1) degrés de liberté. RH 0. ssi obs. (i 1).( j 1);1 !"" Dans un échantillon de 413 personnes, on a relevé le nombre de gauchers, de droitiers et d'ambidextres. Pour ces mêmes personnes, on a mesuré la qualité de la vision des 2 yeux; certains voient mieux de l'œil gauche, d'autres de l'œil droit, d'autres ont la même vision des 2 yeux. Statistiques Page 17-2 Test d'indépendance entre 2 variables nominales On veut tester l'hypothèse nulle d'indépendance du caractère "gaucher-droitierambidextre" (noté X) du caractère "gauche-droite-égale" pour la vision (noté Y). Les 413 personnes se répartissent de la manière suivante: G G D A D 34 27 57 118 = 62 28 105 195 28 20 52 100 124 75 214 413 Reportons les fréquences absolues théoriques ni+ n+j / n++ : G G D A D 35.43 21.43 61.14 = 58.55 35.41 101.04 30.02 18.16 51.82 Calculons le CHI-CARRE observé: Chi carré (34 35.42) 2 (62 58.54) 2 (52 5181 . )2 ... 35 . 35.42 58.54 5181 . On choisit un niveau de 5%, (I-1)(J-I)=4, et la valeur lue dans les tables vaut c(4,0.95)=9.49. Comme CHI-CARRE < 9.49, on ne rejette pas l'hypothèse d'indépendance des 2 caractères au niveau 5% . Statistiques Page 17-3 Test d'indépendance entre 2 variables ordinales 18 Reprenons le coefficient de Spearmann mesurant la dépendance entre 2 variables ordinales. Pour fixer les idées, examinons l'exemple suivant. On a demandé à de vrais jumeaux séparés depuis la naissance de classer dans l'ordre de leurs préférences 5 tableaux. Jumeau A Jumeau B Diff. des rangs A B C D E 2 4 3 1 5 3 5 2 1 4 -1 -1 1 0 1 Somme = Diff. des rangs au carré 1 1 1 0 1 4 Le coefficient de Spearmann vaut 6. D 2 Rs 1 n.(n 2 1) 24 1 5.(52 1) 24 1 1 0.2 0.8 120 Est-ce une valeur significative d'une communauté de goût entre les jumeaux, ou bien est-ce une valeur attribuable au "hasard" sans qu'il ne soit nécessaire d'invoquer une dépendance quelconque ? Testons donc l'hypothèse nulle H0 qu'il n'existe pas de dépendance (H1 = "il existe une dépendance") à l'aide du coefficient de Spearmann. Statistiques Page 18-1 Test d'indépendance entre 2 variables ordinales Au chapitre consacré aux distributions de probabilité, nous avons vu comment il est possible de connaître la distribution de probabilité du coefficient de corrélation de Spearmann dans le cas où les deux variables sont indépendantes (c'est-à-dire sous l'hypothèse nulle !). En reprenant le même raisonnement, voici les valeurs possibles du coefficient rs et leur probabilité respective pour n=5. Valeurs possibles -1 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Nombre de cas 1 4 3 6 7 6 4 10 6 10 6 10 6 10 4 6 7 6 3 4 1 Probabilité 0.8% 3.3% 2.5% 5.0% 5.8% 5.0% 3.3% 8.3% 5.0% 8.3% 5.0% 8.3% 5.0% 8.3% 3.3% 5.0% 5.8% 5.0% 2.5% 3.3% 0.8% Lorsque les variables sont indépendantes, Rs fluctue autour de 0; il prend la valeur 0 avec une probabilité de 5%. Rs prend une valeur comprise entre -0.1 et +0.l avec une probabilité de 8.3% + 5% + 8.3% = 21.6% Rs prend une valeur comprise entre -0.3 et +0.3 avec une probabilité de 46.2% , etc. Sous l'hypothèse nulle, Rs prend rarement la valeur +1 (probabilité égale à 0.8%) ou 1 (probabilité égale à 0.8%). Par contre sous la contre-hypothèse (c'est-à-dire lorsque les variables sont dépendantes), Rs fluctue autour de +1 (ou de -1). Statistiques Page 18-2 Test d'indépendance entre 2 variables ordinales D'où l'idée de construire la zone d'acceptation de l'hypothèse nulle autour de 0, et telle que sa probabilité soit au plus de 1- (niveau du test). Par exemple pour un niveau de 10%, la zone d'acceptation est Rs 0.8 en effet, la probabilité que Rs soit supérieur à 0.8 vaut; 2.(0.8% 3.3%) 8.2% c' est - à - dire 10% alors que la probabilité que Rs soit supérieur à 0.7 vaut: 2.(0.8% 3.3% 2.5%) 13.2% c' est à dire 10% Dans la pratique, pour déterminer la zone de rejet on dispose de tables donnant les quantiles de Rs. RH0 ssi Rs > valeur tabulée Pour n grand (dans la pratique n>10), on peut montrer que n2 10 n t n 2 2 1 Rs est distribué suivant une loi de Student à n-2 degrés de liberté. Rs. RH 0. ssi Rs. n2 t n 2;1 1 Rs 2 On rejette donc l'hypothèse si la valeur observée pour t dépasse la valeur lue dans les tables de t à n-2 degrés de liberté et au niveau 1- (test unilatéral). Par exemple un coefficient de 0.82 pour 12 observations conduit à Statistiques Page 18-3 Test d'indépendance entre 2 variables ordinales t 0.82. 10 12 2 0.82. 4.53 t 182 . 2 0.3276 1 0.82 RH 0 cette quantité est supérieure à 1.82, valeur lue dans les tables au niveau 5%; on rejette donc l'hypothèse nulle d'indépendance au profit d'une dépendance positive. Statistiques Page 18-4