Lecture 9.3. Notion de Statistique et Statistiques particulières Prof. Kizungu Vumilia Roger UNIKIN (FACAGRO-BIOLOGIE), UNILU (FACAGRO), UEA (FACAGRO), UCB (FACAGRO), ISS, ISTA (ENVIRONNEMENT), UPN (FACAGRO-MEDVET) ---GII-GIII-DEA--Release: 04 05 2012 Sommaire Sommaire .................................................................................................... 1 Introduction ................................................................................................ 3 La distribution de la statistique Z ............................................................... 4 La distribution de la Statistique Chi carré .................................................. 4 La distribution de la Statistique de Student................................................ 5 La distribution de la Statistique de Ficher .................................................. 5 Bibliographie .............................................................................................. 6 2 Roger KIZUNGU Vumilia BIOMÉTRIE ET MODÉLISATION 3 Introduction Dans une expérimentation ou lors d’une enquête, nous choisissons toujours un échantillon de n individus sur lequel nous collectons les données ou les s observations . L’inférence statistique est la technique qui consiste à extrapoler les résultats obtenus sur cet échantillon sur toute la population. En statistique, nous supposons toujours que chacune des observations est une réalisation des variables aléatoires . Nous supposons aussi que ces variables aléatoires sont indépendantes et ont une distribution commune. Souvent nous ne travaillons pas sur ces variables aléatoires mais sur les combinaisons linéaires ou les fonctions de ces variables aléatoires. Certaines des fonctions des variables aléatoires sont utilisées pour estimer ou prendre des décisions sur les paramètres inconnus d’une population. Par exemple, si nous avons à estimer le rendement moyen μ d’une culture dans une région, nous allons prendre un échantillon aléatoire de n producteurs de cette culture. Nous leur demanderons le rendement obtenu en fin de culture. Soient ces rendements. Il semble raisonnable d’estimer le rendement moyen μ par la moyenne sur l’échantillon . Le caractère bon de cette estimation depend du comportement des variables aléatoires et l’effet que ce comportement a sur . Notons que la variable aléatoire est seulement fonction des variables aléatoires et de la taille de l’échantillon n. est un exemple d’une statistique. Une statistique est une combinaison des variables aléatoires. Elle est une fonction des variables aléatoires dans un échantillon et des constantes connues. Les statistiques sont utilisées pour effectuer une inférence c’est-à-dire estimer et décider à propos des paramètres inconnus de la population. Puisqu’une statistique est une combinaison des variables aléatoires, elle est elle-même une variable aléatoire. Donc on peut définir sa distrbution de probabilité que l’on appelle sampling distribution ou distribution de l’échantillonnage. Pratiquement, la distribution de l’échantillonnage donne un modèle théorique de l’histogramme des fréquences des valeurs possibles de la statistique que nous observons sur chaque échantillon. En réalité, nous observons une seule fois la statistique sur l’échantillon définie dans l’étude. Il faut donc toujours garder à l’esprit que l’enquête 4 Roger KIZUNGU Vumilia que nous menons, l’expérimentation que nous installons n’est qu’une réalisation de plusieurs autres possibles. Nous allons présenter les statistiques utilisées dans les décisions ou l’inférence. La distribution de la statistique Z Soient les observations issues des variables aléatoires Soit .la statistique moyenne. Soit la moyenne des moyennes et l’écart-type des moyennes ou l’erreur standard. Considérons une statistique particulière Suivant le théorème central limite, la statistique Z a une distribution Normale Centrée Réduite ou une distribution Normale Standard. Nous l’utiliserons dans beaucoup de décisions. La distribution de la Statistique Chi carré Nous allons nous intéresser à une statistique qui est une fonction du carré des observations indépendantes issues d’une distribution Normale aléatoire. Soient est un échantillon aléatoire de taille n et issue d’une distribution Normale de moyenne μ et de variance σ². Alors sont des variables alétoires aléatoires Standards et par définition, A une distribution avec n dégré de liberté. Avec le logiciel R, est trouvé par pchisq(q, df) avec q la quantille et df le degré de liberté. Exemple : > pchisq(4.86518,10) [1] 0.09999987 BIOMÉTRIE ET MODÉLISATION Par définition de la distribution 5 avec 6 degrés de liberté, on a > qchisq(0.95,6) [1] 12.59159 Inversement : > pchisq(12.59159,6) [1] 0.95 La distribution inférentielles. joue un rôle important dans beaucoup des procédures Exercice : on sait que le meilleur estimateur de la variance . Démontrer avec le logiciel R que est tel que est La distribution de la Statistique de Student Une troisième statistique particulière est la statistique Avec : - Z une variable normale standard - W est une variable de dégré de liberté ν Elle est appelée la statistique de Student avec ν ddl. Dans R, est donné par Exemple. Pour 21 degré de liberté, > 1-pt(1.323,21) [1] 0.1000307 La distribution de la Statistique de Ficher Une quatrième statistique est la statistique F dite statistique de Fisher. Supposons que l’on veuille comparer deux variances de deux populations indépendantes de tailles respectives n1 et n2. C’est ce que l’on va faire quand on fera l’analyse de la variance. Roger KIZUNGU Vumilia 6 Si et deux distributions respectivement, alors, avec et degrés de libertés Est une distribution F avec le degré de liberté du numérateur et degré de liberté du dénominateur. le Avec le logiciel R, pour 5 ddl au numerateur et 7 ddl au dénominateur, pf(q, df1, df2) Exemple: > 1-pf(7.46,df1=5,df2=7) [1] 0.01000162 on dans un monde aléatoire". Bibliographie Sanders, Smidt, Adatia, Larson, 2005, Statistics, A first course, McGrawHill Ryerson, Toronto, 635 p.