Lecture 1

publicité
Lecture 9.3.
Notion de Statistique
et Statistiques
particulières
Prof. Kizungu Vumilia Roger
UNIKIN (FACAGRO-BIOLOGIE), UNILU (FACAGRO), UEA (FACAGRO), UCB
(FACAGRO), ISS, ISTA (ENVIRONNEMENT), UPN (FACAGRO-MEDVET)
---GII-GIII-DEA--Release: 04 05 2012
Sommaire
Sommaire .................................................................................................... 1
Introduction ................................................................................................ 3
La distribution de la statistique Z ............................................................... 4
La distribution de la Statistique Chi carré .................................................. 4
La distribution de la Statistique de Student................................................ 5
La distribution de la Statistique de Ficher .................................................. 5
Bibliographie .............................................................................................. 6
2
Roger KIZUNGU Vumilia
BIOMÉTRIE ET MODÉLISATION
3
Introduction
Dans une expérimentation ou lors d’une enquête, nous choisissons toujours
un échantillon de n individus sur lequel nous collectons les données ou les s
observations
. L’inférence statistique est la technique qui
consiste à extrapoler les résultats obtenus sur cet échantillon sur toute la
population.
En statistique, nous supposons toujours que chacune des observations est
une réalisation des variables aléatoires
. Nous supposons aussi
que ces variables aléatoires sont indépendantes et ont une distribution
commune.
Souvent nous ne travaillons pas sur ces variables aléatoires mais sur les
combinaisons linéaires ou les fonctions de ces variables aléatoires.
Certaines des fonctions des variables aléatoires sont utilisées pour estimer
ou prendre des décisions sur les paramètres inconnus d’une population. Par
exemple, si nous avons à estimer le rendement moyen μ d’une culture dans
une région, nous allons prendre un échantillon aléatoire de n producteurs de
cette culture. Nous leur demanderons le rendement obtenu en fin de culture.
Soient
ces rendements. Il semble raisonnable d’estimer le
rendement moyen μ par la moyenne sur l’échantillon
.
Le caractère bon de cette estimation depend du comportement des
variables aléatoires
et l’effet que ce comportement a sur
. Notons que la variable aléatoire est seulement fonction des
variables aléatoires
et de la taille de l’échantillon n. est un
exemple d’une statistique.
Une statistique est une combinaison des variables aléatoires. Elle est une
fonction des variables aléatoires dans un échantillon et des constantes
connues.
Les statistiques sont utilisées pour effectuer une inférence c’est-à-dire
estimer et décider à propos des paramètres inconnus de la population.
Puisqu’une statistique est une combinaison des variables aléatoires, elle est
elle-même une variable aléatoire. Donc on peut définir sa distrbution de
probabilité que l’on appelle sampling distribution ou distribution de
l’échantillonnage. Pratiquement, la distribution de l’échantillonnage donne
un modèle théorique de l’histogramme des fréquences des valeurs possibles
de la statistique que nous observons sur chaque échantillon.
En réalité, nous observons une seule fois la statistique sur l’échantillon
définie dans l’étude. Il faut donc toujours garder à l’esprit que l’enquête
4
Roger KIZUNGU Vumilia
que nous menons, l’expérimentation que nous installons n’est qu’une
réalisation de plusieurs autres possibles.
Nous allons présenter les statistiques utilisées dans les décisions ou
l’inférence.
La distribution de la statistique Z
Soient les observations
issues des variables aléatoires
Soit
.la statistique moyenne. Soit
la moyenne
des moyennes et
l’écart-type des moyennes ou l’erreur standard.
Considérons une statistique particulière
Suivant le théorème central limite, la statistique Z a une distribution
Normale Centrée Réduite ou une distribution Normale Standard. Nous
l’utiliserons dans beaucoup de décisions.
La distribution de la Statistique Chi carré
Nous allons nous intéresser à une statistique qui est une fonction du carré
des observations indépendantes issues d’une distribution Normale
aléatoire.
Soient
est un échantillon aléatoire de taille n et issue d’une
distribution Normale de moyenne μ et de variance σ². Alors
sont des variables alétoires aléatoires Standards et par
définition,
A une distribution
avec n dégré de liberté.
Avec le logiciel R,
est trouvé par pchisq(q, df) avec q la
quantille et df le degré de liberté.
Exemple :
> pchisq(4.86518,10)
[1] 0.09999987
BIOMÉTRIE ET MODÉLISATION
Par définition de la distribution
5
avec 6 degrés de liberté, on a
> qchisq(0.95,6)
[1] 12.59159
Inversement :
> pchisq(12.59159,6)
[1] 0.95
La distribution
inférentielles.
joue un rôle important dans beaucoup des procédures
Exercice : on sait que le meilleur estimateur de la variance
. Démontrer avec le logiciel R que
est tel que
est
La distribution de la Statistique de Student
Une troisième statistique particulière est la statistique
Avec :
- Z une variable normale standard
- W est une variable
de dégré de liberté ν
Elle est appelée la statistique de Student avec ν ddl.
Dans R,
est donné par
Exemple. Pour 21 degré de liberté,
> 1-pt(1.323,21)
[1] 0.1000307
La distribution de la Statistique de Ficher
Une quatrième statistique est la statistique F dite statistique de Fisher.
Supposons que l’on veuille comparer deux variances de deux populations
indépendantes de tailles respectives n1 et n2. C’est ce que l’on va faire
quand on fera l’analyse de la variance.
Roger KIZUNGU Vumilia
6
Si
et
deux distributions
respectivement, alors,
avec
et
degrés de libertés
Est une distribution F avec le degré de liberté du numérateur et
degré de liberté du dénominateur.
le
Avec le logiciel R, pour 5 ddl au numerateur et 7 ddl au dénominateur,
pf(q, df1, df2)
Exemple:
> 1-pf(7.46,df1=5,df2=7)
[1] 0.01000162
on dans un monde aléatoire".
Bibliographie
Sanders, Smidt, Adatia, Larson, 2005, Statistics, A first course, McGrawHill Ryerson, Toronto, 635 p.
Téléchargement