D.TOUIAR 04/03/2008 STATISTIQUE INFERENTIELLE Module Méthodes Quantitatives : -Statistique III (S4) Section D INTRODUCTION GENERALE • Il y a en statistique deux approches : • On inverse les conclusions de l’étape précédente pour en déduire la structure vraisemblable de la population dont est issu l’échantillon observé; c’est la phase inférentielle (3ème chapitre) On remarque que cette démarche est semblable à la démarche scientifique habituelle • La Description (vue en S 2) :consiste à résum er età décrire un ensem ble de données. • L’inférence statistique : son but est d’étendre les propriétés de l’échantillon à la population entière (objet de ce semestre) et de valider ou de rejeter des hypothèses à priori ou formulées après une étape descriptive (objet de S5). La démarche statistique est la suivante • L’échantillon est tiré au hasard dans une population plus vaste (1er chapitre). • Le calcul des probabilités (vu en S3) permet ensuite de préciser les caractéristiques de l’ensemble des échantillons que l’on aurait pu obtenir par le même procédé; c’est l’étude des distributions d’échantillonnage (2ème chapitre) réalité Modèle confrontation résultat 1 D.TOUIAR 04/03/2008 –Les méthodes statistiques sont aujourd’hui utilisées dans presque tous les domaines de l’activité humaine : économie, gestion, industrie, médecine, sciences humaines… PROGRAMME DE CE Semestre :S4 • Chapitre 2 : L’estimation Méthodes statistiques B. Grais Introduction I- RECENSEMENTS ET SONDAGES BIBLIOGRAPHIE Auteurs ECHANTILLONNAGE • L’enquête statistique est l’opération technique qui consiste à élaborer les statistiques. Elle a pour but de déterminer un ensemble de caractéristiques d’une population. • On distingue deux types d’enquêtes: Le recensement et le sondage • Chapitre 1 : L’échantillonnage Titre CHAPITRE 1 Code stat22 Introduction à la statistique J.P Bélisle ;J. Desrosiers Théorie des sondages C. Gouriéroux stat20 Méthodes statistiques I A. Vogt stat25 Eléments de statistique d’aide à la décision Hafidi et Touijar stat49 • 1- Définitions – Définition1: La population est un ensemble de personnes ou d’objets sur lesquelles porte une étude. Et on appelle individu chaque élément de cette population. – Définition2: On appelle recensement ou (enquête exhaustive) l’observation de la population entière. 2 D.TOUIAR 04/03/2008 –Remarque: Selon l’ONU: «le recensement de l’habitat est une opération qui permet de recueillir, grouper, évaluer, analyser et publier les données démographiques, économiques et sociales se rapportant à un moment donné à tous les habitants d’un pays » –Définition3: On appelle échantillon, une partie représentative de la population observée. –Remarque: La population d’où on tire l’échantillon s’appelle « population mère » • Définition4: On appelle enquête par sondage, l’observation d’une partie représentative de la population mère, dans le but d’étudier un ensemble donnée de caractéristiques de cette dernière. • Définirion5: On appelle taux de sondage, le rapport de la taille d’échantillon à la taille de la population mère: τ =n échantillon N 3- Types d’erreurs: On distingue deux types d’erreurs: a)- Erreur de mesure (em): elle provient des imprécisions du questionnaire, des erreurs professionnelles des enquêteurs… b)- Erreur d’échantillonnage ou erreur aléatoire (ea): elle tient au fait qu’on n’observe qu’une partie de la population. • L’erreur totale est la somme(vectorielle) des deux erreurs précédentes: ea eT em eT2 =em2 +ea2 population 2- Les avantages des enquêtes par sondage Les sondages présentent de nombreux avantages par rapport aux recensements. Leurs coût est nettement moins élevé. De plus, ils sont plus rapides. Seul le recensement exprime un résultat certain puisqu’il n’ y a plus, en théorie, de problème d’inférence statistique (problème d’estimation). Cependant, l’expérience montre que les sondages sont souvent très précis. • Remarque: Dans un recensement, l’erreur aléatoire disparaît mais l’erreur de mesure persiste, et elle est souvent beaucoup plus importante que dans un sondage; car on doit employer un grand nombre d’enquêteurs hâtivement formés. Il n’y a donc aucune raison que l’erreur totale soit plus grande dans le cas d’un sondage. • Un sondage bien fait peut-être plus précis qu’un recensement tout en coûtant beaucoup moins cher. 3 D.TOUIAR 04/03/2008 •Le principal inconvénient des sondages est de présenter des erreurs d’échantillonnage, qu’on tente de réduire en utilisant des méthodes rigoureuses de construction d’échantillons. A- Echantillonnage Aléatoire •1- Echantillonnage aléatoire simple: –La construction d’un échantillon aléatoire simple de taille n est réalisée par un tirage au hasard avec remise de n individus dans l’ensemble de la population. Ainsi, tous les individus seront tirés de manière indépendante et auront une chance égale de faire partie de l’échantillon. •Pour constituer un tel échantillon, on fait souvent appel aux « Tables des nombres aléatoires». B-Le tirage d’échantillon aléatoire simple Quelques méthodes de prélèvement d’un échantillon 1- Les tirages avec et sans remise •On distingue deux types de sondages – Les sondages aléatoires: qui aboutissent à la construction d’échantillons aléatoires. – Les sondages par choix raisonné génèrent des échantillons empiriques. Cette deuxième méthode ne sera pas étudiée en ce semestre. Définition de l’unité et du cadre d’échantillonnage Détermination de la base d’échantillonnage Méthode d’échantillonnage Méthode non probabilistes Echantillon de convenance Boule de neige sequentiel Méthode des quatoas Calcul de la taille de l’échantillon Méthode de recueil Face à face Téléphonique Postal EAO... Méthode probabilistes Sondage aléatoire simple Sondage stratifié Sondage en grappe Sondage complexe –L’échantillonnage aléatoire simple (EAS) est basé sur un tirage avec remise. Si on constitue un tel échantillon, chaque individu aura une probabilité 1/N d’être le premier élément de l’échantillon. Pour le deuxième élément, chaque individu aura toujours la même probabilité 1/N; ainsi de suite, à chaque tirage, on aura la probabilité 1/N • • • • • • Par contre s’il n’y avait pas de remise: Au premier tirage, la probabilité est 1/N Au deuxième, la probabilité est 1/(N-1) Au nème, la probabilité est 1/(N-n+1) – Dans le cas d’un tirage sans remise on ne peut obtenir d’échantillon de taille supérieure à N de la population; on l’appelle donc: tirage exhaustif 4 D.TOUIAR 04/03/2008 • A priori, la loi L, et en particulier µ et σ2 sont inconnus. Lorsque la taille de la population est importante par rapport à la taille de l’échantillon, on confond alors le tirage sans remise et le tirage avec remise ΙΙΙΙ ECHANTILLONNAGE • Le but de ce paragraphe est d’étudier les liens théoriques existant entre la population et l’échantillon aléatoire prélevé dans cette population. – On tire au hasard 9 familles avec remise, et on observe la réalisation de la variable X pour les familles tirées. Ce qui revient à observer les réalisations de 9 V.A. indépendantes et de même loi. Définition: Les n V.A. X 1 , X 2 , L , X n constituent un échantillon aléatoire simple de la V.A. X si et seulement si X 1 , X 2 , L , X n sont indépendantes et de même loi que X. • Désormais, on appellera X la VA parente. • Remarque: E(X1 ) = E(X 2 ) = L = E(X n ) = E(X ) = µ V (X1 ) = V (X 2 ) = L = V (X n ) = V (X ) = σ 2 1-L’Echantillonnage aléatoire simple • -On réalise une étude démographique sur la fécondité chez la femme citadine. Pour ce, on considère la variable aléatoire X qui désigne le nombre d’enfants par famille. • Soit L la loi de X. L’espérance µ et la variance σ2 sont deux paramètres de cette loi. • 2- La moyenne d’échantillonnage Il s’agit toujours de l’étude concernant la fécondité chez la femme citadine. On s’intéresse au nombre moyen d’enfants par famille. Pour cela, on prélève 5 échantillons aléatoires et on observe la réalisation des 9 V.A X 1 , X 2 , L , X 9 pour chacun des 5 échantillons: • On note alors X L (µ , σ2) µ=E(X) et σ2=V(X) • Avec 5 D.TOUIAR 04/03/2008 Echantillon 1 2 3 4 5 X1 X2 X3 X4 X5 X6 X7 X8 X9 2 1 4 4 0 1 0 3 4 1 1 0 3 0 0 1 4 0 1 2 3 3 1 0 2 X 2 2 2 3 2 5 5 5 2 4 2 1 2 4 3 4 0 2 1 5 2,3 1,8 2,4 2,1 2,1 • On remarque que le nombre moyen d’enfants par famille X prend des valeurs différentes selon l’échantillon considéré; où : X + X +L+ X9 19 X = ∑Xi = 1 2 9 i=1 9 • X est donc une variable aléatoire; c’est donc une statistique. • Définition : Soit X1, X2, …, Xn un échantillon aléatoire simple de taille n, et h une fonction de Rn →R ; la variable aléatoire Y=h(X1, X2, …, Xn ) est appelée une statistique. • Quelques exemples de statistiques: X= 1 n X +L+ X n Xi = 1 moyenne échantillon ∑ n i =1 n 2 1 n S = ∑ (X i − X ) ; variance échantillo n n i =1 2 e S2 = 1 n ∑ (X i − X n − 1 i =1 ); 2 quasi - variance I- Propriétés de la statistique X • Le tableau précédent nous a permis d’obtenir 5 réalisations de la moyenne d’échantillonnage qu’on note x1 ; x2 ;L; x5 On s’attend à ce que ces 5 valeurs soient proches de la moyenne µ. 1- Calcul de Ε( X ) • A) Propriété 1: Soit X1, X2, …, Xn un échantillon aléatoire simple de taille n, relatif à la V.A. parente X. L’espérance de la V.A. X est égale à la moyenne de la population µ : Ε(X ) = E(X)=µ 6 D.TOUIAR 04/03/2008 ( ) 2- Calcul de V X I- Propriétés de la statistique S e2 ( ) 1- Calcul de Ε S e • Propriété 3: Soit X1, X2, …, Xn un 2 • Propriété 2 : Soit X1, X2, …, Xn un échantillon aléatoire simple de taille n, relatif à la V.A. parente X. La variance de la V.A. X est égale à la variance de X divisée par la taille n de l’échantillon: V (X ) = • Remarque : V (X ) σ 2 = n n ( ) 1 E S e2 = σ 2 1 − n lim V (X ) = 0 n →∞ • Exemple • Soit X P (2) la V.A. parente : E(X)= λ = 2 = V(X) D’où: Ε(X ) = 2 V ( X ) = 2/n et C- La variance d’échantillonnage et la quasi-variance •On note échantillon aléatoire simple de taille n, relatif à la V.A. parente X de moyenne µ et de variance σ2. Alors, l’espérance 2 de S e est égale à: S e2 la variance d’échantillonnage: Remarque: L’espérance de la variance d’échantillonnage n’est pas une image parfaite de la variance σ2: ( ) Ε S e2 ≠ σ 2 Pour remédier à cet inconvénient, on construit une statistique qui approchera le mieux σ2 • Propriété 4 : Soit X1, X2, …, Xn un échantillon aléatoire simple de taille n, relatif à la V.A. parente X de moyenne µ et de variance σ2. Alors, l’espérance de la quasi-variance est égale à la variance de la population: 2 1 n S = ∑ (X i − X ) n i =1 2 e 2 e •On rappelle que S est une statistique: c’est une V.A. qui associe une valeur numérique à chaque tirage d’échantillon. ( ) Ε S2 =σ 2 7 D.TOUIAR 04/03/2008 • On extrait de cette production un E.A. de taille n. Soit X1, X2, …, Xn cet échantillon aléatoire. Alors chaque Xi suit une loi de Bernoulli de paramètre p Remarque • On peut montrer également que les 2 2 variances de S e et de S tendent toutes les deux vers zéro lorsque la taille de l’échantillon tend vers l’infini : ( ) ( ) lim V S e2 = lim V S 2 = 0 n →∞ n →∞ D- Notion de Fréquence • Lors d’une production industrielle des pièces mécaniques, on s’intéresse à la proportion des pièces défectueuses. Si on note X la V.A. qui prend, avec une probabilité p, la valeur 1 si la pièce est défectueuse et qui prend 0, avec la probabilité 1-p sinon. on note alors : Xi B (p) • De plus les Xi sont indépendantes, par conséquent, leur somme Sn suit une loi binomiale : Sn B (n,p) • Sn représente le nombre de pièces défectueuses dans l’échantillon : P(Sn = k) = Cnk pk qn−k ; k = 0,1,K, n • Définissons la fréquence F comme étant la proportion de pièces défectueuses dans l’échantillon : F= Sn X1 + X 2 + L X n = n n • Si x est une valeur numérique que peut prendre la statistique F, alors : 1 avec laproba. p si pièce défectueuse X = 0 avec proba.1 − p si pièce conforme • D’où : n −1 1 2 x ∈ 0, , , K, ,1 n n n • Et la distribution de F est donnée par : X B (p) P(F = x) = P(Sn = nx) = Cnnx pnxqn−nx 8 D.TOUIAR 04/03/2008 •Remarque :Les propriétés de F sont • Remarque : déduites de celles de X (puisque F est un cas particulier de X ) On peut redéfinir la convergence en probabilité comme suit : •Propriété 6 : Soit la V.A. parente ∀ε > 0 ; lim P{ X n − X > ε } = 0 X qui suit une loi de Bernoulli de paramètre p. Les moments de la statistique F sont comme suit : E (F ) = p et V (F ) = pq n n →∞ La V.A. X peut être une constante; par exemple, lorsqu’on étudie la convergence d’une suite de statistiques vers la valeur vraie d’un paramètre II- Convergence en LOI • Définition : La suite aléatoire X1, X2, …, E- Théorèmes fondamentaux de la Statistique I- Convergence en probabilité Xn,… converge en loi vers la V.A. X, appelée limite de la suite si lim Fn (x ) = F ( x ) ; n→∞ en tout point de continuité x de F(x) • Et on note : L Xn → X • Où F(x) est la fonction de répartition de X • Définition : La suite aléatoire X1, X2, …, Xn,… converge en probabilité vers la V.A. X, appelée limite de la suite, si : ∀ε > 0 ; lim P{ X n − X < ε } = 1 n →∞ Convergence de la loi de Poisson vers la loi Normale • Propriété 10 : Soit une V.A. Z normale centrée réduite: Z N (0,1) et soit une suite de V.A. X1, X2, …, Xn,… telles que: Xn P (λn) avec Alors; • Ce que l’on note: Xn → X P X n − λn λn lim λn = +∞ n →∞ L → Z 9 D.TOUIAR 04/03/2008 Remarque: • Si λ est suffisamment grand (λ ≥ 15), Alors : P (λ) ≈ N (λ , λ ) Convergence de la loi Binomiale vers la loi Normale • Propriété 11 : Soit une V.A. Z normale centrée réduite: Z N (0,1) et soit une suite de V.A. X1, X2, …, Xn,… telles que: Xn B (n , p) Convergence de la loi de Khideux vers la loi Normale Rappel sur la loi de Khideux: χ2 • Définition : Soit une suite de n V.A. Z1, Z2, …, Zn indépendantes et de même loi normale centrée réduite: Zi N (0,1) On appelle loi de Khi-deux à n degrés de liberté, la loi suivie par la somme des carrés des V.A. Zi ; on note : Alors; X n − np L → Z npq Remarque: • Si n ≥ 30 et np ≥ 5 et nq ≥ 5 Alors : B (n , p) ≈ N (np , npq ) n ∑Z i =1 2 i χ2(n) b)- Distribution d’une Khi-deux • La distribution de χ2 est dissymétrique. Elle est continue et elle dépend du nombre de degrés de liberté n. Pour des valeurs différentes de n, on obtient des distributions différentes. Lorsque n augmente, la loi de χ2 tend lentement vers la loi normale 10 D.TOUIAR 04/03/2008 • Propriété 12: Approximation de fisher Distribution de χ2(10) Distribution de χ2(16) 0,1 • Soit X χ2(n) , si n > 30 ; alors : Distribution de χ2(30) 2 X − 2n − 1 ≈ N (0,1) 0 10 15 20 30 C)- Les moments de Khi-deux • Soit X χ2(n) ; alors : E( X ) = n et Convergence de la loi de Student vers la loi Normale Rappel sur les lois de Student : t et de Fisher : F V( X ) = 2n • Définition 1: Soient X une V.A. de khi-deux à n d.d.l. et Y une V.A. de khi-deux à m d.d.l. avec X et Y indépendantes; on définit alors la V.A. de Fisher par le rapport des rapports des deux V.A. de khi-deux par leurs d.d.l. respectifs n et m et on note : d)- Une propriété de Khi-deux • La somme de deux Khi-deux indépendantes de d.d.l. respectifs n et m est une Khi-deux de d.d.l. n+m ; on note : X X χ2 (n) et Y χ 2 (m) χ 2 (n) X où X CY ⇒ X +Y χ (n + m) 2 • et Y χ (m) où X CY ⇒ Y n F (n, m) m 2 11 D.TOUIAR 04/03/2008 •F (n , m) est la notation de la loi de Fisher à (n , m) d.d.l. Sa densité étant Distribution de la loi de Student dissymétrique, étalée à droite. • Propriété 14: moments de la loi de Fisher Soit F F (n , m) ;alors E (F ) = m V (F ) = m−2 si m > 2 2m 2 (n + m − 2) si m > 4 n(m − 2) (m − 4) 2 • Les distributions de Student sont continues et symétriques et dépendent d’un paramètre n. A des valeurs différentes de n, correspond différentes distributions de Student. Lorsque n tend vers l’infini, la loi de student tend vers la loi normale. • Remarque : Si Fn,m,p est le fractile d’ordre p de la V.A. de Fisher à (n , m) d.d.l, alors : Fn ,m , p = 0,3 n=50 1 Fm ,n ,1− p n=1 Cette loi joue un grand rôle en statistique (loi du rapport des variances de deux échantillons indépendants) • Définition : Soit Z une V.A. suivant la loi normale centrée réduite: N (0,1) Z et soit X une V.A. de Khi-deux à ν degrés de liberté: X χ2(ν) et indépendante de Z. On définit alors la V.A. T suivant la loi de student à ν degrés de liberté, notée t ν : T= Distributions de Student 0,4 Z X tν ν -3 0 +3 Propriété 15: moments de la loi de Student Soit T t (n ) ;alors E (T ) = 0 si n > 1 V (T ) = n si n > 2 (n − 2) µ3 = 0 si n > 3 12 D.TOUIAR 04/03/2008 Propriétés de Student T 2=F(1,n) Soit T t (n ) ;alors si n >120 T≈ N (0,1) • Corollaire 1: Soit la V.A. parente X suivant une loi de Bernoulli de paramètre p ; alors : P F → p • Remarque: Cela veut dire que la fréquence d’un événement converge vers sa probabilité • La démonstration du Théorème1 découle du lemme suivant Lemme : Inégalité de Bienaymé-Tchebicheff Si ε désigne un réel strictement positif, et X une V.A. d’écart type σ, alors σ2 P{ X − E ( X ) ≥ ε } ≤ 2 ε Loi des Grands Nombres (loi faible) • Indication pour démonstration: • voir dans le cas d’une v.a. discrète et poser 2 Y = ( X − EX ) et calculer EY • Théorème 1: Loi des grands nombres • Soit X1, X2, …, Xn un échantillon aléatoire simple de taille n, relatif à la V.A. parente X de moyenne µ ; alors : P X → µ • Remarque: • La loi des grands nombres peut être généralisée: • Théorème 2: Soit T=T(X1, X2, …, Xn) une statistique telle que : lim E (T ) = θ n →∞ et lim V (T ) = 0 n →∞ • Remarque: Ce résultat reste vrai quelque soit la loi de X. donc en particulier pour la loi de Bernoulli alors : P T → θ 13 D.TOUIAR 04/03/2008 • Exemple : ( ) • 1)- lim E S e2 = σ 2 n →∞ P S e2 → σ2 Alors • 2)- ( )= σ lim E S n →∞ 2 2 ( ) lim V S e2 = 0 et n →∞ ( )= 0 et lim V S n →∞ 2 Cas des échantillons Aléatoires issus d’une population Normale • Lorsque l’E.A. est relatif à une loi normale, on obtient des propriétés plus intéressantes pour les statistiques X et S2 • Propriété 16: Soit X Alors : X P S2 → σ2 Théorème CENTRAL LIMITE (T.C.L.) σ = n X −µ σ L → N (µ , σ2/n) toute V.A. quelque soit sa loi; il fournit une propriété asymptotique. • Soit X1, X2, …, Xn un échantillon aléatoire simple de taille n, relatif à la V.A. parente X de moyenne µ et de variance σ2. Alors, X −µ (µ ,σ2); alors • Remarque: Le T.C.L. s’applique à • Théorème 3: (T.C.L. 1ère formulation) • N N (0,1) • Alors que la propriété 16 ne s’applique qu’aux V.A. suivants une loi Normale et quelque soit la taille n de l’échantillon. n • Théorème 4: (T.C.L. 2ème formulation) • Pour une taille n assez grande (en pratique n ≥ 30), on a: • X≈ N (µ , σ n ) 2 Propriété 17: Sous l’hypothèse de normalité, (n − 1) S 2 σ 2 χ2(n-1) • Corollaire 2: Soit la V.A. parente X suivant une loi de Bernoulli de paramètre p ; Si n ≥ 30 et np ≥ 5 et nq ≥ 5 alors on a : F ≈N pq p, n Propriété 18: Sous l’hypothèse de normalité: n X −µ S t(n-1) 14 D.TOUIAR 04/03/2008 Remarque: Sous l’hypothèse de normalité, et si la moyenne de la population est connue, on a: n ~2 S 2 σ • Lorsque le tirage est sans remise, toutes les propriétés qu’on a énoncé (ou presque), concernant les statistiques , X , F , S e2 et S 2 ne sont plus valables. En effet, on peut montrer qu’on a : χ2(n) 2 ~2 1 n Où S = ∑ ( X i − µ ) n i =1 Remarque: Cas des petits échantillons E (F ) = V (F ) = ( ) 2 E S e E S 2 ( ) • Lorsque n est petit, on ne peut utiliser le T.C.L. et par conséquent on ne peut obtenir une loi pour X . Or si on ajoute l’hypothèse de normalité, on obtient des résultats importants quelque soit n. F- Cas des échantillons exhaustifs (T.S.R.) E (X ) = V ( X ) = p µ σ2 N −n n N −1 pq N − n n N −1 n − 1 N = σ 2 n N − 1 N = σ2 N −1 • Remarque: Si n est négligeable devant N (la taille de la population finie), le tirage sans remise devient équivalent à un tirage avec remise. Dans la pratique, ceci prend effet lorsque: N ≥ 20n L’ Estimation Chapitre II 15 D.TOUIAR 04/03/2008 INTRODUCTION • Après avoir prélevé l’échantillon, et étudié les distributions d’échantillonnage, on peut alors généraliser, à la population, les résultats expérimentaux obtenus à partir de l’échantillon; c’est ce qu’on appelle l’inférence statistique. A- L’ ESTIMATION PONCTUELLE • I- Définitions – Définition1: Soit X1, X2, …, Xn un E.A.S relatif à la V.A. parente X de loi L (θθ). On appelle estimateur du paramètre θ toute statistique utilisée dans le but d’approcher la valeur inconnue de θ. Un estimateur est donc une Variable Aléatoire. L’estimation consiste en l’évaluation d’un paramètre de la population à partir de l’observation d’un E.A. La théorie de l’estimation se divise en deux parties: – Définition2: Une estimation du paramètre θ est une réalisation d’un estimateur de ce paramètre. Une estimation est donc une valeur numérique. – Exemples: 1) L’estimation ponctuelle: permet d’obtenir une valeur unique calculée à partir d’un E.A., valeur qui sera prise comme estimation du paramètre inconnu. Si X Si X Si X 2) L’estimation par intervalle: permet de déterminer un intervalle qui, avec une grande probabilité fixée a priori, contient la valeur vraie du paramètre inconnu. • Exemple: On dit que 53% de la population favorise le candidat A avec une marge d’erreur de 1% et avec un niveau de confiance de 95%. Ce qui signifie que la proportion d’électeurs favorisant A se situe, avec une probabilité de 95%, entre 52% et 54%. L L L (µ) estimateur X → estimation x (p) estimateur F → estimation f (σ2) Se2 se2 →estimations estimateur 2 s 2 S • II- Propriétés des estimateurs • 1-Estimateurs sans biais •Définition: On appelle estimateur sans biais du paramètre θ toute statistique T=T(X1, X2, …, Xn) telle que: E(T)=θ 16 D.TOUIAR 04/03/2008 • Remarque 1: Si T est biaisé, le biais 2-Estimateurs Convergents serai alors: B= E(T)-θ Estimateur sans biais • Définition: On appelle estimateur Convergent du paramètre θ toute statistique T=T(X1, X2, …, Xn) telle que: Estimateur biaisé P T → θ B θ E(T) E(T)=θ – Exemples: X est un estimateur sans biais de µ 2 2 S 2 est un estimateur sans biais de σ 2 S e est un estimateur biaisé de σ −σ 2 n −1 2 2 B S e2 = E S e2 − σ 2 = σ − σ = n n ( ) ( ) • Définition: On appelle estimateur asymptotiquement sans biais, du paramètre θ, toute statistique T=T(X1, X2, …, Xn) telle que: lim E(T)=θ n →∞ • Remarque : La loi des grands nombres implique que X est un estimateur convergent de µ. De même que F est un E.C. de p Théorème : L.G.N. généralisée • Si T est un estimateur sans biais ou asymptotiquement sans biais de θ, et si sa variance tend vers zéro lorsque n tend vers l’infini, alors T est un estimateur convergent de θ : • Si Exemple: Se2 est un estimateur asymptotiquement sans biais de σ2 : ( ) 1 lim E S e2 = lim 1 − σ 2 = σ 2 n→∞ n→∞ n lim E (T ) = θ n →∞ • Alors et lim V (T ) = 0 n →∞ P T → θ 17 D.TOUIAR 04/03/2008 Exemple : ( )= σ lim E S n →∞ 2 e 2 et ( )= 0 lim V S n→∞ • Question: • Définition: On appelle Quantité d’information de Fisher de θ, la quantité In(θ ): Alors S e2 est un estimateur convrgent de σ 2 • De même on montre que σ2 de S 2 est un E.C. 3-Estimateurs Efficaces: Entre deux estimateurs sans biais, on préfère utiliser celui qui a la variance la plus petite. • Définition: Soient T1 et T2 deux estimateurs sans biais du même paramètre θ et basés sur le même échantillon. On dit que T1 est plus précis que T2 si: 2 ∂ I n (θ ) = E Log f ( X 1 , X 2 ,K , X n ,θ ) ∂θ • Où In(θ ) dépend de n et de la loi de X mais ne dépend pas de l’estimateur T • Remarques : Soit f(x,θθ) la densité de la loi de X, alors In(θ ) s’écrit aussi (sous certaines conditions qu’on supposera toujours vérifiées): 1- Exemple : Montrons que X que Γ = X 1 + X 2 E (X ) = E (Γ ) = µ 2 I n (θ ) = nI1 (θ ) 3- ∂2 I n (θ ) = − n E 2 Log f ( X , θ ) ∂θ est plus précis . On a d’abord: donc X et Γ 4- Le rapport BCR (θ ) = 1 I n (θ ) est appelé sont deux E.S.B. de µ. 1 1 σ2 V (Γ ) = (V ( X 1 ) + V ( X 2 )) = V ( X ) = 4 2 2 2 D’où 2 ∂ I n (θ ) = n E Log f ( X , θ ) ∂θ 2- V (T1 ) ≤ V (T2 ) Or V (X ) = Min V (T )? T∈{ E . S . B .} 2 e Borne de CRAMER-RAO σ n V (X ) ≤ V (Γ ) pour n ≥ 2 18 D.TOUIAR 04/03/2008 • Propriété : Inégalité de CRAMER-RAO Si T est un Estimateur sans biais (E.S.B.) du paramètre θ , alors : V(T) ≥ BCR(θ) III Recherche d’estimateurs • Soit (x1, x2, …, xn ) la réalisation d’un échantillon aléatoire X1, X2, …, Xn, relatif à la V.A. parente X de loi Pθ. La probabilité d’obtenir une telle réalisation est : n Pθ ( X1 = x1, X 2 = x2 ,K, X n = xn ) = ∏ Pθ ( X i = xi ) i =1 • Définition : un E.S.B. T de θ, est dit efficace si sa variance est égale à la borne de Cramer-Rao: V (T ) = BCR (θ ) • Définition: un E.S.B. T de θ, est dit asymptotiquement efficace si: V (T ) lim =1 n → ∞ B (θ ) CR Exemple : Si X I n (µ ) = Or N (µ , σ2), alors et V (X ) = n σ2 σ 2 n X E.S.B. de µ, d’où il est efficace de µ. ( ) = 2σ In σ 2 n 4 ( ) et V S 2 2σ 4 = n −1 S2 est asymptotiquement efficace de σ2 car (n/n-1) • Définition : On appelle Estimateur de Maximum de Vraisemblance (E.M.V.) pour θ, la valeur θˆ de θ, qui maximise cette probabilité. • En pratique, il revient au même de chercher θˆ qui maximise le logarithme de la probabilité, soit : n L(θ ) = ∑ Log [Pθ ( X i = xi )] i =1 • Remarque : • θˆ maximise L(θ ) • Exemple : • Si X B ssi () () ∂L ˆ ∂θ θ = 0 ∂2L 2 θˆ < 0 ∂θ ( p )⇒ Pp ( X i = xi ) = p xi q1− xi • D’où n L( p ) = ∑ [xi Logp + (1 − xi )Log (1 − p )] i =1 1 19 D.TOUIAR 04/03/2008 n n − ∑ xi ∂L n xi 1 1 n i =1 = ∑ xi − = ∑ − (1 − xi ) ∂p i =1 p 1 − p p i =1 1− p B- Estimation Par Intervalle de Confiance –Définition: On dit que (C1,C2) est un intervalle de confiance au niveau 1-α α pour le paramètre θ si on a : n Xi ∑ n ∂L = 0 ⇔ p ∑ xi = n ⇔ pˆ = i =1 =F ∂p n i =1 ∂2L Vérifiez ensuite que ( pˆ ) < 0 ∂θ 2 P ((C1 ; C2 ) ⊃ θ ) = P (C1 ≤ θ ≤ C2 ) = 1 − α –Les bornes C1 et C2 de l’intervalle sont des statistiques relatives à l’ E.A. On conclu que F est bien un E.M.V. pour p • 1-α α est appelé niveau de confiance de l’intervalle (C1,C2). IV Cas Exhaustif 1-Cas de la moyenne : θ=µ Lorsque le tirage est sans remise, X garde la même espérance mais pas la même variance: E (X ) = µ et V (X ) = Remarque : V σ2 N −n • Plus α est petit et plus l’intervalle de confiance est grand. Généralement, on considère des intervalles à risques symétriques: n N −1 P (θ > C2 ) = P (θ < C1 ) = (X ) ≤ V (X ) TSR TAR σ2 Mais lorsque le TSR, on a: N −1 2 E S =σ2 N N −1 2 S N • 1- Construction de L’ IC(p): Afin d’estimer une proportion p de « Succès » par exemple; on utilise la fréquence F qui est un estimateur sans biais convergent et efficace du paramètre p. De plus, on a (d’après le T.C.L.) • est donc un ESB de σ2 2 I- Intervalle de Confiance pour une proportion: IC(p) 2-Cas de la variance : θ=σ2 Si le TAR S2 est un E.S.B. de α Z= • dés que F − p N (0,1) ≈ pq n n ≥ 30 et np ≥ 5 et nq ≥ 5 20 D.TOUIAR 04/03/2008 Courbe de densité de la loi normale centrée réduite • Exemple: pour un niveau de confiance 95%; α=5% et par suite zα/2 = z0,025 = 1,96. Par conséquent: 1 2π • 95% 2,5% 1- α α/2 N (0,1) α/2 Z 0 -1,96 -zα/2 0 2, 5% +zα/2 Z IC ( p) = F −1,96 • D’où P(− zα / 2 < Z < + zα / 2 ) = 1 − α • Remplaçons Z par son expression: F − p P − zα / 2 < < + zα / 2 = 1 − α pq n pq pq = 1− α P F − zα / 2 < p < F + zα / 2 n n •Donc, on obtient comme intervalle de confiance pour la proportion au niveau 1-α α pq pq IC ( p) = F − zα / 2 ; F + zα / 2 n n 142 4 43 4 142 4 43 4 C1 C2 1,96 pq pq ; F +1,96 n n • Une réalisation de cet intervalle est : pq pq IC ( p) = f −1,96 ; f +1,96 n n pq • Problème: n est inconnue car p est inconnu. On utilise alors l’approximation suivante, pour n assez grande : pq n ≅ f (1 − f ) n • Propriété: Soit X1, X2, …, Xn un échantillon aléatoire simple de taille n, relatif à la V.A. parente X suivant une loi de Bernoulli de paramètre p inconnu. Un intervalle de confiance au niveau 1-α pour p est comme suit : f (1− f ) f (1− f ) IC( p) = f −zα/2 ; f + zα/2 n n • Dés que : n ≥ 30 et nf ≥ 5 et n(1 − f ) ≥ 5 21 D.TOUIAR 04/03/2008 • 2- Précision d’une estimation par intervalle de confiance: Pour un α donné, on veut déterminer la taille nécessaire de l’échantillon pour atteindre une certaine précision de l’estimation. – Notons a(α,n) l’amplitude de IC(p) : • Exercice:Parmi un E.A. de 250 électeurs, 108 déclarent vouloir voter pour le président sortant. Tandis que les autres voteront pour l’autre candidat. Donner un IC(p) au niveaux 90 et 95% • Combien faudrait-il interroger d’électeurs pour que l’erreur d’estimation ne dépasse pas 2% ? • Réponse pq pq a(α , n) = f + zα − f − z α 2 2 n n = 2 zα pq n 2 • 1)- • On appelle erreur d’estimation la demilongueur de Ic • p représente la proportion des votants a(α , n) = zα pq n 2 2 • Or p est inconnu, on utilise donc la majoration: p(1 − p ) ≤ 1 2 pq 2 n ≤ zα 2 n • Pour que l’erreur d’estimation soit inférieure ou égale à e: zα 2 2 n ≤e • Il faut que n soit: 1 zα 2 n≥ 4 e B (p) en faveur de A dans toute la population des électeurs. • Une estimation ponctuelle de p est donnée, grâce à la réalisation de l’E.A., par la fréquence: f = n1 108 = = 0,432 n 250 n = 250 ≥ 30 et nf = 108 ≥ 5 et 142 ≥ 5 1 2 X • D’où : • Condθ TCL: • On obtient donc zα 1 avec proba. p si vote pour A X = 0 avec proba.1 − p si vote pour B 2 Or α=10%, d’où zα/2=z0,05=1,645(loi normale C.R) f (1− f ) f (1− f ) IC( p) = f −zα/2 ; f + zα/2 n n = [0,432−1,645× 0,031; 0,432+1,645× 0,031] = [0,381; 0,483] • 2)- α=5% ⇒ z0,025=1,96 IC ( p ) = [0 , 371 ; 0 , 493 ] • Remarque: Plus l’erreur d’estimation est petite et plus la précision est grande. 22 D.TOUIAR 04/03/2008 • 3)- • D’où : σ σ ; x + zα / 2 I C (µ ) = x − zα / 2 n n 2 2 1 zα 2 1 1,96 n≥ = = 2401 4 e 4 0,02 • Cet intervalle n’a de sens que si σ2 est connue. • Si σ2 est inconnue, on l’estime alors par S2 et on obtient la V.A.(grâce à l’hypothèse de Normalité) : • Z= n 05/01/2004 II- Intervalle de Confiance pour la moyenne: IC(µ µ) • 1)- IC(µ µ) dans le cas d’un population Normalement distribuée: • Dans ce cas la V.A. parente X suit : • Or, on sait que X est un bon estimateur de la moyenne µ : N (µ , σ2/n). •X • Posons Z= • D’où t(n-1) • Notre intervalle de confiance devient : s s I C (µ ) = x − tn−1,α / 2 ; x + tn−1,α / 2 n n N (µ , σ2). • X • X −µ S X −µ σ • Où tn−1,α / 2 est la valeur critique d’ordre α/2 α/2 lue dans la table de student à n-1 d.d.l. •Propriété: Soit la V.A X N (0, 1). n 1 − α = P(− zα / 2 < Z < + zα / 2 ) σ σ = P X − zα / 2 < µ < X + zα / 2 n n N (µµ , σ2) . •1)- Si σ2 est connue, alors un intervalle de confiance au niveau 1-α pour µ est : σ σ I C (µ ) = x − zα / 2 ; x + zα / 2 n n •2)- Si σ2 est inconnue, alors un intervalle de confiance au niveau 1-α pour µ est : s s I C (µ ) = x − tn−1,α / 2 ; x + tn−1,α / 2 n n 23 D.TOUIAR 04/03/2008 • 2)- IC(µ µ) dans le cas d’un population quelconque: • La variance de X peut-être considérée comme une mesure de l’incertitude de l’actif et donc comme une mesure de son risque. • Soit P la population des actions des entreprises du secteur microinformatique. X est le taux de rendement de ses actions; on suppose : N (µ , σ2). X • • On prélève au hasard 30 actions et construisons un intervalle de confiance pour σ2 •Propriété: Soit X1, X2,…, Xn un échantillon aléatoire relatif à X LQ (µ µ , σ2 ) . 1)- Si σ2 est connue, et si n ≥ 30 alors un intervalle de confiance au niveau 1-α de µ Si µ est inconnue, on utilise alors S2 et on obtient la V.A.(grâce à l’hypothèse de Normalité) (n − 1) S 2 σ σ I C (µ ) = x − zα / 2 ; x + zα / 2 n n σ χ2(n-1) 2 α/2 •2)- Si est inconnue, et si n ≥ 50 alors notre intervalle pour µ devient : σ2 s s ; x + zα / 2 I C (µ ) = x − zα / 2 n n III- Intervalle de Confiance pour la variance: IC(σ σ 2) • Pour montrer le grand intérêt que présente la variance, on prend l’exemple où X est le taux de rendement d’un actif financier. Celui-ci est définit comme suit: Rt = Pt + dt − Pt −1 Pt −1 • Où Pt est le prix de la période t, et dt le dividende de la même période 1−α χ1−α/2;n-1 χα/2;n-1 12/01/2004 • D’où : ( ) IC σ 2 • ou n n 2 2 ( x − x ) ( x − x ) ∑ i ∑ i i =1 i =1 = ; 2 2 χ n −1;1−α / 2 χ n −1;α / 2 ( ) IC σ 2 (n − 1)s 2 (n − 1)s 2 = 2 ; 2 χ χ n −1;1−α / 2 n −1;α / 2 24 D.TOUIAR 04/03/2008 • Si les deux variances σ1 2 et σ2 2 sont connues : IV- Intervalle de Confiance pour la différence des moyenne σ12 σ22 IC (µ1 − µ2 ) = x1 − x2 − zα / 2 + ; n n2 1 σ12 σ22 x1 − x2 + zα / 2 + n1 n2 •1)- IC(µ µ1 − µ2 ) dans le cas de 2 populations Normalement distribuées: •Soient P1 et P2 2 populations que l’on étudie selon la V.A. parente X de loi sur P1 N (µ 1 , σ 1 2 ) et N (µ2 , σ22) sur P2. σ 12 = σ 22 = σ 2 •On veut estimer la différence des moyennes µ1 − µ2 . • Pour cela, on prélève 2 échantillons indépendamment de tailles n1 et n2 respectivement de P1 et P2 • Et on définie alors 2 estimateurs X 1et X 2 respectivement de µ1 et µ2 On propose alors de µ1 – µ2 : X 1 − X 2 estimateur µ X − X = E (X 1 − X 2 ) = E (X 1 ) − E (X 2 ) 1 2 = µ1 − µ 2 σ 2 X1 − X 2 =σ • Or X1 • Et X2 2 X1 +σ 2 X2 = σ 12 n1 + σ 22 N (µ1 , σ12/n ). N (µ2 , σ22/n ). On les estime alors par Ŝ 2 , où ( n1 − 1)S12 + (n2 − 1)S 22 2 ˆ S = (n1 − 1) + (n2 − 1) • Et donc on construit une V.A. de Student: T= (X 1 − X 2 ) − (µ1 − µ 2 ) 1 1 Sˆ + n1 n2 t (n1 + n2 − 2) •D’où notre intervalle de confiance au niveau 1- α : 1 1 IC (µ1 −µ2 ) = x1 − x2 −tn1+n2 −2;α/ 2sˆ + ; n1 n2 1 1 ˆ x1 − x2 +tn1+n2 −2;α/2 s + n1 n2 n2 1 2 • D’où X1 − X 2 • Si les variances sont inconnues mais égales N (µ1− µ2 ,σ12/n +σ22/n ) 1 2 •Où tα/2 est lu dans la table de student à n1 +n2 -2 25 D.TOUIAR 04/03/2008 2)- le cas de 2 populations quelconques: a)- Si les deux variances σ1 2 et σ2 2 sont connues : •On considère alors la V.A. pour Z= (X 1 − X 2 ) − (µ1 − µ 2 ) σ 12 n1 + σ 22 ≈ n1 , n2 ≥ 30 N (0,1) n2 • Donc, notre intervalle de confiance au niv. 1−α, de la différence des moyennes s’écrit : σ12 σ22 IC (µ1 − µ2 ) = x1 − x2 − zα / 2 + ; n1 n2 σ12 σ22 + x1 − x2 + zα / 2 n1 n2 • Si les variances sont inconnues: σ 2 2 • On estime chaque i par Si et on considère alors la V.A. pour n1 , n2 ≥ 50 Z= (X 1 − X 2 ) − (µ1 − µ 2 ) 2 1 2 2 s12 s22 + ; IC (µ1 − µ2 ) = x1 − x2 − zα / 2 n1 n2 s12 s22 x1 − x2 + zα / 2 + n1 n2 ≈ N (0,1) S S + n1 n2 V- Intervalle de Confiance pour la différence des proportions •Soient P1 et P2 2 populations que l’on étudie selon la V.A. parente X suivant la loi B(p1) sur P1 et B(p2) sur P2. •On veut estimer la différence des proportions p 1 − p 2 . Alors dés que: ni ≥ 30 , ni f i ≥ 5 , ni (1 − f i ) ≥ 5 : i = 1,2 • notre intervalle de confiance s’écrit au niveau 1- α : f (1− f1 ) f2 (1− f2 ) ; IC ( p1 − p2 ) = f1 − f2 − zα / 2 1 + n n 1 2 f (1− f1 ) f2 (1− f2 ) f1 − f2 + zα / 2 1 + n1 n2 • Donc, notre intervalle de confiance au niv. 1−α, s’écrit : 26 D.TOUIAR 04/03/2008 VI- Intervalle de Confiance pour le Rapport des variances •Les deux populations sont supposées être Normalement distribuées: •Sur P1 : X N (µ 1 , σ 1 2 ) •Sur P2 : X N (µ 2 , σ 2 2 ) • D’où notre intervalle de confiance pour le rapport de variance au niveau 1-α α: σ 12 s12 I C 2 = 2 F1−α / 2 ; n2 −1,n1 −1 ; σ 2 s2 s12 F 2 α / 2 ; n2 −1, n1 −1 s2 •On s’intéresse à l’estimation du rapport σ 12 σ 22 • 1)- Si les moyennes sont inconnues • On propose alors l’estimateur • Or (n − 1)S12 Y1 = 1 σ 12 (n2 − 1)S 22 Y2 = σ 22 • D’où S12 σ 12 S 22 σ 22 F S12 S 22 χ n2 −1 1 χ n2 −1 • Remarque : Pour des raisons de lecture des tables statistiques de Fisher, on choisi d’estimer le rapport (σ12/σ22) si (s12>s22); sinon on doit estimer le rapport (σ22/σ12). 2 (n1-1;n2-1) 1−α = S12 σ 12 P F1−α / 2;n1 −1,n2 −1 < 2 2 < Fα / 2;n1 −1,n2 −1 S2 σ 2 S12 σ 12 = P 2 F1−α / 2;n2 −1,n1 −1 < 2 < σ2 S2 2 S1 F α / 2; n2 −1, n1 −1 S 22 27