CHAPITRE XI RÉCAPITULATION DES PRINCIPAUX RÉSUMÉS SYNOPTIQUES Résumé du chapitre I (Statistique descriptive) ................................................498 Résumé du chapitre II (Introduction aux probabilités)....................................500 Résumé du chapitre III (Principales distributions théoriques) .......................502 Résumé du chapitre IV (Induction statistique sur moyenne et fréquence) ......504 Résumé du chapitre V (Introduction aux tests d’hypothèse) ..........................506 Résumé du chapitre VI (L’ajustement linéaire)...............................................508 Résumé du chapitre VII (Comparaisons d’échantillons).................................510 Résumé du chapitre IV (Induction statistique - cas de la variance) ................512 498 RÉSUMÉ DU CHAPITRE I - STATISTIQUE DESCRIPTIVE Calculette Statistique Calculette C = / 7 8 9 4 5 6 1 2 3 0 * Dans l’étude d’un ensemble de n éléments, chaque élément est caractérisé par… , Index plusieurs caractères Table ou 1 seul caractère qualitatif des un caractère peut être ou… quantitatif Matières • = à chaque élément j est associée une mesure xj. • La variable X désigne l’ensemble des valeurs prises par ce caractère quantitatif. • Si à plusieurs éléments j (en nombre ni) est associée la même mesure xi, l’ensemble des couples (xi, ni) définit la distribution statistique de la variable X. • La variable X peut être - continue (= susceptible de varier de façon continue) - ou discrète (= variant par «saut»). • = chaque élément possède ou non une qualité donnée; • les différentes qualités envisagées sont appelées modalités (en nombre r). Les éléments peuvent être groupés en classes de valeurs (en nombre r). • Le tableau qui donne la liste des n éléments avec leurs modalités (pour les caractères qualitatifs) et leurs valeurs de X (pour les caractères quantitatifs) est un tableau de données ponctuelles. • Le tableau qui donne: - soit les couples (xi, ni) pour les variables quantitatives, - les couples (i, ni) pour les variables qualitatives, s’appelle un tableau de distribution et décrit la partition de l’ensemble selon le caractère étudié. Observations faites à des dates différentes (ou sur des groupes différents) xt • indice élémentaire: I ( X ) t ⁄ t = ------1- × 100 xt 1 0 0 • indice synthétique pour résumer un ensemble d’indices élémentaires Indice des prix Indice de Paasche de Laspeyres Statistique appliquée à la gestion • On définit autant de partitions que de caractères. • Les tableaux de contingence sont les tableaux de distribution utilisés pour décrire un ensemble analysé à travers plusieurs caractères. n ∑ n p i, t q i, t 1 0 i=1 L ( p ) t ⁄ t = ----------------------------------n 1 0 ∑ j=1 n p j, t q j, t 0 0 ∑ pi, t1 q i, t1 =1 P ( p ) t ⁄ t = i----------------------------------n 1 0 ∑ j=1 des quantités p j, t q j, t 0 1 ∑ p i, t0 qi, t1 i =1 L ( q ) t ⁄ t = ----------------------------------n 1 0 ∑ j=1 n p j, t q j, t 0 0 ∑ p i, t1 q i, t1 i =1 P(q) = ----------------------------------t1 ⁄ t0 n ∑ j=1 p j, t q j, t 1 0 499 Calculette Statistique Calculette Problème : synthétiser les informations relatives à un ensemble d’éléments examinés dans l’optique de • Synthèse numérique: fréquences ni/n • Synthèse par l’image: - Diagramme à secteurs (rect. ou circ.) - Diagramme à barres - Courbe de Pareto ... qualitative ... graphique variable... ...quantitative 1,0 P(X ≤ xi) Fonction de répartition Graphique «boîtes à moustaches» xi Courbe de Pareto 1,0 xi ...dispersion Paramètres de... Tableau de données distribution ponctuelles • Moyenne: n ∑ x j (tableau de données ponctuelles) r i=1 p ∑ n i. ⋅ xi (tableau de contingence) i=1 • Médiane: Me = valeur de X telle qu’il y ait autant d’observations ayant une valeur inférieure (ou égale) à Me que d’observations ayant une valeur supérieure à Me : F(X≤Me) = 0,5. • Quartile: Q1 tel que F(X≤Q1) = 0,25 ; Q3 tel que F(X≤Q3) = 0,25 ; Q2 = Me • Mode: Mo = valeur de X dont la fréquence observée est maximale. • 1 COV ( X, Y ) = --n i=1 2 r = ∑ fi ( xi – x ) 2 j=1 1 --n 1 --n n ∑ xj2 – x 2 r ∑ n i xi2 – x 2 i=1 r = ∑ fi xi2 – x2 j=1 • Écart-type σ = σ • Coefficient de variation: σ / x • Intervalle interquartile: Q3 - Q1 n x i y i – x ⋅ y (tableau de données ponctuelles) i=1 p q - COV ( X, Y ) = 1--n- ∑ ∑ nij x i yj – x ⋅ y (tableau de contingence) i = 1j = 1 z = ax + by Z = aX + bY ⇒ 2 2 V ( Z ) = a V ( X ) + b V ( Y ) + 2abCOV ( X ,Y ) ∑ n ∑( xj – x ) i=1 • Calcul de la covariance entre X et Y: - 1 --n 1 --- ∑n i ( x i – x ) 2 n i=1 calcul 1 x = --n ∑ f i x i (tableau de distribution) définition r j=1 relation de - Table des Fonction de répartition • Variance: V(X) ou σ2 : ∑ , xi sans classes de valeurs X P(X<xi) étude d’une seule variable oui ..tendance centrale i=1 3 P(X ≤ xi) X xi non ni xi = 2 Courbe de densité de probabilité P(X ≤ xi) xi X avec classes de valeurs 1,0 - 1 * 2 X Récapitulation des principaux résumés synoptiques Chapitre III Fi variable continue Courbe des fréquences cumulées r 6 Matières xi 1 x = --n 9 5 Index synthèse... ... par des paramètres Histogramme ni ou fi Diagramme en bâtons 1 x = --n / 8 4 0 Variable discrète - C = 7 500 RÉSUMÉ DU CHAPITRE II - INTRODUCTION AUX PROBABILITÉS Calculette Statistique Calculette C = / 7 8 9 4 5 6 1 2 3 0 Une épreuve est une expérience ou un processus dont le résultat est incertain. Une épreuve peut être. * , Index Table des Matières Soit un ensemble physique de n éléments sur lequel sont définies 1 ou plusieurs partitions correspondant à des caractères qualitatifs ou quantitatifs (variable discrète, et classes de valeurs en cas de variable continue). Cet ensemble peut être décrit par un tableau de contingence (si 2 partitions ou plus). La probabilité P(E) de l’événement E se définit correctement en cas de tirage aléatoire dans l’ensemble (⇒ équiprobabilité de tirage de tous les éléments) comme: de cas favorablesP ( E ) = Nombre ------------------------------------------------------------Nombre de cas possibles Statistique appliquée à la gestion THÉORÈMES DE PROBABILITÉ non exclusifs E1 et E2 sont exclusifs Définition de l’exclusivité (ou incompatibilité) de E1 et E2 : P (E1 et E2) = 0 P (E1 ou E2) = P (E1) + P (E2) - P (E1 et E2) (Théorème des probabilités totales) E1 et E2 sont dépendants indépendants Définition de l’indépendance entre E1 et E2 : P (E2/E1) = P (E2) ou P (E1/E2) = P (E1) P(E1 et E2) = P(E1).P(E2/E1) = P(E2).P(E1/E2) (Théorème des probabilités composées) P(E1/E2) = P (E1 et E2) / P(E2) P(E2/E1) = P (E1 et E2) / P(E1) … unique ou Définition de l’épreuve: tirer au hasard un élément de l’ensemble. Résultat de l’épreuve: constitué par l’ensemble des caractéristiques physiques observables sur l’élément tiré. • Au vu du résultat de l’épreuve, on dit que l’événement E se produit ou non. • E est défini par la réalisation d’un événement élémentaire ou par la « combinaison » de plusieurs événements élémentaires Ei. • Les événements élémentaires correspondent à la réalisation de l’une des modalités de l’un des caractères retenus. • Les «combinaisons» d’événements s’effectuent à partir des relations « et » et «ou»: E = E1 et E2 ; E = E1 ou E2 (E1 et E2 sont des modalités de caractères différents, pour que E ne soit pas impossible). • On définit également E = E1/E2 comme la réalisation de l’événement E1, sachant que l’événement E2 est déjà réalisé. • Si E est l'événement X = xi, et pi sa probabilité de réalisation, l'ensemble des couples (xi, pi) définit la variable aléatoire X. • Cette distribution des valeurs de X est résumable par des paramètres, les probabilités jouant le même rôle que les fréquences; la moyenne est appelée espérance mathématique et est notée E (X). • S’il existe une formule mathématique permettant de calculer pi à partir de xi, on parle de modèle statistique. Ei et Ej (ou Ek) étant des modalités de 2 caractères ≠: P ( Ej ⁄ Ei ) ⋅ P ( Ei ) P ( Ei ⁄ E j ) = ---------------------------------------------------r ∑ P ( Ej ⁄ Ek ) ⋅ P ( Ek ) Théorème de Bayes k=1 Les variables aléatoires X et Y sont indépendantes si les événements X = xi et Y = yj sont indépendants quels que soient i et j; leur covariance COV (X, Y) est alors nulle. 501 Calculette Statistique Calculette C = / 7 8 9 4 5 6 1 2 3 0 … constituée de plusieurs épreuves élémentaires * , Index Table des Matières Ensemble physique n’existant pas; 3 causes: • À chaque épreuve élémentaire, on associe un ensemble d’événements élémentaires exclusifs. On définit donc une partition par épreuve élémentaire. • L’événement est défini à partir d’une «combinaison» d’événements élémentaires (comme dans le cas d’une épreuve unique). Sa probabilité se calcule à partir des théorèmes de probabilités et des résultats à des problèmes de dénombrement. Problèmes de dénombrement • nombre Pn de permutations (nombre de mots différents de k lettres différentes, à partir d’un alphabet de n = k lettres différentes): Pn = k! • nombre A nk d’arrangements (nombre de mots différents de k lettres différentes, à partir d’un alphabet de n lettres différentes): k n! A n = -----------------( n – k )! • nombre C nk de combinaisons (nombre de groupes différents de k lettres différentes, à partir d’un alphabet de n lettres différentes): k n! C n = -----------------------( n – k )! k! E( Y) = k ⋅ E( X) Y = k ⋅ X ⇒ V ( Y ) = k2 ⋅ V ( X ) E(Z) = a ⋅ E(X) + b ⋅ E(Y) Z = aX + bY ⇒ 2 2 V(Z) = a V(X) + b V(Y) + 2abCOV ( X ,Y ) Récapitulation des principaux résumés synoptiques Chapitre III • non-matérialité des éléments de l’ensemble: matérialisation par liste des résultats possibles (faire très attention à leur équiprobabilité et se ramener au cas de l’ensemble physique), • référence au passé: P(E) = fréquence observée sur le passé, • probabilité subjective définie a priori comme la «chance» que l’on donne à la réalisation de E. 502 RÉSUMÉ DU CHAPITRE III - LES PRINCIPALES DISTIBUTIONS Calculette Statistique Calculette C = / 7 8 9 4 5 6 1 2 3 0 LOI BINOMIALE B (n ; p) * , Index Table des Matières x x FORME DE LA LOI n–x n! x Cn ⋅ p ⋅ ( 1 – p ) = --------------------------- ⋅ p ⋅ ( 1 – p ) x! ⋅ ( n – x )! x l P( f n = f = --n- ) ≡ P(X = x): loi Binomiale en proportion l P(X = x) = n–x PROPRIÉTÉS DE LA LOI E(X) = n . p V(X) = n . p . (1 – p) p ⋅ (1 – p) V(fn) = -----------------------E(fn) = p n L (X1) = B (n1 ; p) L (X2) = B (n2 ; p) ⇒L (X1+X2) = B (n1+n2 ; p) APPROXIMATION n . p . (1 - p) ≅ n . p OUI Statistique appliquée à la gestion L (X) = B (n ; p) ≅ P (n . p) oui NON n . p . (1 - p) ≅ n . (1 - p) L (n - X) = B {n ; (1 - p)} ≅ P {n . (1 - p)} NON pas de bonne approximation LOI de POISSON P (λ) GÉNÉRATION ET SYMBOLES UTILISÉS processus de Poisson Génération approximation d’une loi Binomiale λ: paramètre de Poisson { FORME DE LA LOI x –λ λ P(X = x) = e ⋅ ----x! PROPRIÉTÉS DE LA LOI E(X) = V(X) = λ P(X = x ) - = λ ---------------------------P(X = x – 1 ) x L (X1) = P (λ1) L (X2) = P (λ2) dans la reconnaissance } utilisées empirique d’une loi de Poisson ⇒L (X1+X2) = P (λ1+λ2) LOI DE STUDENT APPROXIMATION λ > 20 ⇒ L (X) = P (λ) ≅ N (λ, λ ) L ( X ) = S t ν ( x, σ ) • Symboles: - les mêmes que ceux de la loi Normale, plus ν (= nombre de degrés de liberté), - loi continue tabulée utilisée pour l’estimation dans les petits échantillons. • Approximation: ν > 30 ⇒ St ν ( x, σ ) ≅ N ( x, σ ) . • Remarques sur les problèmes possibles: 5 données interviennent: α, sance de 4 d’entre elles engendre celle de la 5e. x , σ, xα, ν; la connais- THÉORIQUES. 503 Calculette Statistique Calculette LOI BINOMIALE B (n ; p) GÉNÉRATION ET SYMBOLES UTILISÉS C = / 7 8 9 4 5 6 1 2 3 0 n = nombre d’épreuves indépendantes de même type l p = probabilité de réalisation de l’événement étudié, au cours de l’une quelconque des épreuves l X = variable aléatoire définie comme le nombre observable de réalisations de l’événement étudié au cours des n épreuves (0 ≤ X ≤ n) ⇒ variable aléatoire n – X = nombre observable de non-réalisations de l’événement étudié au cours des n épreuves (0 ≤ n –X ≤ n) l fn = X/n = variable aléatoire définie comme la fréquence observable d’épreuves conduisant à la réalisation de l’événement (0 ≤ fn ≤ 1) lx = nombre de réalisations de l’événement étudié au cours des n épreuves lf = x / n = fréquence observée de réalisation de l’événement étudié au cours des n épreuves l * , Index Table des Matières NON 1p - – 1----------– p- ⋅ ---------------< 0, 3 1–p p n n > 5 ET OUI ( 1 – p -) } L (X) = B (n ; p) ≅ N {n p ; np ( 1 – p ) } L (fn) = B (n ; p) ≅ N {p ; p------------------n LOI NORMALE: L ( X ) = N ( x, σ ) GÉNÉRATION ET SYMBOLES UTILISÉS • X = variable aléatoire continue de moyenne x et d’écart-type σ; – ∞< X < + ∞ • effet d’un très grand nombre de causes indépendantes, à effets additifs, chacune d’entre elles ayant un effet négligeable par rapport à l’ensemble des autres. • X–x T = ------------ ; variable centrée réduite associée à X; de moyenne t σ = 0 et d’écart-type = 1 FORME DE LA LOI xα 1 P ( X < x α ) = -------------- ∫ e σ 2π x–x 2 – ⎛ -----------⎞ ⁄ 2 ⎝ σ ⎠ dx = α ; loi tabulée. –∞ • • x = Me = Mo ; courbe symétrique par rapport à un axe perpendiculaire à x L ( X 1 ) = N ( x 1 ;σ 1 ) ⇒ L ( X ) = L ( X 1 ± X 2 ) = N ( [ x 1 ± x 2 ] ; σ 12 + σ 22 ) ; généL ( X 2 ) = N ( x 2 ;σ 2 ) ralisable à la somme d’un nombre quelconque de variables suivant une loi Normale. • Théorème de la limite centrale: n n Y = ∑ X i ⇒ L ( Y ) = N ( m ;σ ), avec m = ∑ x i et i=1 i=1 n σ2 = ∑ σ i2 si n ≥ 30. i=1 • loi remplacée par la loi de Student lorsque σ est estimé (cf. chapitre IV) • Remarques sur les problèmes possibles: 4 données interviennent: α, x , σ, xα ; la connaissance de 3 d’entre elles engendre celle de la 4e. Récapitulation des principaux résumés synoptiques Chapitre III APPROXIMATION 504 RÉSUMÉ DU CHAPITRE IV - L’INDUCTION STATISTIQUE. Calculette Statistique Calculette C = / 7 8 9 4 5 6 1 2 3 0 * Un échantillon de n éléments se définit comme l’un des sous-ensembles possibles tiré d’une population-mère de N éléments , VARIABLES Index ALÉATOIRES Table CARACTÈRES Matières QUALITATIFS QUANTITATIFS des CERTAINES N M s n m s N p n f X, mn, sn σ*2=V(mn) fn σ*2=V(fn) Statistique appliquée à la gestion Un tirage est dit exhaustif lorsque l’on prélève les éléments simultanément, ou successivement sans remise de l’élément qui vient d’être tiré dans la population-mère. • Un échantillon aléatoire est composé d’éléments tirés «au hasard» dans la population-mère, c’est-à-dire ayant tous la même probabilité a priori d’appartenir à l’échantillon; cette égalité de chance suppose un recensement préalable (= base de sondage) de la population-mère. • Les sondages aléatoires sont à un degré (utilisation de table de nombres au hasard, tirage systématique) ou à plusieurs degrés. • Les échantillons empiriques (méthodes des quotas…) sont utilisés en l’absence de base de sondage et, en toute rigueur, ne permettent pas de jugement en probabilité. n • Il existe C N échantillons différents de taille n, tirés d’une population de taille N. Chacun est caractérisable par des paramètres. • La distribution d’échantillonnage d’un paramètre donné (ex.: x ) est la distribution statistique de ce paramètre dans tous les échantillons possibles de taille n, ce qui permet de définir la variable aléatoire x n (ou mn) lorsque le tirage est aléatoire. • Cette distribution d’échantillonnage du paramètre étudié peut à son tour être caractérisée par des paramètres, comme toute distribution statistique. • Il ne faut pas confondre, pour une variable quantitative, la variance de la population-mère ( σ 2 ), la variance observée sur un échantillon donné ( s 2 ) et la variance de la distribution 2 d’échantillonnage des moyennes observables dans un échantillon ( σ* ). • L’estimateur θ̂ n est une approximation d’un paramètre inconnu θ de la population-mère, à partir des données d’un échantillon aléatoire de taille n. • Une estimation ponctuelle est la valeur prise par un estimateur dans un échantillon particulier. • Principales qualités d’un estimateur: - sans biais: E ( θ̂ n ) = θ = estimateur absolument correct - convergent: V( θ̂ n )→0 si n→N = estimateur efficace - à variance V( θ̂ n ) minimale dans les échantillons de taille n • Principales estimations à utiliser: p̂ = f; M̂ ns 2 n–1 = m; σ̂ 2 = ------------ 505 Calculette Statistique Calculette C = / 7 8 9 4 5 6 1 2 3 0 non oui échantillon aléatoire Pas de jugement probabiliste de l’estimation L (X) = non L (X) = B (n,p) oui Rien à faire non N P(λ) n > 5 et non Application directe de L (nmn) =P(nλ) non p 1 –p 1 ------------ – ------------ ------- < 0,3 non 1 –p p n oui non non n > 30 oui oui n . p . (1 – p) ≅ n . p L (X) = B (n; p) ≅ P (n . p) Rien à faire Application du théorème de la limite centrale σ2 nλ > 20 L (mn) = N (M, σ∗) ) σ̂∗ L (fn) = N (p, σ∗) ... quantitative variable… ...qualitative 2 σ = ---- σ̂∗ 2 s = --------n–1 n 2 σ̂∗ 2 p(1 – p) = ----------------n p̂ ( 1 – p̂ ) = ---------------n–1 p = 0,5 calcul par excès St ≅ N Application directe de St n–1 L (M) = N (m, σ∗) p̂ = f L (p) = N ( p̂, σ∗) CALCUL DE σ* non ... quantitative variable... ...qualitative oui p connu? non oui σ connu? non σ∗ 2 L (M) = Stn–1(m, σ∗) pour le calcul de σ* Application directe de B(n,p) rage avec remise? σ∗ 2 Application du théorème de la limite centrale oui n > 30 non oui Population-mère infinie ou ti- oui non σ connu? non non Utilisation d’abaques oui σ connu non Application directe de St n–1 St ≅ N 1 f -– 1 – f- ------ < 0,3 ------------------non 1–f f n Application directe de L (nmn) =P(nλ) L (n – X) = B {n; (1 – p)} ≅ P {n . (1 – p)} oui n > 30 non n > 5 et n > 30 non Rien à faire non σ̂ = λ̂ oui L (mn) = St (M, n–1 =λ oui non L (X) = B (n, p)oui ? n . p . (1 – p) ≅ n . (1 – p) oui σ connu? non Matières 2 σ∗ 2 = N–n ------------N–1 σ ⋅ ---- σ̂∗ 2 = N–n ------------N s ⋅ --------n–1 oui p connu? non σ∗ 2 n 2 σ̂∗ 2 (1 – p) – n- ⋅ p---------------------------= N n N–1 p̂ ( 1 – p̂ ) – n- ⋅ ------------------------= N N n–1 Récapitulation des principaux résumés synoptiques Chapitre III nλ > 20 variable... ... qualitative ...quantitative oui oui ... qualitative oui ? P(λ) N ... l’échantillon Appel à la théorie de l’estimation. Les résultats sont présentés sous une forme propre à l’utilisation car M et p sont en fait des variables certaines Appel à la théorie de la distribution d’échantillonnage L (X) = Table des Problème: quelle «fourchette» de valeurs attendre dans la population-mère? Problème: quelle «fourchette» de valeurs attendre dans l’échantillon? ...quantitative variable... , Index est connue la principale caractéristique de tendance centrale de ... ...la population-mère * 506 RÉSUMÉ DU CHAPITRE V - INTRODUCTION À LA THÉORIE Calculette Statistique Calculette C = / 7 8 9 4 5 6 1 2 3 0 * , problème: Décider de la valeur d’un paramètre de la population-mère, à choisir entre 2 hypothèses, à partir des observations faites sur un échantillon Index ...quantitative ... qualitative variable... Table des Matières recherche de σ ou recherche de M oui Non traité non L(X) = N (M,σ) oui n > 30 Application du théorème de la limite centrale X mn N σ0 ou σ1 M0 ou M1 n m s2 Rien à faire N1 (M1 ; σ 1*) RÉALITÉ: H0 RÉALITÉ: H1 β tβ 0 N0 (M0 ; σ 0*) α 0 M0 DÉCISION: ACCEPTER H0 mn – M0 T = -------------------σ 0* M1 tα π mn – M1 T = -------------------σ 1* DÉCISION: ACCEPTER H1 mn • Ici H0 est associé à la moyenne la plus faible; la figure est à adapter au cas inverse • Double problème de distribution d’échantillonnage, chaque problème étant caractérisé par 5 paramètres, dont 2 communs: - le premier, où interviennent: M0, σ0, α, n, π, - le second, où interviennent: M1, σ1, β, n, π. n ⋅ s 2 ) et la loi Normale est rem= ---------------(n – 1) placée par la loi de Student à ν = n – 1 degrés de liberté. • si σ = σ0 = σ1 = ?, alors estimation de σ ( σ̂ Variables aléa-Variables certaines toires L(X)=B ≅N L(fn)=B ≅N N p0 ou p1 n f RÉALITÉ: H0 RÉALITÉ: H1 Statistique appliquée à la gestion V a r i a b l e s Variables certaines aléatoires non 2 N1 (p1 ; σ 1*) β tβ 0 fn – p1 T = --------------σ 1* N0 (p0 ; σ 0*) fn – p0 tα T = --------------σ 0* p1 α 0 p0 DÉCISION: ACCEPTER H0 π DÉCISION: ACCEPTER H1 fn • Ici H0 est associé à la proportion la plus faible; la figure est à adapter au cas inverse • Double problème de distribution d’échantillonnage, chaque problème étant caractérisé par 4 paramètres, dont 2 communs: - le premier, où interviennent: p0, α, n, π, - le second, où interviennent: p1, β, n, π. 507 DES TESTS. Calculette Statistique Calculette Problème: choisir, à partir de données fournies par un échantillon, la population-mère, d’où l’échantillon est tiré, parmi 2 possibles. Chaque population-mère est caractérisée par une valeur différente d’un paramètre donné ou par une distribution statistique. C = / 7 8 9 4 5 6 1 2 3 0 * , Index Table des DÉCISION H0 est rejetée au profit de H1 Choix erroné (= erreur de première H0 Choix correct avec une probabilité espèce), avec une probabilité α (= (1 – α) risque de première espèce) H1 Choix erroné (= erreur de seconde Choix correct avec une probabilité espèce), avec une probabilité β (1 – β) (= risque de seconde espèce) Problème : Peut-on, avec un risque d’erreur α, rejeter l’hypothèse H0 selon laquelle une distribution observée est tirée d’une population-mère caractérisée par une distribution théorique, donnée ou estimée? ... qualitative variable... Distribution de r effectifs observés ni, à partir d’une partition à r modalités (⇒ ν = r – 1) ou d’un produit de partitions à s et q modalités (⇒ ν = (s – 1) (q – 1)) ...quantitative oui L (X) = N non Test (graphique) de Lilliefors Définition de r classes de valeurs (permettant d’observer r effectifs) d’une loi théorique caractérisée par des paramètres connus a priori et/ou u paramètres estimés dans l’échantillon (⇒ ν = r – u – 1) oui Il existe 1 ou plusieurs npi < 5 non non Il existe 1 ou plusieurs npi < 5 oui Effectuer des groupements Effectuer des groupements Distributions théoriques de r probabilités pi et de r effectifs théoriques npi Lecture de χ α2 r pour le risque α et ν degrés de liberté 2 = χ cal ∑ i=1 oui Non rejet de H0 avec un risque d’erreur de seconde espèce β inconnu 2 <χ 2 χ cal α ( n i – np i ) 2 --------------------------np i non Rejet de H0 avec un risque d’erreur α Récapitulation des principaux résumés synoptiques Chapitre III RÉALITÉ H0 est retenue Matières 508 RÉSUMÉ DU CHAPITRE VI- L’AJUSTEMENT LINÉAIRE. Calculette Statistique Calculette C = / 7 8 9 4 5 6 1 2 3 0 Etude simultanée de 2 caractères quantitatifs ⇒ observation de n couples (xi, yi) ou de triplets (xi, yj, nij), avec dépendance causale de X sur Y postulée pour des motifs d’ordre extra-statistique. * , Index Table non les n observations sont considérées comme constituant un échantillon des Matières yi oui ŷ i b Y ei = ax i + b oui la dépendance causale se traduit par la liaison: yi = axi + b + ei (régression linéaire de Y en X) où X et Y peuvent éventuellement avoir subi préalablement une transformation (élévation à une puissance, logarithme…) non xi Régression non linéaire: non traité Problème: recherche d’une valeur pour a et b (car une infinité de droites peuvent prétendre, chacune d’entre elles, résumer correctement le nuage de points). Un critère de choix possible peut être de trouver le couple (a, b) qui rend minimum tableau de données ponctuelles: n 1--COV ( X, Y ) = ( y – y ) ( xi – x ) n ∑ i méthode des moindres carrés: Résultats analytiques Statistique appliquée à la gestion n ( X, Y -) a = COV --------------------------V(X) avec ∑ e i2 ⇒ i=1 i= n1 1 = --- ∑ x i y i – xy n i=1 tableau de contingence: p q 1 COV ( X, Y ) = --- ∑ ∑ n ij ( x i – x ) ( y j – y ) n b = y – ax i = 1pj = 1q 1 = --- ∑ ∑ n ij x i y j – x ⋅ y n i = 1j = 1 Problème : analyse de la «qualité» de la liaison linéaire . variance totale = variance-résiduelle + variance expliquée: V ( Y ) ≡ σ y2 = σ r2 + σ e2 . Variance résiduelle: σ r2 n n i=1 i=1 2 1 1 = --- ∑ e i2 = --- ∑ [ y i – ( ax i + b ) ] 2 = ( 1 – r )σ y2 n n . Coefficient de détermination: . Coefficient de corrélation: σ2 [ COV ( X, Y ) ] 2 r 2 = ------------------------------------ = -----eV(X) ⋅ V(Y) σ y2 1--x ⋅ y – xy COV ( X, Y ) - = ------------------------------------------------------------------n∑ i i r = --------------------------------V(X) ⋅ V(Y) ⎛ 1--- x 2 – x 2⎞ ⎛ 1--- y 2 – y 2⎞ ⎝n∑ i ⎠ ⎝n∑ i ⎠ . Graphique des résidus standardisés e ⁄ σ en fonction des xi, pour détecter d’éventuelles erreurs de spéi r cification et/ou des points aberrants. 509 Calculette Statistique Calculette C = / 7 8 9 4 5 6 1 2 3 0 * , Index Table des Matières • • • • • • - variables mesurées sans erreur - absence de biais systématique: E(εi) = 0 - absence de liaison entre les écarts: COV(εi,εj) = 0, pour tout couple i,j - dispersion identique autour de yi : V(εi) = σ, pour tout i , εi an bn permet d’affirmer que: = a et β̂ = b ; - α̂ r n2 ∑ e i2 Variables certaines N yi = αxi + β + εi ρ2 n yi = axi+b+ei r2 n estimateurs absolument corrects et efficaces n–2 n–2 (1 – r2 )(n – 1 ) - ρ̂ 2 = 1 – ----------------------------------- : estimateur correct n–2 - σ̂ 2 = ------------ = ------------ ( 1 – r 2 )V ( Y ) L’hypothèse selon laquelle L(εi) = N (0, σ) permet de fournir des estimations par intervalle de confiance. Appel à la théorie de l’estimation.Les résultats sont présentés sous une forme propre à l’utilisation car α et β sont en fait des variables certaines • L ( α ) = St n – 2 ( a, σ̂ a ) avec n σ̂ a = n σ̂ 2 ----------------------------- = n ∑ ( xi – x )2 ( 1 – r2 )V( Y ) -------------------------------(n – 2)V(X) i=1 n σ̂ 2 • L ( β ) = St n – 2 ( b, σ̂ b ) avec σ̂ b = n n ˆ • L ( y j ) = St n – 2 ( a ⋅ x j + b, σ̂ j ) avec ∑ x i2 1 – r 2 )V ( Y ) [ V( X )+ x 2 ] i = 1 - = (--------------------------------------------------------n ( n – 2 )V ( X ) 2 n ∑( x i – x ) i=1 ( xj – x ) 2 1 1 – r 2 )V ( Y ) [ ( 1 + n )V( X )+ ( x – x ) 2 ] σ̂ j = σ̂ 1 + --- + ------------------------------ = (------------------------------j n n ( n – 2 )V ( X ) ∑ ( xi – x )2 i=1 [ 2 ( r – t .s ) ] [ 2 ( r + t .s ) ] α α ⎛– 1 + e ⎞ –1+e 1 4 – r2 ---------------------------------------------------------------------------------• P⎜ =1-2α, avec s = ---------- +--------------------- et n>11 <ρ< ⎟ [ 2 ( r + t α .s ) ] ⎠ n – 1 2( n – 1)2 ⎝ 1 + e [ 2 ( r – t α .s ) ] 1+e • ρ2 est significativement différent de 0 si la pente α l’est aussi. Récapitulation des principaux résumés synoptiques Chapitre III Variables aléatoires Une première série de 4 hypothèses: 510 Calculette Statistique Calculette C = / 7 8 9 4 5 6 1 2 3 0 RÉSUMÉ DU CHAPITRE VII - COMPARAISON D’ÉCHANTILLONS TESTS PARAMÉTRIQUES ... moyennes * oui , Index non 2 échantillons (aléatoires) de taille n1 et n2 ? ... d’estimation Problème ... ... de distribution d’échantillonnage ... variances Comparaison de... Table des Matières Problème: (M1-M2) supposé connu ou postulé: Δ = m n1 – mn2 = ? Problème: Δ = M 1 – M2 = ? Appel à la théorie de l’estimation. Les résultats sont présentés sous une forme propre à l’utilisation car M1 et M2 sont en fait des variables certaines Appel à la théorie de la distribution d’échantillonnage oui L (X1) et L (X2) = N non oui n et n > 30 non 1 oui 2 Tests non paramétriques Application du théorème de la limite centrale Non traité Application du théorème de la limite centrale oui σ et σ connus ? non 1 2 oui σ et σ connus ? non 1 2 Statistique appliquée à la gestion oui σ1 = σ2 ? non ν = n1 + n 2– 2 oui L ( M 1 – M 2 ) = N ( m 1 – m 2, σ Δ* ) oui s 12 ⁄ n 1 – 1 + s 22 ⁄ n 2 – 1 2 ν = ------------------------------------------------------------------3 3 4 s 1 ⁄ ( n 1 – 1 ) + s 24 ⁄ ( n 2 – 1 ) ν = n1 + n2 – 2 n1 et n2 > 30 non oui L ( m n – m n ) = St ν ( M 1 – 1 2 s 12 ⁄ n 1 – 1 + s 22 ⁄ n 2 – 1 2 ν = ------------------------------------------------------------------3 3 4 s 1 ⁄ ( n 1 – 1 ) + s 24 ⁄ ( n 2 – 1 ) L ( M 1 – M 2 ) = St ν ( m 1 – m 2, σ̂ Δ* ) L ( M 1 – M 2 ) = N ( m 1 – m 2, σ̂ Δ* ) 2 oui σ et σ connus ? non 1 2 oui σ = σ ? non oui σ = σ ? non 1 2 1 2 1 1 σ Δ* = σ ----- + ----n1 n2 σ Δ* = σ1 = σ2 ? non n1 et n2 > 30 non M 2, σ̂ Δ* ) L ( m n – m n )= N ( M 1 – M 2, σ Δ* ) 1 non L (X1) et L (X2) = N oui n et n > 30 non 1 2 σ 12 σ 22 ------ + -----n1 n2 Détermination de σ Δ* ou de σ̂ Δ* σ̂ Δ* = σ̂ 12 σ̂ 22 ------ + ------ = n1 n2 1 1 σ̂ Δ* = σ̂ ----- + ----- = n1 n2 oui s2 s2 1 2 ------------- + ------------n1 – 1 n2 – 1 L (X) = N ? non Tests non paramétriques (non présentés) n 1 s 12 + n 2 s 22 1 1 --------------------------- ----- + ----n1 + n2 – 2 n1 n2 Analyse de la variance où chaque échantillon correspond à un caractère qualitatif (⇒ tableau mixte «variables qualitatives / variables quantitatives») Problème: les moyennes des échantillons sont-elles significativement différentes ? oui 1 seul facteur contrôlé Source de Somme des carrés variation k Facteur conS A2 = ∑ n j ( x . j – x .. ) 2 trôlé j=1 (inter-classes) nj Résiduelle k (intra-clas- S r2 = ∑ ∑ ( xij – x . j ) 2 j = 1i = 1 ses) nj Totale k S T2 = ∑ ∑ ( x ij – x .. ) 2 j = 1i = 1 non n-k n-1 oui non non traité Degrés Estimation de σ2 de liberté k-1 2 échantillons aléatoires tirés de populations-mères où L (X) = N ? Problème: σ1 = σ2 ? F n 1 ⋅ s n2 σ̂ 12 = ----------------1n1 – 1 S A2 σ̂ A2 = -----------k–1 S r2 σ̂ r2 = ----------n–k S T2 σ̂ T2 = ----------n–k σ̂ A2 F = -----σ̂ r2 n 2 ⋅ s n2 σ̂ 22 = ----------------2n2 – 1 Fν - 1, ν 2 L ( F ) = Fν σ̂ 12 σ 22 = -----2- ⋅ -----2σ̂ 2 σ 1 1 = n 1 – 1,ν 2 = n 2 – 1 511 RÉSUMÉ DU CHAPITRE VII - COMPARAISON D’ÉCHANTILLONS TESTS NON PARAMÉTRIQUES OUI variables quantitatives ? Calculette Statistique Calculette NON C = / 7 8 9 4 5 6 1 2 3 0 échantillons aléatoires ? OUI Pas de jugement probabiliste NON 2 échantillons aléatoires ? • 2 échantillons appariés (témoin/traité) X1 et Test du χ2 X2(⇒Δi = x1i -x2i, avec i = 1, ..., n) OUI non traité NON Observations des 2 échantillons appariées ? OUI • 2 échantillons (témoin/traité) ⇒ X1 (x1i, avec i = 1, ..., n1) et X2 (x2j, avec j = 1, ..., n2) avec n 1 ≤ n2 • 2 Hypothèses: - H0 : échantillons tirés d’une même popula- • 2 Hypothèses: - H0 : échantillons tirés d’une même population (⇒ traitement inefficace, E(Δ) = 0, signe de Δi aléatoire et l’échantillon 1 est l’un des 2n échantillons équiprobables) - H1 : échantillons significativement différents (traitement efficace) ; ⇒ H1 défini soit par M1<M2 soit par M1>M2 • Choix a priori du risque α de rejet à tort de H0, OUI Spécifications des lois des variables aléatoires ou n1 et n2>30 tion (⇒ traitement inefficace et l’échan- Spécifications des lois des variables aléatoires ou n1 et n2>30 NON OUI ou Test sur les rangs Test fishérien Test de Wilcoxon • Ri = rang de i défini sur l’ensemble des ⎮Δi⎮; si peu d’ex aequo alors remplacer le rang des ex aequo par le rang moyen du groupe d’ex aequo • Remplacer Ri par 0 si Δi < 0 n + • T cal = ∑ R i comparé à: i=1 Test paramétrique sur • valeur tabulée de la distribution théorique de T+ à partir de l’hypothèse d’équiprobabilité découlant m1 - m2 de H0 : - tables à l’annexe 11 Test fishérien Tests non paramétriques Test sur les rangs ou Test de Wilcoxon (Mann-Whitney) • R1i et R2i rang des x1i et x2i définis sur la réunion des 2 échantillons; si peu d’ex aequo alors remplacer le rang des ex aequo par le rang moyen du groupe d’ex aequo • W cal n1 = ∑ R1i comparé à: i=1 • valeur tabulée (annexe X) de la distribution théorique de W (à partir de l’hypothèse d’équiprobabilité découlant de H0); en outre: - P(W ≥ w’) = P(W ≤ w) avec: - w’ + w = n1 (n1 + n2 + 1) - si n1 et n2 >8 NON P(W≤Wcal)<α M1<M2 NON P(W≥Wcal)<α OUI P(T+≥ Tcal )<α + n1 n Scal = ∑ Δ i i=1 i=1 Calcul de la distribution théorique de S à partir de l’hypothèse d’équiprobabilité découlant de H0 M1<M2 NON NON Non rejet de H0 Rejet de H0 ⇒ Non rejet de H0 ⇒ traitement pré- traitement pré- ⇒ traitement présumé efficace sumé inefficace sumé inefficace H1= M1>M2 OUI 24 H1= M1>M2 P(T+≤ T cal )<α + Scal = ∑ x1i n1 ( n1 + n2 + 1 ) n1 n2 ( n1 + n2 + 1 ) L ( W ) ≅ N ------------------------------------- ; -----------------------------------------2 12 M1<M2 ( n + 1 -) n ( n + 1 ) ( 2n + 1 ) - si n >10 L ( T + ) ≅ N n------------------, ----------------------------------------4 NON P(S≤Scal)<α H1= M1>M2 OUI Index Table des Matières NON Tests non paramétriques n tillon 1 est l’un des C n1 + n échantillons 1 2 équiprobables); ⇒ M1 - M2 = 0 - H1 : échantillons significativement différents (traitement efficace) ; ⇒ H1 défini soit par M1<M2 soit par M1>M2 • Choix a priori du risque α de rejet à tort de H0, ce risque de première espèce étant le seul spécifié , P(S≥Scal)<α NON Non rejet de H0 Rejet de H0 ⇒ Non rejet de H0 Non rejet de H0 Rejet de H0 ⇒ Non rejet de H0 ⇒ traitement pré- traitement pré- ⇒ traitement pré- ⇒ traitement pré- traitement pré- ⇒ traitement présumé inefficace sumé efficace sumé inefficace sumé efficace sumé inefficace sumé inefficace Récapitulation des principaux résumés synoptiques Chapitre III NON * 512 INDUCTION STATISTIQUE - CAS DE LA VARIANCE (CHAPITRE IV) Calculette Statistique Calculette C = / 7 8 9 4 5 6 1 2 3 0 non * , RIEN À FAIRE la population-mère Index Table des Matières oui Échantillon aléatoire et L (X) = N est connue la variance de ... Problème: Quelle «fourchette» de valeurs de σ2 «attendre» dans l’échantillon? P ( s 12 < s n2 < s 22 ) = 1 – α → s 12 = ? ; s 22 = ? n ⎛ ( x i – M ) 2⎞ ⎜ ⎟ oui i------------------------------=1 ⎜ ⎟ = χ2 n ≤ 30 L n 2 ⎜ ⎟ ∑ ⎜ ⎝ σ ⎟ ⎠ Statistique appliquée à la gestion χ2 χ2 ν = n ; α1 ν = n ; α2 • K 1 = ------------------------ ; K 2 = -----------------------n n • valeurs de χ2 lues sur la table du χ2, pour ν = n degrés de liberté et α1 = 1 – α/2 et α2 = α/2 l’échantillon non 2 [ 2n – 3 – t α ⁄ 2 ] • K 1 = ---------------------------------------------2n 2 [ 2n – 3 + t ] α ⁄ 2 • K 2 = ---------------------------------------------2n • Valeur tα/2 lue sur la table 3-C P(T>tα/2) = α/2 P ( K 1 σ 2 < s n2 < K 2 σ 2 ) = 1 – α ...ponctuelle 2 σ̂ = ? 2 2 ns σ̂ = -----------n–1 se pose un problème d’estimation ... ...par intervalle de confiance Problème: Quelle «fourchette» de valeurs de σ2 «attendre» dans la population-mère? P ( σ 12 < σ 2 < σ 22 ) = 1 – α → σ 12 = ? ; σ 22 = ? n oui ⎛ 2⎞ ⎜ ∑ ( xi – m ) ⎟ ⎜ =1 ⎟ -⎟ = χ n2 – 1 L ⎜ i-------------------------------σ2 ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ non n ≤ 30 • K 1 = n ⁄ χ ν2 = n – 1 ; α 1 • K 2 = n ⁄ χ ν2 = n – 1 ; α 2 2 • valeurs de χ lues sur la table du χ2, pour ν = n – 1 degrés de liberté et α1 = 1 – α/2 et α1 = α/2 2n • K 1 = --------------------------------------------2 [ 2n – 3 – t α⁄2 ] 2n • K 2 = --------------------------------------------2 [ 2n – 3 – t α⁄2 ] • Valeur tα/2 lue sur table 3-C P(T>tα/2) = α/2 P ( K1 s 2 < σ 2 < K2 s2 ) = 1 – α