ICHEC - Gestion d’entreprise - BAC2 STAT 12UMQ10 VANAUVE Alexandre 1_PROBABILITÉS VANAUVE Alexandre Variable Aléatoire (VA) notée X 2 types: VA discrète VA continue → prend un nombre fini ou infini dénombrable de valeurs → peut prendre toutes les valeurs dans un intervalle donné loi de probabilité de la VA discrète X, notée PX est définie par: PX(x) = P(X=x) où • x ∈ X(Ω) • PX(x) ≥ 0, Vx ∈ X(Ω) • fonction de densité: telle que: • f(x)≥0 , Vx ∈ R • l’aire totale sous la courbe vaut 1 → (représentée par un diagramme en bâton) fonction de répartition définie par: fonction de répartition définie par: FX(x) = P(X≤x) (représentée par une courbe cumulative) pour l’aire entre 2 bornes: espérance (ou moyenne): la probabilité qu’une VA continue prenne une valeur isolée fixe est toujours nulle loi de probabilité de la VA continue X = donner l’expression de sa fonction de densité espérance (ou moyenne): généralisation (g est une fonction) généralisation (g est une fonction) variance: variance: propriétés: soient X et Y des VA et a et b des constantes, on a: • E(aX+b) = aE(X)+b • var(aX+b) = a2var(X) formule pratique pour le calcul de la variance: var(X) = E(X-E(X))2 = E(X2) - (E(X))2 loi binomiale: on répète une expérience aléatoire n fois dont le résultat est soit un succès de probabilité p, soit un échec de probabilité q=1-p X∼B(n;p) formule générale: ou: propriété: soit X une VA Bi(n;p) : • E(X) = np • var(X) = npq (représentée par un diagramme en bâton) loi normale: VA normale centrée réduite notée Z, sa fonction de densité est donnée par: → courbe de gauss / courbe normale • E(Z) = 0 • var(Z) = 1 notation: Z∼N(0;1) VA normale générale/quelconque de paramètres 𝞵 et 𝞼2 est une VA dont la fonction de répartition est donnée par: → courbe de gauss (symétrique en x= 𝞵) • E(Z) = 𝞵 • var(Z) = 𝞼2 notation: X∼N(𝞵;𝞼2) calcul: on revient à une N(0;1) 2_DISTRIBUTION D’ÉCHANTILLONNAGE VANAUVE Alexandre pour définir les paramètres d’une population entière, deux possibilités: - recensement individuel → impossible - échantillonnage on va donc estimer les paramètres soit O un paramètre quelconque inconnu soit Ô un estimateur de O Ô est un estimateur sans biais si E[Ô] = O Ô est un estimateur biaisé si E[Ô] = O + biais De plus, var[Ô] = E[(Ô-O)2] si l’estimateur est faible, l’écart sera faible et donc la variance petite; c’est un indicateur de précision ( <=> plus la variance est petite, plus la précision est grande) moyenne variance 𝞵 𝞼2 paramètre échantillon paramètre population est un estimateur sans biais pour 𝞵 → biais comment corriger ce biais? estimateur: EAS = Echantillon Aléatoire Simple, est un échantillon tel que chaque individu de la population a la même probabilité de se trouver dans cet échantillon Théorème Central Limite (n≥30) grand échantillon (n≥30) petit échantillon (n<30) soit x1, x2,…, xn une suite de VA indépendantes et identiquement distribuées (iid) de loi quelconque de moyenne 𝞵 et de variance 𝞼2 soit x1, x2,…, xn une suite de VA iid de loi normale de moyenne 𝞵 et de variance 𝞼2 ≈ approximativement Student à n-1 degrés de liberté 3_ESTIMATION PAR INTERVALLE DE CONFIANCE VANAUVE Alexandre moyenne population 𝞵 proportion de population grand échantillon (n≥30) trouver les bornes T1 et T2 → on cherche à avoir un intervalle le plus petit possible 𝝰 = niveau de signification (1%, 5%, 10%) → fixé 1 - 𝝰 = niveau de confiance (99%, 95%, 90%) soit x1, x2,…, xn une suite de v.a. iid de loi quelconque de moyenne 𝞵 et de variance 𝞼2 (𝞵 et 𝞼2 sont des paramètres inconnus) petit échantillon (n<30) d’office grand échantillon (n≥30) soit x1, x2,…, xn une suite de v.a. iid de loi normale de moyenne 𝞵 et variable binaire/ dichotomique x est soit x1 (favorable avec une probabilité p), soit x2 (défavorable avec une probabilité q=1-p) soit x1, x2,…, xn une suite de v.a. iid de loi normale de moyenne 𝞵 et on peut démontrer que: on peut démontrer que: de variance 𝞼2 (𝞵 et 𝞼2 sont des paramètres inconnus) on peut démontrer on peut démontrer que: que: (student à n-1 degrés de liberté) selon TCL variance population 𝞼2 de variance 𝞼2 (𝞵 et 𝞼2 sont des paramètres inconnus) (chi-carré à n-1 degrés de liberté) 𝝰 = 1% z1- 𝝰/2 = z0,995 = 2,576 __________ 𝝰 = 5% z1- 𝝰/2 = z0,975 = 1,96 __________ 𝝰 = 10% 1-𝝰 -z1-𝝰/2 1-𝝰 z1-𝝰/2 -tn-1 ; 1-𝝰/2 1-𝝰 tn-1 ; 1-𝝰/2 au niveau de confiance 1 - 𝝰 𝑥 2 n-1 ; 𝝰/2 𝑥 2 n-1 ; 1 - 𝝰/2 isoler 𝞵 isoler 𝞵 isoler 𝞼2 au niveau de confiance 1 - 𝝰 au niveau de confiance 1 - 𝝰 au niveau de confiance 1 - 𝝰 z1- 𝝰/2 = z0,95 = 1,645 au niveau de confiance 1 - 𝝰 3_ESTIMATION PAR INTERVALLE DE CONFIANCE VANAUVE Alexandre Combien de personnes interroger? Quelle taille d’échantillon choisir? (= comment trouver n?) par exemple: IC pour une proportion de population p marge d’erreur / erreur d’estimation on fixe un niveau de confiance exemple: 95% ; 𝝰 = 5% ; z1-𝝰/2 = z0,975 = 1,96 ≃ 2 on prend f(x) = x(1-x) avec x ∈ [0;1] = x-x2 Max 1/2 on remplace p^ par 1/2 → cas le plus défavorable (plus grande marge d’erreur) <=> marge = √(0,5(1-0,5)/n) . 2 = √(1/n) = 1/√n on fixe la marge d’erreur (selon le commanditaire de l’étude) marge d’erreur: 10% 5% 1% 0,1% 0,10 = 1/√n 0,05 = 1/√n 0,01 = 1/√n 0,001 = 1/√n n = 100 n = 400 n = 10 000 n = 1 000 000 en général, on utilise une marge de 3% (environ 1 000 personnes interrogées) 4_TESTS D’HYPOTHÈSES VANAUVE Alexandre moyenne population 𝞵 grand échantillon (n≥30) H 0: H 1: 𝞵 = 𝞵0 𝞵 > 𝞵0 (I) 𝞵 ≠ 𝞵0 (II) 𝞵 < 𝞵0 (III) 𝞵0 est fixée H0 → hypothèse nulle H1 → contrehypothèse / alternative proportion de population petit échantillon (n<30) soit x1, x2,…, xn une suite de VA iid de loi quelconque de moyenne 𝞵 et de soit x1, x2,…, xn une suite de VA iid de loi normale de moyenne 𝞵 et de variance 𝞼2 variance 𝞼2 (𝞵 et 𝞼2 sont des paramètres inconnus) (𝞵 et 𝞼2 sont des paramètres inconnus) (student à n-1 degrés de liberté) d’office grand échantillon (n≥30) H 0: p = p0 H 1: p > p0 (I) p ≠ p0 (II) p < p0 (III) p0 est fixé H0 → hypothèse nulle H1 → contrehypothèse / alternative pour 𝝰 (niveau de signification) donné (1%, 5%, 10%) : (I) règles de décisions H1: 𝞵 > 𝞵0 - zone de rejet: - p-valeur: zobs -z1-𝝰/2 1-𝝰 règles de décisions - zone de rejet: - p-valeur: zobs z1-𝝰 Tobs 1-𝝰 -tn-1 ; 1-𝝰/2 (I) règles de décisions H1: p > p0 - zone de rejet: - p-valeur: Tobs tn-1 ; 1- 𝝰 zobs -z1-𝝰/2 1-𝝰 zobs z1-𝝰 p-valeur: P(z>zobs) avec Z ∼ N(0;1) p-valeur: P(T>Tobs) avec T ∼ tn-1 p-valeur: P(z>zobs) avec Z ∼ N(0;1) RH0 si p-valeur < 𝝰 RH0 si p-valeur < 𝝰 RH0 si p-valeur < 𝝰 4_TESTS D’HYPOTHÈSES (II) règles de décisions H1: 𝞵 ≠ 𝞵0 - zone de rejet: - p-valeur: zobs 1-𝝰 -z1-𝝰/2 règles de décisions - zone de rejet: - p-valeur: zobs z1-𝝰/2 Tobs 1-𝝰 -tn-1 ; 1-𝝰/2 (II) règles de décisions H1: p ≠ p0 - zone de rejet: - p-valeur: Tobs tn-1 ; 1-𝝰/2 zobs 1-𝝰 -z1-𝝰/2 zobs z1-𝝰/2 si zobs > 0 : p-valeur: P(z>zobs) avec Z ∼ N(0;1) si Tobs > 0 p-valeur: P(T>Tobs) avec T ∼ tn-1 si zobs > 0 : p-valeur: P(z>zobs) avec Z ∼ N(0;1) si zobs < 0 : p-valeur: P(z<zobs) avec Z ∼ N(0;1) si Tobs < 0 p-valeur: P(T<Tobs) avec T ∼ tn-1 si zobs < 0 : p-valeur: P(z<zobs) avec Z ∼ N(0;1) RH0 si p-valeur < 𝝰/2 RH0 si p-valeur < 𝝰/2 RH0 si p-valeur < 𝝰/2 (III) règles de décisions H1: 𝞵 < 𝞵0 - zone de rejet: - p-valeur: zobs 1-𝝰 -z1-𝝰 règles de décisions - zone de rejet: - p-valeur: Tobs 1-𝝰 -tn-1 ; 1-𝝰 (III) règles de décisions H1: p < p0 - zone de rejet: - p-valeur: zobs 1-𝝰 -z1-𝝰 p-valeur: P(z<zobs) avec Z ∼ N(0;1) p-valeur: P(T<Tobs) avec T ∼ tn-1 p-valeur: P(z<zobs) avec Z ∼ N(0;1) RH0 si p-valeur < 𝝰 RH0 si p-valeur < 𝝰 RH0 si p-valeur < 𝝰 Remarque: si RH0, on affirme H1 avec un risque de se tromper de 𝝰. Or, si non-rejet (acceptation de l’hypothèse), on ne peut rien affirmer! “les données collectées ne nous permettent pas d’affirmer H1” 5_TESTS CHI-CARRÉ VANAUVE Alexandre test d’ajustement conditions: • n ≥ 30 • ni*≥ 1, 𝖵i • au moins 80% des ni*≥ 5 H 0: (ni*= effectifs théoriques) avec p1*, p2*, … , pI* des valeurs fixées telles que test d’indépendance H 0: p1=p1* ; p2=p2* ; … ; pI=pI* H 1: il existe au moins une différence entre les pi et les pi* x ∐ y (indépendants) H 1: x ∐ y (dépendants) tableau de contingence pour les 2 variables: pI proportion population (paramètre inconnu) avec (le répondant ne peut cocher qu’une réponse) calculs: sous H0: (x ∐y): ( = effectifs théoriques) => on compare les écarts entre la réalité et les effectifs théoriques obtenus (pour chaque nij) en suivant les 3 conditions et sous H0: on peut démontrer que: en suivant les 3 conditions et sous H0: I: nombre de modalités de x J: nombre de modalités de y règles de décisions (pour 𝝰 donné) - zone de rejet: règles de décisions (pour 𝝰 donné) - zone de rejet: - p-valeur: - p-valeur: 𝑥 1-𝝰 2 𝑥 2 obs 𝑥 1-𝝰 2 𝑥 I-1 ; 1-𝝰 2 obs (I-1)(J-1) ; 1-𝝰 p-valeur: P(𝑥2>𝑥2obs) avec 𝑥2 ∼ 𝑥2I-1 p-valeur: P(𝑥2>𝑥2obs) avec 𝑥2 ∼ 𝑥2(I-1)(J-1) RH0 si p-valeur < 𝝰 RH0 si p-valeur < 𝝰