Statistique en Economie et Gestion I Synthèse LECGE1114 20112012 D’après « Probabiltés et statistique». Livre de Mme. Célyne Laliberté. Ainsi que d’après les slides du cours LECGE1114 de Mme. MP. Kestermont. R’biaa Yassine Synthèse LECGE1114 20112012 1. STATISTIQUE DESCRIPTIVES Voir aussi p.97 dans le livre ‘ Probabilités et statistiques’ de Célyne Laliberté (PSCL) 1.1 DÉFINITIONS • Population : l’ensemble de toutes les personnes, de tous les objets ou de tous les faits sur lesquels porte une étude. • Unité statistique : chaque élément d’une population. • Recensement : étude réalisée sur toutes les unités statistiques d’une population. • Echantillon : sous-ensemble d’unités de la population sur lesquelles on effectue une étude. Si choisi au hasard ⇒ inférence Représentatif : considéré comme modèle de la population,possédant toute la diversité de caractéristiques de la population • Sondage : enquête menée auprès d’un échantillon de la population. • Variable : caractéristique de l’unité statistique que l’on désire étudier. • Modalité : valeur que peut prendre la variable. • (X, Y ou Z) désigne la variable. R’biaa Yassine • (x, y ou z) désigne la valeur. Page 1 Synthèse LECGE1114 20112012 1.2 VARIABLES Une variable (caractère statistique) est une propriété étudiée sur les individus d’une population donnée. 1. VARIABLES QUALITATIVES Représente une « qualité », permet de catégoriser, de classer en classes. A. NOMINALE Ce sont des variables qui correspondent à des noms, il n’y a aucun ordre précis. Ce sont seulement des mots dans le désordre. Ce sont des noms et peu importe l’ordre dans lequel on le présente. C’est exactement la même chose pour la profession ou encore le mets préféré, ce sont uniquement des noms ou l’ordre n’a pas d’importance. Le sexe a 2 modalités possibles : féminin ou masculin Résultat d’un examen : réussi – raté B. ORDINALE Ce sont des variables qui contiennent un ordre. satisfaction, d’approbation, etc... Le degré de satisfaction par rapport à votre fournisseur : Les différente modalités : Très insatisfait – insatisfait – satisfait – très satisfait R’biaa Yassine Page 2 Synthèse LECGE1114 20112012 2. VARIABLES QUANTITATIVES Représente des quantités, ses modalités sont des nombres (donc notion d’ordre). A. DISCRÈTE Ce sont des valeurs que l’on peut énumérer, il est inutile d’utiliser des classes pour les exprimer. Le nombre de personnes dans le ménage, le nombre de cellulaires ou bien le nombre de présence au centre commercial par mois. B. CONTINUE Ce sont des valeurs très nombreuses dont l’énumération serait fastidieuse. Il est donc préférable de les exprimer en classe de largeur égale. Le poids est une variable quantitative continue puisqu’il est possible de peser autant 4kg à 600kg et même beaucoup plus si s’attarde au poids des voitures. C. RÉSUMÉ Enquête sur la fréquentation des parkings de LLN (240 personnes). On s’intéresse : – au sexe de l’interviewé – à la fréquence de venue au centre-ville – au nombre de personnes composant le ménage – à l’âge de l’interviewé R’biaa Yassine Page 3 Synthèse LECGE1114 20112012 1.3 EFFECTIFS ET FRÉQUENCES 1. EFFECTIFS On appelle effectif d'une valeur le nombre d'individus de la population possédant le caractère de cette valeur. Nombre de données égales à cette modalité = n de la modalité 2. FRÉQUENCE On appelle fréquence d'une valeur le quotient de l'effectif de cette valeur par l'effectif total de la population. Les fréquences sont des nombres compris entre 0 et 1. Fréquence = n de la modalité/n Un établissement de transfusion sanguine a dressé le bilan de sa collecte de sang pendant un an. Âge du donneur Moins de 20 ans Entre 20 et 29 ans Entre 30 et 39 ans Entre 40 et 49 ans Plus de 50 ans Total R’biaa Yassine Effectifs 200 700 1 200 1 600 1 300 5 000 Fréquences 200 / 5 000 = 0,04 700 / 5 000 = 0,14 1 200 / 5 000 = 0,24 1 600 / 5 000 = 0,32 1 300 / 5 000 = 0,26 1 Page 4 Synthèse LECGE1114 20112012 3. EFFECTIFS ET FRÉQUENCES CUMULÉS Dans le cas d'une variable quantitative/qualitative, on peut ordonner les différentes valeurs de la variable dans l'ordre croissant ou décroissant. On peut déterminer " Quel effectif ou quelle fréquence de la population a une valeur du caractère au plus égale ou au moins égale à ... ". Ce sont les notions d'effectifs cumulés croissants ou décroissants, ou de fréquences cumulées croissantes ou décroissantes. – Effectif cumulé = nombre de fois que les modalités inférieures ou égales à k sont rencontrées. – Fréquence cumulée = effectif cumulé/n Qualitative ordinale 1.4 REPRÉSENTATION GRAPHIQUE 1. LES GRAPHIQUES A. QUALITATIVE 70 60 50 FEMININ MASCULIN 40 Fréquence en % 30 20 10 0 Feminin R’biaa Yassine Masculin Page 5 Synthèse LECGE1114 20112012 ORDINALE 1/ ans 1/ 6 mois 1/ mois Effectif 1/ semaine > 1/ semaine 0 20 40 B. QUANTITATIVE CONTINUE DISCRÈTE 30 25 20 15 10 5 0 A B C D E Hauteur rectangle = fréquence____ (Densité) longueur de la classe 1.5 INDICATEURS 1. MOYENNE NOMBRE DE PERSONNES : 1*0.0875 + 2*0.1500 + 3*0.1167 + 4*0.3875 + 5*0.2375 + 6*0.0208 = 3.6 personnes R’biaa Yassine Page 6 Synthèse LECGE1114 20112012 2. MODE Valeur de la variable rencontrée le plus souvent dans la série statistique. Mod(R) – Modalité la plus souvent observée Mod(X) – Valeur la plus souvent observée Mod(X) – Classe de densité maximale = centre de la classe modale R’biaa Yassine Page 7 Synthèse LECGE1114 20112012 3. MÉDIANE La médiane est le point milieu de l'ensemble1, qu'elle divise en deux moitiés. Pour déterminer la médiane d'un ensemble de valeurs, il suffit d'ordonner les valeurs en une liste croissante et de choisir la valeur qui est au centre de cette liste. Méd(X) = aj-1 + [(0,5 - Fj-1)/ (Fj - Fj-1)]*(aj - aj-1) (interpolation linéaire) 7 entiers: 12, 5, 6, 89, 5, 2390, 1. Après tri, la série est 1, 5, 5, 6, 12, 89, 2390. La médiane est le 4e élément de cette série, donc 6: quatre valeurs de l'ensemble sont inférieures ou égales à 6, et quatre sont supérieures ou égales à 6. On a le tableau suivant On peut en déduire que la médiane recherchée est dans la classe d’âge ] 40 à 50]. On va calculer la médiane utilisant la formule : Méd(X) = aj-1 + [(0,5 - Fj-1)/ (Fj - Fj-1)]*(aj - aj-1) aj-1 = 40 ; aj = 50 ; Fj = 0.68 ; Fj-1 = 0.48 donc Med(X) = 40+[(0,5 – 0.48)/ (0.68 – 0.48)]*(50 - 40) = 40+[(0,2/0.2]*10 = 40+0.1*10 = 41 Donc la médiane est 41. R’biaa Yassine Page 8 Synthèse LECGE1114 20112012 4. QUANTILES Modalités/valeurs qui partagent en groupes d’effectifs égaux l’ensemble des observations rangées par ordre (croissant ou décroissant). – 3 quartiles (4 parties de 25%) – 4 quintiles (5 parties de 20%) – 9 déciles (10 parties de 10%) – 99 centiles (100 parties d’1%) Calcul : Quantile p = valeur qp de la variable telle que F(qp) = p Même procédure d’identification et de calcul que pour la médiane (interpolation linéaire). qp = aj-1 + [(p - Fj-1)/ (Fj - Fj-1)]*(aj - aj-1) Quantile 0,50 (2ème quartile = médiane) Quantile 0,75 (3ème quartile) Quantile 0,60 (6ème décile) Quantile 0,55 (55ème centile) On a le tableau suivant : On recherche les quantiles 0.25 et 0.75.On peut en déduire que 0.25 est le 1er quartile ce situant dans la classe d’âge ]20 à 30]. On peut aussi en déduire que 0.75 est le 3ème quartile ce situant dans la classe d’âge ]50 à 60]. pour p = 0.25 : aj-1=20 , aj=30 , Fj=0.26 , Fj-1 = 0.08 q0.25 = 20 + [(0.25 – 0.08)/ (0.26 – 0.08)]*(30 - 20) = 20 + (0.17/0.18) * 10 = 20 + 9.44 = 29.44 pour p = 0.75 : aj-1=50 , aj=60 , Fj=0.83 , Fj-1 = 0.68 q0.75 = 50 + [(0.75 – 0.68)/ (0.83 – 0.68)]*(60 - 50) = 50 + (0.07/0.15) * 10 = 50 + 4.66 = 54.66 R’biaa Yassine Page 9 Synthèse LECGE1114 20112012 1.6 MESURES DE DISPERSION 1. ETENDUE L'étendue est la différence entre la valeur maximale et la valeur minimale du caractère statistique. étendue = Xmax – Xmin 2. ECART INTERQUARTILE L'écart interquartile est la différence entre le troisième et le premier quartile. L'écart interquartile correspond à l'étendue de la série statistique après élimination de 25% des valeurs les plus faibles et de 25% des valeurs les plus fortes. Cette mesure est plus robuste que l'étendue, qui est sensible aux valeurs extrêmes. écart interquartile = Q3-Q1 R’biaa Yassine Page 10 Synthèse LECGE1114 20112012 3. VARIANCE ET ECART-TYPE A. VARIANCE Contrairement à l'étendue et aux quartiles, la variance permet de combiner toutes les valeurs à l'intérieur d'un ensemble de données afin d'obtenir la mesure de dispersion. La variance (symbolisée par S2) et l'écart-type (la racine carré de la variance, symbolisée par S) sont les mesures de dispersion les plus couramment utilisées. Nous savons que la variance est une mesure du degré de dispersion d'un ensemble de données. On la calcule en prenant la moyenne de l'écart au carré de chaque nombre par rapport à la moyenne d'un ensemble de données. Pour les nombres 1, 2 et 3, par exemple, la moyenne est 2 et la variance, 0,667. [(1 - 2)2 + (2 - 2)2 + (3 - 2)2] ÷ 3 = 0,667 [somme de l'écart au carré] ÷ nombre d'observations = variance Variance, (S2) = moyenne de l'écart au carré de valeurs par rapport à la moyenne Comme le calcul de la variance se fait à partir des carrés des écarts, les unités de mesure ne sont pas les mêmes que celles des observations originales. Par exemple, les longueurs mesurées en mètres (m) ont une variance mesurée en mètres carrés (m2). La racine carrée de la variance nous donne les unités utilisées dans l'échelle originale. S²= [(x1 – m)2 + (x2 – m)2 + … (xn – m)2]/n avec n = nombre d’observations ; m= moyenne ; x = valeur de l’observation R’biaa Yassine Page 11 Synthèse LECGE1114 20112012 B . ECART-TYPE L'écart-type est la mesure de dispersion la plus couramment utilisée en statistique lorsqu'on emploie la moyenne pour calculer une tendance centrale. Il mesure donc la dispersion autour de la moyenne Généralement, plus les valeurs sont largement distribuées, plus l'écart-type est élevé. Imaginez, par exemple, que nous devons séparer deux ensembles différents de résultats d'examens de 30 élèves; les notes du premier examen varient de 31 % à 98 % et celles du second, de 82 % à 93 %. Compte tenu de ces étendues, l'écart-type serait plus grand pour les résultats du premier examen. Écart-type () = Racine carrée de la variance Une poule pond huit œufs. Voici les poids en grammes (g) des œufs :60 g, 56 g, 6l g, 68 g, 51 g, 53 g, 69 g, 54 g. La moyenne : L’écart-type : Variance S² = 320/8 = 40 Ecart-type = √ =√ = 6.32 grammes R’biaa Yassine Page 12 Synthèse LECGE1114 20112012 On a demandé à 30 fermiers combien de travailleurs agricoles ils embauchent durant des récoltes typiques. Voici leurs réponses : 4, 5, 6, 5, 3, 2, 8, 0, 4, 6, 7, 8, 4, 5, 7, 9, 8, 6, 7, 5, 5, 4, 2, 1, 9, 3, 3, 4, 6, 4 La moyenne : Ecart-type : Variance S² = 152/30 = 11.4 Ecart-type = √ =√ = 2.25 grammes R’biaa Yassine Page 13 Synthèse LECGE1114 20112012 4. COEFFICIENT DE VARIATION Le coefficient de variation également nommé, écart relatif, est une mesure de la dispersion relative : il se calcule comme le rapport entre l'écart-type et la moyenne m. cv = /m Exemple précédent avec les travailleurs agricoles : Moyenne m = 5 Ecart-Type = 2.25 Donc cv = 2.25/5 = 0.45 5. COTE Z (COTE STANDARD) La cote Z permet de comparer des données situées dans des distributions différentes car elle situe une donnée par rapport à l'écart-type de cette distribution. La cote Z se calcule de la façon suivante : Z(xi) = xi-m / S ou xi-m/ Les élèves du groupe 01 ont obtenu les résultats suivants au dernier examen : 67,78,45,98,76,65,66,73,87,65,60,58,81,74,74,72,63,60,71,71,64,55,77,92,63,59,51,66,68,62 L'élève qui a obtenu un résultat de 98 a donc une cote standard de : Moyenne m = 68.7 Ecart-type= 11.24 xi = 98 Donc Z(xi) = 98-68.7/11.24 = 2.607 R’biaa Yassine Page 14 Synthèse LECGE1114 20112012 2. PROBABILITÉS 2.1 THÉORIE DES ENSEMBLES 1. NOTIONS DE BASE ET NOTATIONS A. LES ENSEMBLES ET SOUS-ENSEMBLES Un ensemble peut être défini : en extension : entre deux accolades, par l’énumération de ses éléments séparés entre eux par un virgule. A : ensemble des multiples de 5 compris entre -12 et 12 B : ensemble des voyelles de l’alphabet A = {-10,-5,0,5,10} et B = {a,e,i,o,u,y} En compréhension : entre deux accolades, en indiquant la notation et les caractéristiques de ses éléments, ces deux aspects étant séparés par le symbole « | » signifiant « tel que » ou « étant donné » A : ensemble des multiples de 5 compris entre -12 et 12 B : ensemble des multiples de 5 supérieures à 18 A = {x| -12 < x < 12 et x = 5a avec a ϵ ℤ} B= { x| x > 18 et x = 5a avec a ϵ ℤ } p.2 -3 ( PSCL) R’biaa Yassine Page 15 Synthèse LECGE1114 20112012 B. OPÉRATION SUR LES ENSEMBLES A SOUS ENSEMBLE DE B SI ET SEULEMENT SI TOUS LES ÉLÉMENTS DE A SONT AUSSI DES ÉLEMENTS DE B A ET B SONT ÉGAUX SI A ET B POSSÈDENT EXACTEMENT LES MÊMES ÉLÉMENTS ENSEMBLE VIDE ENSEMBLE QUI CONTIENT AUCUN ÉLÉMENT ENSEMBLE UNIVERSELLE ENSEMBLE CONTENANT TOUS LES ÉLÉMENTS POSSIBLES A UNION B CONTIENT TOUS LES ÉLÉMENTS QUI APPARTIENNENT À A OU B A INTERSECTION B CONTIENT TOUS LES ÉLÉMENTS QUI APPARTIENNENT À A ET B COMPLÉMENTAIRE DE A CONTIENT TOUS LES ÉLÉMENTS QUI N’APPARTIENNENT PAS À L’ENSEMBLE DE A A MOINS B CONTIENT TOUS LES ÉLÉMENTS QUI APPARTIENNENT À A MAIS PAS À B A⊂B A=B ∅ U A∪B A∩B Ᾱ A/B p.4 ( PSCL) C. PROPRIÉTÉS DES OPÉRATIONS SUR LES ENSEMBLES ASSOCIATIVITÉ DE L’UNION ET DE L’INTERSECTION COMMUTATIVITÉ DE L’UNION ET DE L’INTERSECTION DISTRIBUTIVITÉ DE L’UNION SUR L’INTERSECTION DISTRIBUTIVITÉ DE L’INTERSECTION SUR L’UNION A ∪ ( B ∪ C ) = ( A ∪ B) ∪ C ( A ∩ B) ∩ C = A ∩ ( B ∩ C) A∩B=B∩A A∪B=B∪A A ∪ (B ∩ C) = ( A ∪ B) ∩ (A ∪ C) A ∩ (B ∪ C) = ( A ∩ B) ∪ (A ∩ C) p.13 ( PSCL) R’biaa Yassine Page 16 Synthèse LECGE1114 20112012 2.2 THÉORIE DE BASE DES PROBABILITÉS 1. EXPÉRIENCE, ESPACE RÉFÉRENTIEL ET ÉVÉNEMENT A. VOCABULAIRE DE BASE Expérience aléatoire : processus pour lequel tous les résultats pouvant être obtenus à la fin du processus sont connus -lancer une pièce - lancer un dé - tirer un carte Ensemble référentiel : formé d’éléments pour lesquels tous les aspects relatifs à l’expérience peuvent être examinés et identifiables. Noté « S » - lancer un pièce S = {pile, face} Taille de S = 2 Evénement : sous-ensemble d’un ensemble référentiel S - On lance un dé et on regarde le résultat Elémentaire : si le résultat rechercher est 1 / 2 / 3 / 4 / 6 S = {1,2,3,4,5,6} Composé : si le résultat recherché est pair /impair S = { 2,4,6 } ou {1,3,5} Impossible : si impossible que l’événement se réalise Certain : si l’ événement est réalisé à chaque fois Incompatible: impossible que les deux événement se réalisent en même temps p.20-21 ( PSCL) R’biaa Yassine Page 17 Synthèse LECGE1114 20112012 B. REPRÉSENTATION D’ÉVÉNEMENTS Diagramme de VENN Les événements étant des ensembles , on comprendra que le premier type de représentation possible sera le Diagramme de Venn. Son utilisation est pertinente si nous désirons attirer l’attention sur certains événements et sur les intersections entre certains d’entre eux. Diagramme en arbre Lorsque l’expérience s’effectue en plusieurs étapes, chaque événement élémentaire de l’expérience complète est composé des résultats obtenus à chacune de ces étapes. L’utilisation d’un Diagramme en arbre permet d’établir facilement la liste de tous les événements élémentaires puisque se construction met l’accent sur le déroulement de l’expérience, etape par étape. Tableau à double entrée Si nous sommes intéressés par toutes les modalités possibles de deux aspects différents de l »expérience et plus particulièrement aux nombres d’événements élémentaire satisfaisant ces modalités et leurs intersections, le tableau à doubles entrée, appelé aussi tableau de contingence sera le type de représentation approprié. p.23-24 ( PSCL) R’biaa Yassine Page 18 Synthèse LECGE1114 20112012 C. CONCEPT DE PROBABILITÉ ET DÉFINITIONS PROBABILITÉ CLASSIQUE ( À PRIORI) Si S est un ensemble fondamentale ( chance égale pour tous les éléments d’ être réalisés) ( ) ( ) Avec n(A) = nombre d’éléments de S favorables à la réalisation de A nS = nombre d’éléments de l’ensemble fondamental S - Evénement A : on lance un dé. On calcul la probabilité d’obtenir comme résultat 6. S = {1,2,3,4,5,6} avec taille S = 6 n(A)= 1 ( il existe qu’un seul 6 dans S) et donc ( ) nS = taille S ( ) PROBABILITÉ EMPIRIQUE ( À POSTERIORI OU BAYES) Contrairement à la probabilité classique , l’expérience de la probabilités empirique est réalisée plusieurs fois. ( ) ( ) Avec n(A) = nombre de fois que A se produit n = nombre de répétition R’biaa Yassine Page 19 Synthèse LECGE1114 20112012 - Evénement A : On lance un pièce. Cette expérience est répétée 5 fois. On s’intéresse à la probabilité d’avoir face. Nombre de jets 1 2 3 4 5 Résultat de l’expérience Pile Pile Face Pile Face Pile = 3 et Face = 2 = n(A) et n = 5 ( ) ( ) Une certaine stabilité statistique s’installe au fur et à mesure que n grandit. p.26-27, p.29 ( PSCL) D. PROPRIÉTÉS DES PROBABILITÉS AXIOMES : 0 ≤ P(A) ≤ 1 P(S) = 1 P(A ∪ B) = P(A) + P(B) P(A) + P(Ᾱ) = P(A ∪ Ᾱ) = P(S) P(A) + P(Ᾱ) = 1 P( B ∩ A) + P(B ∩ Ᾱ) = P(B) ∩ P(A ∩ Ᾱ) = P(B) ∩ P(S) P( B ∩ A) + P(B ∩ Ᾱ) = P(B) R’biaa Yassine Page 20 Synthèse LECGE1114 20112012 P(A/B) = P(A) – P(A ∩ B) Si A est un sous-ensemble de B , alors P(A) ≤ P(B) p.35, p.37-39 ( PSCL) 2.3 PROBABILITÉ CONDITIONNELLE ET INDÉPENDANCE 1. PROBABILITÉ CONDITIONNELLE ( | ) ∩ ( ) Probabilité conditionnelle à priori Nous nous intéressons à P(A|B), la probabilité que B se réalise sachant que A s’est déjà réalisé auparavant. - lors de tirs successifs de billes provenant d’une même urne, B concerne les résultats du 2e tir et A, ceux du 1er tir. - B concerne les effets secondaires d’un coma tandis que A concerne la durée du coma Probabilité conditionnelle à posteriori Nous nous intéressons à P(A|B), la probabilité que A se soit réalisé sachant que B s’est réalisé après. - lors d’une enquête, B concerne un crime qui a déjà été commis et A concerne un des suspects. - B concerne une maladie détectée tandis que A concerne une cause possible de cette maladie. p.44, p.46-50 ( PSCL) R’biaa Yassine Page 21 Synthèse LECGE1114 20112012 2. PROBABILITÉ TOTALE (BAYES) ( ) ( | ) ( | ) ( ) P(A|B) : probabilité de B sachant que A s’est réalisé P(A) : probabilité totale que l’événement A se réalise - On a deux paniers , dont un contient 6 oranges et 5 pommes et dans l’autre 6 oranges et 8 pommes. On s’intéresse à l’a probabilité de prendre une orange du premier panier. ( | ) ( ) ( ( | ) ) p.52-58 ( PSCL) R’biaa Yassine Page 22 Synthèse LECGE1114 20112012 3. EVÉNEMENTS INDÉPENDANTS Soit A et B deux événement avec des probabilités non nulles. A et B seront dits EVENEMENTS INDEPENDANTS si et seulement si la réalisation de l’un n’affecte pas la probabilité de réalisation de l’autre. A et B sont indépendant si et seulement si P(A) = P(A|B) On a trois urnes avec différentes billes. Urne 1 : 3 rouges / 4 bleues / 1 verte Urne 2 : 1 rouge / 2 bleues / 3 vertes Urne 3 : 4 rouges / 3 bleues / 2 vertes =8 =6 =9 On veut vérifier l’indépendance de l’événement ROUGE et de l’événement ROUGE DE L’URNE 2 ( ) ( | ) 0.33 ≠ 0.16 donc non indépendant p.60-62 ( PSCL) R’biaa Yassine Page 23 Synthèse LECGE1114 20112012 2.4 PROBABILITÉ ET ENSEMBLE RÉFÉRENTIEL INFINI 1. ENSEMBLE RÉFÉRENTIEL INFINI DÉNOMBRABLE Un ensemble est dit infini dénombrable s’il possède autant d’éléments que dans l’ensemble des nombres naturels. On comprend vite que dans ce cas, la définition classique de probabilité s’applique pas et l’équiprobabilité des événements élémentaires est impossible. Calcule de la probabilité d’un ensemble référentiel infini dénombrable Les séries géométriques On appelle série géométrique de raison r et de premier terme a un série de la forme ∑ Convergence d’une série géométrique : Soit a ≠ 0 : si | r | < 1 , alors la série converge vers Si | r | ≥ 1 , alors la série diverge. . Lors du lancer d’une pièce de monnaie, soit X le nombre de tirs nécessaires pour obtenir pile. On détermine la probabilité qu’il faut plus que 4 tirs avant d’obtenir pile, donc P(X > 4). P(Pile) = ½ = r P(X > 4). = P(X = 5,6,7,…) = P( X=5) + P(X=6) + P(X=7) + … On a une série géométrique de la forme : Avec r=½<0 et Donc la série converge et on peut écrire : ( ( ) ) ( ) = 1/16 p.68-70 ( PSCL) R’biaa Yassine Page 24 Synthèse LECGE1114 20112012 3. LOI DE PROBABILITÉ 3.1 VARIABLE ALÉATOIRE Une variable est appelée aléatoire si elle associe une valeur numérique à chaque résultat possible d’une expérience aléatoire. L’ensemble des valeurs possibles d’une variable aléatoire X est appelé CHAMP de la variable et est noté CH(X). Discrète : si le champ est un ensemble fini ou infini dénombrable. Continue : si le champ est un ensemble infini non dénombrable. Lors d’une campagne de promotion, M.Laprise a besoin de 5 personnes pour représenter son entreprise. Il les choisit parmi les 3 femmes et les 6 hommes qui sont employés chez lui. La compagnie de publicité responsable du scénario s’intéresse à deux aspects : L’âge des représentants et la proportion de femmes de cette délégation. Déterminez les variables aléatoires, leur champ et le type de variable. Soit X : âge des représentants et Y : proportion de femmes de la délégation de 5 personnes. La variable X est une variable continue avec CH(X) = [16,65] La variable Y est une variable aléatoire discrète avec CH(Y)= {0, 1/5 , 2/5 , 3/5} R’biaa Yassine Page 25 Synthèse LECGE1114 20112012 3.2 VARIABLES ALÉATOIRES DISCRÈTES 1. LOI DE PROBABILITÉ Le Loi de probabilité X est la fonction p qui associe à chaque élément xi de CH(X) p(xi) = P({xi}) = P(X=xi) 2. DISTRIBUTION DE PROBABILITÉ La distribution de probabilité de X est le tableau représentant les images p(xi) pour toutes les valeurs de CH(X). xi x1 x2 …. xk p(xi) p(x1) = P(X=x1) p(x2) = P(X=x2) …... p(xk) = P(X=xk) REPRÉSENTATION GRAPHIQUE R’biaa Yassine Page 26 Synthèse LECGE1114 20112012 Une boîte contient 12 billets numérotés de 1 à 12. Sébastien en tire 3, sans remise. Soit X la variable représentant le plus élevé des trois numéros tirés. a) Donnez la distribution de probabilité de X et sa représentation graphique. b) Quelle est la probabilité que le numéro tiré le plus élevé soit supérieur à 7 ? a) CH(X) = {3,4,5,…,12} Or X=3 si « 3 » est tiré et que les deux autres sont parmi « 1,2 », X=4 si « 4 » est tiré et que les deux autres sont parmi « 1,2,3 », X=5 si « 5 » est tiré et que les deux autres sont parmi « 1,2,3,4 », Etc. Ainsi, Distribution : ( ) ( ) ( ) ( ) ( ) ( ) Diagramme : 0,3 0,25 0,2 0,15 0,1 0,05 0 3 4 5 6 7 8 9 10 11 12 b) La probabilité que le plus élevé des trois numéros tirés soit supérieur à 7 est P(X>7) = P(X=8,9,10,11 ou 12) = P(X=8)+P(X=9)+…+P(X=12) = p(8)+p(9)+…+p(12) = 21/220+28/220+36/220+45/220+55/220 = 185/220 = 0,8409 R’biaa Yassine Page 27 Synthèse LECGE1114 20112012 3. PARAMÈTRE (MOMENTS) A. ESPÉRANCE (MOMENT D’ORDRE 1) L’espérance mathématique de X est noté E(X), µ ou encore µx. C’est la moyenne des valeurs prises par X si l’expérience sous-jacente à cette variable était répétée un nombre infini de fois. ( ) ∑ ( ) Avant de réaliser l’expérience aléatoire, on pense que le résultat qu’on va observer tournera autour de … B. VARIANCE (MOMENT D’ORDRE 2 CENTRÉ) La variance de X, notée Var(X), σ² ou encore σx², est la moyenne des écarts au carré entre les valeurs prises par X et E(X) si l’expérience sous-jacente à cette variable était répétée un nombre infini de fois. ( ) ² ∑( ( )) ( ) Avant de réaliser l’expérience aléatoire, on pense que la variabilité des résultats sera de l’ordre de … R’biaa Yassine Page 28 Synthèse LECGE1114 20112012 Reprenons l’exemple de la page 29. Calculez l’espérance mathématique, la variance et l’écart type de cette variable. On utilise la distribution : ( ) ∑ ( ) = (3*1/220)+(4*3/220)+(5*6/220)+…+(12*55/220) = 9,75 = µ ( ) ∑( ) ( ) = (3-9,75)² *1/220 + (4-9,75)²*3/220 + (5-9,75)²*6/220 + … + (12-9,75)²*55/220 = 4,39 √ R’biaa Yassine ( ) √ Page 29 Synthèse LECGE1114 20112012 4. INÉGALITÉ DE CHIEBYSHIEV Soit X une variable aléatoire discrète d’espérance µ et d’écart type . Considérons un intervalle centré autour de son espérance du type [µ-kσ , µ+kσ] avec k>0. On utilise l’inégalité de Chiebyshiev pour quantifier la probabilité que X prenne des valeurs dans cet intervalle. • ∃ r tels que |xr- µ| ≤ kσ → p(xr) • ∃ s tels que |xs- µ| > kσ → p(xs) ∑( ) ( ) σ² = Σ(xr- µ)²p(xr) + Σ(xs- µ)²p(xs) ≥ Σ(xs- µ)² p(xs) > Σ(kσ)² p(xs) car |xs- µ| > kσ > Σk²σ² p(xs) = k²σ²Σ p(xs) On divise tous par σ² : 1 > k² Σ p(xs) 1/k² > Σp(xs) 1/k² > 1 - Σp(xr) Σp(xr) > 1 - 1/k² → P(|xr- µ| ≤ kσ) > 1 - 1/k² P(µ - kσ ≤ X ≤ µ - kσ) > 1 - 1/k² R’biaa Yassine Page 30 Synthèse LECGE1114 20112012 3.3 VARIABLES ALÉATOIRES SIMULTANÉES Pour représenter le comportement simultané de 2 variables aléatoires, on utilise un tableau similaire au tableau de contingences rencontré en probabilité. 1. LOI DE PROBABILITÉ CONJOINTE On appelle Loi de probabilité conjointe de X et Y ou Fonction de probabilité conjointe de X et Y la fonction p qui associe à chaque couple (xi,yj) de CH(X)*CH(Y) la probabilité de l’événement conjoint X=xi et Y=yj : La distribution de probabilité conjointe de X et Y s’illustre par un tableau à double entrée. CH(Y) y1 y2 … ym Total pX p(xi,yj) (marginale) CH(X) x1 x2 … xn Total pY p(x1,y1) p(x2,y1) … p(xn,y1) pY (y1) p(x1,y2) p(x2,y2) … p(xn,y2) pY (y2) … … … … p(x1,ym) p(x2,ym) … p(xn,ym) pY (ym) … pX (x1) pX (x2) … pX (xn) 1 Les lois de probabilité pX et pY des variables X et Y sont aussi appelées Lois de probabilité marginales. ( ) ( ) ) ∑ ( ) ∑ ( ( R’biaa Yassine ) ∑ ( ( ) ( ) ∑ ( ) ) Page 31 Synthèse LECGE1114 20112012 On tire au hasard 3 boules d’une urne en contenant 3 rouges, 4 blanches et 5 bleues. Soit R et B les variables désignant respectivement le nombre de boules rouges et le nombre de blanches tirées. a) Trouvez la distribution de la loi de probabilité PR de la variable R. b) Trouvez la distribution de la loi de probabilité PB de la variable B. c) Calculez les probabilité P(R=ri et B=bj) pour toutes les valeurs CH(R) et CH(B) et notez les résultats en utilisant la notation p(ri,bj) = P(R=ri et B=bj). d) Créez un tableau à double entrée avec, en tête de lignes, les valeurs CH(R) et en tête de colonnes, les valeurs de CH(B). A l’intersection des lignes et des colonnes, inscrivez les probabilités p(ri,bj) = P(R=ri et B=bj= correspondantes. Ajoutez une ligne « Total ». a) Soit R : le nombre de boules rouges tirées, parmi une possibilité de 12 boules. Distribution : ri pR (ri) 0 1 2 3 b) Soit B : le nombre de boules blanches tirées, parmi une possibilité de 12 boules. Distribution : bj pB (bj) 0 1 2 3 R’biaa Yassine Page 32 Synthèse LECGE1114 20112012 ( ) et bj c) En utilisant p(ri,bj) = P(R=ri et B=bj), pour ri différente probabilités : ( ), calculons le ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ( ) ) d) CH(B) 0 1 2 3 Total pR p(ri,bj) CH(R) 0 1 2 3 Total pB R’biaa Yassine 10/220 30/220 15/220 1/220 56/220 40/220 60/220 12/220 0 112/220 30/220 18/220 0 0 48/220 4/220 0 0 0 4/220 84/220 108/220 27/220 1/220 1 Page 33 Synthèse LECGE1114 20112012 2. VARIABLES ALÉATOIRES INDÉPENDANTES Soient X et Y, deux variables aléatoires. On dira que X et Y sont des variables aléatoires indépendantes si : p(xi,yj) = pX (xi)*pY(yj) pour tout couple (xi,yj) L’indépendance entre 2 variables est la même notion d’indépendance que celle que nous avions avant sauf qu’elle a été élargie à tous les événements élémentaires pour qualifier globalement l’indépendance des variables X et Y. L’indépendance de 2 variable entraîne l’indépendance de tous les événements sous-jacents : P(xi,yj) = P(X=x et Y=yj) = P(X=x) * P(Y=yj) = pX(xi)*pY(yj) Est-ce que les variables R et B de l’exemple précédent sont indépendantes ? p(1,2) = 18/220 ~ 0,382 pR(1)*pB(2) = 108/220*48/220 = 5184/48400 ~ 0.107 Puisqu’il existe au moins un couple pour lequel p(1,2) est différent de pR(1)*pB(2), il n’ya pas d’indépendance entre les deux variables. R’biaa Yassine Page 34 Synthèse LECGE1114 20112012 3.4 MODÈLES ALÉATOIRES DISCRÈTES 1. LOI UNIFORME (1,N) Soit X une variable aléatoire discrète avec CH(X) = {x1,x2,…,xn} On dira que X suit une loi uniforme, noté X ~ U(n) si, pour tout xi CH(X), on a f(x) = P(X=xi) = 1/n A. ESPERANCE ET VARIANCE DE LA LOI UNIFORME Soit X une variable aléatoire discrète avec X ~U(n). E(X) et Var(X) prennent les mêmes valeurs que la moyenne µ et la variance d’une variable statistique de même nom, examinée pour une population de taille N=n, avec, comme série statistique, les valeurs CH(X). E(X) = (1 + n)/2 Var(X) = (n²–1)/12 Calculez la loi uniforme discrète (1,4), son espérance et sa variance. Ici la loi uniforme est U(4), donc p(x) = f(x) = 1/n = 1/4 E(x) = (1+n)/2 = (1+4)/2 = 5/2 Var(x) = (n²-1)/12 = (4²-1)/12 = 15/12 R’biaa Yassine Page 35 Synthèse LECGE1114 20112012 La variable X qui associe à chaque face d’un dé de la probabilité que le dé tombe sure celle-ci suit une loi uniforme avec X ~U(6). La variable N qui associe à chaque étudiant d’une classe la probabilité que son nom soit pigé, si le nom de chacun de ces 32 étudiant a été déposé une fois dans une urne, suit une loi uniforme avec N ~U(32). 2. BERNOULLI (P) On appelle épreuve bernoulli un processus ne visant qu’à vérifier la réalisation ou la nonréalisation d’un événement fixé préalable. On convient d’appeler succès une des deux issues possibles du processus et de nommer p la probabilité qu’elle se produise, l’autre issue étant alors appelée échec avec q comme probabilité. Echec (0) – Succès (1) • q(0) = 1 - p • f(1) = p f(x) = ( ) E(X) = p Var(X) = p(1- p) On a un urne avec 5 boules dont 4 rouges et 1noire. Qu’elle est le succès de tirer une boule rouge d’une épreuve Bernoulli (0,8). Calculez aussi l’épreuve et la variance. Succès : p(1) = p = 0,8 E(x) = p = 0,8 Var(x) = p(1-p) = 0,8 (1-0,8) = 0,16 R’biaa Yassine Page 36 Synthèse LECGE1114 20112012 Autres exemples d’épreuves de Bernoulli… - Lancer d’une pièce de monnaie : Succès : obtenir « pile », avec p = 1/2 Echec : obtenir « face », avec q = 1/2 -Lancer d’un dé : Succès : obtenir un nombre premier (1,2,3 ou 5) , avec p = 4/6 Echec : ne pas obtenir un nombre premier, avec q = 2/6 3. LOI BINOMIALE (N,P) Soit une expérience aléatoire dont le processus est constitué de n répétitions dans les mêmes conditions d’une même épreuve de Bernoulli, avec f(x : nombre succès sur n essais ) = X ~ B(n ;p) ( ) E(X) = np Var(X) = np(1- p) Voir aussi les tables de distribution binomiale p. T-1 dans le livre PSCL. On répète une expérience aléatoire 10 fois avec une épreuve Bernoulli (10 ; 0,2). Calculez son espérance et sa variance. E(X) = np = 10*0,2 = 2 Var(X) = np(1-p) = 10*0,2 (1-0,2) = 2*0,8 = 1,6 Calculez la probabilité suivante -Si X ~B(7 ; 0,30) , calculez P(X=4) , P(X≤3) On a n = 7 et p = 0,30. Donc d’après le tableau de distribution binomiale : -P(X=4) = 0,0972 -P(X≤3) = P(X=3) + P(X=2) + P(X=1) + P(X=0) = 0,8741 R’biaa Yassine Page 37 Synthèse LECGE1114 20112012 A. SOMME DE VARIABLES ALÉATOIRES BINOMIALES Si X1 et X2 sont deux variables aléatoires indépendantes suivant des lois binomiales rattachés à des épreuves de Bernoulli de même paramètre p, à savoir X1 ~ B(n1 ;p) et X2 ~ B(n2 ;p) Alors , la variable somme X1+X2 suit elle aussi une loi binomiale avec X1+X2 ~ B(n1+n2 ;p). Ainsi, E(X1+X2) = (n1+n2)p Var(X1+X2) = (n1+n2)pq Dans la région de Bruxelles, on a évalué que si le nom d’une personne est sur la liste d’attente d’un centre hospitalier pour faire du bénévolat sur demande, la probabilité que cette personne soit appelé à l’intérieur d’un mois est de 0,3. Des listes semblables, se retrouvant dans 4 hôpitaux de la région de Bruxelles, sont respectivement de 10,30,20 et 25 noms. a) Qu’elle est la probabilité que 20 personnes soient appelées à l’intérieur d’un mois ? b) Avec ces 4 listes, combien peut-on espérer appeler de personne à l’intérieur d’un mois ? a) Soit X1,X2,X3 et X4 les nombres de personnes appelés à l’intérieur d’un mois à partir de la liste de chaque hôpital. On a X1 ~B(10 ; 0,3) X2 ~B(30 ; 0,3) X3 ~B(20 ; 0,3) X4 ~B(25 ; 0,3) Et X1+X2+X3+X4 ~B(10+30+20+25 ; 0,3) ~B(85 ; 0,3) Ainsi,la probabilité demandée est P(X1+X2+X3+X4 = 20) = ( ) ( ) b) On peut espérer que le nombre de personnes pouvant être appelés à l’intérieur d’un mois pour les 4 centres hospitaliers est E(X1+X2+X3+X4) = (n1+n2+n3+n4)p = (10+30+20+25) (0,3) = 25,5 personnes R’biaa Yassine Page 38 Synthèse LECGE1114 20112012 4. LOI GÉOMÉTRIQUE (P) Soit une expérience aléatoire dont le processus est constitué de répétition dans les mêmes conditions d’une épreuve Bernoulli, avec X la variable aléatoire qui comptabilise le nombre de fois qu’il faut effectuer l’épreuve de Bernoulli pour obtenir le premier succès. f(x) = E(X) = 1/p Var(X) = (1- p)/p2 Calculez l’espérance et la variance d’une loi géométrique (0,4). E(X) = 1/p = 1/0,4 = 2,5 Var(X) = (1-0,4)/ 0,4² = 3,75 R’biaa Yassine Page 39 Synthèse LECGE1114 20112012 Sébastien fait application pour du recrutement de clients par téléphone : il doit vendre de l’assurance solde pour les détenteurs de carte de crédit d’une grande chaîne de magasin. La probabilité qu’une personne rejointe par téléphone accepte de s’assurer est de 0,22. a) Quelle est la probabilité que le premier acheteur soit la personne rejointe au 4e appel ? b) Quelle est la probabilité que Sébastien doive faire au moins 4 appels pour avoir son premier acheteur. c) Sachant que ce matin, Sébastien n’a pas eu de succès avec ses 2 premiers appels, quelle est la probabilité qu’il n’ait pas d’acheteurs pour les 5 premiers appels aujourd’hui ? d) Pensant à tous les employés comme Sébastien, combien doivent-ils faire d’appels en moyenne pour avoir un premier acheteur ? Soit N le nombre d’appels nécessaires pour avoir un premier client avec N ~ Géo(0,22) a) P(N=4) = p(4) = b) P(N≥4) = P(N>3) = ( = ) = c) P((N>5) ; (N>2)) = P((N>3+2) ; (N>2)) = P(N>3) = 0,4746 d) E(N) = 1/p = 1/0,22 = 4,54 R’biaa Yassine Page 40 Synthèse LECGE1114 20112012 5. LOI DE POISSON (Λ) Soit X la variable aléatoire qui comptabilise le nombre de réalisation d’un événement dans les conditions suivantes : La réalisation de l’événement se vérifie par l’examen d’un ensemble représentable sous la forme d’un intervalle continu de longueur t, du type ] 0 , t [ . L’accomplissement de l’événement dans un certain sous-intervalle de ] 0 , t [ n’influence pas la réalisation de l’événement dans un autre sous-intervalle. La probabilité que l’événement se produise dans un intervalle très petit est presque nulle ; Le nombre moyen de réalisation de l’événement dans ] 0 , t[ est égal à λ. On dira que X suit une loi de poisson de paramètre λ avec ( ) pour x = 0,1,2,3,… Et on écrira X ~Po(λ,t) ou simplement X ~Po(λ). E(X) = λ Var(X) = λ Voir aussi les tables de distribution de Poisson p. T-6 dans le livre PSCL. R’biaa Yassine Page 41 Synthèse LECGE1114 20112012 Un chien dépisteur de drogue a été entraîné selon une nouvelle méthode. A l’aéroport de Charleroi, on rapporte qu’il détecte en moyenne 1,7 cas passation de drogue par semaine et qu’à Bruxelles, sa moyenne hebdomadaire passe à 2,3cas. a) Quelle est la probabilité que ce chien détecte plus de 5 cas en 2 semaines à Charleroi. b) On raconte dans le milieu que l’an dernier ; à un des 2 aéroports, ce chien a déjà détecté 5 cas en une semaine. Sachant cela, quelle est la probabilité que ce soit à Charleroi si le chien a été utilisé 2 semaines sur 3 à Bruxelles. Soit X : le nombre de cas détectés par le chien en une semaine C : le chien travaille à Charleroi,…avec 1,7 cas en moyenne par semaine à Charleroi B : le chien travaille à Bruxelles,…avec 2,3 cas en moyenne par semaine à Bruxelles. a) Comme on parle du nombre de cas détectés sur 2 semaines et que le chien est à Charleroi, travaillons avec X2 ~ Po(3,4 ). (λ = 1,7*2) Avec l’aide des table de distribution de Poisson, P(X2>5) = 1- P( X2≤5) = 1-(P(0) +P(1)+…+P(5) = 1- (0,0334+0,1135+0,1929+0,2186+0,1858+0,1264) = 1-0,8706 = 0,1294 b) Ce qu’on connaît de plus : P(C) = 1/3, P(B)=2/3 C’est un cas de probabilité conditionnelle, car on veut ( |( )) Or, nous connaissons les « autres » probabilités conditionnelles, à savoir (( )| ) ( ) (( )| ) ( ) R’biaa Yassine Page 42 Synthèse LECGE1114 20112012 On utilise la formule de Bayes : ( |( )) ( ∩( ( )) ) ((( )) ( ∩( ) ∩ ) ∪ (( ∩ ) (( ( ∩( )∩ ) )∩ ) (( (( |∩ ) )) (( )| ) ( ) | ) ( ) (( =0,1672 A. APPROXIMATION D’UNE LOI BINOMIALE PAR UNE LOI DE POISSON Soit X une variable avec X ~ B(n ;p). On pourra donner une valeur approchée des images de cette loi binomiale B(n ;p) par les images correspondantes de la loi de Poisson Po(np) si les conditions suivantes sont vérifiées : n ≥ 30 et np < 5 ou si p est très petit avec p < 0,2 et np < 10 L’approximation sera vraiment très bonne lorsqu’on aura n ≥ 100 et np < 5 R’biaa Yassine Page 43 Synthèse LECGE1114 20112012 Au défi étudiant, un des jeux consiste à lancer une pièce de 25 sous sur une table carré de 1 m de côté située à 3m du lanceur. La planche est séparée en 100 carrés identiques. Un des carrés est rouge : s’il est touché par la pièce, 20points sont attribués à l’équipe. Considérant qu’il y a eu 400 lancers dans la soirée, quelle est la probabilité qu’il y ait eu moins de 4 attributions de 20 points ? Utilisez la loi binomiale, puis examinez ce que vous auriez obtenu en évaluant approximativement la probabilité désirée à l’aide d’une loi de Poisson. Soit X le nombre d’attributions de 20points, avec X ~B(400 ;0,01) ; En utilisant la loi binomiale, on aura : P(X<4) = P(X=0,1,2 ou 3) = P(0)+P(1)+P(2)+P(3) ( ) = 0,4325 Vérifions les conditions pour une approximation à l’aide d’une loi de Poisson : n = 400 ≥ 30 et np = 400*0,01 = 4 < 5. Nous pouvons procéder avec X ~B (400 ;0,01) = Po(4) : P(X<4) = P(X=0,1,2 ou 3) = P(0)+P(1)+P(2)+P(3) = R’biaa Yassine Page 44 Synthèse LECGE1114 20112012 3.5 VARIABLES ALÉATOIRES DISCRÈTES • {valeurs possibles} : infini non dénombrable • Discret : distribution de probabilité et Σ • Continu : densité de probabilité et ∫ 1. FONCTION DE DENSITÉ ET FONCTION DE RÉPARTITION A. FONCTION DE DENSITÉ Soit X est une variable continue. Une fonction de densité ou densité de probabilité est une fonction réelle ∫ qui satisfait aux deux conditions suivantes : f(x) ≥ 0 ∫ pour tout x, f est non négative ( ) la surface de l’aire comprise entre la courbe de f et l’axe des X est égale à 1 Evidemment, f doit être une fonction intégrable. On dira aussi que X obéit à la fonction de densité f, ou encore, que X est soumise à la fonction de densité f si pour tout a, b , on a P(a ≤ X ≤ b) = ∫ R’biaa Yassine ( ) = aire de la région comprise entre f, l’axe des x et les droits d’équations x=a et x=b. Page 45 Synthèse LECGE1114 20112012 On a la fonction suivantes f(x) = 3x² si 0 ≤ x ≤ 1 f(x)= 0 sinon a) Esquissez le graphe de la fonction b) Démontrez que c’est une fonction de densité a) Dd d Nous voyons bien que f(x) ≥ 0 pour tout x b) ∫ ( ) ∫ =1–0=1 f(x) ≥ 0 et l’intégral de la fonction est 1 , donc nous sommes bien en présence d’une fonction de densité. R’biaa Yassine Page 46 Synthèse LECGE1114 20112012 B. FONCTION DE RÉPARTITION Soit X est une variable aléatoire continue obéissant à la fonction de densité f. On appelle fonction de répartition de f la fonction réelle F définie par ( ) F(X) = P(X ≤ x) = ∫ = aire de la région à gauche de la droite verticale d’équation t = x, comprise entre f et l’axe des x. Soit X une variable aléatoire qui obéit à la fonction de densité de l’exemple précédent. a) Trouvez sa fonction de répartition b) Trouves les probabilités suivantes P(X ≤ 0,5), P(X ≥ 1), P(0,5 < X < 1). a) Si x ≤ 0 : F(x) = ∫ ( ) ∫ ( ) F(x) = 0 Si 0 ≤ x ≤ 1 F(x) = ∫ ( ) ( ) ∫ ( ) ∫ ( ) ∫ ( ) ∫ ( ) ∫ ( ) ∫ = 0+ = Si 1 < x : F(x) = ∫ ( ) ∫ ( ) =0+ =0+ R’biaa Yassine Page 47 Synthèse LECGE1114 20112012 La fonction de répartition est donc 0 F(x) = si x ≤ 0 si 0≤ x ≤ 1 si 1 < x b) Puisque nous connaissons la fonction de répartition, nous pouvons évaluer les probabilités demandées sans réévaluer d’intégrales : P(X < 0,5) = F(0,5) = 3*0,5 / 3 = 0,5 P(X ≥ 1) = 1 – P(X < 1) = 1 – F(1) = =1 P(0,5 < X < 1) = F(1) – F(0,5) = 0,5 C. FONCTION DE RÉPARTITION Soit X est une variable aléatoire continue obéissant à la fonction de densité f. La probabilité que la variable X prenne comme valeur le réel a est nulle car P( X = a) = ( = ∫ ) ( ) La probabilité que X soit dans l’intervalle [a,b] sera inchangé si on exclut une ou deux bornes de l’intervalle : P(a ≤ X ≤ b) = P(a < X < b) = P(a < X ≤ b) = P(a ≤ X < b) La fonction de répartition F(x) est une des primitives de la fonction f(x) et la notation utilisée ici est conforme à celle utilisée en calcul intégrale: P(a ≤ X ≤ b) = F(b) – F(a) R’biaa Yassine Page 48 Synthèse LECGE1114 20112012 2. PARAMÈTRES (MOMENTS) A. ESPERANCE MATHÉMATIQUE L’espérance mathématique d’une variable aléatoire continue X, notée E(X) ,µx ou simplement µ lorsque le danger de confusion entre différentes variables est absent, représente la valeur moyenne de la variable X, valeur qui peut se comparer au centre de gravité de la fonction de densité. ( ) ( ) ∫ B. VARIANCE La variance d’une variable aléatoire continue X d’espérance mathématique E(X) = µ, notée Var(X), ou ² lorsque le danger de confusion entre différentes variables est absent, s’obtient par ( ) ² ∫ ∫ ( )) ( ( ) ( ) ( ) = C. ECART-TYPE L’écart-type d’une variable aléatoire continue X, notée √ R’biaa Yassine , s’obtient par ( ) Page 49 Synthèse LECGE1114 20112012 3.6 MODÈLES ALÉATOIRES CONTINUS 1. LOI UNIFORME Soit X une variable aléatoire continue. On dira que X suit une loi uniforme sur l’intervalle ]a,b[ ou encore que X est uniformément distribuée sur ]a,b[ si sa fonction de densité est donnée par f(x) = 1/b-a si a < x < b f(x) = 0 ailleurs et on écrira X ~ U(a ;b). Evidemment, l’allure graphique de f est celle d’une fonction constante positive sur ]a,b[ et nulle ailleurs. A. ESPÉRANCE E(X) = a+b/2 B. VARIANCE Var(X) = (b-a)²/12 C. FONCTION DE RÉPARTITION F(x) = 0 F(x) = x-a/b-a 1 R’biaa Yassine si x ≤ a si a < x < b si x ≥ b Page 50 Synthèse LECGE1114 20112012 Un enfant s’endort à un moment quelconque entre la 5e et la 20e minute, la variable T mesurant le temps requis par un enfant pour s’endormir dans des conditions spécifiques, en minutes suit une loi uniforme : U(5 ;20) avec T(x) = 1/15 , pour x 2. LOI EXPONENTIELLE Soit un événement pour lequel : La réalisation de l’événement s’effectue par l’examen d’un intervalle du type ] 0,t [. L’accomplissement de l’événement dans un certain sous-intervalle de ] 0,t [ n’influence pas la réalisation de l’événement dans un autre sou intervalle. La probabilité que l’événement se produise dans un intervalle très petit est presque nulle ; Le nombre moyen de réalisation de l’événement dans ] 0,t [, un intervalle de longueur 1, est connu et est égal à λ. Si X est la variable aléatoire continue correspondant à la longueur d’intervalle avant que l’événement ne se réalise une première fois, c.à.d la longueur ]0,x[ , alors X suit une loi exponentielle de paramètre λ avec, comme fonction de densité, f(x) = si x ≥ 0 f(x) = 0 ailleurs et on écrit X ~ Espo(λ) A. ESPÉRANCE E(X) = 1/ λ B. VARIANCE Var(X) = 1/ λ² R’biaa Yassine Page 51 Synthèse LECGE1114 20112012 Il s’écoule en moyenne 120 jours entre 2 cas de la fameuse bactérie mangeuse de chair à Bruxelles. a) Un cas a été déclaré dans un des hôpitaux de Krainem le 10 juin 2004. Quelle est la probabilité qu’il s’écoule moins de 180 jours avant le prochain cas à Bruxelles. b) Le 10 juin 2004, au moment où le cas de Krainem a été déclaré, on avait annoncé qu’à Ixelles, suite à des démissions, il n’y avait pas d’urgentologue durant un certaine période de transition avant l’arrivée des nouveaux médecins spécialisés. La direction mentionnait aussi qu’elle était sûre à 80% qu’il n’y avait pas de cas de cette bactérie durant cette période. De combien de jours parlait-elle ? c) Le 30 juin 2004, aucun nouveau cas de cette bactérie avait été déclaré. Quelle est la probabilité qu’il s’écoule encore moins de 180 jours avant le prochain cas ? Soit X : nombre de jours écoulés entre le 10 juin 2004 et l’apparition d’un nouveau cas , avec X ~ Expo(1/120) a) P( X < 180 ) = 1 – P( 1 ≥ 180) ( = ( ) ) b) 0,8 = P( X ≥ x) = Ainsi, -(1/120) * x = ln 0,8x = -120 (ln 0,8) x = 26,78 jours c) (( R’biaa Yassine )|( )) ( ) Page 52 Synthèse LECGE1114 20112012 3. LOI NORMALE Soit X une variable aléatoire continue. Soit a, b . On dira que X suit une loi normale si sa fonction de densité est ( ( ) Et on écrit X ~ N(µ ; ) √ ) Voir aussi les tables de distribution de loi normale p. T-11 dans le livre PSCL. A. ESPÉRANCE E(X) = a B. VARIANCE Var(X) = b² C. FONCTION DE DENSITÉ ( ( ) ) √ D. LOI NORMALE RÉDUITE Soit X un variable aléatoire continue. On dira que X suit la loi uniforme centrée réduite notée N(0 ;1) si sa fonction de densité est ( ) √ La plupart du temps, X est renommée Z avec ( ) √ Et on écrit Z ~N(0 ;1). E(X) = 0 R’biaa Yassine Var(X) = 1 Page 53 Synthèse LECGE1114 20112012 L’âge des citoyens d’une ville suit une loi Normale de moyenne 32 et d’écart type 18. Une personne choisie au hasard dans cette ville. Trouvez la probabilité que cette personne soit : a) b) c) d) Entre 32 et 59 ans Plus de 50 ans Moins de 18 ans Entre 20 et 40 ans Le propriétaire des salles de cinéma désire offrir une réduction aux 5% plus âgés de la ville. e) A partir de quel âge offrira-t-il cette réduction ? f) Et si la réduction s’appliquait aux 15% plus âgés, à partir de quel âge s’appliquerait-elle ? Soit X l’âge des citoyens de la ville X ~ N(32 ;18²) a) P(32 < X < 59) = ( ) = P(0 < Z < 1,50) = 0,4332 b) P(X > 50) = ( ) = P(Z >100) = 0,5 – P(0 < Z < 1)= 0,1587 c) P(X < 18) = ( ) = P(Z < -0,78) = 0,5 – P(0 < Z < 0,78)= 0,2177 d) P(20 < X < 40) = ( ) = P(0,67 < Z < 0,44) = P(0 < Z < 0,67) + P(0 < Z < 0,44) =0,4186 R’biaa Yassine Page 54 Synthèse LECGE1114 20112012 e) 0,05 = P(X ≥ a) = ( 0,5 – 0,05 = ) ( ) En faisant une lecture inverse de table, on retrouve = 1,64 + une fraction de (1,65-1,64) ( = 1,64 + ) = 1,645 a = 61,6 donc la réduction se fera pour les personnes d’au moins de 62 ans. f) 0,15 = P(X ≥ a) = ( 0,35 = ( ) ) En faisant une lecture inverse de table, on retrouve = 1,04 + a = 32 +18 (1,04) = 50,72 donc la réduction se ferait maintenant pour les personnes d’au moins de 51 ans. R’biaa Yassine Page 55 Synthèse LECGE1114 20112012 4.INFÉRENCE STATISTIQUE 4.1 MISE EN SITUATION A partir de l’échantillon dont je dispose je tire des informations sur l’espérance µ ou la proportion π ou la variance σ² de la population dont il est issu : • Estimation ponctuelle : – J’estime que µ/π/σ² est de … • Estimation par intervalle de confiance : – Il y a x chances sur 100 pour que µ/π/σ² soit compris entre a et b • Prise de décision sur une hypothèse : – µ/π/σ² «est de …», «plus grand que …», … 4.2 ESTIMATION PONCTUELLE On ne connaît pas µ/π/σ². • La moyenne m de l’échantillon est un estimateur ponctuel de µ. • La proportion p de l’échantillon est un estimateur ponctuel de π. • La variance corrigée s² de l’échantillon est un estimateur ponctuel de σ². Population : 28 ans, 32 ans, 40 ans Moyenne = 33,33 ans Variance = 24,89 ans² Proportion de moins de 30 ans = 1/3 Echantillon de taille 2 Echantillon Moyenne Variance Moins de 30 ans {28,32} 30 8 1/2 {28,40} 34 72 1/2 {32,40} 36 32 0 Faire attention à la marge d’erreur. Pour cela on va utiliser le théorème de limite centrale R’biaa Yassine Page 56 Synthèse LECGE1114 20112012 4.3 THÉORÈME DE LA LIMITE CENTRALE Le théorème central limite (TCL) donne une estimation précise de l'erreur que l'on commet en approchant le paramètre inconnu de la population par la statistique obtenue à partir de l’échantillon. Soient X1,X2,…, Xn des variables indépendantes et identiquement distribuées. (même fonction de densité, même espérance mathématique et même variance) Si n est grand, la variable somme Y = ΣXi = X1+X2+…+Xn est normalement distribuée avec Y ∼ N(µ, σ²) = N(nµ, nσ²) Examinons ce que dit ce théorème : Nous savions déjà que E(Y) = E(X1)+E(X2)+…+E(Xn) Et que Var(Y) = Var(X1)+Var(X2)+…+Var(Xn) Et comme ces variables dont identiquement distribuées, il est clair qu’on a E(Y) = nE(X1) et R’biaa Yassine Var(Y) = nVar(X) Page 57 Synthèse LECGE1114 20112012 Soit X le résultat obtenu lors du lancer d’un dé , avec X ~U(6). Examinons la progression d’une variable somme des résultats de plusieurs lancers du dé. s p(s) S1 = X1 ,le résultat obtenu à la suite de 1 lancer de dé. 1 1/6 2 1/6 3 1/6 4 1/6 5 1/6 6 1/6 E(S1) = E(X1) = (1*1/6)+(2*1/6)+(3*1/6)+(4*1/6)+(5*1/6)+(6*1/6) = 21/6 = 3,5 Var(S1) = Var(X2) = E(X1²)-(E(X1))² = (1²*1/6)+(2²*1/6)+(3²*1/6)+(4²*1/6)+(5²*1/6)+(6²*1/6)-(3,5)² = 2,916 s p(s) 2 1/36 S2 = X1+X2, la somme des résultats obtenus à la suite de 2 lancers de dé 3 2/36 4 3/36 5 4/36 6 5/36 7 6/36 8 5/36 9 4/36 10 3/36 11 2/36 12 1/36 E(S2) = E(X1+X2) = 2 E(X1) = 2*3,5 = 7 Var(S2) = Var(X1+X2) = 2Var(X1) = 2*2,916 = 5,83 S30 = X1+X2+…+X30, la somme des résultats obtenus à la suite de 30 lancers de dé E(S30) = 30 E(X1) = 30* 3,5 = 105 Var(S30) = 30Var(X1) = 30*2,916 = 87,5 R’biaa Yassine Page 58 Synthèse LECGE1114 20112012 4.4 DISTRIBUTION DE PROBABILITÉ 4. DISTRIBUTION D’ÉCHANTILLONNAGE DE M ( ̅ ) A. AVEC REMISE Soit X une variable statistique de moyenne µ et de variance σ² pour une population de taille N. Soit m la variable moyenne d’échantillonnage formée à partir de tous les échantillons aléatoires de taille n formés avec remise à partir de la population. Alors E(m) = E(X) = µ et Var(m) = Var(X)/n = σ²/n De plus, Si X suit une loi normale, m suit une loi normale. Si X suit un loi quelconque et n est grand alors m ( ̅ ) suit une loi normale. Statistique Belgique rapporte qu’en 2000, à Bruxelles, l’endettement des diplômes de niveau collégial qui se sont prévalu des différents programmes gouvernementaux de prêts et bourse était en moyenne de 12600€.Pour tenter de comprendre l’impasse monétaire dans laquelle se trouvent bon nombre de ces étudiant, des fonctionnaires décident d’étudier la situation d’un échantillon de 50 de ces diplômes, choisi avec remise. Pour les fins de leurs études, ils émettent l’hypothèse que l’endettement de tous les diplômés suit une loi normale d’écart type 3200€. a) Quelle est la probabilité que la moyenne d’endettement des étudiants de l’échantillon soit supérieure à 13500€. b) Quelle est la probabilité que l’endettement d’un étudiant choisi au hasard parmi tous les endettés ciblés à Bruxelles soit supérieur à 13500€. R’biaa Yassine Page 59 Synthèse LECGE1114 20112012 a) Considérons l’ensemble de diplômés endettés de niveau collégial ayant eu recours au système de Prêts et bourses en 2000. Soit X, l’endettement de ces diplômes, avec X ~N(12600 ; 3200²). Soit m, l’endettement moyen des échantillons de 50 de ces diplômés choisis au hasard. E(m) = E(X) = 12600 € et Var(m) = Var(X)/n = 3200²/50 = 204800 Et puisque X suit une loi normale, on aura m ~N(12600 ; 204800). Ainsi, P( m > 13500) = ( ) √ = P(Z > 1,989) = 0,5 – P(0 < Z < 1,99) = 0,5 – 0,4767 = 0,0233 b) On aura P( X > 13500) = ( ) = P(Z > 0,281) = 0,5 – P(0 < Z < 0,28) = 0,5 – 0,1103 = 0,3897 B. SANS REMISE Soit X une variable statistique de moyenne µ et de variance σ² pour une population de taille N. Soit m la variable moyenne d’échantillonnage formée à partir de tous les échantillons aléatoires de taille n formés sans remise à partir de la population. Alors E(m) = E(X) = µ et Var(m) = ( ) ( ) De plus, Si X suit une loi normale, m suit une loi normale. Si X suit un loi quelconque et n est grand alors m ( ̅ ) suit une loi normale. R’biaa Yassine Page 60 Synthèse LECGE1114 20112012 Exemple précédent sur les endettements. a) Il y était précisé que l’échantillon avait été formé avec remise. S’il avait été sans remise, qu’aurions-nous modifié dans nos calculs ? Et si la technique d’échantillonnage ( avec ou sans remise) n’avait pas été indiquée, comment aurions-nous procédé ? b) Statistique Belgique précise qu’à Louvain-la-Neuve, le nombre de ces diplômes s’élève à 450 et que leur endettement suit une loi normale de moyenne 10000€ et d’écart type 2800€. Son on prélève sans remise un échantillon de taille 20 de ces diplômés endettés à LLN, quelle est la probabilité que la moyenne d’endettement de cet échantillon soit supérieur à 11500€ a) La taille N de la population de diplômés endettés n’est pas précisée dans l’article. Or, 20n = 1000 : il est plausible de penser que N ≥ 20n, de sorte que si les échantillons avaient été formés sans remise, le facteur de correction aurait pu être remplacé par 1. Nous aurions donc obtenu les mêmes résultats. b) Soit m l’endettement moyen d’un échantillon aléatoire (sans remise) de 20 diplômés endettés à LLN. Les échantillon sont sans remise, n = 20 < 30 et X ~ N(10000 ; 2800²) Ainsi , en théorie, ( m ~ N( mais, n/N ) )= N( ( )) = 20/450 = 0,04 < 0,05 : le facteur de correction sera remplacé par 1 On dira m = N( ) = N( d’où P( m > 11500) = ( ) √ ) = P(Z > 2,4) = 0,5 – P(0 < Z < 2,4) = 0,5 – 0,4918 = 0,0082 R’biaa Yassine Page 61 Synthèse LECGE1114 20112012 5. DISTRIBUTION D’ÉCHANTILLONNAGE DE P ( ̅ ) A. AVEC REMISE Soit p (ou π) la proportion d’unités statistiques d’une population de taille N répondant affirmativement à la présence d’un critère donné. Examinant tous les échantillons aléatoires de taille n formés avec remise à partir de la population. Soit Y la variable nombre d’unités répondant affirmativement à la présence du dit critère dans un échantillon. Soit p la variable proportion d’unités répondant affirmativement au dit critère dans un échantillon, avec p = 1/n*Y. Alors Y ~B(n ;p) ou encore B(n ; π) Avec les paramètres : E(p) = p ou π et Var(p) = pq/n ou π(1-π)/n Parmi les 530 étudiants embauchés pour la période d’été par le Service des Loisirs de la ville, 13% sont âgés de plus de 21 ans. Quelle est la probabilité que sur un échantillon de 100 dossiers de ces employés, choisis au hasard et avec remise, au moins 30% soient d’employés de plus de 21 ans ? Soit p = 0,13, la proportion d’employés de plus de 21 ans. Soit P, la variable Proportion d’employés de plus de 21 ans, proportion mesurée dans tous les échantillons de taille 100. Comme n = 100 ≥ 30, np = 100 (0,13) = 13 ≥ 5 et nq = 100(1-0,13) = 87 ≥ 4, P= ( P(P > 0,20) = R’biaa Yassine ) ( ( ) √ ) ( ) Page 62 Synthèse LECGE1114 20112012 B. SANS REMISE Soit p (ou π) la proportion d’unités statistiques d’une population de taille N répondant affirmativement à la présence d’un critère donné. Examinant tous les échantillons aléatoires de taille n formés avec remise à partir de la population. Soit Y la variable nombre d’unités répondant affirmativement à la présence du dit critère dans un échantillon. Soit p la variable proportion d’unités répondant affirmativement au dit critère dans un échantillon, avec p = 1/n*Y. Alors Y ~H(n ;N ;p) ou encore H(n ;N ; π) Avec les paramètres : E(p) = p ou π R’biaa Yassine et Var(p) = ( ) ( ) Page 63 Synthèse LECGE1114 20112012 6. ESTIMATION PAR INTERVALLE DE CONFIANCE A. ESTIMATEUR Θ D’UNE POPULATION ̂ prenant comme valeurs les estimés On appelle estimateur du paramètre Θ la variable Θ ponctuels Θ de ce paramètre ayant été calculés de la même façon pour chacun des échantillons. ̂ sera dit valide (ou non-Biaisé) si ( ̂ ) = Θ. L’estimateur Θ ̂ sera dit convergent si L’estimateur Θ ̂ sera dit efficace si sa variance (sa dispersion autour de Θ) est L’estimateur Θ plus petite que celle de tout autre estimateur possible de θ. (̂) B. PRINCIPE DE L’ESTIMATION PAR INTERVALLE DE CONFIANCE Prenons la situation d’une population pour laquelle µ est estimée ponctuellement par la moyenne m d’un échantillon. m ~ N(µ,σ²/n) P(µ € [m-d , m+d]) = P(µ - d < m < µ + d) d= √ Si on fixe d, on pourra évaluer cette probabilité. De même, si on fixe cette probabilité, on pourra évaluer d. P(µ - 1σ/√n < m < µ + 1σ/√n) = 0,68 P(µ - 2σ/√n < m < µ + 2σ/√n) = 0,95 • P(µ - 3σ/√n < m < µ + 3σ/√n) = 0,997 R’biaa Yassine Page 64 Synthèse LECGE1114 20112012 C. INTERVALLE DE CONFIANCE POUR µ Soit une population de taille N pour laquelle nous désirons estimer la moyenne µ de la variable X. Soit m, la moyenne d’un échantillon de taille n choisi de façon aléatoire à partir de la population. • P(µ - d < m < µ + d) µ-d < m < -d <m-µ< -d-m < -µ < -d+m< µ < m-d < µ < µ+d d d-m d+m m+d • P(m - d < µ < m + d) = 1 – α Est appelé intervalle de confiance pour µ, déterminé avec un niveau de confiance à 1 – α * 100%. d = 100% - niveau de confiance α = d/100 d est la marge d’erreur (ME) α est le risque d’erreur (la probabilité que µ ne soit pas dans l’intervalle de confiance) On a une population de 500 000 conducteur avec comme écart-type des dommages σ = 150. Le montant annuel moyen des dommages est de m = 400€. Le niveau de confiance pour le montant annuel est à 95% pour des échantillons de tailles diverses. Trouvez l’intervalle de confiance. On a P(m-2σ/√n < µ < m+2σ/√n) = 0,95 On connait déjà m = 400 et σ = 150. Prenons comme échantillon n = 100 conducteurs (95%) 400-2x150/√100 et 400+2x150/√100 Intervalle : 370 – 430 Prenons comme échantillon n = 10000 conducteurs (95%) 400-2x150/√10000 et 400+2x150/√10000 Intervalle :397-403 R’biaa Yassine Page 65 Synthèse LECGE1114 20112012 D. INTERVALLE DE CONFIANCE POUR LA MOYENNE µ(σ ² CONNUE) Soit X une variable de moyenne µ et de variance σ² connue. Soit m la moyenne d’un échantillon aléatoire de cette population. Si X ~ (µ ; σ²) ou X ~ loi quelconque avec n≥30, l’intervalle de confiance sera ( avec ̅ √ ) ( √ ) √ si échantillonage avec ou sans remise et N très grand (N>20n ou n/N<0,05) ( Avec ̅ √ √ √ ) ( √ √ ) √ si échantillonage sans remise et N relativement petit (N<20n ou n/N>0,05) Si X ~ (µ ; σ²) ou X ~ loi quelconque avec n≥30, l’intervalle de confiance sera ̅ avec ̅ √ (avec remise) ou ̅ √ ̅ √ (sans remise) et k² = 1/α (Chebyshev) R’biaa Yassine Page 66 Synthèse LECGE1114 20112012 Valeurs courantes de z Nous avons noté z la valeur pour laquelle la fonction de répartition de la loi Normale centrée réduite est égale à 1-α/2. Le plus souvent, les intervalles de confiance calculés sont les intervalles à 95%, parfois 90% et plus rarement 99%. Voici les valeurs de z correspondantes pour ces cas les plus fréquents : intervalle de confiance à 90 % : z= 1,64485362695 ≈ 1,645 intervalle de confiance à 95 % : z= 1,95996398454 ≈ 1,960 intervalle de confiance à 99 % : z= 2,57582930355 ≈ 2,576 R’biaa Yassine Page 67 Synthèse LECGE1114 20112012 Le poids d’une variété de tomates est normalement distribué avec une variance de 225g². Le poids moyen d’un échantillon sans remise de 40 tomates est de 135g. Déterminez un intervalle de confiance pour le poids moyen de cette variété de tomates… a) avec un niveau de confiance à 95%. b) avec un niveau de confiance à 90%. On connaît : σ² = 225g² σ = 15 )d b) d n=40 m=135g v cα v cα De plus on a X~( µ,225) qui suit un loi normale, donc la lecture se fera sur la table N(0 ;1) L’échantillonage est sans remise avec n=40 >30, donc on utilisera la formule : ( avec ̅ et ̅ √ ) ( √ ) √ a) Niveau de confiance 95% avec [ ( √ ) ( √ )] b) Niveau de confiance 90% avec [ R’biaa Yassine ( √ ) ( √ )] Page 68 Synthèse LECGE1114 20112012 E. INTERVALLE DE CONFIANCE POUR LA MOYENNE µ(σ ² INCONNUE) Soit X une variable de moyenne µ et de variance σ² inconnue. Soit m la moyenne d’un échantillon aléatoire de cette population et d’écart-type . Si n≥30, l’intervalle de confiance pour µ au niveau (1-α) * 100% est donné par ̅ ̅ Si n<30 et X~loi normale (Student), l’intervalle de confiance pour µ au niveau (1-α) * 100% est donné par [ ̅] ̅ avec v=n-1(degré de liberté) Si n<30 et X~loi quelconque l’intervalle de confiance pour µ au niveau (1-α) * 100% est donné par ̅ ̅ avec k² = 1/α avec ̅ R’biaa Yassine √ (avec remise) ou ̅ √ √ (sans remise) Page 69 Synthèse LECGE1114 20112012 Le poids d’une variété de tomates est normalement distribué avec une variance de 212g². Le poids moyen d’un échantillon de 22 tomates est de 135g. On a un nouveau engrais pour cultiver des tomates.Déterminez un intervalle de confiance pour le poids moyen de la nouvelle variété de tomates avec un niveau de confiance à 95%. On connaît : σ² = 212g² σ = 14,56 n=22 m=135g v = 22-1 = 21. De plus on a X~N( µ, σ²) avec σ² inconnue pour la nouvelle culture. X suit une loi normale, la lecture se fera sur la table de Student car σ² est inconnue. [ √ ] √ F. INTERVALLE DE CONFIANCE POUR LA MOYENNE µ(σ ² INCONNUE) Soit X une population de taille N pour laquelle nous désirons estimer la proportion p (ou π) d’unités statistiques qui répondent à un certain critère. (p = y/n) Si n ≥30 , np ≥ 5 et n(1-p) ≥ 5, la lecture se fera sur la table de N(0 ;1) ( √ ) √ ( ) Si échantillonage sans/avec remise et N très grand. √ ( ) ( ) √ ( ) ( ) Si échantillonage sans remise et N relativement petit. R’biaa Yassine Page 70 Synthèse LECGE1114 20112012 Lors d’un contrôle de qualité concernant le fonctionnement de souris d’ordinateur, 113 souris sont déclarées non fonctionnelles sur un échantillon aléatoire de 1200 souris. Estimez, pour l’ensemble de souris fabriquées par la compagnie, la proportion de souris non fonctionnelles avec un niveau de confiance à 95%. On a : n= 1200 y=113 p = 113/1200 = 0,094 q = 1200*(1-p) = 0,91 Examinons les conditions permettant l’approximation de la loi P par un loi normale : n = 1200 > 30 np = 1200 * 0,094 = 113 > 5 N = 20n = 24000 >>> et nq = 1200* 0,91 = 1087 >5 donc la lecture se fera sur la table de N(0 ;1) avec la formule : ( √ ) √ ( ) Ainsi, l’intervalle de confiance sera : [ R’biaa Yassine √ ( ) √ ( ) ] Page 71 Synthèse LECGE1114 20112012 G. MARGE D’ERREUR PRÉDÉTERMINÉE ET TAILLE D’ÉCHANTILLON Le calcul de la marge d’erreur : Intervalle de confiance pour une moyenne m ( ̅ ): √ Intervalle de confiance pour une proportion p ( ̅ ): √ ou √ ( ) On s’aperçoit dans les 2 cas qu’on a pas le contrôle sur la valeur critique z car elle dépende du niveau confiance choisi. Le niveau de confiance est fixé selon des normes souvent reliés à l’étude elle-même et il est connu avant même le début de l’étude. Si on fixe à l’avance la valeur maximale que nous aimerions avoir pour ME, on peut établir la taille d’échantillon nécessaire pour y arriver. Taille d’échantillon – intervalle de confiance pour µ Comme √ alors √ ou encore ( ) Puisque z est fixée par le niveau de confiance, si on fixe la valeur pour ME, on connaîtra la taille d’échantillon nécessaire si on connaît la valeur de σ. R’biaa Yassine Page 72 Synthèse LECGE1114 20112012 L’industrie pour laquelle vous travaillez vient d’acquérir une nouvelle machine-outil pour découper les tiges de métal nécessaires à la fabrication d’essieux. La notice du fabricant assure que la longueur des tiges coupées suit une loi normale avec un écart-type de 0,15mm, Avant de lancer toute la production, vous désirez avoir une idée très précise sur la longueur moyenne des tiges qui seront coupées. Sachant que vous travaillez avec un niveau de confiance de 99%, déterminez la taille d’échantillonn nécessaire pour cerner cette longueur avec une précision inférieure à 0,02mm. On connaît : = 0,15 α NdC = 99% ME = 0,02 = 2,575 alors ( ) ≥( )² = 372,97 L’échantillon devra donc avoir une taille n d’au moins 373 tiges. Taille d’échantillon – intervalle de confiance pour p √ On a z est déterminé par le niveau de confiance. Si on décide d’imposer à l’avance une valeur maximale pour ME, nous avons besoin des valeurs p et q, qui sont inconnues. Nous pouvons cependant évaluer la maximale du produit p*q. L’évaluation est faite à partir de l’étude de la fonction f(p) = p(1-p) et le résultat trouvé est 0,5. Donc p*q = (0,5)². √ ( ) ou encore n = ( R’biaa Yassine ( √ ) √ ↔ √ ) Page 73 Synthèse LECGE1114 20112012 En période électorale, une firme veut effectuer un sondage sur les intentions de vote des électeurs avec un niveau de confiance à 95% et que la marge d’erreur maximale est de 0,03. Quelle taille minimale d’échantillon devra-t-elle former pour son étude ? On connaît : ME = 0,03 NdC=95% α = 0,05 = 1,96 Alors n=( ) ( ) Donc si n≥1068, la marge d’erreur maximale sera de 3%. R’biaa Yassine Page 74 Synthèse LECGE1114 20112012 7. TEST D’HYPOTHÈSE Un test d’hypothèse est un procédé d’inférence permettant de contrôler (accepter ou rejeter) à partir de l'étude d'un ou plusieurs échantillons aléatoires, la validité d’hypothèses relatives à une ou plusieurs populations. Les méthodes de l’inférence statistique nous permettent de déterminer, avec une probabilité donnée, si les différences constatées au niveau des échantillons peuvent être imputables au hasard ou si elles sont suffisamment importantes pour signifier que les échantillons proviennent de populations vraisemblablement différentes. Les tests d’hypothèses font appel à un certain nombre d’hypothèses concernant la nature de la population dont provient l’échantillon étudié (normalité de la variable, égalité des variances, etc). A. HYPOTHÈSE NULLE (H0) ET HYPOTHÈSE ALTERNATIVE (H1) L’hypothèse selon laquelle on fixe à priori un paramètre de la population à une valeur particulière s’appelle l’hypothèse nulle et est notée H0. N’importe quelle autre hypothèse qui diffère de l’hypothèse H0 s’appelle l’hypothèse alternative et est notée H1. C’est l’hypothèse nulle qui est soumise au test et toute la démarche du test s’effectue en considérant cette hypothèse comme vraie. H0 et H1 constituent S. B. SEUIL DE SIGNIFICATION Le risque, consenti à l’avance et que nous notons α de rejeter à tort l’hypothèse nulle H0 alors qu’elle est vraie, s’appelle le seuil de signification du test et s’énonce en probabilité ainsi : ( | ). ou ( | ). A ce seuil de signification, on fait correspondre sur la distribution d’échantillonnage de la statistique une région de rejet de l’hypothèse nulle (appelée également région critique). L’aire de cette région correspond à la probabilité α. Si par exemple, on choisit α = 0.05, cela signifie que l’on admet d’avance que la variable d’échantillonnage peut prendre, dans 5% des cas, une valeur se situant dans la zone de rejet de H0, bien que H0 soit vraie et ceci uniquement d’après le hasard de l’échantillonnage. Sur la distribution d’échantillonnage correspondra aussi une région complémentaire, dite région d’acceptation de H0 (ou région de non-rejet) de probabilité 1− α. Les seuils de signification les plus utilisés sont α = 0.05 et α = 0.01 ,dépendant des conséquences de rejeter à tort l’hypothèse H0. R’biaa Yassine Page 75 Synthèse LECGE1114 20112012 C. RÈGLE DE DÉCISION Pour confronter notre hypothèse H0 : µ = µ0, on choisira de façon aléatoire un échantillon, on y calculera la moyenne ̅ afin de comparer à µ0. Si la valeur de ̅ s’avère être « près de la valeur µ0 », on optera pour l’hypothèse H0 (Status quo) Si la valeur de ̅ s’avère être « loin de la valeur µ0 », on optera e rejeter l’hypothèse H0. Examinons ce que signifient « près de la valeur µ0 » et « loin de la valeur µ0 ». (Pour µ0=2,5) Test bilatéral H0 : µ = µ0 et H1 : µ≠ µ0 Si ̅ Si ̅ R’biaa Yassine Page 76 Synthèse LECGE1114 20112012 Test unilatéral à droite H0 : µ = µ0 et H1 : µ > µ0 Si ̅ Si ̅ Test unilatéral à droite H0 : µ = µ0 et H1 : µ < µ0 Si ̅ Si ̅ R’biaa Yassine Page 77 Synthèse LECGE1114 20112012 D. TEST DE COMPARAISON Test de comparaison d’une moyenne µ à une valeur µ0 Les étapes à suivre Examen de la situation : Définir la variable X à laquelle le paramètre µ est rattaché et établir ce qu’on connaît à son sujet. En identifiant la valeur µ0, formuler les hypothèses H0 et H1 Dévoiler le seuil de signification α désiré Vers la règle de décision : Définir le cas d’hypothèse et quelle loi suivre. En supposant que H0 est vraie, dessiner la courbe de ̅ , centrée en µ=µ0 et identifier les zones d’acceptation et de rejet de Ho, de même que l’aire de chacune. Déterminer les frontière de ces zones à l’aide de l’écart-type et de la valeur critique qui sera utilisée comme multiple de l’écart type. Formuler clairement la règle de décision. Prise de décision : Identifier la valeur moyenne ̅ de l’échantillon, valeur prise par ̅ Prendre la décision : accepter ou rejeter H0. R’biaa Yassine Page 78 Synthèse LECGE1114 20112012 Un employé, responsable du contrôle de la qualité des lampes électriques, doit tester avec un seuil de signification de 5%, la durée moyenne de 2500 heures d’une certaine marque de lampe de 60 watts. Il sait que la durée de vie de ces lampes suit une loi normale d’écart-type 55 heures. La moyenne obtenue pour un échantillon de 20 lampes est de 2479 heures. Que décidera-t-il ? X = heures Hypothèse : Ho : µ = 2500h H1 : µ ≠ 2500h Seuil de signification : 5% h d n = 20 lampes x = 2479h On a un test bilatéral car l c ’ c t êt à f b q durée de vie moyenne supérieur ou inférieur à la valeur déclarée. d s s y t On a X~(µ ;55²) ̅ ( √ ) Et ainsi 2500-d = 2475,90 et 2500+d = 2524,10 Règle de décision : accepter H0 si 2475 ,90 < 2479 < 2524,10 Prise de décision : Puisque x=2479h, l’employé décide d’accepter Ho et déclare que la durée de vie moyenne du lot de lampes est conforme à la valeur théorique déclarée de 2500h. R’biaa Yassine Page 79 Synthèse LECGE1114 20112012 Test de comparaison d’une proportion p à une valeur p0 Les étapes à suivre Examen de la situation : Définir la population et la proportion p à examiner. En identifiant la valeur p0, formuler les hypothèses H0 et H1 Dévoiler le seuil de signification α désiré Vers la règle de décision : Définir le cas d’hypothèse et quelle loi suivre. En supposant que H0 est vraie, dessiner la courbe de ̅ , centrée en p = p0 et identifier les zones d’acceptation et de rejet de Ho, de même que l’aire de chacune. Déterminer les frontière de ces zones à l’aide de l’écart-type et de la valeur critique qui sera utilisée comme multiple de l’écart type. Formuler clairement la règle de décision. Prise de décision : Identifier la valeur moyenne ̅ de l’échantillon, valeur prise par ̅ Prendre la décision : accepter ou rejeter H0. R’biaa Yassine Page 80 Synthèse LECGE1114 20112012 Statec rapporte qu’en 2003 au Luxembourg, la proportion de naissances issue de parents non mariés atteignait 59,2%. Le Service de planification des naissances croit que cette proportion était plus petite dans sa région. En utilisant un seuil de 5%, peut-on confirmer cette croyance si un échantillon de 55 naissances choisies parmi toutes les naissances ayant eu lieu en 2003 révèle que 52,2% d’entre elles sont issues de parent non mariés ? p : proportion de naissances Hypothèses : H0 : p = 0,592 H1 : p = < 0,592 Seuil de signification : 5% q = 100-p =0,408 NdC = 95% On a un test unilatéral à gauche car ils croient que cette proportion était plus petite dans sa région. n = 55 > 30 np = 55*0,592 = 32,56 >5 nq = 55*0,408 = 22,44 >5 N= 20*55 = 1100 >>> donc P suit une loi normale. ̅ (√ ) Ainsi 0,592-d = 0,472 Règle de décision : accepter H0 si p > 0,472 Prise de décision : p= 0,592 > 0,472 donc on décide d’accepter. R’biaa Yassine Page 81 Synthèse LECGE1114 20112012 E. TEST DE COMPARAISON SUR DEUX ÉCHANTILLONS INDÉPENDANTS Test de comparaison des moyennes µ1 et µ2 de deux populations. Les étapes à suivre Examen de la situation : Définir la variable X1 et X2 auxquelles sont rattachées les paramètres µ1 et µ2 et établir ce qu’on connaît à leur sujet. Formuler les hypothèses H0 et H1 Dévoiler le seuil de signification α désiré Vers la règle de décision : Définir le cas d’hypothèse et quelle loi suivre. En supposant que H0 est vraie, dessiner la courbe de ̅̅̅̅ ̅̅̅̅ , centrée en et identifier les zones d’acceptation et de rejet de Ho, de même que l’aire ̅̅̅̅ ̅̅̅̅ de chacune. Déterminer les frontière de ces zones à l’aide de l’écart-type et de la valeur critique qui sera utilisée comme multiple de l’écart type. Formuler clairement la règle de décision. Prise de décision : Identifier la valeur moyenne ̅̅̅ Prendre la décision : accepter ou rejeter H0. R’biaa Yassine ̅̅̅ de l’échantillon, valeur prise par ̅̅̅̅ ̅̅̅̅ Page 82 Synthèse LECGE1114 20112012 Un manufacturier de rouleaux de tapisserie effectue des essais afin de savoir si l’additif d’un certain produit réduit le temps de séchage de la colle qu’il applique à l’endos de ses rouleaux prêt-à-poser. La même semaine, dans des conditions semblables, on fait l’essai de 22 pièces de tapisserie du produit original et de 18 du produit modifié. On sait que le temps de séchage du produit suit une loi normale d’écart type 32 minutes et on présume que l’additif n’a pas eu d’effet sur la dispersion des données. En utilisant un seuil de 5%, peut-on penser que le temps de séchage est réduit significativement si le temps moyen de séchage du produit original a été de 143 minutes tandis que le temps moyen des autres a été de 129 minutes ? X1 : temps moyen de séchage du produit original X2 : temps moyen de séchage du produit modifié Hypothèses : H0 : µ1 = µ2 H1 : µ1 > µ2 Seuil de signification : 5% On a un test unilatéral à droite car si l’additif d’un certain produit réduit le temps de séchage. X1 et X2 suivent une loi normale. ̅̅̅̅ ̅̅̅̅ ( √ Règle de décision : accepter H0 si ̅̅̅ Prise de décision ̅̅̅ ̅̅̅ R’biaa Yassine ) ( √ ) ̅̅̅ < 16,73 donc on accepte H0. Page 83 Synthèse LECGE1114 20112012 Test de comparaison des proportions p1 et p2 de deux populations. L’an dernier, sur un échantillon aléatoire de 254 personnes ayant fait une réservation dans un restaurant. 198 d’entre elles ont demandé une table dans la section non-fumeur. Cette année, sur un échantillon de 322 personnes, il y en a eu 265. Peut-on conclure avec un seuil de 10% que la proportion des demandes pour la section non-fumeur à augmenter ? p1 : proportion des demandes de section non fumeur l’an dernier p2 : proportion des demandes de section non fumeur de cette année Hypothèse : H0 : p1 = p2 H1 : p1< p2 Seuil de signification : 10% n1 = 198 > 30 et n2=277>30 p1=198/254=0,78 et p2=277/322=0,86 n1*p1 et n2*p2 >5 n1*q1 et n2*q2 >5 donc P1 et P2 suivent une loi normale. ̅̅̅ ̅̅̅̅ ̅̅̅̅ ̅̅̅ ̅̅̅̅ ̅̅̅̅ ̅̅̅ (√̅̅̅ ̅̅̅ ( (√ Prise de décision : ̅̅̅ ̅̅̅ )) ( )) < -d = - 0,04 donc on rejette. La proportion de demandes a augmenté. R’biaa Yassine Page 84 Synthèse LECGE1114 20112012 F. TEST DE VALIDITÉ Loi du Chi-Carré χ Soit Zi, n variables centrées réduites. (Zi~N(0 ) … ) Soit ∑χ Alors Υ suit une loi du chi-carré avec v=n-1 degré de liberté, et on écrit : Υ~ Les étapes à suivre Examen de la situation : Identifier le modèle théorique à valider et formuler les hypothèses H0 et H1. Déterminer les fréquences désirés ou théoriques Dévoiler le seuil de signification α désiré Vers la règle de décision : ) -1- (# paramètre estimés pour Déterminer v = (# de fo utilisées dans le calcul de le modèle théorique) Déterminer , le chi-deux critique se trouvant à la frontière des zones d’acceptation et de rejet selon le seuil de signification. Déterminer les frontière de ces zones à l’aide de l’écart-type et de la valeur critique qui sera utilisée comme multiple de l’écart type. Formuler clairement la règle de décision. Prise de décision : Calculer la somme des écarts, d= ∑ ( ) ( ) Prendre la décision : accepter ou rejeter H0. R’biaa Yassine Page 85 Synthèse LECGE1114 20112012 Le générateur de nombres aléatoires d’une calculatrice nous a fourni les chiffres 0,1,2,…,9 avec les fréquences apparaissant ci-dessous. Fréquences observés 0 16 1 21 2 19 3 22 4 20 5 18 6 23 7 21 8 17 9 23 Total 200 Avec un seuil de 5%, peut-on penser que ce générateur fonctionne correctement ? Théoriquement, chacun de ces chiffres devrait apparaître un même nombre de fois, à savoir 20 fois : ces fréquences seront les fréquences espérées, notées fe. Hypothèse ; H0 : Le modèle suit une loi uniforme H1 : Le modèle ne suit pas une loi uniforme Détermination des fréquences espérées. Les 10 chiffres devraient apparaître chacun un même nombre de fois, d’où… 0 1 2 3 4 5 Fréquences 16 21 19 22 20 18 observées Fréquences 20 20 20 20 20 20 espérées Nous avons bien fe>5, pour toutes les fréquences fe. 6 23 7 21 8 17 9 23 Total 200 20 20 20 20 200 Seuil de signification : 5% v = (# de fo utilisées dans le calcul de v= 10 – 1 – 0 =9 ) -1- (# paramètre estimés pour le modèle théorique) On regarde le table de la loi du chi-carré avec v=9 et α=0,05 et on obtient 16,92 Donc la règle de décision : accepter H0 si rejeter H0 sinon < 16,92 Prise de décision : ∑ ( ) ( ) ( ) ( ) donc on affirme que ce générateur suit un loi uniforme. R’biaa Yassine Page 86 Synthèse LECGE1114 20112012 G. TEST D’INDÉPENDANCE DE DEUX CRITÈRES On a déjà vue ce genre de test lorsqu’on examine l’indépendance d’événement. Son déroulement sera identique au test que nous venons de voir, sauf que les fréquences observées seront dans un tableau de ( ) ( ). contingence, et que les fréquences théoriques s’effectueront à l’aide de ( ∩ ) Claude et Mélanie se sont intéressés aux résultats scolaires de 120 étudiants et à leurs habitudes concernant le tabac. Le résultats obtenus : Résultats scolaires Usage du tabac RE RS RM Total FB 8 15 7 30 FM 9 19 8 36 FP 6 34 14 54 Total 23 68 29 120 RE :résultats excellents FM : fume modérément FB : fume beaucoup RM : résultats médiocre RS : résultats satisfaisant FP : ne fume pas Mélanie et Claude croient qu’il y a indépendance entre les résultats scolaires et la consommation de tabac. Peuvent-ils l’affirmer avec un seuil de 10%. Hypothèse ; H0 : Le résultat scolaires et la consommation de tabac sont indépendants H1 : Les résultats scolaires et la consommation de tabac ne sont pas indépendants Détermination des fréquences désirés On supposant l’indépendance entre ces événements, si A est un événement de la 1e variable et B un de la 2e nous aurons ( ∩ ) ( ∩ ) ( ) ( ) Donc, ( ( ( ( ( ∩ ∩ ∩ ∩ ∩ ) ) ) ) ) R’biaa Yassine ( ( ( ( ∩ ∩ ∩ ∩ ) ) ) ) Page 87 Synthèse LECGE1114 20112012 Seuil de signification : 10% v = (# de fo utilisées dans le calcul de ) -1- (# paramètre estimés pour le modèle théorique) Ici les paramètres estimés sont les probabilités d’événements de chaque variable, ceux que nous retrouvons en ligne et en colonne. Pour n lignes et m colonnes on aura : v= nm-1-((n-1) + (m-1)) v= nm-1-n+1+m+1 v= nm-n+m+1 v = (n-1) (m-1) v= (3-1) (3-1) = 4 On regarde le table de la loi du chi-carré avec v=4 et α=0,1 et on obtient 7,78 Donc la règle de décision : < 7,78 accepter H0 si rejeter H0 sinon Valeurs estimés Résultats scolaires Usage du tabac RE RS RM Total FB 5,75 17 7,25 30 FM 6,9 20,4 8,7 36 FP 10,35 30,6 13,05 54 Total 23 68 29 120 Valeurs observés Résultats scolaires Usage du tabac RE RS RM Total FB 8 15 7 30 FM 9 19 8 36 FP 6 34 14 54 Total 23 68 29 120 ∑ ( ) ( ) donc on affirme que les résultats scolaires et la consommation de tabac sont indépendants. R’biaa Yassine Page 88 n'hésite pas à aider tes camarades! upload tes docs & notes via [email protected]