Probabilités et statistiques Par Paul CHEGE African Virtual university Université Virtuelle Africaine Universidade Virtual Africana Université Virtuelle Africaine Note Ce document est publié sous une licence Creative Commons. http://en.wikipedia.org/wiki/Creative_Commons Attribution http://creativecommons.org/licenses/by/2.5/ License (abréviation « cc-by »), Version 2.5. Université Virtuelle Africaine Table des matières I. Probabilités et statistiques_ ___________________________________ 3 II. Prérequis / connaissances préalables nécessaires__________________ 3 III. Volume horaire/temps________________________________________ 3 IV. Matériels didactiques_ _______________________________________ 3 V. Justification/Importance du module_____________________________ 3 VI. Contenu__________________________________________________ 5 6.1 Résumé________________________________________________ 5 6.2 Contour/grandes lignes____________________________________ 6 6.3 Représentation graphique__________________________________ 7 VII. Objectif général_____________________________________________ 8 VIII. Objectifs spécifiques aux activités d’apprentissage__________________ 8 IX. Activités d’enseignement et d’apprentissage_______________________ 10 X. Concepts-clés (glossaire)_____________________________________ 13 XI. Lectures obligatoires_________________________________________ 20 XII. Ressources obligatoires______________________________________ 22 XIII. Liens utiles________________________________________________ 23 XIV. Activités d’apprentissage_ ____________________________________ 25 XV. Synthèse du module________________________________________ 119 XVI. Évaluation sommative_______________________________________ 120 XVII.Références bibliographiques__________________________________ 128 XVIII.Fiche d’évaluation__________________________________________ 129 XIX. Auteur du module__________________________________________ 129 XX. Structure _ _______________________________________________ 130 Université Virtuelle Africaine I. Probabilités et statistiques Par Paul Chege II. Prérequis/ connaissances préalables nécessaires Cours de statistiques et probabilités au secondaire. III.Volume horaire/temps La durée de ce module est de 120 heures. IV.Matériels didactiques Les étudiants devraient avoir accès aux lectures mentionnées plus loin. De plus, ils auront besoin d’un ordinateur pour avoir accès à ces lectures. Par ailleurs, les étudiants devraient pouvoir installer le logiciel wxMaxima et l’utiliser pour pratiquer des concepts algébriques. Ils doivent également avoir accès au logiciel du microsoft office Excel qui traite les lois de probabilités usuelles, les tests statistiques, et analyses statistiques descriptives et inférentielles classiques. V. Justification/Importance du module Les probabilités et les statistiques, en plus d’être un élément clé dans l’enseignement au secondaire, fournissent un bagage important pour les mathématiques avancées au niveau tertiaire. Les statistiques font partie de la base des mathématiques appliquées dans la plupart des sujets académiques et sont très utiles pour l’analyse dans des industries de production. Les spécialistes de statistiques appelés statisticiens analyseront des données brutes cueillies dans le domaine pour fournir un aperçu sur le comportement de la population. Les statistiques fournissent aux gouvernements et aux organisations un résumé concret d’une situation qui aidera les dirigeants à prendre une décision. Par exemple, le taux de propagation des maladies, des rumeurs, des incendies de forêt, la modélisation de la pluviométrie et les évolutions de population ou le mouvement démographique. Université Virtuelle Africaine D’autre part, l’étude des probabilités aidera à la prise de décision des agents gouvernementaux et des organisations basées sur la théorie de la chance. Par exemple : prédire les sexes nouveau-nés sur une certaine période et projeter le niveau de la quantité des pluies sur des régions, eu égard aux données historiques sur le sujet. Les probabilités sont aussi utilisées dans le choix du niveau de qualité de certains produits dans la production industrielle, (comme) par exemple, le nombre de pièces défectueuses prévues dans le processus manufacturier d’une industrie. Enfin, à un niveau plus avancé, en cette ère de la nouvelle technologie de l’information, grâce à la puissance accrue des ordinateurs et à la performance des algorithmes pour traiter de gros volumes des données, l’étude statistique des tickets de caisse permet de mieux optimiser la liquidation des articles dans une grande surface en tenant compte des associations des produits vendus. Cela relève du domaine communément appelé la fouille des données ou le data mining qui traite différents types des données, données qualitatives et / ou quantitatives, et qui comprend plusieurs méthodes telles l’analyse des règles d’association, les analyses factorielles de composantes principales, de correspondances, etc. Dans ce module de cours, on se limitera essentiellement à l’étude des données quantitatives. Le logiciel Excel du microsoft office fait partie d’outils didactiques à travers son module Outils/Utilitaires d’Analyses. Université Virtuelle Africaine VI.Contenu 6.1 Résumé Ce module est divisé en trois unités : Unité 1 : Les statistiques illustrées (qualificatives**) et la distribution de probabilités Les statistiques illustrées dans l’unité 1 sont développées, soit par extension aux mathématiques au niveau secondaire, soit comme une introduction pour ceux qui apprennent les statistiques pour la première fois. Cette unité introduit la mesure de la dispersion dans les statistiques. Elle introduira aussi les concepts de probabilités et le traitement théorique des probabilités. Unité 2 : Les variables aléatoires et la distribution Cette unité requiert l’unité 1 en prérequis. Elle parle du moment et des fonctions produisant le moment, les inégalités de Markov et Chebychev, les distributions spéciales à une variable, les distributions des probabilités à deux variables et l’analyse des probabilités conditionnelles. Cette unité donne un aperçu sur l’analyse des coefficients de corrélation linéaires et la distribution des fonctions de variables aléatoires, comme, par exemple, le khi carré, T et F. Utilisation de Excel sous Outils/ Utilitaires d’analyse. Unité 3 : La théorie des probabilités Cette unité a été conçue à partir de l’unité 2. Elle analyse la probabilité en utilisant un indicateur de fonctions. Elle introduit les vecteurs aléatoires inégaux de Bonferoni, les fonctions de production, les fonctions caractéristiques et les échantillons aléatoires de statistiques indépendantes. Cette unité montre en détail les concepts de fonctions de plusieurs variables et l’indépendance de X et de S2 dans des échantillons gaussiens de statistiques d’ordre. Cette unité résume le traitement de divers modes de convergence et des théorèmes limites. Université Virtuelle Africaine 6.2 Contour/grandes lignes Unité 1 (40 heures) : Les statistiques illustrées et la distribution de probabilités Niveau 1. Priorité A. Sans prérequis. La fréquence des distributions relatives et cumulatives, les courbes à fréquence variables, les moyennes, le mode et la médiane. Les quartiles et les percentiles, les écarts-types, les distributions symétriques et asymétriques. La probabilité; les échantillonnages et les événements; la définition des probabilités; les propriétés des probabilités; les variables aléatoires; la probabilité des distributions; Bernouli, lois binômiales, lois de Poisson, lois géométriques, lois hypergéométriques, lois uniformes, lois exponentielles et lois normales. Des distributions à deux variables. Les tables des lois de probabilité jointes et les lois de probabilité marginales. Unité 2 (40 heures) : Les variables aléatoires et la distribution Niveau 2. Priorité B. Prérequis : Statistiques 1. Moments et fonction génératrice de moments. Les inégalités de Markov et Chebychev, des distributions univariées spéciales. La probabilité de distributions à deux variables; les distributions marginales et conditionnelles communes; l’indépendance; l’anticipation de la régression et de la corrélation à deux variables; l’analyse de la régression et du coefficient de corrélation pour des données à deux variables. La distribution de variables aléatoires, la distribution normale à deux variables. Les distributions dérivées comme le khi carré, T. et F. Unité 3. (40 heures) : La théorie des probabilités Niveau 3. Priorité C. Prérequis : Statistiques 2. Probabilités : Utilisation des fonctions indicatrices. Les inégalités de Bonferoni et les vecteurs aléatoires. Les fonctions génératrices. Les fonctions caractéristiques. L’indépendance des statistiques et échantillons aléatoires. La distribution multinomiale. Les fonctions de plusieurs variables aléatoires. L’indépendance de X et de S2 dans des échantillons normaux. Statistique d’ordre. Lois normales multidimensionnelles. Convergence et théorèmes limites. Exercices pratiques. € Université Virtuelle Africaine 6.3 Représentation graphique de l’organisation Variance et écart type La moyenne, le mode et la médiane Les indicateur s de fonctions Les inégalités de Bonferoni, les vecteurs aléatoires Les fonctions génératrices et caractéristiques et les échantillons aléatoires Loi multinomiale, les fonctions de variables aléatoires DONNÉES Les probabilités La probabilité des distributions Les lois multidimensionnelles , la convergence et théorèmes limites Les courbes à fréquence variable, les quartiles et les percentiles Le moment et fonction génératrice des moments Les lois marginales et conditionnelles usuelles La régression et la corrélation Les tableaux de probabilités usuelles Les inégalités de Markov et de Chebychev Les lois à une variable et à deux variables Les distributions dérivées, le khi deux, t et F. Université Virtuelle Africaine VII. Objectif général À la fin de ce module, l’étudiant devrait être en mesure de calculer les différentes mesures de dispersions dans les statistiques et d’effectuer des probabilités basées sur les lois de la probabilité, de faire des tests sur des données en utilisant les théories de la probabilité. VIII. Objectifs spécifiques aux activités d’apprentissage Unité 1 : Les statistiques illustrées et la distribution de probabilités (40 heures) À la fin de l’unité 1, l’étudiant devrait être en mesure de : • Dessiner diverses courbes de fréquences • Trouver la moyenne, le mode, la médiane, les quartiles, les percentiles et les écarts-types de données regroupées • Définir et énoncer les propriétés des probabilités • Illustrer des variables aléatoires, des probabilités de distributions, et les valeurs attendues de variables aléatoires • Illustrer les distributions de Bernoulli, les lois binomiales, lois de Poisson, lois géométriques, hypergéométriques, uniformes, exponentielles et normales • Faire des enquêtes sur les fréquences de distribution à deux variables • Construire des tableaux de probabilités communes et marginales Unité 2 : Les variables aléatoires et la distribution (40 heures) À la fin de l’unité 2, l’étudiant devrait être en mesure de : • Illustrer le moment et le moment générant des fonctions • Analyser les inégalités de Markov et de Chebychev • Examiner les distributions spéciales à une variable, les probabilités de distributions à deux variables, les distributions marginales communes et conditionnelles • Montrer l’indépendance, l’anticipation à deux variables, la régression et la corrélation • Analyser la régression et la corrélation du coefficient pour des données à deux variables • Montrer les fonctions de distribution de variables aléatoires • Examiner les distributions normales à deux variables • Illustrer les distributions dérivées comme le khi carré, T et F. Université Virtuelle Africaine Unité 3 : La théorie des probabilités (40 heures) À la fin de l’unité 3, l’étudiant devrait être en mesure de : • • • • • • • • • Utiliser des indicateurs de fonctions dans les probabilités Montrer les inégalités de vecteurs aléatoires de Bonferoni Illustrer les fonctions génératrices et caractéristiques Examiner l’indépendance d’échantillons aléatoires de statistiques et les distributions multinomiales Évaluer les fonctions de plusieurs variables aléatoires Illustrer l’indépendance de X et de S2 dans des échantillons normaux de statistiques Montrer les distributions normales multidimensionnelles Illustrer la convergence et les théorèmes limites Faire des exercices pratiques Université Virtuelle Africaine 10 IX.Activités d’enseignement et d’apprentissage 9.1 Évaluation préliminaire/initiale Les mathématiques de base constituent un prérequis pour les probabilités et les statistiques. Questions 1. Lorsqu’un dé est lancé, la probabilité d’avoir un nombre supérieur à 4 est de : a. b. c. d. 1/6 1/3 1/2 1 2. Une seule carte est tirée au hasard d’un paquet de cartes. Trouvez la probabilité de tirer une reine. a. b. c. d. 1/13 1/52 4/13 1/2 3. Sur 100 nombres, il y avait vingt 4, quarante 5, trente 6 et le restant étaient des 7. Trouvez la moyenne arithmétique des nombres. a. b. c. d. 0.22 0.53 2.20 5.30 4. Calculez la moyenne des données suivantes : Grandeur (cm) 60-62 63-65 66-68 69-71 72-74 a. b. c. d. 57.40 62.00 67.45 72.25 Indice de classement (x) 61 64 67 70 73 Université Virtuelle Africaine 11 5. Trouvez le mode des données suivantes : 5, 3, 6, 5, 4, 5, 2, 8, 6, 5, 4, 8, 3, 4, 5, 4, 8, 2, 5 et 4é a. b. c. d. 4 5 6 8 6. L’étendue des valeurs qu’une probabilité peut présumer est : a. b. c. d. De 0 à 1 De -1 à +1 De 1 à 100 De 0 à ½ 7. Trouvez la médiane des données suivantes : 8, 7, 11, 5, 6, 4, 3, 12, 10, 8, 2, 5, 1, 6, 4. a. b. c. d. 12 5 8 6 8. Trouvez l’étendue de ces chiffres : 7, 4, 10, 9, 15, 12, 7, 9. a. b. c. d. 9 11 7 8.88 9. Lorsque deux pièces de monnaie sont lancées, l’espace d’échantillon est : a. b. c. d. P, F et PF PP, PF, FP, FF PP, PF, FF P, F 10. Si une lettre est sélectionnée au hasard dans le mot « Mississippi », trouvez la probabilité que ce soit un « i ». a. b. c. d. 1/8 1/2 3/11 4/11 Université Virtuelle Africaine 12 Corrigé 1. B 2. A 3. D 4. C 5. B 6. A 7. D 8. B 9. B 10. D Commentaires pédagogiques pour les étudiants Cette évaluation préliminaire a été conçue pour donner un aperçu aux étudiants sur ce qu’ils peuvent se rappeler en probabilités et en statistiques. Une note inférieure à 50 % dans cette évaluation préliminaire indique que l’élève doit réviser les probabilités et les statistiques vues en mathématiques du niveau secondaire. L’évaluation préliminaire couvre les concepts de base que les étudiants doivent connaître avant de continuer dans ce module. Si vous avez eu des problèmes avec cette évaluation, vous devriez réviser les probabilités et statistiques vues en mathématiques du secondaire, et vous devriez maîtriser les bases. Université Virtuelle Africaine 13 X. Concepts-clés (glossaire) Absolument exclusifs / incompatibles : Deux événements sont mutuellement exclusifs s’ils ne peuvent pas intervenir en même temps. La variance d’un ensemble de données est définie comme le carré de l’écart -type. Ex. : variance = s2. Essai : Ce terme se rapporte à une activité qui applique une expérience, comme, par exemple, prendre une carte dans un paquet de 52 cartes ou lancer un ou plusieurs dés. Espace d’échantillon ou univers des possibles: Ce terme désigne toutes les possibilités d’une expérience de probabilités. On l’appelle l’événement certain ou l’événement sûr attaché à l’expérience considérée. Ex. : En laçant une pièce de monnaie, le résultat sera soit pile (P) ou face (F). Variable aléatoire : C’est une fonction qui assigne un nombre réel à tous les résultats possibles d’une expérience aléatoire. Échantillon aléatoire : Il est choisi par une méthode qui fait intervenir un élément imprévisible. Distribution de Bernoulli : C’est une probabilité discrète qui prend la valeur 1 avec la probabilité du succès p, et la valeur 0 avec la probabilité d’échec q = 1 – p. Distribution binomiale : C’est une distribution de probabilités discrètes qui exprime la probabilité d’un nombre de succès dans une séquence de n essais indépendants d’expériences de Bernoulli, c’est-à-dire à deux issues exclusives oui / non, selon laquelle chaque essai produit un succès avec la probabilité p. Distribution hypergéométrique : C’est une distribution de probabilités discrètes qui décrit le nombre de succès dans une séquence n tirée à partir d’une population finie sans remplacement. Distribution de Poisson : C’est une distribution de probabilités discrètes qui exprime la probabilité qu’un nombre d’évènements qui se produisent dans une période de temps prédéterminée, si ces évènements se produisent avec un taux moyen connu, et ils sont indépendants du temps depuis le dernier évènement. C’est une loi des événements rares. Corrélation : C’est une mesure d’association entre deux variables. Régression : C’est la relation fonctionnelle explicite qui existe entre une variable dépendante et une variable indépendante. Université Virtuelle Africaine 14 Khi carré : C’est n’importe quel test d’hypothèse statistique dans lequel le test de statistiques a une distribution khi carré lorsque l’hypothèse nulle est vrai, ou lorsque la distribution de probabilités du test de statistique (en prenant pour acquis que l’hypothèse soitvraie) peut être faite pour estimer une distribution khi carré au près que voulu en faisant un espace d’échantillon assez grand. Distribution normale à plusieurs variables : C’est une distribution de probabilités spécifique qui peut faire penser à la généralisation de plus grandes dimensions que la distribution normale unidimensionnelle. Test T : C’est n’importe quelle hypothèse de statistique pour deux groupes dans lequel le test de statistiques a une distribution d’un élève t lorsque l’hypothèse nulle est vraie. Termes de statistiques 1. Donnée brute : C’est une donnée qui n’a pas été classée numériquement. 2. Série statistique : C’est un arrangement de données brutes et de données numériques dans un ordre ascendant de magnitude. 3. Étendue : C’est la différence entre le plus gros et le plus petit nombre dans des données. 4. Intervalle de classe : Dans une étendue de données regroupées. Ex. : 21-30, 31-40, etc.), alors 21-30 sera l’intervalle de classe. 5. Limites de classe : Dans l’intervalle de classe de 21-30, 21 et 30 sont appelés les limites de classe. 6. Limites inférieures de classe (l.i.c.) : Dans l’intervalle de classe 21-30, la limite inférieure de classe est 21. 7. Limites supérieures de classe (l.s.c.) : Dans l’intervalle de classe 21-30, la limite supérieure de classe est 30. 8. Limites inférieures et supérieures de classe : Dans l’intervalle de classe inférieure 21-30, la limite de classe est 20.5 et la limite de classe supérieure est 30.5. Ces limites prennent pour acquis que les mesures théoriques d’un intervalle de classe de 21-30 incluent tous les nombres de 20.5 à 30.5. 9. Intervalle de classe : Dans une classe de 21-30, l’intervalle de classe est la différence entre la limite supérieure de classe et la limite inférieure de classe. Ex. : 30.5-20.5 = 10. L’intervalle de classe est aussi connu en tant que l’amplitude de classe. 10.Centre de classe ou point milieu : Dans un intervalle de classe de 21-30, le point médian est la moyenne de 21 et 30. Ex. : 21 + 30 2 = 25 .5 Université Virtuelle Africaine 15 11.Distribution statistique : C’est plusieurs données brutes classées dans des classes dans un tableau avec leurs fréquences correspondantes. Ex. : Masse (kg) Nombre d’élèves (f) 10-19 5 20-29 7 30-39 10 40-49 6 Ce tableau est appelé une fréquence de distributions ou un tableau de statistiques. 12. Fréquences cumulées : Pour les fréquences de distributions suivantes, les fréquences cumulées sont calculées comme des aditions de fréquences individuelles. Masse (X) 20-24 Fréquence (f) 4 Fréquence cu- 4 mulée 25-29 10 4+10=14 30-34 16 14=16=30 35-39 8 30+8=38 40-44 2 38+2=40 La fréquence cumulée d’une valeur est sa fréquence plus la fréquence de toutes les valeurs inférieures. Le tableau ci-dessus est appelé un tableau de fréquences cumulées. 13. Distribution de fréquences relatives : Dans une fréquence de distributions Masse (X) Fréquence (f) 20-35 4 25-29 10 30-34 16 35-39 8 40-44 2 Σ f = 40 La fréquence relative d’une classe de 25-29 est la fréquence de la classe divisée par la fréquence totale de toutes les classes (fréquence cumulée) et est généralement exprimée en pourcentage. Exemple : La fréquence relative de la classe 25-29 = f ∑f × 100 % à Note : la somme des fréquences relatives est 100 % ou 1. 10 ×100 = 25% 40 Université Virtuelle Africaine 16 14. Courbe des fréquences cumulées (Ogive) : Masse (X) 20-24 Fréquence (f) 4 Fréquence cu- 4 mulée (F.C) 25-29 10 4+10=14 30-34 16 14=16=30 35-39 8 30+8=38 40-44 2 38+2=40 À partir du tableau de fréquences cumulées ci-dessus, nous pouvons dessiner un graphique de fréquences cumulées par opposition aux limites de classes supérieures. Limites de classes 24.5 supérieures Fréquences cu- 3 mulées 29.5 34.5 39.5 44.5 14 30 38 40 Note : À partir des données de fréquences cumulées, le premier point de restitution est (24.5, 3). Si nous avions commencé notre graphique à ce point, il serait suspendu sur l’axe des y. Nous créons un autre point (19.5, 0) en tant que point de départ. 19.5 est la limite de classe supérieure prévue de la classe précédente. al or bell-shaped. l frequency to the left and right tral maximum e.g. normal curve Université Virtuelle Africaine 17 Formes des courbes de fréquences Symmetrical or bell-shaped. Symétrique ou en forme de cloche Skewed to the right ( positive skewness) Symmetrical or bell-shaped. Skewed to the right ( positive skewness) Has equal frequency to the left and right Has the maximum towards the left a Aofune égale à gauche et à droite maximum. Ex. : courbe thefréquence central maximum e.g. normal curvedu centre the longer tail to the right normale. Asymétrique à droite (asymétrie positive) Skewed to the right ( positive skewness) Skewed to the left ( Negative skewness) Has equal frequency to the left and right of the central maximum e.g. normal curve J –Shaped Has the maximum towards the left a the longer tail to the right ElleHas a le the maximum vers towards la gauchethe et une maximum left queue and plus longue vers la droite. the longer tail to the right Skewed to the left ( Negative skewness) J –Shaped Asymétrique à gauche (asymétrie négative) Has the maximum towards the right of the and the longer tail to the left wed to the left ( Negative skewness) Has the maximum occurring at the end J –Shaped Elle a le maximum vers la droite et une queue plus longue vers la gauche. Has the maximum towards the right of the and the longer tail to the left Has the maximum occurring at the end 3 requency to the left and right al maximum e.g. normal curve Has the maximum towards the left and the longer tail to the right Université Virtuelle Africaine 18 ed to the left ( Negative skewness) J –Shaped En forme de J aximum towards the right of longer tail to the left Elle a le maximum qui se produit du côté droit. Has the maximum occurring at the right end Reverse J-Shaped U- shaped En forme de J inversé 3 Elle a le maximum qui se produit du côté gauche. everse J-Shaped Has the maximum occurring at the left end U- shaped Has maxima at both ends En forme de U Bimodal maximum occurring at the left Elle a les maximums des deux côtés. Has maxima at both ends Has two maxima Bimodal Multimodal Multimodal Has more than two maxima. Université Virtuelle Africaine 19 Reverse J-Shaped Has the maximum occurring at the left end U- shaped Bimodal e maximum occurring at the left maxima Bimodal Multimodal Has maxima at both ends Has two maxima Elle a deux maximums. Bimodal Has maxima at both ends Multimodal Has more than two maxima. Multimodal Elle a plus de deux maximums. Has more than two maxima. 4 Université Virtuelle Africaine 20 XI.Lectures obligatoires Lecture #1 : Wolfram MathWorld (visité le 05/06/07) Référence complète : http://mathworld.wolfram.com/Probability Résumé : Cette référence donne du matériel essentiel en probabilités et statistiques. Elle comporte plusieurs illustrations qui permettent à l’élève d’apprendre par lui-même à partir de différentes approches méthodologiques. Wolfram MathWorld est une encyclopédie en ligne spécialisée en mathématiques. Motif : Il donne des références détaillées sur tous les sujets de mathématiques. Les élèves devraient commencer en utilisant la faculté de recherche pour le module titre. En tout temps, l’étudiant devrait chercher pour des mots clés qu’ils doivent comprendre. L’entrée devrait être étudiée consciencieusement. Lecture #2 : Wikipédia (visité le 05/06/07) Référence complète : http://en.wikipedia.org/wiki/statistics Résumé : Wikipédia est un dictionnaire en ligne. Il est écrit par ses propres lecteurs. Il est mis à jour très souvent puisque les entrées sont révisées constamment. De plus, il a été prouvé pour être très précis. Les entrées mathématiques sont très détaillées. Motif : Il donne des définitions, des explications et des exemples que les élèves ne peuvent pas avoir accès dans d’autres ressources. Le fait que Wikipedia est souvent mis à jour donne à l’étudiant les approches les plus récentes, les arguments abstraits, des illustrations et se réfères à d’autres sources pour permettre à l’élève d’acquérir d’autres approches dans les probabilités et les statistiques. Lecture #3: MacTutor history of mathematics (visité le 05/03/07) Référence complète: http://www-history.mcs.standrews.ac.uk/Indexes Résumé : Le MacTutor Archive est l’histoire des mathématiques la plus compréhensive disponible sur internet. Les ressources sont organisées par personnages et par thèmes historiques. Motif : Les étudiants devraient pouvoir chercher sur MacTutor pour des mots clés dans les sujets qu’ils étudient (ou le module lui-même). Il est important d’avoir une vue d’ensemble d’où les mathématiques qui sont étudiées vont dans l’histoire des mathématiques. Lorsque l’étudiant termine un cours et enseigne Université Virtuelle Africaine 21 les mathématiques au secondaire, les personnages historiques des mathématiques donneront un peu plus de vie à la matière pour les étudiants. De plus, le rôle de la femme dans l’histoire des mathématiques devrait être étudié pour aider les étudiants à comprendre les difficultés auxquelles les femmes ont dû faire face tout en y apportant une importante contribution. Également, le rôle du continent africain devrait être étudié pour partager avec les étudiants dans les écoles : notamment les premiers outils de calcul (comme l’os d’Ishango) ainsi que le rôle des mathématiques égyptiennes. Université Virtuelle Africaine 22 XII.Ressources obligatoires Ressource #1 : Maxima. Référence complète : Une copie de Maxima est disponible sur le disque qui accompagne ce cours. Résumé : La distance à laquelle les élèves sont occasionnellement confrontés à des mathématiques plus difficiles sans ressources pour les aider. L’absence de leçons avec un professeur en chair et en os rend parfois l’élève complètement handicapé s’il n’est pas bien équipé avec des ressources pour résoudre leurs problèmes mathématiques. Ce handicap peut être résolu en utilisant une ressource d’accompagnement : Maxima. Motif : Maxima est un logiciel gratuit qui peut aider les élèves à résoudre des équations linéaires et quadratiques, des équations simultanées, des intégrations et des différentiels et qui peut aider à faire des manipulations algébriques : des factorisations, des simplifications, des expansions, etc. Ce logiciel est obligatoire pour les étudiants suivant des cours à distance puisqu’il les aide à apprendre plus vite en utilisant les aptitudes TIC déjà apprises. Ressource #2 : Graph Référence complète : Une copie de Graph est disponible sur le disque qui accompagne ce cours. Résumé : Il est difficile de dessiner des graphiques de fonctions, spécialement avec des fonctions compliquées et plus particulièrement des fonctions en trois dimensions. Les élèves, qui apprennent à distance, vont tomber un jour ou l’autre sur des situations où ils auront besoin de faire des graphiques mathématiques. Ce cours est accompagné d’un logiciel appelé Graph qui aidera les élèves à faire des graphiques. Cependant, ils auront besoin de se familiariser avec le logiciel pour être en mesure de l’utiliser. Motif :Graph est un logiciel gratuit pour créer des graphiques auquel les élèves pourront avoir accès sur le CD fournit. Il est facile à utiliser lorsqu’un étudiant investit du temps pour apprendre comment il fonctionne. Les élèves devraient tirer avantage du logiciel parce qu’il peut les assister pour faire des graphiques dans d’autres sujets pendant et après le cours. Ils le trouveront extrêmement utile pour enseigner les mathématiques au niveau secondaire. Université Virtuelle Africaine 23 XIII.Liens utiles Lien #1 Titre : Wikipédia URL : http://en.wikipedia.org/wiki/Statistics Description: Wikipédia est le dictionnaire de n’importe quel mathématicien. Il est gratuit est mis à jour régulièrement. La plupart des élèves rencontreront des problèmes de matériel de référence de temps en temps. La plupart des livres disponibles ne couvrent que les probabilités et les statistiques. Cette pénurie de matériel de référence peut être vaincue en utilisant Wikipédia. Il est très facile à accéder avec « recherche Google ». Motif : La disponibilité de Wikipédia résout les problèmes de matériel d’apprentissage dans toutes les branches des mathématiques. Les élèves devraient avoir de l’expérience avec Wikipédia pour les aider dans leur apprentissage. C’est une ressource gratuite très utile qui ne fait pas que résoudre les problèmes des élèves, mais qui les dirige aussi vers d’autres sites internet connexes très utiles d’un simple clic sur les icônes. Lien #2 Titre : Mathsguru URL : http://en.wikipedia.org/wiki/Probability Description: Mathsguru est un site internet qui aide l’élève à comprendre plusieurs branches du module de théorie des nombres. Il est facile à accéder à travers la barre de recherche Google et fournit de l’information très détaillés sur plusieurs questions de probabilités. Il offre des explications et des exemples pour que les élèves apprennent plus facilement. Motif : Mathsguru donne plusieurs façons d’accéder à d’autres sujets connexes, à des indices et des solutions qui peuvent être très pratiques pour les élèves qui souffrent des frustrations pour trouver des livres pertinents qui peuvent aider à résoudre des problèmes dans les probabilités. Il donne une approche utile dans le calcul des probabilités eu égard aux diverses branches du module de probabilités. Université Virtuelle Africaine 24 Lien #3 Titre : Mathworld Wolfram URL :http://mathworld.wolfram.com/Probability Description: Mathworld Wolfram est un site web différent rempli de solutions de probabilités. Les élèves ont accès à ce site très facilement avec la barre de recherche Google.Wolfram guide aussi l’élève vers d’autres sites internet utiles qui couvrent le même sujet pour aider encore plus l’élève à comprendre. Motif : Wolfram est un site utile qui fournit des aperçus dans plusieurs théories des nombres tout en fournissant de nouveaux défis ainsi qu’une méthodologie dans la théorie des nombres. Le site devient très pratique dans la modélisation et être très recommandée pour les étudiants qui souhaitent étudier la théorie des nombres ainsi que d’autres branches des mathématiques. Il donne des liens vers d’autres sites web en fournissant aux élèves beaucoup d’informations dont ils ont besoin dans les probabilités et les statistiques. Université Virtuelle Africaine 25 XIV.Activités d’apprentissage Unité 1 40 heures Les statistiques illustrées et la distribution de probabilités Un curieux fermier entreprend les activités suivantes sur sa ferme. 1. Elle plante 80 arbres le 1er mars. Elle mesure la hauteur des arbres le 1er décembre. 2. Elle pèse les 40 vaches sur sa ferme et enregistre les poids dans sa laiterie. 3. Elle enregistre la production journalière des œufs dans sa section de volailles. 4. Elle enregistre le temps utilisé pour livrer le lait vers l’usine de traitement Voici les enregistrements. 1. La hauteur des arbres en cm : 77 74 75 71 60 72 75 93 76 85 53 68 83 71 53 85 68 71 95 69 60 76 65 76 85 53 71 83 68 63 85 76 63 78 85 95 77 62 93 90 68 60 74 94 75 78 88 72 82 81 73 87 75 61 97 57 67 80 62 78 78 65 79 84 75 88 75 82 89 67 73 73 68 73 61 66 96 79 65 86 2. Le poids des vaches en kg : Poids (kg) 118-126 Nb de va- 3 ches 127-135 5 136-144 9 145-153 12 154-162 5 163-171 4 172-180 2 Université Virtuelle Africaine 26 3. Le nombre d’œufs pondus : Œufs 462 Nb de 98 jours 480 75 498 56 516 42 534 30 552 21 570 15 588 11 606 6 624 2 4. Le temps pour livrer le lait dans vers l’usine de traitement : Temps en minutes Nb de jours 90-100 80-89 70-79 60-69 50-59 40-49 30-39 9 32 43 21 11 3 1 Problème #1 : Une entreprise locale commerçant avec des services d’extensions d’agriculture visite le fermier. Il montre fièrement ses enregistrements. L’officier d’agriculture est très impressionné par ses enregistrements, mais il réalise que le fermier a besoin de plus de capacités dans la gestion de données pour pouvoir l’aider à prendre de meilleures décisions en se basant sur les résultats de sa ferme. L’officier a créé un petit cours sur le traitement de données pour les fermiers ruraux. Pendant la planification du cours, les termes suivants ont été définis pour la leçon un pour les fermiers. a) b) c) d) e) Donnée : le résultat d’observation. Ex. : la hauteur des arbres. Fréquence : La fréquence. Ex. : Le nombre de vaches pesées. Moyenne : La moyenne des données. Mode : La donnée la plus haute. Médiane : Dans des données ascendantes, la médiane est le nombre au milieu de la suite. f) Étendue : La différence entre la donnée la plus haute et la plus basse. Leçon un : Les mesures de dispersion Introduction aux statistiques Les statistiques descriptives sont utilisées pour indiquer n’importe laquelle des techniques utilisées pour résumer un ensemble de données. Dans un sens, nous utilisons les données sur des membres d’un ensemble pour le décrire. Les techniques sont classées comme : 1. Une description graphique dans laquelle nous utilisons des graphiques pour résumer les données. Université Virtuelle Africaine 27 2. Une description sous forme de tableau dans lequel celui-ci est utilisé pour résumer les données. 3. Des descriptions paramétriques dans lesquelles nous estimons les valeurs de certains paramètres dans lequel nous complétons la description de l’ensemble de données. En général, les données statistiques peuvent être décrites comme une liste de sujets ou d’unités et les données peuvent être associées avec chacune d’elles. Nous avons deux objectifs pour notre résumé : 1. Nous voulons choisir une statistique qui démontre la différence des unités dans leur similarité. Les livres de statistique appellent la solution de cet objectif une mesure de la tendance centrale. 2. Nous voulons choisir une autre statistique qui montre comment elles sont différentes. Ce genre de statistique est souvent appelé une mesure de la variabilité statistique. Lorsque nous résumons une quantité comme la longueur, le poids ou l’âge, il est commun de répondre à la première question avec une moyenne arithmétique ou avec le mode.Parfois, nous choisissons des valeurs spécifiques de la fonction de distribution cumulative appelée quartiles. Les mesures de variabilité les plus communes pour les données quantitatives et la variance sont la racine carrée, l’écart type, l’étendue statistique, l’étendue interquartile et l’écart absolu. Leçons de fermiers Les fermiers apprennent comment calculer les : a) Moyennes des données suivantes : La moyenne de données = Somme totale des données divisées par le nombre d’objets dans les données. Exemple : Calculer la moyenne des données suivante : 1) 1,3, 4,4, 5,6, 3,7 Réponse : Moyenne = 1 + 3 + 4 + 4 + 5 + 6 + 3 + 7 33 = = 4.125 8 8 2) 650,675, 700, 725, 800, 900, 1050, 1125, 1200, 575 Université Virtuelle Africaine 28 Réponse: Moyenne = 650 + 675 + 700 + 725 + 800 + 900 + 1050 + 1125 + 1200 + 575 10 = = 840 8400 10 Leçon deux: La moyenne d’une donnée discrète Exemple : 1) Trouvez la moyenne des données suivantes : X f 22 5 24 7 25 8 33 4 36 6 Réponse : Moyenne = = 37 9 41 11 22 ( 5 ) + 24 ( 7 ) + 25 (8 ) + 33 ( 4 ) + 36 ( 6 ) + 37 ( 9 ) + 41 (11 ) 5 + 7 + 8 + 4 + 6 + 9 + 11 1628 = 32.56 50 2) Trouvez la moyenne du salaire des travailleurs : Salaire en $ Nb de travailleurs Réponse :Moyenne 20665 70 = $ 295.214 220 12 = 250 15 300 18 350 20 375 5 220 (12 ) + 250 (15 ) + 300 (18 ) + 350 ( 20 ) + 375 ( 5 ) 12 + 15 + 18 + 20 + 5 = Université Virtuelle Africaine 29 Tableaux de fréquences et moyenne d’ensemble de données Exemple : Voici le poids de commandes de lait vers une usine de traitement : 45 48 56 39 49 45 36 47 50 45 42 46 46 41 39 45 48 46 52 35 42 37 46 44 39 46 43 45 47 47 51 46 42 43 46 40 51 33 54 47 a) Une utilisant un intervalle de classe de 5, entrez ces données dans un tableau de fréquences. b) Calculez la masse moyenne du lait livré. Réponse : Tableaux de fréquences / Comptage Classe Comptage Fréquence 33- 37 37-42 43-47 48-52 53-57 //// ///// /// //////////// /// //// // // Total 4 8 19 7 2 40 c) La moyenne d’un groupe de données Classe Comptage Fréquence(f) 33- 37 //// 4 Point milieu (x) 33 + 37 2 37-42 43-47 48-52 53-57 ///// /// //////////// /// //// // // Total 8 19 7 2 40 40 45 50 55 fx 4 × 35 = 140 = 35 320 855 350 110 1775 Université Virtuelle Africaine 30 Moyenne = ∑ fx ∑f 1775 = 40 = 44 . 375 Exercices Trouvez la moyenne de : 1) 63, 65, 67, 68, 69 2) x f(x) 1 11 2 10 3 5 4 3 5 1 3) Poids (x) Fréquence 4-8 2 9-13 4 14-18 7 19-23 14 24-28 8 29-33 5 4) 91,78, 82,73,84 5) Hauteur (x) Fréquence 61 5 64 18 67 42 70 27 73 8 6) Poids (x) Fréquence 30.5-36.5 4 36.5-42.5 10 42.5-48.5 14 48.5-54.5 27 Réponses : 1). 66.4 2). 2.1 3). 20.6 4) 80 5) 76.45 6) 51.44 54.5-60.5 45 Université Virtuelle Africaine 31 Leçon trois : Le mode Exemple : 1) Trouvez le mode dans les données suivantes :1,3,4,4,5,6,1,3,3,2,2,3,3,5 Solution : Le mode est la donnée qui apparaît le plus souvent. Dans cette suite, le 3 est celui qui apparaît le plus de fois ou le plus fréquemment : 5 fois. Donc, le mode de cette suite de données est 3. 2) Trouvez le mode dans les données suivantes :22, 24, 25,22, 27, 22, 25, 30, 25, 31 Solution : 22 et 25 apparaissent trois fois chacun. Donc, les modes sont 22 et 25. C’est ce qu’on appelle des données bimodales. 3) Trouvez le mode dans les données suivantes : Observation ( X) Fréquence ( f) 0 3 1 7 2 10 3 16 4 11 Solution: La donnée qui revient le plus souvent est le 3: il apparaît 16 fois. 4) Trouvez la classe modale dans les données suivantes : Poids ( X) Fréquence ( f) 50 – 54 3 55-59 6 60-64 8 65-69 5 70-74 15 75-79 9 80-84 13 Solution : La classe modale est 70-74, car elle a la plus haute fréquence d’occurrence. Université Virtuelle Africaine 32 Exercices Trouvez les modes ou les classes modales des données suivantes : 1) 6, 8, 3,5,2,6,5,9,5 2) 20.4, 20.8, 22.1, 23.4, 19.7, 31.2, 23.4, 20.8, 25.5,23.4 3) Poids (x) Fréquence 4-8 2 9-13 4 14-18 7 19-23 14 24-28 8 29-33 5 4) Poids (x) Fréquence 30.5-36.5 4 36.5-42.5 10 42.5-48.5 14 48.5-54.5 27 54.5-60.5 45 Réponses : 1) 5 2) 23.4 3) 19-23 4) 54.5-60.5 Leçon quatre : La médiane La médiane La médiane est la valeur au centre d’une distribution. Dans une suite 1, 2, 3, 4, 5, la médiane est 3, car elle est exactement au centre de la distribution. Pour la suite 1, 2, 2, 3, 4, 5, 6, 7, 7, 8; il y a 10 nombres et aucun nombre au centre. Dans un cas comme celui-là, la médiane est la moyenne des deux nombres du centre. Ex. : 1,2,2,3, 4, 5 ,6,7,7, 8 Donc, la médiane est 4+5 = 4.5 2 Université Virtuelle Africaine 33 La médiane d’ensemble de données Exemple: Trouvez la médiane des ensembles de données suivants: Masse ( X) Féquence (f) 20-24 4 25-29 10 30-34 16 35-39 8 40-44 2 Solution : ∑f = 40 , donc la médiane est la moyenne de la 20e et de la 21e donnée 20 + 21 2 =10.5 Définition : Les limites de classe supérieures et inférieures La limite de classe inférieure (LCI) et la limite de classe supérieure (LCS) sont les limites d’un intervalle de classe. Ex. : Les limites inférieures et supérieures d’un intervalle de classe 20-24 sont 19.5 et 20.5 et la LCI ainsi que la LCS d’un intervalle de classe 35-39 sont 34.5 et 39.5. Masse ( X) Fréquence (f) Fréquence cumulative 20-24 4 4 30- 34 16 14 + 16 = 30 25-29 10 4+10=14 35-39 8 30+8=38 40-44 2 39+2 =40 Voici la procédure pour calculer la médiane : Étape 1 : La médiane apparaît dans l’intervalle de classe 30-34 Étape 2 : La LCI ainsi que la LCS de 30-34 sont 29.5 et 34.5. Étape 3 : Trouver la fréquence cumulative (FC). Étape 4 : Trouver l’intervalle de classe, LCI et LCS. Étape 5 : Avoir le 10.5e terme. 10.5e terme = LCI de la classe avec la médiane + Différence de sommation x Intervalle de classe. Fréquence de classe Université Virtuelle Africaine 34 La différence de sommation 20.5 – 14 = 6.5 où 14 est la FC de l’intervalle de classe 25-29. Étape 6 : La médiane 29.5 + 6.5 × 5 = 31.53125. 16 Notez que le dénominateur 16 est la fréquence de classe dans l’intervalle de classe 30-34. L’étendue L’étendue est tout simplement la différence entre le chiffre le plus haut et le chiffre le plus bas dans une suite de données. Exemple : 23, 26, 34, 47, 63, l’étendue est 63-23 = 40, et dans 121, 65, 78, 203, 298,174, l’étendue est 298-65= 233. Leçon cinq : Les mesures de dispersion 1) Les quartiles : Ce sont des données placées dans un ordre de magnitude qui peuvent être divisées en quatre portions égales, 25 % chacune. La première portion est le quartile le plus bas qui apparaît à 25 %. Celui du milieu, ou du centre, à 50 % est appelée la médiane, tandis que le troisième quart qui apparaît à 75 % s’appelle le quartile supérieur. Les trois points sont généralement écrits comme ceci : Q1, Q2 , Q3. 2) L’étendue semi-interquartile : L’étendue semi-interquartile ou la déviation quartile est définie comme : 7 Q = Q 3 − Q1 2 3) Les déciles : Si les données sont placées dans un ordre de magnitude et divisées en 10 portions égales (10 % chacune), donc chaque portion constitue un décile. Les déciles sont écrits comme ceci : D1, D2, D3,……D9. 4) Les percentiles : Si les données sont divisées et placées dans un ordre de magnitude subdivisé en 100 parties égales (1 % chacune), donc la portion constitue un percentile. Les percentiles sont écrits comme ceci : P1, P2, P3…, P99. Université Virtuelle Africaine 35 L’écart moyen L’écart moyen d’un ensemble de N nombres X1 ,X2, X3, X4,X5,……, XN est défini par : N ∑ X −X j j =1 Écart moyen (EM) = = N ∑X −X N = X − X , où X est la moyenne arithmétique des nombres et X − X est la valeur absolue de la déviation de X j à partir de X . Exemple Trouvez l’écart moyen de la suite 3, 4, 6, 8, 9. Solution Moyenne arithmétique = Écart moyen ( X ) = 5 = 30 5 =6 3−6 + 4−6 6−6 + 8−6 + 9−6 −3 + −2 + 0 + 2 + 3 5 3+ 4+6+8+9 5 = 3+ 2+0+ 2+3 5 = 10 2 =5 = Université Virtuelle Africaine 36 L’écart moyen d’un groupe de données Pour les données Valeurs X1 X2 X3 …… XN Fréquences f1 f2 f3 …. Fm L’écart moyen peut être calculé ainsi : m ∑ f X −X j j j =1 Écart moyen = N = ∑ f X −X N = X −X L’écart-type L’écart-type d’un ensemble de N nombres X1 ,X2, X3, X4, X5,……, XN est représenté par s et est défini par : s= N 2 ∑ (X − X ) j j =1 N = ∑ ( X − X )2 N = ∑ x2 N = ( X − X )2 où x représente la déviation des nombres X de la moyenne X . Il suit que l’écartj type est la variance des déviations de la moyenne. L’écart-type d’un groupe de données Valeurs X1 X2 X3 …… XN Fréquences f1 f2 f3 …. Fm L’écart-type est calculé ainsi : s= m 2 ∑ f (X − X ) j j =1 = N 2 ∑ f (X − X ) = N 2 ∑ fx = ( X − X )2 N Université Virtuelle Africaine 37 m oú N= ∑ j =1 f =∑f. j La variance La variance d’un ensemble de données est définie comme le carré de l’écart-type : variance = s2. Nous utilisons parfois s pour représenter l’écart-type d’un échantillon de population et σ (sigma en lettre grecque) pour représenter l’écart-type d’une population. De plus, σ 2 peut représenter la variance d’une population et s2, la variance d’un échantillon d’une population. Exemples Trouvez la moyenne et l’étendue des données suivantes : 5, 5, 4, 4, 4, 2, 2, 2. Solution Moyenne = m m ∑n N x = 5+5+ 4 + 4 + 4 + 4 + 2 + 2 + 2 = 3.56 9 Étendue 5-2=3 Observation de la médiane Exemple Dans 13 observations 1,1,2,3,4,4,5,6,8,10,14,15,17 La médiane = La valeur n + 1 14 = = 607 2 2 14 = 7th position. La médiane est 5. 2 Si n est impair, la médiane est la valeur dans la position n+1 2 Par contre, si elle est paire, nous ferons la moyenne des deux nombres du centre. Université Virtuelle Africaine 38 Exemple 1,1,2,2,3,4,4,5,6,8,10,14,15,17 La médiane = la moyenne des deux nombres du centre = 4+5 = 4.5 2 La médiane et les groupes de données 2 Lorsque des données sont regroupées ensemble, la médiane χ est la valeur exacte ou en dessous de 50 % du point d’observation. Exercices Trouvez la médiane des données suivantes. q Travail d’équipe 1. 1,1,2,2,3,4,5,7,7,7,9 2. 7,8,1,1,9,19,11,2,3,4,8 1. Étudiez le calcul de la variance et de l’écart type des exemples Définition La moyenne de l’écart mis au carré est appelée la variance : − 2 s = Σ h ( x − x) 2 N − Où : x − x est la déviation de la moyenne, N est le nombre d’observations, s 2 est la variance et s 2 est l’écart type. Exemple Les données 2, 4, 5, 8, 11 vous sont données. Trouvez la variance et l’écart type. X 2 4 5 8 11 ∑x =5 − x−x -4 -2 -1 2 5 − ( x − x) 2 16 4 1 4 25 ∑ =50 − ( x − x) 2 Université Virtuelle Africaine 39 − Donc, x = 30 50 = 6 52 = = 10 5 5 Variance = s 2 = 50 5 = 10 Écart type = √10 Exercices 1. Calculez l’étendue des données : 1,1,1,2,2,3,3,3,4,5 2. Calculez la variance et l’écart type : 1,2,3,4,5 Asymétrie Notons que lorsque la distribution d’une variable à travers son histogramme est symétrique, alors les trois caractéristiques de tendance centrale, à savoir : le mode, la médiane et la moyenne de cette variable, sont égaux. Dans le cas unimodal, lorsque la distribution est asymétrique, la médiane est généralement comprise entre le mode et la moyenne arithmétique : deux cas se présentent alors : • mode<médiane<moyenne la distribution est étalée vers la droite ; • mode>médiane>moyenne la distribution est étalée vers la gauche. Définition : L’asymétrie est le degré de déviation de la symétrie d’une distribution. (Voir les asymétries positives et négatives plus haut.) Pour les distributions asymétriques, la moyenne tend à aller dans le même sens que celui du mode avec la queue la plus longue. Le premier coefficient d’asymétrie de Pearson Le premier coefficient d’asymétrie est défini par : Asymétrie = moyenne− mode X − mode = écart − type s Le deuxième coefficient d’asymétrie de Pearson € Le second coefficient de Pearson est défini par : Asymétrie = € 3(moyenne( X ) − médiane(X )) 3(X − mediane(X )) = écart − type(X ) s Université Virtuelle Africaine 40 Coefficient quartile d’asymétrie Il est défini comme par : Coefficient quartile d’asymétrie = ( Q − Q ) − ( Q − Q ) Q − 2Q + Q 3 2 2 1 = 3 2 1 Q −Q Q −Q 3 1 3 1 L’asymétrie 10-90 percentile Elle est définie comme ceci : Asymétrie 10-90 percentile = (P − P ) − (P − P ) P − 2P + P 90 50 50 10 = 90 50 10 P −P P −P 90 10 90 10 Exemple : Trouvez le 25e percentile des données 1, 2, 3, 4, 5, 6, 7, 9 25e percentile = 2e = 2 3e = 3 € (n + 1)x0.25 9(.25) = 22.5(centile) 2 . 25 ⇒ 0 . 25 (1) + 2 = 2 . 25 Trouvez le 50e percentile 50e percentile = (8 + 1) x.50 = 9 (. 5 ) = 4 .5 percentile 4e = 4 5e = 5 0 .5 (5 ) = 0 .5 + 4 = 4 .5 Le (1) est l’étendue 5-4=1. q Travail d’équipe 1. Étudiez le calcul des percentiles et tentez de répondre à la prochaine question… suivants. Université Virtuelle Africaine 41 Exercices Trouvez le 25e percentile, le 50e percentile et le 90e percentile. 46,21,89,42,35,36,67,53,42,75,42,75,47,85,40,73,48,32,41,20,75,48,48,32,52,61,49 ,50,69,59,30,40,31,25,43,52,62,50 Réponses a) 36 b) 48 c) 73 Kurtosis ou le coefficient d’aplatissement Définition : Le kurtosis est le degré d’aplatissement d’une distribution, comparé à la distribution normale. Exemples 1) Distribution leptokurtique ou hypernormale : Une distribution avec un sommet plutôt élevé 2) Distribution platicurtique ou hyponormale : Une distribution ayant un sommet plat Université Virtuelle Africaine 42 3) Distribution mésocurtique Une distribution normale – ni élevée, ni plate Exercices Trouvez le mode des collectes de données suivantes : 1) 1,3,4,4,2,3,5,1,3,3,5,4,2,2,2,3,3,4,4,5 2) Nombre de mariages pour 1000 personnes dans la population africaine pour les années 1965 à 1975. Année Taux 1965 9.3 1966 9.5 1967 9.7 1968 10.4 1969 10.6 1970 10.6 1971 10.6 1972 10.9 1973 10.8 1974 10.5 1975 10.0 3) Nombre de morts pour 1000 personnes pour les années 1960 et 1965 à 1975. 1960 9.5 1965 9.4 1966 9.5 1967 9.4 Université Virtuelle Africaine 43 1968 9.7 1969 9.5 1970 9.5 1971 9.3 1972 9.4 1973 9.3 1974 9.1 1975 8.8 Réponses 1. 3 2. 10.6 3. 9.5 À lire An introduction to probability par Charles M. Grinstead, pages 247 à 263. Faire les exercices des pages 263 à 267, numéros 4, 7, 8, 9. Probabilités 1) Univers des possibles (ou Espace d’échantillon) et évènements Terminologies a) Une expérience de probabilités Lorsque vous lancez une pièce de monnaie, lorsque vous prenez une carte dans un paquet de cartes ou lorsque vous lancez un dé, vous faites une expérience de probabilités. Dans une expérience de probabilités, les chances sont bien définies avec des chances égales d’occurrence – il y a seulement deux chances possibles lorsque vous lancez une pièce de monnaie. Vous aurez soit pile, soit face. Le côté face et le côté pile ont des chances égales. b) Un résultat Il est défini comme le résultat d’un seul essai d’une expérience de probabilités – lorsque vous lancez une pièce de monnaie une seule fois, vous aurez soit pile, soit face. Université Virtuelle Africaine 44 c) Un essai Il se réfère à l’activité de faire une expérience, comme tirer une carte d’un paquet de cartes ou bien de lancer des dés. d) Un Univers des possibles Il se réfère à toutes les possibilités d’une expérience de probabilités – lorsque vous lancez une pièce de monnaie, vous obtiendrez soit face (F), soit pile (P). Il n’y a que deux résultats possibles lorsque vous lancez une pièce de monnaie. Les chances d’obtenir pile ou face sont égales. e) Un évènement simple et un événement composé Dans une expérience de probabilités, un évènement avec une seule possibilité de résultat est appelé un évènement simple. Si un évènement a plus de deux possibilités, il est appelé évènement composé. 2) Définition des probabilités Les probabilités peuvent être définies comme les mathématiques de la chance. Il y a quatre approches principales aux probabilités; i. ii. iii. iv. L’approche classique ou a priori ou approche pascalienne La fréquence relative ou l’approche expérimentale : l’approche fréquentiste L’approche axiomatique L’approche subjective (ou approche personnaliste) L’approche classique ou a priori Les probabilités sont le ratio du nombre de cas favorables comparé au total de cas possibles. C’était la conception originelle des probabilités initiée le physicien mathématicien Pascal vers l’an 1654 dans le contexte de loterie basée sur un jeu de hasard. Cette idée fut poursuivie par Fermat, contemporain de Pascal. Imaginez qu’un événement se produit N fois sur un total M de manières possibles. La probabilité d’occurrence de l’évènement est désignée par : p=Pr(N)= N . La probabilité se réfère au rapport de résultats favorables sur tous les M résultats possibles. La probabilité de non-occurrence du même évènement est donnée par (1-p(occurrence)). La probabilité d’occurrence plus celle de la non-occurrence est égale à un. Si la probabilité d’occurrence est P(O) et la probabilité de non-occurrence P(Oc), alors P(O)+P(Oc)=1. Université Virtuelle Africaine 45 Les probabilités expérimentales : les fréquences relatives Les probabilités expérimentales surviennent lorsque la fréquence des distributions n’est pas utilisée. On s’intéresse à un événement A attaché à une expérience; on procède à un nombre assez élevé n de répétitions de ladite expérience dans les mêmes conditions et indépendamment les unes des autres : la probabilité de l’événement A est définie comme la limite de sa fréquence relative lorsque n tend vers plus l’infinie, soit : P(A) = limFréquence(A) n ⎯⎯⎯⎯⎯⎯⎯ ⎯→+∞ Ainsi, dans la pratique on interprète une fréquence relative comme une probabilité, approximativement au moins : Fréquence(A) @ P(A). € Exemple : Observation ( X) 0 1 2 3 4 Fréquence ( f) 3 7 10 16 11 La probabilité d’observation (X) qui apparaît 2 fois est donnée par la formule : P(2)= fréquencede 2 f (2) 10 10 = = = sommedes fréquences ∑ f 3+ 7 + 10 + 16 + 11 47 L’approche axiomatique € Genèse des probabilités. Sur le plan historique, de l’année 1663 jusqu’en 1933, notons que les probabilités constituaient une discipline des sciences physiques, vraisemblablement parce que la majorité des promoteurs du calcul des probabilités furent plutôt des physiciens comme Pascal, Fermat, Huyghens, Bernoulli(vers 1700), Gauss (1809), Laplace(1812), etc. Il a fallu attendre les travaux du mathématicien russe N. Kolmogorov publiés en 1933 qui a démontré la possibilité d’une approche axiomatique des probabilités, y compris le concept dfe probabilité conditionnelle, pour que celles soient enfin acceptées d’intégrer les domaines des sciences mathématiques. En 1955 et 1956, A. RENYI démontra dans théorie d’espace de probabilité conditionnelle,la possibilité de généraliser l’axiome de Kolmogorov. Ensuite, récemment, Sylvia Pulmannova (1991), dans les algèbres de Von Neumann, a construit une généralisation de l’axiomatique de A. RENYI. Tout ceci montre un rapide essor de la théorie de probabilité à partir du moment où l’on s’est aperçu que toute probabilité peut être considérée comme probabilité conditionnelle. S’il a fallu ainsi presque trois siècles (de 1663 à 1933) pour découvrir cette approche axiomatique, le concept de probabilité étant alors dégagé à la fois du contexte numérique, de la chronologie et de la causalité, ce grand bond en avant n’a demandé que quelques dizaines d’années. Cependant, l’emploi des mots de Formule et Loi demeurent toujours jusqu’à Université Virtuelle Africaine 46 aujourd’hui : c’est une trace indélébile de l’origine physicienne des probabilités! Il est heureux d’apprécier par la suite l’impact positif de cette reconnaissance du statut de discipline mathématique des probabilités sur l’avancement notable des mathématiques et surtout celui de l’informatique, laquelle s’est avérée un moteur de la nouvelle technologie de l’information et de communication de notre ère moderne. Ceci amène à penser que trop s’attacher au contexte numérique ou expérimental pour introduire les probabilités, et attacher trop de chronologie ou de causalité à la notion de probabilité conditionnelle, seraient des sources d’obstacles épistémologiques dans la compréhension des concepts de probabilité et de probabilité conditionnelle. Axiomes de Kolmogorov et définition. On considère un ensemble non vide E des résultats possibles d’une expérience et une famille T des parties de E qui contient E lui-même et à la fois stable par complémentation et par réunion dénombrable, famille appelée une tribu sur E. Alors le couple (E, T) porte le nom d’espace probabilisable. On appelle probabilité définie sur l’espace probabilisable (E, T), toute application de type P définie sur la tribu T à valeurs réelles positives et qui satisfait aux deux propriétés suivantes : (i) Axiome de normalisation : P(E) = 1. (ii) Axiome d’additivité dénombrable : Pour toute suite (An)n d’événements dans T, deux à deux incompatibles, on a : P( +∞ UAn) n=0 = +∞ ∑ p( A n) . n=0 P une€probabilité définie sur un espace probabilisable (E, T). Terminologies : Soit € On dit alors que (E, T, P) est un espace probabilisé. Pour tout événement A de T, le nombre P(A) est la probabilité pour que l’événement se réalise, ou la probabilité de l’événement A. Interprétation : Il y aurait 100P(A) % de chance pour que l’événement A se produise. Université Virtuelle Africaine 47 3) Les propriétés des probabilités. Soit (E, T, P) un espace probabilisé. On démontre facilement les propriétés suivantes. a) La probabilité de l’événement impossible est nulle : P(f) = 0. La probabilité d’un évènement qui va certainement arriver est 1. Terminologies : Un événement de probabilité nulle est dit un événement presque impossible. Celui de probabilité égale à 1 est dit un événement presque sûr ou presque certain. b) P est une application croissante : Pour tous événements A, B de T, si A B, alors P(A) ≤ P(B). c) La probabilité de n’importe quel évènement se trouve entre 0 et 1. Une probabilité ne peut pas être négative, pas plus qu’elle ne peut être plus grande que 1. d) Formule de passage à l’événement contraire : Pour tout événement A, on a : P(A) = 1 – P( A ). Cette formule est très pratique, pour calculer P(A), alors que son contraire apparaît plus maniable. e) Additivité simple : si deux événements A et B sont incompatibles, alors : € P(A ou B) = P(A B) = P(A)+P(B). f) La somme totale des probabilités de tous les résultats possibles dans un espace d’échantillon est toujours égale à un (1). g) Formule des probabilités totales : pour tous événements A et B, on a : P(A ou B) = P(A) + P(B) – P(A et B). h) Cas particulier d’univers fini et d’hypothèse d’équiprobabilité d’événements élémentaires : si E = {e1, e2,…, en} tel que pour tout i, on a P() = p, alors pour tout événement A de T, card(A) Nombre de cas favorables à A P(A) = Card (E ) = Nombre de cas possibles . Ce dernier cas, exige une maîtrise de l’analyse combinatoire pour assurer le nombre des €cas favorables et celui des cas possibles. Remarque : voici quelques locutions signifiant une hypothèse d’équiprobabilité d’événements élémentaires : tirage au hasard, pièce parfaitement symétrique, dé homogène, boules identiques et indiscernables au toucher, etc. Université Virtuelle Africaine 48 Règles de comptage. On dispose de deux règles de comptage : (ii) La règle d’addition : Si A et B sont deux ensembles finis non vides, alors Cardinal(A ou B) = Card(A)+Card(B) : le nombre de façons de prendre un élément de A ou un élément de B est égal la somme du nombre d’éléments de A et celui de B. Soit, ou ayant le sens de « ou bien » donne l’addition pour le comptage. (iii)La règle de multiplication : Si A et B sont deux ensembles finis, alors le nombre d’éléments de leur produit cartésien A x B est égal au produits de leurs cardinaux : Card(AxB) = Card(A) x Card(B). Ainsi, s’il y a Card(A) façons de prendre un élément de A et Card(B) façons de choisir un élément de B, alors il y a Card(A) x Card(B) façons de choisir un élément de A et un élément de B. Soit, le « et » donne la multiplication. Toutes les formules classiques de dénombrement, rappelés ci-dessous, se déduisent de ces deux règles de comptage. 1) Nombre de permutations et Factorielle Une permutation de n objets o1, o2, …, on est une bijection de l’ensemble { o1, o2, …, on } sur lui-même. Il s’agit ici des permutations sans répétition. Le nombre de permutations de n objets est : factorielle(n) = n!=n x (n-1) x …x 3x2x1. Exemple : Factorielle(4) = 4 ! = 4 x 3 x 2 x 1 et 7! = 7 x 6 x 5 x 4 x 3 x 2 x 1 2) Nombre de permutations avec répétition Le nombre d’applications d’un ensemble à n objets vers un ensemble à m éléments est égal à la puissance mn. 3) Règles d’arrangements Le nombre d’arrangements de n objets r par r, avec considération d’ordre, est : n Ar = n ! (n − r ) ! Université Virtuelle Africaine 49 Exemples P 5 3= 8 5 P= 5! 5 x4 x3 x2 x1 = = 5 x4 x3 = 60 (5 − 3)! 2 x1 8! (8 − 5 )! = 8! 3! = 8 x 7 x 6 x 5 x 4 x 3 x 2 x1 3 x 2 x1 = 8 x 7 x 6 x 5 x 4 = 6720 4) Combinaisons Le nombre de combinaisons de n objets pris r à r, sans considération d’ordre, est : nCr = n ! (n − r )! r ! Exemples € C2 = 5 10 C6 = 5! 5 x 4 x3 x 2 x1 5 x 4 = = = 10 (5 − 2)!2! 3! 2! 2 x1 10 ! (10 − 6 )!6! = 10 ! 4! 6! = 10 x 9 x8 x 7 x 4 x 3 x 21 x 6! 6! = 10 x 9 x8 x 7 4 x 3 x 2 x1 = 210 Exercices Trouvez la solution pour : 1) 2) 3) 4) 5) 6) 7) 8) P C 8 3 C 15 10 C 6 3 P 15 4 C 9 3 C 10 8 P 7 4 8 3 Réponses 1) 336 2) 56 3) 3003 4) 20 5) 32 760 6) 84 7) 90 8) 840 Université Virtuelle Africaine 50 Probabilité conditionnelle : Théorème et définition : Étant donné un espace probabilisé (E, T, P), et un événement réalisable B, l’application notée PB définie sur T par : T R : A PB(A) = P (A et B) P (B) est une probabilité sur (E, T). € Par définition, cette probabilité PB est appelée la probabilité conditionnelle sachant B, ou probabilité conditionnelle étant donné l’événement B, et pour tout événement A de T, PB(A) est la probabilité conditionnelle sachant B de l’événement A. Remarque : Psychologiquement, des résultats de la recherche en didactique ont montré que la notation indicielle PB(A) est plus congruente sur le plan de la sémantique et moins ambiguë que la notation traditionnelle P(A/B) ou P(A si B) , à l’instar de la notation logb(x) pour le « logarithme de base b de x », et celui des suites de fonctions Un(x) prononcé « u- n- de- x ». Indépendance et dépendance statistiques : Pour deux événements non impossibles, c’est-à-dire réalisables, A et B, des trois choses l’une : • soit PA(B) = P(B) : alors l’événement B est statistiquement indépendant de l’événement A ; • soit PA(B) > P(B) : alors l’événement B est statistiquement positivement dépendant de l’événement A ; on dit que A favorise B ; • soit PA(B) < P(B) : alors l’événement B est statistiquement négativement dépendant de l’événement A ; on dit que A défavorise B. Nota Bene : La notion d’indépendance statistique est visiblement symétrique. De même les notions de dépendance positive et de dépendance négative sont symétriques, certes, mais dans les deux cas le degré de dépendance de B par rapport à A n’est pas nécessairement égal à celui de dépendance de A par rapport à B. Aussi, s’avère-til important de trouver un indice qui puisse rendre compte de l’un ou l’autre type d’indépendance statistique. L’indice noté MGK , défini ci-dessous, répond justement à une telle attente : ⎧ PA (B) − P (B) , si A favorise B; ⎪ ⎪ 1− P (B) ⎨ MGK(A, B) = ⎪PA (B) − P (B) , si A défavorise B; ⎪ P (B) ⎩ Il est aisé de montrer que -1≤ MGK(A, B) ≤1, et que MGK(B, A) ≠MGK(A, B). € Université Virtuelle Africaine 51 Par ailleurs, la différence Delta(A, B)=P(A et B) - P(A)P(B) mesure l’écart à l’indépendance des deux événements A et B. Il est facile de vérifier que Delta(A, B) > 0, si et seulement si A et B se favorisent l’un l’autre, sans précision sur lequel parmi A et B aurait plus d’influence sur l’autre. Cependant, MGK(A, B) > 0 et MGK(A, B) > MGK(B, A) impliquent que A et B se favorisent, et B dépend plus de A que A dépend de B. En fait, cet indice s’avère très efficace pour détecter les associations orientées appréciables qui existeraient entre des variables ou groupes des variables dans une donnée qualitative même à volume très élevé. Pour en savoir plus, notamment sur ses propriétés mathématiques et ses relations avec d’autres mesures de dépendance statistique, il est conseillé de lire les articles proposés ci-dessous. Références (certaines sont téléchargeables sur Google) : a- Sur une étude didactique du concept de probabilité conditionnelle : R. Gras & A. Totohasina (1995), Chronologie et causalité, conceptions sources d’obstacles épistémologiques à la notion de probabilité conditionnelle, in revue Recherche en Didactique des Mathématiques, Vol.15, n°1, La Pensée Sauvage (édts), Grenoble, France, 1995, 49-95. b- Sur l’étude de dépendance statistique à partir des données qualitatives : Totohasina A., Feno D. R.(2008), De la qualité des règles d’association: Etude comparative des mesures MGK et Confiance (8 pages), Proc. of the 9th African Conference on research in Computer Science and Applied Mathematics(CARI’08), october 27-30, 2008, p. 561568. Feno D, Diatta J., Totohasina A.(2007), Une base pour les règles d’association valides au sens de la mesure de qualité MGK , in Revue de la Nouvelle Technologie de l’Information, RNTI, issue spéciale de SFC’2006, version longue, 11 pages. Feno D., Diatta J., Totohasina A.(2007), Galois lattices and Bases for MGK-valid association rules, Revisited version, in Lecture Note in Computer Science, Belohlavek \& al editors, Book special issue of CLA 2006: Concept Lattices and their Applications, LNCS Vol. 4923, pp. 186--197, march 2008. Totohasina A., Ralambondrainy H. (2005), ION: a pertinent new measure for mining information from many types of data, proceedings of The 2005 International Conference on Signal-Image Technology & Internet- Based Systems (SITIS’05), November 27th - December 2nd 2005, The Hilton Hotel, Yaound\’e, Cameroon, 202-207. Université Virtuelle Africaine 52 Règles des probabilités 1) Règle #1 : Additivité simple : Lorsque deux évènements A et B sont mutuellement exclusifs, c’est-à-dire incompatibles, alors P(A ou B)=P(A)+P(B). Exemple : Lorsque A est lancé, trouvez la probabilité d’avoir 3 ou 5. Solution : P(3) =1/6 and P(5) =1/6. Donc, P( 3 or 5) = P(3) + P(5) = 1/6+1/6 =2/6=1/3. 2) Règles #2 : Formule des probabilités totales. Si A et B sont deux évènements qui ne sont pas mutuellement exclusifs, alors P(A or B) = P(A) + P(B) - P(A et B), où A et B sont le nombre de résultats que les évènements A et B ont en commun. Exemple : Lorsqu’une carte est tirée dans un paquet de 52 cartes, trouvez la probabilité que la carte soit un 10 ou un cœur. Solution : P( 10) = 4/52 et P( coeur)=13/52 P ( 10 de coeur) = 1/52 P( A ou B) = P(A) +P(B)-P( A et B) = 4/52 _ 13/52 – 1/52 = 16/52. Règles de multiplication des probabilités 1) Règle #1: Pour deux évènements indépendants A et B, alors : P(A et B) = P(A) x P(B). Exemple : Déterminez la probabilité d’obtenir un 5 sur un dé et le côté pile d’une pièce de monnaie en un seul lancer. Solution : P(5) = 1/6 et P(Pile) = ½. P(5 et Pile)= P(5)xP(Pile)= 1/6 x ½= 1/12. 2) Règle #2: Formule des probabilités composées pour des événements dépendants. Lorsque deux évènements sont dépendants, la probabilité que les deux évènements se produisent est : P(A et B) = P(A) x P(B|A), où P(B|A) est la probabilité que l’évènement B se produise en tenant pour acquis que l’évènement A se soit déjà produit : c’est la probabilité conditionnelle sachant l’événement A de l’événement B. Dans ce cas, A est l’événement conditionnant, B l’événement conditionné. Université Virtuelle Africaine 53 On emploie aussi la notation indicielle moins équivoque : PA(B) =P(B/A). Représentation arborescente de la formule des probabilités composées : P(A) PA(B) Ω A Univers B ==> P(A B) = PA(B)xP(A) Conditionnant Conditionné Exemple : Trouvez la probabilité d’obtenir deux As dans un paquet de 52 cartes sans remplacement. Solution : P(as)= 2/52 et P(deuxième as sans remplacement)= 3/51 Donc, P(as et as) = P(as) x P(deuxième as) = 4/52 x 3/51 = 1/221 Exemple : Lorsqu’un dé est lancé une fois, trouvez la probabilité d’avoir un 4, en prenant compte qu’un nombre égal s’est produit dans un lancer précédent. Solution : P(4 et le nombre égal) = 1/6. P(A et B)= 1/6. P(nombre égal)= 3/6 = ½. P( A|B) = P (A et B) = P (B) 1 1 6 2 = 1 3 Autres exemples € 1) Un sac contient 3 billes orange, 3 jaunes et 2 blanches. Trois billes sont sélectionnées sans remplacement. Trouvez la probabilité de sélectionner deux billes jaunes et une blanche. Solution : P( 1er Y) =3/8, P( 2e Y) = 2/7 et P( W)= 2/6 P(Y et Y et W)=P(Y) x P(Y) x P(W) = 3/8 x 2/7 x 2/6 = 1 / 28 2) Dans une classe, il y a 8 filles et 6 garçons. Si trois élèves sont sélectionnées au hasard pour faire un débat, trouvez la probabilité que ce soit uniquement des filles. Solution : P( G) =8/14 et P(B) =6/14. P( 1 st G)=8/14, P(2nd G) 7/13 et 6/12. P( trois filles) 8/14 x 7/13 x 6/12= 2/13 P(3rdG)= Université Virtuelle Africaine 54 3) En combien de façons est-ce que des représentants peuvent être sélectionnés d’un groupe de 8 membres? Solution : : 8 C3 = 56 façons 4) Une boîte a 12 bulbes dans laquelle 3 sont défectueux. Si 4 bulbes sont vendus, trouvez la probabilité qu’un soit défectueux. Solution : 3 C1x 9C3 = 3! x 9! ( 3 − 1)!1! ( 9 − 3)!3! = 252 P( 4 bulbes sur 12) = 12C4= 495. P( 1 bulbe défectueux et 3 bulbes parfaits) = 295/495=0.509. 3. Règle #3: La formule des probabilités d’hypothèses ou probabilités des causes : le théorème de Bayés. On considère un système complet d’événements H1, H2, …, Hk de l’univers des possibles Ω : H1 H2 … Hk = Ω et Hi et Hj sont incompatibles pour i ≠j. On considère un événement réalisable A de la tribu t tel que les k probabilités conditionnelles PHi(A) sont connues ainsi que les probabilités P(Hi), alors pour tout i≤k, on a : P Hi (A ) × P ( H i ) PA(Hi) = k ∑ P Hj (A ) × P ( H j ) j =1 Dessiner l’arbre direct des probabilités permettant de voir simultanément toutes ces €k probabilités conditionnelles sachant l’événement A, en généralisant la représentation graphique de la Règle #2 ci-dessus (il vous suffit de compléter la figure ci-dessous) : l’arbre pondéré ainsi obtenu s’appelle l’arbre inverse des probabilités, par opposition à l’arbre direct des probabilités qui correspond à la transcription directe des données du problème de Bayés. Sur le plan didactique et en pédagogie, il est recommandé d’initier les apprenants à la construction de l’arbre direct des probabilités dans sa démarche de résolution d’un problème de mettant en jeu les probabilités conditionnelles. Université Virtuelle Africaine 55 PH1(A) A P(AH1) = PH1(A) x P(H1) H1 P(H1) A’ P(H2) PH2(A) A P(AH2) = ? H2 P(Hk) … …… A’ … … … A’ Hk PHk(A) Arbre direct des des probabilités Arbre direct probabilités A P(AHk) = ? P(A) = ? Exercices 1) En combien de façons est-ce que 7 robes peuvent être placées en ligne sur une étagère? 2) En combien de façons est-ce que 3 stylos peuvent être sélectionnés dans un ensemble de 12 stylos? 3) Dans un paquet de 52 cartes, 3 cartes sont sélectionnées. Quelle est la probabilité d’avoir uniquement des carreaux? 4) Contrôle de performance des usines. Trois usines fournissent respectivement 25%, 35%, 40% des carreaux de faïence nécessaires à une entreprise de construction. Dans leurs livraisons, il y a respectivement en moyenne 5, 4, et 2% de carreaux inutilisables. Un carreau est choisi au hasard dans un stock important, ce carreau est défectueux. a- b- c- d- Quel est l’univers des possibles? Donner l’arbre direct des probabilités qui transcrit cette situation problème. Quelle est la probabilité qu’un carreau tiré soit défectueux? Quelle est la probabilité que le carreau défectueux tiré provienne de l’usine A? B?C? e- En déduire l’identification de l’usine la plus performante en terme de la qualité de production. 5) Contrôle des pièces et qualité d’un test. Des pièces mécaniques sont fabriquées en grande série. On effectue un test sur chacune d’elles pour en contrôler la qualité. On appelle p la probabilité pour qu’une pièce choisie au hasard soit bonne, a la probabilité pour que le test indique comme bonne une pièce qui est Université Virtuelle Africaine 56 effectivement bonne, b la probabilité pour que le test indique comme bonne une pièce qui est en réalité mauvaise. (i) Quel est l’univers des possibles en question? (ii) Donner l’arbre direct des probabilités qui transcrit cette situation problème. (iii)Calculer la probabilité pour qu’une pièce indiquée, comme bonne par le test soit effectivement bonne. (iv)Un test est utile lorsque la probabilité pour qu’une pièce indiquée, comme bonne par le test soit effectivement bonne, est supérieure à p. À quelle condition le test est-il utile? Réponses 1) 5040 2) 220 3) 0.013 4) Valeurs approchées des probabilités : c) 0,345; d) 0, 36; 0, 41; 0, 23. e) C. 5) Pour la modélisation mathématique, on prendra soin de noter les trois événements stratégiques ici : « la pièce est bonne », « la pièce est mauvaise », « le pa pa test indique que la pièce est bonne ». (iii) pa + (1− p)b ; (iv) pa + (1− p)b > p a>b. À lire € € An Introduction to Probability & Random Processes par Kennet B & Gian-Carlo R, pages 1. 1.20-1.22: “Exercise Chapter 1: Sets, Events & Probability”, pages 1.23-1.28, numerous 1-12 & 14-20. 2. 2.1-2.33: “Exercise Chapter 2: Finite Processes”, pages 2.33, numéros 1,2,3,1320,22-27. 3. Introduction to Probability, par Charles M. Grinstead, pages 139-141 Université Virtuelle Africaine 57 Variables aléatoires (v.a) Définition intuitive: Une variable aléatoire est une fonction qui assigne un nombre réel à tous les résultats possibles d’une expérience aléatoire. (Harry Frank & Steve C. Althoen, CUP, 1994, page 155) Une variable aléatoire est une variable dans le sens qu’elle peut être utilisée comme signet pour un nombre dans des équations et des inégalités. Son caractère aléatoire est complètement décrit par sa fonction de répartition ou sa densité de probabilité qui peuvent être utilisées pour déterminer la probabilité d’obtenir certaines valeurs particulières. Définition plus formelle: Formellement, une variable aléatoire est une fonction mesurable d’un espace de probabilité à vers l’ensemble des nombres réels. Par exemple, une variable aléatoire peut être utilisée pour décrire le processus de rouler un dé ainsi que les résultats possibles (1, 2, 3, 4, 5, 6). La représentation la plus évidente est de prendre cet ensemble comme écart-type, la mesure de probabilité comme mesure uniforme et la fonction comme fonction d’identité. Variable aléatoire Quelques personnes considèrent l’expression variable aléatoire comme une fausse appellation, puisqu’une variable aléatoire n’est pas une variable, mais plutôt une fonction qui dirige les résultats (d’une expérience) aux nombres. Soit A une σ-algèbre (ou tribu des parties) sur l’espace Ω de résultats utiles dans une expérience. Dans l’exemple de lancer un dé, l’espace de résultats est l’ensemble Ω = { 1, 2, 3, 4, 5, 6 }, et A serait la famille des parties de Ω. Dans ce cas, une variable aléatoire appropriée peut être la fonction d’identité X(ω) = ω. Si le résultat est ‘1’, alors la variable aléatoire est aussi égale à 1. Un exemple semblable pourrait être lorsque vous lancez une pièce de monnaie, l’espace de résultats possible est Ω = { P, F } (pour pile et face), et A est égal encore à la famille des parties de Ω. Une parmi les plusieurs variables aléatoires définies dans cet espace est où H = Face, T = Pile. Mathématiquement, une variable aléatoire est définie comme une fonction mesurable d’un espace probabilisable vers un autre espace mesurable. Université Virtuelle Africaine 58 Convergence des variables aléatoires Dans la théorie des probabilités, il y a plusieurs notions de convergence pour une suite de variables aléatoires. Certaines d’entre elles, les plus usuelles, sont données ci-dessous en ordre croissant de force – n’importe quelle notion de convergence dans la liste implique la convergence selon toutes les notions précédentes. Définitions : La convergence en loi : Comme son nom l’explique, une suite de variables aléatoires converge en loi vers la variable aléatoire , si la suite de ses fonctions de répartitions respectives F1, F2, …,, converge simplement vers la fonction de répartition de , lorsque est continue. La convergence en probabilité ou convergence faible : La suite de variables aléatoires X1, X2, …, converge en probabilité vers la variable aléatoire , si pour tout ε > 0. La convergence en probabilité est aussi appelée la convergence faible. La convergence presque sûre ou convergence forte : La suite de variables aléatoires converge presque sûrement vers la variable aléatoire , si Intuitivement, la convergence presque sûre est plus forte que la convergence faible, et dans les deux cas, les variables aléatoires montrent une corrélation en hausse avec . Dans le cas d’une convergence en loi, les valeurs réalisées des variables aléatoires n’ont pas besoin de converger, et n’importe quelle corrélation possible parmi elles est immatérielle. La loi des grands nombres : Si une pièce de monnaie est lancée, nous savons plus ou moins que la moitié du temps, elle tombera du côté face, et que l’autre moitié du temps, elle tombera du côté pile. Il semblerait aussi que le plus de fois nous le lançons, le plus de chances nous aurions un ratio [face : pile] qui approcherait de [1 :1]. Les probabilités modernes nous permettent d’arriver au même résultat. Ce résultat est remarquable puisqu’il n’est pas assumé nulle part qu’en construisant la théorie et est complètement une ramification de la théorie. La loi forte des grands nombres (LFGN) affirme que si un évènement de probabilité p est observé à répétition pendant des expériences indépendantes, le ratio des fréquences observées de l’évènement du nombre total de répétitions convergeant presque sûrement vers p. Université Virtuelle Africaine 59 En d’autres mots, si sont des variables aléatoires indépendantes de Bernoulli qui prennent la valeur 1 avec la probabilité p et la valeur 0 avec la pron ∑X i i=1 babilité 1-p, alors la suite de nombres variables n sûrement : converge vers p presque € Ex. : Théorème central limite (TCL) Le théorème central limite est la justification de l’omniprésence de la distribution normale dans la nature ; il fait que les probabilités nourrissent les statistiques. Le théorème affirme que la suite des moyennes de plusieurs variables aléatoires indépendantes et identiquement distribuées tend vers une distribution normale sans tenir compte de la distribution initiale de la variable aléatoire. Officiellement, soit une suite X1, X2, …, des variables aléatoires indépendantes de moyennes respectives , et les variances respectives , alors la suite de variables aléatoires convergent dans la distribution normale centrée réduite. Les fonctions des variables aléatoires Si nous avons une variable aléatoire X sur Ω et une fonction mesurable f : R → R, alors Y = f(X) sera aussi une variable aléatoire sur Ω, puisque la composition des fonctions mesurables est aussi mesurable. La même procédure qui a permis à une variable aléatoire d’aller d’un espace de probabilité (Ω, P) vers (R, dFX) peut être utilisée pour obtenir la distribution de Y. La fonction de répartition de Y est : Exemple Soit X une variable aléatoire réelle, une variable aléatoire continue, et soit Y = X2.. Alors : Si y< 0, alors P(X2 ≤ y) = 0, Université Virtuelle Africaine 60 Donc FY(y) = 0, si y<0. Si y ≥ 0, alors Donc F Y (y)= F X ( y ) − F X (− y ), si y ≥ 0. Les distributions de probabilités € Certaines variables aléatoires se produisent très souvent dans la théorie des probabilités à cause de plusieurs processus naturels et physiques. Leurs distributions gagnent donc une importance spéciale dans la théorie des probabilités. Quelques distributions discrètes fondamentales sont les lois discrètes uniformes, lois de Bernoulli, les lois binomiales, les lois binomiales négatives, les lois de Poisson et lois géométriques. Les distributions continues importantes incluent les distributions continues et uniformes, normales, exponentielles, gamma, beta, Khi-carré, Stuident, Fisher, Weibull, Erlang, etc. Elles sont utilisées dans divers domaines dont la modélisation stochastiques, comme en fiabilité d’un système d’organes, en économétrie, etc. Les fonctions de distributions Si une variable aléatoire est définie sur l’espace de probabilité (Ω,A,P) donné, nous pouvons poser la question suivante : « Comment est-ce que la valeur de X peut être plus grande que 2? », ce qui signifie quelle est la probabilité de l’évènement la forme P(X> 2)? , qui est souvent écrite simplement sous On enregistre toutes les valeurs possibles atteintes par une variable aléatoire X : elles forment l’univers-image X(Ω) de X. Dès lors, on « oublie » l’univers initial des possibles Ω. On s’intéresse directement à la distribution des probabilités de ces différentes valeurs de la variable aléatoire X : on identifie ainsi la loi de probabilité de X. Une telle distribution de probabilités peut toujours être saisie par sa fonction de répartition , et l’on peut parfois utiliser la fonction dérivée F’X = fX, dite la densité de probabilité de X. Dans ce dernier cas, la densité de probabilité représente la loi de probabilité de la variable aléatoire X étudiée. Université Virtuelle Africaine 61 La théorie des probabilités discrètes La théorie des probabilités discrètes cerne les évènements qui se produisent dans un espace des résultats possibles à travers une tribu de ses parties. Exemples : En lançant des dés, en faisant des expériences avec un jeu de cartes, ou avec une marche aléatoire. Définition classique : Initialement, la probabilité qu’un évènement se produise était définie par le rapport du nombre de cas favorables à la réalisation de l’événement sur le nombre des toutes les cas possibles. Par exemple, si l’événement est la « fréquence d’avoir un nombre pair lorsqu’un dé est lancé », la probabilité sera, 3 1 = 6 2 , puisque 3 faces sur 6 sont des chiffres pairs. Définition moderne : La définition moderne commence avec un ensemble appelé l’univers des possibles, qui se réfère à l’ensemble de tous les résultats possibles dans € un sens classique, désigné par . On assume alors que pour chaque élément , une valeur de probabilité intrinsèque Ce qui satisfait les propriétés suivantes : € € 1. f(x) ∈ [0, 1], pour tout x ∈ Ω. 2. ∑ f (x) = 1. x∈Ω Pour un événement qui est défini comme n’importe quel sous-ensemble des possibles , la probabilité de l’événement est : est attachée. de l’univers La fonction f(x) trace un point dans l’espace d’échantillon de la valeur de probabilité est appelé une fonction de probabilité de masse, abrégée par fpm. La définition moderne n’essaie pas de répondre à la question : comment la fonction de probabilité de masse est – elle obtenue? à la place, elle construit une théorie qui assume son existence. Université Virtuelle Africaine 62 La théorie des probabilités continues La théorie des probabilités continues s’intéresse aux événements qui se produisent dans un univers des possibles continu. Si l’univers des possibles est est un intervalle de réels, alors la fonction appelée la fonction de distribution cumulative (ou fdc) ou la fonction de répartition (f.r.) de X existe et : . La fdc ou f.r. doit satisfaire aux propriétés suivantes : 1. est une fonction monotone non décroissante et est continue à droite. 2. 3. Si est différentiable, alors la variable aléatoire a une fonction de densité de probabilités ou fdp ou tout simplement une densité : Pour un ensemble , la probabilité que la variable aléatoire prenne ses valeurs dans est représentée par : Dans le cas où la densité de probabilité existe, on peut écrire : Alors que la fdp n’existe que pour les variables aléatoires continues, la fdc existe pour toutes les variables aléatoires (incluant les variables aléatoires discrètes) qui prennent la valeur de . Ces concepts sont généralisés dans les cas multidimensionnels de où X prennent des valeurs vectorielles dans . Université Virtuelle Africaine 63 Fonction de la densité des probabilités Si X est une variable qui peut prendre un ensemble de valeurs discrètes X1, X2, X3,…….., Xk aux probabilités p1, p2, p3,……., pk, où p1+ p2 + p3,……., + pk = 1, nous dirons qu’une distribution de probabilités discrètes de X a été définie. La fonction p(X), qui a les valeurs respectives p1, p2, p3,……., pk pour X= X1, X2, X3,…….., Xk, est appelé la fonction de probabilités, ou la fonction de fréquences, de X. Puisque X peut prendre certaines valeurs avec des probabilités données, elle est souvent appelée une variable aléatoire discrète. Une variable aléatoire est parfois appelée une variable de chance ou une variable stochastique (Murray R, 2006, page 130). Distribution continue Supposons que X soit une variable aléatoire continue. La loi de probabilité de la variable aléatoire continue X est représentée par sa fonction de densité des probabilités, notée f(x), où f(x) ≥ 0 parmi les valeurs pour lesquelles x est valide. Cette fonction de densité des probabilités peut être représentée par une courbe, et une probabilité correspondante est l’aire de la région limitée par cette courbe et l’axe des valeurs de X. L’aire de toute la région sous la courbe est égale à 1. La région sous la courbe entre les lignes x=a et x=b (partie ombrée) donne la probabilité X qui est entre a et w, ce qui peut être désigné par P(a<X<b. Puisque la totalité de la région sous la courbe est égale à 1, elle suit la probabilité entre l’étendue de l’intervalle [a, b] qui est représentée par : P (a ≤ X ≤ b) = b ∫ f (x)dx a Ce qui représente la partie ombrée. Université Virtuelle Africaine 64 Note : Lorsque nous calculons la région de a à b, nous n’avons pas besoin de distinguer les inégalités (≤ et≥) et (< et>) . Nous assumons que les lignes de a et b n’ont pas d’épaisseur et que l’aire de la région correspondante égale zéro. Exemples et réponses € 1) La variable aléatoire continue X est distribuée avec une fonction de la densité de probabilité f définie par f(x) = kx(16-x2), pour 0<x<4, nulle ailleurs. Déterminez a) La valeur de la constante k. b) La probabilité de l’espace d’écart P(1<X<2). c) La probabilité P(x ≥ 3). Solution f(x) x b a Pour n’importe quelle fonction intégrable f telle que f(x) ≥ 0, pour a ≤ x ≤ b, et ∫ab f (x)dx = 1 on peut la prendre comme la fonction de densité de probabilité (f.d.p.) d’une variable aléatoire continue dans l’espace d’écart [a, b]. Démarche à suivre : Étape 1: En général, si X est une variable aléatoire continue (v.a.) avec une f.d.p. f(x) valable sur l'intervalle [a, b], alors : Donc ∫ b a f (x)dx = 1 € ∫ f (x)dx = 1 Tout x Université Virtuelle Africaine 65 Étape 2 a) Pour trouver k, nous utilisons le fait que dans f(x) = kx(16-x2), pour 0<x<4, alors 4 kx(16 − x 2 )dx = 1 ∫ Donc k ∫ 416x − x 3 )dx = 1 0 1 d' où : k = . 64 0 Étape 3 € b) Trouvez P(1<X<2) Solution 2 P(1<X<2)= ∫ f (x)dx 1 = 1 2 81 (16x − x 3 )dx = ∫ 1 64 256 Étape 4 c) Pour trouver P(x ≥ 3) écrivons : P (x ≥ 3) = 1 4 49 (16x − x 3 )dx = ∫ 3 64 256 Exemple 2 2) X est la variable aléatoire continue égale à « la masse d’une substance, en kg, par minute dans un processus industriel de production », telle que : ⎧ 1 ⎪ x(6 − x) f (x) = ⎨12 , ⎪ 0, ⎩ € (0 ≤ x ≤ 3) ; sin on. Université Virtuelle Africaine 66 Trouvez la probabilité que la masse soit supérieure à 2 kg. Solution X peut prendre des valeurs de 0 à 3 seulement. Nous dessinons sa densité de probabilité f(x) et la partie ombrée est requise. f ( x) = f(x) 1 x( 6 − x) 12 x 0 P (x > 2) = = 2 3 1 x(6 − x)dx 2 12 ∫ 3 1 3 (6x − x 2 )dx ∫ 2 12 3 1 ⎡ 2 x3 ⎤ = ⎢ 3x − ⎥ 12 ⎣ 3 ⎦2 = 0.722 (3 d.p) La probabilité que la masse soit supérieure à 2 kg est de 0,722.` Ainsi, il y aurait 72, 2 % de chance pour que la masse dépasse les 2 kg. Exemple 3 3) Une variable aléatoire continue a une f.d.p. f(x) où 2 f ( x ) = kx , 0 ≤ x ≤ 6. a) Trouvez la valeur de K b) Trouvez P ( 2 ≤ X ≤ 4) Université Virtuelle Africaine 67 Solution a) Puisque X est une variable aléatoire, le total de la probabilité est de 1. ∫ f (x)dx = 1 all ⇒ 6 ∫ 0 kx 2 dx = 1 6 ⎡ kx 3 ⎤ ⎢ 3 ⎥ = =1 ⎣ ⎦0 216k =1 3 3 ⇒k= 216 Donc f(x)= 3 2 1 2 x = x , 0≤ x≤6 216 72 b) f ( x) = f(x) x 0 2 P (2 ≤ x ≤ 4) = 1 3 x 216 = 0.259 = ] 4 2 ∫ 4 2 1 2 x dx 72 4 6 1 x2 72 Université Virtuelle Africaine 68 D’où la probabilité cherchée est : P ( 2 ≤ X ≤ 4) = 0.259. Exemple 4 La variable aléatoire continue (v.a.) a une fonction de densité de probabilité (f.d.p.) où ⎧k, si 0 ≤ x < 2 ; ⎪ f(x) = ⎨k(2x − 3), si 2 ≤ x ≤ 5 ⎪ 0, sin on. ⎩ a) Trouvez la valeur de la constante K b) Dessiner y=f(x) € c) Trouvez P(X ≤ 1) d) Trouvez P(X>2.5) Solution a) Puisque X est une v.a., alors ∫ f(x)dx = 1 Tout x Donc € ∫ 2 0 kx 5 kdx + ∫ k(2x − 3)dx = 1 2 2 0 5 + k ⎡⎣ x 2 − 3x ⎤⎦ 2 2k + 19k = 1 1 ⇒k= 21 Alors la f.d.p. de X est Université Virtuelle Africaine 69 ⎧ 1 ⎪ 21 ⎪ ⎪ ⎪1 ⎪ (2x − 3) f (x) = ⎨ 21 ⎪ ⎪ ⎪0 ⎪ ⎪ ⎩ 0≤x<2 2≤x≤5 SINON otherwise Dessin 1 3 1 21 0 1 2 2.5 3 4 b) P(x ≤ 1) = région entre zéro et 1 = L x W= 1 x 5 1 1 = = 0.048 21 21 c) Trouvez P(X>2.5) = aire du rectangle + aire du trapèze. =( 1 1 2 11 1 x 2 ) + ( {0.5}{ + } = = 0.131 2 21 21 84 21 Université Virtuelle Africaine 70 Exercices 1) La variable aléatoire continue X a une f.d.p. f(x) où f(x)= k, 0 ≤ x ≥ 3 . a. Dessinez y=f(x). b. Trouvez la valeur de la constante K. c. Trouvez P(0.5 ≤ X ≤ 1 . 2) La variable aléatoire continue a une f.d.p. f(x) où f(x)=kx2, 1 ≤ x ≤ 4 . a. Trouvez la valeur de la constante. b. Trouvez P(x ≥ 2) c. Trouvez P(2.5 ≤ x ≤ 3 .5 3) La variable aléatoire continue a une f.d.p f(x) où ⎧ k, si 0 ≤ x < 2 ; ⎪ f (x)⎨k(2x − 1), si 2 ≤ x ≤ 3 ; ⎪ 0, sin on. ⎩ € a. Trouvez la valeur de la constante k. b. Dessinez y=f(x) c. Trouvez P(X ≤ 2 ) d. Trouvez P(1 ≤ X ≤ 2.2) Université Virtuelle Africaine 71 q Réflextion : Il peut être utile pour les enseignants de trouvez un logiciel pour faire des graphiques dans l’enseignement des statistiques Graph est un bon exemple de logiciel à source ouverte. Voir : http://www.padowan,dk/graph/ Si vous avez accès à un ordinateur, téléchargez Graph et explorer ses fonctions de statistiques. Voici un exemple de différents graphiques qui peuvent être dessinés à partir de Graph. Espérance mathématique Définition : Si X est une variable continue (v.c.) avec une fonction de densité de probabilité (f.d.p.) f(x), alors l’espérance de X est E(X) défini par : E (X ) = € +∞ ∫ x f (x)dx = ∫ xf(x)dx. tout x −∞ Note: E(X) est souvent notée par μ : c’est aussi la moyenne de X. Exemple 1) Si X est une variable continue (v.c.) avec une f.d.p. trouvez E(X). Solution E (X ) = € € +∞ ∫ x f (x)dx = ∫ xf(x)dx. tout x −∞ 3 1 {x} x 2 dx Donc ∫ 0 16 ⎡ ⎤3 1 ⎢x 4 ⎥ 81 = = = 1.265 16 ⎢ 64 ⎣ 4 ⎥ ⎦0 f (x) = 1 2 x , 0≤x≤3 16 Université Virtuelle Africaine 72 2) Si la variable aléatoire continue X a une f.d.p f ( x) = trouvez E(X). € E (X ) = ∫ x f (x)dx toutx E ( x) = ∫ 3 1 2 5 2 (3 + x)( x − 1), 5 1≤ x ≤ 3 { x} (3 + x )( x − 1) dx 3 2 ⎡ x4 2 x 3 3x 2 ⎤ = ⎢ + − ⎥ 5⎣ 4 3 2 ⎦1 608 = 60 = 10 .13 Généralisation Si g(x) est une fonction quelconque d’une variable aléatoire continue X qui a une f.d.p f(x), alors E [ g(X )] = ∫ g(x) f (x)dx toutx et en particulier E (X 2 ) = ∫ x 2 f x dx ( ) tout x Les résultats suivants demeurent : 1. E (a ) = a 2. E (aX ) = aE (X ) 3. 4. € E (aX + b) = aE (X ) + b E [( f1(X ) + f2 (X )] = E [ f2 (X )]. Université Virtuelle Africaine 73 Exemple 1) La variable aléatoire continue X a une f.d.p f(x) où f(x)= Trouvez 1 x, 0 ≤ x ≤ 3 . 2 a) E(X) b) E(X2) c) E(2X +3) Solution E (X ) = a) = € ∫ 3 0 ∫ x f (x)dx toutx 1 2 x dx 2 3 1 ⎡ x3 ⎤ = ⎢ ⎥ 2 ⎣ 3 ⎦0 b = 4.5 E (X ) = 2 = ∫ all x x f (x)dx 2 1 3 3 x dx 2 ∫0 3 1 ⎡ x4 ⎤ = ⎢ ⎥ 2 ⎣ 4 ⎦0 = 81 = 10.125 8 c) E(2X +3) = E (2X) + 3 = 2E(X) +3 = 2(10.125)+5 = 25.25 ( voir b) plus haut) ) Université Virtuelle Africaine 74 Exercices 1) La variable aléatoire continue X a une f.d.p f(x) où ⎧ ⎪kx, si 0≤ x<1; ⎪ f (x) = ⎨k, si 1≤ x < 3 ; ⎪k(4 − x), si 3 ≤ x ≤ 5 ; ⎪ sin on. ⎩0, a) Trouvez k. b) Calculez E(X). € 2) La variable aléatoire continue X a sa f.d.p. f définie par f(x) = 1 (x + 3), 0 ≤ x ≤ 5. 10 € a) b) c) d) Trouvez E(X). Trouvez E(2X+4) Trouvez E(X2). Trouvez E( X2 + 2X – 1). Généralisation : moments d’ordres supérieurs Définition : On appelle le moment d’ordre m d’une v.a. X l’espérance mathématique de Xm, soit E(Xm), sous réserve de son existence. Applications des moments : coefficients d’asymétrie et d’aplatissement d’une distribution La moyenne et la variance (ou l’écart-type) d’une variable donnent les premiers renseignements sur sa distribution : la moyenne renseigne sur le centrage ou la position des valeurs de la variable, et la variance (ou l’écart-type) informe sur la dispersion de ces valeurs autour de la moyenne. Les moments d’ordres supérieurs à deux fournissent des informations plus précises. • Le moment centré d’ordre 3 : E(X-E(X))3 ; c’est le premier moment centré d’ordre impair non nul ; il donne une information sur la symétrie de la distribution des valeurs par rapport à la moyenne E(X). Définition : Le coefficient d’asymétrie ou skewness de X est la quantité sans dimension a= € € E [(X −E (X )) 3] σ 3X Université Virtuelle Africaine 75 Plus a est faible, proche de zéro, plus la répartition est approximativement symétrique par rapport à la moyenne E(X). si la distribution est symétrique, alors a est nul ; la réciproque étant fausse! • Le moment centré d’ordre 4 : E(X-E(X))4 ; il apporte une information sur l’aplatissement de la distribution des valeurs de X. Définition : Le coefficient d’aplatissement ou kurtosis de X est la quantité sans dimension A= E [(X −E (X )) 4 ] − 3. σ 4X La correction par 3 vient du fait que le rapport E[(X-E(X))4]/s4X vaut 3 pour la loi normale centrée réduite. Si A >0, alors la distribution est moins aplatie que la loi € normale : la distribution est hypernormale ; Si A <0, alors la distribution est plus aplatie que la loi normale La loi de Bernoulli Dans la théorie des probabilités et des statistiques, la loi de Bernoulli, ainsi nommée en hommage au scientifique suisse Jakob Bernoulli, est une distribution de probabilités discrètes qui prend la valeur 1, avec une probabilité de succès p, et la valeur 0, avec une probabilité d’échec q = 1 –p. Donc, si X est une variable aléatoire qui suit cette distribution, nous avons : La fonction de probabilité de masse f de cette distribution est ⎧ p, si k = 1; ⎪ f(k; p) = ⎨1 - p, si k = 0; ⎪ 0, sinon. ⎩ La valeur prévue d’une variable aléatoire X de Bernoulli est variance est , et sa € Le coefficient d’aplatissement va vers l’infini pour des valeurs hautes et basses de p, mais pour p = 1 / 2, la distribution de Bernoulli a un coefficient d’aplatissement plus bas que n’importe quelle autre distribution de probabilités, à savoir -2. La distribution de Bernoulli est membre de la famille exponentielle. Université Virtuelle Africaine 76 La distribution binomiale Dans la théorie des probabilités et des statistiques, la distribution binomiale est la distribution de probabilités discrètes des nombres de succès dans une séquence de n expériences indépendantes de type oui/non, dans laquelle chacune a un succès avec une probabilité p. Une expérience succès/échec comme celle-ci est aussi appelée une expérience de Bernoulli ou un essai de Bernoulli. La distribution binomiale est la base pour faire des tests populaires binomiaux d’une signification de statistique. Exemple. Comme exemple de base : lancez un dé dix fois et comptez le nombre de 1 que vous obtiendrez. Donc, ce nombre au hasard suit une distribution binomiale avec n = 10 et p = 1/6. Exemple. Supposons que 5 % de la population a les yeux verts. Vous prenez 500 personnes au hasard. Le nombre de personnes aux yeux verts que vous prendrez est une variable aléatoire X qui suit une distribution binomiale avec n = 500 et p = 0,05 (lorsque vous prenez des personnes avec un remplacement). Exemples 1) Une pièce de monnaie est lancée 3 fois. Trouvez la probabilité d’avoir 2 faces et un pile dans l’ordre. Formule Nous pouvons utiliser la formule nCx. (p)x.(1-p)n-x Où n = le nombre d’essais X= le nombre de succès (1,2, …) P= la probabilité d’un succès. Cx détermine le nombre de façon qu’un succès peut se produire 1er) n 2e) (p)x 3e) (1-p)n-xest la probabilité d’avoir des échecs n-x est la probabilité d’avoir x succès et Analyse de la loi binomiale de paramètres (n, p) (à vérifier): E(X)=np ; V(X)=np(1-p)=npq ; asymétrie : a = 1 6 − . npq n € € q− p npq ; aplatissement : A= Université Virtuelle Africaine 77 Solution Lancer 3 fois veut dire que n=3 Deux faces veut dire que x=2 P(H)=1/2; P(T)=1/2 P( 2 faces) = 3C2. 1 2 ( )2.(1- 1 3-1 ) = 3(1/4)(1/2)= 3/8 2 Exercices 1) Trouvez la probabilité d’avoir exactement un 5 lorsqu’un dé est lancé. 2) Trouvez la probabilité d’avoir 3 faces lorsque 8 pièces de monnaie sont lancées. 3) Un sac contient 4 balles rouges et 2 balles vertes. Une balle est tirée et remplacée 4 fois. Quelle est la probabilité d’avoir exactement 3 balles rouges et une balle verte. Réponses 1) P(un 5) = 3C1. 1 6 ( )1.( 2) P ( 3 faces) = 8C3. 5 2 ) =25/72 = 0.347 i.e. n=3, x=1, p=1/6 6 1 2 ( )3.( 3) P( 3 balles rouges) = 4C3. 1 5 ) =7/32 = 0.218. i.e. n=8, x=3, p=1/2 2 2 3 ( )3.( 1 3 )1 = 32/81= 0.395 i.e. n=4, x=3, p=2/3 À lire 1. Lectures on Statistics, par Robert B. Ash, page 1-4 Exercices numéros 1,2 et 3 à la page 4. 2. An Introduction to Probabilité & Random Processes par Kenneth B. & GianCarlo R., pages 3.1-3.63 Exercise Chapter 3: Random Variables page 3.64-3.82, No. 1-7, 11-17, 20-24 et 34-36. 3. An Introduction to Probability par Charles M. Grinstead, pages 96-107 et 184. Les exercices aux pages 113-118, no 1,2,3,4,5,8,9,10,19,20. Ref:http://en.wikipedia.org/wiki/measurable_space Ref:http://en.wikipedia.org/wiki/Probability_theory Ref:http://en.wikipedia.org/wiki/Bernoulli_distribution Université Virtuelle Africaine 78 La loi de Poisson Dans la théorie des statistiques, la loi de Poisson est une distribution de probabilités discrètes qui exprime la probabilité qu’un nombre d’événements se produise dans une période de temps prédéterminée, si ces événements se produisent dans un taux moyen connu et sont indépendants du temps depuis le dernier événement. Cette distribution a été découverte par Siméon-Denis Poisson, mathématicien français (1781-1840), dans sa publication de 1837 sous le titre « Recherches sur la probabilité de jugements en matière criminelle et en matière civile ». Elle est particulièrement adaptée pour décrire les événements dont les chances de réalisation sont faibles, d’où son appellation de « la loi des événements rares ». La loi de Poisson est utilisée lorsque la variable se produit sur une certaine période de temps, de volume, etc… ; elle a de nombreuses applications dans des domaines très variés tels : gestion industrielle (nombre d’accidents de travail, vérification comptable, contrôle d’acceptation, cartes de contrôle pour le nombre de non-conformités), l’arrivée des avions à un aéroport, recherche médicale(le nombre de globules blancs dans une certaine région, nombre de bactéries), le nombre d’accidents survenus sur une route, le nombre de véhicules qui passent à des intervalles de temps réguliers à un endroit fixé (péage, frontière, etc.), recherche opérationnelle(le nombre de clients en file d’attente devant un guichet, le nombre d’appels par heure dans une station,, etc.). Elle peut être définie comme la limite d’une loi binomiale de paramètres (n, p) lorsque n devient infinie et np = λ . Elle donne ainsi une très bonne approximation d’une loi binomiale à faible probabilité de succès et avec un nombre suffisamment grand de nombre n répétitions d’une épreuve de Bernoulli. La probabilité de x succès est 2,71828, e− λ λ x , où e est la constante mathématique = x! et λ est la moyenne ou l’espérance mathématique de la variable (le taux moyen). Analyse de la loi de Poisson de paramètre λ : E(X)=V(X) = λ ; asymétrie : a = 1 λ € ; aplatissement : A= 1 . λ € Travail d’équipe : Étudiez le calcul des probabilités et essayez de répondre à la question. Exemple Si il y a 100 erreurs typographiques distribuées au hasard dans 500 pages manuscrites, trouvez la probabilité que n’importe laquelle de ces pages ait 4 erreurs. Université Virtuelle Africaine 79 Solution Trouvez la moyenne des erreurs x = 100 1 = = 0 .2 . 100 5 En d’autres mots, il y a en moyenne 0,2 erreurs par page. Dans ce cas, λ = 4 , donc la probabilité de tomber sur une page avec exactement 4 erreurs e − .x x x! = (2 .7183 )−0.2 (0 .2 )4 41 = 0,00168 Montant 0.2 % Exemple et solution Une ligne prioritaire avec un numéro sans frais reçoit en moyenne 4 appels par heure, pour n’importe quelle heure. Trouvez la probabilité de recevoir exactement 5 appels. λ e .λ x = (2 .7183 )− 3 (3 )5 x! = 0.1001 5! Donc, 10 %. Exercices 1) Une compagnie de télémarketing reçoit en moyenne 5 commandes par 100 appels. Si une compagnie appelle 500 personnes, trouvez la probabilité de recevoir 2 commandes. Solution 0.26, donc 26 %. À lire 1. An Introduction to Probability & Random Processes par Kenneth B. & GianCarlo R., pages 187-192. 2. Robert B. Ash, Lectures on Statistics, page 1 et répondez aux problèmes 1,2,3 à la page 15. Réf.: http://en.wikipedia.org/wiki/Normal_distribution À manipuler en guise de travaux pratiques sur ordinateur : visualisation des lois discrètes Université Virtuelle Africaine 80 1. Ouvrir le logiciel Excel ; 2. Aller dans Outil : cliquer sur Utilitaire d’Analyse, si activé, sinon cliquer sur Macros complémentaires : faire activer Utilitaire d’Analyse. 3. Génération des nombres aléatoires 4. Choisir votre loi. Loi exponentielle Dans la théorie des probabilités et des statistiques, la loi exponentielle est l’une des deux distributions de probabilités continues : • La distribution de probabilité du chiffre X de l’essai de Bernoulli nécessaire pour obtenir un succès, s’appuyant sur l’ensemble (1,2,3, …), ou • La distribution de probabilités du chiffre Y = X – 1 des échecs avant le premier succès, s’appuyant sur l’ensemble (1,2,3, …). Si la probabilité de succès sur chaque essai est p1, alors la probabilité que les essais k sont nécessaires pour obtenir un succès est Pour K = 0,1,2,3, … Si la probabilité de succès pour chaque essai est p0, alors la probabilité qu’il y aie des échecs k avant le premier succès est Pour K = 0,1,2,3, … Dans chacun des cas, la séquence de probabilités est une séquence exponentielle. Comme exemple, supposons qu’un simple dé est lancé à plusieurs reprises avant d’obtenir pour la première fois « 1 ». La distribution de probabilités du nombre de fois qu’il est lancé est appuyé par l’ensemble infini (1,2,3, …) et sa distribution exponentielle avec p1 = 1/6. Solutions utilisant la formule de distribution exponentielle La formule de probabilités pour que le premier succès soit obtenu à l’essai n est (1-p)n-1p ou simplement , où p est la probabilité d’obtenir un succès et n est le nombre d’essais nécessaire avant le premier succès. Exemple Trouvez la probabilité d’obtenir le premier « pile » lorsqu’on lance une pièce de monnaie pour la 3e fois. Université Virtuelle Africaine 81 Solution Le résultat d’obtenir un pile au troisième lancé implique FFP (face, face, pile). De (1-p)n-1p , n=3, p=1/2 Et donc P(FFP) = ( 1- 1 3-1 1 1 1 1 ) ( ) = ( ) .. ( ) ( ) =1/8 2 2 2 2 2 Exemples dans une distribution exponentielle En lançant une pièce de monnaie plusieurs fois, nous appliquons la distribution exponentielle pour obtenir la réponse de lancer une pièce plusieurs fois. Exemple 1) Une pièce de monnaie est lancée. Trouvez la probabilité d’obtenir pour la première fois le côté face au troisième lancé. Nous devons obtenir PPF n = 3 et p=1/2 La probabilité d’obtenir deux côtés pile et un côté face est 1 − 1 − 1 = 1 2 2 2 8 Ou avec la formule 1⎞ ⎛ ⎜1 − ⎟ 2⎠ ⎝ 3 −1 2 ⎛1⎞ ⎛1⎞ 1 . =⎜ ⎟ ⎜ ⎟= 2 ⎝2⎠ ⎝2⎠ 8 1 Université Virtuelle Africaine 82 Université Virtuelle Africaine 83 2) Un dé est lancé; trouvez la probabilité d’obtenir pour la première fois un 3 au quatrième lancer. Solution n=4 p=1/6 4 −1 3 3 ⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 5 ⎞ ⎛ 5 ⎞ ⎛ 1 ⎞ 125 = 0 .96 ∴ ⎜1 − ⎟ ⎜ ⎟ = ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ = ⎝ 6 ⎠ ⎝ 6 ⎠ ⎝ 6 ⎠ ⎝ 6 ⎠ ⎝ 6 ⎠ 1296 Exemple Si des cartes sont tirées dans un paquet de cartes et ensuite replacées, combien d’essais seront nécessaires en moyenne avant d’obtenir deux piques? P (Pique) = 13/52=1/4 Le nombre d’essais prévus pour obtenir 2 piques serait Exercices 2 4 = 2 x = 8. 1 1 4 1. Une carte est tirée à partir d’un paquet des cartes et est ensuite replacée avec une autre carte tirée, etc. Trouvez la probabilité d’obtenir pour la première fois un pique lors de la quatrième pige. 2. Un dé est lancé jusqu’à l’obtention d’un 5 ou d’un 6. Trouvez le nombre de lancers nécessaires prévus. Réponses 1. Quatrième 2. 3 Université Virtuelle Africaine 84 Distribution hypergéométrique Dans la théorie des probabilités et des statistiques, la distribution hypergéométrique est une distribution de probabilités discrètes qui décrit le nombre de succès dans une séquence de n tirés à partir d’une population limitée sans remplacement. Un exemple typique est illustré par le tableau de contingence plus haut : il y a une cargaison d’objets N dans laquelle les D sont défectueux. La distribution hypergéométrique décrit la probabilité qu’un échantillon d’objets distinctifs N pris au hasard dans la cargaison soient des k objets défectueux. En général, si une variable aléatoire X suit la distribution hypergéométrique avec les paramètres N, D et n, alors la probabilité d’obtenir exactement k succès est représentée par : La probabilité est positive lorsque k est entre maximum { 0, D + n − N } et minimum { n, D }. La formule peut être comprise comme suit : Il y a échantillons possibles (sans remplacement). Il y a façons d’obtenir k objets défectueux et il y a manières de remplir le reste de l’échantillon avec des objets non défectueux. Lorsque le format de la population est large si on le compare au format d’échantillon (N est beaucoup plus large que n), la distribution hypergéométrique est approximée raisonnablement par une distribution binomiale avec des paramètres n (nombre d’essais) et p = D / N (la probabilité du succès dans un simple essai). Formule hypergéométrique Lorsqu’il y a deux groupes d’objets comme il y a « a » objets dans le premier groupe et « b » objets dans le second groupe, donc le nombre total d’objets est (a + b), la probabilité de sélectionner x objets du premier groupe et (n-x) objets du deuxième groupe est C C a x . b n− x , où n est le total d’objets sélectionnés sans remplacement. C a+b n Université Virtuelle Africaine 85 Exemples 1. Un sac contient 3 jetons bleus et 3 jetons verts. On tire deux jetons au hasard, Trouvez la probabilité d’obtenir deux jetons bleus. Solution C C a x . b n− x À partir de la formule ; a = 3, b= 3, x=2, n=2, n-x=2-2=0 C a+b n La probabilité d’obtenir deux jetons bleus = C C 3 2 . 3 2−2 C 3+3 2 = 3 x1 15 = 1 5 = 0 .2 2. Un comité de 4 personnes est choisi au hasard sans remplacement à partir d’un groupe de 6 hommes et 3 femmes. Trouvez la probabilité que le comité soit constitué de 2 hommes et de 2 femmes. Solution a=6 b=3 n = 6+3=9 Puisque le comité est constitué de 2 hommes et de 2 femmes x=2 n-.x= 3-2=1 Pr = 6C 2 3C 1 15 x3 15 = = = 0.536 9C 3 84 28 3. Un groupe de 10 chars d’assaut contient 3 chars défectueux. Si 4 chars d’assaut sont sélectionnés au hasard et testés, trouvez la probabilité d’obtenir un char défectueux. 3 sont défectueux 7 sont bons a=3 b=7 Pr (un défectueux) n = 4 x=1 n-x=4-1=3 Université Virtuelle Africaine 86 Pr (un défectueux) 3C 1 . 7 C 3 10 C 4 = 105 210 = 0 .5 Exercices 1. Dans une boîte de 10 chemises, 5 sont défectueuses. Si 5 chemises sont vendues au hasard, trouvez la probabilité que 2 chemises soient défectueuses. 2. Dans une cargaison de 12 chaises de jardin, 8 sont brunes et 4 sont bleues. Si 3 chaises sont vendues au hasard, trouvez la probabilité qu’elles soient toutes brunes. Réponses 1) 0.397 2) 0.255 1) Trouvez la probabilité de choisir 5 femmes dans un comité de 15 femmes. P(en choisir 5) = 15 1 1 = C 5 3003 2) Quelle est la probabilité de tirer un as ou un pique dans un jeu de cartes? P ( Ace) = 4 52 ∴ P (AU B ) = P (A ) + P (B ) − P (AU B ) 13 52 = = P (spade) = 4 52 + 13 52 − 1 52 16 4 = 52 13 q Travail d’équipe 1. Révisez les questions et réponses de probabilités suivantes. 2. Discutez des problèmes rencontrés dans le calcul des probabilités. Université Virtuelle Africaine 87 1 3) Des femmes enceintes ont des problèmes. La probabilité de mourir est de . 5 Quelle est la probabilité qu’au moins une meure à chaque 5 femmes. 1 P ( A) = 51 P (A)1 − 5 ⎛ 50 ⎞ P(au moins une mourra) ⎜ ⎟ = utilisez une calculatrice. ⎝ 51 ⎠ 1 50 = 51 51 Application et exemple L’application classique de la distribution hypergéométrique est un échantillonnage sans remplacement. Pensez à une urne avec deux types de billes, des noires et des blanches. Définissez le tirage d’une bille blanche comme un succès et d’une bille noire comme un échec. Si la variable N décrit le nombre de toutes les billes dans l’urne et D décrit le nombre de billes blanches (appelées défectueuses dans l’exemple plus haut), alors N-D correspond au nombre de billes noires. Maintenant, disons qu’il y a 5 billes blanches et 45 billes noires dans l’urne. Placé près de l’urne, vous fermez vos yeux et vous pigez 10 billes sans les remplacer. Quelle est la probabilité p (k=4) que vous pigiez exactement 4 billes blanches (et, bien sûr, 6 billes noires)? Le problème est résumé par ce tableau de contingences ci-dessous : Tirées Non tirées Totales Billes blanches 4 (k) 1 = 5 − 4 (D − k) 5 (D) Billes noires 6 = 10 − 4 (n − k) 39 = 50 + 4 − 10 − 5 (N + k − n − D) 45 (N − D) Total 10 (n) 40 (N − n) 50 (N) La probabilité Pr (k = x) de tirer exactement x billes blanches (= au nombre de succès) peut être calculé par la formule : D’où, dans cet exemple x = 4, calculez Université Virtuelle Africaine 88 Donc, la probabilité de tirer exactement 4 billes blanches et plutôt basse (approximativement 0.004) et l’évènement est très peu probable. Cela signifie que, si vous répéter votre expérience aléatoire (tirer 10 billes de l’urne de 50 billes sans remplacement) 1000 fois, vous pourriez espérer obtenir pareil résultat 4 fois. Mais à propos de la probabilité de tirer les 5 billes? Vous serez d’accord que cet événement est encore plus peu probable que de tirer 4 billes blanches. Calculons la probabilité d’un évènement aussi extrême. Le tableau de contingence correspondant est donné ci-dessous : Tirées Non tirées Total Billes blanches 5 (k) 0 = 5 − 5 (D − k) 5 (D) Billes noires 5 = 10 − 5 (n − k) 40 = 50 + 5 − 10 − 5 (N + k − n − D) 45 (N − D) total 10 (n) 40 (N − n) 50 (N) Nous pouvons aussi calculer la probabilité qui suit (remarquez que le dénominateur est toujours le même) : Comme prévu, la probabilité de tirer 5 billes blanches est encore plus basse que de tirer 4 billes blanches. Conclusion Par conséquent, on pourrait développer la question initiale comme suit : Si vous pigez 10 billes d’une urne (qui contient 5 billes blanches et 45 billes noires), qu’elle serait la probabilité de tirer au moins 4 billes blanches? Ou, qu’elle serait la probabilité de tirer 4 billes blanches (et encore plus extrême, 5 billes blanches)? Ceci correspond à calculer la probabilité cumulative p(k>=4) et peut être calculé par la fonction de distribution cumulative (fdc). Puisque la distribution hypergéométrique est une distribution de probabilités discrètes, la probabilité cumulative peut être calculée facilement en ajoutant toutes les valeurs de probabilités correspondantes. Université Virtuelle Africaine 89 Dans notre exemple, vous n’avez qu’à faire la somme de Pr (k = 4) et Pr (k = 5): Pr (k ≥ 4) = 0.003964583 + 0.0001189375 = 0.004083520 À lire An Introduction to Probabilité & Random Processes par Kenneth B. & Gian-Carlo R., pages 184 à 195. La distribution de fréquence à deux variables La distribution de fréquence à deux variables est la distribution statistique avec une fonction de probabilité Où Et est la corrélation de of et (Kenney et Keeping 1951, pages 92 et 202-205; Whitaker et Robinson 1967, page 32) de , sont souvent utilisés à la place de . Les probabilités marginales sont alors = et et = et Université Virtuelle Africaine 90 = = Tableaux de probabilités jointes Ce tableau est un tableau très bien présenté d’un tableau de probabilités jointes. Nombres de jours avant la vente Prix demandé Moins de 30 31-90 Plus de 90 Totaux Moins de 50,000 $ 0.06 0.05 0.01 0.13 50,000 $-99,999 $ 0.03 0.19 0.10 0.31 100,000-150,000 $ 0.03 0.35 0.13 0.50 Plus de 150,000 $ 0.01 0.04 0.01 0.06 Totaux 0.13 0.63 0.25 1.00 Probabilités marginales Laissons être divisé dans dans des ensembles disjoints et où le sousensemble général est indiqué par . Donc, la probabilité marginale de est À lire 1. An Introduction to Probability & Random Processes par Kenneth B. & GiangCarlo R., pages 142 à 150. 2. Exercices à la page 150, no 1,2,3,4,5,6,7,8,9,14,15,16,17,26. Université Virtuelle Africaine 91 q Réflexion: Les ressources TIC sont difficiles à accéder! Ce lien vous mènera sur un site internet pour les enseignements de mathématiques pour accéder aux ressources TIC. http://www.tsm-resources.com/suppl.html Unité 2 (40 heures) Variables aléatoires et essais de distribution Les moments La distribution de probabilités d’une variable aléatoire est souvent caractérisée par un petit nombre de paramètres qui ont aussi une interprétation pratique. Comme exemple, il est souvent assez pour connaître la « valeur moyenne ». Ceci est capturé par le concept mathématique de la valeur prévue d’une variable aléatoire, représentée par E[X]. Notez qu’en général, E[f(X)] n’est pas la même chose que f(E[X]). Une fois que la « valeur moyenne » est connue, on pourrait alors demander jusqu’où cette valeur moyenne de X est, une question qui se répond par la variance est l’écart-type d’une variable aléatoire. Université Virtuelle Africaine 92 Inégalité de Jensen Si X est une v.a. à valeurs vectorielles dans Rn, et g une fonction réelle définie convexe sur Rn et intégrable, alors E(g(X))≥g(E(X)). En particulier : E ( X ) ≥ E (X ). Mathématiquement, cela est connu sous le problème (généralisé) des moments : pour une classe de variables aléatoires X, trouver la famille {fi} de fonctions telles que les valeurs € espérées E[fi(X)] déterminent complètement la distribution de la variable aléatoire X. L’égalité des variables aléatoires Il existe plusieurs différents sens dans lesquels les variables aléatoires peuvent être considérées comme étant égales. Deux variables aléatoires peuvent être égales, égales presque certainement, égales en moyenne ou égales en distribution. En augmentant l’ordre de force, la définition précise de ses notions d’équivalences est donnée plus bas. L’égalité dans la distribution Deux variables aléatoires X et Y sont égales dans la distribution, si elles sont la même fonction de répartition, c-à-d si pour tout réel x, P (X ≤ x) = P (Y ≤ x). Il est facile de vérifier que deux variables aléatoires qui ont leurs fonctions génératrices de moments égales ont la même distribution. € L’égalité en moyenne Deux variables aléatoires X et Y sont égales en moyenne d’ordre p, si le moment d’ordre p de |X − Y| est nul, i.e. L’égalité en moyenne d’ordre p implique une égalité en moyenne d’ordre q, pour tout q<p. Comme dans le cas précédent, il y a une distance associée pour les variables aléatoires, à savoir, pour tout couple de v.a. (X, Y) : Université Virtuelle Africaine 93 L’égalité presque sûre Deux variables aléatoires X et Y sont égales P-presque sûrement, si l’événement {ω ∈ Ω/X(ω ) = Y (ω ) } est un événement presque sûr, i.e. P( {ω ∈ Ω/X(ω ) = Y (ω ) } )=1, ou encore P( {ω ∈ Ω/X(ω ) ≠ Y (ω ) } )= 0. € € L’égalité € Finalement, les deux variables aléatoires X et Y définies sur un même espace probabilisé sont égales si elles coïncident en tant que fonctions sur leur espace des probabilités, i.e. : pour tout ω ∈ Ω, X(ω) = Y (ω). Fonction génératrice des moments Dans la€théorie des probabilités et statistiques, la fonction génératrice des moments d’une variable aléatoire X est : peu importe où cette prédiction existe. La fonction génératrice des moments génère les moments de la distribution de probabilités. Pour des variables aléatoires à valeur vectorielles X, la fonction génératrice des moments se donne comme suit où t est un vecteur de même dimension que X et t, X est le produit scalaire. La fonction génératrice des moments existe à un intervalle autour de t = 0, le n-ième moment est représenté par € Si une v.a. X admet f(x) comme fonction de la densité des probabilités, alors la fonction génératrice des moments est représentée par Université Virtuelle Africaine 94 Où mi, est le i-ième moment. MX( − t) n’est que la transformation Laplace à deux côtés de f(x). Sans se soucier si la distribution de probabilités est continue ou non, la fonction génératrice des moments est représentée par l’intégrale de Riemann-Stieltjes : Où F est la fonction de distribution cumulative de X. Si X1, X2, ..., Xn est une suite des variables aléatoires indépendantes (et pas nécessairement identiquement distribuées) et que Où les ai sont des constantes, réelles, alors le fonction de la densité des probabilités pour Sn est la circonvolution des fonctions de la densité des probabilités de chacun des Xi et la fonction génératrice des moments pour Sn est représentée par Un nombre de plusieurs autres transformations reliées à la fonction génératrice des moments est commun dans la théorie des probabilités, incluant les fonctions caractéristiques et la fonction génératrice des probabilités. L’inégalité de Markov ε f(x) {X εX | f ( x) ≥ ε } L’inégalité de Markov donne une limite supérieure de la probabilité de l’événement ( X ≥ a) € , pour a>0 fixé . Cette inégalité est ainsi nommée après le mathématicien russe Andrey Markov, bien qu’elle apparut plus tôt dans les travaux de Pafnuty Chebyshev (l’enseignant de Markov). Université Virtuelle Africaine 95 r E( X ) . Pour tout a>0, pour tout réel r>0, on a : P ( X ≥ a) ≤ ar Les inégalités de Markov (ainsi que d’autres inégalités semblables) rapportent des probabilités aux prédictions et fournissent (très souvent) des limites détachées, mais tout de même utiles pour la fonction de distribution cumulative d’une variable € € aléatoire. Démonstration Pour n’importe quel événement E, soit IE l’indicateur d’une variable aléatoire de E, qui est IE = 1 seulement si E se produit, et = 0, sinon. Par conséquent, I(|X| ≥ a) = 1, si l’événement |X| ≥ a se produit, et I(|X| ≥ a) = 0 si |X| < a. Alors, a>0 Donc, ε f(x) {XεX | f ( x) ≥ ε } Maintenant, observons que le côté gauche de cette inégalité est le même que Par conséquent, nous avons et puisque nous avons a> 0, nous pouvons diviser les deux côtés par a. À lire 1. Robert B. Ash, Lectures on Statistics, pages 9 à 13. 2. An Introduction to Probabilité & Random Processes par Kenneth B. & GianCarlo R., pages 366 à 374 et 404 à 407. • Exercices : page 376, no 1, 3, 7,8 • Exercices : page 442, no 1, 2, 3, 4,5 Université Virtuelle Africaine 96 Références • http://en.wikipedia.org/wiki/Moment-generating_function • http://en.wikipedia.org/wiki/characteristic_function_%28probability_theory%29. • http://en.wikipedia.org/wiki/Integral_transform L’inégalité de Chebyshev Dans la théorie des probabilités, l’inégalité de Chebyshev (aussi connu sous l’inégalité de Tchebysheff, le théorème de Chebyshev, ou l’inégalité de BienayméChebyshev), nommé en l’honneur de Pafnuty Chebyshev, celui qui a été le premier à dire que dans n’importe quel type d’échantillon de données ou dans n’importe quelle distribution de probabilités, que presque toutes les valeurs soient près de la même moyenne de valeur, et fournit une description quantitative à « presque toutes » et « près de ». Par exemple, pas plus de ¼ des valeurs sont plus que 2 écarts types plus loin que la moyenne, pas plus que 1/9 sont plus de 3 écarts-types plus loin, et que pas plus que 1/25 sont plus de 5 écarts-types plus loin, et ainsi de suite. Proposition probabiliste : la règle de k sigma : Si X est une variable de moyenne μ et de variance finie σ2, alors pour n’importe quel nombre réel k > 0, on a l’inégalité : Seulement les cas k> 1, notamment k=3, fournissent de l’information pertinente. Remarque : Il existe d’autres formulations équivalentes moins usuelles de l’inégalité P ( X − μ ≥ k) ≤ de Chebyshev, par exemple : σ2 . k2 Interprétation : Plus σ2 est relativement grand par rapport à ké, plus la probabilité de l’événement ( X − μ ≥ k) est grande. Ce qui montre que σ est bien un paramètre qui caractérise la dispersion de la v.a. X autour de sa moyenne : X s’écarte d’autant € que son écart-type (ou sa variance) est faible. moins de sa moyenne Preuve : Cette inégalité de Chebyshev découle de l’inégalité de Markov (voir plus € bas) : il suffit de considérer cette fois la v.a. X- μ et prendre r==2. Comme exemple, en utilisant k=√2, cela montre qu’au moins la moitié des valeurs se trouvent dans l’intervalle (μ − √2 σ, μ + √2 σ). Typiquement, le théorème fournira des limites plutôt souples. Toutefois, les limites fournies par l’inégalité de Chebyshev ne peuvent pas, en général, être améliorées. Université Virtuelle Africaine 97 Par exemple, pour n’importe quel k> 1, l’exemple suivant (où σ = 1/k) rencontre les exactement les limites. Le théorème peut être utile malgré les limites souples, parce qu’il s’applique aux variables aléatoires de n’importe quelle distribution, et parce que ces limites peuvent être calculées en ne sachant rien d’autre de la distribution que la moyenne et la variance. L’inégalité de Chebyshev est utilisée pour prouver la loi faible de grands nombres. Exemple Pour illustrer ce théorème, nous avons plusieurs textes, comme des articles d’une revue. Nous savons que les articles contiennent environ 1000 caractères avec un écarttype de 200 caractères. À partir de l’inégalité de Chebyshev, nous pouvons en déduire qu’au moins 75 % des articles contiennent entre 600 et 1400 caractères (k = 2). Preuve probabiliste L’inégalité de Markov dit que pour n’importe quelle valeur réelle d’une variable aléatoire Y et pour n’importe quel nombre positif a, nous avons Pr (|Y| > a) ≤ E (|Y|)/a. Une manière de prouver l’inégalité de Chebyshev est d’appliquer aussi l’inégalité de Markov à la variable aléatoire Y = (X − μ)2 avec a = (σk)2. Cela peut aussi être prouvé directement. Pour n’importe quel événement A, I est l’indicateur de la variable aléatoire de A – I égal à 1 si A se produit et sinon, il est égal à 0. Donc, La preuve directe montre pourquoi les limites sont plutôt fausses dans les cas typiques : le nombre 1 à gauche de « ≥ » est remplacé par [(X − μ)/(kσ)]2 à la droite de « ≥ » peu importe où ce dernier dépasse 1. Dans certains cas, il dépasse 1 par une marge très large. Conséquence immédiate(à vérifier) : V(X) = 0 si, et seulement si X=E(X) presque sûrement. Université Virtuelle Africaine 98 À lire An Introduction to Probability & Random Processes par Kenneth B. & GianCarlo R., pages 305 à 318. • Les exercices à la page 309, no. 1,2,3,4,5. • Les exercices aux pages 320 à 324, no. 1,3,10,12. Les types de corrélation La corrélation est une mesure symétrique d’association entre deux variables. Les variables ne sont pas désignées comme dépendantes ou indépendantes. Les deux coefficients de corrélation les plus populaires sont : le coefficient de corrélation de Spearman rho et le coefficient de corrélation du produit-moment de Pearson. Lorsque vous calculez le coefficient de corrélation pour une donnée ordinale, choisissez la technique de Spearman. Pour l’intervalle ou une donnée ratio type, utilisez la technique de Pearson. La valeur d’un coefficient de corrélation peut varier de moins un à plus un. La valeur moins un indique une corrélation négative parfaite, tandis qu’un plus un indique une corrélation positive parfaite. Une corrélation de zéro signifie qu’il n’y a aucune relation entre les deux variables. Lorsqu’il y a une corrélation négative entre deux variables, alors si la valeur d’une variable augmente, la valeur de l’autre variable diminue, et vice versa. Lorsqu’il y a une corrélation positive entre deux variables, alors si la valeur d’une variable augmente, la valeur de l’autre variable augmente aussi : les deux variables bougent ensemble dans le même sens. L’erreur-type d’un coefficient de corrélation est utilisée pour déterminer l’intervalle de confiance autour d’une vraie corrélation de zéro. Si votre coefficient de corrélation tombe en dehors de son étendue, alors il est différent de zéro. L’erreur-type peut être calculé par intervalles ou par données ratio type (seulement pour la corrélation produit-moment de Pearson). La signification (en probabilité) du coefficient de corrélation est déterminée à partir de la statistique-t. La probabilité de la statistique-t indique si le coefficient de corrélation observé est arrivé par chance si la vraie corrélation est zéro. En d’autres mots, elle demande si la corrélation est différente de zéro. Lorsque la statistique-t est calculée pour le coefficient de corrélation de différence de rang de Spearman, il doit y avoir au moins 30 cas avant la distribution-t pour déterminer la probabilité. Si il y a moins de 30 cas, vous devez vous référer à un tableau spécial pour trouver la probabilité du coefficient de corrélation. Exemple Si une compagnie voulait savoir s’il y a une relation significative entre le nombre total de vendeurs et le nombre total de ventes. Ils ont amassé des données pendant 5 mois. Université Virtuelle Africaine 99 Variable 1 207 180 220 205 190 Variable 2 6907 5991 6810 6553 6190 Coefficient de corrélation = .921 Erreur-type du coefficient = .068 Test-t pour la signifiance du coefficient = 4.100 Degré de liberté = 3 Probabilité à deux queues = .0263 Autre exemple Des personnes ayant répondu à un sondage ont été sollicitées pour juger de la qualité d’un produit sur une échelle de Likert à quatre points (excellent, bon, moyen, mauvais). On leur a aussi demandé de juger la réputation de la compagnie qui a fabriqué le produit sur une échelle de 3 points (bon, moyenne, mauvais). Y-a-t-il une relation significative entre les perceptions de la compagnie des répondants et entre les perceptions de la qualité du produit? Puisque les deux variables sont ordinales, la méthode de Spearman est choisie. La première variable est la note pour la qualité du produit. Les réponses sont codées comme suit : 4 = excellent, 3 = bon, 2 = moyen et 1 = mauvais. La deuxième variable est la réputation perçue de la compagnie et est codée comme suit : 3 = bon, 2 = moyen et 1 = mauvais. Variable 1 Variable 2 4 3 2 2 1 2 3 3 4 3 1 1 2 1 Université Virtuelle Africaine 100 Coefficient de corrélation rho = .830 Test-t pour la signifiance du coefficient = 3.332 Nombre de paires de données = 7 La probabilité doit être déterminée à partir d’un tableau à cause du petit format de l’échantillon. Régression La régression simple est utilisée pour examiner la relation fonctionnelle entre une variable dépendante et une variable indépendante. Après avoir fait une analyse, les statistiques de régression peuvent être utilisées pour prédire la variable dépendante lorsque la variable indépendante est connue. La régression va plus loin que la corrélation en ajoutant des capacités de prédictions. On utilise intuitivement la régression tous les jours. Dans le domaine des affaires, un homme bien habillé semble avoir du succès financièrement. Une mère sait que plus de sucre dans l’alimentation de ses enfants leur donnera un niveau d’énergie plus élevé. La facilité de se lever le matin dépendra d’à quelle heure vous vous êtes couché la veille. Les régressions quantitatives ajoutent de la précision en développant une formule mathématique qui peut être utilisée à des fins de prédictions. Par exemple, un chercheur médical pourrait vouloir utiliser le poids corporel (variable indépendante) pour prédire la dose la plus appropriée pour un nouveau médicament (variable dépendante). Le but de faire une régression est de trouver une formule qui va avec la relation entre les deux variables. Ensuite, vous pouvez utiliser cette formule pour prédire les valeurs de la variable dépendante seulement si la variable indépendante est connue. Un docteur pourrait prescrire la bonne dose d’un médicament en se basant sur le poids de la personne. La droite de régression est un lot de la valeur prévue de la variable indépendante pour toutes les valeurs de la variable indépendante. Techniquement, c’est la ligne qui « minimise des résidus au carré ». La ligne de régression est celle qui s’adapte le mieux à la donnée sur une dispersion. En utilisant l’équation de régression, la variable dépendante peut être prédite ou ajustée à partir de la variable indépendante. L’inclinaison de la ligne de régression (b) est définie par la hausse divisée par la course. Le point d’intersection y (a) est le point sur l’axe des y où la ligne de régression rencontrerait l’axe des y. La pente ou l’inclinaison et le point d’intersection y sont incorporés dans l’équation de régression. Le point d’intersection est normalement appelé la constante, et la pente est référée comme étant le coefficient. Puisque le modèle de régression n’est habituellement pas un outil parfait de prévision, il y a aussi un terme d’erreur dans l’équation. La droite de régression ne permet pas d’établir avec exactitude la relation fonctionnelle qui lie une variable dépendante à une variable explicative ; elle n’en fournit qu’une approximation. Université Virtuelle Africaine 101 Dans l’équation de régression, y est toujours la variable dépendante et x est toujours la variable indépendante. Il y a trois façons équivalentes pour décrire mathématiquement un modèle de régression linéaire. Y = point d’intersection + (pente x) + erreur Y = constante + (coefficient x) + erreur Y = a + bx + e La signification de la pente de la droite de régression est déterminée par la statistique-t. C’est la probabilité que le coefficient de corrélation observé s’est produit par chance si la vraie corrélation est zéro. Quelques chercheurs ont préféré se reporter au ratio-f plutôt que la statistique-t. Le ratio-f est égal à la statistique-t au carré. La statistique-t pour la signification de la pente est essentiellement un test pour déterminer si le modèle de régression (équation) est utilisable. Si la pente est considérablement différente de zéro, alors nous utilisons le modèle de régression pour prédire la variable dépendante de n’importe quelle valeur de la variable indépendante. D’un autre côté, prenez un exemple où la pente est égale à zéro. Il n’y a pas d’habilité de prédiction parce que pour chacun des valeurs de la variable indépendante, la prédiction pour la variable dépendante serait la même. Sachant que la valeur de la variable indépendante n’améliorerait pas notre habileté à prédire la variable dépendante. Par conséquent, si la pente n’est pas considérablement différente de zéro, n’utilisez pas le modèle pour faire des prédictions. Le coefficient de détermination (r-carré) est le carré du coefficient de corrélation. Sa valeur peut varier de zéro à un. Il a l’avantage sur le coefficient de corrélation puisqu’il peut être interprété directement à la proportion de la variance dans la variable dépendante qui peut être expliquée par la régression de l’équation. Par exemple, une valeur r-carré de .49 eut dire que 49 % de la variance dans la variable dépendante peut être expliquée par l’équation de régression. Le 51 % restant reste inexpliqué. L’erreur-type de l’estimation de la régression mesure le montant de variabilité dans les points autour de la droite de régression. Elle a l’écart-type des points de données lorsqu’ils sont distribués autour de la ligne de régression. L’erreur-type de l’estimé peut être utilisée pour développer l’intervalle autour d’une prédiction. Exemple Une compagnie veut savoir s’il y a une relation significative entre ses dépenses en publicité et son volume de ventes. La variable indépendante est le budget de publicité et la variable dépendante est le volume de ventes. Un retard d’une moins sera utilisé puisque les ventes sont prévues pour prendre du retard derrière les dépenses actuelles de publicités. Des données ont été amassées sur une période de six mois. Toutes les figures sont en milliers de dollars. Y-a-t-il une relation significative entre le budget de publicité et le volume de ventes? Université Virtuelle Africaine 102 Variable indépendante Variable dépendante 4.2 27.1 6.1 30.4 3.9 25.0 5.7 29.7 7.3 40.1 5.9 28.8 Modèle: y = 10.079 + (3.700 x) + erreur Erreur-type de l’estimé = 2.568 Test-t pour la signification de l’inclinaison = 4.095 Degrés de liberté = 4 Probabilité à deux queues = .0149 R-carré = .807 À manipuler : sur Excel, dans la barre de menus, sélectionner Outils /utilitaire d’analyse/choisir Régression linéaire, se laisser guidé par Aides. À lire 1) An Introduction to Probability & Random ProcessesAn Introduction to Probability & Random Processes par Kenneth B. & Gian-Carlo R., pages 18-30, 212-215 et 300-303 2) Robert B. Ash, Lectures on Statistics, pages 28-29. Réf.: http://en.wikipedia.org/wiki/Correlation Réf.: http://en.wikipedia.org/wiki/Regression Test khi-deux (ou khi-carré) Un test khi-carré (ou khi-deux) teste une hypothèse telle que la variable statistique considérée suit une distribution de khi-deux sous l’hypothèse nulle, ou n’importe laquelle dans laquelle la la loi de probabilité de la variable statistique (sous l’hypothèse nulle) peut être considérée pour approximer une distribution de khi-deux le plus près possible, pour un échantillon de taille suffisamment grande. Spécifiquement, un test de khi-deux pour l’indépendance évalue statistiquement une différence significative entre des proportions pour deux groupes ou plus dans un ensemble de données. Université Virtuelle Africaine 103 • Le test de khi-deux de Pearson • Le test de khi-deux de Yates, aussi connu comme la correction de Yates pour la continuité. • Le test de khi-deux de Mantel-Haenszel • Le test de khi-deux par association linéaire-par-linéaire Dans la théorie des probabilités et des statistiques, la loi de khi-deux (ou khi-au carré ou distribution χ2) est l’une des distributions les plus utilisées en statistique inférentielle, i.e. test de signification statistique. Elle est utile parce que, sous des conditions raisonnables, la statistique correspondante dépendent des quantités facilement calculables et peut être prise comme une bonne approximation de la loi de khi-deux, si l’hypothèse nulle est vraie. Si Xi sont k variables aléatoires indépendantes, normalement distribuées avec une moyenne commune de 0 et une variance commune de 1, alors la variable aléatoire suit la distribution de khi-deux à k degré de liberté, et l’on note : La loi de khi-deux a un paramètre k, un nombre entier positif qui donne le nombre de degrés de liberté (le nombre des variables Xi). La loi de khi-deux est un cas particulier de la loi Gamma. Les situations les plus connues, dans lesquelles la loi de khi-deux est utilisée, sont les usuels tests de khi-deux de Pearson de la qualité d’ajustement d’une distribution observée à une distribution théorique, et de l’indépendance de deux critères de classification de données qualitatives. Cependant, d’autres tests statistiques peuvent amener à l’utilisation de cette loi. La fonction caractéristique On démondre que la fonction caractéristique de la distribution de khi-deux à k degrés de liberté est : Université Virtuelle Africaine 104 Propriétés La loi de khi-deux a beaucoup d’applications dans les statistiques inférentielles, comme par exemple dans les tests de khi-deux et dans l’estimation de variances. Elle entre dans le problème d’estimation de la moyenne d’une population normalement distribuée et dans le problème d’estimation de la pente d’une droite de régression via son rôle dans la distribution-t de Student. Elle entre dans toutes les analyses de problèmes de variances via son rôle dans la distribution-f de Fisher, qui est la distribution du rapport de deux variables aléatoires indépendantes suivant des lois de khi-deux divisés par leurs degrés de liberté respectifs. Types de Lois khi et khi-deux Nom Statistique Loi de khi-deux Loi de khi-deux non-centrée Distribution khi Distribution khi non-centrée À manipuler : sur Excel, dans la barre de menus, sélectionner Outils /utilitaire d’analyse/choisir Test de Khi-deux, test d’égalité des espérances, se laisser guidé par Aides. À lire Réf.: http://en.wikipedia.org/wiki/pearson%chi-square_test Réf.: http://en.wikipedia.org/wiki/Chi-Square_test Le test t de Student Un test t est un test statistique d’hypothèse pour comparer deux groupes tels que la variable statistique étudiée suit une loi t de Student, si l’hypothèse nulle est vraie. Université Virtuelle Africaine 105 Historique La statistique t a été introduite par William Sealy Gosset en surveillant la qualité le brassage de bières. « Student » était son nom de plume. Gosset était un statisticien pour la brasserie Guinness à Dublin, en Irlande, et il a été engagé parce que la politique innovatrice de Claude Guiness voulait que les meilleurs diplômés d’Oxford et de Cambridge soient engagés en biochimie et en statistiques pour le processus industriel de Guinness. Gosset a publié le test t dans Biometrika en 1908, mais il a été forcé d’utiliser un nom de plume par son employeur qui considérait le fait qu’ils utilisaient les statistiques comme secret en commerce. En fait, l’identité de Gosset était inconnue non seulement par ses compatriotes statisticiens, mais aussi par son employeur. La compagnie a insisté pour qu’il prenne un pseudonyme pour qu’elle puisse fermer les yeux sur le non-respect des règles. Aujourd’hui, le test t est plutôt appliqué à la confiance qui peut être située dans les jugements faits à partir de petits échantillons. Utilisation Parmi les tests t les plus utilisés, il y a : • Un test de l’hypothèse nulle d’égalité des moyennes de deux populations normalement distribuées. Avec les deux ensembles de données, chacun caractérisé par sa moyenne, son écart-type et le nombre de points de données, nous pouvons utiliser un genre de test t pour déterminer si les moyennes sont distinctes, fournies par les distributions sous-jacentes qui peuvent présumer être normales. Des tests de ce genre sont généralement appelés des test t de Student, mais ce terme ne devrait être utilisé seulement si les variances de deux populations sont aussi présumées égales ; la forme du test utilisée lorsque cette hypothèse est lancée est parfois appelée le test t de Welch. Il y a différentes versions du test t dépendamment si les deux échantillons sont : o Indépendants l’un de l’autre (ex. : des individus assignés aléatoirement dans deux groupes), ou o appariés, pour que chaque membre d’un échantillon aie une relation unique avec un membre particulier de l’autre échantillon (ex. : si les mêmes personnes observées avant et après une intervention, ou les résultats de test de QI d’un mari et de sa femme). Si les valeurs t calculées sont supérieures au seuil choisi pour la signification statistique (normalement le niveau 0.05), alors l’hypothèse nulle que les deux groupes ne sont pas différents sont rejetés en faveur d’une autre hypothèse, qui mentionne que les groupes ne sont pas différents. • Un test si la moyenne est une population normalement distribuée qui a une valeur spécifiée dans une hypothèse nulle. • Un test si la pente d’une ligne de régression est considérablement différente de 0. Université Virtuelle Africaine 106 Lorsqu’une valeur t est déterminée, une valeur p peut être trouvée en utilisant un tableau de valeurs de la distribution t de Student. Les intervalles de confiance utilisant un petit format d’échantillon Prenons une population normalement distribuée. Pour estimer la variance de la population, prenez un échantillon de taille n et calculez la variance de celui-ci, s. Un estimateur non biaisé de la variance de la population est Pour les petites valeurs de n, cette estimation est imprécise, d’où les échantillons de petits formats plutôt que de calculer la valeur z pour le nombre d’écart-types de la moyenne On peut utiliser aussi, sous l’hypothèse d’une population gaussienne, la statistique de student en estimant l’écart-type : t= € X −μ . s n−1 n La probabilité que la valeur t soit dans un intervalle particulier peut être trouvée en utilisant la distribution t. Le degré de liberté de l’échantillon est le nombre de données qui doivent être connues avant que le reste des données puissent être calculées. Ex. : Un échantillon aléatoire de choses avec un poids 30.02, 29.99, 30.11, 29.97, 30.01, 29.99 Calculez un intervalle de confiance pour la moyenne de poids de la population. Supposons que la population ~ N(μ,σ2). Le poids moyen de l’échantillon est de 30.015 avec un écart-type de 0.045. Avec la moyenne et les cinq premiers poids, il est possible de calculer le sixième poids. C’est pourquoi il y a cinq degrés de liberté. La distribution t nous dit que, pour cinq degrés de liberté, la probabilité que t > 2.571 est 0.025. Aussi, la probabilité que t < −2.571 est 0.025. En utilisant la formule pour t avec t = ± 2.571 un intervalle de confiance pour la moyenne de la population peut être trouvée en faisant de μ le sujet de l’équation. Université Virtuelle Africaine 107 Ex. : (29.97 < μ < 30.06) À lire 1. Introduction to Probability par Charles M. Grinstead, pages 18-30, 212-215, 300-303. 2. Robert B. Ash, Lectures on Statistics, pages 23-29 Faire les problèmes 1-6 à la page 23. Réf.:http://en.wikipedia.org/wiki/Statistical_Hypothesis_testing Réf.:http://en.wikipedia.org/wiki/Null_hypothesis Université Virtuelle Africaine 108 q Réflextion L’étude des corrélations, des tests de l’hypothèse de la régression ainsi que de d’autres modèles de mathématiques peut être simplifiée avec le TIC. Le lien suivant aide les stagiaires à apprendre modelage facilement http://www.ncaction.org.uk/subjects/maths/ict-lrn.htm Université Virtuelle Africaine 109 Unité 3 : La théorie des probabilités (40 heures) Fonction Indicatrice En mathématiques, une fonction indicatrice ou une fonction caractéristique est une fonction définie par un ensemble X qui indique l’appartenance d’un élément à un sous-ensemble A de X. La fonction indicatrice d’un sous-ensemble A d’un ensemble X est une fonction définie par : Pour tout x dans X, ⎧1, si x ∈ A ; (x) = ⎨ 1A ⎩0, si x ∉ A. La fonction indicatrice de A est parfois notée comme suit : € χA(x) ,ou ou même A(x). L’inégalité de Bonferoni : sous-additivité d’une probabilité. Soit la probabilité que soit vrai, et que la probabilité qu’au moins un des , , ..., soit vrai. Alors, l’inégalité de Bonferoni, aussi connue comme l’inégalité de Boole, dit que : Oú représente l’union. Si et sont des ensembles disjoints pour tous les et les , alors l’inégalité devient une égalité. Un merveilleux théorème qui exprime cette exacte relation entre la probabilité d’union et les probabilités d’événements individuels est appelé un principe inclusion-exclusion. Une classe d’inégalités un peu plus large est aussi appelée « inégalités de Bonferroni ». Fonction génératrice En mathématiques, une fonction génératrice est une série de puissances formelles (ou une série entière) avec des coefficients qui encodent l’information sur une suite an qui est indexée par les nombres naturels. Il y a plusieurs types de fonctions génératrices, incluant les fonctions génératrices ordinaires, les fonctions génératrices exponentielles, les séries de Lambert, les séries Université Virtuelle Africaine 110 de Bell et les séries de Dirichlet; des définitions et des exemples sont donnés plus bas. Chaque séquence a une fonction génératrice de chaque type. La fonction génératrice particulière qui est la plus utilisée dans un contexte donné dépendra de la nature des séquences et des détails du problème posé. Les fonctions génératrices sont souvent exprimées dans une forme fermée comme des fonctions d’un argument formel x. Parfois, une fonction génératrice est évaluée avec une valeur spécifique x. Cependant, on doit se rappeler que les fonctions génératrices sont des séries de puissances formelles, et qu’elles ne convergent pas nécessairement pour toutes les valeurs de x. Si an est la probabilité de la fonction de masse d’une variable aléatoire discrète, alors sa fonction génératrice ordinaire est appelée une fonction génératrice de probabilités. La fonction génératrice ordinaire peut être généralisée en suites avec des indices multiples, en séries entières doubles. Par exemple, la fonction génératrice ordinaire d’une suite am,n (oú n et m sont des entiers naturels) est Fonction caractéristique (la théorie de probabilités) Dans la théorie des probabilités, la fonction caractéristique d’une variable aléatoire définit complètement sa distribution de probabilités. Elle est donnée par les formules suivantes, où X est une variable aléatoire quelconque de loi fixée : où t est un nombre réel, i est l’unité imaginaire, et E représente l’opérateur espérance mathématique. Si FX est la fonction de répartition de X, alors la fonction caractéristique de X est donnée par l’intégrale de Riemann-Stieltjes Dans le cas où la fonction densité de probabilité fX existe, la fonction caractéristique de X devient : +∞ ϕ X (t) = E ( eitX ) = ∫ eitx .f X (x)dx. −∞ Si X est une variable aléatoire vectorielle, t devient un vecteur et tX devient un produit scalaire. € Université Virtuelle Africaine 111 Chaque distribution de probabilités sur R ou sur Rn a une fonction caractéristique, parce qu’on intègre une fonction bornée sur un espace de mesure finie. Le théorème de continuité Si la suite des fonctions caractéristiques d’une distribution Fn converge vers la fonction caractéristique d’une distribution F, alors Fn(x) converge vers F(x) pour toute valeur de x où F est continue. Utilisation des fonctions caractéristiques Les fonctions caractéristiques sont particulièrement utiles pour traiter les fonctions de variables aléatoires indépendantes. Par exemple, si X1, X2, ..., Xn est une suite de variables aléatoires indépendantes (mais pas nécessairement identiquement distribuées) et oú ai sont des constantes, alors la fonction caractéristique pour Sn est donnée par En particulier, pour deux variables indépendantes X et Y, on a : , Pour le vérifier, écrivez la définition de la fonction caractéristique : Observer que l’indépendance de X et de Y est requise pour établir la troisième, ainsi que la quatrième expression. Grâce au théorème de continuité, les fonctions caractéristiques sont utilisées très souvent dans la preuve du théorème centrale limite. Les fonctions caractéristiques peuvent aussi être utilisées pour calculer les moments des variables aléatoires. Si on sait que le moment d’ordre n existe, les fonctions caractéristiques peuvent être différenciées n fois et Université Virtuelle Africaine 112 À lire Robert B. Ash, Lectures on Statistics, pages 32 à 45. Réf. : http://en.wikipedia.org/wiki/Characteristic_function_%28probability_theory%29 L’indépendance statistique Dans la théorie des probabilités, dire que deux événements sont indépendants intuitivement veut dire que l’occurrence d’un événement ne le rend pas plus ou moins probable que l’autre se produise. Par exemple : • L’événement d’avoir un « 6 » la première fois qu’un dé est lancé et l’événement d’avoir un « 6 » la seconde fois sont indépendants. • L’événement d’avoir un « 6 » la première fois qu’un dé est lancé et l’événement que la somme des nombres obtenus au premier et au second essai est « 8 » sont dépendants. • Si deux cartes sont tirées avec un remplacement dans un jeu de cartes, l’événement de tirer une carte rouge au premier essai et de tirer une carte rouge au second essai sont indépendants. • Si deux cartes sont tirées sans remplacement dans un jeu de cartes, l’événement de tirer une carte rouge au premier essai et de tirer une carte rouge au second essai sont dépendants. De façon similaire, deux variables aléatoires sont indépendantes si la distribution de probabilités conditionnelle de la valeur observée de l’autre valeur est la même que si l’autre valeur n’avait pas été observée. Événements indépendants La définition classique dit : Deux événements A et B sont indépendants, si Pr(A ∩ B) = Pr(A)Pr(B). Ici, A ∩ B est l’intersection de A et B, c’est-à-dire l’événement qui se réalise si les deux événements A et B se produisent simultanément. Plus généralement, une collection d’événements, possiblement plus que deux, sont mutuellement indépendants, si, pour n’importe quel sous-ensemble fini A1, ..., An de la famille, nous avons Ceci est appelé la règle de multiplication des probabilités pour des événements indépendants. Université Virtuelle Africaine 113 Si deux événements A et B sont indépendants, alors la probabilité conditionnelle sachant B de A est la même que la probabilité « inconditionnelle » (ou « marginale ») de A, Il y a au moins deux raisons pour lesquelles cette égalité n’est pas prise comme définition de l’indépendance : (1) les deux événements A et B ne jouent pas des rôles symétriques dans cet énoncé, et (2) les problèmes surviennent avec cet énoncé lorsque deux événements de probabilité 0 sont impliqués. Lorsqu’on se rappelle que la probabilité conditionnelle Pr(A | B) est définie par (sous réserve que Pr(B) ≠ 0 ) On peut voir que l’énoncé ci-dessus est équivalent à Qui est la définition standard donnée ci-haut. Échantillon aléatoire Un échantillon est un sous-ensemble choisi à partir d’une population étudiée. Un échantillon aléatoire est choisi par une méthode qui implique un composant imprédictible. L’échantillonnage aléatoire peut aussi impliquer de prendre un certain nombre d’observations indépendantes à partir de la même distribution de probabilités, sans impliquer aucune population réelle. Un échantillon de probabilités est celui dans lequel chaque objet a une probabilité connue d’être dans l’échantillon. L’échantillon ne sera habituellement pas complètement représentatif de la population à partir de laquelle il a été tiré, cette variation aléatoire dans le résultat est connue comme erreur d’échantillonnage. Dans le cas d’échantillons aléatoires, la théorie mathématique est disponible pour estimer l’erreur d’échantillonnage. Ainsi, l’estimation obtenue à partir d’échantillons aléatoires peut être accompagnée de mesures d’incertitude associées à l’estimé. Il peut prendre la forme d’une erreur standard, ou si l’échantillon est assez grand pour que le théorème central limite prenne effet, l’intervalle de confiance peut être calculé. Types d’échantillons aléatoires • Un échantillon aléatoire simple est choisi pour que les échantillons possibles aient la même chance d’être sélectionnés. • Un échantillon d’auto-pondération est celui dans lequel chaque individu, ou objet, dans l’intérêt de la population ait une opportunité égale d’être sélectionnée comme échantillon. Des échantillons aléatoires simples sont auto-pondérés. Université Virtuelle Africaine 114 • L’échantillonnage stratifié implique de sélectionner des échantillons indépendants à partir d’un nombre de subpopulation (ou strates) dans la population. • L’échantillonnage par groupement implique de sélectionner des unités d’échantillon dans des groupes. Par exemple, un échantillon d’appels téléphoniques peut être rassemblé en prenant une collection des lignes de téléphones et de rassembler tous les appels sur les lignes d’échantillonnage. L’analyse de l’échantillonnage par groupement doit prendre en compte la corrélation par groupement intra dans lequel se reflète le fait que les unités dans le même groupe ont tendance à être plus similaires que deux unités prises au hasard. La distribution multinomiale Dans la théorie des probabilités, la distribution multinomiale est une généralisation de la distribution binomiale. La distribution binomiale est la distribution de probabilités du nombre de « succès » dans n essais indépendants d’une épreuve de Bernoulli, avec la même probabilité de « succès » pour chaque essai. Dans une distribution multinomiale, chaque essai occasionne exactement un de quelques nombres limités fixés k de résultats possibles, avec les probabilités respectives p1, ..., pk tels que pi ≥ 0 pour i = 1, ..., k et , et il y a n essais indépendants. Ensuite, supposons que les variables aléatoires Xi indiquent le nombre de fois que le nombre i a été observé dans les essais n, alors et p=(p1, ..., pk). suit une loi multinomiale avec des paramètres n Solution tirée de la formule de distribution multinomiale Une version courte de la formule multinomiale pour trois résultats alternatifs est donnée ci-dessous. Si X est constitué d’événements E1, E2, E3, qui ont des probabilités correspondantes de p1, p2, et p3 de se produire, où x1 est le nombre de fois que E1 se produira, x2 est le nombre de fois que E2 se produira et x3 est le nombre de fois que E3 se produira, donc la probabilité de X est n! . x1 ! x2 ! x3 ! p .p .p x1 x2 x3 1 2 3 Oú x1 + x2 + x3 = n et p1 + p2 + p3 = 1 Université Virtuelle Africaine 115 Exemple 1) Dans une grande ville, 60 % des travailleurs conduisent pour aller travailler, 30 % prennent l’autobus, et 10 % prennent le train. Si 5 travailleurs sont sélectionnés au hasard, trouvez la probabilité que 2 conduisent, que 2 prennent l’autobus et que 1 prenne le train. Solution n= 5, x1=2, x2 = 2, x3= 1 et p1=0.6, p2= 0.3, et p3 = 0.1 Donc, la probabilité que 2 travailleurs prennent l’autobus et que 1 prenne le train est 5! 2 ! 2 !1 ! .( 2 2 1 0.6) (0.3) (0.1) = 0 . 0972 2) Une boîte contient 5 balles rouges, 3 balles bleues et 2 balles blanches. Si 4 balles sont sélectionnées avec un remplacement, trouvez la probabilité d’avoir 2 balles rouges, une balle bleue et une balle blanche Solution n=4, x1=2, x2=1, x3=1, et p1= 5 3 2 , p2= , et p3= . 10 10 10 Donc, la probabilité d’avoir 2 balles rouges, une balle bleue et une balle blanche est 2 1 1 4! ⎛ 5 ⎞ ⎛ 3 ⎞ ⎛ 2 ⎞ 9 ⎛ 3 ⎞ = 0 . 18 ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ = 12 ⎜ ⎟= 2! 1! 1! ⎝ 10 ⎠ ⎝ 10 ⎠ ⎝ 10 ⎠ ⎝ 200 ⎠ 50 { Allan G, 2005, page 132} Statistique d’ordre Les distributions de probabilités pour le n = 5 de statistique d’ordre d’une distribution exponentielle avec θ = 3. Université Virtuelle Africaine 116 En statistiques, la k-ième statistiques d’ordre d’un échantillon de statistiques est égal à sa k-ième valeur la plus petite. Avec des statistiques de rang, les statistiques d’ordre sont parmi les outils les plus essentiels dans les statistiques non paramétriques et inférentielles. Des cas spéciaux importants des statistiques d’ordre sont la valeur minimum et maximum d’un échantillon, l’échantillon de médiane et les échantillons quartiles. Lorsque vous utilisez la théorie de probabilités pour analyse l’ordre des statistiques d’échantillons aléatoires d’une distribution continue, la fonction de répartition est utilisée pour réduire l’analyse du cas des statistiques d’ordre de la loi uniforme. À lire • • • • Robert B. Ash, Lectures on Statistics, pages 25-26, répondre aux problèmes 1-4 aux pages 26-27. Réf.: http://en.wikipedia.org/wiki/probability _distribution Réf.: http://en.wikipedia.org/wiki/Ranking Réf.: http://en.wikipedia.org/wiki/non-parametric_Statistics Notations et exemples Par exemple, supposons que quatre nombres sont observés ou enregistrés, entraînant un échantillon de grandeur n = 4. Si les valeurs d’échantillons sont 6,9,3,8 Ils seront généralement représentés comme suit : Oú le l’indice (i) est entre parenthèses pour indiquer le l’ordre statistique ith de l’échantillon. La première statistique d’ordre est toujours le minimum de l’échantillon, qui est Où, en suivant une convention commune, nous utilisons des lettres majuscules pour les variables aléatoires, et des lettres minuscules pour les valeurs observées. De façon similaire, pour un échantillon de grandeur n, la nième statistique est le maximum, qui est L’étendue de l’échantillon est la différence entre le maximum et le minimum. C’est une fonction dans les statistiques d’ordre : Université Virtuelle Africaine 117 Une statistique importante et similaire dans l’analyse d’exploration des données qui est simplement reliée aux statistiques d’ordre est l’écart d’échantillon interquartile. La médiane d’échantillon peut, ou ne peut pas être une statistique d’ordre, puisqu’il n’y a qu’une seule valeur du milieu seulement lorsque le nombre n d’observations est impair. Plus précisément, si n = 2 m + 1 pour quelques m, alors la médiane d’échantillon est X(m + 1) et ainsi c’est une statistique d’ordre. D’un autre côté, lorsque n est égal, n = 2 m et qu’il y a deux valeurs du milieu, X(m) et X(m + 1), et la médiane d’échantillon est une fonction de deux (habituellement la moyenne) et pas une statistique d’ordre. Des remarques similaires s’appliquent à tous les quantiles d’échantillon. La loi normale multidimensionnelle Dans la théorie des probabilités et des statistiques, une loi normale multidimensionnelle, aussi appelée une loi Gausienne multidimensionnelle, est une distribution de probabilités spécifique, qui peut être apprise comme une généralisation de dimensions plus grandes que les distributions normales à une dimension. Moments d’ordres supérieurs Les moments d’ordre k de X sont définis par : où Les moments d’ordre centré d’ordre k sont représentés comme ceci (a) Si k est impair, (b) Si k est égal avec k = 2λ, alors . Où la somme est reprise par toutes les allocations de l’ensemble dans λ paires, donnant (2λ − 1)! / (2λ − 1(λ − 1)!) termes dans la somme, chacun étant le produit de λ covariances. Les covariances sont déterminées en remplaçant les termes dans la liste par les termes correspondants de la liste qui consiste de r1 uns, et r2 deux, etc., après chacune des allocations possibles de la première liste en des paires. Université Virtuelle Africaine 118 Plus particulièrement, les moments d’ordre 4 sont Pour les moments d’ordre 4 (quatre variables), il y a trois termes. Pour un moment d’ ordre six, il y a 3 x 5 = 15 termes, et pour les moments d’ordre six, il y a 3 x 5 x 7 = 105 termes. Université Virtuelle Africaine 119 XV. Synthèse du module À la fin de ce module, les élèves devraient être en mesure de calculer des mesures variées de dispersions, et d’appliquer les règles de calcul des probabilités selon plusieurs lois de probabilités. Les apprenants devraient être en mesure de déterminer et d’analyser des coefficients de corrélation et de régression. L’unité une des probabilités et des statistiques couvre les distributions de fréquences relatives et les distributions cumulatives, les différentes courbes de fréquences, la moyenne, le mode et la médiane, les quartiles et les percentiles, l’écart-type et les distributions symétriques et asymétriques. L’apprenant est introduit à différentes mesures de statistiques, ainsi qu’à des exemples résolus. Les exemples sont bien illustrés et l’apprenant peut suivre sans aucune difficulté. Il est recommandé que l’apprenant tente de faire les évaluations formatives données pour assimiler leur progrès dans l’apprentissage du contenu. L’élève devrait prendre du temps pour regarder le matériel de référence sur les CDs, ainsi que sur le matériel à source ouverte (open sources) et les sites internet recommandés. Les élèves sont fortement conseillés de lire le contenu et de répondre aux questions après chaque sujet. L’Unité deux du module traite du moment et de la fonction génératrice des moments, les inégalités de Markov et de Chebychev, les distributions à une variable, les distributions de probabilités à deux variables; l’indépendance stochastique, la régression à deux variables et la corrélation ; le calcul de la régression et du coefficient de corrélation pour les données à deux variables, les fonctions de distributions de variables aléatoires, les distributions normales à deux variables, les distributions dérivées comme le khi-carré, t et F. L’unité deux comporte plusieurs activités d’apprentissage pour aider à l’apprentissage et les étudiants devraient maîtriser le contenu des nombreux soussujets et ils devraient faire les évaluations formatives. L’échec à ces évaluations devrait être un indicateur positif pour que les apprenants : ils révisent les soussujets avant d’aller plus loin. Les tâches fournies sous les différentes activités d’apprentissage demandent que vous démontriez un haut niveau d’habileté dans le TIC. Les objectifs d’apprentissage sont bien énoncés au début du module et devraient guider les élèves dans le niveau d’attentes du ce module. L’unité trois se concentre sur la théorie des probabilités et traite des différentes lois de probabilités usuelles. L’évaluation sommative sera utilisée pour juger si les apprenants ont maîtrisé le module. Il est recommandé que les étudiants révisent le module avant de faire l’évaluation sommative finale. Université Virtuelle Africaine 120 XVI. Évaluation sommative Répondre aux quatre questions. Chaque question compte pour 15 points. Question 1: Statistiques générales 1) Dans le tableau suivant, les poids de 40 vaches sont enregistrés, et arrondis au kilogramme le plus près. 128 157 144 135 165 161 138 146 146 168 135 150 140 142 138 142 147 176 142 147 145 140 154 149 152 156 125 148 119 153 150 144 163 134 136 145 173 164 158 126 Trouvez; a). b). c). d). le poids le plus élevé le poids le moins élevé l’étendue construisez un tableau de fréquences, distribution qui commence avec une classe de 118-126 e). calculez la moyenne des données f). calculez l’écart-type Question 2: Probabilités générales 2) A). Une pièce de monnaie et un dé sont lancés en même temps. Dessinez un diagramme d’espace possible et trouvez la probabilité d’obtenir a). b). c). d). un côté face un nombre plus haut que 4 un côté face et un nombre plus haut que 4 un côté face ou un nombre plus haut que 4 B). Les événements M et N sont P(M) = P(M I N) 2 4 19 , P(N) = et P(M U N)= . Trouvez 5 5 30 Université Virtuelle Africaine 121 Question 3: Loi de Poisson 3) Un livre contient 500 pages et comporte 750 erreurs d’impression. a). Trouvez la moyenne d’erreurs d’impression par page. b) Trouvez la probabilité que la page 427 contienne i). aucune erreur d’impression ii). Exactement 4 erreurs d’impression c). Trouvez la probabilité que les pages 427 et 428 ne contiennent aucune erreur d’impression. Question 4: Variable aléatoire continue 4) Une variable aléatoire continue X a une fonction de densité de probabilité f(x) où ⎧ ⎪ ⎪ f(x) = ⎨ ⎪ ⎪ ⎩ k(x + 2) 2 , − 2 ≤ x p 0 ; 4k , 0 ≤ x ≤ 1 1 ; 3 0 , sinon. € a) b) c) d) Trouvez la valeur de la constante k Dessinez y=f(x) Trouvez P( - 1 ≤ X ≤ 1) Trouvez P(x>1) Probabilité d’un événement 5). Supposons que P(AUB) =7/8, P(A I B)=1/4 et P(A’)=5/8, trouvez les valeurs de a) P(A) b) P(B) c) P(A I B’) d) P(A’U B’) e) La probabilité que seulement un de A, B se produise. Université Virtuelle Africaine 122 Valeur prévue 6).La variable aléatoire continue a une fonction de densité de probabilité f (x) = x + Trouvez: a). E(X) 1 , 2 pour 0 ≤ x ≤ 1 ; zéro, sinon. €b). E(24X +6) c). E( 1-X) 1 2 7).Les poids, arrondis au kg le plus près, de 50 garçons sont enregistrés ci-dessous. Poids (kg) Fréquence (f) a). b). 60-64 2 65-69 6 70-74 12 75-79 14 80-84 10 Construisez une courbe de fréquence cumulative Utilisez la courbe pour estimer ; i) La médiane ii). L’étendue interquartile iii). Le 7edécile iii). Le 60e percentile. 85-89 6 Université Virtuelle Africaine 123 Clé de correction de l’évaluation sommative 1). a) b) c) d) Poids(kg) 118-126 127-135 136-144 145-153 154-162 163-171 172-180 176 119 176-119=57 En utilisant 7 classes, cela nous donne un intervalle de classe de 9. Compte /// //// //// //// //// //// // //// //// // Fréquence 3 5 9 12 5 4 2 Total 40 e) Toutes les méthodes pour calculer la moyenne sont acceptées. f). Toutes les méthodes pour calculer l’écart-type sont acceptées. 2) A). Une pièce de monnaie a soit Face (F) ou Pile (P) tandis qu’un dé à des faces 1,2,3,4,5&6. Pièce / Dé Pièce F Pièce P 1 H1 T1 2 H2 T2 3 H3 T3 4 H4 T4 Espace d’échantillonnage =12. a). 6/12=1/2 b). 4/12=1/3 c). 2/12=1/6 d). 8/12=2/3 5 H5 T5 6 H6 T6 Université Virtuelle Africaine 124 B) . P(M U N)= P(M)+P(N)-P(M I N). 4 19 2 = + - P(M I N). 5 30 5 ⇒ ⇒ P(M I N) = 19 12 + 30 30 24 − 30 = 7 30 3). a) La moyenne d’erreurs par page = 750/500=1.5 b) Supposons que X est “le nombre d’erreurs par pages”. Ensuite, supposons que les erreurs d’impression se produisent au hasard X ~ P0(1.5) i). P(X= 0) = e-1.5 = 0.2231… P(il n’y aura pas d’erreurs à la page 427) = 0.223 ( 3d.p). (1.5) 4 = 0.0470… 4! P(il y aura 4 erreurs à la page 427) = 0.047 ( 3d.p) ii). P(X=4)= e-1.5 c). Nous prévoyons 1.5 erreurs d’impression sur chaque page et donc, sur les pages 427 & 428 nous prévoyons 1.5 + 1.5 = 3 erreurs d’impression. Supposons que Y est “le nombre d’erreurs d’impression sur deux pages”. Y ~ P(3), donc P0(Y=0)= e-3 = 0.4421 4). a). Puisque X est une variable aléatoire, alors 0 Donc ∫ k ( x + 2 ) 2 dx −2 1 + 1 3 € ∫ 4 kdx = 0 1 ∫ f(x)dx = 1 tout x Université Virtuelle Africaine 125 0 k⎡ ( x + 2) 3 ⎤ ⎥⎦ − 2 3 ⎢⎣ k= k (8 ) 3 8k=1 + + ⎛4⎞ 4k ⎜ ⎟ ⎝3⎠ 11 4 k [x ] 3 0 = 1 = 1 1 8 a) La fonction de densité de probabilité de X est y 1 2 y x -2 c) 0 11 3 Université Virtuelle Africaine 126 0 P(- 1 ≤ € x≤ 0) = 1 ∫ 8 ( x + 2) 2 dx = −1 7 24 et P (0 ≤ x ≤ 1) = aire du rec tan gle = Donc P ( −1 ≤ X ≤ 1) = d). 1 2 7 1 19 + = 24 2 24 P(0 ≤ X ≤ 1) = aire du rectangle= Donc P(x>1) = 1 3 × 1 2 = 1 6 . 1 6 5) a) P(A)=1-P(A’)=1- 5/8=3/8 P(AUB)=P(A) – P(B) – P(A I B) b) 7/8=3/8+P(B) – ¼ P(B)=3/4 P(A I B’)=P(A) – P(A I B) c) = 3/8-1/4 =1/8 Université Virtuelle Africaine 127 d) A’ U B’ = (A I B)’ et P(A’U B’) = 1 – P(A I B) = 3/4 e) Seulement un de A,B qui se produit = (A I B’)U((A’ I B). P(Seulement un de A,B qui se produit) = P(A I B’)+P(A’ I B) = { P(A)-P(A I B)} + { P(B)-P(A I B)} = 1/8 + ½ =5/8 6). a). E(X)=7/8 b). E(24X+6)=20 c). E( 1-X) 1 1 2 = ∫ 0 1 (1 − x ) 2 7). a) Moyenne= 76.3 kg. b). Étendue interquartile = 9 kg c). Estimé de d). Estimé de 100 × 50 = 30 € 7 × 50 = 35 th 10 60 € th (x + 1 2 ) dx = 3 5 decile de la courbe . percentilede la courbe Université Virtuelle Africaine 128 XVII.Références bibliographiques http://en.wikipedia.org/wiki/Statistics A concise Course in A-Level Statistics par J. Crawshaw et J.Chambers, StanleyThornes Publishers, 1994 http://en.wikipedia.org/wiki/Probability Business Calculation and Statistics Simplified, par N.A. Saleemi, 2000 http://microblog.routed.net/wp-content/uploads/2007/01/onlinebooks.html Statistics: concepts and applications, par Harry Frank et Steven C Althoen, Cambridge University Press, 2004 http://mathworld.wolfram.com/Statistics http://mathworld.wolfram.com/Probability Probability Demystified, By Allan G. Bluman, McGraw Hill, 2005. http://directory.fsf.org/math/ http://microblog.routed.net/wp-content/uploads/2007/01/onlinebooks.html Lectures on Statistics, par Robert B. Ash, 2005. Introduction to Probability, par Charles M. Grinstead et J. Laurie Snell, Swarthmore College. http://directory.fsf.org/math/ Simple Statistics, par Frances Clegg, Cambridge University Press 1982. Statistics for Advanced Level Mathematics, par I. Gwyn Evans University College of Wales, 1984. Université Virtuelle Africaine 129 XVIII. Fiche d’évaluation Nommez le fichier EXCEL Mathématiques : Probabilité et statistiques, fiche d’évaluation de l’étudiant XIX.Auteur du module M. Paul Chege (B.Ed(Sc), M.Ed) [email protected] L’auteur du module est un formateur d’enseignants à l’Université Amound, Borama, République de Somaliland. Il a été un formateur d’enseignants au Kenya, en République de Seychelles et au Somali. Il a été impliqué pour renforcer les mathématiques et les sciences aux niveaux secondaires et tertiaires avec l’Agence de Corporation Internationale du Japon (JICA) dans quinze pays africains. Il est marié et a trois enfants. Université Virtuelle Africaine 130 XX. Structure du fichier Conseil de l’éditeur du module. Le nom du module et la structure doivent suivre le modèle AVU/PI comme défini et expliqué par l’AVU. Les éditeurs du module doivent fournir les noms de tous les fichiers (le module et les autres fichiers qui accompagnent le module) Tous les jours, chaque module sera chargé dans l’eportfolio de chaque consultant. Pour cela, la formation sera fournie par le professeur Thierry Karsenti et son équipe (Salomon Tchaméni Ngamo et Toby Harper). Nom du module (WORD) fichier : Mathématiques : Probabilités et statistiques (Word) Nom de tous les autres fichiers (WORD, PDF, PPT, etc) pour le module. 1. Mathématiques : Probabilités et Statistiques, fiche d’évaluation de l’étudiant (Excel) 2. Probabilités et statistiques : Clé de correction pour l’évaluation sommative (Word) 3. An Introduction to Probabilité et Random Processes, par Kenneth Baclawski et Gian-Carolo Rota (1979) (PDF). 4. Introduction to Probability, par Charles M. Grinstead et J. Laurie Snell (PDF). 5. Lectures on Statistics, par Robert B. Ash (PDF). PROBABILITÉ ET STATISTIQUES Lectures Obligatoires Source: Wikipedia.org 1 Table des matières Test d'hypothèse .......................................................................................................................................... 4 Risque de première espèce et de deuxième espèce .............................................................................. 4 Tests classiques et tests bayésiens ......................................................................................................... 4 Classification .......................................................................................................................................... 5 Déroulement d'un test ............................................................................................................................ 5 Tests classiques ....................................................................................................................................... 6 Plan d'expérience ..............................................................................................................................6 Position du problème ....................................................................................................................7 Plans d'expérience en sciences appliquées (plans expérimentaux) ..................................................8 En sciences humaines ................................................................................................................9 Limites des plans expérimentaux exhaustifs ................................................................................. 10 Exemple ...................................................................................................................................... 10 Les plans factoriels ...................................................................................................................... 12 Interactions logiques ................................................................................................................................. 14 Notion d’interaction ............................................................................................................................. 14 Un cas particulier de tableau de donnée ............................................................................................ 14 Généralisation aux tableaux quelconques .......................................................................................... 15 Interprétation physique du produit croisé ......................................................................................... 15 Notion d’« interaction logique » ......................................................................................................... 17 Signification des symboles d’interactions logiques ........................................................................... 18 Modèles de régression multiple postulés et non postulés ....................................................................... 19 Modèle ................................................................................................................................................... 19 Régression multiple .............................................................................................................................. 19 Modèle postulé ...................................................................................................................................... 20 Le problème de la sélection des variables explicatives ..................................................................... 20 Modèle non postulé .............................................................................................................................. 20 Décomposition harmonique ................................................................................................................ 21 Exemples ............................................................................................................................................... 22 Application au marketing ................................................................................................................ 22 Amélioration de la qualité industrielle ........................................................................................... 23 Théorie des probabilités ........................................................................................................................... 27 2 Historique ............................................................................................................................................. 28 Théorie des probabilités discrète .................................................................................................... 28 Théorie des probabilités continue ................................................................................................... 29 Principes fondamentaux ...................................................................................................................... 30 La théorie des probabilités aujourd'hui ............................................................................................. 31 Lois de probabilité ............................................................................................................................... 32 Convergence de variables aléatoires .................................................................................................. 32 Le calcul stochastique .......................................................................................................................... 32 Chaîne de Markov ............................................................................................................................ 33 Équations différentielles stochastiques .......................................................................................... 34 Processus stochastique .............................................................................................................................. 35 Mathématiquement .............................................................................................................................. 35 Espace des trajectoires ........................................................................................................................ 35 Pratiquement ........................................................................................................................................ 35 Notion de processus .......................................................................................................................... 35 Types de processus ........................................................................................................................... 36 Exemples ........................................................................................................................................... 36 Régression linéaire .................................................................................................................................... 37 Situation ................................................................................................................................................ 37 Définitions ............................................................................................................................................. 38 Résultat de la régression ...................................................................................................................... 39 Erreur commise .................................................................................................................................... 39 Coefficient de corrélation linéaire ...................................................................................................... 40 Démonstration des formules par étude d'un minimum .................................................................... 41 Démonstration des formules grâce aux espaces vectoriels de dimension n .................................... 42 Généralisation: le cas matriciel ........................................................................................................... 43 3 Test d'hypothèse En statistiques, un test d'hypothèse est une démarche consistant à rejeter (ou plus rarement à accepter) une hypothèse statistique, appelée hypothèse nulle, en fonction d'un jeu de données (échantillon). On cherche par exemple à tester si un certain paramètre θ, qui peut par exemple être la valeur moyenne d'une grandeur, prend une certaine valeur θ0. L'hypothèse nulle dans ce cas est « la moyenne vaut θ0 » et l'hypothèse contraire sera « la moyenne est différente de θ0 ». Risque de première espèce et de deuxième espèce [] Une notion fondamentale concernant les tests est la probabilité que l'on a de se tromper. Dans l'idéal on souhaiterait avoir un test qui renvoie toujours le "bon" résultat. Par exemple on aimerait avoir un test qui choisisse toujours l'hypothèse nulle lorsque celle-ci est vérifiée et qui rejette tout le temps l'hypothèse nulle lorsque celle-ci est fausse. Il y a deux façons de se tromper lors d'un test statistique: la possibilité de rejeter à tort l'hypothèse nulle lorsqu'elle est vraie. On appelle ce risque le risque de première espèce et en général on note α la probabilité de se tromper dans ce sens. α est alors la probabilité d'avoir un faux positif : de rejeter une hypothèse alors qu'en fait elle était vraie. la possibilité d'accepter à tort l'hypothèse nulle lorsqu'elle est fausse. On appelle ce risque le risque de deuxième espèce et en général on note β la probabilité de se tromper dans ce sens. β est alors la probabilité d'avoir un faux négatif : d'accepter une hypothèse alors qu'en fait elle était fausse. Dans l'idéal on aimerait bien que ces deux erreurs soient nulles, malheureusement ce n'est pas possible, en tout cas lorsque l'on ne dispose que d'un nombre fini d'observations, et il faut alors faire un choix. Tests classiques et tests bayésiens [] Pour les tests classiques qui constituent l'essentiel des tests statistiques, ces deux erreurs jouent un rôle asymétrique. On contrôle uniquement le risque de première espèce à un niveau α (principe de Neyman); cela revient à considérer que le risque de rejeter l'hypothèse nulle alors que cette hypothèse est vraie est beaucoup plus coûteux que celui de la conserver à tort (ce dernier risque n'étant pas maîtrisé). Pour les tests bayésiens on peut parfois pondérer ces deux risques grâce à la connaissance d'une probabilité a priori. La connaissance de cette probabilité a priori est l'un des fondements de la statistiques bayésienne et constitue l'une de ses difficultés majeures. Si on cherche par exemple à tester le fait qu'un certain paramètre θ vaut une certaine valeur θ0 cette probabilité a priori sera 4 une loi de probabilité sur θ qui donne la probabilité que l'on a d'observer θ. Cette loi a priori est également appelée croyance a priori ou croyance bayésienne. Ces tests sont souvent d'une mise en œuvre plus complexe que les tests statistiques la raison principale est qu'ils nécessitent de "trouver" une bonne loi a priori puis de la réviser grâce à la révision des croyances. Classification [] D'ordinaire on range les tests dans deux catégories les tests paramétriques et les tests non paramétriques. Les premiers testent la valeur d'un certain paramètre. Ces tests sont généralement les tests les plus simples. Les tests non paramétriques quant à eux ne font pas intervenir de paramètre. C'est par exemple le cas des tests d'adéquation à une loi ou des Test du χ². On peut également distinguer les tests d'homogénéité et les tests d'adéquations: Dans le cas d'un test d'homogénéité, on veut comparer deux échantillons entre eux. L'hypothèse nulle H0 supposera l'homogénéité des deux échantillons. Par exemple on comparera deux moyennes. Dans le cas d'un test d'adéquation, on veut déterminer si un échantillon suit une loi statistique connue. L'hypothèse nulle H0 supposera l'adéquation de l'échantillon à cette loi. Déroulement d'un test [] Pour le cas spécifique d'un test unilatéral, le test suit une succession d'étapes définies: 1. Énoncé de l'hypothèse nulle H0 et de l'hypothèse alternative H1. 2. Calcul d'une variable de décision correspondant à une mesure de la distance entre les deux échantillons dans le cas de l'homogénéité, ou entre l'échantillon et la loi statistique dans le cas de la conformité. Plus cette distance sera grande et moins l'hypothèse nulle H0 sera probable. En règle générale, cette variable de décision se base sur une statistique qui se calcule à partir des observations. Par exemple, la variable de décision pour un test unilatéral correspond à rejeter l'hypothèse nulle si la statistique dépasse une certaine valeur fixée en fonction du risque de première espèce. 3. Calcul de la probabilité, en supposant que H0 est vraie, d'obtenir une valeur de la variable de décision au moins aussi grande que la valeur de la statistique que l'on a obtenue avec notre échantillon. Cette probabilité est appelée la p-value. 4. Conclusion du test, en fonction d'un risque seuil αseuil, en dessous duquel on est prêt à rejeter H0. Souvent, un risque de 5% est considéré comme acceptable (c'est-à-dire que dans 5% des cas quand H0 est vraie, l'expérimentateur se trompera et la rejettera). Mais le choix du seuil à employer dépendra de la certitude désirée et de la vraisemblance des alternatives. 5. Si la p-value est plus grande que α on accepte l'hypothèse H0. Si la p-value est plus petite que α on la rejette. 5 La probabilité pour que H0 soit acceptée alors qu'elle est fausse est β, le risque de deuxième espèce. C'est le risque de ne pas rejeter H0 quand on devrait la rejeter. Sa valeur dépend du contexte, et est très difficilement évaluable (voire impossible à évaluer), c'est pourquoi seul le risque α est utilisé comme critère de décision. Tests classiques [] Article détaillé : Test (statistique). Il existe de nombreux tests statistiques classiques parmi lesquels on peut citer : le test de Student, qui sert à la comparaison d'une moyenne observée avec une valeur « attendue ». le test de Fisher, aussi appelé test de Fisher-Snédécor, qui sert à la comparaison de deux variances observées. l'Analyse de la variance ou Anova, permet de comparer entre elles plusieurs moyennes observées (pour les groupes étudiés), selon un plan expérimental prédéterminé. Elle se base sur une décomposition de la variance en une partie « explicable » (variance intergroupes) et une partie « erreur » (variance globale intragroupe - ou variance résiduelle), supposée distribuée selon une loi normale. Ce test est particulièrement utilisé en sciences humaines, sciences sociales, sciences cognitives, en médecine et en biologie. le test du χ², également appelé test du χ2 de Pearson, qui sert notamment à la comparaison d'un couple d'effectifs observés, ou à la comparaison globale de plusieurs couples d'effectifs observés, et plus généralement à la comparaison de deux distributions observées. le test de Kolmogorov-Smirnov, qui comme le test du χ2 constitue un test d'adéquation entre des échantillons observés et une distribution de probabilité. Il compare la fonction de répartition observée et la fonction de répartition attendue. Il est particulièrement utilisé pour les variables aléatoires continues. En méthodes bayésiennes, on utilise le psi-test (mesure de distance dans l'espace des possibles) dont on démontre que le test du χ2 représente une excellente approximation asymptotique lorsqu'il existe un grand nombre d'observations. Plan d'expérience L'expérimentation est un moyen permettant d'acquérir de nouvelles connaissances à l'aide d'un dispositif sur lequel l'expérimentateur est capable de contrôler certains paramètres de fonctionnement (en entrée), de façon à permettre de recueillir (en sortie) des réponses 6 modélisables de façon suffisamment précise et avec une bonne économie (un nombre d'essais le plus faible possible par exemple). La différence par rapport à l'observation de systèmes naturels, spontanés ou fortuits, réside dans le contrôle des paramètres qu'elle réalise en fixant par exemple la valeur des principaux paramètres d'entrée (ou facteurs) au cours de chaque essai élémentaire, dans le choix de certaines combinaisons des valeurs de ces paramètres réalisées sur chacun des essais nécessaires à la détermination d'un modèle. Les systèmes naturels présentent généralement une structure de données qui ne permet pas d'en déduire un modèle fiable, même si les observations sont très nombreuses, et malgré l'utilisation de techniques d'analyse de données très sophistiquées. Dans ce cas les facteurs sont souvent nombreux (complexité du réel), embrouillés (mauvaise structure de données), les réponses sont souvent brouillées par ce que l'on peut appeler des bruits de fond. Cette difficulté de lisibilité de la nature explique en partie pourquoi le progrès des connaissances a été très lent. L'expérimentation comme moyen de connaissance n'est pas si ancienne et elle est restée longtemps très fragmentaire ; le concept n'a pu se développer qu'une fois que l'on a su construire des systèmes contrôlables (grâce aux progrès de la mécanique) et faire des mesures facilement, notamment la mesure du temps qui a permis de franchir des étapes décisives. On nomme plan d'expérience la suite ordonnée des essais élémentaires d'une l'expérimentation. Ce plan s'intègre dans une méthode qui va de la recherche des connaissances sur le domaine où elle se déroule, à la définition très précise des objectifs, à la stratégie expérimentale qui définit un déroulement pouvant être conditionné par les résultats obtenus en cours de route (expérimentation séquentielle), en passant par la coordination des différents intervenants. Cette méthode est indispensable chaque fois que les essais présentent une certaine complexité, sous peine d'échec (données inexploitables), de surcoût économique (délais de réponse), de coûts humains, de souffrance animale par exemple. Un exemple très classique de plan est constitué par un « plan en étoile » où en partant d'une valeur choisie pour chacun des paramètres dans une expérience centrale, on complète celle-ci par des expériences où chaque fois un seul des facteurs varie « toutes choses égales par ailleurs ». L'expérience de l'expérience montre que ce dispositif est généralement très mauvais, contrairement à ce que peut suggérer l'intuition. Un autre type de plan qui en prend le contrepied est un « plan factoriel » consistant à choisir des valeurs pour chacun des facteurs de façon à pouvoir expérimenter toutes les combinaisons entre tous les niveaux de tous les facteurs (lorsque cela est possible). Dans ce dispositif le nombre d'essais peut devenir très grand (explosion combinatoire), mais il est possible d'obtenir un modèle très exhaustif (comprenant toutes les interactions possibles entre facteurs), ci qui n'est généralement pas nécessaire. L'objectif de l'article est de donner au lecteur des exemples qui illustrent l'importance de la notion de plan d'expériences et d'exposer des cas qui sont à la fois les plus simples conceptuellement et qui sont utilisés le plus fréquemment. Position du problème [] Supposons que nous désirions savoir si la proportion de boules noires d'une urne est supérieure à 5%, l'urne contenant 1000 boules. Nous partons avec l'idée d'en tirer 100 dans l'espoir d'avoir une bonne approximation de la proportion. 7 Si au cours du tirage, nous ramenons 51 boules noires, celui-ci peut être arrêté immédiatement : le poursuivre n'aurait pas de sens, puisqu'avec 51 boules noires sur 1000 une proportion supérieure à 5% est maintenant certaine. On peut raffiner encore en remarquant que la probabilité de tirer par exemple 5 boules noires dans les 5 premiers tirages ramène à 0,3 x 10-6 la probabilité que la proportion de boules noires soit inférieure à 5%. Dans la pratique, le calcul permet d'établir des règles strictes indiquant en fonction des résultats à quel moment le tirage doit s'arrêter - avec décision prise dans un sens ou dans l'autre - ou s'il doit être poursuivi. Un plan d'expérience permet donc de réduire le nombre d'essais à ce qui est strictement nécessaire pour prendre une décision, ce qui peut sauver du temps, de l'argent et des vies. C'est un plan d'expérience de ce type qui a permis d'arrêter en cours de route une expérience visant à déterminer si l'aspirine avait un effet de prévention sur les crises cardiaques, les résultats établissant sans ambiguïté que c'était le cas (réduction de 25% des risques). Continuer l'expérimentation serait revenu dans ces conditions à priver jusqu'à la date initialement prévue les malades du lot-témoin d'accès à l'aspirine, ce qui aurait pu coûter la vie à certains d'entre eux. Voir aussi l'article Inférence bayésienne et le problème dit du bandit manchot. Plans d'expérience en sciences appliquées (plans expérimentaux) [] Il existe de nombreux processus qu'on sait dépendre d'un grand nombre de paramètres externes (on parle de facteurs) mais sans que l'on en ait des modèles analytiques. Lorsque l'on est intéressé de connaître la dépendance d'une variable de sortie F d'un tel processus, on se trouve confronté à plusieurs difficultés : Quels sont les facteurs les plus influents ? Existe-t-il des interactions entre les facteurs (corrélations) ? Peut-on linéariser le processus en fonction de ces facteurs et le modèle ainsi obtenu est-il prédictif ? Comment minimiser le nombre de points de mesure du processus pour obtenir le maximum d'informations ? Existe-t-il des biais dans les résultats des mesures ? La méthode du plan d'expérience répond à ces questions et peut ainsi être appliquée dans de nombreux processus qui vont par exemple des essais cliniques à l'évaluation de la qualité des processus industriels les plus complexes. 8 On peut ainsi pour l'industrie poser cette nouvelle définition : Un plan d'expériences est une suite d’essais rigoureusement organisés, afin de déterminer avec un minimum d’essais et un maximum de précision, l’influence respectives des différents paramètres de conception ou de fabrication d’un produit, afin d’en optimiser les performances. En sciences humaines [] Les symboles utilisés [] <...> = Emboîté, c'est-à-dire qu'il y a un groupe par modalité ! * ... = Croisé, c'est-à-dire qu'il n'y a qu'un seul groupe pour toutes les modalités. S = Signifie sujet. S10<M2> = Signifie qu'il y a 20 sujets (car 10 sujets x 2 modalités) S10*M2 = Signifie qu'il y a 10 sujets M2 = M est le symbole d'une VI (Variable Indépendante), et 2 en indice, indique le nombre de modalités. Plan monofactoriel [] On peut avoir deux types de plan monofactoriel : Méthode 1 Type de plan Emboîté Type de groupe Groupes indépendants Formule Nombre de données Problème S10<M2> 20 données pour 20 sujets 10 sujets pour M1 et 10 pour M2 Il est difficile d'avoir 2 groupes réellement équivalents Méthode 2 Croisé Groupes appareillés S10*M2 20 données pour 10 sujets les 10 sujets passent M1 et M2 Il y a des interférences d'une activité à l'autre Plan multifactoriel [] On aura ici, au moins 2 VI à tester en même temps. On peut avoir trois types de plan multifactoriel : 9 Méthode 1 Type de plan Méthode 2 Méthode 3 Emboîté complet Croisé complet Type de groupe Un Groupe de sujets par groupe expérimental On a deux groupes Chaque sujet rencontre toutes emboîtés, qui passe les conditions expérimentales chacun toutes les conditions Formule S10<M2*R3> S10*M2*R3 S10<M2>*R3 60 données pour 10 sujets 60 données pour 20 sujets Peut être fatiguant pour les sujets + Il va y avoir un effet d'une condition à l'autre . Nombre de 60 données pour 60 sujets données Il est difficile d'avoir des groupes réellement Problème équivalents + Besoin de beaucoup de sujets Mixte ou quasi complet Limites des plans expérimentaux exhaustifs [] Supposons que l'on soit en présence d'un processus qui dépende de 3 facteurs A, B et C qui ont chacun leur domaine de définition (discret) {ai | i = 1,..,l} , {bj | j = 1,...,m} , {ck | k = 1,...,n}. Une approche systématique consisterait à effectuer toutes les expériences possibles du processus en faisant varier chacun des paramètres dans son domaine de définition: Expérience 1: {a1,b1,c1} Résultat F1 Expérience 2:{a2,b1,c1} Résultat F2 Expérience 3:{a3,b1,c1} Résultat F3 Expérience l m n:{al,bm,cn} Résultat Le nombre d'expériences nécessaires, qui est égal au produit l m n, peut être tout à fait considérable et hors de portée pour des raisons de coût et/ou de temps. Exemple [] 10 Supposons que l'on souhaite caractériser un processus électrolytique par la mesure du courant entre les électrodes. Pour une solution d'électrolyte donnée, un modèle grossier laisse supposer que ce courant va dépendre de trois facteurs principaux: (1) la dilution de la solution C, comprise entre 10% et 90%, (2) la température de la solution T, comprise entre 50°C et 100°C, et (3) la nature des électrodes utilisées (étain, or et en platine). Dans ces conditions, en prenant des pas de 10% pour la concentration et de 10°C pour la température, le plan expérimental exhaustif sera constitué de 6x8x3, soit 144 expériences indépendantes qu'il faudra faire dans des conditions par ailleurs identiques. En supposant que chaque expérience prend 1 heure (en comptant le temps de préparation), l'étude de ce simple processus ne demanderait pas moins de 4 semaines de travail à plein temps. De plus, des expériences étalées sur un aussi grand laps de temps pourrait faire intervenir des facteurs non-connus mais variant sur la durée de cette étude et pouvant fausser les résultats. On comprend aisément que les points relevés ci-dessus deviennent dramatiques dès que l'on a affaire à des processus un peu plus complexes et le coût expérimental d'une étude exhaustive devient vite prohibitif, voir inapplicable. C'est un problème courant dans les processus industriels qui exigent une reproductibilité et un contrôle qualité total. La manière correcte d'aborder un plan d'expérience optimal est de procéder d'une manière tout à fait analogue au principe de la droite de régression en supposant que l'on a des dépendances linéaires (ou tout au plus quadratiques) du processus dans chacune de ces variables ainsi que des interactions entre les variables. On se basera le plus souvent sur des hypothèses simples et/ou des expériences limites pour se donner une idée de l'existence ou non de dépendances croisées. Reprenons le processus décrit plus haut en supposant que en plus de T et C, on définisse m comme une grandeur physique qui caractérise la matière de l'électrode (par exemple son poids moléculaire ou son électrovalence, etc.): On souhaite le décrire par une formule simplifiée du type: F(T,C,m)= b1 T2 + b2 C2 + b3 m2 + b4 T + b5 C + b6 m + b7 T C + b8 T m + b9 C m + b10 T C m + b11 T2 C + b12 T2 m + b13 C2 T + b14 C2 m + b15 T m2 + b16 C m2 Pour simplifier, on supposera raisonnablement que les termes en T2 C , T2 m , C2 T , C2 m , T m2 et C m2 sont négligeables par rapport aux termes du premier ordre, ce qui revient à dire que les coefficients b11 , b12, b13 , b14 , b15 et b16 sont nuls (en général, le terme en T C m est aussi négligeables). Il reste alors 10 variables b1 , .. , b10 à déterminer pour avoir une connaissance analytique du processus dans les intervalles spécifiés. 11 On « choisit » 10 points dans l'espace (T, C , m), pour lesquels on effectue l'expérience, obtenant ainsi les valeurs de {Fi} pour chacun de ces points. On veillera évidemment à ce que tous les autres paramètres de l'expérience restent constants. NB : on travaille de préférence avec des variables réduites, c’est-à-dire des variables T, C et m qui sont sans dimensions et normalisées à 1 sur leur intervalle de définition Il en résulte le système de 10 équations à 10 inconnues: Fi = ai1 b1 + ai2 b2 + ai3 b3 + ai4 b4 + ai5 b5 + ai6 b6 + ai7 b7 + ai8 b8 + ai9 b9 + ai10 b10 avec i = 1,..,10. Les aij sont obtenus simplement en remplaçant T,C et m par leur valeurs aux points où l'on a fait les expériences. En écriture matricielle: = Pour résoudre ce système, il faut inverser la matrice : = La théorie des plans expérimentaux permet à partir de modèles spécifiques plus ou moins complexes de déterminer précisément en quels points les mesures doivent être faites. Les plans factoriels [] Parmi les différents plans expérimentaux, les plans factoriels sont courants car ils sont les plus simples à mettre en œuvre et ils permettent de mettre en évidence très rapidement l'existence d'interactions entre les facteurs. L'hypothèse de base est d'assigner à chaque facteur (normalisé) sa valeur la plus basse ( − 1) et sa valeur la plus haute ( + 1). Ainsi, pour k facteurs, on se retrouve avec un ensemble de 2k valeurs possibles. 12 Sans entrer dans les détails, la matrice d'expérience possède alors des propriétés intéressantes (on a par exemple: aT a = k 1) qui sont largement exploitées par les logiciels qui établissent des plans expérimentaux. En particulier, l'ajout d'expériences supplémentaires ainsi que des algorithmes de randomisation efficace du plan d'expérience initial permettent de mettre en évidence des biais systématiques et de les supprimer ou alors de mettre en évidence l'influence d'une variable cachée dont il faut tenir compte. Pour reprendre l'exemple ci-dessus, on se retrouve avec un plan à 12 expériences (2 températures extrêmes, 2 concentrations extrêmes et 3 paires d'électrodes). Travaillons avec la température et la concentration normalisée: t= c= On cherche maintenant uniquement des dépendances linéaires en t et en c, c'est-à-dire une relation du type: IX(t,c) = b1t+ b2c+ b3tc pour X=1,2 ou 3 selon le type d'électrode. En effectuant les mesures du courant aux 4 points (50°C,10%) , (50°C,90%) , (100°C,10%), (100°C,90%) correspondant aux points ( − 1, − 1),( − 1, + 1), ( + 1, − 1) et ( + 1, + 1) dans l'espace des facteurs réduits, on a, pour chaque type d'électrode, on est ramené à un plan factoriel 22 = On vérifie effectivement que aT a = k 1, et on obtient la résolution du système: = Soit: 13 b1 = (-I1 - I2 + I3 + I4) b2 = (-I1 + I2 - I3 + I4) b3 = (I1 - I2 - I3 + I4) Ainsi, moyennant quelques précautions, on a ramené une étude d'un processus non analytique constitué de 144 expériences distinctes à un processus d'une douzaine d'expériences, qui donne des résultats intéressants sur les intervalles considérés, en particulier sur l'existence et l'amplitude des interactions entre les différents facteurs. Interactions logiques La notion mathématique d’« interaction logique », conçue comme généralisation de celle d’« interaction », issue du Plan d’Expériences, a été introduite à la fin des années 1990. D’abord utilisée en analyse des données (Iconographie des corrélations), elle a trouvé un champ d’application dans les modèles de régression multiple non postulés. Notion d’interaction [] La notion d’interaction ne doit pas être confondue avec celle de corrélation. On parle d’effet d’interaction lorsqu’une variable à expliquer Y est conditionnée par le couplage de deux variables explicatives A et B. Dans l’exemple suivant, Y n’est corrélé ni à A ni à B ; mais Y est corrélé négativement au produit A.B. En effet, Y présente de fortes valeurs lorsque A.B présente de faibles valeurs : A B A.B Y Essai 1 -1 -1 1 10 Essai 2 -1 1 -1 21 Essai 3 1 -1 -1 19 Essai 4 1 1 1 9 L' « interaction » A.B est aussi appelé « produit croisé » de A et de B. Un cas particulier de tableau de donnée [] 14 Le tableau ci-dessus est parfois appelé « plan d’expériences complet à 2 niveaux ». En effet, chaque variable explicative n’a que 2 niveaux (faible et fort), et tous les cas sont considérés, à savoir : A faible et B faible, A faible et B fort, A fort et B faible, A fort et B fort. La variable à expliquer Y est aussi appelée la "réponse" de l'expérience. C’est un cas particulier du « plan d’expériences complet à k niveaux ». Dans un « plan complet », les variables A, B et A.B sont orthogonales, c'est-à-dire que leur corrélation est nulle. Le plan complet est lui-même un cas particulier du « plan d’expérience », dans lequel les variables explicatives A et B sont contrôlées de façon raisonnée pour obtenir le maximum d’information concernant leurs influences sur Y, dans le minimum d’essais. Enfin, le plan d’expériences est un cas particulier des tableaux de données, dans lesquels les variables explicatives ne sont pas forcément contrôlées. Généralisation aux tableaux quelconques [] La notion d’interaction logique, qui va être introduite ci-après, s’applique aux tableaux de données en général, sur variables quantitatives et/ou qualitatives (pourvu que ces dernières utilisent un codage disjonctif complet). Quand les variables A et B n'ont pas la même unité, comment calculer le produit A.B pour qu’il garde un sens physique ? Il faut se ramener à une unité commune d’évaluation. L’usage est de centrer réduire les variables A et B, avant de calculer le produit croisé A.B (les variables centrées réduites ont une moyenne nulle et un écart type égal à un). Dans ces nouvelles unités, notre tableau devient : A B A.B Y Essai 1 -0.866 -0.866 .866 10 Essai 2 -0.866 0.866 -0.866 21 Essai 3 0.866 -0.866 -0.866 19 Essai 4 0.866 0.866 0.866 9 Interprétation physique du produit croisé [] 15 L’interprétation physique du produit de deux variables de même unité, comme la longueur et la largeur, est aisée (c’est une surface). Mais que signifie l’effet sur Y du produit croisé A.B de deux variables qui étaient à l'origine d’unités différentes, et qui ont été centrées réduites ? Figure 1 : A en abscisse, B en ordonnée ; et les valeurs correspondantes de Y. La variable à expliquer Y est faible si A et B sont faibles, ou bien si A et B sont forts. Figure 2 : • en rouge : variation de Y en fonction de A, pour B faible ; • en bleu : variation de Y en fonction de A, pour B fort. Y varie donc de façon différente en fonction de A, selon que B est faible ou fort. Figure 3 : profils de variation, en fonction de la suite des essais : Y ressemble surtout à « A*B ». Ou si l’on préfère, Y est corrélé positivement avec « A*B » et négativement avec A.B. Ces figures montrent que Y est fort si A est faible et B est fort, ou bien si A est fort et B est faible. En d’autres termes l’opération « A*B » = -A.B correspond au « ou exclusif » de la logique. La figure 1 représentait le « ou exclusif » dans le cas où les variables A et B sont discontinues à deux niveaux. Dans le cas où les variables A et B sont continues, on obtient la figure 4 caractérisée par des « montagnes » en rouge lorsque A est fort et B faible, ou bien A est faible et B est fort. Dans le cas contraire, il y a des « vallées » (en bleu). 16 Figure 4 : surfaces de réponse de la variable A*B Notion d’« interaction logique » [] Puisque la variable artificielle « A*B » = -A.B correspond au « ou exclusif » de la logique, il est naturel de s'intéresser aussi à une « interaction logique » beaucoup plus fréquente en physique, à savoir le « et » logique : « A&B ». Dans le cas des variables à 2 niveaux, la colonne « A&B » aura les valeurs suivantes (valeur forte seulement si A et B sont forts): A B A.B A*B A&B Y Essai 1 -1 -1 1 -1 -1 10 Essai 2 -1 1 -1 1 21 -1 Essai 3 1 -1 -1 1 19 -1 Essai 4 1 1 1 -1 1 9 Et, dans le cas général des variables continues, nous avons la figure suivante : 17 Figure 5 : surface de réponse du « Et logique » Les figures suivantes montrent d’autres "interactions logiques", dont on trouvera la description ci-après, et les formules mathématiques en références. Signification des symboles d’interactions logiques [] 18 f(A,B) Signification La réponse Y est forte lorsque... A*B A ou-exclusif B ...A est fort et B faible ou A est faible et B fort A^B A ou B ...A est fort ou B est fort A^-B A ou non B ...A est fort ou B est faible A&B A et B ...A et B sont forts A&-B A et non B ...A est fort et B est faible A]B A modulé par B ...A est fort si B est fort A]-B A modulé par non B ...A est fort si B est faible A}B A modulé par B moyen ...A est fort si B est moyen A{B A moyen si B ...A est moyen si B est fort A{-B A moyen si non B ...A est moyen si B est faible A'B ni A ni B (sens large) ...ni A ni B ne sont extrêmes (ils sont moyens) A!B ni A ni B (sens strict) ...ni A ni B ne sont extrêmes (ils sont strictement moyens) A#B A comme B ...A varie comme B A+B "A plus B" ...la somme de A et B (centrés-réduits) est forte A-B "A moins B" ...la différence de A et B (centrés-réduits) est forte Modèles de régression multiple postulés et non postulés Modèle [] Un modèle relie une ou plusieurs variables à expliquer Y à des variables explicatives X, par une relation fonctionnelle Y = F(X) Un modèle physique est un modèle explicatif soutenu par une théorie. Un modèle statistique, au contraire, est un modèle empirique issu de données disponibles, sans connaissance a priori sur les mécanismes en jeu. On peut cependant y intégrer des équations physiques (lors du pré traitement des données). Régression multiple [] C’est le plus utilisé des modèles statistiques. On dispose de n observations (i = 1,…, n ) de p variables. L'équation de régression s'écrit où 19 ε i est l'erreur du modèle; a0, a1, …, ap sont les coefficients du modèle à estimer. Le calcul des coefficients a j et de l'erreur du modèle, à partir des observations, est un problème bien maîtrisé (voir la Régression linéaire multiple). Plus délicat est le choix des variables entrant dans le modèle. Il peut être postulé ou non postulé. Modèle postulé [] Dans le modèle précédent, seuls les coefficients sont « dirigés par les données », la structure polynomiale du modèle est imposée par l’utilisateur (selon son expertise du problème), qui postule a priori : le type de modèle : linéaire ou polynomial, et le degré du polynôme, les variables qui entreront dans le modèle. Exemple de modèle polynomial avec deux variables explicatives : Le problème de la sélection des variables explicatives [] Lorsque le nombre de variables explicatives est grand, il peut se faire que certaines variables soient corrélées entre elles. Dans ce cas il faut éliminer les doublons. Les logiciels utilisent pour ce faire des méthodes de sélection pas à pas (ascendante, descendante ou mixte). Il n’en reste pas moins que la qualité du modèle final repose en grande partie sur le choix des variables, et le degré du polynôme. Modèle non postulé [] Le modèle « non postulé » est au contraire entièrement « dirigé par les données », aussi bien sa structure mathématique que ses coefficients. La sélection des variables explicatives ne demande pas de connaissance a priori sur le modèle : elle a lieu parmi un ensemble très grand de variables, comprenant : les variables explicatives simples : A, B, C,... (proposées par les experts du domaine considéré et dont le nombre p peut être supérieur à n) ; des « interactions » ou « couplage » de ces variables, par exemple « A*B » (produit croisé sur variables centrées-réduites), mais aussi des « interactions logiques » tel « A et B », « A ou B », « A et B moyens », « A si B est fort », « A si B est moyen », « A si B est faible », etc. ; 20 des fonctions de ces variables : par exemple cos(A) ou n’importe quelle fonction sinusoïdale amortie ou amplifiée, fonction périodique non sinusoïdale, effet de seuil, etc. La sélection est faite avant le calcul des coefficients de la régression selon le principe suivant : On cherche le facteur, ou l'« interaction », ou la fonction, le mieux corrélé à la réponse. L'ayant trouvé, on cherche le facteur, ou l'interaction, le mieux corrélé au résidu non expliqué par la corrélation précédente; etc. Cette méthode vise à ne pas compter deux fois la même influence, lorsque les facteurs sont corrélés, et à les ordonner par importance décroissante. La liste trouvée, classée par ordre d’importance décroissante, ne peut pas compter plus de termes que d’inconnues (n). Si l’on ne garde qu’un terme dans le modèle, ce devra être le premier de la liste. Si l’on n’en garde que deux, ce seront les deux premiers, etc. En effet, puisque chacun des termes de la liste "explique" le résidu non expliqué par les précédents, les derniers n'expliquent peut-être que du "bruit". Quel critère d'arrêt choisir ? Le nombre de termes conservés dans le modèle peut être, par exemple, celui qui minimise l’erreur standard de prédiction SEP (Standard error of Prediction), ou celui qui maximise le F de Fisher. Ce nombre de terme peu aussi être choisi par l’utilisateur à partir de considérations physiques. Exemple : on suppose que l’ensemble des « variables explicatives » candidates est {A,B,C,D,E,F,G}, et que le modèle obtenu est : Y = constante + a.A + b.(« E et G ») + c.(« D et F moyens ») On remarque que * les variables B et C, non pertinentes, ne figurent pas dans le modèle * la variable A est apparue comme terme simple, * les variables E et G d’une part, et D et F, d’autre part, n’apparaissent que comme « interactions logiques ». Ce modèle « parcimonieux »,c'est-à-dire comportant peu de termes (ici trois), fait intervenir 5 variables, et collera mieux à la réalité physique qu’un modèle polynomial. En effet la conjonction « E et G » qui signifie « E et G forts simultanément » est plus souvent rencontrée dans la réalité physique (exemple : la catalyse en chimie) qu'un terme polynomial de type E.G. Décomposition harmonique [] Un modèle non postulé sera également efficace dans la décomposition harmonique des séries. 21 En effet, le principe s'applique aussi bien en cas d’échantillonnage irrégulier (où les méthodes de type moyenne mobile, ARIMA ou Box et Jenkins sont mises en défaut) que dans les cas non stationnaires (où l’analyse de Fourier ne s’applique pas). Il permet de déceler et démêler les interférences de divers cycles et saisonnalités avec des ruptures de tendances en « marches d'escaliers », en « V » , des « ruptures logistiques », des motifs périodiques, et des événements accidentels tels que des pics isolés ou des « morceaux d'ondes ». Exemples [] Application au marketing [] Les données de cet exemple sont disponibles sur internet (voir Effet Prix Promo Colas [1]) Dans un magasin de grande surface, deux produits sont présentés à la vente. Les gondoles peuvent être, ou non, mises en avant, les prix peuvent varier, de même que la fréquentation du magasin. Voici les modèles non postulés obtenus pour chacun des deux produits : 1VENTES = 311.6 - 1386. Pri]1GondoleEnAvant + 492.4 Fréq&2Prix R2a = 0.849, Q2 = 0.841, F = 220.4 , SEP= 86.28 2VENTES = 396.1 - 1701. (2Pri-2GondoleEnAvant) + 346.0 Fréq]1Prix R2a = 0.854, Q2 = 0.851, F = 229.3, SEP= 81.27 Les termes de ces équations sont rangés par importance décroissante, et leur influence positive ou négative dépend du signe des coefficients. D’où, compte tenu de la signification des symboles d’interactions logiques, l’on déduit que : Les ventes du produit 1 diminuent lorsque son prix augmente, si la gondole est mise en avant. Elles augmentent avec la fréquentation du magasin, si le prix du produit 2, concurrent ,est fort. Les ventes du produit 2 diminuent lorsque son prix augmente, augmentent lorsque la gondole est mise en avant. Elles augmentent aussi avec la fréquentation du magasin, si le prix du produit 1, concurrent, est fort. Il est souvent utile d’associer aux modèles une analyse de données de type Iconographie des corrélations : 22 Marketing prix promo Figure 1, analyse des liens. Traits pleins : corrélations positives remarquables. Pointillés : corrélations négatives remarquables. D'une part, on remarque les liens positifs des ventes du produit 1 avec : la fréquentation, la mise en avant de la gondole de présentation. le prix du produit 2, concurrent. D'autre part les liens négatifs des ventes du produit 1 avec : le prix du produit 1 la mise en avant du produit 2, concurrent. Amélioration de la qualité industrielle [] Les données de Kackar (1985) utilisées ici ont servi d’illustration à diverses techniques de traitement de données. Voir D. Collombier : Plan d’expériences et amélioration de la qualité industrielle. Une alternative à la méthode Taguchi. RSA, tome 40, n°2 (1992), p.31-43. [2] On veut améliorer le cintrage de ressorts à lame servant à la suspension de camions. Les lames sont chauffées dans un four, cintrées sous presse, puis refroidies dans un bain d’huile. On souhaite obtenir un flèche de cintrage proche de 8 pouces. 23 Les facteurs contrôlés de la fabrication, à deux niveaux (une valeur faible et une valeur forte), sont : T°Four = température du four (1840 et 1880°F) tChauffage = durée de chauffage (25 et 23 sec.) tTransfertFourPresse = durée du transfert four-presse (10 et 12 sec) tSousPresse = temps sous presse (2 et 3 sec.) T°Refroidissement = température de refroidissement. Difficile à contrôler en cours de fabrication, elle peut l’être seulement lors des essais. On la traite comme un facteur de bruit à deux niveaux (130-160°F et 150-170°F) Le plan d’expériences choisi, comprenant 8 essais (pour les facteurs de fabrication), est donc répété deux fois, pour chacune des températures de refroidissement. Soit 16 essais. En outre chacun des essais est répété 3 fois pour prendre en compte les sources de bruit non contrôlées. Soit au total 48 essais. Les réponses de l’expérience sont Ymoy = flèche moyen pour la faible température de refroidissement (moyenne sur 3 mesures) Ymoy = flèche moyen pour la forte température de refroidissement (moyenne sur 3 mesures) Rapport Signal/Bruit = calculé d’après les 6 mesures par essai de fabrication. Dans le tableau suivant, les niveaux des facteurs de fabrication sont notés -1 pour faible, et 1 pour fort. Le niveau de température de refroidissement est noté 1 pour faible et 2 pour fort. tTransfert FourPresse T°Four tChauffage 1 -1 2 -1 3 1 4 1 5 -1 6 -1 7 1 8 1 9 -1 10 -1 -1 -1 -1 -1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 tSousPresse T°Refroid Ymoy Signal/Bruit -1 -1 1 1 1 1 -1 -1 1 1 1 2 1 2 1 2 1 2 1 2 7.79 7.29 8.07 7.733 7.52 7.52 7.63 7.647 7.94 7.4 5,426739 5,426739 11,6357 11,6357 6,360121 6,360121 8,658226 8,658226 7,337677 7,337677 24 11 1 12 1 13 -1 14 -1 15 1 16 1 -1 -1 1 1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 1 1 1 2 1 2 1 2 7.947 7.623 7.54 7.203 7.687 7.633 10,44231 10,44231 3,700976 3,700976 8,860563 8,860563 Voici les modèles non postulés obtenus pour le flèche Ymoy et pour le rapport Signal/Bruit : Ymoy = 7.636 - 0.5687 tCha^T°Refroid + 0.3174 (T°Fo+tSousPresse) - 0.3127 T°Re&-T°Four R2a = 0.934, Q2 = 0.918, F = 71.59, SEP= 0.7446E-01 Signal/Bruit = 7.803 + 7.449 (T°Fo-tChauffage) + 4.201 T°Fo^tSousPresse + 1.874 tCha]-T°Four R2a = 0.969, Q2 = 0.964, F = 155.3, SEP= 0.5413 Les termes de ces équations sont rangés par importance décroissante (chacun expliquant le résidu non expliqué par les précédents), et leur influence positive ou négative dépend du signe des coefficients. D’où, compte tenu de la signification des symboles d’interactions logiques, l’on déduit que : La réponse moyenne diminue si tChauffage ou T°Refroidissement diminuent ; le résidu non expliqué par les termes précédents augmente si T°Four +tSousPresse augmente ; et enfin le résidu de ces résidus non expliqués diminue si T°refroidissement augmente en même temps que diminue T°Four. Le rapport Signal/Bruit augmente (donc la dispersion diminue) quand T°Four augmente, et aussi lorsque tChauffage diminue ; le résidu non expliqué par les termes précédents augmente avec T°Four ou tSousPresse ; et enfin le résidu de ces résidus non expliqués augmente avec tChauffage si T°Four est faible. Ces modèles permettent (par de multiples tirages en faisant varier les facteurs), de trouver le compromis optimum pour un flèche moyen Y de 8 pouces avec un rapport Signal/bruit élevé. On peut pour cela définir des courbes de désirabilités (le désir global est un compromis des deux) : 25 Desirabilité Signal/Bruit Désirabilité Ymoy Le tableau suivant donne dans la colonne "Choix", les valeurs favorisant ce compromis. Elles pourront faire l'objet d'un essai de validation. Bas Haut Choix T°Four -1 1 0.99 tChauffage -1 1 -0.92 tTransfertFourPresse -1 1 0 tSousPresse -1 1 0.17 T°Refroid 1 2 1.03 Ymoy 7,203 8,07 7.98 Signal/Bruit 3,701 11,636 11.04 Pour une vision plus synthétique du phénomène on peut associer aux modèles une analyse de données de type Iconographie des corrélations : Cintrage ressorts suspension Figure 2, analyse des liens. Traits pleins : corrélations positives remarquables. Pointillés : corrélations négatives remarquables. 26 D'une part, on remarque les liens positifs de Ymoy (flèche des ressorts) avec : le rapport Signal/Bruit, la T°Four. D'autre part les liens négatifs Ymoy avec: la durée tChauffage la température de refroidissement. Quant au rapport Signal/Bruit il dépend positivement de T°Four, négativement de tChauffage. Théorie des probabilités Courbes de probabilité. La Théorie des probabilités est l'étude mathématique des phénomènes caractérisés par le hasard et l'incertitude. Les objets centraux de la théorie des probabilités sont les variables aléatoires, les 27 processus stochastiques, et les événements: ils traduisent de manière abstraite des événements non déterministes ou des quantités mesurées qui peuvent parfois évoluer dans le temps d'une manière apparemment aléatoire. En tant que fondement mathématique des statistiques, la théorie des probabilités est essentielle à la plupart des activités humaines qui nécessitent une analyse quantitative d'un grand nombre de mesures. Les méthodes de la théorie des probabilités s'appliquent également à la description de systèmes complexes dont on ne connait qu'en partie l'état, comme en mécanique statistique. Une grande découverte de la physique du vingtième siècle fut la nature probabiliste de phénomènes physiques à une échelle microscopique, décrite par la mécanique quantique. Historique [] La théorie mathématique des probabilités trouve ses origines dans l'analyse de jeux de hasard par Gerolamo Cardano au seizième siècle, et par Pierre de Fermat et Blaise Pascal au dix-septième siècle. Bien qu'un simple pile ou face ou un lancer de dès soit un événement aléatoire, en les répétant de nombreuses fois on obtient une série de résultats qui va posséder certaines propriétés statistiques, que l'on peut étudier et prévoir. Deux résultats mathématiques fondamentaux à ce propos sont la loi des grands nombres et le théorème de la limite centrale. Initialement, la théorie des probabilités considérait surtout les événements discrets, et ses méthodes étaient principalement combinatoires. Mais des considérations analytiques ont forcé l'introduction de variables aléatoires continues dans la théorie. Cette idée prend tout son essor dans la théorie moderne des probabilités, dont les fondations ont été posées par Andreï Nikolaevich Kolmogorov. Kolmogorov combina la notion d'univers, introduite par Richard von Mises et la théorie de la mesure pour présenter son système d'axiomes pour la théorie des probabilités en 1933. Très vite, son approche devint la base incontestée des probabilités modernes. Théorie des probabilités discrète [] La théorie discrète des probabilités s'occupe d'événements dans le cadre d'un univers fini ou dénombrable. Exemples: lancer de dés, expériences avec des paquets de cartes, et marche aléatoire. Définition classique: Initialement, la probabilité d'un événement était définie comme le nombre de cas favorables pour l'événement, divisé par le nombre total d'issues possibles à l'expérience aléatoire. Par exemple, si l'événement est obtenir un nombre pair en lançant le dé, sa probabilité est donnée par , puisque trois faces sur six ont un nombre pair. Définition moderne : La définition moderne commence par un ensemble appelé univers, qui correspond à l'ensemble des issues possibles à l'expérience dans la définition classique. Il est 28 noté . Ensuite, on a besoin d'une fonction f définie sur Ω, qui va associer à chaque élément de Ω sa probabilité, satisfaisant donc les propriétés suivantes : 1. 2. On définit ensuite un événement comme un ensemble d'issues, c'est-à-dire un sous-ensemble de Ω. La probabilité d'un évènement E est alors définie de manière naturelle par : Ainsi, la probabilité de l'univers est 1, et la probabilité de l'événement impossible (l'ensemble vide) est 0. Pour revenir à l'exemple du lancer de dés, on peut modéliser cette expérience en se donnant un univers Ω = {1;2;3;4;5;6} correspondant aux valeurs possibles du dé, et une fonction f qui à chaque associe . Théorie des probabilités continue [] La théorie des probabilités continue s'occupe des événements qui se produisent dans un univers continu (par exemple la droite réelle). Définition classique: La définition classique est mise en échec lorsqu'elle est confrontée au cas continu (cf. paradoxe de Bertrand). Définition moderne Si l'univers est la droite réelle , alors on admet l'existence d'une fonction appelée fonction de répartition , qui donne pour une variable aléatoire X. Autrement dit, F(x) retourne la probabilité que X soit inférieur ou égal à x. La fonction de répartition doit satisfaire les propriétés suivantes : 1. est une fonction croissante et continue à droite. 2. 3. Si est dérivable, alors on dit que la variable aléatoire X a une densité de probabilité . 29 Pour un ensemble comme : , la probabilité que la variable aléatoire X soit dans est définie Si la densité de probabilité existe, on peut alors la réécrire : Tandis que la densité de probabilité n'existe que pour les variables aléatoires continues, la fonction de répartition existe pour toute variable aléatoire (y compris les variables discrètes) à valeurs dans . Ces concepts peuvent être généralisés dans les cas multidimensionnel sur continus. et d'autres univers Principes fondamentaux [] La probabilité d'un événement donné A, , est représentée par un nombre compris entre 0 et 1. L'événement impossible a une probabilité de 0 et l'événement certain a une probabilité de 1. Il faut savoir que la réciproque n'est pas vraie. Un événement qui a une probabilité 0 peut très bien se produire dans le cas où un nombre infini d'événements différents peut se produire. Ceci est détaillé dans l'article Ensemble négligeable. Quelques notions ou propriétés fondamentales Probabilité Évènement probabilité de A probabilité de ne pas avoir A probabilité d'avoir A ou B probabilité conditionnelle de A, sachant B probabilité d'avoir A et B est la réunion de A et B. est l'intersection de A et de B. est appelé la probabilité conditionnelle de A sachant B. C'est la probabilité d'avoir A quand on sait que l'on a B. Par exemple, pour un dé à 6 faces la probabilité d'avoir un 2 (A) quand on sait que le résultat 30 est pair (B) est égal à car la probabilité d'avoir à la fois un 2 et un nombre pair est égal à 1/6 et la probabilité d'avoir un nombre pair est égal à 1/2. Ici on remarque que car on a toujours un nombre pair quand on a 2. La théorie des probabilités aujourd'hui [] Article détaillé : axiomes des probabilités. Article détaillé : espace probabilisé. Certaines distributions peuvent être un mélange de distributions discrètes et continues, et donc n'avoir ni densité de probabilité ni fonction de masse. La distribution de Cantor constitue un tel exemple. L'approche moderne des probabilités résout ces problèmes par l'utilisation de la théorie de la mesure pour définir un espace probabilisé et aboutir aux axiomes des probabilités développés par Kolmogorov Un espace probabilisé comporte trois parties: un univers Ω: L'univers est l'ensemble de tous les résultats possibles de l'évenement aléatoire. Par exemple pour un dé a 6 faces l'univers est Ω ≡ {1, 2, 3, 4, 5, 6}. un ensemble d'événements : C'est une tribu sur les événements Ω. Cet ensemble contient tous les résultats possibles de l'événement au sens large. Par exemple pour un dé à 6 faces il contient la possibilité d'avoir un 1 ou un 2: {1, 2}, la possibilité de ne rien sortir comme résultat: l'ensemble vide , la possibilité de sortir n'importe quel face du dé {1, 2, 3, 4, 5, 6}. En général en probabilité on se contente de prendre la tribu borélienne. À titre d'exemple la tribu borélienne pour le résultat d'un dé à 4 faces est donné (celle pour le dé à 6 faces est encore plus grande mais suit le même principe): {ø, {1}, {2}, {3}, {4}, {1,2}, {1,3}, {1,4}, {2,3}, {2,4}, {3,4}, {1,2,3}, {1,2,4}, {1,3,4}, {2,3,4}, {1,2,3,4}}. On remarque que cette tribu contient l'ensemble vide ø et Ω={1,2,3,4}. Ceci est le cas pour toutes les tribus. une mesure : Cette mesure ou probabilité est la probabilité de réaliser l'un des éléments de . Cette probabilité est comprise entre 0 et 1 pour tous les éléments de , c'est le premier axiome des probabilités. Par exemple pour un dé a 6 faces: la probabilité d'avoir {1} est 1/6, la probabilité de Ω={1, 2, 3, 4, 5, 6}, tirer n'importe laquelle des 6 faces, est 1 (ceci est aussi toujours le cas, c'est le deuxième axiome des probabilités), la probabilité de l'ensemble vide ø est 0. Ceci est toujours le cas, c'est également une conséquence des axiomes des probabilités. Dans cette optique, pour des événements deux à deux disjoints (c'est-à-dire, d'intersection deux à deux vide) A1, A2, A3…, la probabilité de leur union apparaît comme la somme de leurs probabilités, ou, avec les notations mathématiques, 31 C'est le troisième et dernier axiome des probabilités. Par exemple, et toujours pour un dé à 6 faces, la probabilité de tirer un 1 ou un 2 En plus de permettre une meilleure compréhension et une unification des théories discrètes et continues des probabilités, l'approche de la théorie de la mesure nous permet aussi de parler de probabilités en dehors de , notamment dans la théorie des processus stochastiques. Par exemple pour l'étude du mouvement brownien, la probabilité est définie sur un espace de fonctions. Lois de probabilité [] Article détaillé : Loi de probabilité. Certaines variables aléatoires sont fréquemment rencontrées en théorie des probabilités car on les retrouve dans de nombreux processus naturels ; leur loi a donc une importance particulière. Les lois discrètes les plus fréquentes sont la loi uniforme discrète, la loi de Bernoulli, ainsi que les lois binomiale, de Poisson et géométrique. Les lois uniforme continue, normale, exponentielle et gamma sont parmi les plus importantes lois continues. Convergence de variables aléatoires [] Article détaillé : convergence de variables aléatoires. En théorie des probabilités, il y a plusieurs notions de convergence pour les variables aléatoires. En voici une liste: Convergence en loi: une suite de variables aléatoires converge en loi vers la variable aléatoire si et seulement si la suite des mesures images converge étroitement vers la mesure image μX. En particulier dans le cas réel, il faut et il suffit que les fonctions de répartition convergent simplement vers la fonction de répartition de X en tout point de continuité de cette dernière. Convergence en probabilité: converge en probabilité vers ssi , . Cette convergence implique la convergence en loi. Convergence presque sûre: converge presque sûrement vers ssi . Elle implique la convergence en probabilité, donc la convergence en loi. Convergence dans : converge dans vers ssi . Elle implique aussi la convergence en probabilité. Le calcul stochastique [] 32 Article détaillé : calcul stochastique. Un processus stochastique est un processus aléatoire qui dépend du temps. Un processus stochastique est donc une fonction de deux variables : le temps et la réalisation ω d'une certaine expérience aléatoire. Quelques exemples d'utilisation des processus stochastiques incluent le mouvement brownien, les fluctuations du marché boursier, ou la reconnaissance vocale. En temps discret, ces processus sont aussi connus sous le nom de Séries temporelles et servent entre autres en économétrie. Parmi les processus stochastiques, les chaînes de Markov constituent l'exemple le plus simple et sans doute celui qui a le plus d'applications pratiques. Chaîne de Markov [] Article détaillé : chaîne de Markov. Une chaîne de Markov est un processus stochastique possédant la propriété markovienne. Dans un tel processus, la prédiction du futur à partir du présent ne nécessite pas la connaissance du passé. Il suffit alors de connaître l'état de la chaîne à un instant t pour savoir comme elle évoluera au temps t+1, il n'est pas nécessaire de connaître tout le passé entre 0 et t pour prévoir l'évolution de la chaîne. Une chaîne en temps discret est une séquence X1, X2, X3, ... de variables aléatoires. La valeur Xn étant l'état du processus au moment n. Si la distribution de probabilité conditionnelle de Xn+1 sur les états passés est une fonction de Xn seulement, alors de façon mathématique: où x est un état quelconque du processus, est la probabilité d'avoir A quand on sait que l'on a B par exemple ici la probabilité d'avoir une certaine valeur pour Xn + 1 quand on connaît la valeur de Xn. L'identité ci-dessus est la propriété de Markov pour le cas particulier d'une chaîne en temps discret. La probabilité P(Xn + 1 = x | Xn = y) est appelée la probabilité de transition de x à y ; c'est la probabilité d'aller de x à y au temps n et a une importance particulière pour l'étude de ces chaînes. Nous considérons ici uniquement des chaînes de Markov en temps discret mais il faut savoir qu'il existe une généralisation en temps continu. Cette propriété de Markov s'oppose à la notion d'hystérésis où l'état actuel dépend de l'histoire et non seulement de l'état actuel. Ces chaînes de Markov ou des modèles de Markov cachés interviennent dans l'étude de la marche aléatoire et ont de nombreux champs d'application: filtre anti-spam, mouvement brownien, hypothèse ergodique, théorie de l'information, reconnaissance des formes, algorithme de Viterbi utilisé en téléphonie mobile, etc... 33 Trois marches aléatoires (indépendantes) isotropes sur le réseau Article détaillé : marche aléatoire. ; 10 000 pas. Citons entre autres comme cas particuliers de chaînes de Markov la marche aléatoire qui sert en particulier à l'étude de la diffusion ou du jeu de pile ou face. Une marche aléatoire est une chaîne de Markov où la probabilité de transition ne dépend que de x-y. Autrement dit une chaîne de Markov où l'on a: P(Xn + 1 = x | Xn = y) = f(x − y). Un jeu de pile ou face où l'on jouerait 1 à chaque lancer est un exemple de marche aléatoire. Si on a y après n lancers, P(Xn + 1 = x | Xn = y) = 1 / 2 si (x-y)=+1 ou -1 et 0 sinon. (on a une chance sur deux de gagner 1 et une chance sur deux de perdre 1) Équations différentielles stochastiques [] Article détaillé : Équation différentielle stochastique. Les équations différentielles stochastiques sont une forme d'équation différentielle incluant un terme de bruit blanc. Ces équations différentielles stochastiques remplacent les équations différentielles ordinaires lorsque l'aléatoire entre en jeu. Au premier ordre par exemple: Pour faire une analogie avec la physique, μ(X(t)) est la vitesse moyenne au point X(t) et σ est lié au coefficient de diffusion (voir à ce propos l'exemple donné dans lemme d'Itô). Le lemme d'Itô et l'intégrale d'Itô permettent alors de passer de ces équations stochastiques à des équations aux dérivées partielles classiques ou à des équations intégrales. Par exemple en utilisant le lemme d'Itô on obtient pour la probabilité de se trouver à l'instant t au point x: Ce lemme est particulièrement important car il permet de faire le lien entre l'étude d'équations stochastiques et les équations aux dérivées partielles qui relèvent de l'analyse. Ce lemme permet entre autres d'obtenir les équation de Fokker-Planck en physique et de traiter le mouvement brownien par des équations aux dérivées partielles classiques ou de modéliser les cours de la bourse en Mathématiques financières. 34 Processus stochastique Le calcul des probabilités classique concerne des épreuves où chaque résultat possible (ou réalisation) est un nombre, ce qui conduit à la notion de variable aléatoire. Un processus stochastique ou processus aléatoire (voir Calcul stochastique) ou fonction aléatoire (voir Probabilité) représente une évolution, généralement dans le temps, d'une variable aléatoire. Mathématiquement [] Soit un espace de probabilité. On appelle processus aléatoire à valeur dans un élément valeur dans Si , où pour tout est une variable aléatoire à . est une filtration, on appelle processus aléatoire adapté, à valeur dans élément où est une variable aléatoire , un -mesurable à valeur dans La fonction est appelée la trajectoire associée à la réalisation . Espace des trajectoires [] On appelle espace des trajectoires l'ensemble peut alors poser, pour t > 0, Xt(ω) = ωt. . Pour , on On est souvent amené, notamment dans l'étude des processus markoviens, à introduire la famille des opérateurs de translation Les opérateurs . Pour , . forment un semi-groupe puisque On a Xs(θtω) = Xs + t(ω) = ωs + t, en particulier X0(θtω) = Xt(ω) = ωt. Pratiquement [] Notion de processus [] 35 De nombreux domaines utilisent des observations en fonction du temps (ou, plus exceptionnellement, d'une variable d'espace). Dans les cas les plus simples, ces observations se traduisent par une courbe bien définie. Malheureusement, des sciences de la Terre aux sciences humaines, les observations se présentent souvent de manière plus ou moins erratique. Il est donc tentant d'introduire des probabilités. Un processus aléatoire généralise la notion de variable aléatoire utilisée en statistiques élémentaires. On le définit comme une famille de variables aléatoires variable à chaque valeur réalisation du processus. . L'ensemble des observations disponibles qui associe une telle constitue une Un premier problème concerne le fait que la durée sur laquelle est construit le processus est généralement infinie alors qu'une réalisation porte sur une durée finie. Il est donc impossible de représenter parfaitement la réalité. Il y a une seconde difficulté beaucoup plus sérieuse : à la différence du problème des variables aléatoires, la seule information disponible sur un processus se réduit généralement à une seule réalisation. Types de processus [] On distingue généralement les processus en temps discret et en temps continu, à valeurs discrètes et à valeurs continues. Si l'ensemble est dénombrable on parle de processus discret ou de série temporelle, si l'ensemble est indénombrable on parle de processus continu. La différence n'a rien de fondamental : en particulier la stationnarité, constance en fonction du temps des propriétés statistiques, se définit de la même façon. Il ne s'agit même pas d'une différence pratique car les calculs sur un processus continu s'effectuent à partir de l'échantillonnage d'une réalisation du processus. La différence porte plutôt sur l'attitude adoptée face à l'utilisation d'une seule réalisation. Il existe une différence un peu plus nette entre les processus à valeurs continues et les processus de comptage à valeurs discrètes. Les seconds remplacent par des sommes algébriques les intégrales utilisées par les premiers. Exemples [] En matière de processus à valeurs continues, les processus de Gauss sont particulièrement utilisés pour les mêmes raisons que les variables de Gauss en statistiques élémentaires. Une application intuitive du théorème de la limite centrale conduit à penser que bon nombre de phénomènes, dus à des causes nombreuses, sont approximativement gaussiens. D'autre part, un tel processus présente l'avantage d'être entièrement défini par ses caractéristiques au second ordre, espérance et autocovariance. La description d'un phénomène par des valeurs discrètes conduit à des processus de comptage dont le plus simple est le processus de Poisson utilisé dans la théorie des files d'attente 36 La notion de propriété markovienne définit une classe de processus discrets ou continus, à valeurs discrètes ou continues, qui repose sur l'hypothèse selon laquelle l'avenir ne dépend que de l'instant présent. Régression linéaire Un exemple graphique En statistiques, étant donné un échantillon aléatoire régression simple suppose la relation affine suivante entre Yi et Xi: un modèle de La régression linéaire consiste à déterminer une estimation des valeurs a et b et à quantifier la validité de cette relation grâce au coefficient de corrélation linéaire. La généralisation à p variables explicatives de ce modèle est donnée par et s'appelle la régression linéaire multiple. Situation [] 37 Empiriquement, à partir d'observations , on a représenté dans un graphe l'ensemble de ces points représentant des mesures d'une grandeur yi en fonction d'une autre xi, par exemple la taille yi des enfants en fonction de leur âge xi. Les points paraissent alignés. On peut alors proposer un modèle linéaire, c'est-à-dire chercher la droite dont l'équation est yi = axi + b et qui passe au plus près des points du graphe. Passer au plus près, selon la méthode des moindres carrés, c'est rendre minimale la somme des carrés des écarts des points à la droite où (yi - axi - b)² représente le carré de la distance verticale du point expérimental (yi,xi) à la droite considérée comme la meilleure. Cela revient donc à déterminer les valeurs des paramètres a et b (respectivement le coefficient directeur de la droite et son ordonnée à l'origine) qui minimisent la somme ci-dessus. Définitions [] Moyenne empirique des xi : . Moyenne empirique des yi : . Point moyen: Variance empirique des xi : Ecart-type empirique des xi : Variance empirique des yi : Ecart-type empirique des yi : Covariance empirique des xi, yi : . . . . . . La formule de la variance se retient par la mnémonique : La moyenne des carrés moins le carré de la moyenne de même pour la covariance : La moyenne du produit moins le produit des moyennes. 38 Résultat de la régression [] La droite rendant minimale la somme précédente passe par le point G et a pour coefficient directeur . Son équation est donc : soit Erreur commise [] Si l'on appelle εi l'écart vertical entre la droite et le point (xi , yi ) alors l'estimateur de la variance résiduelle σ²ε est : la variance de a, σ²a , est estimée par . On est dans le cadre d'un test de Student sur l'espérance avec écart type inconnu. Pour un niveau de confiance α donné, on estime que l'erreur sur a est : où tn-2(1-α)/2 est le quantile d'ordre α/2 de la loi de Student à n-2 degrés de liberté. L'erreur commise en remplaçant la valeur mesurée yi par le point de la droite axi + b est : 39 À titre d'illustration, voici quelques valeurs de quantiles. Exemples de quantiles de la loi de Student niveau de confiance n 90 % 95 % 99 % 99,9 % 2,57 4,032 6,869 5 2,02 10 1,812 2,228 3,169 4,587 100 1,660 1,984 2,626 3,390 Lorsque le nombre de points est important (plus de 100), on prend souvent une erreur à 3σ, qui correspond à un niveau de confiance de 99,7 %. Voir aussi : Erreur (métrologie). Coefficient de corrélation linéaire [] On peut aussi chercher la droite D' : x = a'y + b' qui rende minimale la somme : On trouve alors une droite qui passe aussi par le point moyen G et telle que . On souhaite évidemment tomber sur la même droite. Ce sera le cas si et seulement si a' = 1/a, c'est-à-dire si aa' = 1. Les droites sont confondues si et seulement si c'est-à-dire si et seulement si 40 On appelle cette quantité le coefficient de corrélation linéaire entre x et y. On peut démontrer que ce nombre est toujours compris entre -1 et 1. En pratique sa valeur absolue est rarement égale à 1, mais on estime généralement que l'ajustement est valide dès que ce coefficient a une valeur absolue supérieure à Voir également : Corrélation (mathématiques). Démonstration des formules par étude d'un minimum [] Pour tout réel a, on pose polynôme du second degré en b. On obtient: . Il suffit de développer et ordonner ce Ce polynôme atteint son minimum en Ce qui signifie que la droite passe par le point moyen G Il reste à remplacer dans la somme de départ, b par cette valeur. Pour tout réel a, ce polynôme du second degré en a. On obtient . Il suffit de développer et ordonner . Ce polynôme atteint son minimum en 41 La droite de régression est bien la droite passant par G et de coefficient directeur . Démonstration des formules grâce aux espaces vectoriels de dimension n [] Dans l'espace , muni du produit scalaire canonique, on considère le vecteur X de coordonnées (x1,x2,...,xn), le vecteur Y de coordonnées (y1,y2,...,yn), le vecteur U de coordonnées (1, 1, ..., 1). On peut remarquer que : On note alors le vecteur et le vecteur Le vecteur Z de coordonnées (ax1 + b,ax2 + b,...,axn + b) appartient à l'espace vectoriel engendré par X et U. représente le carré de la norme du vecteur Y − Z. La somme Cette norme est minimale si et seulement si Z est le projeté orthogonal de Y dans l'espace vectoriel vect(X,U). Z est le projeté de Y dans l'espace vectoriel vect(X,U) si et seulement si (Z − Y).U = 0 et . Or que donc (Z-Y).U=0 signifie . En remplaçant dans , on obtient 42 donc signifie que Enfin le coefficient de corrélation linéaire s'écrit alors . Cette quantité représente le cosinus de l'angle formé par les vecteurs et . On retrouve alors les résultats suivants: si le coefficient de corrélation linéaire est 1 ou -1, les vecteurs colinéaires de coefficient de colinéarité a et linéaire est parfait. et sont . L'ajustement si le coefficient de corrélation linéaire est en valeur absolue supérieur à alors l'angle formé par les deux vecteurs est compris entre − π / 6 et π / 6 ou entre 5π / 6 et 7π / 6. Généralisation: le cas matriciel [] Article détaillé : Régression linéaire multiple. Lorsqu'on dispose de plusieurs variables explicatives dans une régression linéaire, il est souhaitable d'avoir recours aux notations matricielles. Si l'on dispose d'un jeu de n données (yi)i = 1..n que l'on souhaite expliquer par k variables explicatives (y compris la constante) , on peut poser: La régression linéaire s'exprime sous forme matricielle: et il est question d'estimer le vecteur de coefficients k × 1 . Son estimateur par moindre carré est: 43 Il faut que la matrice X soit de plein rang ( ) afin que soit inversible. L'estimation de la matrice (symétrique) de variance-covariance de cet estimateur est: Le terme représente la somme des carrés des résidus . La qualité de l'ajustement linéaire se mesure encore par un coefficient de corrélation R2, défini ici par: où SCE (respectivement SCT) représente la somme des carrés expliqués (respectivement la somme des carrés totaux). Ces sommes se donnent par et . 44