Modèles des tirages. 3.1 Introduction : Probabilités, modèles de tirages Ce chapitre présentera quelques exemples de calculs de probabilités. D’un point de vue théorique la situation la plus simple est la loi dite uniforme, qui décrit la situation où l’on choisit au hasard parmi un nombre fini de possibilité, avec la même probabilité pour toutes les possibilités. Exemples • On lance deux fois de suite une pièce équilibrée, quelle est la probabilité de tomber les deux fois sur face ? Comme il y a quatre possibilités (à savoir pile puis pile , pile puis face , face puis pile et face puis face ), dont une seule nous convient, la probabilité est c’est à dire 25%. • On tire au hasard 3 cartes dans un jeu de 52 cartes, quelle est la probabilité que ces trois cartes soient un valet, une dame et un roi de la même “couleur” (on appelle couleur le fait d’être “trèfle”, “carreau”, “coeur” ou “pique”) ? 1 4, On verra dans ce chapitre qu’il y en tout 22100 combinaisons de 3 cartes dans un jeu de 52 cartes. Comme il n’y a que quatre combinaisons qui nous intéressent (pour 4 les quatre couleurs), la probabilité est 22100 ' 0,00018. Cette probabilité est donc d’environ 0,018% (moins d’une chance sur 5000). Dans le cadre de ce cours, les probabilités seront toutefois avant tout utilisées pour comprendre l’impact du choix aléatoire d’un échantillon. C’est pourquoi, au lieu du cadre ci-dessus, nous nous focaliserons sur des modèles appelés modèles de tirage : On considère une urne contenant N billes qui peuvent avoir deux couleurs. On note N1 le nombre de billes blanches (et N2 = N − N1 le nombre de billes de l’autre couleur). On désignera par p = NN1 la proportion de billes blanches dans l’urne, et par q = NN2 = 1 − p la proportion de billes de l’autre couleur. On choisit un échantillon de n billes dans l’urne et on s’intéresse à la composition de cet échantillon. Deux cas sont à considérer : 1) Les tirages sont avec remise (ils sont dits bernouilliens ou non exhaustifs) : après chaque tirage, la bille est remise dans l’urne avant de procéder au tirage suivant. 2) Les tirages sont sans remises (ou exhaustifs) : après chaque tirage la bille n’est pas remise dans l’urne. Les modèles de tirages s’appliquent dans des situations concrètes comme des sondages quand on s’intéresse à l’étude ou à la "représentativité" de plusieurs caractères dans une population donnée. On peut distinguer deux possibilités : • Étude d’un seul caractère : modèle de l’urne avec deux couleurs. C’est ce cas simple qu’on étudie dans ce chapitre. • Étude de plusieurs caractères : cas de l’urne avec plusieurs couleurs. Ce cas légèrement plus compliqué ne sera pas abordé dans ce cours. 1 3.2 Quelques notions de combinatoire 3.2.1 Factorielle d’un entier naturel Pour un entier naturel non nul n, on appelle factorielle de n et note n! le produit de tous les entiers non nuls inférieurs ou égaux à n : f act(n) = n! = n × (n − 1) × · · · × 1 On a ainsi 1! = 1 2! = 2 × 1 = 2 3! = 3 × 2 × 1 = 6 4! = 4 × 3 × 2 × 1 = 24 etc On convient généralement que 0! = 1. Pour ce chapitre, cette convention est nécessaire pour assurer la généralité des formules indiquées. 3.2.2 Exemple de calculs Il est fréquent que des simplifications surviennent lors de calculs impliquant des factorielles, comme dans les exemples suivants : 1. 2. 3. 8×7×6×5···×1 8! = 8 × 7 = 56. 6! = 6×5···×1 8×7×6×5···×1 8×7 56 28 8! 6!3! = 6×5···×1×3×2×1 = 3×2×1 = 6 = 3 . 12! 12×11×10 = 2 × 11 × 10 = 220. 9!3! = 3×2 3.2.3 Combinaison Soit E un ensemble de n éléments. Une combinaison (sans répétition) de k éléments est une configuration non ordonnée de k éléments choisis dans E. Bien entendu, il n’en existe que si 0 6 k 6 n. Notation : le nombre de combinaisons de k éléments (choisis parmi les n éléments de E) est noté nk , ou Cnk . Proposition. Si 0 6 k 6 n, alors n n! = k!(n − k)! k En revanche, si k < 0 ou k > n, on a nk = 0. 3.2.4 Exemples • Un groupe est constitué de 6 garçons et 8 filles. On choisit au hasard un sous-groupe de 4 individus. 1. Combien de sous-groupes peut-on ainsi constituer ? Comme on a 14 personnes au total, on calcule 14 4 : 14 4 = 14! 14 × 13 × 12 × 11 = = 7 × 13 × 11 = 1001 10!4! 4×3×2 Donc on peut constituer 1001 sous-groupes de 4 individus groupes différents. 2 2. Combien de tels sous-groupes ne comportent que des garçons ? Les quatre personnes doivent alors être choisies parmi les 6 garçons. 6! 6×5 6 = = = 15 4 4!2! 2×1 Propriétés (Proposées à titre d’exercice). 1) n0 = nn = 1 n 2) nk = n−k 3) nk = n−1 + n−1 k k−1 Pn 4) Formule du binôme (a + b)n = k=0 Cnk ak bn−k . Application. de Pascal Le triangle n−1 L’égalité nk = n−1 + k−1 permet de trouver rapidement les combinaisons k de n grâce au tableau suivant dit Triangle de Pascal. k n 0 1 2 3 4 5 6 .. . 3.3 0 1 2 3 4 5 6 1 1 1 1 1 1 1 1 2 3 4 5 6 1 3 1 6 4 1 10 10 5 15 20 15 1 6 1 n k pour les petites valeurs ··· Tirage avec remise : Modèle binômial Dans ce cas on désigne par p = NN1 la proportion de billes blanches et par q = NN2 = 1 − p la proportion de billes non blanches dans l’urne. On désigne par X la variable aléatoire égale au nombre de billes blanches dans l’échantillon et par [X = k] l’évènement “dans l’échantillon, il y a exactement k billes blanches”. La probabilité de cet évènement est notée P[X = k]. On a le résultat suivant : Proposition. 1) Dans un tirage de n billes avec remise, la probabilité que le nombre de boules blanches tirées soit k est donnée par la formule n k n−k P[X = k] = p q . k La loi de la variable X est appelée loi binômiale de paramètres n et p et sera notée B(n; p). 2) La moyenne, la variance et l’écart type de la variable X sont √ m(X) = np V ar(X) = npq = np(1 − p) σ(X) = npq . Remarque. L’avantage de la formule binômiale est qu’elle fait intervenir la proportion p et la taille de l’échantillon, mais pas le nombre total N de billes dans l’urne (c’est à dire la taille de la population globale). 3 Exemple. Dans une population, la proportion des fumeurs est de 35%. On choisit (avec remise) au hasard un échantillon de 16 personnes et on appelle X la variable égale au nombre de fumeurs dans l’échantillon. Calculons la probabilité d’avoir entre 4 et 7 fumeurs dans l’échantillon. On a X = B(16; 0,35). Donc P[4 6 X 6 7] = P[X = 4] + P[X = 5] + P[X = 6] + P[X = 7] = 7 X 16 k=4 k (0,35)k (1 − 0,35)16−k ' 0,155 + 0,201 + 0,198 + 0,152 ' 0,707 3.4 Tirage sans remise : Modèle hypergéométrique Reprenons la même composition de l’urne, avec la seule différence que les tirages se font maintenant sans remise (ce qui est plus réaliste). On note X la variable aléatoire égale au nombre de billes blanches dans l’échantillon. On peut calculer : Proposition. 1) Dans un tirage de n billes sans remise, la probabilité d’avoir exactement k billes blanches est donnée par la formule N1 N −N1 k × n−k P[X = k] = N n La loi de la variable X est appelée loi hypergéométrique de paramètres N , N1 et n et sera notée H(N ; N1 ; n). 2) La moyenne, la variance et l’écart type de la variable X sont r N −n N −n N −n √ = np(1 − p) , σ(X) = npq . m(X) = np, V ar(X) = npq × N −1 N −1 N −1 Remarques. 1) L’inconvénient de la loi hypergéométrique est de faire intervenir la taille de la population globale qui est en générale très grande q et souvent inconnue pour des problèmes concrets en sciences humaines. −n 2) Le coefficient parasite N N −1 s’appelle le coefficient d’exhaustivité. On démontre que si ce coefficient est proche de 1, et si la taille de l’urne est assez grande, alors les lois de probabilité de la loi binômiale et hypergéométrique sont très voisines. Auquel cas, on pourra alors utiliser les formules binômiales même si le tirage est sans remise. Exemple. Dans une population de 1000 individus, la proportion des fumeurs est de 35%. On choisit (sans remise) au hasard un échantillon de 16 personnes et on désigne par X la variable égale au nombre de fumeurs dans l’échantillon. Calculons la probabilité d’avoir entre 4 et 7 fumeurs dans l’échantillon : 350 650 7 X × 16−k k P[4 6 X 6 7] = P[X = 4] + P[X = 5] + P[X = 6] + P[X = 7] = ' 0,711 1000 k=4 16 Par comparaison, le cas “avec remise” donnait la probabilité 0,707, ce qui est extrêmement proche. Cela était attendu car le coefficient d’exhaustivité vaut 0,992. 4