Probabilités Statistiques

publicité
UV SQ 20
Probabilités
Statistiques
UV SQ 20
Automne 2006
Responsable d Rémy Garandel
( m.-el. [email protected] )
page 1
SQ-20 Probabilités - Statistiques
Bibliographie:
Titre
Auteur(s)
Editions
Localisation
Introduction à la statistique
Amzallag, Piccioli, Bry
Hermann
Bib. ENI
Probabilités et statistiques
Coll FLASH U
A. Colin
B.M. Belfort n°519 07 REA
Initiation pratique à la statistique
A. Liorzou
Gauthier Villars Bibl ENI
Probabilités et Statistiques appliquées
Lacaze, Mailhes, …
Cépaduès
Bibl Utbm Sév. n° QA 273 Pro
Statistiques et probabilités
J. P. Lecoutre
Dunod
Bibl Utbm Sévenans
Niveaux des livres : - très (trop) facile, + niveau de SQ 20, ++ pour des prolongements, +++ : compétition
Niveau
+−
+ puis ++
+
Quelques livres intéressants, instructifs ou réjouissants (propriétés ne s’excluant pas) :
Etienne Klein :
L’atome au pied du mur Ed. Le Pommier
Des nouvelles à caractère historique et scientifique écrites avec humour. De quoi ensoleiller les journées moroses
J. Paul Delahaye
Jeux mathématiques et mathématiques des jeux
Bibliothèque Pour la Science
Etude probabiliste des jeux de hasard à partir de situations plus ou moins simples
Ch. Ruhla
La physique du hasard
Ed. Hachette
Bibl. Municipale Belfort n° 530 13 RUH
Survol chronologique des phénomènes aléatoires en physique, difficulté croissante au cours des chapitres
J. Merlino
Les jargonautes
B. M. Belfort Petite étude humoristique sur le langage actuel
Simon Singh
Histoire des codes secrets
Intéressera tous les mathématiciens
Ce cours a été enseigné à l’UTBM, Université de Technologie de Belfort-Montbéliard depuis la
création de cette université de Technologie, c’est-à-dire septembre 1999. Il correspond à l’Unité de Valeur SQ 20 Probabilités et Statistiques, dans laquelle le volume horaire était de 32 heures de cours et 28
heures de Travaux Dirigés.
Remarques préliminaires :
Ce document comprend plus d’exercices qu’il est possible d’en faire pendant les séances de TD. Le
but en est multiple. D’abord d’avoir une certaine variété dans les différents groupes et ensuite de permettre aux étudiants qui le souhaitent de faire les exercices qui n’auront pas été traités dans leurs séances de TD. On peut toujours demander des éléments de solution aux enseignants, ou à des étudiants des
autres groupes qui les ont peut-être résolus.
Certains exercices sont notés * , ** ou ***. Ils correspondent à des exercices demandant une certaine
recherche dans le raisonnement, ou à ceux qui dépassent le programme de l’UV, mais pas les capacités
intellectuelles des étudiants brillants. Mais ne le sont-ils pas tous ?
page 2
UV SQ 20
Chap.1
Espaces Probabilisés
-I- Introduction:
1°) Le hasard
Le calcul des probabilités est l’étude des phénomènes aléatoires, du mot latin alea = hasard. Cette
notion n’est d’ailleurs pas très facile à cerner. Ce qu’on nomme hasard peut être dû simplement à un
phénomène qu’on maîtrise mal, ou dont on ne connaît pas les causes.
Il y a quelques millénaires, l’apparition d’une éclipse pouvait être considérée comme un phénomène
relevant du hasard alors qu’après la découverte des lois de la gravité et de l’orbite des objets célestes du
système solaire, il devient un phénomène entièrement déterminé.
De même le lancer d’une pièce de monnaie, exemple même du phénomène aléatoire, n’a rien de hasardeux à condition de connaître avec précision tous les paramètres du mouvement. Dès que la pièce est
lancée, son trajet est entièrement déterminé, ainsi que le résultat du lancer.
Alors, le hasard ? Existe-t-il vraiment, ou est-il simplement une mesure de notre incompétence ?
On peut considérer le monde comme un environnement totalement déterminé, tendance Laplace, ou
au contraire, considérer qu’il existe une part incompressible de hasard, (Cf. le principe d’incertitude de
Heisenberg) dans laquelle on peut loger un espace de liberté.
2°) Probabilités objectives et subjectives :
Avant de définir la probabilité, il est nécessaire de considérer la notion de fréquence.
Soit une expérience à deux issues, succès et échec, qui est répétée n fois dans les mêmes conditions.
nombre de succès
La fréquence de succès s’écrit f n =
.
n
On peut ainsi définir la probabilité de succès d’une expérience aléatoire par p = lim f n p ∈ 0, 1 , le
n →∞
problème étant que cette probabilité ne peut être connue qu’après une infinité d’expériences.
Dans certains cas, il est possible de contourner cette difficulté par des considérations géométriques.
Par exemple, pour le lancer d’un dé cubique parfaitement équilibré (mais l’est-il parfaitement ?), à chaque face on peut attribuer la probabilité 1/6.
La définition de la probabilité d’un événement ainsi donnée peut être appelée probabilité objective.
Une autre définition, beaucoup plus floue, celle de la probabilité subjective, serait « combien un
joueur serait prêt à parier sur un résultat ? »
Par exemple, on demande à un étudiant d’évaluer ses chances de succès à un examen, c’est-à-dire sa probabilité de réussite p∈[0, +1]. Puis on lui propose l’expérience suivante : faire tourner une aiguille sur un axe situé au dessus d’un disque dont un secteur d’angle θ est blanc, le reste étant coloré. Après rotation de l’aiguille, si elle s’arrête sur le secteur
blanc, on lui donne son examen, sinon … Puis on lui donne le choix, passer effectivement l’examen ou laisser l’aiguille,
donc laisser le hasard décider. En fonction de l’angle θ l’étudiant choisira l’une ou l’autre solution, ce qui permettra
d’évaluer sa probabilité subjective p.
Pour terminer cette introduction, il faudrait préciser que le Calcul des Probabilités n’est pas qu’un
amusement de mathématicien. Il est utilisé dans des domaines aussi divers que la fiabilité, les assurances, la gestion des stocks ou des sièges mis à la vente par les compagnies aériennes, la vitesse des
conducteurs (y a-t-il un radar sur ma route ?) et bien sûr les jeux de hasard (Cf. les bénéfices de la Française des Jeux). Sans le calcul des probabilités les compagnies d’assurances seraient ingérables, ou avec
des primes dissuasives, et les compagnies aériennes ne pratiqueraient pas la surréservation, qui peut
avoir ses avantages pour certains passagers.
Il est intéressant, par exemple en séance de TD, de pratiquer des expériences pour vérifier
l’adéquation entre la théorie (calculs effectifs) et la pratique (observation).
page 3
SQ-20 Probabilités - Statistiques
-II- Algèbre d’événements
Dans ce cours, nous allons utiliser des probabilités sur R ou des sous-ensembles de R. En fonction de
la nature de ces sous-ensembles, ensembles discrets, intervalles, etc., les méthodes de calcul seront différentes. Un peu plus loin, nous prolongerons l’étude sur des parties de Rn.
1°) Sous-ensembles de R :
a) Ensemble finis:
Définition : On dira que Ω ⊂ R est un ensemble fini s’il existe un entier n∈N, qu’on note Card(Ω),
cardinal de Ω, et une bijection de Ω dans {1, 2, ... , n}.
Quelques exemples d’ensembles finis :
• les ensembles de la forme {1, 2, ... , n} n∈N* bien sûr, mais aussi l’ensemble vide ∅
• L’ensemble des étudiants de première année dans une Université
Sur les ensembles finis s’applique toute l’analyse combinatoire, c’est à dire les dénombrements.
b) Ensembles dénombrables:
Définition : On dira que Ω ⊂ R est un ensemble dénombrable s’il existe une bijection de Ω dans N.
Par prolongement, on a les ensembles dénombrables au sens strict, qui correspondent à la définition
ci-dessus, ou les ensembles dénombrables au sens large qui sont finis ou dénombrables.
(On peut aussi définir un ensemble dénombrable au sens large en disant qu’il existe une application injective de Ω dans
N, mais cette définition ne fait pas la différence entre les ensembles finis et les ensembles infinis, différence qui sera utilisée
pour certaines notions, moments d’une variable aléatoire par exemple, page 16)
Quelques exemples d’ensemble dénombrables, en dehors de N :
Z (ensemble des entiers relatifs), Q (ensemble des fractions rationnelles), tout ensemble de points
isolés dans R1. Par contre un intervalle ouvert de R n’est pas dénombrable (démonstration par le procédé diagonal de Cantor) .
De plus, tout sous-ensemble d’un ensemble dénombrable est dénombrable (au sens large).
Un ensemble de points isolés sera appelé un ensemble discret.
c) Les autres:
Parmi les autres ensembles, qui ne font donc pas partie des ensembles ci-dessus, une place
prépondérente sera accordée à des ensembles dits continus, c’est à dire constitués d’intervalles non
réduits à un point de R ou d’une réunion de ce type d’intervalles.
Ces ensembles ne constituent pas l’intégralité des ensembles utilisés dans la théorie des probabilités,
loin delà, mais, pour la plupart des autres, il est nécessaire d’utiliser la théorie de la mesure, ce qui
dépasse largement le cadre de ce cours.
2°) Dénombrements :
L’analyse combinatoire est l’étude des dénombrements sur les ensembles finis. Il est des méthodes
qu’il est bon de connaître pour résoudre certains problèmes de probabilités. L’étude des bases de
l’analyse combinatoire ayant été faite dans le secondaire, nous ne ferons que de brefs rappels, pour les
démonstrations, voir le cours de terminale.
a) Nombre de parties d’un ensemble
Soit un ensemble fini Ω de cardinal n, on montre par récurrence que le nombre de sous-ensembles
(parties) de Ω est Card(P(Ω)) = 2n. Cette relation est aussi vérifiée pour n = 0.
b) Permutations :
Une permutation sur un ensemble fini Ω de cardinal n, est une bijection de Ω sur lui-même. On peut,
moyennant une bijection sur En={1, 2, . . . ,n} pour n entier naturel non nul, compter le nombre de permutations sur En.
1
Un point x d’un sous-ensemble E de R est dit isolé dans E s’il existe un voisinage de x ne contenant aucun autre élément de E.
page 4
UV SQ 20
On montre par récurrence que le nombre de permutations sur En est n ! = 1×2×. . . ×n . Par convention
on attribue la valeur 1 à 0!.
c) Arrangements
Un arrangement est une application injective de Ep={1, 2, . . . ,p} dans En={1, 2, . . . ,n}. C’est aussi
un tirage successif et sans remise de p éléments ordonnés dans un ensemble de n éléments.
Une telle application n’existe que si p ≤ n, et d’ailleurs si p = n on est ramené au cas précédent.
n!
si n ≥ p et A pn = 0 sinon
Le nombre d’arrangements est noté A pn et on montre que A pn =
( n − p)!
(on le note aussi P(n, p), cette notation, plus simple pour les typographes, est souvent utilisée sur les
calculatrices).
d) Combinaisons
Une combinaison est un tirage simultané de p éléments dans un ensemble de n éléments. Contrairement aux permutations, on ne tient pas compte de l’ordre dans lequel ces éléments sont tirés. A chaque
combinaison de p éléments, on peut donc associer p ! permutations différentes, ce qui nous donne
n
Ap
n!
l’expression du nombre de combinaisons : C pn =
= n =
. Suivant les sources on trouvera
p
p! p!( n − p)!
les deux notations. Historiquement, la première a été utilisée par les français, pour bien noter le C de
combinaison, alors que la seconde se trouve dans la littérature anglo-saxonne.
On peut, à titre d’exercice en déduire la formule du binôme de Newton :
FG IJ
HK
∀n ∈ N , ∀(a , b) ∈ R
2
ba + bg
n
n
= ∑ C kn a k b n − k ainsi que le cas particulier où a + b = 1, bien utile
k =0
pour les probabilités discrètes.
On conviendra que C pn = 0 et A pn = 0 dans le cas p > n.
3°) Exemples de dénombrements :
a) Planche de Galton :
Soit une planche inclinée munie de clous suivant la disposition ci-contre,
n+1 lignes numérotées de 0 à n. On lance une bille sur le premier clou, et elle
se dirige à droite ou à gauche pour arriver à un autre clou et ainsi de suite jusqu’aux numéros de bas de grille.
Pour un numéro k∈{0, …, n}, la trajectoire peut se coder suivant une suite (x1, …, xn) où xk =0 ou 1
suivant que la bille va à droite ou à gauche, avec k fois 1 et (n−k) fois 0 . On choisit donc k rangs de la
suite parmi les n auxquels on associe le résultat 1. On a donc C kn chemins différents pour se rendre à la
case k.
Cet exemple est assez riche pour qu’on puisse reconstruire les formules sur les combinaisons, en particulier le triangle de Pascal.
4°) Tribus d’événements :
On considère une expérience aléatoire dont l’ensemble Ω est l’ensemble de tous les résultats ω possibles. Une partie A de Ω est appelée un événement. Si le résultat ω est dans A, on dira que l’événement
A est réalisé.
L’objectif du calcul des probabilités est d’évaluer les chances de réalisation d’un événement. Il s’agit
donc, si possible, d’attribuer une probabilité à un sous-ensemble de Ω, comme on attribue une aire à une
surface.
Une partie A de P(Ω) = ensemble de toutes les parties de Ω , est une algèbre d’événements si A est
stable par les opérations booléennes usuelles, intersection finie, complémentarité et si elle contient Ω.
Du fait que A est stable par intersection et complémentarité, elle est nécessairement stable par réunion,
et de plus, contenant Ω, elle contient aussi ∅.
page 5
SQ-20 Probabilités - Statistiques
On peut prolonger cette définition avec la stabilité par intersection dénombrable pour obtenir une
structure de tribu d’événements qu’on trouve aussi sous la dénomination σ−algèbre, le préfixe σ symbolisant généralement le passage du fini au dénombrable.
Dans tous les cas, Ω est fini ou infini, dénombrable ou non dénombrable, l’algèbre (ou la tribu dans
le cas infini) minimale est l’ensemble {Ω, ∅} et la maximale est P(Ω).
Dans ce cours nous étudierons essentiellement trois types d’ensembles Ω : finis, infinis dénombrables et intervalles (a, b), ouverts ou fermés, de R avec a < b. Les algèbres ou les tribus que nous étudierons, sauf mention contraire, seront
• les ensembles P(Ω) si Ω est un ensemble discret
• l’ensemble des boréliens (tribu engendrée par les intervalles de R) si Ω =R.
Certains événements sont utilisés fréquemment, c’est le cas de l’événement certain Ω, des événements élémentaires, c’est à dire n’ayant qu’un seul élément, et de l’événement impossible ∅
-III- Espaces probabilisés :
La notion intuitive de probabilité objective introduite à l’aide de fréquences, ainsi que celle de probabilité subjective, sont insuffisantes pour bâtir une théorie cohérente et éviter certaines erreurs grossières.
Il est donc nécessaire de mettre en forme une axiomatique du calcul des probabilités.
1°) Probabilité sur un ensemble :
Soit un ensemble Ω et une tribu d’événements A définie sur E.
Définition : L’application p est une probabilité sur Ω si
1. p est une application de A sur l’intervalle [0, 1]
2. p(Ω) = 1
3. si A∈ A et B∈ A avec A∩B=∅ (événements incompatibles) alors p(A∪B) = p(A) + p(B).
4. Pour toute suite d’événements An , n∈N, deux à deux disjoints ( ∀i ≠ j A i ∩ A j = ∅ ) on a
p
FG U A IJ = ∑ p(A )
H K
n
n ∈N
n
(σ−additivité)
n ∈N
On définit ainsi un espace probabilisé qui est le triplet (Ω, A , p). Il est d’ailleurs possible, à partir du
même ensemble Ω de définir plusieurs espaces probabilisés différents. Plusieurs tribus d’événements
peuvent être définies sur le même Ω, et pour une même tribu, on peut construire des probabilités différentes.
Nous en verrons un exemple avec le paradoxe de Bertrand (Cf. page 9).
2°) Propriétés :
De la définition d’une probabilité, on déduit (facilement) les propriétés :
P(∅) = 0, l’événement ∅ est appelé événement impossible2, par exemple « obtenir un 7 en lançant un dé cubique normal ».
∀A∈ A , ∀B∈ A p(A∪B) = p(A) + p(B) – p(A∩B)
p( A ) = 1 − p(A ) avec A = Ω \ A
-IV- Indépendance et probabilités conditionnelles
Soit dans un espace probabilisé (Ω, A , p) deux événements A, de probabilité non nulle, et B. Les
événements peuvent être réalisés simultanément si leur intersection n’est pas vide, mais on peut se po2
L’événement impossible n’est d’ailleurs pas le seul événement de probabilité nulle. Par exemple, un tirage au hasard
d’un nombre entre 0 et 1 fournit des probabilités nulles pour tous les événements de la forme {x, x∈[0, 1]}, mais un tel résultat, quoique très improbable, n’est pas impossible.
page 6
UV SQ 20
ser la question : la réalisation de A a-t-elle une influence sur celle de B ? En d’autres termes, la probabilité de B est-elle la même quand on sait que A est réalisé ?
Par exemple le donneur de cartes au poker qui a pris soin de regarder la dernière carte du paquet (par exemple l’As de ♠)
avant de commencer sa distribution. Il a donc une information supplémentaire événement A = « l’As de ♠ ne sera pas distribué » dont il sait qu’il est réalisé.
1°) Probabilités conditionnelles
Ceci nous amène à la définition de la probabilité conditionnelle p|A, c’est-à-dire la probabilité d’un
événement B sachant que A est réalisé.
On construit ainsi un nouvel espace probabilisé (Ω’=A, A’ , p|A) où A’ ={B∩A, B∈ A’} et la probap(A ∩ B)
bilité : ∀B, p|A ( B) = p( B| A ) =
.
p(A )
On vérifie que (Ω’=A, A’ , p|A) est bien un nouvel espace probabilisé qui vérifie les propriétés 1 à 4.
2°) Indépendance
En reprenant notre point de départ, on peut définir l’indépendance de deux événements, c’est-à-dire
la propriété que la réalisation de l’un d’eux n’a pas d’influence sur celle de l’autre.
On dira, par définition, que B est indépendant de A (tel que p(A)≠0) si p|A(B) = p(B).
p(A ∩ B)
Dans ce cas, p|A ( B) =
= p( B) ce qui implique p(A ∩ B) = p(A ). p( B) (règle de multiplip( A )
cation). On peut remarquer que cette dernière relation est symétrique en A et B, et, si la probabilité de B
est non nulle : B indépendant de A ⇔ A indépendant de B.
Les deux définitions p|A ( B) = p( B) et p(A ∩ B) = p(A ). p( B) qu’on pourrait donner de l’indépendance ne sont équivalentes que si les probabilités de A et B ne sont pas nulles.
Pour la suite nous prendrons la définition suivante, ce qui permettra de l’utiliser aussi dans le cas où
la probabilité d’un événement est nulle:
A et B sont indépendants si et seulement si p (A ∩ B) = p(A) p(B)
3°) Propriétés immédiates :
Les événements Ω et ∅ sont indépendants de tous les autres.
Si p(A) ≠ 0 , p(B) ≠ 0 et A∩B=∅ alors A et B ne sont pas indépendants. En effet la réalisation de
l’un rend l’autre impossible.
A ce propos il convient de bien faire la différence entre des événements incompatibles A ∩ B = ∅ et
des événements indépendants p(A ∩ B) = p(A ). p( B) .
p(A ∩ B)
De la relation p|A ( B) =
on déduit p (A ∩ B) = p(A) p(B|A), qu’on utilise en particulier pour
p( A )
des études de fiabilité.
4°) Exemples
Les cas d’indépendance sont (heureusement) très fréquents, et l’hypothèse d’indépendance sera
abondamment utilisée quand nous aborderons la partie Statistiques. Dans l’immédiat donnons quelques
exemples :
• Tirages aléatoires successifs avec remise d’éléments dans une boîte
• Réponses à une question donnée par des sondés ne se concertant pas
• Résultats de lancers successifs d’un dé (dont on suppose qu’il ne s’use pas !)
Dans d’autres situations, on introduit l’hypothèse d’indépendance pour simplifier les calculs, en espérant que la différence entre les résultats est négligeable, en fait inférieure à la précision dont on a besoin pour les calculs.
C’est le cas par exemple de :
• Tirages aléatoires successifs sans remise d’un petit nombre éléments dans une boîte en contenant un grand nombre
page 7
SQ-20 Probabilités - Statistiques
•
•
Le sexe des enfants d’un même couple de parents
Le nombre de crevaisons pendant un an de deux conducteurs (s’ils n’empruntent pas systématiquement les mêmes itinéraires, devant une usine de recyclage de verre notamment)
• Pannes des composants montés en parallèle d’un dispositif électronique
• Tailles des étudiants d’une Université
Dans tous les cas il est bon de vérifier l’indépendance des événements dont on veut calculer la probabilité
Exemple :
Dans une salle se trouvent n personnes, n≥2. Calculer en fonction de n la probabilité qu’ils aient tous des mois de
naissance différents.
Dans cet exemple, et c’est souvent le cas dans les études de phénomènes aléatoires, l’énoncé est très incomplet et il
est nécessaire d’introduire des hypothèses supplémentaires, pour préciser certains points ou opérer des simplifications.
La première est de supposer que toutes ces personnes ont des jours de naissance indépendants, ce qui paraît assez
réaliste, sauf s’il y a des jumeaux dans l’assemblée. Ensuite, pour simplifier le problème, on peut supposer que les 365
jours de l’année, ou les 12 mois, sont équiprobables quant à la naissance. C’est beaucoup moins rigoureux, pour ne pas
dire pas du tout, que le premier point. En effet les naissances ne se répartissent pas uniformément sur l’année (convenances personnelles, réveil du printemps ou panne générale de télévision pendant quelques jours, …. ), et de plus les
mois n’ont pas tous le même nombre de jours. Et que faire des années bissextiles ?
Pour modéliser le problème, on peut le représenter par une application f de E = {1, 2, …, n} dans F = {1, 2, …,
12}, toutes les applications étant équiprobables, c’est à dire de probabilité p = 1 . L’événement A = « tous les mois
12 n
de naissance sont différents » est associé à l’événement B = « l’application f est injective ».
Si n > 12 le problème est résolu immédiatement, la probabilité de A est nulle.
n
Si n≤12, on a nombre d’applications injectives = A n et donc p(A ) = nb d ' applications injectives E → F = A 12 . Par
12
nb d ' applications E → F
12 n
exemple, pour n = 6 on a p(A) = 0,223 ± 0,001. On peut parier sans risque excessif devant une assemblée de 6 personnes que deux d’entre elles sont nées le même mois.
On prend successivement n = 20, n = 25 et n = 30. Quelle est la probabilité que deux d’entre elles aient des dates de
naissance identiques ?
Le problèmes est le même, avec les mêmes approximations, mais il y a 365 jours au lieu de 12 mois et on considère
l’événement C = « tous les jours anniversaires sont différents ». Dans le cas général n compris entre 2 et 365, on a la
probabilité p( C) =
n
A 365
365n
, ce qui donne les probabilités 0,59 pour n = 20 (0,43 pour 25 et 0,29 pour 30). Là encore on
peut prendre les paris sur un groupe de 30 personnes.
5°) Système complet d’événements
Dans un espace probabilisé (Ω, A , p) on appelle système complet d’événements S ={Ak, k∈D} avec
D = N ou D = {1, 2, …, n} une partition finie ou dénombrable de Ω.
Les ensembles Ak étant disjoints deux à deux, on peut écrire la formule des probabilités totales :
∀B, B =
UB∩ A
k ∈D
k
b
g
b
g
et donc p( B) = ∑ p B ∩ A k = ∑ p B| A k p(A k )
k ∈D
k ∈D
Formule de Bayes :
Si S ={Ak, k∈{1, 2, …, n}} un système complet fini d’événements Ak sont tels que p(Ak) ≠ 0, on a,
p( B| A k ) p(A k )
pour tout B tel que p(B) ≠ 0 : p(A k | B) = n
∑ p( B| A k ) p(A k )
k =1
On peut traiter à titre d’exercice l’exemple suivant :
Dans un atelier quatre machines A, B, C et D fabriquent la même pièce à la même cadence. La production
est entreposée sans souci de provenance. On s'aperçoit à posteriori que la machine A a été mal réglée et que sa
production est inacceptable. Par ailleurs les proportions de pièces inacceptables sont, pour B, C et D de 2%,
3% et 5%.
a) On prend au hasard une pièce dans le stock. Probabilité qu'elle soit défectueuse ?
b) Une pièce est défectueuse. Quelle est la probabilité pour qu'elle vienne de A, de B ?
page 8
UV SQ 20
-V- Hypothèse d’équiprobabilité :
1°) Cas où Ω est fini :
Étant donné un ensemble fini Ω, par exemple {1, 2, …, n} n∈N*, un cas très fréquent est celui où
tous les événements élémentaires {k} ont la même probabilité. On a donc :
b g
b g
p {1} = K = p {n} et p(Ω) = p
FG U {k}IJ = ∑ pb{k}g les événements étant disjoints deux à deux,
H K
n
n
k =1
k =1
1
n
On dira dans ce cas que l’espace probabilisé vérifie l’hypothèse d’équiprobabilité.
On trouve cette situation dans les cas où on peut évoquer une symétrie physique (dé cubique ou pièce
de monnaie parfaitement équilibrés) ou l’absence d’informations sur un phénomène aléatoire, où aucun
résultat ne semble plus prévisible que les autres. Un jeu de cartes bien battu ne fournit aucune information quant au classement des cartes, et par conséquent toutes les cartes ont la même probabilité de sortie
à l’occasion d’un tirage.
Bien sûr il faut être très prudent dans l’utilisation de cette hypothèse. L’absence d’informations
n’implique pas nécessairement l’équiprobabilité.
et donc ∀k ∈ Ω, p({k}) =
2°) Cas où Ω est infini dénombrable
Ce cas est traité rapidement. En effet, il est impossible d’introduire une hypothèse d’équiprobabilité
dans ce cas pour des raisons évidentes. Le cardinal de Ω étant infini on aurait
∞
∑ pb{k}g
= 1 et donc 1
k =1
serait la somme d’une série à termes constants, qui diverge si la constante est non nulle, et qui est nulle
si tous les termes sont nuls.
3°) Cas où Ω est un intervalle borné (non réduit à un point) de R
Dans le cas où Ω = (a, b), a < b, intervalle (semi-)ouvert ou (semi-)fermé borné de R, on dira que
l’espace probabilisé (Ω, A , p) vérifie l’hypothèse d’équiprobabilité si la probabilité d’un intervalle (c,
d) ⊂ (a, b) est proportionnelle à la longueur d−c de l’intervalle.
p ( c, d )
d−c
On a donc ∀a ≤ c ≤ d ≤ b
=
.
p ( a , b)
b−a
On peut remarquer que si l’hypothèse d’équiprobabilité est vérifiée, la probabilité d’un point est
nulle, et donc que le fait que l’intervalle (c, d) soit ouvert ou fermé n’a aucune influence sur sa probabilité. En effet p c, d = p {c} + p c, d + p {c} = p c, d .
b
b
c
h b g c
g
g
h b g c
h
On utilisera, avec les précautions d’usage, cette hypothèse dans le cas où on effectue un tirage « au
hasard » d’un nombre réel dans un intervalle de longueur non nulle.
4°) Étude de cas : paradoxe de Bertrand
Considérons la situation suivante : on trace une corde [A, B] sur un cercle (C), en
supposant A et B choisis au hasard sur le cercle. On cherche à évaluer la probabilité de
l’événement E = la longueur de la corde est supérieure à celle du côté du triangle équilatéral inscrit dans le cercle. Par homothétie, on peut supposer que le cercle a pour
rayon R = 1.
Le problème est de savoir ce qu’on entend par au hasard.
a) Première situation :
On peut, moyennant une simplification, éventuellement abusive, que A est fixé et
que B est choisi au hasard sur le cercle. On a donc l’espace probabilisé (Ω1, A 1, p1) où Ω1 est le cercle,
la tribu est la tribu maximale P(Ω1) et p1 est la probabilité uniforme sur le cercle, qu’on peut associer
page 9
SQ-20 Probabilités - Statistiques
par bijection à la probabilité uniforme sur l’intervalle [0, 2π[.
Dans ce cas, l’événement E est réalisé si B se trouve sur l’arc CD, et, la probabilité étant uniforme
longueur de CD
1
sur le cercle p1 ( E) =
= .
circonférence du cercle 3
b) Deuxième situation :
On considère maintenant que le segment [A,B] est entièrement déterminé si on en
connaît le milieu I. Le nouvel espace probabilisé est défini par (Ω2, A 2, p2) où Ω2 est le
disque, la tribu est P(Ω2) et p2 est la probabilité uniforme sur le disque, la probabilité
d’un domaine du disque étant proportionnelle à son aire. Dans ce cas E est réalisé si I
se trouve à l’intérieur du disque (C’) de centre O et de rayon moitié. On a donc :
aire de (C' )
1
p 2 ( E) =
= .
aire de (C)
4
c) Troisième situation :
Pour des raisons de symétrie, encore, on peut considérer que I est uniformément
distribué sur un rayon [O,F]. Dans ce cas l’événement est réalisé si I se trouve sur la
première moitié du rayon. On a donc l’espace probabilisé (Ω3, A3, p3) où Ω3 est le
rayon, la tribu est la tribu maximale P(Ω3) et p3 est la probabilité uniforme sur le
1
rayon. On a donc p 3 ( E) = .
2
En résumé, en fonction de la définition du terme au hasard et de l’espace probabilisé, on a des
résultats différents. On aurait pu considérer une quatrième situation en considérant que A n’est pas fixé
et que les deux points A et B sont choisis uniformément sur le cercle.
-VI- Exercices et Problèmes:
b g
1°) Ecrire le développement de 1+ x
n
En déduire S1 =
∑
k =0
n
n ∈ N* .
n
C kn , S2 =
∑
k =0
n
( −1) k C kn , S3 =
∑
k =0
n
k C kn et S4 =
∑k
2
C kn
k =0
2°) Pour une UV dans laquelle sont inscrits 40 étudiants et 20 étudiantes, combien de cours doit on faire
pour épuiser toutes les possibilités dans les cas suivants :
• On considère l’ensemble des étudiants présents (la disposition dans la salle importe peu)
• Aucune fille n’est absente
• Ils prennent place dans une salle de 60 places et tous les inscrits sont présents
• 50 inscrits sont présents et les 10 places de devant sont vides
3°) Soit deux ensembles E = {1, 2, …, p} et F = {1, 2, …, n}.
a) Combien peut-on construire d’applications de E dans F ?
b) - - - - - - - - - - injectives de E dans F ?
c) - - - - - - strictement croissantes de E dans F ?
d) ** - - - - - - - - - - surjectives de E dans F
4°) Neuf touristes embarquent dans trois bateaux pouvant chacun recevoir de 0 à 9 passagers. Quelles
sont les probabilités des événements suivants :
• Chaque bateau embarque trois personnes
• Aucun bateau n’est vide
• Dans chaque bateau il y a au moins 2 personnes et au plus 4.
page 10
UV SQ 20
5°) ** Prolongement et application à la Physique de l'exercice précédent: (corrigé page 69)
En Physique, on est amené à étudier la répartition de n particules, chacune pouvant prendre N états
différents (un état = point dans l'espace des phases). Le problème est donc d'étudier la répartition de n
particules dans N boîtes.
a) Statistique de Maxwell-Boltzmann (applicable à des molécules de gaz): on suppose que toutes les répartitions sont équiprobables. Déterminer l'ensemble Ω1 des répartitions possibles, ainsi que la probabilité que la première boîte contienne k particules, avec k∈{0, 1, …, n}.
b) Statistique de Bose-Einstein (applicable à des photons): on suppose que les particules sont maintenant
indiscernables. Déterminer l'ensemble Ω2 des répartitions possibles, ainsi que la probabilité que la première boîte contienne k particules, avec k∈{0, 1, …, n}.
c) Statistique de Fermi-Dirac (applicable à des électrons): on suppose que les particules sont indiscernables et que chaque boîte contient au plus une particule, et par conséquent n ≤ N . Déterminer l'ensemble
Ω3 des répartitions possibles, ainsi que la probabilité que la première boîte contienne une particule.
6°) Définir l’ensemble Ω et déterminer Card(Ω) dans les situations suivantes :
• On lance trois fois un même dé cubique.
• On distribue cinq cartes à un joueur extraites d’un un jeu de 32
• On tire au hasard la grille de départ d’un Grand Prix de Formule 1 (20 concurrents)
• - - - le podium d’une course automobile (25 concurrents)
7°) On considère l'ensemble N* ou N, l'algèbre A =P(N*) et une probabilité p sur A.
Dans chacun des cas suivant, calculer, si possible, la constante α pour que p soit effectivement une
probabilité sur A.
α
α
α
a ) ∀n ∈ N * p n = 3
b ) ∀n ∈ N * p n =
c) ∀n ∈ N p n = n
2
2
n + 3n + 2 n
n
cl qh
cl qh
cl qh
8°) Peut-on définir une probabilité p sur Ω, contenant les parties A, B et C, avec C = A∩B, satisfaisant
aux conditions suivantes:
a) p(A) = 0,8
p(B) = 0,1
p(C) = 0,2.
b) p(A) = 0,8
p(B) = 0,4
p(C) = 0,1.
c) p(A) = 0,8
p(B) = 0,4
p(C) = 0,3
p(A∪B)= 0,9
9°) Soit (Ω, P(Ω), p) un espace probabilisé et trois parties A, B et C de Ω, telles que:
p(A ) = 0,3
p( B) = 0,5
p(A ∩ C) = 0,1 p(A ∩ B ∩ C) = 0,1 p( B ∩ C) = 0,25
p(A ∩ B ∩ C) = 0,05
a) Dans quel intervalle doit-on choisir p(C) pour que p soit effectivement une probabilité ?
b) On choisit p C ∩ (A ∪ B) = 0,2 . Déterminer les probabilités de événements suivants:
e
C,
A∪B∪C,
j
A ∪ B∪ C ,
B∩ A ,
A ∩ B∩ C ,
A ∪ B∪ C ,
A∩B
10°)
Le programme d'un examen comporte:
10 chapitres sur les séries, 4 chapitres sur les intégrales multiples, 6 chapitres de probabilités et 10
chapitres d'algèbre linéaire. Les modalités sont les suivantes:
Le candidat tire au sort trois questions parmi les 30 qui sont proposées, chacune des questions
portant sur un chapitre et un seul, et choisit de traiter une des questions.
a) Combien de chapitres doit-il travailler pour être certain de réussir son examen ?
b) Déterminer les probabilités des événements suivants:
• Il ne tire aucune question de probabilités
• Il tire trois questions sur des domaines différents
page 11
SQ-20 Probabilités - Statistiques
• Il tire trois questions sur le même sujet.
c) Un candidat ne révise que l'algèbre linéaire. Quelle est la probabilité qu'il soit reçu ?
d) Un autre candidat est complètement nul en algèbre linéaire (toute ressemblance avec des personnes. . . ), quelle est la probabilité qu'il soit reçu ?
e) Dans quelle mesure l'impasse sur certaines parties de programme est-elle intéressante ?
11°)
On pense savoir que, avec la probabilité 0,8, A est coupable du crime pour lequel il va être jugé.
B et C, chacun d’eux sachant si A est coupable ou non, sont appelés à la barre. B est un ami de A et dira
la vérité si A est innocent et mentira avec une probabilité 0,2 si A est coupable. C déteste tout le monde
sauf le juge et dira la vérité si A est coupable et mentira avec la probabilité 0,3 si A est innocent.
Ces conditions étant posées :
a) Déterminer la probabilité d’avoir des témoignages contradictoires.
b) Quel témoin a le plus de chances de commettre un parjure ?
c) B et C ayant donné des témoignages contradictoires, quelle est la probabilité que A soit innocent ?
d) Les événements (B ment) et (C ment) sont-ils indépendants ?
12°)
La différence essentielle entre les avions Airbus A 330 et A 340 est que le premier a deux moteurs
et le second quatre. La probabilité qu’un moteur tombe en panne étant p∈]0, 1[, ces avions peuvent
continuer leur route si au moins la moitié des moteurs est en état.
Étudier suivant p lequel des deux avions est le plus fiable.
Faire la même étude en supposant qu’un avion peut voler sans problème avec un seul moteur.
13°)
Dans un bassin se trouvent 36 poissons dont x blancs (x entier compris entre 1 et 17), autant de
noirs, les autres étant rouges. On tire simultanément 3 poissons du bassin et on appelle A l’événement
« les trois poissons sont de couleurs différentes ».
a) Définir l’espace probabilisé, en introduisant éventuellement des hypothèses supplémentaires.
b) Dans le cas x = 6 , calculer la probabilité de A.
c) Etudier sommairement les variations de la fonction f définie par :
|RSx ∈ 1, + 17
|Tf ( x) = 36x
2
− 2x3
.
d) Si p(x) est la probabilité d’obtenir trois poissons de couleurs différentes, déterminer la valeur de x
pour laquelle p(x) est maximale.
e) Dans le cas x = 12, on note X le nombre de poissons rouges parmi les trois. Déterminer la loi de
X. Calculer les probabilités p(A | X = 1) et p(X=1 | A)
(corrigé page 69 )
14°)
Une loterie annonce : «Un billet sur trois est gagnant, achetez trois billets ! ». Alors ?
15°)
Un dé pipé est (mal) équilibré de telle manière que la probabilité de
chaque face est proportionnelle au numéro. Calculer les probabilités de
chaque face. On lance deux dés et on note X la somme des deux résultats.
Quelle est la valeur de X la plus probable ?
Un appareil est constitué de 50 composants en série dont la probabilité de défaillance est p.
a) Quelle doit être la valeur de p pour que le risque de panne du système soit inférieur à 1% ?
b) On n'a pas pu obtenir mieux que p = 5. 10-4.
Calculer la probabilité de fonctionnement de l'appareil.
c) Pour atteindre 0,99 on a l'idée de mettre en parallèle deux appareils avec commutation automatique en cas de panne du premier. Quelle sera la probabilité de fonctionnement du dispositif ?
16°)
17°)
Dans le diagramme ci-contre, chaque ⎯⏐⏐⎯ représente un lien
de communication. Sous la politique de maintenance, les défaillances
des liens sont des événements indépendants, et on suppose qu’à chaque
page 12
UV SQ 20
instant, la probabilité qu’un lien fonctionne est p.
a) Si on prend un instant au hasard, quelle est la probabilité que :
• exactement deux liens fonctionnent
• le lien g et un autre lien fonctionnent
b) Sachant que six liens sont en panne, quelle est la probabilité que A soit encore en communication
avec B ?
18°)
On tire simultanément cinq cartes dans un jeu de 32 (4 couleurs ♠, ♥, ♦, ♣, et 8 valeurs, As, R,
D, V, 10, ..., 7).
Calculer les probabilités des événements suivants:
• on a au moins un As
• on a au plus un ♠,
• on a une dame et un ♦
• toutes les cartes sont de même couleur
• toutes les cartes sont de valeurs différentes
• on a une seule paire
Un joueur de poker a reçu 5 cartes dont deux as, met de côté les trois autres cartes, puis reprend
trois cartes dans le jeu. Calculer les probabilités des événements:
• il a trois as
• il a au moins trois as
• il a un seul as • il retire trois cartes de même valeur.
19°)
Un pâtissier confectionne des pains aux raisins de 50 g. Combien de raisins secs doit-il mettre
dans 10 kilos de pâte pour qu’en moyenne 95% des pains aux raisins contiennent au moins deux raisins ?
20°)
Un chariot est partagé entre 3 machines A, B et C. Au départ la machine est en A, et à chaque
étape de la production le chariot passe de manière aléatoire à une autre des deux autres machines.
A la nème étape on note a n , b n et c n (a 0 = 1, b 0 = 0 et c 0 = 0) les probabilités que le chariot se
trouve en A, B et C.
a) Calculer ak , bk et ck pour 1 ≤ k ≤ 2 et les relations entre a n +1 , b n +1 et c n +1 et a n , b n et c n .
a) En déduire a n , b n et c n en fonction de n et les limites quand n tend vers l’infini. (corrigé page 69)
21°)
22°)
On considère une boîte contenant 10 boules blanches numérotées de 0 à 9, ainsi que 5 noires numérotées de 1 à 5 et 5 rouges numérotées de 1 à 5.
a) On tire successivement trois boules de la boîte, sans les remettre dans la boîte après tirage. Calculer les probabilités des événements suivants:
• A = «les trois boules sont de même couleur»
• B = «les trois boules sont de couleurs différentes»
• C = «les trois boules ont le même numéro»
• D = «le nombre formé par les trois résultats est pair»
b) On tire simultanément trois boules de la boîte. Calculer les probabilité des événements suivants:
• A = «les trois boules sont de même couleur»
• B = «les trois boules sont de couleurs différentes»
• C = «les trois boules ont le même numéro»
• D = «il y a plus de boules noires que de blanches»
c) On tire successivement des boules de la boîte, en les remettant dans la boîte après tirage. Calculer
les probabilités des événements suivants:
• A = «les trois boules sont de même couleur»
(n = 3)
• B = «les trois boules (n = 3) sont de couleurs différentes»
• C = «les trois boules (n = 3) ont le même numéro»
• D = «on a tiré 4 boules avant d'en avoir une noire»
page 13
SQ-20 Probabilités - Statistiques
-VII- Pour les linguistes:
1°) Están dispuestos tres « desperados » A, B y C en triángulo equilátero, en una plaza de toros, quizás
con un carillón en el centro, firmemente decididos a disparar unos a otros. A es el menos diestro y
alcanza la meta una de cada dos veces. B lo hace un poco mejor y la probabilidad que tiene de acertar es
de 0,7. En lo que respecta a C, nunca falla. Disparan uno después de otro siguiendo el orden A, B, C, A,
B… hasta que no quede más que uno. ¿Qué tiene que hacer A para empezar ?
page 14
UV SQ 20
Chap.2
Variables aléatoires discrètes
-I- Variables aléatoires:
Le résultat d’une expérience aléatoire peut souvent se représenter par un nombre réel, le lancer d’un
dé, la taille d’un étudiant ou la température le matin à 8 heures en un lieu donné. Il est donc plus simple
de considérer le résultat numérique au lieu d’étudier l’expérience en entier, quand c’est possible.
Prenons le lancer d’une pièce, équilibrée ou non. On peut ne considérer que la face visible de la
pièce une fois que celle-ci s’est immobilisée. Mais on peut aussi étudier sa position au moment du lancer, l’impulsion donnée, sa trajectoire, son temps de mouvement et bien d’autres variables, ce qui nous
donne un univers d’une complexité telle qu’il devient impossible de se livrer à des calculs sur tous les
paramètres dans un temps raisonnable.
De cette expérience on ne retiendra que le résultat final par exemple 1 pour Pile et 0 pour face.
Suivant la forme du résultat numérique, on pourra faire des études différentes. L’ensemble des résultats X(Ω) pourra être un ensemble discret, fini ou non, ce qui sera l’objet de ce chapitre, ou continu, intervalle ou réunion d’intervalles (d’intérieurs non vides) que nous étudierons au prochain chapitre.
Quelques exemples pour bien faire la différence entre les deux cas :
Nombre de « Pile » pour n (n>0) lancers d’une pièce
X(Ω) = {0, 1, …, n}
Nombre d’essais jusqu’à obtention d’un succès dans une expérience aléatoire X(Ω) = N*
Taille d’un étudiant en cm
X(Ω) = [50, 250]
Temps d’attente avant panne d’un système
X(Ω) = [0, ∞[
1°) Mise en place
Soit un espace probabilisé (Ω, A , p) et une application X de Ω dans R.
On dira par définition que X est une variable aléatoire si : ∀A ⊂ R , X −1 (A ) ∈ A . En définissant la
c
h
probabilité pX(Ω) sur X(Ω) par ∀A ⊂ R , p X ( Ω ) (A ) = p X −1 (A ) on effectue un transfert de probabilité
de Ω sur l’ensemble image X(Ω). Pour des raisons de commodité, on identifie typographiquement les
deux probabilités p et pX(Ω). C’est un abus de langage car les deux espaces sont différents, mais il ne
pose pas de problème dans la pratique.
Cette dénomination de variable aléatoire n’est pas des plus judicieuses, en effet X n’est pas une variable mais une application, et elle n’a rien d’aléatoire. On trouve aussi dans la littérature le synonyme
alea numérique.
2°) Variables discrètes
Dans le cas où X(Ω) est un ensemble discret, X est, par définition, une variable aléatoire discrète.
L’ensemble X(Ω) peut être dans ce cas être représenté par une suite x1, x2, … finie ou non.
Les événements élémentaires, disjoints deux à deux, {xk, k∈N*} ont donc la probabilité pk, définie
cl
par p k = p ω ∈ Ω / X(ω ) = x k
qh et on a ∑ p
k
= 1, d’après la propriété de σ-additivité.
k ∈N *
La probabilité totale 1 est donc distribuée, pas nécessairement uniformément, entre les valeurs de
X(Ω). On appelle distribution (ou loi) de probabilité de la variable X l’ensemble x k , p k , k ∈ N * .
mb
g
r
Une variable aléatoire étant donnée, on définit aussi sa fonction de répartition F, qui représente les
probabilités cumulées. En France, on définit F par ∀x ∈ R , F( x) = p( X < x) , alors que pour les pays
anglo-saxons l’inégalité est large.
Pour une variable discrète, F est une fonction en escalier pour laquelle apparaît une discontinuité à
page 15
SQ-20 Probabilités - Statistiques
droite à chaque point chargé de probabilité.
Cette fonction F est caractérisée par les propriétés suivantes (pour une variable discrète) :
F 1. F est définie continue presque partout (= sauf sur un ensemble discret) de R dans [0, 1]
F 2. F est croissante au sens large, c’est à dire ∀( x, y) ∈ R 2 avec x < y, F( x) ≤ F( y)
F 3.
lim F = 0 et lim F = 1
x →−∞
x→∞
A toute variable aléatoire, on peut donc associer une distribution, puis une fonction de répartition, et inversement, une fonction F remplissant les conditions F 1 à F 3 ci-dessus on peut associer une
distribution de variable aléatoire avec la probabilité ∀x ∈ R , p( X = x) = lim F( x) − lim F( x)
t→x +
t→x −
3°) Représentations graphiques
Pour avoir une représentation visuelle d’une distribution de probabilité, ou pour faire des comparaisons de lois, il peut être intéressant d’effectuer une représentation graphique de la distribution ou de la
fonction de répartition. Pour la première on représentera la distribution par un diagramme en bâtons,
alors que pour la seconde on a une fonction en escalier.
Étude d’un exemple :
On considère un jeu de 32 cartes dans lequel on prélève simultanément 5 cartes (une main), et la variable aléatoire X = nombre d’As parmi les cinq cartes.
Le tirage des cinq cartes étant simultané, il s’effectue sans remise, et l’ordre de tirage est indifférent. Une main
est un sous-ensemble de cinq éléments dans les 32 possibles. Moyennant une bijection, on peut travailler sur
l’ensemble E = {1, 2, …, 32}. L’espace probabilisé, si on suppose que les cartes sont toutes équiprobables,
e onx , K, x s, x ∈l1,K, 32q et i ≠ j ⇒ x ≠ x t, P (Ω), pj, avec Card(Ω) = C
s’écrit Ω =
5
1
k
i
j
On a donc, d’après l’hypothèse d’équiprobabilité, les calculs suivants :
l
q
∀k ∈ 0, K , 4 p( X = k ) =
k
4
5− k
28
C C
C532
, avec les résultats numériques ci-contre :
Dans le calcul de cette probabilité, on tire k As parmi 4, puis 5-k cartes (différentes des As)
parmi 28. Les tirages des As et des autres cartes étant indépendants, on peut utiliser la règle de
multiplication, les tirages pouvant être représentés par un arbre.
5
32
.
k=
0
1
2
3
4
p(X=k)=
0,488
0,407
0,098
0,008
0,000
-II- Moments d’une variable aléatoire
Plusieurs variables discrètes étant définies sur le même espace, ou sur des espaces de même nature, il
peut être pratique de disposer de moyens permettant de les comparer. Par exemple, si on considère deux
populations vivant dans deux pays différents, la comparaison des tailles est difficile si on ne regarde que
les données brutes ou même les distributions. Il faudrait définir en quelque sorte un résumé simple de
ces distributions à des fins de comparaison rapide.
Par analogie avec la mécanique, pour une variable discrète, on peut définir les moments d’une variable. La définition sera un peu différente pour les variables continues que nous étudierons au prochain
chapitre.
1°) Définition générale :
Une variable X étant définie sur un espace probabilisé (Ω, A , p), on appelle moment d’ordre n
(n∈N*) l’expression M n ( X) = ∑ x nk p( X = x k ) si cette expression existe.
x k ∈X ( Ω )
On définit de même les moments par rapport à un réel α, par M n ,α ( X) =
∑ (x
k
− α ) n p( X = x k )
x k ∈X ( Ω )
Dans le cas d’une variable discrète à support fini (X(Ω) est un ensemble fini) l’existence des moments est automatiquement assurée, comme somme finie de nombres réels.
Par contre si le support est infini dénombrable, le moment d’ordre n est la somme d’une série, qui
n’est pas nécessairement convergente.
Dans ce dernier cas, il est possible que certains moments existent alors que pour d’autres les séries
page 16
UV SQ 20
sont divergentes.
Par exemple, soit la variable X définie par sa distribution : ∀n ∈ N * p ( X = n) =
α
n
3
. La série étant conver-
gente, on peut déterminer α > 0 tel que la somme des probabilités soit égale à 1. Si on calcule les moments :
M1 ( X) =
α
∑n
n ∈N
*
2
=
απ
2
existe mais M 2 ( X) =
6
α
∑ n n' existe pas
n ∈N
*
2°)
Espérance mathématique :
Soit un espace probabilisé (Ω, A , p) et X une variable aléatoire discrète, on définit l’espérance mathématique E(X) par : E( X) = ∑ x k p( X = x k ) , si cette somme existe. L’espérance est donc le mox k ∈X ( Ω )
ment d’ordre 1 (par rapport à 0). Dans la mesure où
∑ p( X = x
k
) = 1 , l’espérance est le barycentre
x k ∈X ( Ω )
des points xk, affectés des coefficients p(X = xk).
k
p
Pour expliquer cette définition, considérons une variable X à valeurs dans X( Ω) = x1 , x 2 , K et N un
entier très grand. L’expérience étant faite N fois, le résultat xk sera obtenu environ nk = N p(X=xk) fois, et
n (N)
1
la moyenne des résultats sera x ( N ) =
x k n k ( N ) avec p( X = x k ) = lim k
, de plus, quand N
∑
N
→∞
N x ∈X ( Ω )
N
k
tend vers +∞, on a E ( X) = lim x ( N ) .
N →∞
Ceci donne donc une interprétation pratique, et une justification, de l’espérance, moyenne des résultats
quand le nombre d’expériences tend vers l’infini. En statistique, on appelle souvent l’espérance moyenne,
ce qui est une confusion entre un résultat théorique, l’espérance, et un résultat calculé à partir d’une observation. Jusqu’à maintenant les statisticiens (et les étudiants) ont sans scrupules mélangé les deux notions,
mais sans dommage majeur.
Pour avoir une représentation plus concrète de l’espérance, on peut faire une comparaison avec la
mécanique, en considérant un système de points matériels alignés d’abscisses xk, et de masses
p(X = xk). L’espérance est alors le centre de gravité du système.
3°)
Variance
Généralement l’espérance, si elle existe, n’est pas suffisante pour comparer deux distributions.
L’espérance donne en quelque sorte un centre d’inertie, mais ne donne aucune indication de la dispersion de la distribution autour de ce centre.
Imaginons par exemple que deux centres d’examens notent des copies. Il est possible que la distribution des notes aient la même espérance mais que les répartitions des notes autour de cette même
moyenne soient très différentes.
On définit la variance d’une variable aléatoire X ,discrète sur un espace probabilisé (Ω, A , p) et dont
l’espérance existe, par Var ( X) =
∑ bx
k
g
c
2
h
− E( X) p( X = x k ) = E ( X − E( X)) 2 , si cette somme existe,
x k ∈Ω
c’est à dire le moment centré d’ordre 2.
Cette définition montre l’analogie avec la mécanique, la variance correspond à un moment d’inertie,
et elle permet de constater qu’une variance est toujours positive, comme barycentre de carrés affectés
de coefficients positifs, mais elle peut se mettre sous une autre forme, souvent plus pratique pour les
calculs.
2
2
2
2
Var ( X) = ∑ x k − 2 x k E ( X) + E ( X) p( X = x k ) = ∑ x k p( X = x k ) − 2 ∑ x k E ( X) p( X = x k ) + ∑ ( E ( X) ) p( X = x k )
b
a
g
x k ∈Ω
=
∑ x p( X = x
x k ∈Ω
k
) − 2 E ( X)
k
) − E ( X) = E X
x k ∈Ω
=
∑ x p( X = x
k
2
k
x k ∈Ω
∑ x p( X = x
2
k
2
k
) + ( E ( X))
b g − E ( X)
2
2
∑ p( X = x
x k ∈Ω
f
x k ∈Ω
k
)=
x k ∈Ω
∑ x p( X = x
2
k
) − 2 E ( X) + ( E ( X) )
2
k
2
x k ∈Ω
2
x k ∈Ω
page 17
SQ-20 Probabilités - Statistiques
c
h c h b
g
2
On prendra, au choix et suivant les circonstances, Var ( X) = E ( X − E( X)) 2 = E X 2 − E( X) en
faisant bien attention à la place des parenthèses.
Pour des raisons pratiques, on utilise aussi l’écart type σ (écart quadratique moyen) défini par la relation σ X = Var ( X) . La variance étant positive l’existence de l’écart type est assurée dès que Var(X)
existe.
4°) Relations sur l’espérance et la variance
On montre facilement, à partir des définitions, que, α et β étant des nombres réels quelconques :
E(αX + β) = αE( X) + β, Var (αX + β) = α 2 Var ( X) et que σ αX +β =| α| σ X .
X − E ( X)
, de construire,
σx
à partir de X, une variable aléatoire Y centrée (d’espérance nulle) et réduite (de variance égale à 1).
Par contre, et c’est un erreur fréquente chez les étudiants distraits et fougueux, il n’est pas question
d’utiliser une relation similaire si la relation entre X et Y n’est pas affine. En particulier, et il est possi1
1
2
≠
et E( X 2 ) ≠ E( X) , sinon toutes
ble à titre d’exercice de trouver des contre-exemples, E
X
E ( X)
les variances seraient nulles !
Si Var(X) ≠ 0, il est donc possible, moyennant la transformation affine Y =
FG IJ
H K
b
g
5°) Exemples
Si on reprend l’exemple de la page 16, le calcul direct donne E(X) = 0,625 et Var(X) ≈ 0,48 , ce qui
signifie que sur un très grand nombre de tirages de 5 cartes, la moyenne du nombre d’As est de 0,625,
environ.
Exemple de variable à support dénombrable, qu’on peut faire à titre d’exercice :
Dans une fournée de biscuits le nombre X de noisettes présentes dans chaque biscuit est une variable aléatoire de distribution : p ( X = k ) =
FI
3 H 3K
1 2
k
k ∈ N . On suppose de plus que la valeur d’un biscuit est propor-
tionnelle au cube du nombre de noisettes présentes (pourquoi pas ?).
Les biscuits sont triés par des chimpanzés qui mangent tous ceux qui contiennent 0, 1 ou 2 noisettes.
a) Calculer l’espérance et la variance de X.
b) Quelle est la probabilité qu’un biscuit pris au hasard soit mangée par un chimpanzé ?
c) Quelle est la part du chiffre d’affaires que les chimpanzés consomment ?
d) Quelle est la probabilité qu’une noisette prise au hasard aille dans un biscuit en contenant k ?
e) soit mangée par un chimpanzé ?
∞
On peut utiliser ∀x ∈ −1, + 1
∑
n=0
n x =
3
n
b
g ou démontrer cette relation.
x x + 4x + 1
2
(1 − x)
4
-III- Lois usuelles
Il n’est pas question d’étudier en détail toutes les variables aléatoires discrètes, il y en a une infinité,
mais certaines d’entre elles reviennent fréquemment dans la pratique, et il est intéressant d’en connaître
les conditions d’application. On peut aussi en mémoriser les caractéristiques, distribution, espérance,
variance quand elles existent.
1°) Loi uniforme U(n)
Soit l’ensemble En ={1, 2, …, n}, n∈N* et la variable aléatoire X uniforme sur En , c’est-à-dire
1
qu’on suppose l’équiprobabilité sur En. On a donc ∀k ∈ E n p( X = k ) = . Il s’agit de ce qu’on nomme
n
tirage au hasard dans le langage commun.
page 18
UV SQ 20
n
Calcul de l’espérance et de la variance : E( X) = ∑ k
k =1
1 1 n( n + 1) n + 1
=
=
2
2
n n
1 ( n + 1)
1 n( n + 1)(2 n + 1) ( n + 1) 2 n 2 − 1
−
=
−
=
4
6
4
12
n
n
k =1
On remarque que si n = 1, la probabilité est concentrée sur la valeur 1 et que la variance est nulle.
2
n
Var ( X) = ∑ k 2
2°) Loi binomiale B(n, p)
Une situation fréquente consiste à répéter la même expérience menant à un succès (probabilité p) ou
à un échec (probabilité 1 − p) n fois et à compter le nombre X de succès.
Il peut s’agir par exemple de lancer 10 fois un dé équilibré et de compter le nombre de 6, de tirer 5
fléchettes sur une cible et de compter le nombre de flèches dans le rond central. On peut aussi se référer
à la planche de Galton introduite à la page 5, en prenant succès = droite et échec = gauche.
Dans la pratique, on considère, pour ce genre d’expériences, que tous les lancers se font de manière
indépendante, c’est à dire que les conditions de l’expérience sont identiques d’une fois à l’autre, il n’y a
pas d’usure, de progrès dans la dextérité, etc.
Une situation similaire (mais équivalente uniquement dans le cas où Np est entier) est le tirage avec
remise de n jetons dans un ensemble de N, Np jetons blancs et N(1−p) noirs, avec N∈N* et p∈[0, +1].
X est alors le nombre de jetons blancs tirés.
On a l’ensemble X(Ω)={0, 1, …, n}, et pour toute valeur de k dans X(Ω) le résultat s’écrit sous la
forme d’une suite (x1, …xn) de n éléments parmi lesquels il y a k fois le résultat 1 (succès) et n − k fois
0 (échec). La probabilité d’un tel résultat est donc pk(1−p)n-k. Pour construire une telle suite, il faut choisir k rangs où placer les 0 dans {1, 2, …, n}, c’est-à-dire C kn possibilités.
On a donc ∀k ∈ 0,K , n p( X = k ) = C kn p k (1 − p) n − k
Les calculs de l’espérance E(X) = np s’obtient à partir de la formule du binôme. En effet :
l
q
n
E ( X) =
∑kC
n!
n
k
n
p (1 − p )
k
n−k
=p
k =0
∑ k k !( n − k )! p
n
k −1
(1 − p )
n−k
= np
k =1
∑C
k −1
n −1
p
k −1
(1 − p)
n − 1− ( k − 1 )
= np ( p + (1 − p ))
n −1
= np
k =1
De même pour la variance :
n
Var ( X) =
∑ k2 C
k
n
p (1 − p)
k
n−k
2
− ( np) =
k =0
= n ( n − 1) p
2
n!
n
∑ k ( k − 1) k !( n − k )! p
n
k −1
(1 − p )
n−k
k =2
n
∑C
k
n−2
p
k −2
(1 − p)
n−k
2 2
2 2
2
+
∑kC
k
n
p (1 − p)
k
n−k
2 2
−n p
k =1
2 2
+ E ( X) − n p = n p − np + np − n p = n p (1 − p)
k =0
3°) Loi hypergéométrique H(N, n, p)
a) Définition
Pour la loi binomiale, on considère des tirages indépendants (avec remise), mais cette fois on tire les
jetons simultanément, c’est-à-dire qu’on ne remet pas les jetons dans la boîte après tirage et que l’ordre
de tirage n’a pas d’importance. Pour modéliser ce problème, on peut considérer une boîte séparée en
deux cases contenant respectivement N p jetons blancs et N(1−p) noirs.
Le nombre de tirages possibles, qu’on suppose équiprobables est alors C nN .
Pour toute valeur de k dans {0,1, 2, …, n}, on extrait simultanément k jetons dans la première case,
et ensuite (de manière indépendante) n − k jetons dans la seconde. On a alors :
C kNp C n-k
nb de tirages des jetons blancs = C kNp
N(1-p)
.
∀
∈
0
,
1
,
K
,
(
=
)
=
donc
k
n
p
X
k
n-k
n
nb de tirages des jetons noirs = C N(1-p)
CN
Cette relation caractérise la loi hypergéométrique H(N, n, p).
l
q
Ne pas oublier la convention sur les combinaisons introduite à la page 5.
Le cas n = 0 ne présente pas d’intérêt, car on ne tire pas de jeton et donc p(X = 0) = 1.
b) Propriétés
Par des calculs (fastidieux) sur les combinaisons, on vérifie que la somme des probabilités est bien
page 19
SQ-20 Probabilités - Statistiques
N−n
.
N −1
On remarque que l’espérance est la même que pour les tirages avec remise (variable binomiale), mais
N−n
que la variance est inférieure, avec toutefois lim np(1 − p)
= np(1 − p) .
n →∞
N −1
Nous allons faire le premier calcul à titre d’exemple, les autres feront (éventuellement) l’objet d’un
exercice qui pourra remplir une soirée pluvieuse. Considérons n et N entiers tels que 0 < n ≤ N.
égale à 1, et on montre que E(X) = n p (résultat indépendant de N) et Var ( X) = np(1 − p)
a f = a1 + xf a1 + xf
∀x ∈ R , 1 + x
N
Np
N ( 1− p )
N
⇒ ∑ C kN =
k =0
C nN =
∑C
FG ∑ C
H
i + j= n
j
N ( 1− p )
n
j= 0
n
C Nj (1− p ) = ∑ C kNp C nN−(1k− p ) , ce qui montre que
i
Np
i
Np
i=0
n
IJ FG ∑ C IJ . Considérons le terme en x
KH
K
N ( 1− p )
Np
∑ p(X = k) = 1
k =0
k=0
c) Exemples
Soit un jeu de 32 cartes (4 couleurs ♠, ♥, ♦, ♣, et 8 valeurs, As, R, D, V, 10, ..., 7), duquel on extrait
simultanément 5 cartes, ce qu’on appelle une main. On s’intéresse au nombre ♦ de reçus dans les cinq
cartes. Toutes les conditions seront remplies pour utiliser la loi hypergéométrique quand nous aurons
supposé que les cinq cartes sont tirées au hasard, c’est-à-dire que toutes les mains possibles sont équiprobables. On a donc les paramètres N = 32, n = 5, et p = 0,25. (Cf. aussi l’exemple -I- 3°) page 3)
4°) Loi géométrique G(p)
On considère la situation suivante : un événement a une probabilité de succès de p∈]0, 1[. On répète
la même expérience jusqu’à obtention d’un succès, et on note X le nombre d’expériences effectuées.
Par exemple les shadoks (feuilleton TV des années 1960) avaient une chance sur 100 de réussir leur expérience,
alors ils essayaient jusqu’au succès. N’ayant aucune connaissance de probabilités, ils se dépêchaient de rater les 99
premières afin de réussir à coup sûr la 100ème . Exercice : avaient-ils raison ?
Plus sérieusement, cette loi est utilisée dans le domaine de la sécurité. Pour tester la solidité d’un matériel, on le soumet à des chocs, ou à des surtensions si c’est un matériel électronique, et on compte le
nombre de chocs avant rupture.
La variable X (variable géométrique de paramètre p est définie ∀n ∈ N * p( X = n) = p(1 − p) n −1 où
p∈]0, 1[. En effet, pour avoir le premier succès (probabilité p) à la nème expérience, il faut avoir raté les
n−1 précédentes (chacune de probabilité 1−p).
Toutes les probabilités sont positives, mais on doit quand même vérifier que la somme des probabilités est égale à 1. On peut faire la remarque que si une somme de réels positifs est égale à 1, tous ces réels sont compris entre 0 et 1.
∑ p( X = n) = ∑ p(1 − p)
n ∈N
*
n ∈N
n −1
=p
*
∑ (1 − p)
n ∈N
*
n −1
=
p
1 − (1 − p )
=1
(somme d’une série géométrique).
Calculons maintenant l’espérance, si elle existe.
En utilisant le cours sur les séries entières, on peut montrer les résultats suivants :
∀x ∈] − 1,+1[ f ( x) = ∑ x n =
n ∈N
1
1− x
, f ' ( x ) = ∑ n x n −1 =
n ∈N
1
(1 − x)
2
et f " ( x) =
∑ n ( n − 1) x
n ∈N
n −1
=
*
2
(1 − x) 3
.
On a donc, avec x = 1 − p,
E ( X) =
∑ np(1 − p)
n ∈N
Var ( X) =
*
n −1
= p ∑ n(1 − p) n −1 = p
∑ n 2 p(1 − p)
n ∈N
*
n ∈N
n −1
−
*
1
p
2
=p
1
a1 − (1 − p)f
∑ n( n − 1)(1 − p)
n ∈N
*
n −1
2
+p
=
1
p
∑ n(1 − p)
n ∈N
*
n −1
−
1
p
2
=
2 p(1 − p)
p
3
+
1
p
−
1
p
2
=
1− p
p2
5°) Loi de Poisson P(λ)
a) Définition
Soit une variable binomiale B(n,p) avec np = λ > 0, et étudions le cas où n tend vers l’infini, ce qui
implique, avec λ constant, que p tende vers 0. Il s’agit donc, pour n assez grand, de répéter un grand
page 20
UV SQ 20
nombre de fois une même expérience de probabilité faible. Pour k∈N on a :
lim p ( X = k ) = lim
n →∞
n →∞
F λI
H nK
k
n
−λ
car lim 1 −
n →∞
F λ I F1 − λ I
k ! ( n − k )! H n K H
nK
n!
= e , lim
n−k
n( n − 1)K ( n − k + 1)
n
n →∞
λ
k
=
k
lim
n ( n − 1)K ( n − k + 1)
k ! n →∞
n
k
F λI
H nK
n
−k
λ e
k
=
−λ
k!
−k
= 1 et lim 1 −
n →∞
F1 − λ I F1 − λ I
H nK H nK
=1
On définit ainsi la loi de Poisson P(λ) par son support X(Ω) = N et sa distribution p( X = k ) =
λk e − λ
.
k!
C’est une des manières de définir la loi de Poisson, mais elle n’est pas entièrement satisfaisante car c’est une
limite quand n tend vers l’infini. En fait il y en a d’autres, sans limites, que nous étudierons ultérieurement. Les
impatients pourront consulter la partie relative aux relations entre variables aléatoires à la page 67.
b) Propriétés
Comme pour toutes les lois, il est recommandé de vérifier que la probabilité totale est égale à 1. Pour
ce faire, on utilise les résultats sur les séries entières :
On sait que ∀x ∈ R, ∑
n ∈N
xn
n!
= e x , donc ∑ p( X = n) = ∑
n ∈N
n ∈N
λn e − λ
n!
= e−λ eλ = 1
A partir de ce même résultat sur les séries, on peut aisément calculer l’espérance et la variance :
E ( X) = ∑ n
λn e − λ
n!
n ∈N
= λ2 ∑
n≥2
n−2
λ
e
= λ∑
n ∈N
λn −1 e − λ
( n − 1)!
= λ et Var ( X) = ∑ n( n − 1)
n≥2
λn e
−λ
n!
+∑n
n ∈N
λn e − λ
n!
− λ2
−λ
( n − 2)!
+ E ( X) − λ2 = λ2 − λ − λ2 = λ
On remarque que cette loi est caractérisée par l’égalité de l’espérance et de la variance, qu’on retrouve en faisant tendre n vers l’infini, np restant constant, dans la loi binomiale.
c) Exemples
Dans la pratique, il n’est pas question d’attendre une situation où n est infini pour approcher la loi
binomiale par la loi de Poisson. En prenant les cas où n ≥ 30, p < 0,1 et np ≤ 5, les résultats sont assez
proches avec les deux lois pour que l’approximation soit convenable.
On peut comparer les résultats en traitant l’exercice suivant :
Une expérience a une probabilité 0,08 de réussir. On la répète n fois et on note X le nombre de succès.
Etudier la loi de X, et déterminer son espérance et sa variance.
On décide maintenant d'effectuer 50 fois l'expérience. Déterminer la loi de X, et la probabilité d'avoir k succès
pour k entier entre 0 et 5. Refaire les calculs avec une approximation binomiale et comparer les résultats.
Réponses :
X suit une loi binomiale, l’expérience étant répétée n fois dans les mêmes conditions
En comparant, pour n = 50, les résultats avec la loi binomiale et la loi de Poisson, on obtient le tableau suivant
Et on se rend compte que les résultats sont assez prok=
0
1
2
3
4
5
ches pour pouvoir, dans la pratique, utiliser cette approxibinomiale 0,0155 0,0672 0,1433 0,1993 0,2037 0,1629
mation.
Poisson 0,0183 0,0733 0,1465 0,1954 0,1954 0,1563
6°) Relations entre les lois :
Pour des raisons pratiques, on approche assez souvent une loi par une autre, dans le but, les mathématiciens sont paresseux, de simplifier les calculs. Il est d’ailleurs plus facile de manipuler les lois
ayant peu de paramètres.
Les approximations doivent répondre à certains critères pour être acceptables. Tout d’abord, on approche une loi par une autre de même espérance, ou au moins ayant une espérance proche. Ensuite, pour
le calcul des probabilités, il est inutile en général d’avoir plus de deux ou trois chiffres significatifs. On
compare donc les probabilités des deux distributions, pour construire des règles d’approximation,
comme dans le paragraphe précédent.
C’est ainsi que si N est grand par rapport à n (à partir de N ≥ 100 n) dans H(N, n, p) remettre ou non
page 21
SQ-20 Probabilités - Statistiques
les objets après chaque tirage n’a pas vraiment d’importance et on peut remplacer la loi hypergéométrique par une loi binomiale.
Par exemple, un prélèvement entre Audierne et la pointe de la Torche (15 kilomètres de plage) de
vingt grains de sable pour compter ceux de diamètre inférieur à un millimètre sera fait indifféremment
avec ou sans remise.
Par contre, compter le nombre d’objets défectueux parmi dix prélevés simultanément dans une production de 30 unités, fournira des résultats sensiblement différents avec les lois binomiale et hypergéométrique.
Dans la pratique, on utilise les approximations suivantes :
N ≥ 10 n
Loi H(N, n, p)
Loi B(n, p)
n ≥ 30, p ≤ 0,1 et np ≤ 5
Loi de Poisson P(λ = n p)
-IV- Couples de v.a.
a) Définition
Considérons maintenant deux variables aléatoires X et Y définies sur le même espace probabilisé
(Ω, A , p). A tout élément ω∈Ω on associe le couple (X(ω),Y(ω))∈ R².
Dans ce chapitre nous n’étudierons que le cas où les deux variables sont discrètes, et par conséquent
l’ensemble X(Ω)×Y(Ω) est discret, fini ou dénombrable.
La distribution du couple (X, Y) est définie naturellement par p((X , Y)=(x , y)) = p((X=x)∩(Y=y)).
On peut représenter cette distribution de probabiliX/Y
yl
y2 …… yp …… p(X = )
té sous la forme d’un tableau, comme ci-contre, ou
.
dans un repère cartésien, où on affecte au point de
x1
p11 p12
coordonnées (xn, yp) la probabilité pnp.
x2
p21
Il est possible de connaître les distributions de X
et de Y connaissant la distribution du couple (X, Y)
xn
pnp
avec les distributions marginales par :
p( X = x n ) = ∑ p ( X, Y) = ( x n , y k ) et de même
p(Y = )
1
k
b
g
d
i
pour Y p(Y = y p ) = ∑ p ( X, Y) = ( x k , y p ) .
k
Cette terminologie vient du vocabulaire des comptables, qui, en vérifiant les tableaux de chiffres, effectuaient les totaux
en lignes, qu’ils inscrivaient dans la marge droite, puis en colonnes, et enfin le total de la dernière colonne qui devait correspondre avec le total de la dernière ligne. Dans le cas du tableau ci-dessus, le total de la dernière colonne (marge droite) est la
probabilité totale, c’est-à-dire 1.
b) Indépendance :
Comme ont été définies les lois marginales on peut définir les lois conditionnelles.
Étant donné k∈N* tel que p(Y = yk ) ≠ 0, on définit la loi de X sachant (Y = yk) par les probabilités
p ( X, y) = ( x n , y k )
et de même pour Y.
conditionnelles p( X = x n | Y = y k ) =
p( Y = y k )
En utilisant l’indépendance introduite page 7 on a la définition : X et Y sont indépendantes si et seu2
lement si ∀( n, p) ∈ N * p( X = x n ∩ Y = y p ) = p( X = x n ) p(Y = y p ) .
b
g
Il a été remarqué plus haut qu’à partir de la distribution du couple, on peut reconstruire les distributions de X et de Y. L’inverse n’est généralement pas possible, sauf si on connaît une relation entre X et
Y, par exemple l’indépendance.
Dans ce cas, on remarque que les colonnes du tableau sont proportionnelles, ainsi que les lignes, ce
qui permet de voir rapidement si les variables sont indépendantes ou non.
-V- Sommes de variables aléatoires
page 22
UV SQ 20
a) Définition
Avec les mêmes hypothèses que pour les paragraphes précédentes on définit la variable aléatoire Z,
somme de X et de Y par Z = X + Y, avec la distribution ∀z ∈ R , p( Z = z) = ∑ p ( X, Y) = ( x n , y p ) .
xn +yp =z
n
d
i
s
Les variables étant discrètes, le support de Z est l’ensemble E Z = x n + y p , n ∈ N * , p ∈ N * .
Si on représente le couple (X, Y) dans un repère cartésien, à toute valeur de z, on associe la droite s’équation
x + y = z, et on somme les probabilités des points situés sur cette droite.
b) Exemples
Le lancer de deux dés fournit deux résultats X et Y compris entre 1 et 6, et la somme Z est une
variable à valeurs dans {2, …, 12}. Si les distributions de X et de Y sont uniformes (et indépendantes)
avec des dés équilibrés, celle de Z ne l’est pas. Il est facile de voir que
1
1
p( Z = 2) =
alors que p( Z = 7) = .
Le nombre
36 de pannes dans un système
6
pendant un intervalle donné suit souvent une loi de Poisson.
Si on considère deux types de pannes, par exemple X le nombre de pannes électriques et Y le nombre
de pannes mécaniques, on peut étudier le nombre total Z = X + Y. Si X et Y sont des variables de Poisson indépendantes de paramètres respectifs λ et μ, on a Z qui suit aussi une loi de Poisson, mais de paramètre λ + μ. En effet :
x+ y=z
=
e
−( λ+μ)
z!
z!
z
z
z
x=0
x=0
∑ p( ( X , Y ) = ( x , y ) ) = ∑ p ( X = x ) p ( Y = z − x ) = ∑
∀z ∈ N , p( Z = z) =
∑ x !( z − x)! λ μ
x
z−x
=
e
− ( λ +μ )
(λ + μ)
λe
x
−λ
μ
z− x
e
−μ
x ! ( z − x )!
z
z!
x=0
c) Stabilité :
A la lumière des deux exemples précédents, on peut se poser la question de la nature de la loi de Z
connaissant celles de X et de Y. On dira qu’une loi est stable par addition si X, Y et Z sont de même nature, éventuellement avec des paramètres différents.
On montre, et ce sera étudié dans les exercices à la fin de ce chapitre que les lois uniformes, géométriques ne sont pas stables alors que les lois binomiales indépendantes de même paramètre p, les lois de
Poisson indépendantes (voir ci-dessus) sont stables.
En particulier, si X est B(n,p) et Y B(m,p) indépendantes, alors Z = X + Y est B(n+m , p).
d) Espérances et variances
Au cours de la partie statistique, les sommes de deux ou plusieurs variables seront utilisées abondamment, et il est utile de connaître les relations entre les espérances et variances et celles de la somme,
pour éviter de refaire tous les calculs. Avec les mêmes notations, en supposant que les espérances existent on a :
E ( X + Y) =
∑ ∑ (x
*
n ∈N p ∈N
=
∑ x p( X = x
n
n ∈N
*
n
n
b
g
+ y p ) p ( X, Y) = ( x n , y p ) =
*
)+
∑ x ∑ pb( X, Y) = ( x
n
n ∈N
∑ y p(Y = y
p
p ∈N
p
*
p ∈N
*
n
g
, yp ) +
∑ y ∑ pb ( X , Y ) = ( x
p
p ∈N
*
n ∈N
*
n
, yp )
g
) = E ( X) + E ( Y)
*
En utilisant aussi le paragraphe -II- 4°) page 18, on en déduit que l’espérance est un opérateur linéaire sur les variables aléatoires.
Cette relation est valable dans tous les cas, même si les variables ne sont pas indépendantes.
En ce qui concerne la variance, on n’a pas toujours une relation analogue. Par contre, si X et Y sont
indépendantes, on a Var(X + Y) = Var(X) + Var(Y).
-VI- Exercices
page 23
SQ-20 Probabilités - Statistiques
1°) Soit une variable aléatoire X qui prend les valeurs entières entre 0 et 10 avec les probabilités :
p( X = k ) = p k = a (10 − k ) k .
Déterminer a pour que p soit une probabilité. Calculer E(X) et Var(X).
2°) Dans une urne il y a n boules numérotées de 0 à n−1. On tire l’une après l’autre, avec remise, 3 boules et on note X le plus petit numéro et Y le plus grand numéro.
a) Définir l’espace probabilisé. Quelles sont les valeurs possibles de X et de Y.
b) Pour x entier convenable, calculer les probabilité p(X < x) et p(Y < y).
c) En déduire les probabilités p(X = x) et p(Y = y).
(corrigé page 70)
d) Calculer E(X) et Var(X) dans le cas où n=10.
3°) Soit X1, X2, ..., Xn des v. a. indépendantes de même loi telle que E(X) = 15 et Var(X)= 12.
a) Déterminer les espérances et les variances des lois suivantes :
n
1 n
Y1 = 10X1 , Y2 = ∑ X k , Y3 = αX1 + βX 2 avec (α , β) ∈ R 2 , Y4 = ∑ X k
n k =1
k =1
b) Peut-on trouver une loi binomiale correspondant à ces données (espérance = 15, variance = 12) ?
4°) Un objet vendu sur le marché peut contenir, avec la même probabilité de 0 à 3 défauts. La valeur
marchande de l’objet (en €) est égale à Y = 10 − X², où X est le nombre de défauts. Des étiquettes d’un
Euro sont collées sur chaque objet pour en indiquer la valeur.
a) Quel est le prix moyen des objets ?
b) Quelle est la probabilité qu’une étiquette prise au hasard soit collée sur un objet ayant 2 défauts ?
5°) Un télé‫ ص‬cripteur transmet 2 000 caractères par minute. On estime à 1/1 000 la proba 笔 lité d’erreur
sur un quelconque de ces caractères.
a) On appelle X le nombre d’erreurs commises pendant une minute. Etudier la loi de X.
b) Déterminer la probabilité d’avoir moins de 5 erreurs dans un message de trois minutes.
6°) Un représentant R fait du porte à porte pour distribuer des échantillons de nourriture pour chiens. Il
laisse un échantillon (une boîte) si on répond à la porte (probabilité 0,75) et si il y a un chien dans la
maison (probabilité 0,4). On suppose que les événements « la porte s’ouvre » et « il y a un chien » sont
indépendants.
a) Calculer la probabilité qu’il donne son premier échantillon à la troisième porte.
b) - - - - - deuxième échantillon à la cinquième porte.
c) Sachant qu’il a donné deux échantillons à ses huit premiers essais, quelle est la probabilité qu’il
donne son cinquième échantillon à la onzième porte ?
d) Sachant qu’il n’a pas encore donné son deuxième échantillon à la deuxième porte, calculer la
probabilité qu’il le donne à la cinquième porte.
e) Le représentant doit rechercher d’autres boîtes après avoir épuisé son stock. S’il part avec deux
boîtes, quelle est la probabilité qu’il assure au moins cinq portes avant de refaire son stock ?
7°) Une entreprise pharmaceutique produit en grande série des tubes de comprimés d’acide acétylsalicylique dans trois usines A, B et C qui se partagent la production à raison de 30% pour A et 20% pour B.
La production, pour chacune des usines se répartit en deux catégories : le marché intérieur (60% pour
A, 10% pour B et 40% pour C) et le marché international.
a) On prend un tube au hasard dans la production, déterminer les probabilités des événements :
E1 : Il est destiné au marché intérieur, E2 : Il vient de A sachant qu’il est destiné à l’international.
b) On contrôle 5 tubes dans A et on note X le nombre de ceux destinés à la France. Etudier la loi de
X, et calculer p(X > 3).
c) Le tubes produits en A ont une probabilité de défaut (tube mal fermé, traces de chocs, ..) de 0,02
et sont empaquetés par caisses de 200 unités. Si Y est le nombre de tubes défectueux par caisse, étudier
page 24
UV SQ 20
la loi de Y et calculer la probabilité d’avoir au maximum 5 tubes défectueux dans une caisse.
8°) Un chef d'entreprise, pour éviter l'attente des camions devant livrer, envisage, si nécessaire, de construire de nouveaux postes de déchargement. Il y en a actuellement 5. On considère pour simplifier
l'étude qu'il faut une demi-journée pour décharger un camion. Une enquête préalable sur 60 jours a
montré les résultats suivants:
0
1
2
3
4
5
6
7
8
9
10
xi = nombre de camions
ni = nb de demi-journées
2
10 18 22 23 19 12
7
4
2
1
a) Déterminer une loi de probabilité X représentant cette enquête. En calculer l'espérance et la variance. Comparer les probabilités à celles données par une loi de Poisson de même espérance.
b) Quelle est la probabilité de n'avoir aucun camion en attente ?
c) Combien faudrait-il de postes pour que cette probabilité soit supérieure à 0,95 ?
d) On prévoit à l'avenir un doublement de la fréquence des livraisons. Combien faudrait-il de postes
pour que la probabilité de n'avoir aucun camion en attente reste supérieure à 0,95 ?
9°) Une variable aléatoire X peut prendre les valeurs −1, 0 et +1 avec les probabilités
a) Calculer E(X) et Var(X).
b) Soit la v.a. Y liée à X par les relations :
p Y = 0| X = −1 = 13 , p Y = 1| X = −1 = 23 , p Y = −1| X = 0 = 21
b
g
pbY = 1| X = 0g =
b
b
g
g
b
b
g
1
3
, 21 , 16 .
g
, p Y = −1| X = 1 = 41 , p Y = 0| X = 1 = 43
Déterminer, sous forme de tableau, la loi du couple (X, Y), puis la loi de Y.
Calculer les espérances de X et de Y. Les variables X et Y sont-elles indépendantes ?
1
2
10°)
Soit deux variables aléatoires X et Y, indépendantes et de même loi géométrique de paramètre p.
Pour 0 < p < 1, on note U = inf ( X , Y).
a) Calculer, pour k entier , p(U > k).
b) En déduire p(U = k) et reconnaître la loi de U. Calculer E(U) et Var(U).
11°)
Soit X et Y deux lois indépendantes uniformes sur E = {1, 2, …,n}, et leur somme Z = X + Y .
a) Déterminer l’ensemble F des valeurs possibles de Z, puis, pour z ∈ F , p( Z < z ) .
b) En déduire la distribution de probabilité de Z, ainsi que E(Z) et Var(Z).
12°)
Deux v. a. X et Y étant définies, le tableau ci-dessous donne la loi
Y\X 1
2
3
4
de probabilité du couple (X, Y):
5 0,05 0,15 0,15 0,05
a) Déterminer les lois conditionnelles
7 0,1 0,15 0,05 0,1
b) Calculer E(X), E(Y), et comparer E(X)+E(Y) et E(X+Y)
9 0,15 0 0,03 0,02
c) Calculer Var(X) et Var(Y) ainsi que la covariance de X et Y
d) Les variables aléatoires X et Y sont-elles indépendantes ?
13°)
Le DRH d’une entreprise doit embaucher une personne pour un poste d’ingénieur. Il convoque les
candidats pour un entretien, et il s’arrête quand il a trouvé une personne qui lui convient. Les candidats
ont chacun une probabilité 0,2 de convenir.
a) On note X le nombre de candidats ayant subi un entretien. Étudier la loi de X.
b) Un candidat est le 5ème sur la liste, quelle est sa probabilité d’avoir le poste ?
c) Un entretien dure une demi-heure et la séance commence à 8 heures. Quelle est la probabilité
qu’elle soit terminée avant midi ?
d) On considère maintenant que l’entreprise doit embaucher deux ingénieurs. La séance d’entretiens
se déroule comme précédemment, mais s’arrête après le second candidat choisi. Si on note Y le nombre
d’entretiens, déterminer E(Y) et calculer p(Y = 10).
page 25
SQ-20 Probabilités - Statistiques
14°)
Un fabricant de cordes de montagne soumet des cordes de nylon de ∅ 12 mm à des essais du rupture (une charge de 80 kg est lâchée depuis une hauteur de 5 mètres). Le test consiste à répéter cet essai
jusqu’à rupture de la corde et on suppose (ce qui dans la réalité n’est pas tout à fait exact) que la corde
ne subit aucune modification si elle ne rompt pas. La probabilité que la corde casse au cours d’un essai
est p = 0,09. Soit X la variable aléatoire : nombre d’essais avant rupture.
a) Déterminer la loi de X, donner son espérance et sa variance.
b) Calculer les probabilités p(X > 4 ), p(X est pair) et p(X > 6 | X > 4 ). Pour quelles valeurs de n a-ton p(X ≤ n ) ≥ 0,99 ?
c) Après rupture de la corde on continue le test avec une deuxième corde identique à la première et
on définit ainsi une seconde variable aléatoire Y de même loi.
Si on pose Z = X + Y (Nombre d’essais avant la seconde rupture). Déterminer la distribution de
probabilité de Z, ainsi que son espérance et sa variance. Calculer p(Z = 10)
d) On considère un lot de 50 cordes de 12 mm et on définit la variable aléatoire N = nombre de
cordes ayant rompu au cours du premier essai. Déterminer la loi de N et calculer p(N < 5).
NB: Des essais pratiqués sur d'anciennes cordes de chanvre ont montré qu'elles cassent toutes au premier essai !
** Soit X et Y deux v.a. à valeurs dans N. X suit une loi de Poisson de paramètre λ.
Si (X = n) est réalisé, Y suit une loi B (n, p). Étudier la loi de Y.
(On remarquera que Y dépend de X, donc les lois ne sont pas indépendantes, et on pourra calculer
les probabilités p(Y=0), p(Y=1) et éventuellement p(Y=3) et généraliser).
15°)
On peut interpréter ce problème de la manière suivante: Parmi les clients qui attendent à un guichet, dont le nombre suit une loi de
Poisson, certains, avec une probabilité p sont des gros clients (dont le temps de traitement est plus long que la normale), et dont le nombre suit une loi binomiale.
(corrigé page 71)
16°)
Deux systèmes de contrôle I et II sont soumis à des pannes indépendantes. Les lois de probabilités
du nombre de pannes (X pour I et Y pour II) sont données dans le tableau ci-dessous.
Système I
x = p(X = x) Système II
y = p(Y = y)
0
0,07
0
0,10
1
0,35
1
0,20
2
0,34
2
0,50
3
0,18
3
0,17
4
0,06
4
0,03
a) Calculer les probabilités suivantes :
• Le système II a au moins deux pannes par jour
• Il y a plus de pannes dans le système I que dans le système II
• Il y trois pannes dans la journée.
b) L’équipe de techniciens ne peut réparer qu’un maximum de 5 pannes par jour. Au cours d’une période d’un mois (de 30 jours) on note N le nombre de jours où l’équipe de techniciens sera débordée.
Etudier la loi de N, son espérance et sa variance et calculer p(N = 3 ).
17°)
Un atome radioactif émet des particules α en nombre aléatoire. Soit X ce nombre pendant un intervalle de temps donné. Un observateur ne peut pas voir toutes les particules émises mais détecte chaque particule émise avec une probabilité p ∈]0, +1[. Soit Y le nombre de particules observées pendant
le temps considéré.
On suppose que X suit une loi de Poisson de paramètre λ.
a) Quelle est la loi conditionnelle de Y sachant X = n.
b) En déduire la loi du couple (X , Y).
c) Montrer que Y suit une loi de Poisson de paramètre μ = λp.
d) Soit Z = X − Y. Que représente Z, et quelle est sa loi ?
e) Les variables Z et Y sont-elles indépendantes ? Et en ce qui concerne X et Y ?
page 26
UV SQ 20
Chap.3
Lois continues
-I- Définition
Dans le chapitre précédent, nous avons étudié les variables aléatoires à valeurs discrètes, et nous allons considérer dans celui-ci des variables réelles pouvant prendre toutes les valeurs dans un intervalle
d’intérieur non vide, ou une réunion de tels intervalles. Les cas les plus fréquents sont les variables telles que X(Ω) = R+ ou [a, b] avec a < b.
C’est le cas par exemple du temps d’attente avant un événement (panne, gain au loto, …) ou d’une
mesure (taille, masse, distance, intensité électrique, …).
1°) Loi absolument continue
-II- Lois usuelles
-III- Loi normale
Cette loi a une importance telle qu’elle mérite qu’on lui accorde un paragraphe spécial.
Pour les étudiants ayant une mémoire très limitée, ou qui ont une concentration pointillée en cours :
Si on ne doit retenir qu’une seule variable aléatoire dans toutes celles qui sont étudiées, c’est la variable normale.
Alors pour ceux qui ont chroniquement du sommeil en retard, ce n’est pas le bon moment pour faire une petite sieste
dans l’amphi !
-IV-
Couples de v.a.
-V- Fonction d'une loi:
1°) Exemple, loi de Cauchy
Soit X une variable uniforme sur un demi cercle de centre O, de rayon 1 et (D) la tangente verticale à
ce demi cercle. Une demi droite d’origine O et d’angle X coupe D en un point M. On considère la vapage 27
SQ-20 Probabilités - Statistiques
riable Y = ordonnée de M. On cherche à déterminer la loi de Y.
Soit f et g les densités de X et Y, F et G leurs fonctions de répartition. On a alors :
OP
Q
X( Ω) = −
LM
N
π π
1
,
et donc f ( x) = 1O π π L ( x)
π PQ − 2 , 2 MN
2 2
FG
H
∀y ∈ R G ( y ) = p ( Y < y ) = p −
IJ FG
K H
IJ
K
π
π
1
1
< X < Arc tan( y) =
Arc tan( y) +
et donc g( y) = G '( y) =
π
π(1 + y 2 )
2
2
Cette densité définit la loi de Cauchy. Cette loi, qu’on retrouve dans quelques
situations, a la particularité de ne pas avoir d’espérance (et évidemment pas de va∞
y dy
riance) en effet son calcul mène à l’intégrale généralisée
qui n’est pas
2
−∞ π (1 + y )
convergente.
XY
Z
2°) Loi d’une fonction d’une v.a. : Soit X une v.a. réelle continue de densité f et de f.r.
F. Exprimer à l’aide de f et F la densité gk et la f.r. Fk des Yk définies par :
Y1 = aX + b (a > 0 , b ∈ R )
Y2 = X
Y3 = X 2
Y4 = ln X
-VI- Exercices
α
si x ≥ 0 et f ( x) = 0 si x < 0 .
( x + 2)3
a) Déterminer α pour que f soit effectivement une densité de probabilité.
b) Calculer E(X) et p(X≤ E(X)) ainsi que la variance, si ces éléments existent.
1°) Soit X la variable aléatoire de densité: f ( x) =
2°) Soit un point choisi au hasard dans un triangle de base l et de hauteur h. On définit la variable X
comme la distance du point à la base du triangle. Etudier la f. r. et la densité de X.
3°) Lois des extrêmes :
Soit X1 , ..., X n des v.a. indépendantes de densité f et de f.r. F. On considère les v. a .
S n = sup X i , 1 ≤ i ≤ n et I n = inf X i , 1 ≤ i ≤ n de densités g et h et de f.r. G et H.
b
g
b
g
a) Exprimer les événements (In ≥ y) et (Sn < z) au moyen des Xi . En déduire g, h G et H.
b) Calculer les densités et les espérances des lois In et Sn dans les cas :
(C1 )
X i de densité f ( x) = 2 − 2 x sur [0, 1] 0 sinon
(C2 )
X i de densité uniforme sur [0, 1]
c) Si les Xi sont des v.a. uniformes sur [0, +1], calculer les limites de E(Sn) et de E(In) en +∞.
4°) Soit la variable X définie par la densité f ( t ) =
c
a t2
1+ t2
h
2
1R + ( t ) .
a) Pour quelle valeur de a f est-elle une distribution de probabilité. Calculer E(X) et Var(X).
b) On appelle médiane (ou deuxième quartile) le nombre me tel que p(X < me) = 0,5. En calculer une
valeur approchée (en utilisant au besoin la calculatrice).
page 28
UV SQ 20
c) On appelle mode (il n'est pas nécessairement unique) le nombre mm tel qu'en mm la densité de
probabilité est maximale. A-t-on E(X) = me = mm ?
5°)
R|
si x ≥ 0 , a
(*) Soit la variable X dont la fonction de répartition est donnée par: F( x) = S1 − e
|T0 si x < 0
−
x2
2a2
étant une constante positive. X suit alors une loi de Rayleigh.
a) Déterminer sa densité de probabilité ainsi que son espérance.
b) Calculer sa médiane Me (définie par p(X < Me) = 0,5) et son mode (valeur pour laquelle la densité
est maximale).
c) Application (avec incursion dans le programme de MT 25) : Une cible est centrée sur l’origine
r r
d’un repère O, i , j orthonormé. Une fléchette est lancée sur cette cible, et on suppose que les coor-
d
i
données d’impact X et Y suivent des lois normales centrées réduites indépendantes. Déterminer la fonction de répartition H(d) et la densité h(d), de la variable aléatoire Z = distance du point d’impact au centre.
6°) On prend au hasard un point M à l’intérieur d'un quart de cercle trigonométrique, et on note
Z = ( X , Y), où X et Y sont les coordonnées de M.
a) En supposant la distribution uniforme, déterminer la densité h(x , y) de Z.
b) Déterminer les fonctions de répartitions F et G et les densités f(x) et g(y) des lois marginales.
c) Etudier les lois conditionnelles Y | X = x, pour x ∈ [0,+1] et X | Y = y pour y ∈ [0,+1].
d) X et Y sont-elles indépendantes ?
7°) Soit X une variable exponentielle de paramètre λ . Déterminer la loi de probabilité de la variable
Y = Ent(X+1) c’est-à-dire la partie entière de X+1.
a) Déterminer, pour k ∈ N* , p(Y = k). En déduire la nature de la loi de X
b) En calculer l’espérance.
8°) La durée de vie, en semaines, d'un composant électronique définit une variable aléatoire exponentielle X. On a constaté que 95,12 % des composants étaient encore en état de marche au bout de 25 semaines.
a) Montrer que cette constatation permet de fixer à 0,002 le paramètre λ de cette loi.
b) Calculer l'espérance de cette loi.
(Remarque: en fiabilité cette espérance est appelée M.T.B.F. ou Moyenne des Temps de Bon Fonctionnement, ou Mean
Time Before Failure)
c) Quelle est la probabilité, pour un de ces composants d'être en état de marche au bout de 100 semaines.
d) Sachant qu'un composant a bien fonctionné pendant 100 semaines, quelle est la probabilité qu'il
soit encore en fonctionnement au bout de 200 semaines.
e) On construit un appareil avec 10 de ces composants montés en série. Le temps de bon fonctionnement, en semaines, de l'appareil est une nouvelle v.a. Y. Déterminer p(Y ≥ 50).
9°) Un test de production normalisé utilise une variable N(150,σ=36)
a) Dresser la représentation graphique de la densité.
b) Dessiner chacune des probabilités par une surface sous la courbe de densité, et calculer les probabilités que les résultats
• Soient plus petits que 140
• Soient plus grands que 175
• Soient plus petits que 200 et plus grands que 130.
• Soient compris entre 114 et 190.
c) Déterminer le premier décile et expliquer ce qu’il signifie.
page 29
SQ-20 Probabilités - Statistiques
d) Le test de production est appliqué à 49 personnes indépendantes. Quelle est la probabilité
d’observer une valeur moyenne inférieure à 140. Comparer ce résultat avec celui du b) 1 . Comment
expliquer la différence ?
10°)
Un laboratoire fabrique des pilules se composant de deux substances A et B. Pour chaque pilule on considère les masses X et Y des substances A et B. On suppose que X et Y sont des variables
normales indépendantes N(Mx= 8,55, σX= 0,05) et N(MY = 5,20, σY = 0,05).
a) On impose une normes de fabrication 8,45 < x < 8,70 et 5,07< y < 5,33. Déterminer le pourcentage
de pilules qui sont hors norme.
b) Peut-on retenir ce procédé de fabrication, sachant que le pourcentage de pilules défectueuses ne
peut dépasser 1 % ?
11°)
Une machine fabrique des lentilles pour systèmes
optiques dont le diamètre est une variable aléatoire D normale d'espérance 32 et d'écart type 0,8 (unité 1 mm).
a) Les lentilles sont refusées si leur diamètre est inférieur à 30,5 ou si il est supérieur à 33 mm. Déterminer le
pourcentage de rebut dans la fabrication.
b) Les meilleurs lentilles, c'est à dire les 20% les plus
proches de la moyenne sont réservées à l'industrie
photographique. Dans quel intervalle leur diamètres est-il
situé
c) ?La machine est déclarée bien réglée si la probabilité
d'avoir des pièces de diamètre supérieur à 34,3 mm est inLa recette du plat de lentilles
férieure à 0,04. La machine est-elle bien réglée ?
d) Une pièce étant prélevée au hasard parmi celles qui ne sont pas refusées, avec quelle probabilité
son diamètre est-il compris entre 31,5 et 32,5 mm ?
Soit X une variable normale d'espérance 100 et de variance σ² = 16.
a) Déterminer les quartiles de cette loi, c'est à dire les nombres a, b et c tels que:
p(X<a) = 0,25 , p(X<b) = 0,5 , p(X<c) = 0,75 .
b) On définit de la même manière les déciles, c'est à dire les nombres ak , k∈{1, 2, …, 9} vérifiant
p(X<ak) = 0,1 k. Calculer les neuf déciles de la loi X.
12°)
Soit X une variable normale d’espérance m=1,8 et de variance σ² = 0,01. On définit les variables
40
S
X k et X =
avec X1 , X 2 ,K , X 40 étant une suite de variables aléatoires
aléatoires Y = 40X, S =
40
k =1
indépendantes de même loi que X.
13°)
∑
b
g
a) Déterminer les espérances de Y, S et X . Il est possible de représenter les résultats sous forme de
tableau.
b) Calculer p(1,7 < X < 1,9), et déterminer α > 0 tel que p(1,8-α< X < 1,8+α)=0,95.
c) Calculer p(68 < Y < 76), et déterminer β> 0 tel que p(72-β< X < 72+β) = 0,95.
d) Calculer les probabilités p(68 < S < 76)
e) Déterminer γ>0 et δ tels que p(72 − γ < S < 72 + γ ) = 0,95 et p(1,8 − δ < X < 1,8 + δ ) = 0,95 .
β2 γ 2
α2
f) Calculer les rapports 2 , 2 et 2 . Existe-t-il
α α
δ
des relations entre α, β, γ et δ ?
14°)
Le prix quotidien du logement dans des terrains
page 30
UV SQ 20
de camping suit une loi normale d’espérance M = 11,5 et de variance σ² = 1,8. Un vacancier part camper 30 jours avec un budget de 360 €
Calculer la probabilité de l’événement « le budget est suffisant » dans les cas suivants :
a) a) Il passe toutes ses vacances dans le même terrain
b) b) Il change de terrain de camping tous les jours.
15°)
Soit le domaine (D) = intérieur du triangle OAB où O est l’origine d’un repère orthonormé, A et
B de coordonnées (1, 0) et (1, 1). On définit sur (D) un couple de variables aléatoires (X, Y) par sa
densité :
k
ϕ( x, y) =
si ( x, y) ∈ ( D) et 0 sinon.
xy
a) Déterminer la constante k pour que ϕ soit effectivement une densité de probabilité.
b) Déterminer les lois marginales, de X et de Y. Les variables X et Y sont-elles indépendantes ?
c) Calculer p(Y<0,5 |X<0,75).
16°)
Un système électronique est piloté par un circuit intégré dont le temps de fonctionnement exprimé
en semaines suit une loi exponentielle de paramètre λ = 0,005. Pour des raisons de maintenance, ce circuit est doublé par un second identique au premier, qui se met en marche dès que le premier tombe en
panne. On note X la durée avant arrêt du système.
a) Déterminer la loi de X.
b) Déterminer la probabilité de fonctionnement du système pendant un an.
17°)
Deux équipements techniques A et B fonctionnent indépendamment l'un de l'autre. Ils ont des
durées de vie X et Y exponentielles de paramètres λ = 1 et μ = 2.
a) Déterminer la densité h(x,y) du couple (X,Y).
b) Déterminer la probabilité que A tombe en panne avant B.
18°)
Un équipement est formé de n éléments identiques montés en série. Les durées de vie de ces éléments suivent une loi exponentielle de paramètre λ.
a) Etudier la loi T = durée de vie du système, fonction de répartition, densité.
b) Calculer en fonction de n et de λ la durée de vie moyenne E(T). Calculer ensuite la variance de T.
c) Application numérique : λ = 0,1 et n = 20.
19°)
Un problème de rencontre. Deux étudiants A et B doivent se rencontrer à la cafétéria entre midi et
13 h. Chacun d’eux a indiqué qu’il n’attendrait pas plus de 10 minutes. On suppose qu’ils arrivent indépendamment l’un de l’autre à des instants au hasard (loi uniforme) entre midi et 13 h.
a) Quelle est la probabilité de la rencontre ?
b) A arrive à l’instant x (x∈[0,+1]), déterminer en fonction de x la probabilité de la rencontre.
c) A arrive à l’instant x, et B n’est pas là. Déterminer en fonction de x la probabilité de la rencontre.
20°)
Chaque jour, quand il quitte la maison
pour aller au casino, Oscar fait tourner une roue
de la fortune pour déterminer la somme qu’il
emporte avec lui. Il emporte X centaines d’ €, où
X est une v. a. continue de densité f, définie
x
f ( x) = 1[ 0, +4 ] ( x) . Pour des raisons pratiques,
8
on supposera que la monnaie est indéfiniment
divisible (arrondir au centime le plus proche ne
ferait pas une grosse différence). Oscar sait, après des années de pratique, qu’il ne gagne jamais. En fait,
page 31
SQ-20 Probabilités - Statistiques
la somme qu’il rapporte chez lui à la fin de la journée, qu’on note Y, est une variable uniforme sur [0,
x], x étant la somme de départ.
a) Déterminer la densité ϕ(x,y) du couple (X, Y)
b) Déterminer la probabilité marginale g(y) = densité de la somme qu’il rapporte chez lui.
c) Calculer l’espérance de gain d’oscar pour une journée.
d) Un jour donné, on apprend qu’Oscar est rentré chez lui avec moins de 200 €. Déterminer les probabilités des événements suivants :
• Il est entré dans le casino avec moins de 200 €.
• Il a eu moins de 100 € de pertes.
• Ses pertes s’élèvent à exactement 75 €.
21°)
Soit une variable aléatoire X normale N(0,1). Déterminer la loi de Y = e X .
Remarque: Cette loi, appelée loi de Galton ou loi log-normale, a des applications dans l'étude du morcellement. La répartition des tailles des grains d'un même produit, particulièrement préparé par broyage (graviers, poudres de métaux ou de cristaux) suit, sous
des conditions très générales, une loi de Galton.
-VII- Problèmes
Problème 1:
Lien entre la loi exponentielle et la loi de Poisson:
Le temps de fonctionnement X avant panne d'une machine suit une loi exponentielle de paramètre λ.
On suppose que les pannes successives sont indépendantes.
On note X1, X2 , K et Xn les temps de fonctionnement avant panne de la machine et
Zn = X1 + X2 +K+ Xn le temps de fonctionnement avant la nème panne. Zn est une loi (absolument
continue) de densité fn et de fonction de répartition Fn.
a) Déterminer la densité et la fonction de répartition de Z2.
λn t n−1 e− λt
b) Montrer par récurrence que: fn ( t ) =
( n − 1)!
c) En déduire Fn ( t ) = Γn (λt ) avec Γn ( x) =
1
( n − 1)!
∀t ∈ 0,+∞
z
x
0
u n −1e− u du .
d) On considère le nombre de pannes Y pendant une durée T>0. Déterminer la loi de Y.
e) Application numérique:
Une voiture a une crevaison en moyenne tous les 20 000 kilomètres. On prévoit un voyage de
50 000 kilomètres. Quelle est la probabilité de pouvoir faire le voyage avec la seule roue de secours ? Combien doit-on emporter de roues de rechange (en plus de la roue de secours) pour pouvoir terminer le voyage avec une probabilité supérieure à 0,95 ?
page 32
UV SQ 20
Chap.4
Convergences
-I- Fonctions caractéristiques usuelles:
1°) La variable aléatoire discrète X prend les valeurs 0, 1 et 2 avec les probabilités 0,5 , 0,25 et 0,25.
Calculer la fonction caractéristique ϕX(t), puis les valeurs ϕ X (0) , ϕ ' X ( 0) et ϕ"X (0) . En déduire
l’espérance et la variance de X.
2°) On rappelle que la loi de Pascal (loi géométrique) de paramètre p est définie de la manière suivante:
on répète une expérience menant à un succès (probabilité p) ou à un échec dans les mêmes conditions
jusqu’à obtention d’un succès. On note X le nombre d’expériences nécessaires.
a) Déterminer la distribution de probabilité de X.
b) Déterminer sa fonction caractéristique et en déduire l’espérance et la variance.
3°) Soit X une v.a. de Poisson P (λ) de paramètre λ > 0.
a) Ecrire la fonction caractéristique de X.
b) En déduire la fonction caractéristique ϕY(t) de la v.a. Y définie par: Y =
X−λ
.
λ
c) Etudier la limite de ϕY(t) quand λ tend vers l'infini.
-II- Inégalités
1°) Au cours d'une épreuve un événement a une probabilité 0,2 de se réaliser.
a) On effectue n épreuves indépendantes. Si X est le nombre de fois où l'événement se réalise, déterminer la loi de X, son espérance et sa variance.
b) Montrer que par la loi de X (pour n=100) p(15 ≤ X ≤ 25) est égale à 0,832 à 0,001 près
Calculer cette même probabilité:
1. par l'inégalité de Bienaymé-Tchebitcheff
2. en approchant la loi de X par une variable normale.
c) Calculer, pour n = 1 000, p(170 ≤ X ≤ 230) en utilisant les méthodes 1 et 2 du b).
-III- Convergences en probabilité, en loi:
Les exercices de ce paragraphe étant plus difficiles, on les réservera aux mathématiciens de compétition. Les
esprits plus faibles pourront les regarder d'un air méprisant et passer au paragraphe suivant.
1°) Soit la variable aléatoire Xn à valeurs dans {−n, −n+1, . . . , n} définie par sa distribution:
1
1
p X n = 0 = 1 − et ∀k ∈ X n (Ω) \ 0 , p X n = k = 2 .
n
2n
a) Représenter graphiquement cette distribution pour n = 5 ainsi que sa fonction de répartition.
b) Calculer E(Xn ) et Var(Xn) .
b
g
lq b
g
c) Etudier la convergence en probabilité de la suite (Xn).
d)
-
-
-
-
-
-
-
loi
-
-
-
-
-.
page 33
SQ-20 Probabilités - Statistiques
2°) Soit X une v. a. exponentielle de paramètre λ>0.
a) Déterminer la fonction de répartition G2, puis la densité g2 de Y2 = X .
n
b) Généraliser à la variable aléatoire définie par Yn = X . On note Gn et gn les f.r. et densité de Yn.
c) Étude des convergences en loi et en probabilité de Yn.
c
h
• Soit ε∈]0, 1[. Calculer ϕ(n) = p Yn − 1 > ε et lim ϕ ( n) . En déduire la convergence en probabilin →∞
té
• Calculer lim G n ( y) pour y ∈]0, + ∞[ . En déduire la convergence en loi.
(corrigé page 71)
n →∞
Remarque: en cas de convergence vers une variable certaine, on démontre qu'on a équivalence entre convergence
en probabilité et convergence en loi.
-IV- Théorème central limite:
1°) Soit (Xk) une suite de variables indépendantes suivant une loi de Poisson de paramètre λ = 1.
a) Vers quoi converge en loi la suite Yn =
n
b) En déduire lim
n→∞
∑
k =0
X1 + K + X n − n
?
n
nke− n 1
= .
k!
2
2°) On considère 50 v. a. continues de même loi, indépendantes, d'espérance 45 et d'écart type 5.
a) A quelle loi peut-on assimiler la somme S de ces variables ?
S
c) A l'aide de quelle loi peut-on approximer approcher la loi de la variable aléatoire S = .
50
44 ≤ S ≤ 47 et S ≤ 47.
Calculer les probabilités des événements: S ≥ 44
3°) On a mélangé 5 000 roulements d'une marque A avec 10 000 de la marque B. On prélève au hasard
150 roulements.
a) Quelle est la probabilité pour que la proportion de roulements A soit comprise entre 30 et 35% ?
b) Quelle est la probabilité pour que le nombre de roulements A soit compris entre 45 et 60 ?
4°) Au cours d’une expérience, un événement a une probabilité p de se produire.
a) On note Xn le nombre de fois où cet événement se produit sur n expériences indépendantes. Déterminer la loi de Xn et ses paramètres.
Avec p = 0,15 pour quelles valeurs de n∈N* a-t-on p(X = 0) ≤ 0,01 ?
c) Pour n = 500 , en prenant p = 0,6, calculer p 285 < X n < 315 . Quel résultat obtiendrait-on avec
l’inégalité de Bienaymé-Tchebychev ?
r r
5°) (*) Une cible est centrée sur l’origine d’un repère O, i , j orthonormé. Une fléchette est lancée sur
b
g
d
i
cette cible, et on suppose que les coordonnées d’impact X et Y suivent des lois normales centrées réduites indépendantes. Soit la variable aléatoire Z = distance du point d’impact au centre.
R|1 − e si z ≥ 0
H ( z) = S
.
|T0 si z < 0
−
a) Montrer que, si H est la fonction de répartition de Z, on a
z2
2
b) En déduire la densité h de Z, puis calculer E(Z) et Var(Z). (Cf. exercice Chap.3
-VI- 5°)
page 29)
c) On lance 150 flèches sur la cible (les lancers sont indépendants), et on note M = distance
moyenne des impacts au centre de la cible. Déterminer la loi qui approche celle de M.
page 34
UV SQ 20
d) Calculer les probabilités des événements : (M < 0,7), (0 . 8 < M < 1). Pour quel intervalle I centré
sur l’espérance aura-t-on p(M ∈ I ) = 0,9 ?
Pour des compléments sur les jeux de fléchettes, consulter le médian de novembre 2003. De même, si vous
n’avez pas trouvé l’espérance et la variance de Z, vous pouvez utiliser les réponses E( Z) = π et Var ( Z) = 4 − π
2
2
-V- Convergences usuelles:
1°) Une usine fabrique des pièces en grande série en deux phases indépendantes. La première phase est
susceptible de donner un défaut A avec une probabilité 0,02, et la deuxième un défaut B avec une probabilité 0,08.
a) Calculer les probabilités pour qu'une même pièce tirée au hasard:
• présente les deux défauts
• ne présente aucun des 2 défauts
• présente un seul des deux défauts
• présente au moins un des défauts
b) On prélève au hasard 200 pièces dans la production et on note X le nombre de pièces présentant le
défaut A.
Calculer:
p(X = 0),
p(X = 1), p(X = 10),
p(X ≥ 3)
Pour quelle valeur de k la probabilité p(X = k) est-elle maximale ?
c) On prélève au hasard 300 pièces et on note Y le nombre de pièces présentant le défaut B.
Calculer:
p(Y < 24),
p(20 < Y < 35),
p(Y < 30⏐Y > 24)
2°) Fabrication de bouteilles:
On fabrique deux types de bouteilles de masses 250 g et 1 kg destinées à recevoir des produits toxiques. La pâte de verre en fusion servant à mouler ces bouteilles contient des résidus solides appelés
pierres dont la présence dans une bouteille la rend inutilisable (plus
fragile et d'étanchéité approximative). On a remarqué que 100 kg de
pâte en fusion contiennent en moyenne 30 pierres.
Déterminer le pourcentage de rebut de la fabrication pour chacun
des types de bouteille.
3°) Un fabricant de cordes de montagne soumet des cordes de nylon
de ∅ 12 mm à des essais du rupture (une charge de 80 kg est lâchée
depuis une hauteur de 5 mètres). Le test consiste à répéter cet essai
jusqu’à rupture de la corde et on suppose (ce qui dans la réalité n’est pas tout à fait exact) que la corde
ne subit aucune modification si elle ne rompt pas. La probabilité que la corde casse au cours d’un essai
est p = 0,09. Soit X la variable aléatoire : nombre d’essais avant rupture.
a) Déterminer la loi de X, donner son espérance et sa variance.
b) Après rupture de la corde on continue le test avec une deuxième corde identique à la première et
on définit ainsi une seconde variable aléatoire Y de même loi.
Si on pose Z = X + Y (Nombre d’essais avant la seconde rupture). Déterminer la distribution de
probabilité de Z, ainsi que son espérance et sa variance.
c) On considère un lot de 50 cordes de 12 mm et on définit la variable aléatoire N = nombre de cordes ayant rompu au cours du premier essai. Déterminer la loi de N et calculer p(N < 5).
NB: Des essais pratiqués sur d'anciennes cordes de chanvre ont montré qu'elles cassent toutes au premier essai !
4°) On considère une variable aléatoire X de densité f ( x) =
a) Montrer que ∀n∈N , on a I n = Γ( n + 1) =
z
∞
0
RSα x e si x ≥ 0 .
T0 si x < 0
3 −x
x n e − x dx = n! .
b) En déduire la valeur de α pour que f soit une densité de probabilité.
c) Calculer l’espérance et la variance de X (si toutefois elles existent).
page 35
SQ-20 Probabilités - Statistiques
d) Calculer les probabilités de l’événement : p(X<2).
e) On considère une suite de v.a. X1 , X 2 ,K , X 400 indépendantes et de même loi que X, et les va-
b
400
riables aléatoires S = ∑ X k et X =
k =1
g
S
. Quelles sont approximativement les lois de S et de X ?
400
b
g c
h
f) Calculer les probabilités des événements 1560 < S < 1640 et 3,8 < X < 4,2 .
5°) On s’intéresse au retard par rapport à la durée de voyage prévue pour un voyage de 500 km par le
t 2 e − 0 ,5 t
train. Ce retard R (exprimé en minutes) suit une loi de densité h( t ) =
1R + ( t ) .
16
a) Montrer que h définit effectivement une densité de probabilité. En calculer l’espérance et la variance.
b) La direction des Chemins de Fer rembourse le billet si le retard dépasse 15 minutes. Calculer la
probabilité d’être remboursé.
c) Calculer la densité de la variable aléatoire R2 = durée totale de retard sur un aller – retour.
d) Un voyageur effectue le trajet (aller ou retour) 150 fois dans l’année. On note R150 la durée totale
du retard, et N150 le nombre de fois pour lesquelles le voyageur a été remboursé.
b
g
b
g
c) Déterminer les lois approximatives de R150 et de N150 . Calculer p R150 > 950 et p N 150 ≥ 5 .
6°) L’énergie d’une particule d’un système est une v. a. X de densité f ( x) =
RS2e
T0
−2 x
si x > 0
sinon
. L’énergie
totale est la somme des énergies des particules, supposées indépendantes.
a) Si il y a 1 600 particules dans le système, déterminer la probabilité qu’il y ait entre 780 et 840
unités d’énergie dans le système.
b) Quel est le nombre maximum de particules que le système doit contenir pour que l’énergie totale
soit inférieure à 440 unités avec une probabilité supérieure à 0,975 ?
c) Une particule s’échappe du système si son énergie dépasse (ln 50)/2 unités. Si le système contient
à l’origine 200 particules, quelle est la probabilité qu’au moins 8 particules s’échappent ?
-VI- Pour les linguistes
1°) A certain town has a Saturday night picture audience of 600 who must choose between two comparable cinemas. Assume that the pictures-going public is composed of 300 couples, each of which independently flips a fair coin to decide which cinema to patronize.
a) Using a central limit theorem approximation, determine how many seats each cinema must have
so that the probability of exactly one cinema running out of seats is less than 0,1.
b) Repeat, assuming that each of the 600 customers make an independent decision, instead of acting
in pairs.
2°) Consider the number of 3s which result from 600 tosses of a fair six-sided die.
a) Determine the probability that there are exactly 100 3s, using a form of Stirling's approximation
for n ! which is very accurate for these values, n ! ≈ e − n n n 2π n .
b) Use the Poisson approximation to the binomial Probability Mass Function (PMF) to obtain the
probability that there are exactly 100 3s.
c) Repeat part (b), using the central limit theorem intelligently.
d) Use the Chebyshev inequality to find a lower bound on the probability that the number of 3s is:
page 36
UV SQ 20
• between 97 and 103 inclusive,
• between 90 and 110 inclusive, and between 60 and 140 inclusive.
e) Repeat part (d), using the central limit theorem and employing the DeMoivre-Laplace result when
it appears relevant. Compare your answers with those obtained above, and comment.
page 37
SQ-20 Probabilités - Statistiques
Chap.5
Echantillonnage
-I- Statistiques sur un échantillon:
1°) Position du problème
Jusqu’à présent, nous avons considéré que les lois de probabilité utilisées étaient connues, ainsi que
leurs paramètres. Dans la réalité, un phénomène aléatoire étant étudié, on a généralement une idée assez
précise de la loi de probabilité sous-jacente, mais on n’en connaît pas les paramètres.
Par exemple, dans un sondage précédent des élections, l’opinion d’un électeur (qu’on réduit à l’alternative Oui
/ Non) est régie par une variable de Bernoulli B(1, p), où p est la probabilité de répondre Oui à la question. Le
problème est la détermination du paramètre inconnu p. S’il était connu, il ne serait pas nécessaire de faire un sondage.
Pour la détermination d’un paramètre inconnu, on peut procéder par étude exhaustive, c’est-à-dire
mesurer toute la population, ou par sondage en n’en choisissant qu’une partie, un échantillon.
L’étude exhaustive a l’avantage de fournir une donnée exacte dans le cas d’une population finie,
mais l’inconvénient d’être trop longue, de coûter trop cher ou de détruire la population.
Prenons l’exemple de l’étude de la résistance à la surtension d’une ampoule électrique. On soumet l’ampoule
à des tensions de plus en plus fortes jusqu’à ce que le filament fonde, et rende ainsi l’ampoule définitivement inutilisable. Une telle méthode sur la totalité de la production aurait pour effet de la détruire complètement, ce qui du
point de vue économique serait tout à fait désastreux. On peut trouver nombre d’exemples de ce type, qu’on appelle tests destructifs.
Dans le cas d’un sondage, il faut, avant l’étude, déterminer la taille de l’échantillon permettant
d’avoir la précision souhaitée. Le bon sens laisse à penser que plus la taille est grande et meilleure sera
la précision de la mesure, ce qui est en général le cas.
2°) Échantillons
Soit une variable aléatoire X définie sur un espace probabilisé (Ω, A , p). Pour un entier n non nul,
on appelle échantillon de taille n, ou n-échantillon, le n-uplet En = (X1, X2, …., Xn), où les Xk sont des
variables (indépendantes ou non) de même loi que X.
Une mesure étant faite sur une population, on obtient une observation en = (x1, …., xn), qui est un
élément de Rn. Il convient de ne pas confondre l’échantillon, variable aléatoire sur Ωn, et son observation, vecteur de Rn.
Par exemple, lors d’un sondage d’opinion sur 1000 personnes, les réponses possibles sont 0 ou 1 (d’accord,
pas d’accord) et la variable X est une variable de Bernoulli B(1, p), où p est la proportion de personnes étant
d’accord. On a alors l’échantillon (X1, …, X1000) où tous les Xk sont B(1,p) et l’observation (x1, …, x1000) où les
xk sont des 0 ou des 1. Dans ce cas, la population globale étant assez grande (celle d’un pays généralement) les
variables Xk sont indépendantes.
Un deuxième exemple : on veut tester la conformité d’une petite production par rapport au cahier des charges.
Si on s’intéresse à une mesure, supposée normale N(M, σ²), on étudie un échantillon En, de variables normales.
Si la taille de l’échantillon n’est pas petite par rapport à la taille de la population, les variables ne seront pas indépendantes. Dans la pratique, la variance σ² est connue, et on ne teste que l’espérance M.
3°) Statistique
Une fois choisi l’échantillon, il faut le traiter, par exemple pour déterminer une estimation d’un paramètre ou pour effectuer des tests.
Soit un échantillon En = (X1, X2, …., Xn) défini sur (Ω, A , p)n, on définit une statistique sur En
comme étant une fonction ϕ : (X1, X2, …., Xn) → Y = ϕ(X1, X2, …., Xn). On définit de même
page 38
UV SQ 20
l’observation de la statistique y = ϕ(x1, x2, …., xn).
-II- Estimation ponctuelle:
1°) Définition
Soit une variable aléatoire X définie sur un espace probabilisé (Ω, A , p), de paramètre θ, inconnu.
On cherche à déterminer une valeur approchée de θ à l’aide d’un échantillon En et d’une statistique Tn
sur cet échantillon. Après le prélèvement de l’échantillon, on aura donc une observation en.
θ valeur réelle du paramètre, qui restera inconnue
On a donc trois éléments : Tn (X1 ,K , X n ) estimateur du paramètre θ
θ$ = T(x ,K , x ) estimation ponctuelle de θ
1
n
Le problème est de construire un estimateur qui donne une bonne (notion restant à définir) valeur de
θ et, si possible, la meilleure possible. Il faut donc définir certaines propriétés d’un estimateur.
2°) Exemples d’estimateurs
Les paramètres inconnus les plus courants sont l’espérance et la variance, si ces paramètres existent.
On trouve aussi leurs dérivés, paramètres d’une loi de Poisson, d’une loi géométrique et d’une loi
exponentielle, qui s’expriment simplement à partir de l’espérance.
Il est donc utile de trouver des estimateurs pour ces paramètres, et, si possible, des estimateurs
simples à calculer.
1 n
∑ X k , alors que
n k =1
Pour l’espérance, on utilise la plupart du temps la moyenne T(X1 ,K , X n ) = X =
pour la variance on peut utiliser la variance empirique T(X1 , K , X n ) =
c
h
2
1 n
X k − X . Il reste bien sûr
∑
n k =1
à vérifier que ce sont des bons estimateurs.
-III- Propriétés des estimateurs
1°) Biais
On dira que T est un estimateur sans biais de θ si E(T) existe et E(T) = θ. En d’autres termes,
l’estimateur donne le bon résultat. Dans la littérature statistique, friande d’abréviations, on trouvera
souvent e.s.b. pour estimateur sans biais.
Par exemple, on veut mesurer la longeur L d’une barre d’acier, exprimée en centimètres. En effectuant
plusieurs mesures, on obtiendra des longeurs proches de la longeur réelle et la moyenne T(x1, ..., xn) de
toutes ces mesures donnera une estimation convenable de L. C’est du moins ce que dicte le bon sens.
Si toutes les mesures sont données en centimètres, on pourra penser que l’estimateur T est sans biais. Par
contre, si on se trompe d’outil et qu’on effectue les mesures avec un instrument gradué en pouces, on aura
aussi une estimation, mais elle sera fausse, et on aura un estimateur biaisé. Cet exemple est certes caricatural,
mais il donne une idée de la notion de biais.
Sinon T est un estimateur biaisé, et T − θ est le biais de l’estimateur T. Il est possible que le biais
dépende de la taille de l’échantillon, et souvent qu’il diminue quand la taille n de l’échantillon
augmente, on aura alors un estimateur asymptotiquement sans biais si on a lim E(T) − θ = 0 . Un
n →∞
b
g
exemple sera traité un peu plus loin.
2°) Convergence
page 39
SQ-20 Probabilités - Statistiques
Le problème a été évoqué en début de chapitre, est-on en droit de penser que la précision de
l’estimation croît avec la taille de l’échantillon. Dans la réalité ce n’est pas toujours le cas.
On dira que l’estimateur Tn est convergent si Tn ⎯proba
⎯
⎯→ θ quand n tend vers l’infini, c’est à dire que
c
h
∀ε > 0 lim p Tn − θ > ε = 0 .
n →∞
En utilisant l’inégalité de Bienaymé-Tchebychev, on montre facilement que si la variance de Tn tend
vers 0 quand n tend vers l’infini, alors l’estimateur Tn est convergent. Cela ne signifie pas qu’il soit sans
biais, mais qu’il est asymptotiquement sans biais.
Dans le cas d’un estimateur convergent, la précision augmente avec n, et, dans la pratique, on choisira n pour avoir la précision souhaitée par la situation. On n’augmente donc pas la taille de l’échantillon
sans avoir des contreparties.
A la lumière de ces paragraphes, on doit donc choisir des estimateurs sans biais et convergents, et si
on a le choix entre plusieurs, on utilise celui qui a la variance la plus petite.
3°) Estimateurs usuels
a) Espérance
Le langage courant en statistique mélange les notions de moyenne et d’espérance, ce qui est fâcheux
du point de vue de la rigueur mathématique, mais qui ne pose pas de problème insurmontable dans la
pratique. Cet amalgame vient de l’estimateur de l’espérance qui est presque toujours utilisé, c’est à dire
la moyenne arithmétique.
Soit une variable aléatoire X d’espérance M et la statistique moyenne arithmétique
1 n
T X1 ,K , X n = X = ∑ X k . T est un estimateur sans biais de M et, si Var(X) existe et les Xk indépenn k =1
dantes, c’est un estimateur convergent.
En effet :
b
g
E(T) =
1 n
1 n
E( X k ) = ∑ M = M
∑
n k =1
n k =1
Var (T) =
1
n2
n
∑ Var ( X k ) =
k =1
1
n2
n
(linéarité de l'espérance) , de plus, si Var(X) = σ 2 et les X k indépendantes
∑ σ2 =
k =1
σ2
n
avec lim Var (T) = 0
n →∞
b) Variance
Soit une variable X d’espérance M et de variance σ² et un échantillon En de variables indépendantes
Xk de même loi que X.
1 n
2
Si M est connue, on a un estimateur de σ² : Σ 2 = ∑ X k − M qui est un estimateur sans biais. En
n k =1
ce qui concerne sa convergence, nous laisserons son étude de côté, il faudrait faire des hypothèses sur
les moments d’ordre 3 et 4, et ceci dépasserait le programme de cette U.V.
b
Dem.
E( Σ 2 ) =
c
h
c
g
h
c
h
1 n
1 n
1 n
2
2
2
−
=
−
2
+
=
E
(
X
M
)
E
(
X
)
M
E
(
X
)
M
∑
∑
∑ E( X2k ) − M 2 = σ 2
k
k
k
n k =1
n k =1
n k =1
Dans le cas où M est inconnue, on l’estime par X , qui n’est plus une constante comme dans le cas
précédent. Si on considère l’estimateur précédent modifié, il n’est plus sans biais, et il faut donc le rectifier. On a alors :
2
1 n
E ( Σ '2 ) = E ∑ X k − X
n k =1
FG
H
c
h IJK
n −1 2
σ
n
Ce qui montre que cet estimateur est biaisé. On peut en construire un autre, cette fois ci sans biais, en
=
page 40
UV SQ 20
c
h
2
1 n
n
Σ'2 =
Xk − X .
∑
n −1
n − 1 k =1
On utilisera donc Σ² quand l’espérance est connue, et S² quand l’espérance est inconnue, estimée par
la moyenne.
considérant S2 =
4°) Étude d’un exemple
Soit une variable X uniforme continue sur l’intervalle [0, b] où b est un paramètre positif inconnu et
un échantillon En de variables Xk indépendantes de même loi que X.
b
b2
On sait que E( X) = et que Var ( X) =
2
12
On peut considérer la situation suivante : le réservoir d’une voiture utilisée par plusieurs personnes
d’une entreprise, a une contenance inconnue de b (litres). Pour déterminer une estimation de b, on fait le
plein à chaque fois qu’on emprunte la voiture, sans connaître le contenu effectif (non vide) du réservoir
d’essence. On constitue ainsi un échantillon indépendant de variables uniformes de même loi que X.
On peut aussi traiter l’exercice -VI- 1°) page 45.
-IV- Vraisemblance d’un échantillon
La situation de l’estimation est, relativement, confortable quand on connaît un estimateur pour un paramètre d’une loi. Dans le cas contraire il serait intéressant de connaître une méthode permettant de déterminer un estimateur, sans toutefois avoir la garantie que ce soit le meilleur possible.
1°) Vraisemblance d’un échantillon
Avec les mêmes notations que précédemment, on considère un paramètre inconnu θ, un échantillon
En et son observation en.
a) Cas d’une variable discrète
La probabilité d’avoir effectivement l’observation en dépend généralement de θ, et on peut supposer
que, θ étant donné, cette probabilité sera très faible pour des observations aberrantes, et au contraire
plus élevés pour des observations conformes à la réalité.
Par exemple, on considère une pièce équilibrée (mais on ne le sait pas) et on la lance n fois en comptant
la moyenne des « Pile (=1) ». Un échantillon donnant en moyenne 5% de Pile n’est pas improbable, même
si sa probabilité est très faible. Toujours est-il que l’observateur, n’ayant aucune information sur la pièce,
conclura, à tort, qu’elle n’est pas équilibrée. Un deuxième échantillon donnant en moyenne environ un Pile
sur deux lancers aura une probabilité plus élevée.
Ceci nous amène à la notion de vraisemblance d’un échantillon.
On définit, pour un paramètre θ et un échantillon en, la fonction de vraisemblance de en par :
L: R n +1 ⎯
⎯→
0, 1
b
( x1 , x 2 ,K , x n , θ) a L(x1 , x 2 ,K , x n , θ) = p ( X1 ,K , X n ) = ( x1 ,K , x n )
g
Cette vraisemblance est donc la probabilité de l’échantillon observé. Elle dépend de θ, et la valeur la
plus vraisemblable du paramètre serait celle qui maximise cette probabilité, en admettant que la fonction de θ ait un maximum. On va donc chercher la valeur de ce maximum pour en déduire un estimateur. La fonction L étant bornée, elle a une borne supérieure dans tous les cas et un maximum absolu si
L est continue par rapport à θ.
Pour déterminer θ, une hypothèse supplémentaire sera nécessaire, à savoir que L a des dérivées partielles d’ordre 2 par rapport à θ.
On peut aussi étudier à part le cas où L est nulle pour une valeur de θ. En ce point la probabilité ne sera
pas maximale, et donc la valeur correspondante de θ ne sera pas l’estimation cherchée.
La fonction logarithme étant croissante, les maxima de L et ln (L) seront obtenus pour la même vapage 41
SQ-20 Probabilités - Statistiques
leur de θ, et il est généralement plus simple d’utiliser la fonction ln(L) plutôt que L, surtout dans le cas
où les variables de l’échantillon sont indépendantes.
∂L
∂ ln L
=0
=0
∂θ
∂θ
ou
équations de vraisemblance
Alors θ sera solution des systèmes
∂2 L
∂ 2 ln L
≤0
≤0
∂ θ2
∂ θ2
La solution de ces systèmes, en admettant qu’elle soit unique, sera de la forme θ$ = ϕ( x ,K , x ) , ce
R|
|S
||
T
R|
|S
||
T
b
1
g
n
qui permet de définir l’estimateur de maximum de vraisemblance T(E n ) = ϕ X1 ,K , X n .
Dans le cas où on cherche à estimer plusieurs paramètres simultanément, par exemple espérance et
variance, on est amené à déterminer le maximum d’une fonction de plusieurs variables. La méthode a
déjà été étudiée dans des cours précédents et il n’est (peut-être) pas nécessaire d’y revenir.
Exemple :
Soit X une variable aléatoire qui suit une loi de Poisson de paramètre inconnu λ. On considère une observation d’un échantillon indépendant en = (x1, …, xn). On a donc :
b
g
n
L(x1 ,K , x n , λ ) = p ( X1 = x1 )∩K∩( X n = x n ) = ∏
bg
n
n
k =1
k =1
k =1
n
e − λ λx k
λx k
et donc
= e− n λ ∏
xk !
k =1 x k !
ln L = − n λ + ∑ x k l n ( λ ) − ∑ x k !
R| ∂ ln L = 0 R− n + ∑ x = 0
|S ∂ θ ⇔ ||S λ ⇔ λ = 1 ∑ x
n
|| ∂ ln L ≤ 0 ||− 1 ∑ x ≤ 0
Tλ
T ∂θ
k
Les équations de vraisemblance s’écrivent donc :
2
2
2
k
=x
k
On a donc l’estimateur de maximum de vraisemblance de λ T(E n ) = X .
Il reste à déterminer le biais et la convergence de l’estimateur trouvé, ce qui dans ce cas est facile.
b) Cas d’une variable continue
La situation est différente, car la probabilité de l’observation est nulle. On remplace donc les
probabilités par les densités. Pour le reste la méthode est identique. Si l’échantillon En a une densité g la
fonction de vraisemblance s’écrit : L(x1, ..., xn, θ) = g(x1, ..., xn) ou f(x1) ... f(xn) si f est la densité de X
et les variables Xk sont indépendantes.
-V- Exercices
1°) On considère une v. a. X de densité f ( x) = α 2 x − x 2 si x ∈ 0,+2 et f ( x) = 0 sinon .
Question préliminaire : Représenter graphiquement la fonction f (en prenant α = 1)
Rappel de MT 12 : intégration des fonctions de la forme f ( x) = ax 2 + bx + c
Mettre le polynôme sous forme canonique et poser x = sin t , x = cht ou x = sht selon le résultat.
a) Déterminer α pour que f soit effectivement une densité de probabilité.
b) Montrer que E(X) = 1 et Var(X) = 0,25.
page 42
UV SQ 20
b
g
c) Soit X1 , X 2 ,K , X n , n étant un entier assez grand, une suite de v.a. indépendantes de même loi
n
que X, et on définit S n et X n par S n =
∑X
k
et X n =
k =1
1
Sn .
n
Déterminer les lois de Sn et de X , leur espérance et leur variance.
c
h
d) Pour cette question on prend n = 250. Calculer : p(245 ≤ S250 ≤ 260) et p X250 > 1,05 .
c
h
Comparer ce dernier résultat à p X1000 > 1,05 .
c
h
e) Pour quelle valeur de n ∈ N aurait-on p 0,98 ≤ X n ≤ 1,02 = 0,95 ?
2°) Soit X une variable normale d’espérance m=1,8 et de variance σ² = 0,01. On définit les variables
40
S
X k et X =
avec X1 , X 2 ,K , X 40 étant une suite de variables aléatoires
aléatoires Y = 40X, S =
40
k =1
indépendantes de même loi que X.
∑
b
g
a) Déterminer les espérances et les variances de Y, S et X . Il est possible de représenter les résultats
sous forme de tableau.
b) Calculer p(1,7 < X < 1,9), et déterminer α > 0 tel que p(1,8-α< X < 1,8+α)=0,95.
c) Calculer p(68 < Y < 76), et déterminer β> 0 tel que p(72-β< X < 72+β) = 0,95.
d) Calculer les probabilités p(68 < S < 76)
Déterminer γ>0 vérifiant p(72 − γ < S < 72 + γ ) = 0,95 puis δ tel que p(1,8 − δ < X < 1,8 + δ ) = 0,95 .
e) Calculer les rapports
β2 γ 2
α2
,
et
. Existe-t-il des relations entre α, β, γ et δ ?
α2 α2
δ2
3°) Une machine automatique remplit des paquets. Les masses en grammes sur un échantillon de 10 paquets sont les suivantes: 297 300 295 297 300 310 300 295 310 300 .
Déterminer la moyenne observée, l'écart type observé et en déduire une estimation de la moyenne et
de l'écart type de la population.
4°) Un contrôle portant sur un emballage automatique de café fournit les masses suivantes:
masse en g
247 248 249 250 251 252 253 254
nombre de paquets
2
6
8
13
11
5
3
2
a) Donner une estimation de la masse moyenne d’un paquet et celle de l’écart type.
b) En supposant la loi normale, déterminer, à l’aide des estimations, les pourcentages de paquets de
masse supérieure à 250 g, de masse comprise entre 249 et 251.
5°) Soit N une variable binomiale B(10, p) où p est un paramètre inconnu qu’on cherche à estimer. On
prélève un échantillon (N1, . . .,Nn) de variables B(10, p) indépendantes d’observation (n1, . . .,nn).
a) Déterminer la fonction de vraisemblance L(n1, . . .,nn ,p) de cet échantillon.
b) Écrire les équations de vraisemblance et en déduire l’estimateur de max. de vraisemblance de p.
c) On a obtenu, pour les nk, les résultats suivants :
1
3
3
3
3
4
4
2
6
3
3
2
3
4
3
1
1
5
3
2
Déterminer une estimation ponctuelle de p.
6°) Dans un étang se trouvent un nombre N poissons qu’on cherche à estimer. Le mode opératoire est le
suivant : on pêche 100 poissons qu’on bague et qu’on remet dans l’étang. On effectue une deuxième pêche de 100 poissons et on compte le nombre X de poissons bagués.
a) Soit k un entier naturel. Calculer en fonction de N la probabilité pN(X=k).
page 43
SQ-20 Probabilités - Statistiques
b) Dans le cas k = 10, calculer f ( N ) =
p N ( X = 10)
.
p N −1 ( X = 10)
bx − 100g
c) Etudier et représenter graphiquement la fonction f définie sur R par f ( x) =
2
x 2 − 190x
d) Pour quelle valeur de N la probabilité p(X=10) est-elle maximale ?
e) En déduire une estimation de N.
.
7°) Estimation du paramètre d’une loi géométrique : on considère un dé cubique dont on ne sait pas s’il
est pipé ou n équilibré, et on le lance jusqu'à obtention d’un six (succès, dont la probabilité est p). On
note alors X la variable aléatoire = nombre de lancers jusqu’au succès.
a) Déterminer la loi de X, son espérance et sa variance.
b
g
= b x ,K , x g . Calculer en fonction
b) On répète n fois l’expérience précédente pour obtenir un échantillon E n = X1 ,K , X n où Xk suit
la même loi que X. Une observation de cet échantillon est notée e n
de p l’expression L( x1 ,K , x n , p) = p( X1 = x1 )K p( X n = x n ) .
1
n
c) En déduire les équations de vraisemblance de l’échantillon en puis l’estimateur de maximum de
vraisemblance T de p.
d) On a obtenu, pour n = 20 les résultats suivants pour en :
3 2 4 6 1 2 3 5 4 2 2 1 6 2 1 6 9 4 4 2
Déterminer une estimation ponctuelle de p. Peut-on dire que ce dé est pipé ?
8°) Etude d’une loi exponentielle : Soit une v. a. exponentielle X de paramètreλ =
bX ,K, X g de n variables indépendantes de même loi que X.
1
1
et un échantillon
μ
n
a) Ecrire la densité, l’espérance et la variance de X en fonction de μ (et non pas λ !).
b) Déterminer la fonction L(x1 , .. . ,xn , μ), puis les équations de vraisemblance.
c) En déduire un estimateur de μ. Est-il sans biais, convergent ?
d) Application numérique : Dix dispositifs indépendants dont la durée de vie (exprimé en mois) est
exponentielle ont fonctionné pendant les temps suivants :
20
4
12 2
16 26 48 9
34 6
Déterminer une estimation de μ, puis une estimation du paramètre λ.
9°) On s'intéresse à la proportion p de personnes possédant un lecteur DVD. On tire au sort un échantillon ( X1 , X 2 ,K , X n ) de taille n dans une population très grande. À chaque personne interrogée on asso1 si possède un lecteur DVD
cie la variable aléatoire Xk définie par: X k =
.
0 sinon
RS
T
a) Déterminer un estimateur T(X1 , X 2 ,K , X n ) de p. Etudier ses propriétés (biais, convergence).
b) On prend maintenant deux échantillons ( X1 , X 2 ,K , X n1 ) et ( X'1 , X'2 ,K , X' n 2 ) (indépendants) de
tailles n1 et n2 (n1<n2) et on note f1 et f2 les proportions de possesseurs de lecteurs DVD pour les deux
échantillons. Soit F = α F1 + β F2 α > 0 et β > 0 un estimateur de p. Déterminer α et β pour que F soit
un estimateur sans biais de p. En déterminer la variance.
c) Déterminer les coefficients α et β pour que F soit un estimateur sans biais et de variance minimale.
(corrigé page 71)
d) Application numérique: n1 = 500 , n 2 = 1000 f1 = 0,3 et f2 = 0,23 .
10°)
Une variable a une espérance μ et une variance σ². Les variables X1,. . . , X5 étant indépendantes
et de même loi que X, on considère les estimateurs de μ suivants:
page 44
UV SQ 20
b
g
b
g
b
g
1
1
1
1
X1 +K+ X5 , T2 = X1 + X 2 + X 3 , T3 = X1 + X 2 , T4 = X1 +K+ X 4 + X5 et T5 = X5
5
3
8
2
a) Quels sont les estimateurs sans biais de μ ?
b) Quel estimateur est le plus intéressant ?
T1 =
2
1 − ( x −2m)
e
(loi normale réduite décalée), où le
11°)
Soit une variable aléatoire X de densité f m ( x) =
2π
paramètre m est inconnu.
a) On considère un échantillon de n variables aléatoires indépendantes de même loi que X,
d’observation x1 , x 2 ,K , x n . Déterminer la fonction de vraisemblance de cet échantillon.
b
g
b) Déterminer l’estimateur de maximum de vraisemblance de m.
(Corrigé page 72 )
-VI- Problèmes:
1°) Un événement peut se produire à tout instant X dans un intervalle I = [ 0 , b] , b inconnu.
a) Déterminer la densité, l’espérance et la variance de X (uniforme) en fonction de b.
b) Pour estimer la valeur de b inconnue, on considère un n-échantillon X1 , X 2 ,K , X n et la variable
b
aléatoire X =
1
n
g
n
∑X
. Calculer E( X) et construire un estimateur sans biais Y de b. En déterminer
i
i =1
l’espérance et la variance.
b
g
a) Un second estimateur de b est défini par Z = sup X1 , X 2 ,K , X n . Calculer, pour z∈[0, b],
p(Z < z), et en déduire la fonction de répartition et la densité de Z.
En déterminer l’espérance E(Z) et construire à partir de Z un estimateur dans biais Z’ de b.
d) Comparer les variances des estimateurs Y et Z’, lequel est le meilleur ?
e) Application : La procédure de départ d’un Grand Prix de Formule 1 est la suivante : Cinq feux
rouges sont allumés successivement, l’extinction simultanée de ces cinq feux donne le signal du
départ. Le temps qui s’écoule entre l’allumage complet et l’extinction est une variable uniforme
sur [0, b]. (Ce temps est choisi par le directeur de course dans les limites du règlement)
Au cours des 16 G.P. d’une saison les intervalles de temps, en secondes ont été :
0,3 0,9 2,1 2,6 2,7 0,6 1,6 0,1 1,2 2,1 0,8 0,6 1,1 0,5 1,2 2,7
Déterminer une estimation de b.
R| 1 xe si x > 0
, où θ est un
2°) Soit la variable aléatoire X dont la densité est donnée par: f ( x) = S θ
|T0 sinon
paramètre inconnu dont on cherche une estimation ponctuelle. On sait toutefois que θ est positif. Soit un
échantillon ( E ) = b X , X ,K , X g d'observation (e ) = b x , x ,K , x g de variables indépendantes de
−
2
n
1
2
n
n
1
2
x
θ
n
même loi que X.
a) Écrire la fonction de vraisemblance L(x1, …, xn, θ) de l’échantillon (en). Ecrire les équations de
vraisemblance de l'échantillon et en déduire l'estimateur de maximum de vraisemblance T.
b) Calculer E(X) en fonction de θ. En déduire que l’estimateur calculé au a) est sans biais.
c) L'observation, pour n = 10 a donné les valeurs: 2,7 6,5 2 0,5 8,8 1,3 3,6 4,5 3 5,3.
Déterminer une estimation ponctuelle du paramètre θ.
z
∞
d) On pourra utiliser librement le résultat ∀n ∈ N , Γ ( n + 1) = x n e − x dx = n!
0
page 45
SQ-20 Probabilités - Statistiques
Chap.6
Intervalles de confiance
-I- Introduction
Dans le chapitre précédent, nous avons défini les estimateurs et l’estimation ponctuelle d’un paramètre. Le problème est que, un paramètre étant estimé, on ne dispose d’aucune précision quant à la mesure
de ce paramètre. Il serait plus intéressant d’avoir un résultat de la forme : « le paramètre θ se trouve
avec la probabilité 1− α dans l’intervalle Iα = ]a , b[». Dans ce cas on se donne a priori un risque α (de
se tromper), la valeur de α dépendant de la précision souhaitée. Sans anticiper sur les résultats qui vont
suivre, on peut penser que plus le risque est faible et plus la longueur de l’intervalle Iα est grande.
Dans les cas extrêmes, si α = 1 , Iα est réduit à un point et si α = 0 , Iα = R.
-II- Variable de confiance
1°) Position du problème
Soit :
• X une variable aléatoire de paramètre θ inconnu qu’on cherche à estimer
• Un échantillon En = (X1, …, Xn) de n variables (souvent indépendantes), de même loi que X
• T(X1, …, Xn) un estimateur sans biais de θ (rappel E(T) = θ).
• Une observation en = (x1, …, xn) fournissant une estimation t de θ
Problème : à partir de t, déterminer un intervalle d’estimation du paramètre au niveau 1− α, c’est-à-dire
un intervalle de confiance I α ,T = T − ε1 , T + ε 2 tel que p T − ε1 < θ < T + ε 2 = 1 − α avec ε1 et ε2 réels
b
g
positifs pouvant être égaux si la loi de T est centrée sur θ. On obtient ensuite une observation de
l’intervalle de confiance Iα = ]t − ε1, t + ε2[.
On a donc un niveau de confiance 1− α, de valeur par défaut dans la pratique 0,95 et un risque α (valeur usuelle 0,05). Pour des mesures plus sensibles ou dont les enjeux (humains ou financiers) sont très
importants, il est d’usage de considérer α = 0,01.
Si dans la réalité on ne prend en compte que le dernier résultat Iα = ]t − ε1, t + ε2[, il faut garder à
l’esprit que les valeurs t, ε1 , ε2 et θ n’ont rien d’aléatoire, et que, par contre, Iα,T est un intervalle dont
les bornes sont des variables aléatoires T − ε1 et T + ε2.
Plusieurs observations donneront des estimations ponctuelles, et donc des observations d’intervalles
de confiance différents, mais les mêmes intervalles de confiance. D’ailleurs, dans la pratique du calcul,
on détermine l’intervalle Iα,T , puis on effectue l’observation.
2°) Mise en place du calcul :
Avec les mêmes hypothèses de départ, on détermine la loi de T, d’espérance θ, et dont on suppose
que l’espérance existe, puis on cherche, directement ou à l’aide de tables de valeurs numériques, les valeurs ε1 et ε2 . En fait, il existe une infinité de tels intervalles ]T − ε1, T + ε2[ , mais on choisit celui qui
α
vérifie p(T − ε1 < θ) = p(T − ε 2 > θ) = avant de calculer Iα = ]t − ε1, t + ε2[.
2
Si la loi de T n’est pas simple, en particulier dans le cas où on ne peut pas l’approcher par une loi
normale, on construit une autre variable de confiance Y, déduite de T par des transformations, souvent
affines, et dont on connaît la loi. Des exemples seront donnés pour les études les plus fréquentes, espépage 46
UV SQ 20
rance, variances, paramètres d’une loi de Poisson ou exponentielle.
Remarque : Iα contient nécessairement l’estimation ponctuelle t, mais pas toujours la valeur réelle du
paramètre θ.
3°)
Interprétation :
Dans la pratique, on peut interpréter p T − ε1 < θ < T + ε 2 = 1 − α par :
b
g
En moyenne, sur un grand nombre d’échantillons (de même taille n) prélevés, la valeur réelle θ sera
dans Iα dans 100(1− α)% des cas et, à cause des fluctuations aléatoires, sera en dehors dans les cas restants. Pour s’en convaincre, on peut faire une simulation sur ordinateur, avec une loi simple et à l’aide
de la fonction random implantée dans tous les tableurs.
On peut aussi interpréter graphiquement les intervalles de confiance. Prenons deux cas courants, celui où la loi de T est symétrique par rapport à θ, et le cas dissymétrique.
Réalité :
observation
4°) Propriétés
La longueur de l’intervalle de confiance dépend directement de certains paramètres de la loi, ainsi
que des choix qui sont faits pour la taille de l’échantillon. En fait, les considérations pratiques (précision
souhaitée, qualité des instruments de mesure, enjeux évoqués plus haut, …) imposent une taille pour
l’intervalle de confiance, ceci ayant pour conséquence d’obliger l’expérimentateur ou la maître
d’ouvrage de jouer sur les autres paramètres.
Ayant choisi un estimateur sans biais, l’intervalle est construit à partir de θ, mais cela ne veut pas
dire pour autant que sa longueur en dépend.
Toutefois, et quand c’est possible, on choisit un estimateur convergent, de telle sorte que la taille de
l’échantillon influe sur la précision de la mesure, autrement dit sur la longueur de l’intervalle. Dans ce
cas, cette longueur diminue quand la taille augmente. Les autres paramètres étant constants, c’est la longueur souhaitée pour l’intervalle qui influera sur la taille n de l’échantillon et non pas l’inverse.
En ce qui concerne α, tout dépend du risque qu’on est prêt à prendre. Pour des mesures sur des vaccins, ou pour l’implantation d’une chaîne de production coûteuse, le risque doit être faible, alors que
pour le simple réglage d’une machine, on peut se laisser une marge d’erreur importante. Dans ce cas, le
risque et la taille de l’intervalle évoluent en sens contraire.
Prendre un échantillon trop grand augmente, sans utilité réelle, le coût de l’étude, et, au contraire, en
prendre un trop petit ne donnera pas la précision escomptée.
La variance de T est aussi à prendre en compte. La précision croît quand la variance diminue, la
longueur de l’intervalle et la variance variant dans le même sens. Ayant le choix entre plusieurs estimateurs, on aura intérêt à choisir celui dont la variance est la plus faible, pour minimiser la taille de
l’échantillon.
-III- Intervalle d’une variance
La plupart des variables utilisées en statistique sont des variables normales, et quand elles ne le sont
pas, la taille n et l’indépendance des variables des l’échantillons permettent souvent d’utiliser le théopage 47
SQ-20 Probabilités - Statistiques
rème central limite. On étudiera donc pour la variance les cas où X est normale N(M, σ²), M étant
connue (cas assez rares) ou inconnue. Il n’est généralement pas très judicieux d’utiliser des petits
échantillons, sauf si les tests sont destructifs et très coûteux en temps ou en argent.
1°) Cas X normale où M est connue :
On suppose en outre que l’échantillon est formé de variables indépendantes.
1 n
2
D’après le chapitre précédent l’estimateur sans biais de σ² est Σ 2 = ∑ X k − M dont la loi ne fait
n k =1
b
g
FG
H
IJ
K
2
n
n Σ2
Xk − M
est la
=
∑
2
σ
σ
k =1
somme des carrés de n variables normales centrées réduites indépendantes, et donc Y suit une loi χ² à n
degrés de liberté. Sa densité et sa fonction de répartition ne sont pas particulièrement simples, mais
l’importance de cette loi dans la pratique fait qu’elle est tabulée, généralement pour des valeurs de n allant jusqu’à 100.
pas partie des lois usuelles, mais par contre (transformation affine) Y =
Dans le cas où l’échantillon est de taille supérieure à 100, sachant que E(Y) = n et Var(Y) = 2n, le théorème
central limite montre que Y − n suit approximativement une loi N(0; 1)
2n
α
et d’en déduire ε1 et ε2.
2
Il est rare dans la pratique qu’on puisse déplorer d’avoir une variance trop petite, puisque ce serait le
signe d’une très grande régularité de production. Alors on cherche surtout à avoir une majoration de la
variance. On cherche alors un intervalle unilatéral de la forme [0, ε[ avec p(Σ² > ε) = α.
Il est donc facile de trouver y1 et y2 tels que p(Y < y1 ) = p(Y > y 2 ) =
2°) Cas X normale où M est inconnue :
c
h
2
1 n
X k − X mais
∑
n − 1 k =1
alors les variables à l’intérieur des parenthèses ne sont plus indépendantes puisque leur somme est
( n − 1) S2
et suit une loi χ 2n-1 . Le reste de
nulle. On montre que la variable de confiance devient Y =
2
σ
l’étude de l’intervalle de confiance est identique.
La différence avec le cas précédent est que l’estimateur sans biais est S2 =
3°) Exemple de calculs
Une entreprise utilise une matière isolante dans l’assemblage de moteurs électriques. Il est important que
l’épaisseur corresponde aux normes de montage, mais aussi que les variations ne soient pas trop importantes.
Un échantillon aléatoire, dont l’épaisseur est normale N(M, Var(X)=σ²), de 20 éléments a été prélevé dans
une grande production et les résultats en mm, ont été les suivants :
5,5 5,8 6,1 6,5 5,8 5,8 5,5 6,1 5,7 5,4 5,5 5,9 6,2 6,1 5,8 6,1 5,9 6,1 6,2 6
a) Déterminer des estimations ponctuelles de M et de σ².
b) Calculer un intervalle de confiance de σ² au niveau 0,95. Peut-on considérer que l’écart type de la
production ne dépasse pas 0,5 mm ?
a) D’après la calculatrice : estimation de la moyenne = 5,9, estimation de la variance : s² = 0,0821
( n − 1)S2 19 S2
2
b) La moyenne étant estimée, on a la variable de confiance de σ² : Y =
= 2 ≈ χ19
2
σ
σ
2
2
19 S
19 S
D’après la table du χ², on a : 0,95 = p 8,907 < Y < 32,852 = p
< σ2 <
32,852
8,907
b
On a donc l’intervalle de confiance de σ² à 0,95 : I =
g FGH
IJ
K
OP 19 S , 19 S LM d'observation I = 0,0475; 0,175
Q 32,852 8,907 N
2
2
On peut donc considérer que la variance ne dépasse pas 0,25 et donc que σ ne dépasse pas 0,5.
page 48
UV SQ 20
-IV- Intervalle d’une moyenne
1
∑ Xk ,
n
dont on sait qu’il est sans biais et, quand les variables de l’échantillon sont indépendantes, convergent.
On se replace dans les conditions du début de chapitre : on a une variable aléatoire X qu’on suppose généralement normale N(M, σ²), d’espérance M qu’on cherche à estimer par un intervalle de confiance au
niveau 1 − α à l’aide d’un échantillon de taille n∈N.
On construit la variable de confiance à partir de X en la centrant et en la réduisant. Le problème est
d’abord de savoir si on connaît σ² ou si ce paramètre doit être estimé (par S²).
Pour l’estimation de l’espérance d’une variable aléatoire, on dispose de l’estimateur X =
1°)
Cas où X est normale de variance connue :
Si on suppose que les variables Xk de l’échantillon
sont indépendantes, on a alors le tableau ci-contre :
X−M
On utilise alors la variable de confiance Y =
σ
n
dont on sait qu’elle est normale centrée réduite.
Variables
Xk
Loi
normale
Espérance
M
- id -
nM
X
- id -
M
σ2
Y
- id -
0
1
∑X
k
Variance
σ²
nσ²
n
-V- Intervalle d’une proportion
-VI- Exercices
1°) Une machine fabrique des pièces en grande série. Des études antérieures ont permis de montrer que
la masse, en g, de ces pièces est une v.a. normale N (m = 1 200; σ ² = 40).
a) On prélève un échantillon de n = 100 pièces.
1 n
X k des masses des échantillons ?
Quelle est la loi suivie par la moyenne X =
n k =1
Déterminer un intervalle de centre m dans lequel se trouvent 95% des moyennes d'échantillons.
b) Quelle devrait être la valeur minimale de n pour que la moyenne d'échantillon se trouve dans
l'intervalle [1 196, +1 204] avec la probabilité 0,95 ?
∑
2°) On rappelle que si une v. a. U est normale centrée réduite, alors U² suit une loi χ 12 . Soit la variable
aléatoire X qui suit une loi χ 12 , d’espérance 1 et de variance 2, ainsi que n variables aléatoires Xi indépendantes de même loi que X et leur somme Sn.
a) Quelle est la loi de Sn, en déterminer l’espérance et la variance.
b) A quelle loi peut-on assimiler Sn dans le cas où n = 1000 ? Calculer alors les valeurs t1 et t2 telles
que p(Sn < t2 ) = 0,975 et p(Sn < t1 ) = 0,025.
c) Un tirage de 1001 pièces dans une production en grande série a donné une variance observée de
0,27. Déterminer une estimation ponctuelle de la variance σ² de la population totale.
d) Déterminer un intervalle de confiance à 0,95 de σ² .
page 49
SQ-20 Probabilités - Statistiques
3°) Une usine produit des petites pièces dont le diamètre est normal. On mesure le diamètre x de 100
pièces prises au hasard dans la production et on obtient les résultats suivants:
x (en mm) 6
6,1
6,2
6,3
6,4
6,5
6,6
6,7
6,8
6,9
7
nb de pièces
1 ⏐ 4 ⏐ 4 ⏐ 10 ⏐ 17 ⏐ 20 ⏐ 20 ⏐ 14 ⏐ 8 ⏐ 2
a) Calculer la moyenne et l’écart type de cet échantillon.
b) Estimer par un intervalle de confiance à 95% le diamètre moyen de la production.
4°) Le temps de façonnage d’un livre dans une entreprise spécialisée dans les ouvrages d’art en petite
série est une variable normale d’espérance et de variance inconnues. Une observation sur 100 livres a
donné un temps moyen de 5 heures avec une estimation de la variance s² = 0,25.
La production étant de 300 unités, déterminer un intervalle de confiance de M au niveau 0,95.
5°) Un constructeur automobile désire connaître les goûts de ses clients potentiels en matière de taille de
véhicule. On note p la proportion de clients préférant les petites voitures. Sur un échantillon de n personnes (n assez grand), on note Xn le nombre de personnes préférant les petites voitures.
n
1
a) Déterminer les lois de X n et de X =
X k . Quelle est la taille minimale de l’échantillon pern k =1
mettant d’avoir sur p une précision de ± 0,02 au niveau 0,95 ? (On pourra majorer p(1-p) par 0,25).
b) Un échantillon de 500 personnes étant prélevé dans une population très grande, 192 ont préféré
les petites voitures. Déterminer un intervalle de confiance de p à 0,95.
∑
6°) Les deux cinémas d'une ville, le Lion et le Ballon ont une clientèle globale de 600 personnes pour les
séances du samedi soir. Ces 600 personnes ont le choix entre les deux salles (le film importe peu).
a) On suppose que les personnes sortent en couples et décident de la salle en lançant une pièce (on
ne sait pas si les pièces sont équilibrées). Si p est la probabilité de Pile (cinéma le Lion) on note X le
nombre de personnes qui se rendent au cinéma Le Lion le 21 décembre 2002. Etudier la loi de X.
b) Les 300 lancers ont donné 137 Pile et 163 Face. Déterminer un intervalle de confiance de la probabilité de Pile au niveau de confiance 0,95. En déduire qu'on peut considérer que les pièces sont équilibrées
c) Combien doit-il y avoir de places pour que la probabilité de refuser du monde dans une des deux
salles soit inférieure à 0,05 ?
d) Reprendre la même question (c) en supposant que les deux personnes de chaque couple lancent
une pièce, et, de ce fait, ne choisissent pas nécessairement la même salle.
7°) Los contratos de una empresa con sus clientes estipulan que, en los envíos de piezas no debe haber
más de un 8% de piezas defectuosas. Un cliente recibe un lote de piezas y constata que, de 500 piezas
probadas, 65 son defectuosas. ¿Puede considerarse, con riesgo 0,01, que el envío resulta conforme al
contrato ? ¿Cuál es el umbral máximo que hace que quede conforme el envío ?
8°) On classe les pièces d’une grande production en deux catégories A : « grande qualité » et B :
« qualité courante », et on cherche à évaluer la proportion p de A dans la production. Un échantillon de
400 pièces a donné 85 pièces de catégorie A.
a) Déterminer un intervalle de confiance de p au niveau de confiance 0,95.
b) Quel est la valeur du risque α devrait-on prendre pour que l’intervalle de confiance ait une lon(corrigé page 72)
gueur de 0,04 ?
9°) Pour la mise en œuvre d’un projet de développement, un pays en voie de développement doit connaître tout d’abord la proportion p des personnes vivant en dessous du revenu minimum vital. Dans une
étude pilote de 50 personnes, 30 sont considérées comme « pauvres » , c'est-à-dire « en dessous du minimum vital ».
a) Estimer la proportion de pauvres dans ce pays.
page 50
UV SQ 20
b) Calculer un intervalle de confiance à 90% de la proportion de pauvres dans ce pays.
c) Calculer un intervalle de confiance à 95% de la proportion de pauvres et comparer avec le résultat
précédent.
d) Un nouvel échantillon de 200 personnes est prélevé, et on observe une proportion de 0,6 de personnes en dessous du minimum vital. Calculer un intervalle de confiance à 95% de la proportion de
pauvres et expliquer la différence avec les résultats précédents.
Calculer la taille d’échantillon nécessaire pour avoir une précision de ± 5% sur la proportion p avec
un niveau de confiance de 90%.
-VII- Exercices d’entraînement
1°) La mesure de la puissance de 5 machines à laver, issues d'une même chaîne de fabrication a donné
les résultats suivants (en watts): 3 550 3 560 3 580 3 600 3 620
a) Déterminer une estimation de la moyenne et de l'écart type de la population complète.
b) Calculer un intervalle de confiance au risque 5% de la moyenne de la production.
Rep: m=3582 , s=28,64 Loi de Student → M∈]3 546,+3 618[
2°) Une étude sur les salaires mensuels de 50 ouvriers d'une usine a donné une moyenne de 6 000 avec
un écart type de 500 (en FF).
a) Quel risque prend-on en estimant la moyenne des salaires des 300 ouvriers de l'usine à
6 000 ± 100 ?
b) Quel serait le risque dans le cas d'une très grande usine ?
Rep: a) 12,4% b) 16,2%
3°) Une collectivité a subi une intoxication alimentaire, et on suppose que la maladie s'est déclarée de
manière aléatoire. Un examen, sur 100 personnes ayant mangé ce jour là a révélé que 20 d'entre eux ont
été affectés de troubles.
a) Déterminer une estimation de la probabilité d'être malade au seuil de 3%.
b) Quel peut être le nombre de personnes malades parmi les 2 000 personnes nourries ce jour là (au
risque de 3%) ?
Rep: a) p∈]0,115 ; 0,285[ b) entre 230 et 569 personnes
4°) Sur 120 pièces on a observé 20 pièces défectueuses. Déterminer un intervalle de confiance au seuil
de 5% de la proportion de déchets.
Rep:
0,1 < p < 0,23
page 51
SQ-20 Probabilités - Statistiques
Chap.7
Tests d'hypothèses
-I- Définitions
-II- Différents types de tests:
-III- Comparaison d'une moyenne à une norme:
-IV- Etude des proportions:
-V-
-VI-
-VII- Exercices
1°) Soit une épreuve de Bernoulli B (1,p). On effectue deux tirages et on teste:
H 0 : p = 21 contre H 1: p = 23 . On accepte H1 si et seulement si on a deux succès. Calculer les valeurs des risques α et β.
2°) Soit X une v.a. normale d'écart type 4 et de moyenne M inconnue. A l'aide d'un n-échantillon on veut
tester Ho: M = 30 contre H1: M = 32 au seuil 0,05.
a) Pour quelles valeurs de n le domaine d'acceptation de Ho contient 32 ?
b) Etudier, pour n > no la relation entre n et le risque de seconde espèce β. Faire une étude analytique
ou une étude graphique.
3°) Soit X une variable N(M, σ² = 1). On veut tester Ho: E(X) = 0 contre H1: E(X) = 1 au seuil 0,05.
a) Définir un test.
b) A partir de quelle valeur de n le test obtenu aura-t-il une puissance 1−β ≥ 0,9 ?
b
g
4°) Soit la variable X, qui suit une loi de Poisson de paramètre λ = 0,4, un échantillon X1 ,K , X n de
page 52
UV SQ 20
n
1 n
∑ Xk .
n k =1
k =1
a) Ecrire l’espérance et la variance de X. Dans le cas général n entier quelconque (non nul) déterminer la loi de Sn ainsi que ses paramètres.
b) Soit n = 25. Déterminer deux entiers n1 et n2 tels que p(n1 ≤ Sn ≤ n2) ≈ 0,95. Dans la cas où
l’observation a donné une moyenne de 0,52, peut-on considérer que λ est effectivement égal à 0,4 ?
a) Soit n = 500. Par quelle loi peut-on approcher celle de X500 . S i on suppose que λ = 0,4, déterminer un intervalle x1 , x 2 tel que p x1 < X500 < x 2 = 0,95 .
Une observation d’un échantillon de 500 v.a. a donné une moyenne de 0,52. Ce résultat est-il
conforme aux hypothèses ?
variables indépendantes de même loi que X et les variables S n = ∑ X k et X n =
c
h
5°) Une variable X est supposée normale, soit N(M = 20, σ² = 16) ou N(M = 20, σ² = 16) . On considère l’hypothèse nulle H0 : X ≈ N(M = 20, σ² = 16) et la variable de test T = somme de trois résultats.
a) Quelle est la loi de T et calculer t tel que p(T < t ) = 0,95. En déduire le domaine D0 de H0.
b) Calculer le risque β = p(accepter H0 |H1 vraie)
6°) Une machine automatique A permet de fabriquer des pièces cylindriques, dont le diamètre X suit une
loi normale d'espérance M = 5 et d'écart type σ = 0,005.
a) Déterminer un intervalle ]M − t , M + t[ qui contient le diamètre x d'une pièce dans 95% des cas.
b) On dispose d'un échantillon de 50 pièces dont on ignore la provenance. La mesure des diamètres
est consignée dans le tableau suivant:
diamètre
4,965
4,975
4,985
4,995
5,005
5,015
5,025
5,035
nb de cylindres
1 ⏐ 0 ⏐ 13 ⏐ 18 ⏐ 17 ⏐ 0 ⏐ 1
Calculer le diamètre moyen et l'écart type de cet échantillon. Déterminer un intervalle de confiance à
95% du diamètre moyen.
c) Peut-on faire l'hypothèse, au risque de 1%, que ces pièces proviennent de la machine A ?
7°) On considère une variable normale N(M, σ²=9) et un échantillon indépendant de 30 éléments. On
veut tester les hypothèses : Ho : M= 20 contre H1 : M = Mo au niveau 0,95.
a) Déterminer la zone d'acceptation de Ho dans le cas où Mo > 20.
b) Pour différentes valeurs de Mo (par ex. échelonnées de pas 0,5), déterminer la puissance du test.
c) Tracer les courbes de puissance et d'efficacité sur un même graphique.
8°) Etude du risque β: soit une variable aléatoire X normale N(M, σ² = 25) et un échantillon (X1, …
,Xn) de variables indépendantes de même loi que X, qui a donné une moyenne observée de 11.
a) Dans le cas n =30, étudier le test H0 : M = 10 contre H1 : M > 10. En déterminer le domaine d'acceptation, ainsi que la décision.
b) Toujours dans le cas n = 30, étudier le test H0 : M = 10 contre H1 : M = 11. En déterminer la décision et le risque β.
c) Le risque β étant jugé trop grand, on intervient sur la taille de l'échantillon pour le diminuer, les
(Solution page 73)
autres données étant inchangées. Pour quelle valeur de n aurait-on β ≈ 0,1 ?
9°) Un dentifrice doit contenir 15 mg une substance chimique que nous appellerons anéthol. De nombreux échantillons de 100 doses choisies au hasard montrent une stabilité de fabrication.
On constate que la concentration est normale d'espérance 15 et de variance connue σ² = 0,016
(mg²). On prélève un échantillon de 36 doses et on obtient les résultats suivants (en mg):
14,96 14,92 14,80 15,05 14,86 15,01
14,81 14,86 14,99 14,96 15,01 14,91
page 53
SQ-20 Probabilités - Statistiques
15,01
15,03
15,05
14,85
15,04
15,01
14,98
15,15
14,85
14,95
15,11
14,90
14,97
15,16
15,01
15,20
14,84
14,98
15,16
15,00
14,74
14,96
15,04
15,06
Cet échantillon est-il conforme aux normes de production ?
10°)
Certaines modifications techniques apportées au carburateur d’une motoneige permettraient
d’obtenir une amélioration de la consommation. Celle ci est une variable X gaussienne d’espérance M
et de variance σ². Des essais ont donné les résultats suivants en miles/gallon d’essence.
20,6
20,5
20,8
20,8
20,7
20,6
21,0
20,6
20,5
20,4
20,3
20,7
a) Quelle serait l’influence sur la moyenne et la variance de la translation X’= X - 20 ?
b) Calculer des intervalles de confiance de M, puis de σ², au niveau 0,99.
c) Si avant la modification technique la consommation était de 20,2, peut-on conclure à une amélioration très significative ( au seuil 0,01).
11°)
Les lectures photométriques suivantes représentent l’intensité lumineuse du filament principal de
deux marques de lampes miniatures utilisées pour des feux clignotants d’automobiles :
Fabricant A
28,64
29,28
29,20
28,92
29,51
Fabricant B
29,44
29,12
28,96
29,28
29,4
29,44
29,75
On sait par expérience que var(A) = 0,16 et var(B) = 0,2 pour B, et que les intensités sont N.
Peut-on conclure au niveau de confiance 0,95, que les intensités sont les mêmes ?
12°)
There are 240 students in a literature class (" Proust, Joyce, Kafka, and San Antonio"). Our model
states that X, the numerical grade for any individual student, is an independent Gaussian random variable with a standard deviation σ equal to 10 2 . Assuming that our model is correct, we wish to perform a significance test on the hypothesis that E(x) is equal to 60.
Determine the highest and lowest class averages which will result in the acceptance of this hypothesis:
• At the 0,02 level of significance
• At the 0,5 level of significance
13°)
D’après une théorie sur le développement de l’intelligence dans un groupe donné de personnes,
on s’attend à un QI (quotient intellectuel) moyen de 105. On s’attend donc à l’invalidité de la théorie QI
moyen = 100. On obtient donc le test statistique H0 : M = 100 contre H1 : M = 105. L’écart type du QI,
supposé normal est σ = 15, le seuil de risque étant fixé à 0,1.
a) Déterminer, pour une taille d’échantillon de n = 25
• le domaine de refus pour ce test
• le domaine d’acceptation et
• le risque de deuxième espèce β.
b) Quelles relations y a-t-il entre les risques de première et deuxième espèce ?
c) Vous observez un QI moyen de 104. Quelle décision prenez-vous ?
14°)
Une société reçoit régulièrement d'un fabricant des livraisons de boîtes de 100 composants. Un
accord fixe le niveau de qualité à 1 défectueux par boîte. Un contrôle à la livraison portant sur 1 000
composants donne 15 défectueux. L'accord est-il respecté au niveau de tolérance de 95% ?
15°)
A la suite d'un changement d'heure de diffusion d'une émission de télévision, on effectue un sondage auprès de 400 personnes. parmi ces personnes, 152 ont regardé l'émission.
a) Déterminer un intervalle de confiance à 95% de la proportion de personnes possédant un téléviseur qui ont effectivement regardé l'émission.
b) L'audience avec l'ancien horaire de diffusion était en moyenne de 30%. Peut-on dire au seuil de
5% que le changement a augmenté l'audience ?
page 54
UV SQ 20
-VIII- Etude des petits échantillons:
1°) Neuf malades auxquels fut administrée une potion accusèrent des augmentations de leur tension
artérielle: 7
+3 −1 +4 −3 +5 +6 −4 +1 .
Montrer que ces données n'indiquent pas que la potion soit responsable de ces augmentations.
2°) Pour juger de l'efficacité d'un nouveau semoir par rapport à l'ancien, on a partagé un terrain en 2
bandes qui ont été alternativement attribuées au nouveau et à l'ancien semoir. Pour 10 paires de ces
bandes, les valeurs de l'excès de grain en faveur du nouveau semoir sont:
2,4
1,0
0,7
0,0
1,1
1,6
1,1
0,4
0,1
0,7
En supposant que ces augmentations suivent des lois normales indépendantes, déduire la supériorité
du nouveau semoir par rapport à l'ancien.
3°) Un dosage de sucre dans une solution effectué sur 8 prélèvements, provenant d'une même fabrication, a donné les résultats suivants, exprimés en g/l:
19,5
19,7
19,8
20,2
20,2
20,3
20,4
20,8.
a) Déterminer une estimation de la moyenne et de l'écart type de la fabrication.
b) L'échantillon est-il représentatif de la production au seuil de 5%, si on admet que la concentration
habituelle en sucre suit une loi normale de moyenne 19,6 g/l ?
-IX-
Problèmes:
Problème 1
Une machine automatique A permet de fabriquer des pièces cylindriques. On admet que le diamètre de ces pièces suit une loi normale d'espérance M = 5 (cm) et d'écart type σ = 0,005.
a) Déterminer l'intervalle ]M − α , M + α[ dans lequel le ∅ x d'une pièce se trouve dans 95% des cas.
b) On dispose d'un échantillon de 50 pièces. La mesure des diamètres est consignée dans le tableau
suivant, où les valeurs xi représentent les centres des classes [4,965;+4,975[; ...
xi
4,97
4,98
4,99
5
5,01
5,02
5,03
ni
1
0
13
18
17
0
1
Calculer une estimation de la moyenne et de l'écart type de la production totale.
Déterminer un intervalle de confiance à 95% du diamètre moyen d'une pièce de la fabrication.
b) Peut-on faire l'hypothèse que les pièces de cet échantillon proviennent de A ?
-X- Exercices avec solutions:
1°) Un échantillon de 40 moteurs représentant une fabrication a donné un temps de fonctionnement
moyen de 260 jours. Peut-on considérer cet échantillon comme appartenant à la fabrication habituelle
dont la loi de fonctionnement, en jours, est normale d'espérance 240 et d'écart type 50 ?
corrigé page 73
Faire l'étude pour des seuils de 5% et 1%.
2°) Soit X une variable aléatoire normale de moyenne m et de variance 25. Sur la base d'un échantillon
de taille 9, on veut tester l'hypothèse Ho: m = 0 contre H1: m = 3.
a) Construire une région critique au seuil 0,05.
Rep: valeur maximale 2,742 b) β = 0,438
b) Calculer la probabilité d'erreur β.
3°) a) En jetant une pièce de monnaie 3 fois, on veut tester l'hypothèse Ho: p(pile) = 0,5 contre l'hypothèse contraire H1: p(pile) = 0,75. On convient de rejeter Ho si on obtient trois fois pile. Calculer les
probabilités d'erreur de première et de deuxième espèce.
b) Déterminer une région critique si on jette la pièce 25 fois et si α = 0,05. Calculer ensuite β.
page 55
SQ-20 Probabilités - Statistiques
Rép: a) α=1/8 β = 37/64 b) R = {X≥17} β = 0,15
4°) Lorsqu’une machine est bien réglée elle produit des pièces dont le diamètre moyen est 25 mm.
Deux heures après un réglage de la machine on a prélevé au hasard un échantillon de 9 pièces. Les
diamètres ont pour mesures, en mm : 22 – 23 – 21 – 25 – 24 – 23 – 22 – 26 - 21.
Que peut-on conclure, au niveau de confiance 95%, quant à la qualité du réglage de la machine après
deux heures de fonctionnement ?
Rep: ∅ v.a. normale, moy = 23, s=1,73, n<30 Test de Student T(8) D0=]23,7 ; 26,3( donc déréglée
page 56
UV SQ 20
Chap.8
Tests paramétriques
-I- Comparaison de deux moyennes:
1°) Deux filiales fabriquent des piles électriques de 4,5 V, dont les durées de vie sont normales et de
variance 64 pour A et 25 pour B. Deux échantillons ont donné les résultats suivants:
filiale A: taille 100 durée de vie moyenne: 84 heures
filiale B:taille 150 durée de vie moyenne: 80 heures
a) La différence des moyennes des durées de vie est-elle significative au seuil de 5% ?
b) Quelle serait la différence maximale, au seuil de 1%, permettant de conclure à une absence de différence entre les deux productions ?
2°) Une entreprise fabrique des sacs en plastique pour déchets. Le poids maximum que peuvent supporter ces sacs est une variable normale d’espérance 58 kg et d’écart type 3 kg.
a) L'entreprise propose le remplacement des sacs défectueux (qui céderaient à un poids inférieur à un
poids annoncé). Quelle est la valeur de ce poids si elle ne veut pas remplacer plus de 6% des sacs ?
b) Un client achète 100 sacs. Quelle est la probabilité pour qu'il y ait plus de 5 sacs défectueux ?
c) Deux tests sont faits à des dates différentes.
• premier test: 100 sacs moyenne 58 écart type s1 = 3
• second test: 150 sacs moyenne 55 écart type s2 = 5
En supposant l’égalité des variances, déterminer une estimation de la variance commune.
Peut-on considérer, au risque de 5% que la qualité des sacs a évolué entre les deux tests ?
3°) Désirant juger le travail d'un ouvrier ajusteur, un chef d'atelier prélève un échantillon de 50 pièces
métalliques dans sa production. On associe le caractère X à l'épaisseur de ses pièces. On doit avoir
E(X) = 5 (mm). Les résultats de la vérification sont portés dans le tableau suivant:
mesure
4,8
4,9
5,0
5,1
nb de pièces
5
15
20
10
Cette fabrication est-elle conforme aux exigences, au seuil de 1%?
4°) Un échantillon de 100 projecteurs de studio de qualité A a donné une durée de vie moyenne de 1 400
heures avec un écart type de 120. Un échantillon de 200 projecteurs de qualité B a donné une durée de
vie moyenne de 1 300 heures avec un écart type de 80.
a) Déterminer des intervalles de confiance à 0,95 des durées de vie des deux types A et B.
b) Peut-on dire, au seuil 0,05, puis au seuil 0,01, qu'il existe une différence de longévité entre les
deux types de projecteurs ?
5°) Deux techniciens sont affectés à des tests de dureté sur des feuilles de métal avant expédition. Le
problème est de déterminer s’il existe des différences entre les mesures des deux techniciens. On supposera que la feuille de métal utilisée pour le test est homogène et que la variable est normale
d’espérance M et de variance σ².
Les mesures sont consignées dans le tableau suivant :
Technicien A
529
528
526
527
525
525
526
527
528
525
Technicien B
527
522
523
526
523
525
526
524
527
523
a) Calculer, pour chacune des deux séries, la moyenne et une estimation de la variance.
page 57
SQ-20 Probabilités - Statistiques
b) En admettant l’égalité des variances, déterminer une estimation de la variance réelle.
c) Peut-on dire qu’il existe une différence entre les deux techniciens ?
d) En ne gardant que la première série (technicien A avec les valeurs obtenues au a)) on veut tester
M = 526 contre M = 526,9 au seuil de risque 0,05. Quel est le résultat du test et sa puissance ?
6°) Un grupo de planificación urbana pretende estudiar las diferencias en el ingreso medio de los habitantes de dos zonas en una ciudad. Para ello se dispone de dos muestras aleatorias simples de ingresos
por habitante para cada una de las zonas.
Zona 1 : Tamaño muestral : 8 media muestral :
15 700 ptas desviación estandar muestral 700
Zona 2 : - - - 11 - - - - :
14 500 ptas
- - - - - - - - 850
Suponiendo que el ingreso por habitante es une variable aleatoria normal:
a) Utilizando un nivel de significación del 5 %, determine si existe evidencia de que la variancia del
ingreso sea distinta en las zonas.
b) Obtenga un interval de confianza al 95 % para la differencia del ingreso medio en las zonas.
7°) Pour une variable normale N(M, σ²), on effectue le test H0 : [ M = 0, σ = 2] H1 : [ M = 1, σ = 4]
avec un échantillon de taille n = 36.
a) Pour α et β, risques de première et deuxième espèce, représenter graphiquement la relation entre
α et β, en prenant des valeurs variées de α.
b) Refaire le graphique dans le cas où n = 100.
8°) Deux serpents C et R prennent un verre dans un snake
bar.
-C- « Sais-tu que dans ce bar les verres sont plus remplis
que dans le bar d’en face. »
-R- « Tiens donc ! »
-C- « Un échantillon de 30 verres a une moyenne de 35
cl (et un écart type de 5) ici, alors qu’en face la moyenne sur
45 verres est de 30 avec le même écart type. »
-R-« D’accord, mais je ne suis pas portée sur les statistiques. Qu’est-ce que ça veut dire ?»
-II- Tests sur les proportions:
1°) Au cours de deux livraisons différentes on a relevé 48 articles défectueux parmi les 800 constituant
la première livraison, puis 32 articles défectueux parmi les 400 constituant la seconde.
Les deux pourcentages d'articles défectueux diffèrent-ils significativement (seuil 5%) ?
2°) Un sondage effectué auprès d’employés de deux centres de production d’une même entreprise de
construction automobile porte sur la préférence entre une participation au capital de l’entreprise ou une
augmentation de salaire.
Sur un échantillon aléatoire de 150 employés du centre C1, 75 favorisent l’augmentation du salaire
alors que le résultat pour C2 est de 107 sur 200 employés interrogés.
a) Déterminer une estimation de la proportion p d’employés favorables à l’augmentation pour
l’ensemble de l’entreprise.
b) Déterminer un intervalle de confiance de p au niveau 0,95.
c) Existe-t-il, au niveau 0,99, une différence entre les réponses des deux centres.
d) Le même sondage, effectué sur un échantillon de 350 employés parmi les 800 d’une entreprise de
sous-traitance a donné 165 employés favorisant l’augmentation de salaire. Peut-on affirmer, au seuil de
page 58
UV SQ 20
5%, que les opinions sont équitablement partagées au sein de cette entreprise entre les deux propositions ?
3°) Un quotidien publie tous les mois la cote d’un certain nombre d’hommes politiques. Au 1er mois de
mars la cote du Premier Ministre était de 42% d’opinions favorables.
Au premier avril elle est de 39% et le journal de titrer « le Premier Ministre en baisse dans les sondages ! ». Commentaire d’un statisticien averti ?
4°) On veut tester l’efficacité d’un insecticide B par rapport à un autre A déjà présent sur le marché. On
vaporise A sur 250 insectes et 180 rendent l’âme. D’autre part 300 insectes (pas les mêmes que les premiers) ont eu la chance d’être traités avec B et 80 ont survécu.
a) Quelles sont les variables aléatoires qui interviennent dans cette expérience et quelles sont les hypothèses à formuler avant de se livrer à un test sur les deux produits ?
b) Si p est la proportion de survivants après avoir reçu A, déterminer un intervalle de confiance de p.
c) Tester au même seuil de 0,05 si la proportion d’insectes éliminés par B est supérieure à celle de
A.
-III- Test sur une variance:
1°) Le relevé des prix X d'un même article dans 15 magasins a donné les résultats suivants:
42,7 42,6 43,0 43,5 42,8 43,1 43,6 42,9 41,6 42,8 42,9 43,2 42,6 43,1 43,1
a) Déterminer des estimations de la moyenne, de la variance et de l'écart type de la population.
b) Le moyennes et variances habituelles sont de 43 et 0,1. Peut-on dire au seuil de 0,05 que ces prix
ne sont pas conformes aux prix habituels ?
c) La tolérance d'une association de consommateurs admet une variabilité, mesurée par le rapport de
l'écart type au prix moyen, qui ne doit pas dépasser 0,7%. Doit-elle réagir ?
2°) L'écart type de la dimension d'une pièce actuellement utilisée dans le montage d'un ensemble métallique est assez petit (σo=0,02) pour ne pas poser de problèmes d'assemblage. Il a été proposé au service
commercial des pièces analogues (de même moyenne connue) à un prix moins élevé. On envisage de
changer de fournisseur, sous réserve que l'écart type des nouvelles pièces soit le même que dans la situation antérieure. Sur un échantillon de 100 pièces on mesure un l'écart type égal à 0,0245.Quelle
conclusion adopter au seuil 0,05 ?
-IV- Comparaison de deux variances:
1°) Une étude statistique sur deux populations normales a donné les résultats suivants:
estimation de la variance de 120
• 1ère population: échantillon de 25
ème
• 2
population: échantillon de 10
- - - - - - - - - - 40.
Peut-on admettre au niveau de 95% que les deux échantillons proviennent de deux populations ayant
la même variance ?
2°) Une usine produit des lots dont un caractère X est normal N (m,σ=4). La fabrication ayant dû être
interrompue pour travaux, le producteur veut s'assurer, lors de la reprise, que cet écart type reste égal à
4. Pour ce faire il prélève un échantillon de 15 lots et relève un écart type observé égal à 4,5. Peut-on
considérer, au seuil de 5% que l'écart type se soit modifié ?
3°) Le maître d’œuvre d'une construction a mandaté un laboratoire pour évaluer la qualité d'un mélange
bitumeux provenant de deux usines. On effectue une vérification sur 115 m3 de béton et on mesure la
résistance à la compression, après 3 jours, sur des cylindres. Les résultats de cette résistance sont consipage 59
SQ-20 Probabilités - Statistiques
gnés dans le tableau:
usine 1
usine 2
Nombre de cylindres
25
25
Résistance moyenne
90,6
94,4
65,42
58,24
Variance (S2)
a) Peut-on, au niveau de confiance de 95%, faire l'hypothèse que la variabilité de la résistance à la
compression du béton provenant des deux usines est identique.
b) Peut-on affirmer, à 1%, que l'usine 1 a des performances meilleures que celles de l'usine 2 ?
4°) Deux échantillons sont prélevés au hasard et de manière indépendante dans deux populations normales. Les résultats sont les suivants:
Échantillon 1
80
80
78
80
80
78
80
79
80
81
80
81
77
75
80
80
81
79
78
82
Échantillon 2
77
78
84
82
80
84
82
78
81
81
79
81
80
82
84
84
a) Tester l'égalité des deux variances au risque de 0,05.
b) En déduire une estimation de la variance commune.
c) Tester enfin l'égalité des deux moyennes.
-V- Etude des petits échantillons:
16
1°) Un échantillon de 16 éléments d'une v.a. normale a donné: x = 415
, et
∑ (x − 415, )
i
2
= 135.
i =1
Montrer que l'hypothèse d'une moyenne de 43,5 pour cette population n'est pas raisonnable et que
l'intervalle de confiance au niveau 95% pour la moyenne est [39,9; 43,1].
20
Un 20-échantillon tiré d'une population inconnue est tel que:y = 43 et
∑ (y − 43)
i
2
= 171 .
i =1
Montrer que les deux échantillons peuvent être considérés comme tirés d'une même population.
2°) Pour un échantillon de 10 animaux nourris suivant le régime A les augmentations de poids ont été,
pour une certaine période de: 10 6 16 17 13 12 8 14 15 9 (en kg).
Pour un autre échantillon de 12 animaux nourris suivant le régime B les augmentations de poids ont
été, pour la même période de: 7 13 22 15 12 14 18 8 21 23 10 17
Montrer que les moyennes ont augmenté de 12 kg pour A et de 15 kg pour B, ce qui n'est pas significativement différent.
3°) On a étudié la consommation d'essence, en litres et sur 100 km, de voitures de même marque et de
même cylindrée, choisies au hasard à la sortie de deux chaînes de fabrication situées dans deux centres
de production A et B. Ces voitures sont conduites par me même conducteur sur le même circuit. Les résultats sont:
Consommation
8 9 10 11 12
Consommation 8 9 10 11 12
nb de voitures de A 1 3 4 5 3
nb de voitures de 0 4 6 4 2
B
On suppose que la consommation, pour les deux chaînes de fabrication, suit une loi normale de
même écart type σ.
a) Calculer les moyennes de consommation pour ces deux centres.
b) Déterminer une estimation de σ à partir des données ci-dessus.
c) L'écart de moyenne est-il dû à des fluctuations d'échantillonnage au risque de 1% ?
page 60
UV SQ 20
-VI- Problèmes:
Problème 1 (durée approximative 35 min)
On a mesuré, sur un échantillon aléatoire de 20 observations d'un caractère X dans une population P1
supposée normale, une moyenne égale à 36 pour une variance de 40.
a) Déterminer une estimation de la variance pour l'ensemble de la population P1.
b) Tester, au risque 0,01, l'hypothèse selon laquelle la moyenne M1 de P1 est supérieure à 30.
c) Quelle valeur doit avoir cette moyenne si on veut que la puissance du test soit 0,95 ?
d) On effectue 25 mesures du même caractère X sur une seconde population normale P2. On trouve
alors une variance égale à 60. Peut-on dire, au seuil de 0,98, que les deux populations ont une même variance ?
e) Donner, au seuil de 0,98, un encadrement du rapport de ces variances.
f) Au même risque, dans quel intervalle doit se situer la moyenne X 2 sur les 25 mesures faites dans
P2 pour qu'on puisse considérer les moyennes comme égales dans les deux populations ?
Problème 2
1°) a) Une marque de piles assure un usage moyen de plus de 50 heures pour sa production. Sur un
échantillon de 100 piles on mesure un temps moyen de 52 heures avec un écart type de 4 heures. Cet
échantillon est-il conforme aux normes de fabrication au seuil de 1% ?
b) Deux usines comparent leurs productions. Les piles sont considérées comme mauvaises si elles
durent moins de 48 heures.
•
la première fournit un échantillon de 200 piles dont 10 mauvaises
•
la seconde .................................. 500 ............ 40 ...............
Existe-t-il, au seuil de 5% une différence significative entre les deux productions ?
c) Donner un intervalle de confiance au niveau 95% du pourcentage de mauvaises piles dans l'ensemble des deux productions.
2°) Un fabricant de composants électriques fabrique des résistances dont la valeur nominale est 1 000 Ω.
Pour vérifier le procédé de fabrication on prélève un échantillon aléatoire de 64 résistances et les calculs
de la moyenne et de l’écart type donnent les résultats suivants:
x = 990 et s = 100 ( en Ω) .
a) Elaborer une règle de décision à 0,05 pour tester si le procédé est centré à 1 000 Ω. Doit-on supposer la distribution des résistances comme étant normale ?
b) Avec les mesures effectuées, doit-on accepter l’hypothèse nulle ?
c) Quelle est la probabilité d ’accepter l’hypothèse nulle si le procédé est en réalité centré à 1 050
Ω ? Identifier ce risque.
d) Quelle est la puissance du test à μ = 980 Ω ?
page 61
SQ-20 Probabilités - Statistiques
Chap.9
Tests d'ajustement
-I- Ajustement graphique
1°) On considère la série statistique:
intervalles 20
21
22
23
24
25
26
27
28
29
effectifs
2 ⏐ 4 ⏐ 13 ⏐ 40 ⏐ 65 ⏐ 52 ⏐ 18 ⏐ 6 ⏐ 6
a) Déterminer les fréquences, les fréquences cumulées croissantes et montrer graphiquement à l'aide
du papier Gausso-arithmétique qu'on peut considérer cette série comme étant normale.
b) Déterminer graphiquement la moyenne et l'écart type.
c) Vérifier ces estimations par le calcul.
2°) Construire à l'aide d'un papier gausso-arithmétique une série statistique de 10 intervalles dont la loi
sous-jacente est une loi normale X de paramètres m = 5 et σ(X) = 0,05.
3°) Un constructeur automobile désire vérifier que la consommation de son nouveau modèle correspond
aux prévisions des ingénieurs ayant mis au point la voiture, c'est-à-dire d'environ 7 litres aux 100 km.
Les techniciens effectuent les essais suivants:
Pour les 1 000 premières voitures sorties de l'usine, on mesure le nombre de kilomètres parcourus
avec 7 litres d'essence, et on obtient les résultats suivants (on arrondit au kilomètre entier le plus proche):
nb de km
92 93 94 95 96 97 98 99 100 101 102 103 104
nb de voitures 0
7 18 47 95 201 271 192 98 49 15 6
1
a) Vérifier graphiquement que la consommation en nombre de km, suit une loi normale.
b) Déterminer graphiquement les valeurs de m et de σ.
f) En déduire la consommation moyenne, en litres aux 100 kilomètres. La fabrication est-elle
conforme aux prévisions ?
4°) On effectue une enquête (anonyme) sur le temps de travail personnel hebdomadaire d’un étudiant
pour une UV. Les résultats (en heures) sont les suivants.
Temps en heures
0,
1
1,
2
2,
3
3,
4
4,
5
5
5
5
5
Nb d’étudiants
14 ⏐ 20 ⏐ 14 ⏐ 13 ⏐ 12 ⏐ 5 ⏐ 6 ⏐ 5 ⏐ 4 ⏐
Étudier, à l’aide du papier de Gauss, si on peut considérer cette série comme étant normale.
7
-II- Test χ2 d'ajustement:
1°) On considère un prisme constitué d'une matière homogène et dont les bases sont
deux triangles équilatéraux. On note A1, A2 et A3, les 3 faces latérales et B1 et B1 les
bases triangulaires. On lance le prisme 500 fois et on constate que le prisme est tombé:
111 fois sur A1, 113 fois sur A2, 118 fois sur A3, 81 fois sur B1 et 77 fois sur B2.
Tester au seuils de 0,05 et 0,01 l'hypothèse selon laquelle les 5 faces sont équiprobables.
2°) Dans un centre de calcul, le nombre de pannes enregistrées par semaine est considéré comme une
page 62
UV SQ 20
variable aléatoire X. Pour une période portant sur 100 semaines, on a observé les résultats suivants:
pannes / semaine
0 1 2 3 4 5 6
nombre de semaines 59 26 8 3 2 1 1
Vérifier au niveau 0,01, l'hypothèse Ho : X obéit à une loi de Poisson.
3°) Tester analytiquement la normalité de la série de l'exercice -I- 1°)
page 62 .
4°) Quatre vols commerciaux décollent chaque jour d’un petit aéroport régional. Le directeur de
l’aéroport compte le nombre de vols qui partent à l’heure chaque jour d’une période de 200 jours. Les
résultats sont consignés dans le tableau suivant :
Nombre de départs à l’heure
0
1
2
3
4
Nombre de jours observés
13
36
72
56
23
Au seuil 5 % , tester l’hypothèse que la distribution est binomiale.
5°) Une série de mesures portant sur les masses de paquets transportés dans un monte-charge a fourni le
tableau ci-dessous:
Masse en kg 50...60 60...70 70...80 80...90 90...100
nb de paquets
61
260
380
232
67
a) Calculer la moyenne et l'écart type de cette série.
b) On fait l'hypothèse selon laquelle la variable X donnant la masse d'un paquet est normale de
moyenne m = 75 et d'écart type σ = 10. Déterminer les effectifs théoriques pour les différentes classes
auxquelles on ajoutera les classes ]-∞ , 60[ et [90 , + ∞[.
c) Effectuer un test du χ2 au seuil de 5%. Peut-on accepter l'ajustement par cette loi normale?
6°) Supposons que votre professeur de mathématiques vous donne, comme travail à la maison, le problème du test d’équilibre d’un dé à 6 faces. On vous demande de lancer 6 000 fois et de noter combien
de fois les résultats 1, 2, … et 6 sortent. Lancer le dé devient rapidement ennuyeux, alors vous décidez
d’inventer des données réalistes. En faisant attention pour avoir un total de 6 000. vous écrivez:
Numéro
observations
1
988
2
3
4
5
6
991 1010 990 1013 1008
a) Effectuez le test: H0 : le dé est équilibré contre H1 : le dé non équilibré avec α = 0.01, α = 0.1
?
b) Le professeur n’est pas né de la dernière pluie. Que dit-il en voyant les résultats ?
7°) On veut tester l'hypothèse H selon laquelle la v.a. X obéit à une loi normale N (1,1, σ = 0,2).
Pour une série de 1 000 épreuves indépendantes on a obtenu les résultats suivants:
résultat
0,6
0,7
0,8
0,9
1
1,1
1,2
1,3
1,4
Nb de succès 26 ⏐ 51 ⏐ 107 ⏐ 168 ⏐ 200 ⏐ 193 ⏐ 138 ⏐ 80 ⏐ 29 ⏐ 8
a) L'hypothèse H peut-elle être acceptée au niveau 0,95 ?
b) A partir de quel seuil peut-on accepter H ?
c) Tester maintenant l’hypothèse selon laquelle X suit une distribution normale, à 95%.
8°) Les gaz d'échappement d'un moteur contiennent des particules solides. On suppose (hypothèse Ho)
que le nombre de ces particules contenues dans un très petit volume suit une loi de Poisson P (m). Pour
tester Ho on prélève 400 échantillons de même volume, et, grâce à une analyse ultra-microscopique on
énumère 1872 particules dont la répartition est donnée par le tableau:
nb de particules
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
nb de prélèvements 0 20 43 53 86 70 54 37 18 10 5 2 2 0 0
a) Calculer la moyenne et la variance de cette série.
d) Peut-on accepter l'hypothèse Ho au seuil de 0,05 ?
page 63
SQ-20 Probabilités - Statistiques
9°) On veut tester l'hypothèse H0 selon laquelle la v. a. X obéit à une loi exponentielle E (λ).
Pour une série de 100 épreuves indépendantes on a obtenu les résultats suivants:
résultat
10
20
30
40
50
60
70
80
Nb de succès 21 ⏐ 22 ⏐ 15 ⏐ 9 ⏐ 9 ⏐ 6 ⏐ 5 ⏐ 3 ⏐ 10
a) Calculer la moyenne de cette série et en déduire une estimation de λ.
b) L'hypothèse H0 peut-elle être acceptée au niveau 0,95 ?
10°)
Dans une entreprise industrielle l’absentéisme semble être un problème auquel plusieurs contremaîtres doivent faire face. Le Directeur des Ressources Humaines a effectué un relevé du nombre de
personnes qui ne se sont pas présentées au travail sur une période de 200 jours, qui a donné le tableau
suivant:
Nombre de personnes absentes
0
1
2
3
4
5
6
7
Nombre de jours
15
30
48
46
34
21
4
2
a) Dans une lettre à la direction, il affirme que le nombre de personnes absentes en une journée se
comporte selon une loi de Poisson avec un taux moyen de 3 personnes par jour. Cette affirmation paraîtelle vraisemblable au niveau 95% ?
b) A la suite de cette étude, il a été décidé de prolonger la statistique en observant les absences dans
les bureaux de l’entreprise, dans les secteurs du secrétariat (S) et de la comptabilité (C) sur des échantillons de 350 personnes (S) et 250 personnes (C). Il a été relevé au cours d’un mardi, dans une semaine
ne comportant pas de jour férié, 20 personnes absentes dans (S) et 10 dans (C).
Existe-t-il une différence significative dans les taux d’absentéismes des deux secteurs ?
11°)
Un laboratoire reçoit, par groupes de 4 des souris grises et blanches destinées aux expérimentations. Une hypothèse génétique simple conduit à supposer que les couleurs sont également réparties
entre les souris. Soit X le nombre de souris blanches d'un lot de 4.
a) Déterminer la distribution de probabilité de X.
b) Le laboratoire a reçu 200 lots de 4 souris et a observé les résultats suivants:
X
0 1 2 3 4
nb de lots 13 65 72 35 15
Les résultats sont-ils compatibles au seuil de 5% avec l'hypothèse génétique supposée ?
d) Les souris viennent d'un même élevage. Estimer la fréquence p des souris blanches de l'espèce à
partir des 800 souris observées. Calculer un intervalle de confiance de p au niveau 95%.
-III- Tests d'indépendance:
1°) On veut examiner si l'habileté manuelle d'une personne est indépendante de sa vision. Pour cela on
définit deux caractères X et Y. X prend les valeurs 1, 2 ou 3 selon que l'individu est plus habile de la
main droite, est ambidextre ou est plus habile de la main gauche tandis que Y prend les valeurs 1, 2 ou 3
selon que l'individu a une meilleure vision de l’œil droit, égale des deux yeux ou a une meilleure vision
de l’œil gauche. On veut tester l'hypothèse Ho d'indépendance entre X et Y, au seuil 0,05.
On note dans le tableau de gauche les résultats obtenus en observant 413 personnes:
X/Y
1
2
3
X/Y
1
2
3
1
34
62
28
1
2
27
28
20
2
3
57
105
52
3
a) Calculer les effectifs marginaux et en déduire les effectifs théoriques sous l'hypothèse Ho, qui seront placés dans le tableau de droite.
b) Les résultats permettent-ils d'accepter Ho?
page 64
UV SQ 20
2°) Eat-Parade des compagnies aériennes: Des rapports récents indiquent que les repas servis pendant
les vols dans différentes compagnies aériennes sont notés sans tenir compte des autres facteurs (confort
de la cabine, retards, … ). Une étude sur un échantillon aléatoire de passagers à qui on a demandé de
noter le repas a donné les résultats suivants :
A
B
C
D
mauvais
42
35
22
23
acceptable 50
75
33
28
bon
10
17
21
18
Peut-on considérer qu’il y a une différence de qualité entre les différentes compagnies aériennes (au seuil α = 0,01) ?
-IV-
Tests d'homogénéité:
1°) On a constaté sur les téléviseurs d’une marque que 30% des pannes provenaient du tube cathodique,
55% des composants électroniques et 15% de problèmes divers.
Sur un échantillon de 200 postes en panne d’une marque concurrente, on a 42 pannes du tube cathodique, 132 pannes dues aux composants et 26 pannes diverses.
Les deux marques diffèrent-elles (au risque 0,05) ?
2°) La répartition de la population française adulte selon 5 catégories professionnelles est la suivante :
15%
10%
30%
24%
21%
Un échantillon de 800 personnes a donné la répartition : 113
61 236
215
175
Tester à l’aide du χ² la représentativité de cet échantillon.
3°) Un généticien prétend que quatre espèces de drosophiles (mouches du vinaigre) devraient apparaître
dans les rapports 1:3:3:9. On suppose qu’un échantillon de 4 000 drosophiles contient 226, 764, 733 et
2 277 mouches des quatre espèces. Peut-on, au risque 0,1, rejeter l’affirmation du généticien ?
4°) On éprouve l'homogénéité de résultats observés, en comparant aux résultats théoriques. Le tableau
suivant donne des statistiques des concours d'entrée à l'E.N.A pendant 13 années:
Distr. Th.
Nb candidats Nb d'admis
575
48
988
89
2 244
180
209
17
210
18
287
13
423
37
961
43
5 897
445
a) Calculer la distribution théorique en cas d'homogénéité.
b) Peut-on considérer, au niveau 95%, que la répartition des admis est la même que celle des candidats, ou que la profession des parents n'a rien aucune influence dans la réussite ?
c) Une analyse plus fine des résultats de cette étude montre que la catégorie 8 influence nettement le
calcul et l'interprétation. La conclusion est-elle différente si on exclut cette catégorie de la statistique ?
Profession des parents
1- Professions libérales
2- Commerce industrie
3- Fonctionnaires
4- Banques assurances
5- Artisans P.M.E.
6- Agriculteurs
7- Propriétaires rentiers
8- Professions inconnues
-V- Problèmes:
page 65
SQ-20 Probabilités - Statistiques
Problème 1:
La direction nationale d'un constructeur automobile A a mené une enquête sur la durée de vie, exprimée en milliers de km, sur un échantillon de 500 voitures du modèle 1990 équipées de moteurs à essence.
Les résultats de l'enquête sont consignés dans le tableau:
durée de vie
70
80
90
100
110
120
130
140
150 160 170
nb de véhicules 4 ⏐ 6 ⏐ 14 ⏐ 60 ⏐ 68 ⏐ 110 ⏐ 70 ⏐ 75 ⏐ 57 ⏐ 26 ⏐ 6 ⏐ 4
a) Montrer graphiquement qu'on peut considérer la durée de vie comme étant normale.
b) Estimer, à l'aide du graphique, les paramètres de cette loi.
c) Déterminer une estimation de la proportion de véhicules de cette marque ayant une durée de vie
supérieure à 130 000 km et un intervalle de confiance de cette proportion au niveau 0,95.
d) Un concurrent B fait effectuer dans les mêmes conditions la même enquête, sur 300 véhicules et
constate que 198 d'entre eux n'ont pas dépassé 130 000 km. Peut-on considérer, au risque de 0,05 que
les proportions pour ces deux constructeurs soient identiques ?
e) Une enquête de A sur 500 modèles de 1980 avait donné une moyenne de 117 000 km, l'écart type
étant le même. Peut-on dire au seuil de 5% que la longévité se soit modifiée au cours de ces 10 ans ?
page 66
UV SQ 20
Chap.10
Problèmes d’approfondissement
Ce chapitre comporte des problèmes plus difficiles que ceux qui correspondent au programme de
l’UV.
Il existe parfois des étudiants assez curieux (ce qui n’est pas un vilain défaut dans les études) pour en
savoir un peu plus. Ils trouveront ici des prolongements au cours de Probabilités et Statistiques.
-I- Liens entre différentes lois :
1°)
La fonction Γ : On définit la fonction Gamma par ∀z ∈ ( D) domaine de C, Γ ( z) =
z
∞
0
t z −1 e − t dt .
a) Déterminer les valeurs réelles de z pour lesquelles cette fonction est définie.
b) Déterminer le domaine (D) du plan complexe sur lequel Γ(z) existe.
c) Montrer la relation ∀z ∈ C / z − 1 ∈ ( D) , Γ ( z) = ( z − 1) Γ ( z − 1) .
d) En déduire les valeurs de la fonction Γ pour les valeurs entières non nulles de z.
Liens entre les lois exponentielles, les lois Gamma et la loi du χ² .
On rappelle que si X est normale centrée réduite, alors Y=X² suit une loi χ² à un degré de liberté.
a) Calculer la densité de Y, puis en déduire sa fonction caractéristique.
b) En déduire la fonction caractéristique de la loi χ² à n degrés de liberté, pour n entier non nul.
c) Soit la suite (Tk)k∈N* de variables exponentielles indépendantes de paramètre λ>0. Ecrire la densité des Tk, puis leur fonction caractéristique.
2°)
d) On considère les sommes S n =
n
∑T
k
pour n entier supérieur ou égal à 1.
k =1
• Montrer
par
récurrence
que
Sn
suit
une
loi
Γ(λ,n)
(loi
Gamma)
de
densité
n −1 − λ t
λ t e
1R + ( t ).
Γ ( n)
• Calculer la fonction caractéristique de Tk et en déduire celle de Sn .
fn ( t) =
n
e) Comparer les fonctions caractéristiques de χ 22 n et de Γ
FG 1 , nIJ . Que peut-on en déduire pour ces
H2 K
deux lois ? Retrouver les valeurs de l’espérance et de la variance du χ² à 2n d° de liberté.
3°)
Lien entre la loi de Poisson et les lois exponentielles :
On considère un événement (par exemple panne d’une machine) qui peut se produire à un instant t>0
quelconque, et la variable aléatoire T, temps d’attente avant que cet événement se produise. On suppose
que T suit une loi E(λ). On note Zn l’instant d’arrivée du nème événement.
a) Montrer que Zn suit une loi Γ(λ,n).
b) Pour z∈R+, calculer la probabilité que n événements se produisent dans l’intervalle [0, z].
c) Si N est le nombre d’événements survenant dans [0, z], déterminer la loi de N.
λk e − λ
= p Γ (1, n + 1) > λ = 1 −
k!
k =0
n
d) En déduire la relation suivante :
∑
b
g
XY t e
Z n!
λ n −t
dt .
0
page 67
SQ-20 Probabilités - Statistiques
4°) Lien entre la loi de Poisson et la loi χ² :
a) Soit la variable aléatoire U qui suit une loi Γ(λ,n). Déterminer, pour a > 0, la densité et la nature
de la variable V = a U.
b
g c
h
b) N étant une variable de Poisson P(λ), montrer à partir de 3°), la relation p N ≤ n = p χ 22 n + 2 > 2λ .
(Cette relation peut être utilisée quand on cherche les probabilités cumulées d’une loi de Poisson,
pour un paramètre λ trop grand pour figurer dans les tables).
-II- Fonctions génératrices
n
1°) On considère une v. a. X à valeurs dans N∩[0, n] et le polynôme P par P( x) = ∑ p( X = k ) x k .
k =0
(La fonction polynôme ainsi définie est appelée fonction génératrice de X).
a) Calculer P(1), puis P’(1) et P"(1). En déduire E(X) et Var(X) en fonction de P.
b) Dans les cas suivants, déterminer la fonction génératrice et retrouver l'espérance et la variance des
variables aléatoires.
• X est une variable uniforme sur {1, 2, …, n} (on pourra poser p(X = 0) = 0).
• X est une variable binomiale de paramètres n et p.
2°) (Pour les étudiants ayant suivi MT 26) On veut montrer qu'on peut généraliser ce procédé à N.
a) Soit X une variable aléatoire discrète à valeurs dans N. Montrer que le domaine de convergence
p( X = n) x n contient [0, 1[.
de la série entière S( x) =
∑
n≥0
b) En déduire que S est deux fois dérivable sur [0, 1[.
c) Quand l’espérance et la variance existent, les exprimer en fonction de f’ et de f’’ .
d) Dans les cas suivants, déterminer la fonction génératrice et retrouver l'espérance et la variance des
variables aléatoires, si elles existent.
• X est une loi de Poisson de paramètre λ
• X est une loi géométrique de paramètre p.
4
• X est une variable définie par ∀n ∈ N , p( X = n) =
( n + 1)( n + 2)( n + 3)
-III- Problèmes
1°) On s’intéresse au retard par rapport à la durée de voyage prévue pour un voyage de 500 km par le
t 2 e − 0 ,5 t
train. Ce retard R (exprimé en minutes) suit une loi de densité h( t ) =
1R + ( t ) .
16
a) Montrer que h définit effectivement une densité de probabilité. En calculer l’espérance et la variance.
n −1
b) Sachant que la densité de la loi χ² à n degrés de liberté est f n ( t ) =
suit une loi χ² dont on déterminera le degré de liberté.
page 68
t2 e
n
22 Γ
− 2t
b g1
n
2
R+
( t ) , montrer que R
UV SQ 20
Chap.11
Corrigés d'exercices
-I- Corrigés des exercices
1°) Exercice Erreur ! Source du renvoi introuvable. page Erreur ! Signet non défini.:
a) Dans ce cas, on affecte un numéro de 1 à N à chacune des n particules, supposées numérotées et donc
Ω1 = x1 ,K , x n , x k ∈{1,K , N} et Card Ω1 = N n . On choisit ensuite k particules pour la première boîte
mb
g
r
(non ordonnées) et on répartit les n−k autres dans les N−1 boîtes restantes. On a donc:
n−k
k
n− k
C kn N − 1
1
ère
k 1
=
1
p( k particules dans la 1 boîte) =
C
−
pour k∈{0,…, n}
n
Nn
N
N
b) Dans ce cas, on ne s'intéresse qu'aux nombres de particules dans les boîtes. On peut représenter une
répartition des particules par une suite de la forme ••|•| |•••| …|•••|•• avec n • (particules) et N−1 | (cloisons).,
ce qui donne (n+N−1)! possibilités. Mais comme les cloisons et les particules sont indiscernables, on peut les
n + N −1 !
permuter et on a finalement: Card (Ω 2 ) =
= C nn + N −1 . De même que pour a), on a k boules dans la
n!( N − 1)!
b
b
g
FG IJ FG
H KH
IJ
K
g
première boîte et on doit répartir les n−k dans N−1 boîtes, ce qui donne p( k part. dans la 1ère boîte) =
C n-k
n+N-2-k
C nn+N-1
pour k∈{0,…, n}.
c) Ici, on répartit n particules dans N boîtes sans tenir compte de l'ordre, et si la première boîte contient une
C n-1
n
ère
N-1
p
(
k
part.
dans
la
1
boîte)
=
= .
particule, on répartit les n−1 dans les N−1 boîtes et donc:
n
CN
N
2°) Corrigé de l’exercice Erreur ! Source du renvoi introuvable. page Erreur ! Signet non défini. .
a) Le tirage étant simultané de 3 éléments / 36, on a: Ω = x1 , x 2 , x 3 , x1 , x 2 , x 3 ≠ dans 1, K ,36 et
ml
Card (Ω) = C = 7140 . On peut supposer l'équiprobabilité des tirages.
3
36
b) Pour x = 6, on a p(A ) = p( BNR ) =
q
l
x
x
36 - 2x
6 × 6 × 24 72
=
≈ 0,012 .
595
C 336
c) Etude de f: f ( x) = 36x 2 − 2 x 3 ⇒ f '( x) = 6 x (12 − x)
d) Par un calcul analogue à celui de b), on a :
x 2 (36 − 2 x) f ( x)
p( x) = p( A ) =
= 3 maximale pour x = 12. (p ≈ 0,24)
C 336
C 36
e) Dans le cas n = 12, X suit une loi hypergéométrique H(N=36, n=5, p=0,4) (tirages simultanés).
f) p(A| X = 1) =
qr
12
p(A ∩ ( X = 1))
p( A )
p(12)
=
=
≈ 0,5217 . et donc p(A | X=1) ≈ 0,5217 .
p( X = 1)
p( X = 1) 12 × C 224
C 336
Si A est réalisé, alors il y a un poisson de chaque couleur, et donc, nécessairement X = 1. Donc p(X=1 | A) = 1.
3°) Exercice Erreur ! Source du renvoi introuvable. page Erreur ! Signet non défini. .
La situation peut se représenter par le graphique suivant:
page 69
SQ-20 Probabilités - Statistiques
étape
2
1
0,5
A
(0,25
0,5
C
A
0,5
0,5
B
0,5 an
0,5
C
0,5 an
0,5
A
0,5 bn
0,5
C
0,5 bn
0,5
A
0,5 cn
A
B
A
0,5
)
an
0,5
n+1
n
(0,25)
…
…
(0,25)
bn
…
…
B
C
0,5
B
cn
(0,25)
C
0,5
0,5 cn
B
On a donc entre les probabilités les relations suivantes, qu'on peut mettre sous forme matricielle. La matrice A
étant
symétrique,
elle
est
diagonalisable:
a n +1 = 0,5 b n + 0,5 c n
a n +1
0 0,5 0,5 a n
b n +1 = 0,5 a n + 0,5 c n et b n +1 = 0,5 0 0,5 b n ou U n +1 = A U n .
c n +1 = 0,5 b n + 0,5 a n
c n +1
0,5 0,5 0 c n
R|
S|
T
F
GG
H
I
JJ
K
F
GG
H
IF I
JJ GG JJ
KH K
F1 0
avec D = G 0 0,5
GH 0 0
I
JJ
K
F
GG
H
I
JJ
K
FI
GG JJ
HK
0
1 1 1
1
0 , P = 1 0 −1 et U 0 = 0 .
0,5
1 −1 0
0
La situation à la première étape est donc: probabilités 0 pour A, 0,5 pour B et pour C.
- - - - - deuxième étape - - - - - - - - 0,5 pour A, 0,25 pour B et pour C
1 + 0,5n −1
1 + 0,5n 1 − 0,5n 1 − 0,5n 1
1
1
ce qui donne U n = 1 − 0,5n 1 + 0,5n 1 − 0,5n 0 =
1 − 0,5n . Donc quand n tend vers l'infini les
3 1 − 0,5n
3 1 − 0,5n 1 − 0,5n 1 + 0,5n 0
On a donc: U n = A n U1 = P D n P −1 U 0
F
GG
H
IF I
JJ GG JJ
KH K
F
GG
H
I
JJ
K
trois probabilités tendent vers 1/3. Logiquement, à long terme, on ne peut pas savoir où sera le chariot.
4°) Exercice Chap.2 -VI- 2°) page 24.
a) Les tirages étant indépendants, Ω =
mbx , x , x g / 0 ≤ x ≤ n − 1, x entierr et donc Card(Ω) = n .
Les valeurs possibles de X et Y sont les entiers de 0 à 9.
F xI
b) Pour x ∈l0,K , nq on a pb X < xg = 1 − pb X ≥ xg = 1 − G 1 − J . En effet, si inf(x , x , x ) ≥ x, alors ils
H nK
3
1
2
3
k
k
n
1
2
3
sont tous les trois dans l'ensemble {x, x+1, …, n}, ils sont donc choisis parmi (n−x) numéros.
y3
Pour Y on a, par un raisonnement analogue ∀y ∈ 0,K , n p(Y < y) = 3 .
n
3
3
n − x −1
n−x
c) D'après b), p( X = x) = p( X < x + 1) − p( X < x) = 1 −
− 1+
.
n
n
l
q
FG
IJ FG IJ
H
K H K
F y + 1IJ − FG y IJ = 3y + 3y + 1
De même: p(Y = y) = p(Y < y + 1) − p(Y < y) = G
H n K H nK
n
3
3
2
3
3( n − x) 2 − 3( n − x) + 1
3y 2 + 3y + 1
et p(Y = y) =
On a donc : p( X = x) =
n3
n3
d) Pour n = 10, les calculs donnent
x
p(X=x)
x p(X=x)
(x-E(X))² p(X=x)
page 70
0
1
2
3
4
5
6
7
8
9
0,271 0,217 0,169 0,127 0,091 0,061 0,037 0,019 0,007 0,001
0
0,217 0,338 0,381 0,364 0,305 0,222 0,133 0,056 0,009
1,111 0,228 1E-04 0,121 0,355 0,54 0,585 0,47 0,25 0,049
Total
1
2,0250
3,7084
UV SQ 20
y
p(Y=y)
y p(Y=y)
(y-E(Y))² p(Y=y)
0
1
2
3
4
5
6
7
8
9
0,001 0,007 0,019 0,037 0,061 0,091 0,127 0,169 0,217 0,271
0
0,007 0,038 0,111 0,244 0,455 0,762 1,183 1,736 2,439
0,049 0,25 0,47 0,585 0,54 0,355 0,121 1E-04 0,228 1,111
1,0000
6,9750
3,7084
donc E(X) = 2,025, E(Y) = 6,975 = 9 –E(X) et Var(X) = Var(Y) = 3,7084
5°) Exercice Chap.2 -VI- 15°) page 26. Pour étudier la loi de Y, on doit calculer, pour tout y∈N,
p(Y=y).
Comme Y suit une loi B(n,p), il est nécessaire que X≥Y, et donc :
∞
∞
∞
y+ k − λ
e
y
y
k λ
p( Y = y) =
p(Y = y ∩ X = y + k ) =
p(Y = y| X = y + k ) p( X = y + k ) =
C y + k p (1 − p)
( y + k )!
k =0
k =0
k =0
∑
∑
∑
∞
( λp) y ( λ(1 − p)) k e − λ ( λp) y e − λ
et, après simplification p(Y = y) =
=
y! k !
y!
k =0
∑
bλ(1 − p)g = bλpg e
∑
k
∞
k!
k =0
y
− ( λp )
ce
y!
qui montre que Y suit une loi de Poisson de paramètre μ = λp .
6°) Exercice Chap.4 -III- 2°) page 34 .
a) On se place dans [0, +∞[ pour les variables t et y. Connaissant la densité et la f. r. d'une loi exponentielle,
on a :
b
g d
i
2
G 2 ( y) = p Y2 < y = p X < y 2 = F(y 2 ) = 1 − e − λy et donc g 2 ( y) = 2λye − λy
b
g d
i
2
n
b) Un calcul analogue donne, pour G n ( y) = p Yn < y = p X < y n = F(y n ) = 1 − e − λy et g n ( y) = λny n −1e − λy
c
b
h
g
n
c) Si ε ∈]0,+1[ ϕ( n) = p Yn − 1 > ε = 1 − p 1 − ε < Yn < 1 + ε = 1 − G n (1 + ε ) + G n (1 − ε ) et donc
n
n
ϕ ( n) = 1 + e − λ (1+ ε ) − e − λ (1− ε ) et donc lim ϕ ( n) = 1 + 0 − 1 = 0 ce qui montre que Yn ⎯prob
⎯
⎯→ Y = C(1) , variable
n →∞
certaine C(1) définie par p(Y=1) =1 et p(Y≠1) = 0.
Si Gn est la fonction de répartition de Yn , on a lim G n ( y) = lim 1 − e
n →∞
n →∞
− λy n
R|0 si y < 1
= S1 − e si y = 1 , ce qui montre
|T1 si y > 1
−λ
qu'en tout point de continuité de H (définie par H(y) = 0 si y ≤ 1 et H(y) = 1 si y > 1) Gn(y) tend vers H quand n
tend vers ∞. On a donc la convergence en loi de Yn vers Y.
On peut se rendre compte de cette convergence en représentant graphiquement les fonctions gn et Gn .
densités
fonctions de répartition
d) Vous pouvez essayer de faire le reste sans aide. A chacun son tour de travailler !.
7°) Exercice Chap.5
-V- 9°) page 44.
1 n
a) Estimateur de p : F = X = ∑ X k où les Xk sont des B(1,p) indépendantes. Dans ces conditions
n k =1
S = ∑ X k est binomiale B(n,p) avec E(S) = np et Var(S) = np(1-p). D'après les propriétés de l'espérance et de la
Variance, on a:
page 71
SQ-20 Probabilités - Statistiques
p(1 − p)
⎯n⎯
⎯→ 0 . F est donc un estimateur sans biais et convergent .
→∞
n
1 n1
1 n2
p(1 − p)
p(1 − p)
D'après les données: F1 = ∑ X k , F2 =
X' k , Var ( F1 ) =
, Var ( F2 ) =
.
∑
n 1 k =1
n 2 k =1
n1
n2
E( F) = p et Var ( F) =
F α + β IJ . F est donc un estiSi F = αF + βF on a E( F) = α p + β p = (α + β) p et Var ( F) = p(1 − p)G
Hn n K
mateur sans biais ssi α + β = 1 donc β = 1 − α .
F α + (1 − α) IJ = f (α) minimale pour RSf '(α) = 0 . La résolug) Pour β = 1 − α on a Var ( F) = p(1 − p)G
Hn n K
Tf "(α) > 0
1
2
2
1
2
2
2
2
1
2
n1
n2
n1
n2
et β =
et F =
F1 +
F2 . Tout se
n1 + n 2
n1 + n 2
n1 + n 2
n1 + n 2
passe en réalité comme si on réunissait les deux échantillons pour n'en faire qu'un seul de (n1 + n2) éléments.
h) Estimation
ponctuelle
avec
les
données
fournies:
500
1000
f = estimation de p =
× 0,3 +
× 0,23 = 0,303
1500
1500
tion (facile) du système donne α =
8°) Exercice Chap.5 -V- 11°) page 45 .
Fonction de vraisemblance de cet échantillon :
L( x1 ,K , x n , m) =
n
∏
k =0
2
1 − ( x k −2m)
e
=
2π
FG
H
1
2π
IJ e∑
K
n
n
k =1
−
( x k − m) 2
2
n
avec ln L = − ln2 π −
2
R| ∂ln L = ∑ bx − mg = 0
On a donc les équations de vraisemblance : | ∂ m
⇔ ∑x
S| ∂ ln L
= −n < 0
|T ∂ m
( x k − m) 2
.
2
k =1
n
∑
n
k
k =1
2
k
= nm ⇔ m =
1
n
n
∑x
k
k =1
2
L’estimateur de maximum de vraisemblance de m est donc T(X1 ,K , X n ) =
9°) Exercice Chap.6
-VI- 8°) page 50.
On a donc p estimé par f = 85/400 = 0,2125 . Variable de confiance Y =
F
GH
donc p( −196
. < Y < 196
. ) = p F − 1,96
b) Pour une longueur 0,04 il faut x
10°)
n
∑X
k
k =1
F− p
≈ N (0, 1) , et
p(1 − p) / 400
I et donc I = ] 0,1724 , +0,2526[
JK
0,167
= 0,02 et x = 0,979 ce qui donne 1-α/2=0,836 et α=0,33.
400
Exercice Chap.7 -VII- 7°) page 53.
a) Dans le cas où Mo > 20, on est en présence d'un test unilatéral à droite. La variance étant connue, la varia-
X − 20 X − 20
=
3
0,3
30
a − 20
p( X < a ) = 0,95 ⇔ p Y <
= 0,95 .
0,3
ble
0,167
0,167
< p < F + 1,96
400
400
1
n
de
test
Y=
F
GH
est
N(0,
1).
On
cherche
I
JK
On a donc a = 20,9, et le domaine d'acceptation de H0 est : Do = ]-∞, 20,9[ = I .
page 72
donc
a
tel
que
UV SQ 20
h FGH
IJ b
K
b) Pour Mo = 21, on a β = p X < 20,9| M = 21 = p X − 21 < 20,9 − 21 = p Y < −0,183 = 0,4276 . En refaisant
c
0,3
0,3
g
le même calcul pour des valeurs différentes de Mo, on a le tableau suivant, qu'on peut compléter par symétrie / 20 :
Mo
20
20,25
20,5 (19,5) 20,75 21 (19)
21,25
21,5
22
(19,75)
20,9 − M 0
0,3
1,187
1,645
0,730
0,274
- 0,183
-0,639
-1,095
0,95
0,882
0,767
0,608
0,428
0,262
0,139
β
0,05
0,118
0,233
0,392
0,572
0,738
0,861
1−β
a) On a donc la représentation graphique: Courbe de puissance (sommet = minimum)
-2
0,022
0,978
1,2000
1,0000
0,8000
0,6000
0,4000
18
18,3
18,5
18,8
19
19,3
19,5
19,8
20
20,3
20,5
20,8
21
21,3
21,5
21,8
22
0,2000
0,0000
11°)
Exercice Chap.7 -VII- 8°) page 53
a) Si X est normale et les v. a. de l'échantillon indépendantes, on a X ≈ N ( M , σ 2X = 25n ) et donc on a la variable
de
test:
(unilatéral)
Y=
X − 10
25
30
F
I
h G X − 10 < 1,645J = 0,95 d' où (D ) = −∞;+ 11,5 . L'observation ayant
H
K
c
≈ N (0,1) et donc p X ∈ (D 0 ) = p
0
25
30
donné une moyenne de 11, on accepte l'hypothèse Ho.
b) Le test étant unilatéral du même côté, le domaine et la décision sont les mêmes. Mais l'hypothèse (H1) étant
β,
avec
simple,
on
peut
définir
un
risque
F
I
h G X − 11 < 11,5 − 11J = pbN(0,1) < 0,548g = 0,708 .
H
K
c
β = p X ∈ D 0 | M = 11 = p
du
25
30
c) Dans cette question, on impose β = 0,1 et on cherche n. On doit donc avoir, avec un calcul identique à celui
a),
OP
Q
( D 0 ) = −∞,+10 + 1,96
LM
N
F
h G
H
I
JK
10 + 1,96 5n − 11
5
.
et donc 0,1 = p( N (0,1) < −1,28) = p X ∈ ( D 0 )| M = 11 = p N (0,1) <
25
n
n
c
On a donc la relation: −1 + 1,96
12°)
25
30
5
n
= 1,28
5
n
, ce qui nous donne un échantillon de taille n = 263 .
Corrigé de l’exercice Chap.7 -X- 1°) page 55
Échantillon de taille n = 40 et test H0 : M = 240 contre H1 : M ≠ 240 , variable de test Y = X − 240 ≈ N (0,1) .
50
40
(La loi est normale car la variance est connue)
OP
Q
D0 défini par 240 − 1,96
LM
N
50
50
, 240 + 1,96
= 224,5 ; 255,5 et 260 ∉ D0. , donc on rejette H0. pour α =
40
40
0,05.
Pour α = 0,01, on remplace 1,96 par 2,57, ce qui agrandit D0, et cette fois-ci on accepte H0.
page 73
SQ-20 Probabilités - Statistiques
13°)
Exercice Chap.9 -II- 3°) page 63 avec les données de l'exercice Chap.9 -I- 1°)
On peut effectuer des estimations par le calcul ou à l’aide de la droite de Henry
x − 24,7
utilise la moyenne et la variance calculées à partir du tableau.
La réduction x'i = i
1,44
Intervalles
20
21
22
23
24
25
26
27
28
21
22
23
24
25
26
27
28
29 (∞)
Total
centre
20,5
21,5
22,5
23,5
24,5
25,5
26,5
27,5
28,5
n=
ni (ci-moy)² réduction loi N(0,1)
ni
ni c i
2
4
13
40
65
52
18
6
6
206
41
86
292,5
940
1592,5
1326
477
165
171
5091
35,5
41,3
63,7
58,9
3,0
32,2
57,4
46,6
86,0
424,6
x=
var =
écart type
24,71
2,06
1,44
moyen ne:
-2,59
-1,89
-1,19
-0,50
0,20
0,90
1,59
2,29
∞
0,0048
0,0294
0,1163
0,3096
0,5791
0,8149
0,9444
0,9890
1,0000
page 62
pi
n pi
regr.
chi 2
0,0048
0,0245
0,0870
0,1933
0,2695
0,2358
0,1295
0,0446
0,0110
1,00
5,05
17,91
39,81
55,51
48,58
26,67
9,19
2,27
6,05
17,91
39,81
55,51
48,58
26,67
11,46
0,00
1,35
0,00
1,62
0,24
2,82
0,03
6,06
distance²
d° liberté
table chi 2
6,06
4,00
9,5
13,3
à 0,05
à 0,01
décision Ho
On doit donc accepter l'hypothèse nulle, c'est à dire que la série est normale d'espérance 24,7 et de variance
2,06, ce qui confirme l'étude graphique.
14°)
Corrigé de l’exercice Erreur ! Source du renvoi introuvable.page Erreur ! Signet non défini.:
Tableau de gauche : résultats obtenus tableau de droite : résultats théoriques :
X/Y
X/Y
220
290
28
237,8 282,9 299,3
45
40
20
37,7
44,85 47,45
25
15
52
14,5
17,25 18,25
On a donc le test : H0 : indépendance contre H1 : dépendance
Variable de test D² ≈ χ 24 d’observation d² = 15,58.
D’après la table, on trouve 0,95 ⎯→ 9,49 et donc on rejette l’indépendance.
page 74
UV SQ 20
Chap.12
Exercices du cours
1°) On mesure la durée de vie, dans des conditions normales de 100 piles électriques et on obtient les
résultats suivants:
durée de vie en h 80
100
120
140
160
180
200
220
240
nb de piles
2 ⏐ 2 ⏐ 16 ⏐ 28 ⏐ 30 ⏐ 15 ⏐ 5 ⏐ 2
a) Calculer la moyenne et l'écart type de cette série.
b) Peut-on considérer au seuil de 0,05 que la durée de vie des piles suit une loi normale dont les paramètres sont à déterminer.
c) Vérifier graphiquement l'ajustement et retrouver les estimations de la moyenne et de σ.
page 75
SQ-20 Probabilités - Statistiques
Chap.13
Réserve d’exos
1°) On organise un sondage en vue d'une élection, en soumettant à un échantillon représentatif de 1 000
personnes le questionnaire suivant: Si votre année de naissance est bissextile répondez à (1) sinon répondez à (2).
(1) Etes-vous né en mai ?
(2) Voterez-vous pour Monsieur Lajoie ?
Le sondage a donné 450 "OUI" et 550 "NON". Monsieur Lajoie a-t-il des chances d'être élu ?
2°) L'ensemble des professeurs qui assurent la préparation d'un examen peut-être, en première approximation, partagé en bons professeurs, et mauvais professeurs. On considère les événements suivants:
A = "le professeur est bon" et B = "le candidat est reçu à son examen", ainsi que les probabilités: p(A) = 0,3 , p(A∩B) = 0,24 et p( A ∩ B) = 0,35 .
a) Calculer les probabilités : p( B) , p( B A ) et p( B A ) .
b) Un candidat a été reçu. Calculer la probabilité de l'événement: "le professeur était bon".
c) On apprend qu'un professeur a vu au cours des dernières années 70% de ses élèves reçus à
l'examen, quel est le choix le plus judicieux:
• s'adresser à lui pour la préparation à l'examen ?
• laisser faire le hasard pour le choix du professeur ?
d) Un bon professeur considère 4 de ses élèves. Calculer la probabilité qu'au moins trois soient reçus.
3°) Une compagnie de transport envisage de s’équiper avec un nouveau modèle de pneus pour ses camions. Le propriétaire décide d’effectuer un test sur une petite partie de sa flotte de camions. S’il n’y a
pas plus de trois pneus crevés sur 100 000 kilomètres, le nouveau pneu sera accepté.
a) Quelle est la probabilité d’acceptation si la probabilité de crevaison est de 0,02 pour 1000 km ?
b) - - - - - - - - - - - - - - - - - - 0,1 - - ?
page 76
Téléchargement