Probabilites et Statistiques - [email protected]

publicité
Probabilités
et statistiques
Par Paul CHEGE
African Virtual university
Université Virtuelle Africaine
Universidade Virtual Africana
Université Virtuelle Africaine Note
Ce document est publié sous une licence Creative Commons.
http://en.wikipedia.org/wiki/Creative_Commons
Attribution
http://creativecommons.org/licenses/by/2.5/
License (abréviation « cc-by »), Version 2.5.
Université Virtuelle Africaine Table des matières
I.
Probabilités et statistiques_ ___________________________________ 3
II.
Prérequis / connaissances préalables nécessaires__________________ 3
III. Volume horaire/temps________________________________________ 3
IV. Matériels didactiques_ _______________________________________ 3
V.
Justification/Importance du module_____________________________ 3
VI. Contenu__________________________________________________ 5
6.1 Résumé________________________________________________ 5
6.2 Contour/grandes lignes____________________________________ 6
6.3 Représentation graphique__________________________________ 7
VII. Objectif général_____________________________________________ 8
VIII. Objectifs spécifiques aux activités d’apprentissage__________________ 8
IX. Activités d’enseignement et d’apprentissage_______________________ 10
X.
Concepts-clés (glossaire)_____________________________________ 13
XI. Lectures obligatoires_________________________________________ 20
XII. Ressources obligatoires______________________________________ 22
XIII. Liens utiles________________________________________________ 23
XIV. Activités d’apprentissage_ ____________________________________ 25
XV. Synthèse du module________________________________________ 119
XVI. Évaluation sommative_______________________________________ 120
XVII.Références bibliographiques__________________________________ 128
XVIII.Fiche d’évaluation__________________________________________ 129
XIX. Auteur du module__________________________________________ 129
XX. Structure _ _______________________________________________ 130 Université Virtuelle Africaine I. Probabilités et statistiques
Par Paul Chege
II. Prérequis/ connaissances préalables
nécessaires
Cours de statistiques et probabilités au secondaire.
III.Volume horaire/temps
La durée de ce module est de 120 heures. IV.Matériels didactiques
Les étudiants devraient avoir accès aux lectures mentionnées plus loin. De plus, ils
auront besoin d’un ordinateur pour avoir accès à ces lectures. Par ailleurs, les étudiants devraient pouvoir installer le logiciel wxMaxima et l’utiliser pour pratiquer
des concepts algébriques. Ils doivent également avoir accès au logiciel du microsoft
office Excel qui traite les lois de probabilités usuelles, les tests statistiques, et analyses
statistiques descriptives et inférentielles classiques.
V. Justification/Importance du module
Les probabilités et les statistiques, en plus d’être un élément clé dans l’enseignement au secondaire, fournissent un bagage important pour les mathématiques avancées au niveau tertiaire. Les statistiques font partie de la base des
mathématiques appliquées dans la plupart des sujets académiques et sont très
utiles pour l’analyse dans des industries de production. Les spécialistes de
statistiques appelés statisticiens analyseront des données brutes cueillies dans
le domaine pour fournir un aperçu sur le comportement de la population. Les
statistiques fournissent aux gouvernements et aux organisations un résumé
concret d’une situation qui aidera les dirigeants à prendre une décision. Par
exemple, le taux de propagation des maladies, des rumeurs, des incendies de
forêt, la modélisation de la pluviométrie et les évolutions de population ou le
mouvement démographique.
Université Virtuelle Africaine D’autre part, l’étude des probabilités aidera à la prise de décision des agents
gouvernementaux et des organisations basées sur la théorie de la chance. Par
exemple : prédire les sexes nouveau-nés sur une certaine période et projeter le
niveau de la quantité des pluies sur des régions, eu égard aux données historiques sur le sujet. Les probabilités sont aussi utilisées dans le choix du niveau
de qualité de certains produits dans la production industrielle, (comme) par
exemple, le nombre de pièces défectueuses prévues dans le processus manufacturier d’une industrie.
Enfin, à un niveau plus avancé, en cette ère de la nouvelle technologie de
l’information, grâce à la puissance accrue des ordinateurs et à la performance
des algorithmes pour traiter de gros volumes des données, l’étude statistique
des tickets de caisse permet de mieux optimiser la liquidation des articles dans
une grande surface en tenant compte des associations des produits vendus.
Cela relève du domaine communément appelé la fouille des données ou le
data mining qui traite différents types des données, données qualitatives et
/ ou quantitatives, et qui comprend plusieurs méthodes telles l’analyse des
règles d’association, les analyses factorielles de composantes principales, de
correspondances, etc.
Dans ce module de cours, on se limitera essentiellement à l’étude des données
quantitatives. Le logiciel Excel du microsoft office fait partie d’outils didactiques à travers son module Outils/Utilitaires d’Analyses.
Université Virtuelle Africaine VI.Contenu
6.1 Résumé
Ce module est divisé en trois unités :
Unité 1 : Les statistiques illustrées (qualificatives**) et la distribution de probabilités
Les statistiques illustrées dans l’unité 1 sont développées, soit par extension aux
mathématiques au niveau secondaire, soit comme une introduction pour ceux qui
apprennent les statistiques pour la première fois. Cette unité introduit la mesure de
la dispersion dans les statistiques. Elle introduira aussi les concepts de probabilités
et le traitement théorique des probabilités.
Unité 2 : Les variables aléatoires et la distribution
Cette unité requiert l’unité 1 en prérequis. Elle parle du moment et des fonctions
produisant le moment, les inégalités de Markov et Chebychev, les distributions
spéciales à une variable, les distributions des probabilités à deux variables et l’analyse des probabilités conditionnelles. Cette unité donne un aperçu sur l’analyse des
coefficients de corrélation linéaires et la distribution des fonctions de variables aléatoires, comme, par exemple, le khi carré, T et F. Utilisation de Excel sous Outils/
Utilitaires d’analyse.
Unité 3 : La théorie des probabilités
Cette unité a été conçue à partir de l’unité 2. Elle analyse la probabilité en utilisant
un indicateur de fonctions. Elle introduit les vecteurs aléatoires inégaux de Bonferoni, les fonctions de production, les fonctions caractéristiques et les échantillons
aléatoires de statistiques indépendantes. Cette unité montre en détail les concepts de
fonctions de plusieurs variables et l’indépendance de X et de S2 dans des échantillons
gaussiens de statistiques d’ordre. Cette unité résume le traitement de divers modes
de convergence et des théorèmes limites.
Université Virtuelle Africaine 6.2 Contour/grandes lignes
Unité 1 (40 heures) : Les statistiques illustrées et la distribution de probabilités
Niveau 1. Priorité A. Sans prérequis.
La fréquence des distributions relatives et cumulatives, les courbes à fréquence
variables, les moyennes, le mode et la médiane. Les quartiles et les percentiles,
les écarts-types, les distributions symétriques et asymétriques. La probabilité; les
échantillonnages et les événements; la définition des probabilités; les propriétés des
probabilités; les variables aléatoires; la probabilité des distributions; Bernouli, lois
binômiales, lois de Poisson, lois géométriques, lois hypergéométriques, lois uniformes,
lois exponentielles et lois normales. Des distributions à deux variables. Les tables
des lois de probabilité jointes et les lois de probabilité marginales.
Unité 2 (40 heures) : Les variables aléatoires et la distribution
Niveau 2. Priorité B. Prérequis : Statistiques 1.
Moments et fonction génératrice de moments. Les inégalités de Markov et Chebychev, des distributions univariées spéciales. La probabilité de distributions à deux
variables; les distributions marginales et conditionnelles communes; l’indépendance;
l’anticipation de la régression et de la corrélation à deux variables; l’analyse de la
régression et du coefficient de corrélation pour des données à deux variables. La
distribution de variables aléatoires, la distribution normale à deux variables. Les
distributions dérivées comme le khi carré, T. et F.
Unité 3. (40 heures) : La théorie des probabilités
Niveau 3. Priorité C. Prérequis : Statistiques 2.
Probabilités : Utilisation des fonctions indicatrices. Les inégalités de Bonferoni
et les vecteurs aléatoires. Les fonctions génératrices. Les fonctions caractéristiques. L’indépendance des statistiques et échantillons aléatoires. La distribution
multinomiale. Les fonctions de plusieurs variables aléatoires.
L’indépendance de X et de S2 dans des échantillons normaux. Statistique d’ordre. Lois normales multidimensionnelles. Convergence et théorèmes limites.
Exercices pratiques.
€
Université Virtuelle Africaine 6.3 Représentation graphique de l’organisation
Variance et
écart type
La
moyenne, le
mode et la
médiane
Les
indicateur
s de
fonctions
Les inégalités
de Bonferoni,
les vecteurs
aléatoires
Les fonctions
génératrices et
caractéristiques et
les échantillons
aléatoires
Loi multinomiale,
les fonctions de
variables aléatoires
DONNÉES
Les
probabilités
La probabilité
des
distributions
Les lois
multidimensionnelles
, la convergence et
théorèmes limites
Les courbes à
fréquence
variable, les
quartiles et les
percentiles
Le moment
et fonction
génératrice
des moments
Les lois marginales
et conditionnelles
usuelles
La régression
et la
corrélation
Les
tableaux de
probabilités
usuelles
Les inégalités
de Markov et
de
Chebychev
Les lois à une
variable et à
deux variables
Les
distributions
dérivées, le khi
deux, t et F.
Université Virtuelle Africaine VII.
Objectif général
À la fin de ce module, l’étudiant devrait être en mesure de calculer les différentes mesures de dispersions dans les statistiques et d’effectuer des probabilités basées sur les lois de la probabilité, de faire des tests sur des données en
utilisant les théories de la probabilité. VIII. Objectifs spécifiques aux activités
d’apprentissage
Unité 1 : Les statistiques illustrées et la distribution de probabilités (40 heures)
À la fin de l’unité 1, l’étudiant devrait être en mesure de :
• Dessiner diverses courbes de fréquences
• Trouver la moyenne, le mode, la médiane, les quartiles, les percentiles et les
écarts-types de données regroupées
• Définir et énoncer les propriétés des probabilités
• Illustrer des variables aléatoires, des probabilités de distributions, et les valeurs
attendues de variables aléatoires
• Illustrer les distributions de Bernoulli, les lois binomiales, lois de Poisson, lois
géométriques, hypergéométriques, uniformes, exponentielles et normales
• Faire des enquêtes sur les fréquences de distribution à deux variables
• Construire des tableaux de probabilités communes et marginales
Unité 2 : Les variables aléatoires et la distribution (40 heures)
À la fin de l’unité 2, l’étudiant devrait être en mesure de :
• Illustrer le moment et le moment générant des fonctions
• Analyser les inégalités de Markov et de Chebychev
• Examiner les distributions spéciales à une variable, les probabilités de distributions à deux variables, les distributions marginales communes et conditionnelles
• Montrer l’indépendance, l’anticipation à deux variables, la régression et la
corrélation
• Analyser la régression et la corrélation du coefficient pour des données à deux
variables
• Montrer les fonctions de distribution de variables aléatoires
• Examiner les distributions normales à deux variables
• Illustrer les distributions dérivées comme le khi carré, T et F.
Université Virtuelle Africaine Unité 3 : La théorie des probabilités (40 heures)
À la fin de l’unité 3, l’étudiant devrait être en mesure de :
•
•
•
•
•
•
•
•
•
Utiliser des indicateurs de fonctions dans les probabilités
Montrer les inégalités de vecteurs aléatoires de Bonferoni
Illustrer les fonctions génératrices et caractéristiques
Examiner l’indépendance d’échantillons aléatoires de statistiques et les distributions multinomiales
Évaluer les fonctions de plusieurs variables aléatoires
Illustrer l’indépendance de X et de S2 dans des échantillons normaux de
statistiques
Montrer les distributions normales multidimensionnelles
Illustrer la convergence et les théorèmes limites
Faire des exercices pratiques
Université Virtuelle Africaine 10
IX.Activités d’enseignement et d’apprentissage
9.1 Évaluation préliminaire/initiale
Les mathématiques de base constituent un prérequis pour les probabilités et les
statistiques.
Questions
1. Lorsqu’un dé est lancé, la probabilité d’avoir un nombre supérieur à 4 est de :
a.
b.
c.
d.
1/6
1/3
1/2
1
2. Une seule carte est tirée au hasard d’un paquet de cartes. Trouvez la probabilité
de tirer une reine.
a.
b.
c.
d.
1/13
1/52
4/13
1/2
3. Sur 100 nombres, il y avait vingt 4, quarante 5, trente 6 et le restant étaient des
7. Trouvez la moyenne arithmétique des nombres.
a.
b.
c.
d.
0.22
0.53
2.20
5.30
4. Calculez la moyenne des données suivantes :
Grandeur (cm)
60-62
63-65
66-68
69-71
72-74
a.
b.
c.
d.
57.40
62.00
67.45
72.25
Indice de classement (x)
61
64
67
70
73
Université Virtuelle Africaine 11
5. Trouvez le mode des données suivantes : 5, 3, 6, 5, 4, 5, 2, 8, 6, 5, 4, 8, 3, 4, 5,
4, 8, 2, 5 et 4é
a.
b.
c.
d.
4
5
6
8
6. L’étendue des valeurs qu’une probabilité peut présumer est :
a.
b.
c.
d.
De 0 à 1
De -1 à +1
De 1 à 100
De 0 à ½
7. Trouvez la médiane des données suivantes : 8, 7, 11, 5, 6, 4, 3, 12, 10, 8, 2, 5, 1,
6, 4.
a.
b.
c.
d.
12
5
8
6
8. Trouvez l’étendue de ces chiffres : 7, 4, 10, 9, 15, 12, 7, 9.
a.
b.
c.
d.
9
11
7
8.88
9. Lorsque deux pièces de monnaie sont lancées, l’espace d’échantillon est :
a.
b.
c.
d.
P, F et PF
PP, PF, FP, FF
PP, PF, FF
P, F
10. Si une lettre est sélectionnée au hasard dans le mot « Mississippi », trouvez la
probabilité que ce soit un « i ».
a.
b.
c.
d.
1/8
1/2
3/11
4/11
Université Virtuelle Africaine 12
Corrigé
1. B
2. A
3. D
4. C
5. B
6. A
7. D
8. B
9. B
10. D
Commentaires pédagogiques pour les étudiants
Cette évaluation préliminaire a été conçue pour donner un aperçu aux étudiants sur
ce qu’ils peuvent se rappeler en probabilités et en statistiques. Une note inférieure à
50 % dans cette évaluation préliminaire indique que l’élève doit réviser les probabilités et les statistiques vues en mathématiques du niveau secondaire. L’évaluation
préliminaire couvre les concepts de base que les étudiants doivent connaître avant de
continuer dans ce module. Si vous avez eu des problèmes avec cette évaluation, vous
devriez réviser les probabilités et statistiques vues en mathématiques du secondaire,
et vous devriez maîtriser les bases.
Université Virtuelle Africaine 13
X. Concepts-clés (glossaire)
Absolument exclusifs / incompatibles : Deux événements sont mutuellement
exclusifs s’ils ne peuvent pas intervenir en même temps.
La variance d’un ensemble de données est définie comme le carré de l’écart
-type. Ex. : variance = s2.
Essai : Ce terme se rapporte à une activité qui applique une expérience, comme,
par exemple, prendre une carte dans un paquet de 52 cartes ou lancer un ou
plusieurs dés.
Espace d’échantillon ou univers des possibles: Ce terme désigne toutes
les possibilités d’une expérience de probabilités. On l’appelle l’événement
certain ou l’événement sûr attaché à l’expérience considérée. Ex. : En laçant
une pièce de monnaie, le résultat sera soit pile (P) ou face (F).
Variable aléatoire : C’est une fonction qui assigne un nombre réel à tous les
résultats possibles d’une expérience aléatoire.
Échantillon aléatoire : Il est choisi par une méthode qui fait intervenir un
élément imprévisible.
Distribution de Bernoulli : C’est une probabilité discrète qui prend la valeur 1
avec la probabilité du succès p, et la valeur 0 avec la probabilité d’échec q =
1 – p.
Distribution binomiale : C’est une distribution de probabilités discrètes qui
exprime la probabilité d’un nombre de succès dans une séquence de n essais
indépendants d’expériences de Bernoulli, c’est-à-dire à deux issues exclusives
oui / non, selon laquelle chaque essai produit un succès avec la probabilité
p.
Distribution hypergéométrique : C’est une distribution de probabilités discrètes qui décrit le nombre de succès dans une séquence n tirée à partir d’une
population finie sans remplacement.
Distribution de Poisson : C’est une distribution de probabilités discrètes qui
exprime la probabilité qu’un nombre d’évènements qui se produisent dans une
période de temps prédéterminée, si ces évènements se produisent avec un taux
moyen connu, et ils sont indépendants du temps depuis le dernier évènement.
C’est une loi des événements rares.
Corrélation : C’est une mesure d’association entre deux variables.
Régression : C’est la relation fonctionnelle explicite qui existe entre une
variable dépendante et une variable indépendante.
Université Virtuelle Africaine 14
Khi carré : C’est n’importe quel test d’hypothèse statistique dans lequel le test
de statistiques a une distribution khi carré lorsque l’hypothèse nulle est vrai,
ou lorsque la distribution de probabilités du test de statistique (en prenant pour
acquis que l’hypothèse soitvraie) peut être faite pour estimer une distribution
khi carré au près que voulu en faisant un espace d’échantillon assez grand.
Distribution normale à plusieurs variables : C’est une distribution de probabilités spécifique qui peut faire penser à la généralisation de plus grandes
dimensions que la distribution normale unidimensionnelle.
Test T : C’est n’importe quelle hypothèse de statistique pour deux groupes
dans lequel le test de statistiques a une distribution d’un élève t lorsque l’hypothèse nulle est vraie.
Termes de statistiques
1. Donnée brute : C’est une donnée qui n’a pas été classée numériquement.
2. Série statistique : C’est un arrangement de données brutes et de données numériques dans un ordre ascendant de magnitude.
3. Étendue : C’est la différence entre le plus gros et le plus petit nombre dans des
données.
4. Intervalle de classe : Dans une étendue de données regroupées. Ex. : 21-30,
31-40, etc.), alors 21-30 sera l’intervalle de classe.
5. Limites de classe : Dans l’intervalle de classe de 21-30, 21 et 30 sont appelés
les limites de classe.
6. Limites inférieures de classe (l.i.c.) : Dans l’intervalle de classe 21-30, la limite
inférieure de classe est 21.
7. Limites supérieures de classe (l.s.c.) : Dans l’intervalle de classe 21-30, la limite
supérieure de classe est 30.
8. Limites inférieures et supérieures de classe : Dans l’intervalle de classe
inférieure 21-30, la limite de classe est 20.5 et la limite de classe supérieure
est 30.5. Ces limites prennent pour acquis que les mesures théoriques d’un
intervalle de classe de 21-30 incluent tous les nombres de 20.5 à 30.5.
9. Intervalle de classe : Dans une classe de 21-30, l’intervalle de classe
est la différence entre la limite supérieure de classe et la limite inférieure de
classe. Ex. : 30.5-20.5 = 10. L’intervalle de classe est aussi connu en tant que
l’amplitude de classe.
10.Centre de classe ou point milieu : Dans un intervalle de classe de 21-30,
le point médian est la moyenne de 21 et 30. Ex. :
21 + 30
2
= 25 .5
Université Virtuelle Africaine 15
11.Distribution statistique : C’est plusieurs données brutes classées dans
des classes dans un tableau avec leurs fréquences correspondantes. Ex. :
Masse (kg)
Nombre d’élèves (f)
10-19
5
20-29
7
30-39
10
40-49
6
Ce tableau est appelé une fréquence de distributions ou un tableau de statistiques.
12. Fréquences cumulées : Pour les fréquences de distributions suivantes, les fréquences cumulées sont calculées comme des aditions de fréquences individuelles.
Masse (X)
20-24
Fréquence (f)
4
Fréquence cu- 4
mulée
25-29
10
4+10=14
30-34
16
14=16=30
35-39
8
30+8=38
40-44
2
38+2=40
La fréquence cumulée d’une valeur est sa fréquence plus la fréquence de toutes les
valeurs inférieures.
Le tableau ci-dessus est appelé un tableau de fréquences cumulées.
13. Distribution de fréquences relatives : Dans une fréquence de distributions
Masse (X)
Fréquence (f)
20-35
4
25-29
10
30-34
16
35-39
8
40-44
2
Σ f = 40
La fréquence relative d’une classe de 25-29 est la fréquence de la classe divisée par
la fréquence totale de toutes les classes (fréquence cumulée) et est généralement
exprimée en pourcentage.
Exemple :
La fréquence relative de la classe 25-29 =
f
∑f
× 100 % à
Note : la somme des fréquences relatives est 100 % ou 1.
10
×100 = 25%
40
Université Virtuelle Africaine 16
14. Courbe des fréquences cumulées (Ogive) :
Masse (X)
20-24
Fréquence (f)
4
Fréquence cu- 4
mulée (F.C)
25-29
10
4+10=14
30-34
16
14=16=30
35-39
8
30+8=38
40-44
2
38+2=40
À partir du tableau de fréquences cumulées ci-dessus, nous pouvons dessiner un graphique de fréquences cumulées par opposition aux limites de classes supérieures.
Limites de classes 24.5
supérieures
Fréquences cu- 3
mulées
29.5
34.5
39.5
44.5
14
30
38
40
Note : À partir des données de fréquences cumulées, le premier point de restitution est (24.5, 3). Si nous avions commencé notre graphique à ce point, il
serait suspendu sur l’axe des y. Nous créons un autre point (19.5, 0) en tant
que point de départ. 19.5 est la limite de classe supérieure prévue de la classe
précédente.
al or bell-shaped.
l frequency to the left and right
tral maximum e.g. normal curve
Université Virtuelle Africaine 17
Formes des courbes de fréquences
Symmetrical or bell-shaped.
Symétrique ou en forme de cloche
Skewed to the right ( positive skewness)
Symmetrical or bell-shaped.
Skewed to the right ( positive skewness)
Has equal frequency to the left and right
Has
the maximum
towards the left a
Aofune
égale à gauche
et à droite
maximum.
Ex. : courbe
thefréquence
central maximum
e.g. normal
curvedu centre
the longer tail to the right
normale.
Asymétrique
à droite
(asymétrie
positive)
Skewed
to the right
( positive
skewness)
Skewed to the left ( Negative skewness)
Has equal frequency to the left and right
of the central maximum e.g. normal curve
J –Shaped
Has the maximum towards the left a
the longer tail to the right
ElleHas
a le the
maximum
vers towards
la gauchethe
et une
maximum
left queue
and plus longue vers la droite.
the longer tail to the right
Skewed to the left ( Negative skewness)
J –Shaped
Asymétrique à gauche (asymétrie négative)
Has the maximum towards the right of
the and the longer tail to the left
wed to the left ( Negative skewness)
Has the maximum occurring at the
end
J –Shaped
Elle a le maximum vers la droite et une queue plus longue vers la gauche.
Has the maximum towards the right of
the and the longer tail to the left
Has the maximum occurring at the
end
3
requency to the left and right
al maximum e.g. normal curve
Has the maximum towards the left and
the longer tail to the right
Université Virtuelle Africaine 18
ed to the left ( Negative skewness)
J –Shaped
En forme de J
aximum towards the right of
longer tail to the left
Elle a le maximum qui se produit du côté droit.
Has the maximum occurring at the right
end
Reverse J-Shaped
U- shaped
En forme de J inversé
3
Elle a le maximum qui se produit du côté gauche.
everse J-Shaped
Has the maximum occurring at the left
end
U- shaped
Has maxima at both ends
En forme de U
Bimodal
maximum occurring at the left
Elle a les maximums des deux côtés.
Has maxima at both ends
Has two maxima
Bimodal
Multimodal
Multimodal
Has more than two maxima.
Université Virtuelle Africaine 19
Reverse J-Shaped
Has the maximum occurring at the left
end
U- shaped
Bimodal
e maximum occurring at the left
maxima
Bimodal
Multimodal
Has maxima at both ends
Has two maxima
Elle a deux maximums.
Bimodal
Has maxima at both ends
Multimodal
Has more than two maxima.
Multimodal
Elle a plus de deux maximums.
Has more than two maxima.
4
Université Virtuelle Africaine 20
XI.Lectures obligatoires
Lecture #1 : Wolfram MathWorld (visité le 05/06/07)
Référence complète : http://mathworld.wolfram.com/Probability
Résumé : Cette référence donne du matériel essentiel en probabilités et statistiques. Elle comporte plusieurs illustrations qui permettent à l’élève d’apprendre
par lui-même à partir de différentes approches méthodologiques. Wolfram
MathWorld est une encyclopédie en ligne spécialisée en mathématiques.
Motif : Il donne des références détaillées sur tous les sujets de mathématiques.
Les élèves devraient commencer en utilisant la faculté de recherche pour le
module titre. En tout temps, l’étudiant devrait chercher pour des mots clés qu’ils
doivent comprendre. L’entrée devrait être étudiée consciencieusement.
Lecture #2 : Wikipédia (visité le 05/06/07)
Référence complète : http://en.wikipedia.org/wiki/statistics
Résumé : Wikipédia est un dictionnaire en ligne. Il est écrit par ses propres
lecteurs. Il est mis à jour très souvent puisque les entrées sont révisées constamment. De plus, il a été prouvé pour être très précis. Les entrées mathématiques
sont très détaillées.
Motif : Il donne des définitions, des explications et des exemples que les élèves
ne peuvent pas avoir accès dans d’autres ressources. Le fait que Wikipedia
est souvent mis à jour donne à l’étudiant les approches les plus récentes, les
arguments abstraits, des illustrations et se réfères à d’autres sources pour
permettre à l’élève d’acquérir d’autres approches dans les probabilités et les
statistiques.
Lecture #3: MacTutor history of mathematics (visité le 05/03/07)
Référence complète: http://www-history.mcs.standrews.ac.uk/Indexes
Résumé : Le MacTutor Archive est l’histoire des mathématiques la plus
compréhensive disponible sur internet. Les ressources sont organisées par
personnages et par thèmes historiques.
Motif : Les étudiants devraient pouvoir chercher sur MacTutor pour des mots
clés dans les sujets qu’ils étudient (ou le module lui-même). Il est important
d’avoir une vue d’ensemble d’où les mathématiques qui sont étudiées vont dans
l’histoire des mathématiques. Lorsque l’étudiant termine un cours et enseigne
Université Virtuelle Africaine 21
les mathématiques au secondaire, les personnages historiques des mathématiques donneront un peu plus de vie à la matière pour les étudiants. De plus, le
rôle de la femme dans l’histoire des mathématiques devrait être étudié pour
aider les étudiants à comprendre les difficultés auxquelles les femmes ont dû
faire face tout en y apportant une importante contribution. Également, le rôle
du continent africain devrait être étudié pour partager avec les étudiants dans
les écoles : notamment les premiers outils de calcul (comme l’os d’Ishango)
ainsi que le rôle des mathématiques égyptiennes.
Université Virtuelle Africaine 22
XII.Ressources obligatoires
Ressource #1 : Maxima.
Référence complète : Une copie de Maxima est disponible sur le disque qui
accompagne ce cours.
Résumé : La distance à laquelle les élèves sont occasionnellement confrontés
à des mathématiques plus difficiles sans ressources pour les aider. L’absence
de leçons avec un professeur en chair et en os rend parfois l’élève complètement handicapé s’il n’est pas bien équipé avec des ressources pour résoudre
leurs problèmes mathématiques. Ce handicap peut être résolu en utilisant une
ressource d’accompagnement : Maxima.
Motif : Maxima est un logiciel gratuit qui peut aider les élèves à résoudre des
équations linéaires et quadratiques, des équations simultanées, des intégrations
et des différentiels et qui peut aider à faire des manipulations algébriques :
des factorisations, des simplifications, des expansions, etc. Ce logiciel est
obligatoire pour les étudiants suivant des cours à distance puisqu’il les aide à
apprendre plus vite en utilisant les aptitudes TIC déjà apprises.
Ressource #2 : Graph
Référence complète : Une copie de Graph est disponible sur le disque qui
accompagne ce cours.
Résumé : Il est difficile de dessiner des graphiques de fonctions, spécialement
avec des fonctions compliquées et plus particulièrement des fonctions en trois
dimensions. Les élèves, qui apprennent à distance, vont tomber un jour ou
l’autre sur des situations où ils auront besoin de faire des graphiques mathématiques. Ce cours est accompagné d’un logiciel appelé Graph qui aidera les
élèves à faire des graphiques. Cependant, ils auront besoin de se familiariser
avec le logiciel pour être en mesure de l’utiliser.
Motif :Graph est un logiciel gratuit pour créer des graphiques auquel les élèves
pourront avoir accès sur le CD fournit. Il est facile à utiliser lorsqu’un étudiant
investit du temps pour apprendre comment il fonctionne. Les élèves devraient
tirer avantage du logiciel parce qu’il peut les assister pour faire des graphiques
dans d’autres sujets pendant et après le cours. Ils le trouveront extrêmement
utile pour enseigner les mathématiques au niveau secondaire.
Université Virtuelle Africaine 23
XIII.Liens utiles
Lien #1
Titre : Wikipédia
URL : http://en.wikipedia.org/wiki/Statistics
Description: Wikipédia est le dictionnaire de n’importe quel mathématicien.
Il est gratuit est mis à jour régulièrement. La plupart des élèves rencontreront
des problèmes de matériel de référence de temps en temps. La plupart des
livres disponibles ne couvrent que les probabilités et les statistiques. Cette
pénurie de matériel de référence peut être vaincue en utilisant Wikipédia. Il
est très facile à accéder avec « recherche Google ».
Motif : La disponibilité de Wikipédia résout les problèmes de matériel d’apprentissage dans toutes les branches des mathématiques. Les élèves devraient
avoir de l’expérience avec Wikipédia pour les aider dans leur apprentissage.
C’est une ressource gratuite très utile qui ne fait pas que résoudre les problèmes
des élèves, mais qui les dirige aussi vers d’autres sites internet connexes très
utiles d’un simple clic sur les icônes.
Lien #2
Titre : Mathsguru
URL : http://en.wikipedia.org/wiki/Probability
Description: Mathsguru est un site internet qui aide l’élève à comprendre
plusieurs branches du module de théorie des nombres. Il est facile à accéder
à travers la barre de recherche Google et fournit de l’information très détaillés
sur plusieurs questions de probabilités. Il offre des explications et des exemples
pour que les élèves apprennent plus facilement.
Motif : Mathsguru donne plusieurs façons d’accéder à d’autres sujets connexes,
à des indices et des solutions qui peuvent être très pratiques pour les élèves
qui souffrent des frustrations pour trouver des livres pertinents qui peuvent
aider à résoudre des problèmes dans les probabilités. Il donne une approche
utile dans le calcul des probabilités eu égard aux diverses branches du module
de probabilités.
Université Virtuelle Africaine 24
Lien #3
Titre : Mathworld Wolfram
URL :http://mathworld.wolfram.com/Probability
Description: Mathworld Wolfram est un site web différent rempli de solutions
de probabilités. Les élèves ont accès à ce site très facilement avec la barre de
recherche Google.Wolfram guide aussi l’élève vers d’autres sites internet utiles
qui couvrent le même sujet pour aider encore plus l’élève à comprendre.
Motif : Wolfram est un site utile qui fournit des aperçus dans plusieurs théories
des nombres tout en fournissant de nouveaux défis ainsi qu’une méthodologie
dans la théorie des nombres. Le site devient très pratique dans la modélisation
et être très recommandée pour les étudiants qui souhaitent étudier la théorie
des nombres ainsi que d’autres branches des mathématiques. Il donne des liens
vers d’autres sites web en fournissant aux élèves beaucoup d’informations
dont ils ont besoin dans les probabilités et les statistiques.
Université Virtuelle Africaine 25
XIV.Activités d’apprentissage
Unité 1
40 heures
Les statistiques illustrées et la distribution de probabilités
Un curieux fermier entreprend les activités suivantes sur sa ferme.
1. Elle plante 80 arbres le 1er mars. Elle mesure la hauteur des arbres le 1er décembre.
2. Elle pèse les 40 vaches sur sa ferme et enregistre les poids dans sa laiterie.
3. Elle enregistre la production journalière des œufs dans sa section de volailles.
4. Elle enregistre le temps utilisé pour livrer le lait vers l’usine de traitement
Voici les enregistrements.
1. La hauteur des arbres en cm :
77
74
75
71
60
72
75
93
76
85
53
68
83
71
53
85
68
71
95
69
60
76
65
76
85
53
71
83
68
63
85
76
63
78
85
95
77
62
93
90
68
60
74
94
75
78
88
72
82
81
73
87
75
61
97
57
67
80
62
78
78
65
79
84
75
88
75
82
89
67
73
73
68
73
61
66
96
79
65
86
2. Le poids des vaches en kg :
Poids (kg)
118-126
Nb de va- 3
ches
127-135
5
136-144
9
145-153
12
154-162
5
163-171
4
172-180
2
Université Virtuelle Africaine 26
3. Le nombre d’œufs pondus :
Œufs
462
Nb de 98
jours
480
75
498
56
516
42
534
30
552
21
570
15
588
11
606
6
624
2
4. Le temps pour livrer le lait dans vers l’usine de traitement :
Temps en
minutes
Nb de jours
90-100
80-89
70-79
60-69
50-59
40-49
30-39
9
32
43
21
11
3
1
Problème #1 :
Une entreprise locale commerçant avec des services d’extensions d’agriculture visite
le fermier. Il montre fièrement ses enregistrements. L’officier d’agriculture est très
impressionné par ses enregistrements, mais il réalise que le fermier a besoin de plus
de capacités dans la gestion de données pour pouvoir l’aider à prendre de meilleures
décisions en se basant sur les résultats de sa ferme.
L’officier a créé un petit cours sur le traitement de données pour les fermiers ruraux.
Pendant la planification du cours, les termes suivants ont été définis pour la leçon
un pour les fermiers.
a)
b)
c)
d)
e)
Donnée : le résultat d’observation. Ex. : la hauteur des arbres.
Fréquence : La fréquence. Ex. : Le nombre de vaches pesées.
Moyenne : La moyenne des données.
Mode : La donnée la plus haute.
Médiane : Dans des données ascendantes, la médiane est le nombre au milieu
de la suite.
f) Étendue : La différence entre la donnée la plus haute et la plus basse.
Leçon un : Les mesures de dispersion
Introduction aux statistiques
Les statistiques descriptives sont utilisées pour indiquer n’importe laquelle des techniques utilisées pour résumer un ensemble de données. Dans un sens, nous utilisons
les données sur des membres d’un ensemble pour le décrire. Les techniques sont
classées comme :
1. Une description graphique dans laquelle nous utilisons des graphiques pour
résumer les données.
Université Virtuelle Africaine 27
2. Une description sous forme de tableau dans lequel celui-ci est utilisé pour
résumer les données.
3. Des descriptions paramétriques dans lesquelles nous estimons les valeurs de
certains paramètres dans lequel nous complétons la description de l’ensemble
de données.
En général, les données statistiques peuvent être décrites comme une liste de sujets
ou d’unités et les données peuvent être associées avec chacune d’elles. Nous avons
deux objectifs pour notre résumé :
1. Nous voulons choisir une statistique qui démontre la différence des unités dans
leur similarité. Les livres de statistique appellent la solution de cet objectif
une mesure de la tendance centrale.
2. Nous voulons choisir une autre statistique qui montre comment elles sont
différentes. Ce genre de statistique est souvent appelé une mesure de la variabilité statistique.
Lorsque nous résumons une quantité comme la longueur, le poids ou l’âge, il est
commun de répondre à la première question avec une moyenne arithmétique ou avec
le mode.Parfois, nous choisissons des valeurs spécifiques de la fonction de distribution
cumulative appelée quartiles.
Les mesures de variabilité les plus communes pour les données quantitatives et la
variance sont la racine carrée, l’écart type, l’étendue statistique, l’étendue interquartile
et l’écart absolu.
Leçons de fermiers
Les fermiers apprennent comment calculer les :
a) Moyennes des données suivantes :
La moyenne de données = Somme totale des données divisées par le nombre d’objets
dans les données.
Exemple :
Calculer la moyenne des données suivante :
1) 1,3, 4,4, 5,6, 3,7
Réponse : Moyenne =
1 + 3 + 4 + 4 + 5 + 6 + 3 + 7 33
=
= 4.125
8
8
2) 650,675, 700, 725, 800, 900, 1050, 1125, 1200, 575
Université Virtuelle Africaine 28
Réponse: Moyenne =
650 + 675 + 700 + 725 + 800 + 900 + 1050 + 1125 + 1200 + 575
10
= = 840
8400
10
Leçon deux: La moyenne d’une donnée discrète
Exemple :
1) Trouvez la moyenne des données suivantes :
X
f
22
5
24
7
25
8
33
4
36
6
Réponse : Moyenne =
=
37
9
41
11
22 ( 5 ) + 24 ( 7 ) + 25 (8 ) + 33 ( 4 ) + 36 ( 6 ) + 37 ( 9 ) + 41 (11 )
5 + 7 + 8 + 4 + 6 + 9 + 11
1628
= 32.56
50
2) Trouvez la moyenne du salaire des travailleurs :
Salaire en $
Nb de travailleurs
Réponse :Moyenne
20665
70
= $ 295.214
220
12
=
250
15
300
18
350
20
375
5
220 (12 ) + 250 (15 ) + 300 (18 ) + 350 ( 20 ) + 375 ( 5 )
12 + 15 + 18 + 20 + 5
=
Université Virtuelle Africaine 29
Tableaux de fréquences et moyenne d’ensemble de données
Exemple :
Voici le poids de commandes de lait vers une usine de traitement :
45
48
56
39
49
45
36
47
50
45
42
46
46
41
39
45
48
46
52
35
42
37
46
44
39
46
43
45
47
47
51
46
42
43
46
40
51
33
54
47
a) Une utilisant un intervalle de classe de 5, entrez ces données dans un tableau de
fréquences.
b) Calculez la masse moyenne du lait livré.
Réponse :
Tableaux de fréquences / Comptage
Classe
Comptage
Fréquence
33- 37
37-42
43-47
48-52
53-57
////
///// ///
//////////// ///
//// //
//
Total
4
8
19
7
2
40
c) La moyenne d’un groupe de données
Classe
Comptage
Fréquence(f)
33- 37
////
4
Point milieu (x)
33 + 37
2
37-42
43-47
48-52
53-57
///// ///
//////////// ///
//// //
//
Total
8
19
7
2
40
40
45
50
55
fx
4 × 35 = 140
= 35
320
855
350
110
1775
Université Virtuelle Africaine 30
Moyenne =
∑ fx
∑f
1775
=
40
= 44 . 375
Exercices
Trouvez la moyenne de :
1) 63, 65, 67, 68, 69
2) x
f(x)
1
11
2
10
3
5
4
3
5
1
3)
Poids (x)
Fréquence
4-8
2
9-13
4
14-18
7
19-23
14
24-28
8
29-33
5
4) 91,78, 82,73,84
5)
Hauteur (x)
Fréquence
61
5
64
18
67
42
70
27
73
8
6)
Poids (x)
Fréquence
30.5-36.5
4
36.5-42.5
10
42.5-48.5
14
48.5-54.5
27
Réponses :
1). 66.4
2).
2.1
3).
20.6
4) 80
5)
76.45
6)
51.44
54.5-60.5
45
Université Virtuelle Africaine 31
Leçon trois : Le mode
Exemple :
1) Trouvez le mode dans les données suivantes :1,3,4,4,5,6,1,3,3,2,2,3,3,5
Solution :
Le mode est la donnée qui apparaît le plus souvent. Dans cette suite, le 3 est celui
qui apparaît le plus de fois ou le plus fréquemment : 5 fois. Donc, le mode de cette
suite de données est 3.
2) Trouvez le mode dans les données suivantes :22, 24, 25,22, 27, 22, 25, 30,
25, 31
Solution :
22 et 25 apparaissent trois fois chacun. Donc, les modes sont 22 et 25. C’est
ce qu’on appelle des données bimodales.
3) Trouvez le mode dans les données suivantes :
Observation ( X)
Fréquence ( f)
0
3
1
7
2
10
3
16
4
11
Solution:
La donnée qui revient le plus souvent est le 3: il apparaît 16 fois.
4) Trouvez la classe modale dans les données suivantes :
Poids ( X)
Fréquence ( f)
50 – 54
3
55-59
6
60-64
8
65-69
5
70-74
15
75-79
9
80-84
13
Solution :
La classe modale est 70-74, car elle a la plus haute fréquence d’occurrence.
Université Virtuelle Africaine 32
Exercices
Trouvez les modes ou les classes modales des données suivantes :
1) 6, 8, 3,5,2,6,5,9,5
2) 20.4, 20.8, 22.1, 23.4, 19.7, 31.2, 23.4, 20.8, 25.5,23.4
3)
Poids (x)
Fréquence
4-8
2
9-13
4
14-18
7
19-23
14
24-28
8
29-33
5
4)
Poids (x)
Fréquence
30.5-36.5
4
36.5-42.5
10
42.5-48.5
14
48.5-54.5
27
54.5-60.5
45
Réponses :
1) 5
2) 23.4
3) 19-23
4) 54.5-60.5
Leçon quatre : La médiane
La médiane
La médiane est la valeur au centre d’une distribution. Dans une suite 1, 2, 3, 4, 5, la
médiane est 3, car elle est exactement au centre de la distribution. Pour la suite 1, 2,
2, 3, 4, 5, 6, 7, 7, 8; il y a 10 nombres et aucun nombre au centre. Dans un cas comme
celui-là, la médiane est la moyenne des deux nombres du centre.
Ex. : 1,2,2,3, 4, 5 ,6,7,7, 8
Donc, la médiane est
4+5
= 4.5
2
Université Virtuelle Africaine 33
La médiane d’ensemble de données
Exemple:
Trouvez la médiane des ensembles de données suivants:
Masse ( X)
Féquence (f)
20-24
4
25-29
10
30-34
16
35-39
8
40-44
2
Solution :
∑f
= 40 , donc la médiane est la moyenne de la 20e et de la 21e donnée
20 + 21
2
=10.5
Définition : Les limites de classe supérieures et inférieures
La limite de classe inférieure (LCI) et la limite de classe supérieure (LCS) sont les
limites d’un intervalle de classe. Ex. : Les limites inférieures et supérieures d’un
intervalle de classe 20-24 sont 19.5 et 20.5 et la LCI ainsi que la LCS d’un intervalle
de classe 35-39 sont 34.5 et 39.5.
Masse ( X)
Fréquence (f)
Fréquence cumulative
20-24
4
4
30- 34
16
14 + 16 = 30
25-29
10
4+10=14
35-39
8
30+8=38
40-44
2
39+2 =40
Voici la procédure pour calculer la médiane :
Étape 1 : La médiane apparaît dans l’intervalle de classe 30-34
Étape 2 : La LCI ainsi que la LCS de 30-34 sont 29.5 et 34.5.
Étape 3 : Trouver la fréquence cumulative (FC).
Étape 4 : Trouver l’intervalle de classe, LCI et LCS.
Étape 5 : Avoir le 10.5e terme.
10.5e terme = LCI de la classe avec la médiane + Différence de sommation x Intervalle de classe.
Fréquence de classe
Université Virtuelle Africaine 34
La différence de sommation 20.5 – 14 = 6.5 où 14 est la FC de l’intervalle de classe
25-29.
Étape 6 : La médiane 29.5 +
6.5
× 5 = 31.53125.
16
Notez que le dénominateur 16 est la fréquence de classe dans l’intervalle de classe
30-34.
L’étendue
L’étendue est tout simplement la différence entre le chiffre le plus haut et le chiffre
le plus bas dans une suite de données.
Exemple : 23, 26, 34, 47, 63, l’étendue est 63-23 = 40, et dans 121, 65, 78, 203,
298,174, l’étendue est 298-65= 233.
Leçon cinq : Les mesures de dispersion
1) Les quartiles :
Ce sont des données placées dans un ordre de magnitude qui peuvent être divisées en
quatre portions égales, 25 % chacune. La première portion est le quartile le plus bas
qui apparaît à 25 %. Celui du milieu, ou du centre, à 50 % est appelée la médiane,
tandis que le troisième quart qui apparaît à 75 % s’appelle le quartile supérieur. Les
trois points sont généralement écrits comme ceci : Q1, Q2 , Q3.
2) L’étendue semi-interquartile :
L’étendue semi-interquartile ou la déviation quartile est définie comme :
7
Q =
Q 3 − Q1
2
3) Les déciles :
Si les données sont placées dans un ordre de magnitude et divisées en 10 portions
égales (10 % chacune), donc chaque portion constitue un décile. Les déciles sont
écrits comme ceci : D1, D2, D3,……D9.
4) Les percentiles :
Si les données sont divisées et placées dans un ordre de magnitude subdivisé en 100
parties égales (1 % chacune), donc la portion constitue un percentile. Les percentiles
sont écrits comme ceci : P1, P2, P3…, P99.
Université Virtuelle Africaine 35
L’écart moyen
L’écart moyen d’un ensemble de N nombres X1 ,X2, X3, X4,X5,……, XN est défini
par :
N
∑ X −X
j
j =1
Écart moyen (EM) =
=
N
∑X
−X
N
= X − X , où X est la
moyenne arithmétique des nombres et X − X est la valeur absolue de la déviation
de X
j
à partir de X .
Exemple
Trouvez l’écart moyen de la suite 3, 4, 6, 8, 9.
Solution
Moyenne arithmétique =
Écart moyen ( X ) =
5
=
30
5
=6
3−6 + 4−6 6−6 + 8−6 + 9−6
−3 + −2 + 0 + 2 + 3
5
3+ 4+6+8+9
5
=
3+ 2+0+ 2+3
5
=
10
2
=5
=
Université Virtuelle Africaine 36
L’écart moyen d’un groupe de données
Pour les données Valeurs
X1
X2
X3
……
XN
Fréquences
f1
f2
f3
….
Fm
L’écart moyen peut être calculé ainsi :
m
∑ f X −X
j
j
j =1
Écart moyen =
N
=
∑ f X −X
N
= X −X
L’écart-type
L’écart-type d’un ensemble de N nombres X1 ,X2, X3, X4, X5,……, XN est représenté
par s et est défini par :
s=
N
2
∑ (X − X )
j
j =1
N
=
∑ ( X − X )2
N
=
∑ x2
N
=
( X − X )2
où x représente la déviation des nombres X de la moyenne X . Il suit que l’écartj
type est la variance des déviations de la moyenne.
L’écart-type d’un groupe de données
Valeurs
X1
X2
X3
……
XN
Fréquences
f1
f2
f3
….
Fm
L’écart-type est calculé ainsi :
s=
m
2
∑ f (X − X )
j
j =1
=
N
2
∑ f (X − X )
=
N
2
∑ fx
= ( X − X )2
N
Université Virtuelle Africaine 37
m
oú N= ∑
j =1
f =∑f.
j
La variance
La variance d’un ensemble de données est définie comme le carré de l’écart-type :
variance = s2. Nous utilisons parfois s pour représenter l’écart-type d’un échantillon
de population et σ (sigma en lettre grecque) pour représenter l’écart-type d’une population. De plus, σ 2 peut représenter la variance d’une population et s2, la variance
d’un échantillon d’une population.
Exemples
Trouvez la moyenne et l’étendue des données suivantes : 5, 5, 4, 4, 4, 2, 2, 2.
Solution
Moyenne = m m
∑n
N
x =
5+5+ 4 + 4 + 4 + 4 + 2 + 2 + 2
= 3.56
9
Étendue 5-2=3
Observation de la médiane
Exemple
Dans 13 observations
1,1,2,3,4,4,5,6,8,10,14,15,17
La médiane =
La valeur
n + 1 14
=
= 607
2
2
14
= 7th position. La médiane est 5.
2
Si n est impair, la médiane est la valeur dans la position
n+1
2
Par contre, si elle est paire, nous ferons la moyenne des deux nombres du centre.
Université Virtuelle Africaine 38
Exemple
1,1,2,2,3,4,4,5,6,8,10,14,15,17
La médiane = la moyenne des deux nombres du centre =
4+5
= 4.5
2
La médiane et les groupes de données
2
Lorsque des données sont regroupées ensemble, la médiane χ est la valeur exacte
ou en dessous de 50 % du point d’observation.
Exercices
Trouvez la médiane des données suivantes.
q
Travail d’équipe
1. 1,1,2,2,3,4,5,7,7,7,9
2. 7,8,1,1,9,19,11,2,3,4,8
1. Étudiez le calcul de la variance et de l’écart type des
exemples
Définition
La moyenne de l’écart mis au carré est appelée la variance :
−
2
s =
Σ h ( x − x) 2
N
−
Où : x − x est la déviation de la moyenne, N est le nombre d’observations, s 2 est
la variance et
s 2 est l’écart type.
Exemple
Les données 2, 4, 5, 8, 11 vous sont données. Trouvez la variance et l’écart type.
X
2
4
5
8
11
∑x
=5
−
x−x
-4
-2
-1
2
5
−
( x − x) 2
16
4
1
4
25
∑
=50
−
( x − x) 2
Université Virtuelle Africaine 39
−
Donc, x =
30
50
= 6 52 =
= 10
5
5
Variance = s 2 =
50
5
= 10
Écart type = √10
Exercices
1. Calculez l’étendue des données : 1,1,1,2,2,3,3,3,4,5
2. Calculez la variance et l’écart type : 1,2,3,4,5
Asymétrie
Notons que lorsque la distribution d’une variable à travers son histogramme est symétrique, alors les trois caractéristiques de tendance centrale, à savoir : le mode, la
médiane et la moyenne de cette variable, sont égaux. Dans le cas unimodal, lorsque
la distribution est asymétrique, la médiane est généralement comprise entre le mode
et la moyenne arithmétique : deux cas se présentent alors :
• mode<médiane<moyenne la distribution est étalée vers la droite ;
• mode>médiane>moyenne la distribution est étalée vers la gauche.
Définition : L’asymétrie est le degré de déviation de la symétrie d’une distribution.
(Voir les asymétries positives et négatives plus haut.)
Pour les distributions asymétriques, la moyenne tend à aller dans le même sens que
celui du mode avec la queue la plus longue.
Le premier coefficient d’asymétrie de Pearson
Le premier coefficient d’asymétrie est défini par :
Asymétrie =
moyenne− mode X − mode
=
écart − type
s
Le deuxième coefficient d’asymétrie de Pearson
€
Le second
coefficient de Pearson est défini par :
Asymétrie =
€
3(moyenne( X ) − médiane(X )) 3(X − mediane(X ))
=
écart − type(X )
s
Université Virtuelle Africaine 40
Coefficient quartile d’asymétrie
Il est défini comme par :
Coefficient quartile d’asymétrie =
( Q − Q ) − ( Q − Q ) Q − 2Q + Q
3
2
2
1 = 3
2
1
Q −Q
Q −Q
3
1
3
1
L’asymétrie 10-90 percentile
Elle est définie comme ceci :
Asymétrie 10-90 percentile =
(P − P ) − (P − P ) P − 2P + P
90
50
50 10 = 90
50
10
P −P
P −P
90 10
90 10
Exemple : Trouvez le 25e percentile des données 1, 2, 3, 4, 5, 6, 7, 9
25e percentile =
2e = 2
3e = 3 €
(n + 1)x0.25
9(.25) = 22.5(centile)
2 . 25 ⇒ 0 . 25 (1) + 2 = 2 . 25
Trouvez le 50e percentile
50e percentile = (8 + 1) x.50 = 9 (. 5 ) = 4 .5 percentile
4e = 4
5e = 5 0 .5 (5 ) = 0 .5 + 4 = 4 .5
Le (1) est l’étendue 5-4=1.
q
Travail d’équipe
1. Étudiez le calcul des percentiles et tentez de répondre à
la prochaine question…
suivants.
Université Virtuelle Africaine 41
Exercices
Trouvez le 25e percentile, le 50e percentile et le 90e percentile.
46,21,89,42,35,36,67,53,42,75,42,75,47,85,40,73,48,32,41,20,75,48,48,32,52,61,49
,50,69,59,30,40,31,25,43,52,62,50
Réponses
a) 36
b) 48
c) 73
Kurtosis ou le coefficient d’aplatissement
Définition : Le kurtosis est le degré d’aplatissement d’une distribution, comparé à
la distribution normale.
Exemples
1) Distribution leptokurtique ou hypernormale :
Une distribution avec un sommet plutôt élevé
2) Distribution platicurtique ou hyponormale :
Une distribution ayant un sommet plat
Université Virtuelle Africaine 42
3) Distribution mésocurtique
Une distribution normale – ni élevée, ni plate
Exercices
Trouvez le mode des collectes de données suivantes :
1) 1,3,4,4,2,3,5,1,3,3,5,4,2,2,2,3,3,4,4,5
2) Nombre de mariages pour 1000 personnes dans la population africaine pour les
années 1965 à 1975.
Année
Taux
1965
9.3
1966
9.5
1967
9.7
1968
10.4
1969
10.6
1970
10.6
1971
10.6
1972
10.9
1973
10.8
1974
10.5
1975
10.0
3) Nombre de morts pour 1000 personnes pour les années 1960 et 1965 à 1975.
1960
9.5
1965
9.4
1966
9.5
1967
9.4
Université Virtuelle Africaine 43
1968
9.7
1969
9.5
1970
9.5
1971
9.3
1972
9.4
1973
9.3
1974
9.1
1975
8.8
Réponses
1. 3
2. 10.6
3. 9.5
À lire An introduction to probability par Charles M. Grinstead, pages 247 à 263.
Faire les exercices des pages 263 à 267, numéros 4, 7, 8, 9.
Probabilités
1) Univers des possibles (ou Espace d’échantillon) et évènements
Terminologies
a) Une expérience de probabilités
Lorsque vous lancez une pièce de monnaie, lorsque vous prenez une carte dans un
paquet de cartes ou lorsque vous lancez un dé, vous faites une expérience de probabilités. Dans une expérience de probabilités, les chances sont bien définies avec des
chances égales d’occurrence – il y a seulement deux chances possibles lorsque vous
lancez une pièce de monnaie. Vous aurez soit pile, soit face. Le côté face et le côté
pile ont des chances égales.
b) Un résultat
Il est défini comme le résultat d’un seul essai d’une expérience de probabilités
– lorsque vous lancez une pièce de monnaie une seule fois, vous aurez soit pile, soit
face.
Université Virtuelle Africaine 44
c) Un essai
Il se réfère à l’activité de faire une expérience, comme tirer une carte d’un paquet de
cartes ou bien de lancer des dés.
d) Un Univers des possibles
Il se réfère à toutes les possibilités d’une expérience de probabilités – lorsque vous
lancez une pièce de monnaie, vous obtiendrez soit face (F), soit pile (P). Il n’y a
que deux résultats possibles lorsque vous lancez une pièce de monnaie. Les chances
d’obtenir pile ou face sont égales.
e) Un évènement simple et un événement composé
Dans une expérience de probabilités, un évènement avec une seule possibilité de
résultat est appelé un évènement simple. Si un évènement a plus de deux possibilités,
il est appelé évènement composé.
2) Définition des probabilités
Les probabilités peuvent être définies comme les mathématiques de la chance. Il y a
quatre approches principales aux probabilités;
i.
ii.
iii.
iv.
L’approche classique ou a priori ou approche pascalienne
La fréquence relative ou l’approche expérimentale : l’approche fréquentiste
L’approche axiomatique
L’approche subjective (ou approche personnaliste)
L’approche classique ou a priori
Les probabilités sont le ratio du nombre de cas favorables comparé au total de cas
possibles. C’était la conception originelle des probabilités initiée le physicien mathématicien Pascal vers l’an 1654 dans le contexte de loterie basée sur un jeu de
hasard. Cette idée fut poursuivie par Fermat, contemporain de Pascal. Imaginez qu’un
événement se produit N fois sur un total M de manières possibles. La probabilité
d’occurrence de l’évènement est désignée par :
p=Pr(N)=
N
. La probabilité se réfère au rapport de résultats favorables sur tous les
M
résultats possibles.
La probabilité de non-occurrence du même évènement est donnée par (1-p(occurrence)).
La probabilité d’occurrence plus celle de la non-occurrence est égale à un.
Si la probabilité d’occurrence est P(O) et la probabilité de non-occurrence P(Oc),
alors P(O)+P(Oc)=1.
Université Virtuelle Africaine 45
Les probabilités expérimentales : les fréquences relatives
Les probabilités expérimentales surviennent lorsque la fréquence des distributions
n’est pas utilisée. On s’intéresse à un événement A attaché à une expérience; on procède à un nombre assez élevé n de répétitions de ladite expérience dans les mêmes
conditions et indépendamment les unes des autres : la probabilité de l’événement A
est définie comme la limite de sa fréquence relative lorsque n tend vers plus l’infinie,
soit :
P(A) =
limFréquence(A)
n ⎯⎯⎯⎯⎯⎯⎯
⎯→+∞
Ainsi, dans la pratique on interprète une fréquence relative comme une probabilité,
approximativement
au moins : Fréquence(A) @ P(A).
€
Exemple :
Observation ( X)
0
1
2
3
4
Fréquence ( f)
3
7
10
16
11
La probabilité d’observation (X) qui apparaît 2 fois est donnée par la formule :
P(2)=
fréquencede 2
f (2)
10
10
=
=
=
sommedes fréquences ∑ f
3+ 7 + 10 + 16 + 11 47
L’approche
axiomatique
€
Genèse des probabilités. Sur le plan historique, de l’année 1663 jusqu’en 1933,
notons que les probabilités constituaient une discipline des sciences physiques,
vraisemblablement parce que la majorité des promoteurs du calcul des probabilités
furent plutôt des physiciens comme Pascal, Fermat, Huyghens, Bernoulli(vers 1700),
Gauss (1809), Laplace(1812), etc. Il a fallu attendre les travaux du mathématicien
russe N. Kolmogorov publiés en 1933 qui a démontré la possibilité d’une approche
axiomatique des probabilités, y compris le concept dfe probabilité conditionnelle,
pour que celles soient enfin acceptées d’intégrer les domaines des sciences mathématiques. En 1955 et 1956, A. RENYI démontra dans théorie d’espace de probabilité
conditionnelle,la possibilité de généraliser l’axiome de Kolmogorov. Ensuite, récemment, Sylvia Pulmannova (1991), dans les algèbres de Von Neumann, a construit une
généralisation de l’axiomatique de A. RENYI. Tout ceci montre un rapide essor de la
théorie de probabilité à partir du moment où l’on s’est aperçu que toute probabilité
peut être considérée comme probabilité conditionnelle. S’il a fallu ainsi presque
trois siècles (de 1663 à 1933) pour découvrir cette approche axiomatique, le concept
de probabilité étant alors dégagé à la fois du contexte numérique, de la chronologie
et de la causalité, ce grand bond en avant n’a demandé que quelques dizaines d’années. Cependant, l’emploi des mots de Formule et Loi demeurent toujours jusqu’à
Université Virtuelle Africaine 46
aujourd’hui : c’est une trace indélébile de l’origine physicienne des probabilités!
Il est heureux d’apprécier par la suite l’impact positif de cette reconnaissance du
statut de discipline mathématique des probabilités sur l’avancement notable des
mathématiques et surtout celui de l’informatique, laquelle s’est avérée un moteur de
la nouvelle technologie de l’information et de communication de notre ère moderne.
Ceci amène à penser que trop s’attacher au contexte numérique ou expérimental pour
introduire les probabilités, et attacher trop de chronologie ou de causalité à la notion
de probabilité conditionnelle, seraient des sources d’obstacles épistémologiques dans
la compréhension des concepts de probabilité et de probabilité conditionnelle.
Axiomes de Kolmogorov et définition. On considère un ensemble non vide E des
résultats possibles d’une expérience et une famille T des parties de E qui contient
E lui-même et à la fois stable par complémentation et par réunion dénombrable,
famille appelée une tribu sur E. Alors le couple (E, T) porte le nom d’espace probabilisable.
On appelle probabilité définie sur l’espace probabilisable (E, T), toute application
de type P définie sur la tribu T à valeurs réelles positives et qui satisfait aux deux
propriétés suivantes :
(i) Axiome de normalisation : P(E) = 1.
(ii) Axiome d’additivité dénombrable :
Pour toute suite (An)n d’événements dans T, deux à deux incompatibles, on a :
P(
+∞
UAn)
n=0
=
+∞
∑ p( A n) .
n=0
P une€probabilité définie sur un espace probabilisable (E, T).
Terminologies : Soit
€
On dit alors que (E, T, P) est un espace probabilisé. Pour tout événement A de T, le
nombre P(A) est la probabilité pour que l’événement se réalise, ou la probabilité de
l’événement A.
Interprétation : Il y aurait 100P(A) % de chance pour que l’événement A se produise.
Université Virtuelle Africaine 47
3) Les propriétés des probabilités.
Soit (E, T, P) un espace probabilisé. On démontre facilement les propriétés suivantes.
a) La probabilité de l’événement impossible est nulle : P(f) = 0.
La probabilité d’un évènement qui va certainement arriver est 1.
Terminologies : Un événement de probabilité nulle est dit un événement presque impossible. Celui de probabilité égale à 1 est dit un événement presque
sûr ou presque certain.
b) P est une application croissante :
Pour tous événements A, B de T, si A B, alors P(A) ≤ P(B).
c) La probabilité de n’importe quel évènement se trouve entre 0 et 1. Une probabilité ne peut pas être négative, pas plus qu’elle ne peut être plus grande
que 1.
d) Formule de passage à l’événement contraire : Pour tout événement A, on a :
P(A) = 1 – P( A ). Cette formule est très pratique, pour calculer P(A), alors que
son contraire apparaît plus maniable.
e) Additivité
simple : si deux événements A et B sont incompatibles, alors :
€
P(A ou B) = P(A B) = P(A)+P(B).
f) La somme totale des probabilités de tous les résultats possibles dans un espace
d’échantillon est toujours égale à un (1).
g) Formule des probabilités totales : pour tous événements A et B, on a :
P(A ou B) = P(A) + P(B) – P(A et B).
h) Cas particulier d’univers fini et d’hypothèse d’équiprobabilité d’événements
élémentaires : si E = {e1, e2,…, en} tel que pour tout i, on a P() = p, alors pour
tout événement A de T,
card(A)
Nombre de cas favorables à A
P(A) = Card (E ) =
Nombre de cas possibles .
Ce dernier cas, exige une maîtrise de l’analyse combinatoire pour assurer le nombre
des
€cas favorables et celui des cas possibles.
Remarque : voici quelques locutions signifiant une hypothèse d’équiprobabilité
d’événements élémentaires : tirage au hasard, pièce parfaitement symétrique, dé
homogène, boules identiques et indiscernables au toucher, etc.
Université Virtuelle Africaine 48
Règles de comptage. On dispose de deux règles de comptage :
(ii) La règle d’addition : Si A et B sont deux ensembles finis non vides, alors
Cardinal(A ou B) = Card(A)+Card(B) : le nombre de façons de prendre un élément de A ou un élément de B est égal la somme du nombre d’éléments de A et
celui de B.
Soit, ou ayant le sens de « ou bien » donne l’addition pour le comptage.
(iii)La règle de multiplication : Si A et B sont deux ensembles finis, alors le
nombre d’éléments de leur produit cartésien A x B est égal au produits de leurs
cardinaux :
Card(AxB) = Card(A) x Card(B).
Ainsi, s’il y a Card(A) façons de prendre un élément de A et Card(B) façons de choisir
un élément de B, alors il y a Card(A) x Card(B) façons de choisir un élément de A
et un élément de B.
Soit, le « et » donne la multiplication.
Toutes les formules classiques de dénombrement, rappelés ci-dessous, se déduisent
de ces deux règles de comptage.
1) Nombre de permutations et Factorielle
Une permutation de n objets o1, o2, …, on est une bijection de l’ensemble { o1,
o2, …, on } sur lui-même. Il s’agit ici des permutations sans répétition.
Le nombre de permutations de n objets est : factorielle(n) = n!=n x (n-1) x
…x 3x2x1.
Exemple : Factorielle(4) = 4 ! = 4 x 3 x 2 x 1 et 7! = 7 x 6 x 5 x 4 x 3 x 2 x 1
2) Nombre de permutations avec répétition
Le nombre d’applications d’un ensemble à n objets vers un ensemble à m éléments
est égal à la puissance mn.
3) Règles d’arrangements
Le nombre d’arrangements de n objets r par r, avec considération d’ordre,
est :
n
Ar =
n !
(n − r ) !
Université Virtuelle Africaine 49
Exemples
P
5 3=
8 5
P=
5!
5 x4 x3 x2 x1
=
= 5 x4 x3 = 60
(5 − 3)!
2 x1
8!
(8 − 5 )!
=
8!
3!
=
8 x 7 x 6 x 5 x 4 x 3 x 2 x1
3 x 2 x1
= 8 x 7 x 6 x 5 x 4 = 6720
4) Combinaisons
Le nombre de combinaisons de n objets pris r à r, sans considération d’ordre,
est : nCr =
n !
(n − r )! r !
Exemples
€
C2 =
5
10
C6 =
5!
5 x 4 x3 x 2 x1 5 x 4
=
=
= 10
(5 − 2)!2!
3! 2!
2 x1
10 !
(10 − 6 )!6!
=
10 !
4! 6!
=
10 x 9 x8 x 7 x
4 x 3 x 21 x
6!
6!
=
10 x 9 x8 x 7
4 x 3 x 2 x1
= 210
Exercices
Trouvez la solution pour :
1)
2)
3)
4)
5)
6)
7)
8)
P
C
8 3
C
15 10
C
6 3
P
15 4
C
9 3
C
10 8
P
7 4
8 3
Réponses
1) 336
2) 56
3) 3003
4) 20
5) 32 760
6) 84
7) 90
8) 840
Université Virtuelle Africaine 50
Probabilité conditionnelle :
Théorème et définition : Étant donné un espace probabilisé (E, T, P), et un événement
réalisable B, l’application notée PB définie sur T par :
T
R : A PB(A) =
P (A et B)
P (B)
est une probabilité sur (E, T).
€
Par définition, cette probabilité PB est appelée la probabilité conditionnelle sachant
B, ou probabilité conditionnelle étant donné l’événement B, et pour tout événement
A de T, PB(A) est la probabilité conditionnelle sachant B de l’événement A.
Remarque : Psychologiquement, des résultats de la recherche en didactique ont montré que la notation indicielle PB(A) est plus congruente sur le plan de la sémantique
et moins ambiguë que la notation traditionnelle P(A/B) ou P(A si B) , à l’instar de la
notation logb(x) pour le « logarithme de base b de x », et celui des suites de fonctions
Un(x) prononcé « u- n- de- x ».
Indépendance et dépendance statistiques : Pour deux événements non impossibles,
c’est-à-dire réalisables, A et B, des trois choses l’une :
• soit PA(B) = P(B) : alors l’événement B est statistiquement indépendant de
l’événement A ;
• soit PA(B) > P(B) : alors l’événement B est statistiquement positivement dépendant de l’événement A ; on dit que A favorise B ;
• soit PA(B) < P(B) : alors l’événement B est statistiquement négativement
dépendant de l’événement A ; on dit que A défavorise B.
Nota Bene : La notion d’indépendance statistique est visiblement symétrique. De
même les notions de dépendance positive et de dépendance négative sont symétriques,
certes, mais dans les deux cas le degré de dépendance de B par rapport à A n’est pas
nécessairement égal à celui de dépendance de A par rapport à B. Aussi, s’avère-til important de trouver un indice qui puisse rendre compte de l’un ou l’autre type
d’indépendance statistique. L’indice noté MGK , défini ci-dessous, répond justement
à une telle attente :
⎧ PA (B) − P (B)
, si A favorise B;
⎪
⎪ 1− P (B)
⎨
MGK(A, B) = ⎪PA (B) − P (B)
, si A défavorise B;
⎪
P (B)
⎩
Il est aisé de montrer que -1≤ MGK(A, B) ≤1, et que MGK(B, A) ≠MGK(A, B).
€
Université Virtuelle Africaine 51
Par ailleurs, la différence Delta(A, B)=P(A et B) - P(A)P(B) mesure l’écart à l’indépendance des deux événements A et B. Il est facile de vérifier que Delta(A, B) > 0,
si et seulement si A et B se favorisent l’un l’autre, sans précision sur lequel parmi A
et B aurait plus d’influence sur l’autre. Cependant, MGK(A, B) > 0 et MGK(A, B) >
MGK(B, A) impliquent que A et B se favorisent, et B dépend plus de A que A dépend
de B. En fait, cet indice s’avère très efficace pour détecter les associations orientées
appréciables qui existeraient entre des variables ou groupes des variables dans une
donnée qualitative même à volume très élevé. Pour en savoir plus, notamment sur
ses propriétés mathématiques et ses relations avec d’autres mesures de dépendance
statistique, il est conseillé de lire les articles proposés ci-dessous.
Références (certaines sont téléchargeables sur Google) :
a- Sur une étude didactique du concept de probabilité conditionnelle :
R. Gras & A. Totohasina (1995), Chronologie et causalité, conceptions sources
d’obstacles épistémologiques à la notion de probabilité conditionnelle, in revue Recherche en Didactique des Mathématiques, Vol.15, n°1, La Pensée Sauvage (édts),
Grenoble, France, 1995, 49-95.
b- Sur l’étude de dépendance statistique à partir des données qualitatives :
Totohasina A., Feno D. R.(2008), De la qualité des règles d’association:
Etude comparative des mesures MGK et Confiance (8 pages), Proc. of the 9th African
Conference on research in Computer Science and Applied Mathematics(CARI’08),
october 27-30, 2008, p. 561568.
Feno D, Diatta J., Totohasina A.(2007), Une base pour les règles d’association valides au sens de la mesure de qualité MGK , in Revue de la Nouvelle Technologie de
l’Information, RNTI, issue spéciale de SFC’2006, version longue, 11 pages.
Feno D., Diatta J., Totohasina A.(2007), Galois lattices and Bases for MGK-valid association rules, Revisited version, in Lecture Note in Computer Science, Belohlavek \&
al editors, Book special issue of CLA 2006: Concept Lattices and their Applications,
LNCS Vol. 4923, pp. 186--197, march 2008.
Totohasina A., Ralambondrainy H. (2005), ION: a pertinent new measure for mining
information from many types of data, proceedings of The 2005 International Conference on Signal-Image Technology & Internet- Based Systems (SITIS’05), November
27th - December 2nd 2005, The Hilton Hotel, Yaound\’e, Cameroon, 202-207.
Université Virtuelle Africaine 52
Règles des probabilités
1) Règle #1 : Additivité simple : Lorsque deux évènements A et B sont mutuellement exclusifs, c’est-à-dire incompatibles, alors P(A ou B)=P(A)+P(B).
Exemple : Lorsque A est lancé, trouvez la probabilité d’avoir 3 ou 5.
Solution : P(3) =1/6 and P(5) =1/6.
Donc, P( 3 or 5) = P(3) + P(5) = 1/6+1/6 =2/6=1/3.
2) Règles #2 : Formule des probabilités totales. Si A et B sont deux évènements
qui ne sont pas mutuellement exclusifs, alors P(A or B) = P(A) + P(B) - P(A
et B), où A et B sont le nombre de résultats que les évènements A et B ont en
commun.
Exemple : Lorsqu’une carte est tirée dans un paquet de 52 cartes, trouvez la probabilité que la carte soit un 10 ou un cœur.
Solution :
P( 10) = 4/52 et P( coeur)=13/52
P ( 10 de coeur) = 1/52
P( A ou B) = P(A) +P(B)-P( A et B) = 4/52 _ 13/52 – 1/52 = 16/52.
Règles de multiplication des probabilités
1) Règle #1: Pour deux évènements indépendants A et B, alors :
P(A et B) = P(A) x P(B).
Exemple : Déterminez la probabilité d’obtenir un 5 sur un dé et le côté pile d’une
pièce de monnaie en un seul lancer.
Solution : P(5) = 1/6 et P(Pile) = ½.
P(5 et Pile)= P(5)xP(Pile)= 1/6 x ½= 1/12.
2) Règle #2: Formule des probabilités composées pour des événements dépendants.
Lorsque deux évènements sont dépendants, la probabilité que les deux évènements
se produisent est :
P(A et B) = P(A) x P(B|A), où P(B|A) est la probabilité que l’évènement B se produise
en tenant pour acquis que l’évènement A se soit déjà produit : c’est la probabilité
conditionnelle sachant l’événement A de l’événement B. Dans ce cas, A est l’événement conditionnant, B l’événement conditionné.
Université Virtuelle Africaine 53
On emploie aussi la notation indicielle moins équivoque : PA(B) =P(B/A).
Représentation arborescente de la formule des probabilités composées :
P(A)
PA(B)
Ω A Univers B ==> P(A B) = PA(B)xP(A)
Conditionnant
Conditionné
Exemple : Trouvez la probabilité d’obtenir deux As dans un paquet de 52 cartes
sans remplacement.
Solution : P(as)= 2/52 et P(deuxième as sans remplacement)= 3/51
Donc, P(as et as) = P(as) x P(deuxième as) = 4/52 x 3/51 = 1/221
Exemple : Lorsqu’un dé est lancé une fois, trouvez la probabilité d’avoir un 4, en
prenant compte qu’un nombre égal s’est produit dans un lancer précédent.
Solution : P(4 et le nombre égal) = 1/6. P(A et B)= 1/6. P(nombre égal)= 3/6 = ½.
P( A|B) =
P (A et B)
=
P (B)
1
1
6
2
=
1
3
Autres exemples
€
1) Un sac contient 3 billes orange, 3 jaunes et 2 blanches. Trois billes sont sélectionnées sans remplacement. Trouvez la probabilité de sélectionner deux billes
jaunes et une blanche.
Solution : P( 1er Y) =3/8, P( 2e Y) = 2/7 et P( W)= 2/6
P(Y et Y et W)=P(Y) x P(Y) x P(W) = 3/8 x 2/7 x 2/6 = 1 / 28
2) Dans une classe, il y a 8 filles et 6 garçons. Si trois élèves sont sélectionnées au
hasard pour faire un débat, trouvez la probabilité que ce soit uniquement des
filles.
Solution : P( G) =8/14 et P(B) =6/14. P( 1 st G)=8/14, P(2nd G) 7/13 et
6/12.
P( trois filles) 8/14 x 7/13 x 6/12= 2/13
P(3rdG)=
Université Virtuelle Africaine 54
3) En combien de façons est-ce que des représentants peuvent être sélectionnés
d’un groupe de 8 membres?
Solution : :
8
C3 = 56 façons
4) Une boîte a 12 bulbes dans laquelle 3 sont défectueux. Si 4 bulbes sont vendus,
trouvez la probabilité qu’un soit défectueux.
Solution :
3
C1x 9C3 =
3!
x
9!
( 3 − 1)!1! ( 9 − 3)!3!
= 252
P( 4 bulbes sur 12) = 12C4= 495.
P( 1 bulbe défectueux et 3 bulbes parfaits) = 295/495=0.509.
3. Règle #3: La formule des probabilités d’hypothèses ou probabilités des
causes : le théorème de Bayés.
On considère un système complet d’événements H1, H2, …, Hk de l’univers des
possibles Ω :
H1 H2 … Hk = Ω et Hi et Hj sont incompatibles pour i ≠j. On considère un événement réalisable A de la tribu t tel que les k probabilités conditionnelles PHi(A) sont
connues ainsi que les probabilités P(Hi), alors pour tout i≤k, on a :
P Hi (A ) × P ( H i )
PA(Hi) = k
∑ P Hj (A ) × P ( H j )
j =1
Dessiner l’arbre direct des probabilités permettant de voir simultanément toutes ces
€k probabilités conditionnelles sachant l’événement A, en généralisant la représentation
graphique de la Règle #2 ci-dessus (il vous suffit de compléter la figure ci-dessous) :
l’arbre pondéré ainsi obtenu s’appelle l’arbre inverse des probabilités, par opposition à
l’arbre direct des probabilités qui correspond à la transcription directe des données du
problème de Bayés. Sur le plan didactique et en pédagogie, il est recommandé d’initier
les apprenants à la construction de l’arbre direct des probabilités dans sa démarche
de résolution d’un problème de mettant en jeu les probabilités conditionnelles.
Université Virtuelle Africaine 55
PH1(A)
A
P(AH1) = PH1(A) x P(H1)
H1
P(H1)
A’
P(H2)
PH2(A)
A
P(AH2) = ?
H2
P(Hk)
… ……
A’ …
…
…
A’
Hk
PHk(A)
Arbre
direct des
des probabilités
Arbre direct
probabilités
A
P(AHk) = ?
P(A) = ?
Exercices
1) En combien de façons est-ce que 7 robes peuvent être placées en ligne sur une
étagère?
2) En combien de façons est-ce que 3 stylos peuvent être sélectionnés dans un
ensemble de 12 stylos?
3) Dans un paquet de 52 cartes, 3 cartes sont sélectionnées. Quelle est la probabilité
d’avoir uniquement des carreaux?
4) Contrôle de performance des usines. Trois usines fournissent respectivement
25%, 35%, 40% des carreaux de faïence nécessaires à une entreprise de construction. Dans leurs livraisons, il y a respectivement en moyenne 5, 4, et 2% de
carreaux inutilisables. Un carreau est choisi au hasard dans un stock important,
ce carreau est défectueux.
a-
b-
c-
d-
Quel est l’univers des possibles?
Donner l’arbre direct des probabilités qui transcrit cette situation problème.
Quelle est la probabilité qu’un carreau tiré soit défectueux?
Quelle est la probabilité que le carreau défectueux tiré provienne de l’usine
A? B?C?
e- En déduire l’identification de l’usine la plus performante en terme de la qualité
de production.
5) Contrôle des pièces et qualité d’un test. Des pièces mécaniques sont fabriquées en grande série. On effectue un test sur chacune d’elles pour en contrôler
la qualité. On appelle p la probabilité pour qu’une pièce choisie au hasard soit
bonne, a la probabilité pour que le test indique comme bonne une pièce qui est
Université Virtuelle Africaine 56
effectivement bonne, b la probabilité pour que le test indique comme bonne une
pièce qui est en réalité mauvaise.
(i) Quel est l’univers des possibles en question?
(ii) Donner l’arbre direct des probabilités qui transcrit cette situation problème.
(iii)Calculer la probabilité pour qu’une pièce indiquée, comme bonne par le test
soit effectivement bonne.
(iv)Un test est utile lorsque la probabilité pour qu’une pièce indiquée, comme
bonne par le test soit effectivement bonne, est supérieure à p. À quelle condition le test est-il utile?
Réponses
1) 5040
2) 220
3) 0.013
4) Valeurs approchées des probabilités : c) 0,345; d) 0, 36; 0, 41; 0, 23. e) C.
5) Pour la modélisation mathématique, on prendra soin de noter les trois événements stratégiques ici : « la pièce est bonne », « la pièce est mauvaise », « le
pa
pa
test indique que la pièce est bonne ». (iii) pa + (1− p)b ; (iv) pa + (1− p)b >
p a>b.
À lire
€
€
An Introduction to Probability & Random Processes par Kennet B & Gian-Carlo R,
pages
1. 1.20-1.22: “Exercise Chapter 1: Sets, Events & Probability”, pages 1.23-1.28,
numerous 1-12 & 14-20.
2. 2.1-2.33: “Exercise Chapter 2: Finite Processes”, pages 2.33, numéros 1,2,3,1320,22-27.
3. Introduction to Probability, par Charles M. Grinstead, pages 139-141
Université Virtuelle Africaine 57
Variables aléatoires (v.a)
Définition intuitive: Une variable aléatoire est une fonction qui assigne un nombre
réel à tous les résultats possibles d’une expérience aléatoire.
(Harry Frank & Steve C. Althoen, CUP, 1994, page 155)
Une variable aléatoire est une variable dans le sens qu’elle peut être utilisée comme
signet pour un nombre dans des équations et des inégalités. Son caractère aléatoire
est complètement décrit par sa fonction de répartition ou sa densité de probabilité
qui peuvent être utilisées pour déterminer la probabilité d’obtenir certaines valeurs
particulières.
Définition plus formelle: Formellement, une variable aléatoire est une fonction
mesurable d’un espace de probabilité à vers l’ensemble des nombres réels.
Par exemple, une variable aléatoire peut être utilisée pour décrire le processus de
rouler un dé ainsi que les résultats possibles (1, 2, 3, 4, 5, 6). La représentation la
plus évidente est de prendre cet ensemble comme écart-type, la mesure de probabilité
comme mesure uniforme et la fonction comme fonction d’identité.
Variable aléatoire
Quelques personnes considèrent l’expression variable aléatoire comme une fausse
appellation, puisqu’une variable aléatoire n’est pas une variable, mais plutôt une
fonction qui dirige les résultats (d’une expérience) aux nombres. Soit A une σ-algèbre
(ou tribu des parties) sur l’espace Ω de résultats utiles dans une expérience.
Dans l’exemple de lancer un dé, l’espace de résultats est l’ensemble Ω = { 1, 2, 3,
4, 5, 6 }, et A serait la famille des parties de Ω. Dans ce cas, une variable aléatoire
appropriée peut être la fonction d’identité X(ω) = ω. Si le résultat est ‘1’, alors la
variable aléatoire est aussi égale à 1. Un exemple semblable pourrait être lorsque
vous lancez une pièce de monnaie, l’espace de résultats possible est Ω = { P, F }
(pour pile et face), et A est égal encore à la famille des parties de Ω. Une parmi les
plusieurs variables aléatoires définies dans cet espace est
où H = Face, T = Pile.
Mathématiquement, une variable aléatoire est définie comme une fonction mesurable
d’un espace probabilisable vers un autre espace mesurable.
Université Virtuelle Africaine 58
Convergence des variables aléatoires
Dans la théorie des probabilités, il y a plusieurs notions de convergence pour une
suite de variables aléatoires. Certaines d’entre elles, les plus usuelles, sont données
ci-dessous en ordre croissant de force – n’importe quelle notion de convergence dans
la liste implique la convergence selon toutes les notions précédentes.
Définitions :
La convergence en loi : Comme son nom l’explique, une suite de variables aléatoires
converge en loi vers la variable aléatoire
, si la suite de
ses fonctions de répartitions respectives F1, F2, …,, converge simplement vers la
fonction de répartition
de
, lorsque
est continue.
La convergence en probabilité ou convergence faible : La suite de variables
aléatoires X1, X2, …, converge en probabilité vers la variable aléatoire
, si
pour tout ε > 0. La convergence en probabilité
est aussi appelée la convergence faible.
La convergence presque sûre ou convergence forte : La suite de variables aléatoires
converge presque sûrement vers la variable aléatoire
, si
Intuitivement, la convergence presque sûre est plus forte que la convergence faible, et
dans les deux cas, les variables aléatoires
montrent une corrélation
en hausse avec
. Dans le cas d’une convergence en loi, les valeurs réalisées des
variables aléatoires n’ont pas besoin de converger, et n’importe quelle corrélation
possible parmi elles est immatérielle.
La loi des grands nombres : Si une pièce de monnaie est lancée, nous savons plus
ou moins que la moitié du temps, elle tombera du côté face, et que l’autre moitié du
temps, elle tombera du côté pile. Il semblerait aussi que le plus de fois nous le lançons, le plus de chances nous aurions un ratio [face : pile] qui approcherait de [1 :1].
Les probabilités modernes nous permettent d’arriver au même résultat. Ce résultat
est remarquable puisqu’il n’est pas assumé nulle part qu’en construisant la théorie
et est complètement une ramification de la théorie.
La loi forte des grands nombres (LFGN) affirme que si un évènement de probabilité p est observé à répétition pendant des expériences indépendantes, le ratio des
fréquences observées de l’évènement du nombre total de répétitions convergeant
presque sûrement vers p.
Université Virtuelle Africaine 59
En d’autres mots, si
sont des variables aléatoires indépendantes de
Bernoulli qui prennent la valeur 1 avec la probabilité p et la valeur 0 avec la pron
∑X i
i=1
babilité 1-p, alors la suite de nombres variables
n
sûrement :
converge vers p presque
€
Ex. :
Théorème central limite (TCL)
Le théorème central limite est la justification de l’omniprésence de la distribution
normale dans la nature ; il fait que les probabilités nourrissent les statistiques.
Le théorème affirme que la suite des moyennes de plusieurs variables aléatoires
indépendantes et identiquement distribuées tend vers une distribution normale sans
tenir compte de la distribution initiale de la variable aléatoire. Officiellement, soit
une suite X1, X2, …, des variables aléatoires indépendantes de moyennes respectives
, et les variances respectives
, alors la suite de variables
aléatoires
convergent dans la distribution normale centrée réduite.
Les fonctions des variables aléatoires
Si nous avons une variable aléatoire X sur Ω et une fonction mesurable f : R → R,
alors Y = f(X) sera aussi une variable aléatoire sur Ω, puisque la composition des
fonctions mesurables est aussi mesurable. La même procédure qui a permis à une
variable aléatoire d’aller d’un espace de probabilité (Ω, P) vers (R, dFX) peut être
utilisée pour obtenir la distribution de Y. La fonction de répartition de Y est :
Exemple
Soit X une variable aléatoire réelle, une variable aléatoire continue, et soit Y = X2..
Alors :
Si y< 0, alors P(X2 ≤ y) = 0,
Université Virtuelle Africaine 60
Donc FY(y) = 0, si y<0.
Si y ≥ 0, alors
Donc
F Y (y)= F X ( y ) − F X (− y ), si y ≥ 0.
Les distributions de probabilités
€
Certaines variables aléatoires se produisent très souvent dans la théorie des probabilités à cause de plusieurs processus naturels et physiques. Leurs distributions gagnent
donc une importance spéciale dans la théorie des probabilités. Quelques distributions
discrètes fondamentales sont les lois discrètes uniformes, lois de Bernoulli, les lois
binomiales, les lois binomiales négatives, les lois de Poisson et lois géométriques. Les
distributions continues importantes incluent les distributions continues et uniformes,
normales, exponentielles, gamma, beta, Khi-carré, Stuident, Fisher, Weibull, Erlang,
etc. Elles sont utilisées dans divers domaines dont la modélisation stochastiques,
comme en fiabilité d’un système d’organes, en économétrie, etc.
Les fonctions de distributions
Si une variable aléatoire
est définie sur l’espace de probabilité
(Ω,A,P) donné, nous pouvons poser la question suivante : « Comment est-ce que la
valeur de X peut être plus grande que 2? », ce qui signifie quelle est la probabilité de
l’évènement
la forme P(X> 2)?
, qui est souvent écrite simplement sous
On enregistre toutes les valeurs possibles atteintes par une variable aléatoire X :
elles forment l’univers-image X(Ω) de X. Dès lors, on « oublie » l’univers initial
des possibles Ω. On s’intéresse directement à la distribution des probabilités de ces
différentes valeurs de la variable aléatoire X : on identifie ainsi la loi de probabilité
de X. Une telle distribution de probabilités peut toujours être saisie par sa fonction
de répartition
, et l’on peut parfois utiliser la fonction
dérivée F’X = fX, dite la densité de probabilité de X. Dans ce dernier cas, la densité
de probabilité représente la loi de probabilité de la variable aléatoire X étudiée.
Université Virtuelle Africaine 61
La théorie des probabilités discrètes
La théorie des probabilités discrètes cerne les évènements qui se produisent dans
un espace des résultats possibles à travers une tribu de ses parties.
Exemples : En lançant des dés, en faisant des expériences avec un jeu de cartes, ou
avec une marche aléatoire.
Définition classique : Initialement, la probabilité qu’un évènement se produise était
définie par le rapport du nombre de cas favorables à la réalisation de l’événement sur
le nombre des toutes les cas possibles.
Par exemple, si l’événement est la « fréquence d’avoir un nombre pair lorsqu’un dé est
lancé », la probabilité sera,
3
1
=
6
2
, puisque 3 faces sur 6 sont des chiffres pairs.
Définition moderne : La définition moderne commence avec un ensemble appelé
l’univers des possibles, qui se réfère à l’ensemble de tous les résultats possibles dans
€
un sens classique, désigné par
. On assume alors que pour
chaque élément
, une valeur de probabilité intrinsèque
Ce qui satisfait les propriétés suivantes :
€
€
1.
f(x) ∈ [0, 1], pour tout x ∈ Ω.
2.
∑ f (x) = 1.
x∈Ω
Pour un événement qui est défini comme n’importe quel sous-ensemble
des possibles , la probabilité de l’événement est :
est attachée.
de l’univers
La fonction f(x) trace un point dans l’espace d’échantillon de la valeur de probabilité
est appelé une fonction de probabilité de masse, abrégée par fpm. La définition
moderne n’essaie pas de répondre à la question : comment la fonction de probabilité
de masse est – elle obtenue? à la place, elle construit une théorie qui assume son
existence.
Université Virtuelle Africaine 62
La théorie des probabilités continues
La théorie des probabilités continues s’intéresse aux événements qui se produisent
dans un univers des possibles continu.
Si l’univers des possibles est est un intervalle de réels, alors la fonction appelée la
fonction de distribution cumulative (ou fdc) ou la fonction de répartition (f.r.)
de X existe et :
.
La fdc ou f.r. doit satisfaire aux propriétés suivantes :
1.
est une fonction monotone non décroissante et est continue à droite.
2.
3.
Si est différentiable, alors la variable aléatoire a une fonction de densité de probabilités ou fdp ou tout simplement une densité :
Pour un ensemble
, la probabilité que la variable aléatoire prenne ses valeurs
dans est représentée par :
Dans le cas où la densité de probabilité existe, on peut écrire :
Alors que la fdp n’existe que pour les variables aléatoires continues, la fdc existe
pour toutes les variables aléatoires (incluant les variables aléatoires discrètes) qui
prennent la valeur de .
Ces concepts sont généralisés dans les cas multidimensionnels de où X prennent des
valeurs vectorielles dans
.
Université Virtuelle Africaine 63
Fonction de la densité des probabilités
Si X est une variable qui peut prendre un ensemble de valeurs discrètes X1, X2,
X3,…….., Xk aux probabilités p1, p2, p3,……., pk, où p1+ p2 + p3,……., + pk = 1, nous
dirons qu’une distribution de probabilités discrètes de X a été définie. La fonction
p(X), qui a les valeurs respectives p1, p2, p3,……., pk pour X= X1, X2, X3,…….., Xk,
est appelé la fonction de probabilités, ou la fonction de fréquences, de X. Puisque X
peut prendre certaines valeurs avec des probabilités données, elle est souvent appelée
une variable aléatoire discrète. Une variable aléatoire est parfois appelée une variable
de chance ou une variable stochastique (Murray R, 2006, page 130).
Distribution continue
Supposons que X soit une variable aléatoire continue. La loi de probabilité de la variable aléatoire continue X est représentée par sa fonction de densité des probabilités,
notée f(x), où f(x) ≥ 0 parmi les valeurs pour lesquelles x est valide. Cette fonction
de densité des probabilités peut être représentée par une courbe, et une probabilité
correspondante est l’aire de la région limitée par cette courbe et l’axe des valeurs
de X.
L’aire de toute la région sous la courbe est égale à 1. La région sous la courbe entre
les lignes x=a et x=b (partie ombrée) donne la probabilité X qui est entre a et w, ce
qui peut être désigné par P(a<X<b.
Puisque la totalité de la région sous la courbe est égale à 1, elle suit la probabilité
entre l’étendue de l’intervalle [a, b] qui est représentée par :
P (a ≤ X ≤ b) =
b
∫ f (x)dx
a
Ce qui représente la partie ombrée.
Université Virtuelle Africaine 64
Note : Lorsque nous calculons la région de a à b, nous n’avons pas besoin de distinguer
les inégalités (≤ et≥) et (< et>) . Nous assumons que les lignes de a et b n’ont
pas d’épaisseur et que l’aire de la région correspondante égale zéro.
Exemples et réponses
€
1) La variable aléatoire continue X est distribuée avec une fonction de la densité
de probabilité f définie par
f(x) = kx(16-x2), pour 0<x<4, nulle ailleurs.
Déterminez
a) La valeur de la constante k.
b) La probabilité de l’espace d’écart P(1<X<2).
c) La probabilité P(x ≥ 3).
Solution
f(x)
x
b
a
Pour n’importe quelle fonction intégrable f telle que
f(x) ≥ 0, pour a ≤ x ≤ b, et ∫ab f (x)dx = 1
on peut la prendre comme la fonction de densité de probabilité (f.d.p.) d’une variable
aléatoire continue dans l’espace d’écart [a, b].
Démarche à suivre :
Étape 1: En général, si X est une variable aléatoire continue (v.a.) avec une f.d.p.
f(x) valable sur l'intervalle [a, b], alors :
Donc
∫
b
a
f (x)dx = 1
€
∫ f (x)dx = 1
Tout x
Université Virtuelle Africaine 65
Étape 2
a) Pour trouver k, nous utilisons le fait que dans f(x) = kx(16-x2), pour 0<x<4,
alors
4
kx(16 − x 2 )dx = 1
∫
Donc k ∫ 416x − x 3 )dx = 1
0
1
d' où : k =
.
64
0
Étape 3 €
b) Trouvez P(1<X<2)
Solution
2
P(1<X<2)= ∫ f (x)dx
1
=
1 2
81
(16x − x 3 )dx =
∫
1
64
256
Étape 4
c) Pour trouver P(x ≥ 3) écrivons :
P (x ≥ 3) =
1 4
49
(16x − x 3 )dx =
∫
3
64
256
Exemple 2
2) X est la variable aléatoire continue égale à « la masse d’une substance, en kg,
par minute dans un processus industriel de production », telle que :
⎧ 1
⎪ x(6 − x)
f (x) = ⎨12
,
⎪
0,
⎩
€
(0 ≤ x ≤ 3) ;
sin on.
Université Virtuelle Africaine 66
Trouvez la probabilité que la masse soit supérieure à 2 kg.
Solution
X peut prendre des valeurs de 0 à 3 seulement. Nous dessinons sa densité de probabilité f(x) et la partie ombrée est requise.
f ( x) =
f(x)
1
x( 6 − x)
12
x
0
P (x > 2) =
=
2
3
1
x(6 − x)dx
2 12
∫
3
1 3
(6x − x 2 )dx
∫
2
12
3
1 ⎡ 2 x3 ⎤
= ⎢ 3x − ⎥
12 ⎣
3 ⎦2
= 0.722 (3 d.p)
La probabilité que la masse soit supérieure à 2 kg est de 0,722.`
Ainsi, il y aurait 72, 2 % de chance pour que la masse dépasse les 2 kg.
Exemple 3
3) Une variable aléatoire continue a une f.d.p. f(x) où
2
f ( x ) = kx ,
0 ≤ x ≤ 6.
a) Trouvez la valeur de K
b) Trouvez P ( 2 ≤ X ≤ 4)
Université Virtuelle Africaine 67
Solution
a) Puisque X est une variable aléatoire, le total de la probabilité est de 1.
∫ f (x)dx = 1
all
⇒
6
∫
0
kx 2 dx = 1
6
⎡ kx 3 ⎤
⎢ 3 ⎥ = =1
⎣
⎦0
216k
=1
3
3
⇒k=
216
Donc f(x)=
3 2
1 2
x =
x , 0≤ x≤6
216
72
b)
f ( x) =
f(x)
x
0
2
P (2 ≤ x ≤ 4) =
1 3
x
216
= 0.259
=
]
4
2
∫
4
2
1 2
x dx
72
4
6
1
x2
72
Université Virtuelle Africaine 68
D’où la probabilité cherchée est : P ( 2 ≤ X ≤ 4) = 0.259.
Exemple 4
La variable aléatoire continue (v.a.) a une fonction de densité de probabilité (f.d.p.)
où
⎧k,
si 0 ≤ x < 2 ;
⎪
f(x) = ⎨k(2x − 3), si 2 ≤ x ≤ 5
⎪ 0,
sin on.
⎩
a) Trouvez la valeur de la constante K
b) Dessiner y=f(x)
€
c) Trouvez P(X ≤ 1)
d) Trouvez P(X>2.5)
Solution
a) Puisque X est une v.a., alors
∫ f(x)dx = 1
Tout x
Donc
€
∫
2
0
kx
5
kdx + ∫ k(2x − 3)dx = 1 2
2
0
5
+ k ⎡⎣ x 2 − 3x ⎤⎦ 2
2k + 19k = 1
1
⇒k=
21
Alors la f.d.p. de X est
Université Virtuelle Africaine 69
⎧ 1
⎪ 21
⎪
⎪
⎪1
⎪ (2x − 3)
f (x) = ⎨ 21
⎪
⎪
⎪0
⎪
⎪
⎩
0≤x<2
2≤x≤5
SINON
otherwise
Dessin
1
3
1
21
0
1
2
2.5
3
4
b) P(x ≤ 1) = région entre zéro et 1 = L x W= 1 x
5
1
1
=
= 0.048
21 21
c) Trouvez P(X>2.5) = aire du rectangle + aire du trapèze.
=(
1
1
2 11
1
x 2 ) + ( {0.5}{ + } =
= 0.131
2
21 21 84
21
Université Virtuelle Africaine 70
Exercices
1) La variable aléatoire continue X a une f.d.p. f(x) où f(x)= k, 0 ≤ x ≥ 3 .
a. Dessinez y=f(x).
b. Trouvez la valeur de la constante K.
c. Trouvez P(0.5 ≤ X ≤ 1 .
2) La variable aléatoire continue a une f.d.p. f(x) où f(x)=kx2, 1 ≤ x ≤ 4 .
a. Trouvez la valeur de la constante.
b. Trouvez P(x ≥ 2)
c. Trouvez P(2.5 ≤ x ≤ 3 .5
3) La variable aléatoire continue a une f.d.p f(x) où
⎧ k,
si 0 ≤ x < 2 ;
⎪
f (x)⎨k(2x − 1), si 2 ≤ x ≤ 3 ;
⎪
0,
sin on.
⎩
€
a. Trouvez la valeur de la constante k.
b. Dessinez y=f(x)
c. Trouvez P(X ≤ 2 )
d. Trouvez P(1 ≤ X ≤ 2.2)
Université Virtuelle Africaine 71
q
Réflextion : Il peut être utile pour les enseignants de trouvez un logiciel pour
faire des graphiques dans l’enseignement des statistiques
Graph est un bon exemple de logiciel à source ouverte.
Voir : http://www.padowan,dk/graph/
Si vous avez accès à un ordinateur, téléchargez Graph et explorer ses fonctions de
statistiques.
Voici un exemple de différents graphiques qui peuvent être dessinés à partir de
Graph.
Espérance mathématique Définition : Si X est une variable continue (v.c.) avec une fonction de densité de
probabilité (f.d.p.) f(x), alors l’espérance de X est E(X) défini par :
E (X ) =
€
+∞
∫ x f (x)dx = ∫ xf(x)dx.
tout x
−∞
Note: E(X) est souvent notée par μ : c’est aussi la moyenne de X.
Exemple
1) Si X est une variable continue (v.c.) avec une f.d.p.
trouvez E(X).
Solution
E (X ) =
€
€
+∞
∫ x f (x)dx = ∫ xf(x)dx.
tout x
−∞
3 1 {x} x 2 dx
Donc ∫ 0
16
⎡
⎤3
1 ⎢x 4 ⎥
81
=
=
= 1.265
16 ⎢
64
⎣ 4 ⎥
⎦0
f (x) =
1 2
x , 0≤x≤3
16
Université Virtuelle Africaine 72
2) Si la variable aléatoire continue X a une f.d.p f ( x) =
trouvez E(X).
€
E (X ) =
∫ x f (x)dx
toutx
E ( x) =
∫
3
1
2
5
2
(3 + x)( x − 1),
5
1≤ x ≤ 3
{ x} (3 + x )( x − 1) dx
3
2 ⎡ x4
2 x 3 3x 2 ⎤
= ⎢
+
−
⎥
5⎣ 4
3
2 ⎦1
608
=
60
= 10 .13
Généralisation
Si g(x) est une fonction quelconque d’une variable aléatoire continue X qui a une
f.d.p f(x), alors
E [ g(X )] =
∫ g(x) f (x)dx
toutx
et en particulier
E (X 2 ) =
∫ x 2 f x dx
( )
tout x
Les résultats suivants demeurent :
1. E (a ) = a
2. E (aX ) = aE (X )
3.
4.
€
E (aX + b) = aE (X ) + b
E [( f1(X ) + f2 (X )] = E [ f2 (X )].
Université Virtuelle Africaine 73
Exemple
1) La variable aléatoire continue X a une f.d.p f(x) où f(x)=
Trouvez
1
x, 0 ≤ x ≤ 3 .
2
a) E(X)
b) E(X2)
c) E(2X +3)
Solution
E (X ) =
a)
=
€
∫
3
0
∫ x f (x)dx
toutx
1 2
x dx
2
3
1 ⎡ x3 ⎤
= ⎢ ⎥
2 ⎣ 3 ⎦0
b
= 4.5
E (X ) =
2
=
∫
all x
x f (x)dx
2
1 3 3
x dx
2 ∫0
3
1 ⎡ x4 ⎤
= ⎢ ⎥
2 ⎣ 4 ⎦0
=
81
= 10.125
8
c) E(2X +3) = E (2X) + 3
= 2E(X) +3
= 2(10.125)+5
= 25.25 ( voir b) plus haut)
)
Université Virtuelle Africaine 74
Exercices
1) La variable aléatoire continue X a une f.d.p f(x) où
⎧
⎪kx,
si
0≤ x<1;
⎪
f (x) = ⎨k,
si
1≤ x < 3 ;
⎪k(4 − x), si 3 ≤ x ≤ 5 ;
⎪
sin on.
⎩0,
a) Trouvez k.
b) Calculez E(X).
€
2) La variable aléatoire continue X a sa f.d.p. f définie par f(x) =
1
(x + 3), 0 ≤ x ≤ 5.
10
€
a)
b)
c)
d)
Trouvez E(X).
Trouvez E(2X+4)
Trouvez E(X2).
Trouvez E( X2 + 2X – 1).
Généralisation : moments d’ordres supérieurs
Définition : On appelle le moment d’ordre m d’une v.a. X l’espérance mathématique
de Xm, soit E(Xm), sous réserve de son existence.
Applications des moments : coefficients d’asymétrie et d’aplatissement d’une
distribution
La moyenne et la variance (ou l’écart-type) d’une variable donnent les premiers renseignements sur sa distribution : la moyenne renseigne sur le centrage ou la position
des valeurs de la variable, et la variance (ou l’écart-type) informe sur la dispersion
de ces valeurs autour de la moyenne. Les moments d’ordres supérieurs à deux fournissent des informations plus précises.
• Le moment centré d’ordre 3 : E(X-E(X))3 ; c’est le premier moment centré
d’ordre impair non nul ; il donne une information sur la symétrie de la distribution des valeurs par rapport à la moyenne E(X).
Définition : Le coefficient d’asymétrie ou skewness de X est la quantité sans dimension
a=
€
€
E [(X −E (X )) 3]
σ 3X
Université Virtuelle Africaine 75
Plus a est faible, proche de zéro, plus la répartition est approximativement symétrique
par rapport à la moyenne E(X). si la distribution est symétrique, alors a est nul ; la
réciproque étant fausse!
• Le moment centré d’ordre 4 : E(X-E(X))4 ; il apporte une information sur
l’aplatissement de la distribution des valeurs de X.
Définition : Le coefficient d’aplatissement ou kurtosis de X est la quantité sans
dimension
A=
E [(X −E (X )) 4 ]
− 3.
σ 4X
La correction par 3 vient du fait que le rapport E[(X-E(X))4]/s4X vaut 3 pour la loi
normale centrée
réduite. Si A >0, alors la distribution est moins aplatie que la loi
€
normale : la distribution est hypernormale ; Si A <0, alors la distribution est plus
aplatie que la loi normale
La loi de Bernoulli
Dans la théorie des probabilités et des statistiques, la loi de Bernoulli, ainsi nommée
en hommage au scientifique suisse Jakob Bernoulli, est une distribution de probabilités discrètes qui prend la valeur 1, avec une probabilité de succès p, et la valeur 0,
avec une probabilité d’échec q = 1 –p. Donc, si X est une variable aléatoire qui suit
cette distribution, nous avons :
La fonction de probabilité de masse f de cette distribution est
⎧ p, si k = 1;
⎪
f(k; p) = ⎨1 - p, si k = 0;
⎪ 0, sinon.
⎩
La valeur prévue d’une variable aléatoire X de Bernoulli est
variance est
, et sa
€
Le coefficient d’aplatissement va vers l’infini pour des valeurs hautes et basses de p,
mais pour p = 1 / 2, la distribution de Bernoulli a un coefficient d’aplatissement plus
bas que n’importe quelle autre distribution de probabilités, à savoir -2.
La distribution de Bernoulli est membre de la famille exponentielle.
Université Virtuelle Africaine 76
La distribution binomiale
Dans la théorie des probabilités et des statistiques, la distribution binomiale est la
distribution de probabilités discrètes des nombres de succès dans une séquence de n
expériences indépendantes de type oui/non, dans laquelle chacune a un succès avec
une probabilité p. Une expérience succès/échec comme celle-ci est aussi appelée une
expérience de Bernoulli ou un essai de Bernoulli. La distribution binomiale est la base
pour faire des tests populaires binomiaux d’une signification de statistique.
Exemple. Comme exemple de base : lancez un dé dix fois et comptez le nombre de
1 que vous obtiendrez. Donc, ce nombre au hasard suit une distribution binomiale
avec n = 10 et p = 1/6.
Exemple. Supposons que 5 % de la population a les yeux verts. Vous prenez 500
personnes au hasard. Le nombre de personnes aux yeux verts que vous prendrez est
une variable aléatoire X qui suit une distribution binomiale avec n = 500 et p = 0,05
(lorsque vous prenez des personnes avec un remplacement).
Exemples
1) Une pièce de monnaie est lancée 3 fois. Trouvez la probabilité d’avoir 2 faces
et un pile dans l’ordre.
Formule
Nous pouvons utiliser la formule nCx.
(p)x.(1-p)n-x
Où n = le nombre d’essais
X= le nombre de succès (1,2, …)
P= la probabilité d’un succès.
Cx détermine le nombre de façon qu’un succès peut se produire
1er)
n
2e)
(p)x
3e)
(1-p)n-xest la probabilité d’avoir des échecs n-x
est la probabilité d’avoir x succès et
Analyse de la loi binomiale de paramètres (n, p) (à vérifier):
E(X)=np ; V(X)=np(1-p)=npq ; asymétrie : a =
1
6
−
.
npq
n
€
€
q− p
npq
; aplatissement : A=
Université Virtuelle Africaine 77
Solution
Lancer 3 fois veut dire que n=3
Deux faces veut dire que x=2
P(H)=1/2;
P(T)=1/2
P( 2 faces) = 3C2.
1
2
( )2.(1-
1 3-1
) = 3(1/4)(1/2)= 3/8
2
Exercices
1) Trouvez la probabilité d’avoir exactement un 5 lorsqu’un dé est lancé.
2) Trouvez la probabilité d’avoir 3 faces lorsque 8 pièces de monnaie sont lancées.
3) Un sac contient 4 balles rouges et 2 balles vertes. Une balle est tirée et remplacée 4 fois. Quelle est la probabilité d’avoir exactement 3 balles rouges et
une balle verte.
Réponses
1) P(un 5) = 3C1.
1
6
( )1.(
2) P ( 3 faces) = 8C3.
5 2
) =25/72 = 0.347 i.e. n=3, x=1, p=1/6
6
1
2
( )3.(
3) P( 3 balles rouges) = 4C3.
1 5
) =7/32 = 0.218. i.e. n=8, x=3, p=1/2
2
2
3
( )3.(
1
3
)1
= 32/81= 0.395 i.e. n=4, x=3, p=2/3
À lire
1. Lectures on Statistics, par Robert B. Ash, page 1-4
Exercices numéros 1,2 et 3 à la page 4.
2. An Introduction to Probabilité & Random Processes par Kenneth B. & GianCarlo R., pages 3.1-3.63
Exercise Chapter 3: Random Variables page 3.64-3.82, No. 1-7, 11-17, 20-24
et 34-36.
3. An Introduction to Probability par Charles M. Grinstead, pages 96-107 et
184.
Les exercices aux pages 113-118, no 1,2,3,4,5,8,9,10,19,20.
Ref:http://en.wikipedia.org/wiki/measurable_space
Ref:http://en.wikipedia.org/wiki/Probability_theory
Ref:http://en.wikipedia.org/wiki/Bernoulli_distribution
Université Virtuelle Africaine 78
La loi de Poisson
Dans la théorie des statistiques, la loi de Poisson est une distribution de probabilités
discrètes qui exprime la probabilité qu’un nombre d’événements se produise dans
une période de temps prédéterminée, si ces événements se produisent dans un taux
moyen connu et sont indépendants du temps depuis le dernier événement.
Cette distribution a été découverte par Siméon-Denis Poisson, mathématicien français
(1781-1840), dans sa publication de 1837 sous le titre « Recherches sur la probabilité
de jugements en matière criminelle et en matière civile ». Elle est particulièrement
adaptée pour décrire les événements dont les chances de réalisation sont faibles, d’où
son appellation de « la loi des événements rares ».
La loi de Poisson est utilisée lorsque la variable se produit sur une certaine période de
temps, de volume, etc… ; elle a de nombreuses applications dans des domaines très
variés tels : gestion industrielle (nombre d’accidents de travail, vérification comptable, contrôle d’acceptation, cartes de contrôle pour le nombre de non-conformités),
l’arrivée des avions à un aéroport, recherche médicale(le nombre de globules blancs
dans une certaine région, nombre de bactéries), le nombre d’accidents survenus sur
une route, le nombre de véhicules qui passent à des intervalles de temps réguliers à
un endroit fixé (péage, frontière, etc.), recherche opérationnelle(le nombre de clients
en file d’attente devant un guichet, le nombre d’appels par heure dans une station,,
etc.).
Elle peut être définie comme la limite d’une loi binomiale de paramètres (n, p) lorsque
n devient infinie et np = λ . Elle donne ainsi une très bonne approximation d’une loi
binomiale à faible probabilité de succès et avec un nombre suffisamment grand de
nombre n répétitions d’une épreuve de Bernoulli.
La probabilité de x succès est
2,71828,
e− λ λ x
, où e est la constante mathématique =
x!
et λ est la moyenne ou l’espérance mathématique de la variable (le taux moyen).
Analyse de la loi de Poisson de paramètre λ : E(X)=V(X) = λ ; asymétrie : a =
1
λ
€
; aplatissement : A=
1
.
λ
€
Travail d’équipe :
Étudiez le calcul des probabilités et essayez de répondre à la
question.
Exemple
Si il y a 100 erreurs typographiques distribuées au hasard dans 500 pages manuscrites,
trouvez la probabilité que n’importe laquelle de ces pages ait 4 erreurs.
Université Virtuelle Africaine 79
Solution
Trouvez la moyenne des erreurs x =
100 1
= = 0 .2 .
100 5
En d’autres mots, il y a en moyenne 0,2 erreurs par page. Dans ce cas, λ = 4 , donc
la probabilité de tomber sur une page avec exactement 4 erreurs
e − .x x
x!
=
(2 .7183 )−0.2 (0 .2 )4
41
= 0,00168
Montant 0.2 %
Exemple et solution
Une ligne prioritaire avec un numéro sans frais reçoit en moyenne 4 appels par
heure, pour n’importe quelle heure. Trouvez la probabilité de recevoir exactement
5 appels.
λ
e .λ
x
=
(2 .7183 )− 3 (3 )5
x!
= 0.1001
5!
Donc, 10 %.
Exercices
1) Une compagnie de télémarketing reçoit en moyenne 5 commandes par 100 appels.
Si une compagnie appelle 500 personnes, trouvez la probabilité de recevoir 2
commandes.
Solution
0.26, donc 26 %.
À lire
1. An Introduction to Probability & Random Processes par Kenneth B. & GianCarlo R., pages 187-192.
2. Robert B. Ash, Lectures on Statistics, page 1 et répondez aux problèmes 1,2,3
à la page 15.
Réf.: http://en.wikipedia.org/wiki/Normal_distribution
À manipuler en guise de travaux pratiques sur ordinateur : visualisation des lois
discrètes
Université Virtuelle Africaine 80
1. Ouvrir le logiciel Excel ; 2. Aller dans Outil : cliquer sur Utilitaire d’Analyse,
si activé, sinon cliquer sur Macros complémentaires : faire activer Utilitaire
d’Analyse. 3. Génération des nombres aléatoires 4. Choisir votre loi.
Loi exponentielle
Dans la théorie des probabilités et des statistiques, la loi exponentielle est l’une des
deux distributions de probabilités continues :
• La distribution de probabilité du chiffre X de l’essai de Bernoulli nécessaire
pour obtenir un succès, s’appuyant sur l’ensemble (1,2,3, …), ou
• La distribution de probabilités du chiffre Y = X – 1 des échecs avant le premier
succès, s’appuyant sur l’ensemble (1,2,3, …).
Si la probabilité de succès sur chaque essai est p1, alors la probabilité que les essais
k sont nécessaires pour obtenir un succès est
Pour K = 0,1,2,3, …
Si la probabilité de succès pour chaque essai est p0, alors la probabilité qu’il y aie des
échecs k avant le premier succès est
Pour K = 0,1,2,3, …
Dans chacun des cas, la séquence de probabilités est une séquence exponentielle.
Comme exemple, supposons qu’un simple dé est lancé à plusieurs reprises avant
d’obtenir pour la première fois « 1 ». La distribution de probabilités du nombre de
fois qu’il est lancé est appuyé par l’ensemble infini (1,2,3, …) et sa distribution exponentielle avec p1 = 1/6.
Solutions utilisant la formule de distribution exponentielle
La formule de probabilités pour que le premier succès soit obtenu à l’essai n est
(1-p)n-1p ou simplement
, où p est la probabilité d’obtenir
un succès et n est le nombre d’essais nécessaire avant le premier succès.
Exemple
Trouvez la probabilité d’obtenir le premier « pile » lorsqu’on lance une pièce de
monnaie pour la 3e fois.
Université Virtuelle Africaine 81
Solution
Le résultat d’obtenir un pile au troisième lancé implique FFP (face, face, pile). De
(1-p)n-1p , n=3, p=1/2
Et donc P(FFP) = ( 1-
1 3-1 1
1
1 1
) ( ) = ( ) .. ( ) ( ) =1/8
2
2
2
2 2
Exemples dans une distribution exponentielle
En lançant une pièce de monnaie plusieurs fois, nous appliquons la distribution
exponentielle pour obtenir la réponse de lancer une pièce plusieurs fois.
Exemple
1) Une pièce de monnaie est lancée. Trouvez la probabilité d’obtenir pour la première fois le côté face au troisième lancé. Nous devons obtenir PPF
n = 3 et p=1/2
La probabilité d’obtenir deux côtés pile et un côté face est
1
−
1
−
1
=
1
2 2 2 8
Ou avec la formule
1⎞
⎛
⎜1 − ⎟
2⎠
⎝
3 −1
2
⎛1⎞ ⎛1⎞ 1
. =⎜ ⎟ ⎜ ⎟=
2 ⎝2⎠ ⎝2⎠ 8
1
Université Virtuelle Africaine 82
Université Virtuelle Africaine 83
2) Un dé est lancé; trouvez la probabilité d’obtenir pour la première fois un 3 au
quatrième lancer.
Solution
n=4 p=1/6
4 −1
3
3
⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 5 ⎞ ⎛ 5 ⎞ ⎛ 1 ⎞ 125
= 0 .96
∴ ⎜1 − ⎟ ⎜ ⎟ = ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ =
⎝ 6 ⎠ ⎝ 6 ⎠ ⎝ 6 ⎠ ⎝ 6 ⎠ ⎝ 6 ⎠ 1296
Exemple
Si des cartes sont tirées dans un paquet de cartes et ensuite replacées, combien d’essais
seront nécessaires en moyenne avant d’obtenir deux piques?
P (Pique) = 13/52=1/4
Le nombre d’essais prévus pour obtenir 2 piques serait
Exercices
2
4
= 2 x = 8.
1
1
4
1. Une carte est tirée à partir d’un paquet des cartes et est ensuite replacée avec
une autre carte tirée, etc. Trouvez la probabilité d’obtenir pour la première fois
un pique lors de la quatrième pige.
2. Un dé est lancé jusqu’à l’obtention d’un 5 ou d’un 6. Trouvez le nombre de
lancers nécessaires prévus.
Réponses
1. Quatrième
2. 3
Université Virtuelle Africaine 84
Distribution hypergéométrique
Dans la théorie des probabilités et des statistiques, la distribution hypergéométrique
est une distribution de probabilités discrètes qui décrit le nombre de succès dans une
séquence de n tirés à partir d’une population limitée sans remplacement.
Un exemple typique est illustré par le tableau de contingence plus haut : il y a une
cargaison d’objets N dans laquelle les D sont défectueux. La distribution hypergéométrique décrit la probabilité qu’un échantillon d’objets distinctifs N pris au hasard
dans la cargaison soient des k objets défectueux.
En général, si une variable aléatoire X suit la distribution hypergéométrique avec
les paramètres N, D et n, alors la probabilité d’obtenir exactement k succès est représentée par :
La probabilité est positive lorsque k est entre maximum { 0, D + n − N } et minimum
{ n, D }.
La formule peut être comprise comme suit : Il y a
échantillons possibles (sans
remplacement). Il y a
façons d’obtenir k objets défectueux et il y a
manières de remplir le reste de l’échantillon avec des objets non défectueux.
Lorsque le format de la population est large si on le compare au format d’échantillon
(N est beaucoup plus large que n), la distribution hypergéométrique est approximée
raisonnablement par une distribution binomiale avec des paramètres n (nombre d’essais) et p = D / N (la probabilité du succès dans un simple essai).
Formule hypergéométrique
Lorsqu’il y a deux groupes d’objets comme il y a « a » objets dans le premier groupe
et « b » objets dans le second groupe, donc le nombre total d’objets est (a + b), la
probabilité de sélectionner x objets du premier groupe et (n-x) objets du deuxième
groupe est
C
C
a x . b n− x
, où n est le total d’objets sélectionnés sans remplacement.
C
a+b n
Université Virtuelle Africaine 85
Exemples
1. Un sac contient 3 jetons bleus et 3 jetons verts. On tire deux jetons au hasard,
Trouvez la probabilité d’obtenir deux jetons bleus.
Solution
C
C
a x . b n− x
À partir de la formule
; a = 3, b= 3, x=2, n=2, n-x=2-2=0
C
a+b n
La probabilité d’obtenir deux jetons bleus =
C
C
3 2 . 3 2−2
C
3+3 2
=
3 x1
15
=
1
5
= 0 .2
2. Un comité de 4 personnes est choisi au hasard sans remplacement à partir d’un
groupe de 6 hommes et 3 femmes. Trouvez la probabilité que le comité soit
constitué de 2 hommes et de 2 femmes.
Solution
a=6 b=3
n = 6+3=9
Puisque le comité est constitué de 2 hommes et de 2 femmes
x=2 n-.x= 3-2=1
Pr = 6C 2 3C 1 15 x3 15
=
=
= 0.536
9C 3
84
28
3. Un groupe de 10 chars d’assaut contient 3 chars défectueux. Si 4 chars d’assaut
sont sélectionnés au hasard et testés, trouvez la probabilité d’obtenir un char
défectueux.
3 sont défectueux
7 sont bons
a=3
b=7
Pr (un défectueux)
n = 4 x=1
n-x=4-1=3
Université Virtuelle Africaine 86
Pr (un défectueux)
3C 1 . 7 C 3
10 C 4
=
105
210
= 0 .5
Exercices
1. Dans une boîte de 10 chemises, 5 sont défectueuses. Si 5 chemises sont vendues au hasard, trouvez la probabilité que 2 chemises soient défectueuses.
2. Dans une cargaison de 12 chaises de jardin, 8 sont brunes et 4 sont bleues. Si
3 chaises sont vendues au hasard, trouvez la probabilité qu’elles soient toutes
brunes.
Réponses
1) 0.397
2) 0.255
1) Trouvez la probabilité de choisir 5 femmes dans un comité de 15 femmes.
P(en choisir 5) =
15
1
1
=
C 5 3003
2) Quelle est la probabilité de tirer un as ou un pique dans un jeu de cartes?
P ( Ace) =
4
52
∴ P (AU B ) = P (A ) + P (B ) − P (AU B )
13
52
=
=
P (spade) =
4
52
+
13
52
−
1
52
16 4
=
52 13
q
Travail d’équipe
1.
Révisez les questions et réponses
de probabilités suivantes.
2.
Discutez des problèmes rencontrés
dans le calcul des probabilités.
Université Virtuelle Africaine 87
1
3) Des femmes enceintes ont des problèmes. La probabilité de mourir est de .
5
Quelle est la probabilité qu’au moins une meure à chaque 5 femmes.
1
P ( A) =
51
P (A)1 −
5
⎛ 50 ⎞
P(au moins une mourra) ⎜ ⎟ = utilisez une calculatrice.
⎝ 51 ⎠
1 50
=
51 51
Application et exemple
L’application classique de la distribution hypergéométrique est un échantillonnage
sans remplacement. Pensez à une urne avec deux types de billes, des noires et des
blanches. Définissez le tirage d’une bille blanche comme un succès et d’une bille noire
comme un échec. Si la variable N décrit le nombre de toutes les billes dans l’urne
et D décrit le nombre de billes blanches (appelées défectueuses dans l’exemple plus
haut), alors N-D correspond au nombre de billes noires. Maintenant, disons qu’il y
a 5 billes blanches et 45 billes noires dans l’urne. Placé près de l’urne, vous fermez
vos yeux et vous pigez 10 billes sans les remplacer. Quelle est la probabilité p (k=4)
que vous pigiez exactement 4 billes blanches (et, bien sûr, 6 billes noires)?
Le problème est résumé par ce tableau de contingences ci-dessous :
Tirées
Non tirées
Totales
Billes blanches
4 (k)
1 = 5 − 4 (D − k)
5 (D)
Billes noires
6 = 10 − 4 (n − k)
39 = 50 + 4 − 10 − 5 (N + k − n − D)
45 (N − D)
Total
10 (n)
40 (N − n)
50 (N)
La probabilité Pr (k = x) de tirer exactement x billes blanches (= au nombre de succès)
peut être calculé par la formule :
D’où, dans cet exemple x = 4, calculez
Université Virtuelle Africaine 88
Donc, la probabilité de tirer exactement 4 billes blanches et plutôt basse (approximativement 0.004) et l’évènement est très peu probable. Cela signifie que, si vous répéter
votre expérience aléatoire (tirer 10 billes de l’urne de 50 billes sans remplacement)
1000 fois, vous pourriez espérer obtenir pareil résultat 4 fois.
Mais à propos de la probabilité de tirer les 5 billes? Vous serez d’accord que cet
événement est encore plus peu probable que de tirer 4 billes blanches. Calculons la
probabilité d’un évènement aussi extrême.
Le tableau de contingence correspondant est donné ci-dessous :
Tirées
Non tirées
Total
Billes blanches 5 (k)
0 = 5 − 5 (D − k)
5 (D)
Billes noires
5 = 10 − 5 (n − k)
40 = 50 + 5 − 10 − 5 (N + k − n − D)
45 (N − D)
total
10 (n)
40 (N − n)
50 (N)
Nous pouvons aussi calculer la probabilité qui suit (remarquez que le dénominateur
est toujours le même) :
Comme prévu, la probabilité de tirer 5 billes blanches est encore plus basse que de
tirer 4 billes blanches.
Conclusion
Par conséquent, on pourrait développer la question initiale comme suit : Si vous pigez
10 billes d’une urne (qui contient 5 billes blanches et 45 billes noires), qu’elle serait
la probabilité de tirer au moins 4 billes blanches? Ou, qu’elle serait la probabilité de
tirer 4 billes blanches (et encore plus extrême, 5 billes blanches)? Ceci correspond
à calculer la probabilité cumulative p(k>=4) et peut être calculé par la fonction
de distribution cumulative (fdc). Puisque la distribution hypergéométrique est une
distribution de probabilités discrètes, la probabilité cumulative peut être calculée
facilement en ajoutant toutes les valeurs de probabilités correspondantes.
Université Virtuelle Africaine 89
Dans notre exemple, vous n’avez qu’à faire la somme de Pr (k = 4) et Pr (k = 5):
Pr (k ≥ 4) = 0.003964583 + 0.0001189375 = 0.004083520
À lire
An Introduction to Probabilité & Random Processes par Kenneth B. & Gian-Carlo
R., pages 184 à 195.
La distribution de fréquence à deux variables
La distribution de fréquence à deux variables est la distribution statistique avec une
fonction de probabilité
Où
Et
est la corrélation de of et (Kenney et Keeping 1951, pages 92 et 202-205; Whitaker et Robinson 1967, page 32)
de
,
sont souvent utilisés à la place de
. Les probabilités marginales sont alors
=
et
et
=
et
Université Virtuelle Africaine 90
=
=
Tableaux de probabilités jointes
Ce tableau est un tableau très bien présenté d’un tableau de probabilités jointes.
Nombres de jours avant la vente
Prix demandé
Moins de 30
31-90
Plus de 90
Totaux
Moins de 50,000 $
0.06
0.05
0.01
0.13
50,000 $-99,999 $
0.03
0.19
0.10
0.31
100,000-150,000 $
0.03
0.35
0.13
0.50
Plus de 150,000 $
0.01
0.04
0.01
0.06
Totaux
0.13
0.63
0.25
1.00
Probabilités marginales
Laissons être divisé dans
dans des ensembles disjoints
et
où le sousensemble général est indiqué par
. Donc, la probabilité marginale de est
À lire
1. An Introduction to Probability & Random Processes par Kenneth B. & GiangCarlo R., pages 142 à 150.
2. Exercices à la page 150, no 1,2,3,4,5,6,7,8,9,14,15,16,17,26.
Université Virtuelle Africaine 91
q
Réflexion: Les ressources TIC sont difficiles à accéder!
Ce lien vous mènera sur un site internet pour les
enseignements de mathématiques pour accéder aux
ressources TIC.
http://www.tsm-resources.com/suppl.html
Unité 2 (40 heures)
Variables aléatoires et essais de distribution
Les moments
La distribution de probabilités d’une variable aléatoire est souvent caractérisée par
un petit nombre de paramètres qui ont aussi une interprétation pratique. Comme
exemple, il est souvent assez pour connaître la « valeur moyenne ». Ceci est capturé
par le concept mathématique de la valeur prévue d’une variable aléatoire, représentée
par E[X]. Notez qu’en général, E[f(X)] n’est pas la même chose que f(E[X]). Une
fois que la « valeur moyenne » est connue, on pourrait alors demander jusqu’où cette
valeur moyenne de X est, une question qui se répond par la variance est l’écart-type
d’une variable aléatoire.
Université Virtuelle Africaine 92
Inégalité de Jensen Si X est une v.a. à valeurs vectorielles dans Rn, et g une fonction réelle définie convexe
sur Rn et intégrable, alors E(g(X))≥g(E(X)).
En particulier : E ( X ) ≥ E (X ).
Mathématiquement, cela est connu sous le problème (généralisé) des moments : pour
une classe de variables aléatoires X, trouver la famille {fi} de fonctions telles que
les valeurs
€ espérées E[fi(X)] déterminent complètement la distribution de la variable
aléatoire X.
L’égalité des variables aléatoires
Il existe plusieurs différents sens dans lesquels les variables aléatoires peuvent être
considérées comme étant égales. Deux variables aléatoires peuvent être égales, égales
presque certainement, égales en moyenne ou égales en distribution.
En augmentant l’ordre de force, la définition précise de ses notions d’équivalences
est donnée plus bas.
L’égalité dans la distribution
Deux variables aléatoires X et Y sont égales dans la distribution, si elles sont la même
fonction de répartition, c-à-d si pour tout réel x, P (X ≤ x) = P (Y ≤ x).
Il est facile de vérifier que deux variables aléatoires qui ont leurs fonctions génératrices de moments égales ont la même distribution.
€
L’égalité en moyenne
Deux variables aléatoires X et Y sont égales en moyenne d’ordre p, si le moment
d’ordre p de |X − Y| est nul, i.e.
L’égalité en moyenne d’ordre p implique une égalité en moyenne d’ordre q, pour tout
q<p. Comme dans le cas précédent, il y a une distance associée pour les variables
aléatoires, à savoir, pour tout couple de v.a. (X, Y) :
Université Virtuelle Africaine 93
L’égalité presque sûre Deux variables aléatoires X et Y sont égales P-presque sûrement, si l’événement
{ω ∈ Ω/X(ω ) = Y (ω ) } est un événement presque sûr, i.e. P( {ω ∈ Ω/X(ω ) = Y (ω ) } )=1, ou
encore P( {ω ∈ Ω/X(ω ) ≠ Y (ω ) } )= 0.
€
€
L’égalité
€
Finalement, les deux variables aléatoires X et Y définies sur un même espace probabilisé sont égales si elles coïncident en tant que fonctions sur leur espace des
probabilités, i.e. :
pour tout ω ∈ Ω, X(ω) = Y (ω).
Fonction génératrice des moments
Dans la€théorie des probabilités et statistiques, la fonction génératrice des moments
d’une variable aléatoire X est :
peu importe où cette prédiction existe. La fonction génératrice des moments génère
les moments de la distribution de probabilités.
Pour des variables aléatoires à valeur vectorielles X, la fonction génératrice des
moments se donne comme suit
où t est un vecteur de même dimension que X et
t, X
est le produit scalaire.
La fonction génératrice des moments existe à un intervalle autour de t = 0, le n-ième
moment est représenté par
€
Si une v.a. X admet f(x) comme fonction de la densité des probabilités, alors la fonction génératrice des moments est représentée par
Université Virtuelle Africaine 94
Où mi, est le i-ième moment. MX( − t) n’est que la transformation Laplace à deux
côtés de f(x).
Sans se soucier si la distribution de probabilités est continue ou non, la fonction
génératrice des moments est représentée par l’intégrale de Riemann-Stieltjes :
Où F est la fonction de distribution cumulative de X.
Si X1, X2, ..., Xn est une suite des variables aléatoires indépendantes (et pas nécessairement identiquement distribuées) et que
Où les ai sont des constantes, réelles, alors le fonction de la densité des probabilités
pour Sn est la circonvolution des fonctions de la densité des probabilités de chacun
des Xi et la fonction génératrice des moments pour Sn est représentée par
Un nombre de plusieurs autres transformations reliées à la fonction génératrice des
moments est commun dans la théorie des probabilités, incluant les fonctions caractéristiques et la fonction génératrice des probabilités.
L’inégalité de Markov
ε
f(x)
{X εX
| f ( x) ≥ ε
}
L’inégalité de Markov donne une limite supérieure de la probabilité de l’événement
( X ≥ a)
€
, pour a>0 fixé .
Cette inégalité est ainsi nommée après le mathématicien russe Andrey Markov, bien
qu’elle apparut plus tôt dans les travaux de Pafnuty Chebyshev (l’enseignant de
Markov).
Université Virtuelle Africaine 95
r
E( X )
.
Pour tout a>0, pour tout réel r>0, on a : P ( X ≥ a) ≤
ar
Les inégalités de Markov (ainsi que d’autres inégalités semblables) rapportent des
probabilités aux prédictions et fournissent (très souvent) des limites détachées,
mais tout de même utiles pour la fonction de distribution cumulative d’une variable
€
€
aléatoire.
Démonstration
Pour n’importe quel événement E, soit IE l’indicateur d’une variable aléatoire de E,
qui est IE = 1 seulement si E se produit, et = 0, sinon. Par conséquent, I(|X| ≥ a) = 1, si
l’événement |X| ≥ a se produit, et I(|X| ≥ a) = 0 si |X| < a. Alors, a>0
Donc,
ε
f(x)
{XεX
| f ( x) ≥ ε
}
Maintenant, observons que le côté gauche de cette inégalité est le même que
Par conséquent, nous avons
et puisque nous avons a> 0, nous pouvons diviser les deux côtés par a.
À lire
1. Robert B. Ash, Lectures on Statistics, pages 9 à 13.
2. An Introduction to Probabilité & Random Processes par Kenneth B. & GianCarlo R., pages 366 à 374 et 404 à 407.
• Exercices : page 376, no 1, 3, 7,8
• Exercices : page 442, no 1, 2, 3, 4,5
Université Virtuelle Africaine 96
Références
• http://en.wikipedia.org/wiki/Moment-generating_function
• http://en.wikipedia.org/wiki/characteristic_function_%28probability_theory%29.
• http://en.wikipedia.org/wiki/Integral_transform
L’inégalité de Chebyshev
Dans la théorie des probabilités, l’inégalité de Chebyshev (aussi connu sous l’inégalité de Tchebysheff, le théorème de Chebyshev, ou l’inégalité de BienayméChebyshev), nommé en l’honneur de Pafnuty Chebyshev, celui qui a été le premier à
dire que dans n’importe quel type d’échantillon de données ou dans n’importe quelle
distribution de probabilités, que presque toutes les valeurs soient près de la même
moyenne de valeur, et fournit une description quantitative à « presque toutes » et
« près de ». Par exemple, pas plus de ¼ des valeurs sont plus que 2 écarts types plus
loin que la moyenne, pas plus que 1/9 sont plus de 3 écarts-types plus loin, et que pas
plus que 1/25 sont plus de 5 écarts-types plus loin, et ainsi de suite.
Proposition probabiliste : la règle de k sigma :
Si X est une variable de moyenne μ et de variance finie σ2, alors pour n’importe quel
nombre réel k > 0, on a l’inégalité :
Seulement les cas k> 1, notamment k=3, fournissent de l’information pertinente.
Remarque : Il existe d’autres formulations équivalentes moins usuelles de l’inégalité
P ( X − μ ≥ k) ≤
de Chebyshev, par exemple :
σ2
.
k2
Interprétation : Plus σ2 est relativement grand par rapport à ké, plus la probabilité
de l’événement ( X − μ ≥ k) est grande. Ce qui montre que σ est bien un paramètre
qui caractérise la dispersion de la v.a. X autour de sa moyenne : X s’écarte d’autant
€ que son écart-type (ou sa variance) est faible.
moins de sa moyenne
Preuve : Cette inégalité de Chebyshev découle de l’inégalité de Markov (voir plus
€
bas) : il suffit de considérer cette fois la v.a. X- μ et prendre r==2.
Comme exemple, en utilisant k=√2, cela montre qu’au moins la moitié des valeurs
se trouvent dans l’intervalle (μ − √2 σ, μ + √2 σ).
Typiquement, le théorème fournira des limites plutôt souples. Toutefois, les limites
fournies par l’inégalité de Chebyshev ne peuvent pas, en général, être améliorées.
Université Virtuelle Africaine 97
Par exemple, pour n’importe quel k> 1, l’exemple suivant (où σ = 1/k) rencontre les
exactement les limites.
Le théorème peut être utile malgré les limites souples, parce qu’il s’applique aux
variables aléatoires de n’importe quelle distribution, et parce que ces limites peuvent être calculées en ne sachant rien d’autre de la distribution que la moyenne et
la variance.
L’inégalité de Chebyshev est utilisée pour prouver la loi faible de grands nombres.
Exemple
Pour illustrer ce théorème, nous avons plusieurs textes, comme des articles d’une
revue. Nous savons que les articles contiennent environ 1000 caractères avec un écarttype de 200 caractères. À partir de l’inégalité de Chebyshev, nous pouvons en déduire
qu’au moins 75 % des articles contiennent entre 600 et 1400 caractères (k = 2).
Preuve probabiliste
L’inégalité de Markov dit que pour n’importe quelle valeur réelle d’une variable
aléatoire Y et pour n’importe quel nombre positif a, nous avons Pr (|Y| > a) ≤ E (|Y|)/a.
Une manière de prouver l’inégalité de Chebyshev est d’appliquer aussi l’inégalité de
Markov à la variable aléatoire Y = (X − μ)2 avec a = (σk)2.
Cela peut aussi être prouvé directement. Pour n’importe quel événement A, I est
l’indicateur de la variable aléatoire de A – I égal à 1 si A se produit et sinon, il est
égal à 0. Donc,
La preuve directe montre pourquoi les limites sont plutôt fausses dans les cas typiques : le nombre 1 à gauche de « ≥ » est remplacé par [(X − μ)/(kσ)]2 à la droite de
« ≥ » peu importe où ce dernier dépasse 1. Dans certains cas, il dépasse 1 par une
marge très large.
Conséquence immédiate(à vérifier) :
V(X) = 0 si, et seulement si X=E(X) presque sûrement.
Université Virtuelle Africaine 98
À lire
An Introduction to Probability & Random Processes par Kenneth B. & GianCarlo R., pages 305 à 318.
• Les exercices à la page 309, no. 1,2,3,4,5.
• Les exercices aux pages 320 à 324, no. 1,3,10,12.
Les types de corrélation
La corrélation est une mesure symétrique d’association entre deux variables. Les
variables ne sont pas désignées comme dépendantes ou indépendantes. Les deux
coefficients de corrélation les plus populaires sont : le coefficient de corrélation de
Spearman rho et le coefficient de corrélation du produit-moment de Pearson.
Lorsque vous calculez le coefficient de corrélation pour une donnée ordinale, choisissez la technique de Spearman. Pour l’intervalle ou une donnée ratio type, utilisez
la technique de Pearson.
La valeur d’un coefficient de corrélation peut varier de moins un à plus un. La valeur
moins un indique une corrélation négative parfaite, tandis qu’un plus un indique
une corrélation positive parfaite. Une corrélation de zéro signifie qu’il n’y a aucune
relation entre les deux variables. Lorsqu’il y a une corrélation négative entre deux
variables, alors si la valeur d’une variable augmente, la valeur de l’autre variable
diminue, et vice versa. Lorsqu’il y a une corrélation positive entre deux variables,
alors si la valeur d’une variable augmente, la valeur de l’autre variable augmente
aussi : les deux variables bougent ensemble dans le même sens.
L’erreur-type d’un coefficient de corrélation est utilisée pour déterminer l’intervalle
de confiance autour d’une vraie corrélation de zéro. Si votre coefficient de corrélation tombe en dehors de son étendue, alors il est différent de zéro. L’erreur-type peut
être calculé par intervalles ou par données ratio type (seulement pour la corrélation
produit-moment de Pearson).
La signification (en probabilité) du coefficient de corrélation est déterminée à partir de
la statistique-t. La probabilité de la statistique-t indique si le coefficient de corrélation
observé est arrivé par chance si la vraie corrélation est zéro. En d’autres mots, elle
demande si la corrélation est différente de zéro. Lorsque la statistique-t est calculée
pour le coefficient de corrélation de différence de rang de Spearman, il doit y avoir
au moins 30 cas avant la distribution-t pour déterminer la probabilité. Si il y a moins
de 30 cas, vous devez vous référer à un tableau spécial pour trouver la probabilité
du coefficient de corrélation.
Exemple
Si une compagnie voulait savoir s’il y a une relation significative entre le nombre
total de vendeurs et le nombre total de ventes. Ils ont amassé des données pendant
5 mois.
Université Virtuelle Africaine 99
Variable 1
207
180
220
205
190
Variable 2
6907
5991
6810
6553
6190
Coefficient de corrélation = .921
Erreur-type du coefficient = .068
Test-t pour la signifiance du coefficient = 4.100
Degré de liberté = 3
Probabilité à deux queues = .0263
Autre exemple
Des personnes ayant répondu à un sondage ont été sollicitées pour juger de la qualité
d’un produit sur une échelle de Likert à quatre points (excellent, bon, moyen, mauvais). On leur a aussi demandé de juger la réputation de la compagnie qui a fabriqué
le produit sur une échelle de 3 points (bon, moyenne, mauvais). Y-a-t-il une relation
significative entre les perceptions de la compagnie des répondants et entre les perceptions de la qualité du produit?
Puisque les deux variables sont ordinales, la méthode de Spearman est choisie. La
première variable est la note pour la qualité du produit. Les réponses sont codées
comme suit : 4 = excellent, 3 = bon, 2 = moyen et 1 = mauvais. La deuxième variable est la réputation perçue de la compagnie et est codée comme suit : 3 = bon, 2 =
moyen et 1 = mauvais.
Variable 1
Variable 2
4
3
2
2
1
2
3
3
4
3
1
1
2
1
Université Virtuelle Africaine 100
Coefficient de corrélation rho = .830
Test-t pour la signifiance du coefficient = 3.332
Nombre de paires de données = 7
La probabilité doit être déterminée à partir d’un tableau à cause du petit format de l’échantillon.
Régression
La régression simple est utilisée pour examiner la relation fonctionnelle entre une
variable dépendante et une variable indépendante. Après avoir fait une analyse, les
statistiques de régression peuvent être utilisées pour prédire la variable dépendante
lorsque la variable indépendante est connue. La régression va plus loin que la corrélation en ajoutant des capacités de prédictions.
On utilise intuitivement la régression tous les jours. Dans le domaine des affaires,
un homme bien habillé semble avoir du succès financièrement. Une mère sait que
plus de sucre dans l’alimentation de ses enfants leur donnera un niveau d’énergie
plus élevé. La facilité de se lever le matin dépendra d’à quelle heure vous vous êtes
couché la veille. Les régressions quantitatives ajoutent de la précision en développant
une formule mathématique qui peut être utilisée à des fins de prédictions.
Par exemple, un chercheur médical pourrait vouloir utiliser le poids corporel (variable
indépendante) pour prédire la dose la plus appropriée pour un nouveau médicament
(variable dépendante). Le but de faire une régression est de trouver une formule qui
va avec la relation entre les deux variables. Ensuite, vous pouvez utiliser cette formule
pour prédire les valeurs de la variable dépendante seulement si la variable indépendante est connue. Un docteur pourrait prescrire la bonne dose d’un médicament en
se basant sur le poids de la personne.
La droite de régression est un lot de la valeur prévue de la variable indépendante
pour toutes les valeurs de la variable indépendante. Techniquement, c’est la ligne
qui « minimise des résidus au carré ». La ligne de régression est celle qui s’adapte
le mieux à la donnée sur une dispersion.
En utilisant l’équation de régression, la variable dépendante peut être prédite ou
ajustée à partir de la variable indépendante. L’inclinaison de la ligne de régression
(b) est définie par la hausse divisée par la course. Le point d’intersection y (a) est le
point sur l’axe des y où la ligne de régression rencontrerait l’axe des y. La pente ou
l’inclinaison et le point d’intersection y sont incorporés dans l’équation de régression.
Le point d’intersection est normalement appelé la constante, et la pente est référée
comme étant le coefficient. Puisque le modèle de régression n’est habituellement
pas un outil parfait de prévision, il y a aussi un terme d’erreur dans l’équation. La
droite de régression ne permet pas d’établir avec exactitude la relation fonctionnelle
qui lie une variable dépendante à une variable explicative ; elle n’en fournit qu’une
approximation.
Université Virtuelle Africaine 101
Dans l’équation de régression, y est toujours la variable dépendante et x est toujours
la variable indépendante. Il y a trois façons équivalentes pour décrire mathématiquement un modèle de régression linéaire.
Y = point d’intersection + (pente x) + erreur
Y = constante + (coefficient x) + erreur
Y = a + bx + e
La signification de la pente de la droite de régression est déterminée par la statistique-t.
C’est la probabilité que le coefficient de corrélation observé s’est produit par chance
si la vraie corrélation est zéro. Quelques chercheurs ont préféré se reporter au ratio-f
plutôt que la statistique-t. Le ratio-f est égal à la statistique-t au carré.
La statistique-t pour la signification de la pente est essentiellement un test pour déterminer si le modèle de régression (équation) est utilisable. Si la pente est considérablement différente de zéro, alors nous utilisons le modèle de régression pour prédire
la variable dépendante de n’importe quelle valeur de la variable indépendante.
D’un autre côté, prenez un exemple où la pente est égale à zéro. Il n’y a pas d’habilité
de prédiction parce que pour chacun des valeurs de la variable indépendante, la prédiction pour la variable dépendante serait la même. Sachant que la valeur de la variable
indépendante n’améliorerait pas notre habileté à prédire la variable dépendante. Par
conséquent, si la pente n’est pas considérablement différente de zéro, n’utilisez pas
le modèle pour faire des prédictions.
Le coefficient de détermination (r-carré) est le carré du coefficient de corrélation. Sa
valeur peut varier de zéro à un. Il a l’avantage sur le coefficient de corrélation puisqu’il peut être interprété directement à la proportion de la variance dans la variable
dépendante qui peut être expliquée par la régression de l’équation. Par exemple, une
valeur r-carré de .49 eut dire que 49 % de la variance dans la variable dépendante peut
être expliquée par l’équation de régression. Le 51 % restant reste inexpliqué.
L’erreur-type de l’estimation de la régression mesure le montant de variabilité dans
les points autour de la droite de régression. Elle a l’écart-type des points de données
lorsqu’ils sont distribués autour de la ligne de régression. L’erreur-type de l’estimé
peut être utilisée pour développer l’intervalle autour d’une prédiction.
Exemple
Une compagnie veut savoir s’il y a une relation significative entre ses dépenses en
publicité et son volume de ventes. La variable indépendante est le budget de publicité
et la variable dépendante est le volume de ventes. Un retard d’une moins sera utilisé
puisque les ventes sont prévues pour prendre du retard derrière les dépenses actuelles
de publicités. Des données ont été amassées sur une période de six mois. Toutes les
figures sont en milliers de dollars. Y-a-t-il une relation significative entre le budget
de publicité et le volume de ventes?
Université Virtuelle Africaine 102
Variable indépendante
Variable dépendante
4.2
27.1
6.1
30.4
3.9
25.0
5.7
29.7
7.3
40.1
5.9
28.8
Modèle: y = 10.079 + (3.700 x) + erreur
Erreur-type de l’estimé = 2.568
Test-t pour la signification de l’inclinaison = 4.095
Degrés de liberté = 4
Probabilité à deux queues = .0149
R-carré = .807
À manipuler : sur Excel, dans la barre de menus, sélectionner Outils /utilitaire
d’analyse/choisir Régression linéaire, se laisser guidé par Aides.
À lire
1) An Introduction to Probability & Random ProcessesAn Introduction to Probability & Random Processes par Kenneth B. & Gian-Carlo R., pages 18-30,
212-215 et 300-303
2) Robert B. Ash, Lectures on Statistics, pages 28-29.
Réf.: http://en.wikipedia.org/wiki/Correlation
Réf.: http://en.wikipedia.org/wiki/Regression
Test khi-deux (ou khi-carré)
Un test khi-carré (ou khi-deux) teste une hypothèse telle que la variable statistique
considérée suit une distribution de khi-deux sous l’hypothèse nulle, ou n’importe laquelle dans laquelle la la loi de probabilité de la variable statistique (sous l’hypothèse
nulle) peut être considérée pour approximer une distribution de khi-deux le plus près
possible, pour un échantillon de taille suffisamment grande.
Spécifiquement, un test de khi-deux pour l’indépendance évalue statistiquement une
différence significative entre des proportions pour deux groupes ou plus dans un
ensemble de données.
Université Virtuelle Africaine 103
• Le test de khi-deux de Pearson
• Le test de khi-deux de Yates, aussi connu comme la correction de Yates pour
la continuité.
• Le test de khi-deux de Mantel-Haenszel
• Le test de khi-deux par association linéaire-par-linéaire
Dans la théorie des probabilités et des statistiques, la loi de khi-deux (ou khi-au
carré ou distribution χ2) est l’une des distributions les plus utilisées en statistique
inférentielle, i.e. test de signification statistique. Elle est utile parce que, sous des
conditions raisonnables, la statistique correspondante dépendent des quantités facilement calculables et peut être prise comme une bonne approximation de la loi de
khi-deux, si l’hypothèse nulle est vraie.
Si Xi sont k variables aléatoires indépendantes, normalement distribuées avec une
moyenne commune de 0 et une variance commune de 1, alors la variable aléatoire
suit la distribution de khi-deux à k degré de liberté, et l’on note :
La loi de khi-deux a un paramètre k, un nombre entier positif qui donne le nombre
de degrés de liberté (le nombre des variables Xi).
La loi de khi-deux est un cas particulier de la loi Gamma.
Les situations les plus connues, dans lesquelles la loi de khi-deux est utilisée, sont
les usuels tests de khi-deux de Pearson de la qualité d’ajustement d’une distribution
observée à une distribution théorique, et de l’indépendance de deux critères de
classification de données qualitatives. Cependant, d’autres tests statistiques peuvent
amener à l’utilisation de cette loi.
La fonction caractéristique
On démondre que la fonction caractéristique de la distribution de khi-deux à k degrés
de liberté est :
Université Virtuelle Africaine 104
Propriétés
La loi de khi-deux a beaucoup d’applications dans les statistiques inférentielles,
comme par exemple dans les tests de khi-deux et dans l’estimation de variances. Elle
entre dans le problème d’estimation de la moyenne d’une population normalement
distribuée et dans le problème d’estimation de la pente d’une droite de régression
via son rôle dans la distribution-t de Student. Elle entre dans toutes les analyses de
problèmes de variances via son rôle dans la distribution-f de Fisher, qui est la distribution du rapport de deux variables aléatoires indépendantes suivant des lois de
khi-deux divisés par leurs degrés de liberté respectifs.
Types de Lois khi et khi-deux
Nom
Statistique
Loi de khi-deux
Loi de khi-deux non-centrée
Distribution khi
Distribution khi non-centrée
À manipuler : sur Excel, dans la barre de menus, sélectionner Outils /utilitaire
d’analyse/choisir Test de Khi-deux, test d’égalité des espérances, se laisser guidé
par Aides.
À lire
Réf.: http://en.wikipedia.org/wiki/pearson%chi-square_test
Réf.: http://en.wikipedia.org/wiki/Chi-Square_test
Le test t de Student
Un test t est un test statistique d’hypothèse pour comparer deux groupes tels que la
variable statistique étudiée suit une loi t de Student, si l’hypothèse nulle est vraie.
Université Virtuelle Africaine 105
Historique
La statistique t a été introduite par William Sealy Gosset en surveillant la qualité le
brassage de bières. « Student » était son nom de plume. Gosset était un statisticien
pour la brasserie Guinness à Dublin, en Irlande, et il a été engagé parce que la politique innovatrice de Claude Guiness voulait que les meilleurs diplômés d’Oxford
et de Cambridge soient engagés en biochimie et en statistiques pour le processus
industriel de Guinness. Gosset a publié le test t dans Biometrika en 1908, mais il a
été forcé d’utiliser un nom de plume par son employeur qui considérait le fait qu’ils
utilisaient les statistiques comme secret en commerce. En fait, l’identité de Gosset
était inconnue non seulement par ses compatriotes statisticiens, mais aussi par son
employeur. La compagnie a insisté pour qu’il prenne un pseudonyme pour qu’elle
puisse fermer les yeux sur le non-respect des règles.
Aujourd’hui, le test t est plutôt appliqué à la confiance qui peut être située dans les
jugements faits à partir de petits échantillons.
Utilisation
Parmi les tests t les plus utilisés, il y a :
• Un test de l’hypothèse nulle d’égalité des moyennes de deux populations
normalement distribuées. Avec les deux ensembles de données, chacun caractérisé par sa moyenne, son écart-type et le nombre de points de données,
nous pouvons utiliser un genre de test t pour déterminer si les moyennes sont
distinctes, fournies par les distributions sous-jacentes qui peuvent présumer
être normales. Des tests de ce genre sont généralement appelés des test t
de Student, mais ce terme ne devrait être utilisé seulement si les variances
de deux populations sont aussi présumées égales ; la forme du test utilisée
lorsque cette hypothèse est lancée est parfois appelée le test t de Welch. Il y
a différentes versions du test t dépendamment si les deux échantillons sont :
o Indépendants l’un de l’autre (ex. : des individus assignés aléatoirement dans
deux groupes), ou
o appariés, pour que chaque membre d’un échantillon aie une relation unique
avec un membre particulier de l’autre échantillon (ex. : si les mêmes personnes
observées avant et après une intervention, ou les résultats de test de QI d’un
mari et de sa femme).
Si les valeurs t calculées sont supérieures au seuil choisi pour la signification statistique (normalement le niveau 0.05), alors l’hypothèse nulle que les deux groupes ne
sont pas différents sont rejetés en faveur d’une autre hypothèse, qui mentionne que
les groupes ne sont pas différents.
• Un test si la moyenne est une population normalement distribuée qui a une
valeur spécifiée dans une hypothèse nulle.
• Un test si la pente d’une ligne de régression est considérablement différente
de 0.
Université Virtuelle Africaine 106
Lorsqu’une valeur t est déterminée, une valeur p peut être trouvée en utilisant un
tableau de valeurs de la distribution t de Student.
Les intervalles de confiance utilisant un petit format d’échantillon
Prenons une population normalement distribuée. Pour estimer la variance de la population, prenez un échantillon de taille n et calculez la variance de celui-ci, s. Un
estimateur non biaisé de la variance de la population est
Pour les petites valeurs de n, cette estimation est imprécise, d’où les échantillons de
petits formats plutôt que de calculer la valeur z pour le nombre d’écart-types de la
moyenne
On peut utiliser aussi, sous l’hypothèse d’une population gaussienne, la statistique
de student en estimant l’écart-type :
t=
€
X −μ
.
s n−1
n
La probabilité que la valeur t soit dans un intervalle particulier peut être trouvée en
utilisant la distribution t. Le degré de liberté de l’échantillon est le nombre de données
qui doivent être connues avant que le reste des données puissent être calculées.
Ex. : Un échantillon aléatoire de choses avec un poids
30.02, 29.99, 30.11, 29.97, 30.01, 29.99
Calculez un intervalle de confiance pour la moyenne de poids de la population.
Supposons que la population ~ N(μ,σ2).
Le poids moyen de l’échantillon est de 30.015 avec un écart-type de 0.045. Avec la
moyenne et les cinq premiers poids, il est possible de calculer le sixième poids. C’est
pourquoi il y a cinq degrés de liberté.
La distribution t nous dit que, pour cinq degrés de liberté, la probabilité que t > 2.571
est 0.025. Aussi, la probabilité que t < −2.571 est 0.025. En utilisant la formule pour
t avec t = ± 2.571 un intervalle de confiance pour la moyenne de la population peut
être trouvée en faisant de μ le sujet de l’équation.
Université Virtuelle Africaine 107
Ex. :
(29.97 < μ < 30.06)
À lire
1. Introduction to Probability par Charles M. Grinstead, pages 18-30, 212-215,
300-303.
2. Robert B. Ash, Lectures on Statistics, pages 23-29
Faire les problèmes 1-6 à la page 23.
Réf.:http://en.wikipedia.org/wiki/Statistical_Hypothesis_testing
Réf.:http://en.wikipedia.org/wiki/Null_hypothesis
Université Virtuelle Africaine 108
q
Réflextion
L’étude des corrélations, des tests de l’hypothèse de la régression
ainsi que de d’autres modèles de mathématiques peut être simplifiée
avec le TIC. Le lien suivant aide les stagiaires à apprendre modelage
facilement
http://www.ncaction.org.uk/subjects/maths/ict-lrn.htm
Université Virtuelle Africaine 109
Unité 3 : La théorie des probabilités (40 heures)
Fonction Indicatrice
En mathématiques, une fonction indicatrice ou une fonction caractéristique est une
fonction définie par un ensemble X qui indique l’appartenance d’un élément à un
sous-ensemble A de X.
La fonction indicatrice d’un sous-ensemble A d’un ensemble X est une fonction
définie par : Pour tout x dans X,
⎧1, si x ∈ A ;
(x)
=
⎨
1A
⎩0, si x ∉ A.
La fonction indicatrice de A est parfois notée comme suit :
€
χA(x) ,ou
ou même A(x).
L’inégalité de Bonferoni : sous-additivité d’une probabilité.
Soit
la probabilité que
soit vrai, et que
la probabilité qu’au
moins un des , , ...,
soit vrai. Alors, l’inégalité de Bonferoni, aussi connue
comme l’inégalité de Boole, dit que :
Oú représente l’union. Si
et
sont des ensembles disjoints pour tous les
et les , alors l’inégalité devient une égalité. Un merveilleux théorème qui exprime
cette exacte relation entre la probabilité d’union et les probabilités d’événements
individuels est appelé un principe inclusion-exclusion.
Une classe d’inégalités un peu plus large est aussi appelée « inégalités de Bonferroni ».
Fonction génératrice
En mathématiques, une fonction génératrice est une série de puissances formelles
(ou une série entière) avec des coefficients qui encodent l’information sur une suite
an qui est indexée par les nombres naturels.
Il y a plusieurs types de fonctions génératrices, incluant les fonctions génératrices
ordinaires, les fonctions génératrices exponentielles, les séries de Lambert, les séries
Université Virtuelle Africaine 110
de Bell et les séries de Dirichlet; des définitions et des exemples sont donnés plus bas.
Chaque séquence a une fonction génératrice de chaque type. La fonction génératrice
particulière qui est la plus utilisée dans un contexte donné dépendra de la nature des
séquences et des détails du problème posé.
Les fonctions génératrices sont souvent exprimées dans une forme fermée comme des
fonctions d’un argument formel x. Parfois, une fonction génératrice est évaluée avec
une valeur spécifique x. Cependant, on doit se rappeler que les fonctions génératrices
sont des séries de puissances formelles, et qu’elles ne convergent pas nécessairement
pour toutes les valeurs de x.
Si an est la probabilité de la fonction de masse d’une variable aléatoire discrète, alors sa
fonction génératrice ordinaire est appelée une fonction génératrice de probabilités.
La fonction génératrice ordinaire peut être généralisée en suites avec des indices
multiples, en séries entières doubles. Par exemple, la fonction génératrice ordinaire
d’une suite am,n (oú n et m sont des entiers naturels) est
Fonction caractéristique (la théorie de probabilités)
Dans la théorie des probabilités, la fonction caractéristique d’une variable aléatoire
définit complètement sa distribution de probabilités. Elle est donnée par les formules
suivantes, où X est une variable aléatoire quelconque de loi fixée :
où t est un nombre réel, i est l’unité imaginaire, et E représente l’opérateur espérance
mathématique. Si FX est la fonction de répartition de X, alors la fonction caractéristique de X est donnée par l’intégrale de Riemann-Stieltjes
Dans le cas où la fonction densité de probabilité fX existe, la fonction caractéristique
de X devient :
+∞
ϕ X (t) = E ( eitX ) = ∫ eitx .f X (x)dx.
−∞
Si X est une variable aléatoire vectorielle, t devient un vecteur et tX devient un produit scalaire.
€
Université Virtuelle Africaine 111
Chaque distribution de probabilités sur R ou sur Rn a une fonction caractéristique,
parce qu’on intègre une fonction bornée sur un espace de mesure finie.
Le théorème de continuité
Si la suite des fonctions caractéristiques d’une distribution Fn converge vers la fonction caractéristique d’une distribution F, alors Fn(x) converge vers F(x) pour toute
valeur de x où F est continue.
Utilisation des fonctions caractéristiques
Les fonctions caractéristiques sont particulièrement utiles pour traiter les fonctions
de variables aléatoires indépendantes. Par exemple, si X1, X2, ..., Xn est une suite de
variables aléatoires indépendantes (mais pas nécessairement identiquement distribuées) et
oú ai sont des constantes, alors la fonction caractéristique pour Sn est donnée par
En particulier, pour deux variables indépendantes X et Y, on a :
, Pour le vérifier, écrivez la définition de la fonction caractéristique :
Observer que l’indépendance de X et de Y est requise pour établir la troisième, ainsi
que la quatrième expression.
Grâce au théorème de continuité, les fonctions caractéristiques sont utilisées très
souvent dans la preuve du théorème centrale limite.
Les fonctions caractéristiques peuvent aussi être utilisées pour calculer les moments
des variables aléatoires. Si on sait que le moment d’ordre n existe, les fonctions
caractéristiques peuvent être différenciées n fois et
Université Virtuelle Africaine 112
À lire
Robert B. Ash, Lectures on Statistics, pages 32 à 45.
Réf. : http://en.wikipedia.org/wiki/Characteristic_function_%28probability_theory%29
L’indépendance statistique
Dans la théorie des probabilités, dire que deux événements sont indépendants intuitivement veut dire que l’occurrence d’un événement ne le rend pas plus ou moins
probable que l’autre se produise. Par exemple :
• L’événement d’avoir un « 6 » la première fois qu’un dé est lancé et l’événement d’avoir un « 6 » la seconde fois sont indépendants.
• L’événement d’avoir un « 6 » la première fois qu’un dé est lancé et l’événement que la somme des nombres obtenus au premier et au second essai est
« 8 » sont dépendants.
• Si deux cartes sont tirées avec un remplacement dans un jeu de cartes, l’événement de tirer une carte rouge au premier essai et de tirer une carte rouge au
second essai sont indépendants.
• Si deux cartes sont tirées sans remplacement dans un jeu de cartes, l’événement
de tirer une carte rouge au premier essai et de tirer une carte rouge au second
essai sont dépendants.
De façon similaire, deux variables aléatoires sont indépendantes si la distribution de
probabilités conditionnelle de la valeur observée de l’autre valeur est la même que
si l’autre valeur n’avait pas été observée.
Événements indépendants
La définition classique dit :
Deux événements A et B sont indépendants, si Pr(A ∩ B) = Pr(A)Pr(B).
Ici, A ∩ B est l’intersection de A et B, c’est-à-dire l’événement qui se réalise si les
deux événements A et B se produisent simultanément.
Plus généralement, une collection d’événements, possiblement plus que deux, sont
mutuellement indépendants, si, pour n’importe quel sous-ensemble fini A1, ..., An
de la famille, nous avons
Ceci est appelé la règle de multiplication des probabilités pour des événements
indépendants.
Université Virtuelle Africaine 113
Si deux événements A et B sont indépendants, alors la probabilité conditionnelle sachant B de A est la même que la probabilité « inconditionnelle » (ou « marginale »)
de A,
Il y a au moins deux raisons pour lesquelles cette égalité n’est pas prise comme définition de l’indépendance : (1) les deux événements A et B ne jouent pas des rôles
symétriques dans cet énoncé, et (2) les problèmes surviennent avec cet énoncé lorsque
deux événements de probabilité 0 sont impliqués.
Lorsqu’on se rappelle que la probabilité conditionnelle Pr(A | B) est définie par
(sous réserve que Pr(B) ≠ 0 )
On peut voir que l’énoncé ci-dessus est équivalent à
Qui est la définition standard donnée ci-haut.
Échantillon aléatoire
Un échantillon est un sous-ensemble choisi à partir d’une population étudiée. Un
échantillon aléatoire est choisi par une méthode qui implique un composant imprédictible. L’échantillonnage aléatoire peut aussi impliquer de prendre un certain nombre
d’observations indépendantes à partir de la même distribution de probabilités, sans
impliquer aucune population réelle. Un échantillon de probabilités est celui dans
lequel chaque objet a une probabilité connue d’être dans l’échantillon.
L’échantillon ne sera habituellement pas complètement représentatif de la population
à partir de laquelle il a été tiré, cette variation aléatoire dans le résultat est connue
comme erreur d’échantillonnage. Dans le cas d’échantillons aléatoires, la théorie
mathématique est disponible pour estimer l’erreur d’échantillonnage. Ainsi, l’estimation obtenue à partir d’échantillons aléatoires peut être accompagnée de mesures
d’incertitude associées à l’estimé. Il peut prendre la forme d’une erreur standard,
ou si l’échantillon est assez grand pour que le théorème central limite prenne effet,
l’intervalle de confiance peut être calculé.
Types d’échantillons aléatoires
• Un échantillon aléatoire simple est choisi pour que les échantillons possibles
aient la même chance d’être sélectionnés.
• Un échantillon d’auto-pondération est celui dans lequel chaque individu, ou objet, dans l’intérêt de la population ait une opportunité égale d’être sélectionnée
comme échantillon. Des échantillons aléatoires simples sont auto-pondérés.
Université Virtuelle Africaine 114
• L’échantillonnage stratifié implique de sélectionner des échantillons indépendants à partir d’un nombre de subpopulation (ou strates) dans la population.
• L’échantillonnage par groupement implique de sélectionner des unités d’échantillon dans des groupes. Par exemple, un échantillon d’appels téléphoniques
peut être rassemblé en prenant une collection des lignes de téléphones et
de rassembler tous les appels sur les lignes d’échantillonnage. L’analyse de
l’échantillonnage par groupement doit prendre en compte la corrélation par
groupement intra dans lequel se reflète le fait que les unités dans le même
groupe ont tendance à être plus similaires que deux unités prises au hasard.
La distribution multinomiale
Dans la théorie des probabilités, la distribution multinomiale est une généralisation
de la distribution binomiale.
La distribution binomiale est la distribution de probabilités du nombre de « succès »
dans n essais indépendants d’une épreuve de Bernoulli, avec la même probabilité
de « succès » pour chaque essai. Dans une distribution multinomiale, chaque essai
occasionne exactement un de quelques nombres limités fixés k de résultats possibles, avec les probabilités respectives p1, ..., pk tels que pi ≥ 0 pour i = 1, ..., k et
, et il y a n essais indépendants. Ensuite, supposons que les variables
aléatoires Xi indiquent le nombre de fois que le nombre i a été observé dans les essais
n, alors
et p=(p1, ..., pk).
suit une loi multinomiale avec des paramètres n
Solution tirée de la formule de distribution multinomiale
Une version courte de la formule multinomiale pour trois résultats alternatifs est
donnée ci-dessous.
Si X est constitué d’événements E1, E2, E3, qui ont des probabilités correspondantes
de p1, p2, et p3 de se produire, où x1 est le nombre de fois que E1 se produira, x2 est
le nombre de fois que E2 se produira et x3 est le nombre de fois que E3 se produira,
donc la probabilité de X est
n!
.
x1 ! x2 ! x3 !
p .p .p
x1
x2
x3
1
2
3
Oú x1 + x2 + x3 = n et p1 +
p2 + p3 = 1
Université Virtuelle Africaine 115
Exemple
1) Dans une grande ville, 60 % des travailleurs conduisent pour aller travailler, 30 %
prennent l’autobus, et 10 % prennent le train. Si 5 travailleurs sont sélectionnés
au hasard, trouvez la probabilité que 2 conduisent, que 2 prennent l’autobus et
que 1 prenne le train.
Solution
n= 5, x1=2, x2 = 2, x3= 1 et p1=0.6, p2= 0.3, et p3 = 0.1
Donc, la probabilité que 2 travailleurs prennent l’autobus et que 1 prenne le train
est
5!
2 ! 2 !1 !
.(
2
2
1
0.6) (0.3) (0.1)
= 0 . 0972
2) Une boîte contient 5 balles rouges, 3 balles bleues et 2 balles blanches. Si 4 balles
sont sélectionnées avec un remplacement, trouvez la probabilité d’avoir 2 balles
rouges, une balle bleue et une balle blanche
Solution
n=4, x1=2, x2=1, x3=1, et p1=
5
3
2
, p2=
, et p3=
.
10
10
10
Donc, la probabilité d’avoir 2 balles rouges, une balle bleue et une balle blanche
est
2
1
1
4! ⎛ 5 ⎞ ⎛ 3 ⎞ ⎛ 2 ⎞
9
⎛ 3 ⎞
= 0 . 18
⎜
⎟ ⎜
⎟ ⎜
⎟ = 12 ⎜
⎟=
2! 1! 1! ⎝ 10 ⎠ ⎝ 10 ⎠ ⎝ 10 ⎠
⎝ 200 ⎠ 50
{ Allan G, 2005, page 132}
Statistique d’ordre
Les distributions de probabilités pour le n = 5 de statistique d’ordre d’une distribution
exponentielle avec θ = 3.
Université Virtuelle Africaine 116
En statistiques, la k-ième statistiques d’ordre d’un échantillon de statistiques est égal
à sa k-ième valeur la plus petite. Avec des statistiques de rang, les statistiques d’ordre sont parmi les outils les plus essentiels dans les statistiques non paramétriques
et inférentielles.
Des cas spéciaux importants des statistiques d’ordre sont la valeur minimum et maximum d’un échantillon, l’échantillon de médiane et les échantillons quartiles.
Lorsque vous utilisez la théorie de probabilités pour analyse l’ordre des statistiques
d’échantillons aléatoires d’une distribution continue, la fonction de répartition est
utilisée pour réduire l’analyse du cas des statistiques d’ordre de la loi uniforme.
À lire
•
•
•
•
Robert B. Ash, Lectures on Statistics, pages 25-26, répondre aux problèmes
1-4 aux pages 26-27.
Réf.: http://en.wikipedia.org/wiki/probability _distribution
Réf.: http://en.wikipedia.org/wiki/Ranking
Réf.: http://en.wikipedia.org/wiki/non-parametric_Statistics
Notations et exemples
Par exemple, supposons que quatre nombres sont observés ou enregistrés, entraînant
un échantillon de grandeur n = 4. Si les valeurs d’échantillons sont 6,9,3,8
Ils seront généralement représentés comme suit :
Oú le l’indice (i) est entre parenthèses pour indiquer le l’ordre statistique ith de
l’échantillon.
La première statistique d’ordre est toujours le minimum de l’échantillon, qui est
Où, en suivant une convention commune, nous utilisons des lettres majuscules pour
les variables aléatoires, et des lettres minuscules pour les valeurs observées.
De façon similaire, pour un échantillon de grandeur n, la nième statistique est le maximum, qui est
L’étendue de l’échantillon est la différence entre le maximum et le minimum. C’est
une fonction dans les statistiques d’ordre :
Université Virtuelle Africaine 117
Une statistique importante et similaire dans l’analyse d’exploration des données qui
est simplement reliée aux statistiques d’ordre est l’écart d’échantillon interquartile.
La médiane d’échantillon peut, ou ne peut pas être une statistique d’ordre, puisqu’il
n’y a qu’une seule valeur du milieu seulement lorsque le nombre n d’observations est
impair. Plus précisément, si n = 2 m + 1 pour quelques m, alors la médiane d’échantillon est X(m + 1) et ainsi c’est une statistique d’ordre. D’un autre côté, lorsque n est égal,
n = 2 m et qu’il y a deux valeurs du milieu, X(m) et X(m + 1), et la médiane d’échantillon
est une fonction de deux (habituellement la moyenne) et pas une statistique d’ordre.
Des remarques similaires s’appliquent à tous les quantiles d’échantillon.
La loi normale multidimensionnelle
Dans la théorie des probabilités et des statistiques, une loi normale multidimensionnelle, aussi appelée une loi Gausienne multidimensionnelle, est une distribution de
probabilités spécifique, qui peut être apprise comme une généralisation de dimensions
plus grandes que les distributions normales à une dimension.
Moments d’ordres supérieurs
Les moments d’ordre k de X sont définis par :
où
Les moments d’ordre centré d’ordre k sont représentés comme ceci
(a) Si k est impair,
(b) Si k est égal avec k = 2λ, alors
.
Où la somme est reprise par toutes les allocations de l’ensemble
dans λ paires, donnant (2λ − 1)! / (2λ − 1(λ − 1)!) termes dans la somme, chacun
étant le produit de λ covariances. Les covariances sont déterminées en remplaçant
les termes dans la liste
par les termes correspondants de la liste
qui consiste de r1 uns, et r2 deux, etc., après chacune des allocations possibles de la
première liste en des paires.
Université Virtuelle Africaine 118
Plus particulièrement, les moments d’ordre 4 sont
Pour les moments d’ordre 4 (quatre variables), il y a trois termes. Pour un moment
d’ ordre six, il y a 3 x 5 = 15 termes, et pour les moments d’ordre six, il y a 3 x 5 x
7 = 105 termes.
Université Virtuelle Africaine 119
XV. Synthèse du module
À la fin de ce module, les élèves devraient être en mesure de calculer des mesures variées de dispersions, et d’appliquer les règles de calcul des probabilités
selon plusieurs lois de probabilités. Les apprenants devraient être en mesure de
déterminer et d’analyser des coefficients de corrélation et de régression. L’unité
une des probabilités et des statistiques couvre les distributions de fréquences
relatives et les distributions cumulatives, les différentes courbes de fréquences,
la moyenne, le mode et la médiane, les quartiles et les percentiles, l’écart-type
et les distributions symétriques et asymétriques. L’apprenant est introduit à
différentes mesures de statistiques, ainsi qu’à des exemples résolus.
Les exemples sont bien illustrés et l’apprenant peut suivre sans aucune difficulté. Il est recommandé que l’apprenant tente de faire les évaluations formatives données pour assimiler leur progrès dans l’apprentissage du contenu.
L’élève devrait prendre du temps pour regarder le matériel de référence sur
les CDs, ainsi que sur le matériel à source ouverte (open sources) et les sites
internet recommandés. Les élèves sont fortement conseillés de lire le contenu
et de répondre aux questions après chaque sujet. L’Unité deux du module
traite du moment et de la fonction génératrice des moments, les inégalités de
Markov et de Chebychev, les distributions à une variable, les distributions de
probabilités à deux variables; l’indépendance stochastique, la régression à
deux variables et la corrélation ; le calcul de la régression et du coefficient de
corrélation pour les données à deux variables, les fonctions de distributions
de variables aléatoires, les distributions normales à deux variables, les distributions dérivées comme le khi-carré, t et F.
L’unité deux comporte plusieurs activités d’apprentissage pour aider à l’apprentissage et les étudiants devraient maîtriser le contenu des nombreux soussujets et ils devraient faire les évaluations formatives. L’échec à ces évaluations
devrait être un indicateur positif pour que les apprenants : ils révisent les soussujets avant d’aller plus loin. Les tâches fournies sous les différentes activités
d’apprentissage demandent que vous démontriez un haut niveau d’habileté dans
le TIC. Les objectifs d’apprentissage sont bien énoncés au début du module et
devraient guider les élèves dans le niveau d’attentes du ce module.
L’unité trois se concentre sur la théorie des probabilités et traite des différentes
lois de probabilités usuelles.
L’évaluation sommative sera utilisée pour juger si les apprenants ont maîtrisé
le module. Il est recommandé que les étudiants révisent le module avant de
faire l’évaluation sommative finale.
Université Virtuelle Africaine 120
XVI. Évaluation sommative
Répondre aux quatre questions. Chaque question compte pour 15 points.
Question 1: Statistiques générales
1) Dans le tableau suivant, les poids de 40 vaches sont enregistrés, et arrondis au
kilogramme le plus près.
128
157
144
135
165
161
138
146
146
168
135
150
140
142
138
142
147
176
142
147
145
140
154
149
152
156
125
148
119
153
150
144
163
134
136
145
173
164
158
126
Trouvez;
a).
b).
c).
d).
le poids le plus élevé
le poids le moins élevé
l’étendue
construisez un tableau de fréquences, distribution qui commence avec une
classe de 118-126
e). calculez la moyenne des données
f). calculez l’écart-type
Question 2: Probabilités générales
2) A). Une pièce de monnaie et un dé sont lancés en même temps. Dessinez un
diagramme d’espace possible et trouvez la probabilité d’obtenir
a).
b).
c).
d).
un côté face
un nombre plus haut que 4
un côté face et un nombre plus haut que 4
un côté face ou un nombre plus haut que 4
B). Les événements M et N sont P(M) =
P(M I N)
2
4
19
, P(N) = et P(M U N)= . Trouvez
5
5
30
Université Virtuelle Africaine 121
Question 3: Loi de Poisson
3) Un livre contient 500 pages et comporte 750 erreurs d’impression.
a). Trouvez la moyenne d’erreurs d’impression par page.
b) Trouvez la probabilité que la page 427 contienne
i). aucune erreur d’impression
ii). Exactement 4 erreurs d’impression
c). Trouvez la probabilité que les pages 427 et 428 ne contiennent aucune
erreur d’impression.
Question 4: Variable aléatoire continue
4) Une variable aléatoire continue X a une fonction de densité de probabilité f(x)
où
⎧
⎪
⎪
f(x) = ⎨
⎪
⎪
⎩
k(x + 2) 2 , − 2 ≤ x p 0 ;
4k , 0 ≤ x ≤ 1 1 ;
3
0 , sinon.
€
a) b) c) d) Trouvez la valeur de la constante k
Dessinez y=f(x)
Trouvez P( - 1 ≤ X ≤ 1)
Trouvez P(x>1)
Probabilité d’un événement
5). Supposons que P(AUB) =7/8, P(A I B)=1/4 et P(A’)=5/8, trouvez les valeurs
de
a) P(A)
b) P(B)
c) P(A I B’)
d) P(A’U B’)
e) La probabilité que seulement un de A, B se produise.
Université Virtuelle Africaine 122
Valeur prévue
6).La variable aléatoire continue a une fonction de densité de probabilité
f (x) = x +
Trouvez:
a). E(X)
1
,
2
pour 0 ≤ x ≤ 1 ; zéro, sinon.
€b). E(24X +6)
c). E( 1-X)
1
2
7).Les poids, arrondis au kg le plus près, de 50 garçons sont enregistrés ci-dessous.
Poids (kg)
Fréquence (f)
a).
b).
60-64
2
65-69
6
70-74
12
75-79
14
80-84
10
Construisez une courbe de fréquence cumulative
Utilisez la courbe pour estimer ;
i) La médiane
ii). L’étendue interquartile
iii). Le 7edécile
iii). Le 60e percentile.
85-89
6
Université Virtuelle Africaine 123
Clé de correction de l’évaluation sommative
1).
a)
b)
c)
d)
Poids(kg)
118-126
127-135
136-144
145-153
154-162
163-171
172-180
176
119
176-119=57
En utilisant 7 classes, cela nous donne un intervalle de classe de 9.
Compte
///
////
//// ////
//// //// //
////
////
//
Fréquence
3
5
9
12
5
4
2
Total 40
e) Toutes les méthodes pour calculer la moyenne sont acceptées.
f). Toutes les méthodes pour calculer l’écart-type sont acceptées.
2) A). Une pièce de monnaie a soit Face (F) ou Pile (P) tandis qu’un dé à des faces
1,2,3,4,5&6.
Pièce / Dé
Pièce F
Pièce P
1
H1
T1
2
H2
T2
3
H3
T3
4
H4
T4
Espace d’échantillonnage =12.
a). 6/12=1/2
b). 4/12=1/3
c). 2/12=1/6
d). 8/12=2/3
5
H5
T5
6
H6
T6
Université Virtuelle Africaine 124
B) . P(M U N)= P(M)+P(N)-P(M I N).
4 19
2
=
+
- P(M I N).
5 30 5
⇒
⇒ P(M I N) =
19 12
+
30 30
24
−
30
=
7
30
3). a) La moyenne d’erreurs par page = 750/500=1.5
b) Supposons que X est “le nombre d’erreurs par pages”. Ensuite, supposons
que les erreurs d’impression se produisent au hasard X ~ P0(1.5)
i).
P(X= 0) = e-1.5
= 0.2231…
P(il n’y aura pas d’erreurs à la page 427) = 0.223 ( 3d.p).
(1.5) 4
= 0.0470…
4!
P(il y aura 4 erreurs à la page 427) = 0.047 ( 3d.p)
ii).
P(X=4)= e-1.5
c). Nous prévoyons 1.5 erreurs d’impression sur chaque page et donc, sur les pages
427 & 428 nous prévoyons 1.5 + 1.5 = 3 erreurs d’impression.
Supposons que Y est “le nombre d’erreurs d’impression sur deux pages”.
Y ~ P(3), donc P0(Y=0)= e-3
= 0.4421
4). a). Puisque X est une variable aléatoire, alors
0
Donc ∫ k ( x + 2 ) 2 dx
−2
1
+
1
3 €
∫ 4 kdx =
0
1
∫ f(x)dx = 1
tout x
Université Virtuelle Africaine 125
0
k⎡
( x + 2) 3 ⎤
⎥⎦ − 2
3 ⎢⎣
k=
k
(8 )
3
8k=1
+
+
⎛4⎞
4k ⎜ ⎟
⎝3⎠
11
4 k [x ] 3
0
= 1
= 1
1
8
a) La fonction de densité de probabilité de X est
y
1
2
y
x
-2
c)
0
11
3
Université Virtuelle Africaine 126
0
P(- 1 ≤
€
x≤ 0) =
1
∫ 8 ( x + 2)
2
dx =
−1
7
24
et
P (0 ≤ x ≤ 1) = aire du rec tan gle =
Donc
P ( −1 ≤ X ≤ 1) =
d).
1
2
7 1 19
+ =
24 2 24
P(0 ≤ X ≤ 1) = aire du rectangle=
Donc P(x>1) =
1
3
×
1
2
=
1
6
.
1
6
5) a) P(A)=1-P(A’)=1- 5/8=3/8
P(AUB)=P(A) – P(B) – P(A I B)
b)
7/8=3/8+P(B) – ¼
P(B)=3/4
P(A I B’)=P(A) – P(A I B)
c)
= 3/8-1/4
=1/8
Université Virtuelle Africaine 127
d) A’ U B’ = (A I B)’ et P(A’U B’) = 1 – P(A I B) = 3/4
e) Seulement un de A,B qui se produit = (A I B’)U((A’ I B).
P(Seulement un de A,B qui se produit) = P(A I B’)+P(A’ I B)
= { P(A)-P(A I B)} + { P(B)-P(A
I B)}
= 1/8 + ½ =5/8
6). a). E(X)=7/8
b). E(24X+6)=20
c). E( 1-X)
1
1
2
=
∫
0
1
(1 − x )
2
7). a) Moyenne= 76.3 kg.
b). Étendue interquartile = 9 kg
c). Estimé de
d). Estimé de 100 × 50 = 30
€
7
× 50 = 35 th
10
60
€
th
(x +
1
2
) dx =
3
5
decile de la courbe .
percentilede la courbe
Université Virtuelle Africaine 128
XVII.Références bibliographiques
http://en.wikipedia.org/wiki/Statistics
A concise Course in A-Level Statistics par J. Crawshaw et J.Chambers, StanleyThornes Publishers, 1994
http://en.wikipedia.org/wiki/Probability
Business Calculation and Statistics Simplified, par N.A. Saleemi, 2000
http://microblog.routed.net/wp-content/uploads/2007/01/onlinebooks.html
Statistics: concepts and applications, par Harry Frank et Steven C Althoen, Cambridge University Press, 2004
http://mathworld.wolfram.com/Statistics
http://mathworld.wolfram.com/Probability
Probability Demystified, By Allan G. Bluman, McGraw Hill, 2005.
http://directory.fsf.org/math/
http://microblog.routed.net/wp-content/uploads/2007/01/onlinebooks.html
Lectures on Statistics, par Robert B. Ash, 2005.
Introduction to Probability, par Charles M. Grinstead et J. Laurie Snell, Swarthmore College.
http://directory.fsf.org/math/
Simple Statistics, par Frances Clegg, Cambridge University Press 1982.
Statistics for Advanced Level Mathematics, par I. Gwyn Evans University College
of Wales, 1984.
Université Virtuelle Africaine 129
XVIII. Fiche d’évaluation
Nommez le fichier EXCEL
Mathématiques : Probabilité et statistiques, fiche d’évaluation de l’étudiant
XIX.Auteur du module
M. Paul Chege (B.Ed(Sc), M.Ed)
[email protected]
L’auteur du module est un formateur d’enseignants à l’Université Amound, Borama,
République de Somaliland.
Il a été un formateur d’enseignants au Kenya, en République de Seychelles et au Somali. Il a été impliqué pour renforcer les mathématiques et les sciences aux niveaux
secondaires et tertiaires avec l’Agence de Corporation Internationale du Japon (JICA)
dans quinze pays africains.
Il est marié et a trois enfants.
Université Virtuelle Africaine 130
XX. Structure du fichier
Conseil de l’éditeur du module. Le nom du module et la structure doivent suivre
le modèle AVU/PI comme défini et expliqué par l’AVU. Les éditeurs du module
doivent fournir les noms de tous les fichiers (le module et les autres fichiers qui
accompagnent le module)
Tous les jours, chaque module sera chargé dans l’eportfolio de chaque consultant.
Pour cela, la formation sera fournie par le professeur Thierry Karsenti et son équipe
(Salomon Tchaméni Ngamo et Toby Harper).
Nom du module (WORD) fichier : Mathématiques : Probabilités et statistiques
(Word)
Nom de tous les autres fichiers (WORD, PDF, PPT, etc) pour le module.
1. Mathématiques : Probabilités et Statistiques, fiche d’évaluation de l’étudiant
(Excel)
2. Probabilités et statistiques : Clé de correction pour l’évaluation sommative
(Word)
3. An Introduction to Probabilité et Random Processes, par Kenneth Baclawski
et Gian-Carolo Rota (1979) (PDF).
4. Introduction to Probability, par Charles M. Grinstead et J. Laurie Snell
(PDF).
5. Lectures on Statistics, par Robert B. Ash (PDF).
PROBABILITÉ ET STATISTIQUES
Lectures Obligatoires
Source: Wikipedia.org
1
Table des matières
Test d'hypothèse .......................................................................................................................................... 4
Risque de première espèce et de deuxième espèce .............................................................................. 4
Tests classiques et tests bayésiens ......................................................................................................... 4
Classification .......................................................................................................................................... 5
Déroulement d'un test ............................................................................................................................ 5
Tests classiques ....................................................................................................................................... 6
Plan d'expérience ..............................................................................................................................6
Position du problème ....................................................................................................................7
Plans d'expérience en sciences appliquées (plans expérimentaux) ..................................................8
En sciences humaines ................................................................................................................9
Limites des plans expérimentaux exhaustifs ................................................................................. 10
Exemple ...................................................................................................................................... 10
Les plans factoriels ...................................................................................................................... 12
Interactions logiques ................................................................................................................................. 14
Notion d’interaction ............................................................................................................................. 14
Un cas particulier de tableau de donnée ............................................................................................ 14
Généralisation aux tableaux quelconques .......................................................................................... 15
Interprétation physique du produit croisé ......................................................................................... 15
Notion d’« interaction logique » ......................................................................................................... 17
Signification des symboles d’interactions logiques ........................................................................... 18
Modèles de régression multiple postulés et non postulés ....................................................................... 19
Modèle ................................................................................................................................................... 19
Régression multiple .............................................................................................................................. 19
Modèle postulé ...................................................................................................................................... 20
Le problème de la sélection des variables explicatives ..................................................................... 20
Modèle non postulé .............................................................................................................................. 20
Décomposition harmonique ................................................................................................................ 21
Exemples ............................................................................................................................................... 22
Application au marketing ................................................................................................................ 22
Amélioration de la qualité industrielle ........................................................................................... 23
Théorie des probabilités ........................................................................................................................... 27
2
Historique ............................................................................................................................................. 28
Théorie des probabilités discrète .................................................................................................... 28
Théorie des probabilités continue ................................................................................................... 29
Principes fondamentaux ...................................................................................................................... 30
La théorie des probabilités aujourd'hui ............................................................................................. 31
Lois de probabilité ............................................................................................................................... 32
Convergence de variables aléatoires .................................................................................................. 32
Le calcul stochastique .......................................................................................................................... 32
Chaîne de Markov ............................................................................................................................ 33
Équations différentielles stochastiques .......................................................................................... 34
Processus stochastique .............................................................................................................................. 35
Mathématiquement .............................................................................................................................. 35
Espace des trajectoires ........................................................................................................................ 35
Pratiquement ........................................................................................................................................ 35
Notion de processus .......................................................................................................................... 35
Types de processus ........................................................................................................................... 36
Exemples ........................................................................................................................................... 36
Régression linéaire .................................................................................................................................... 37
Situation ................................................................................................................................................ 37
Définitions ............................................................................................................................................. 38
Résultat de la régression ...................................................................................................................... 39
Erreur commise .................................................................................................................................... 39
Coefficient de corrélation linéaire ...................................................................................................... 40
Démonstration des formules par étude d'un minimum .................................................................... 41
Démonstration des formules grâce aux espaces vectoriels de dimension n .................................... 42
Généralisation: le cas matriciel ........................................................................................................... 43
3
Test d'hypothèse
En statistiques, un test d'hypothèse est une démarche consistant à rejeter (ou plus rarement à
accepter) une hypothèse statistique, appelée hypothèse nulle, en fonction d'un jeu de données
(échantillon).
On cherche par exemple à tester si un certain paramètre θ, qui peut par exemple être la valeur
moyenne d'une grandeur, prend une certaine valeur θ0. L'hypothèse nulle dans ce cas est « la
moyenne vaut θ0 » et l'hypothèse contraire sera « la moyenne est différente de θ0 ».
Risque de première espèce et de deuxième espèce []
Une notion fondamentale concernant les tests est la probabilité que l'on a de se tromper. Dans
l'idéal on souhaiterait avoir un test qui renvoie toujours le "bon" résultat. Par exemple on
aimerait avoir un test qui choisisse toujours l'hypothèse nulle lorsque celle-ci est vérifiée et qui
rejette tout le temps l'hypothèse nulle lorsque celle-ci est fausse.
Il y a deux façons de se tromper lors d'un test statistique:


la possibilité de rejeter à tort l'hypothèse nulle lorsqu'elle est vraie. On appelle ce risque
le risque de première espèce et en général on note α la probabilité de se tromper dans ce
sens. α est alors la probabilité d'avoir un faux positif : de rejeter une hypothèse alors
qu'en fait elle était vraie.
la possibilité d'accepter à tort l'hypothèse nulle lorsqu'elle est fausse. On appelle ce
risque le risque de deuxième espèce et en général on note β la probabilité de se tromper
dans ce sens. β est alors la probabilité d'avoir un faux négatif : d'accepter une hypothèse
alors qu'en fait elle était fausse.
Dans l'idéal on aimerait bien que ces deux erreurs soient nulles, malheureusement ce n'est pas
possible, en tout cas lorsque l'on ne dispose que d'un nombre fini d'observations, et il faut alors
faire un choix.
Tests classiques et tests bayésiens []
Pour les tests classiques qui constituent l'essentiel des tests statistiques, ces deux erreurs jouent
un rôle asymétrique. On contrôle uniquement le risque de première espèce à un niveau α
(principe de Neyman); cela revient à considérer que le risque de rejeter l'hypothèse nulle alors
que cette hypothèse est vraie est beaucoup plus coûteux que celui de la conserver à tort (ce
dernier risque n'étant pas maîtrisé).
Pour les tests bayésiens on peut parfois pondérer ces deux risques grâce à la connaissance d'une
probabilité a priori. La connaissance de cette probabilité a priori est l'un des fondements de la
statistiques bayésienne et constitue l'une de ses difficultés majeures. Si on cherche par exemple à
tester le fait qu'un certain paramètre θ vaut une certaine valeur θ0 cette probabilité a priori sera
4
une loi de probabilité sur θ qui donne la probabilité que l'on a d'observer θ. Cette loi a priori est
également appelée croyance a priori ou croyance bayésienne. Ces tests sont souvent d'une mise
en œuvre plus complexe que les tests statistiques la raison principale est qu'ils nécessitent de
"trouver" une bonne loi a priori puis de la réviser grâce à la révision des croyances.
Classification []
D'ordinaire on range les tests dans deux catégories les tests paramétriques et les tests non
paramétriques. Les premiers testent la valeur d'un certain paramètre. Ces tests sont généralement
les tests les plus simples. Les tests non paramétriques quant à eux ne font pas intervenir de
paramètre. C'est par exemple le cas des tests d'adéquation à une loi ou des Test du χ².
On peut également distinguer les tests d'homogénéité et les tests d'adéquations:

Dans le cas d'un test d'homogénéité, on veut comparer deux échantillons entre eux.
L'hypothèse nulle H0 supposera l'homogénéité des deux échantillons. Par exemple on
comparera deux moyennes.

Dans le cas d'un test d'adéquation, on veut déterminer si un échantillon suit une loi
statistique connue. L'hypothèse nulle H0 supposera l'adéquation de l'échantillon à cette
loi.
Déroulement d'un test []
Pour le cas spécifique d'un test unilatéral, le test suit une succession d'étapes définies:
1. Énoncé de l'hypothèse nulle H0 et de l'hypothèse alternative H1.
2. Calcul d'une variable de décision correspondant à une mesure de la distance entre les
deux échantillons dans le cas de l'homogénéité, ou entre l'échantillon et la loi statistique
dans le cas de la conformité. Plus cette distance sera grande et moins l'hypothèse nulle H0
sera probable. En règle générale, cette variable de décision se base sur une statistique qui
se calcule à partir des observations. Par exemple, la variable de décision pour un test
unilatéral correspond à rejeter l'hypothèse nulle si la statistique dépasse une certaine
valeur fixée en fonction du risque de première espèce.
3. Calcul de la probabilité, en supposant que H0 est vraie, d'obtenir une valeur de la variable
de décision au moins aussi grande que la valeur de la statistique que l'on a obtenue avec
notre échantillon. Cette probabilité est appelée la p-value.
4. Conclusion du test, en fonction d'un risque seuil αseuil, en dessous duquel on est prêt à
rejeter H0. Souvent, un risque de 5% est considéré comme acceptable (c'est-à-dire que
dans 5% des cas quand H0 est vraie, l'expérimentateur se trompera et la rejettera). Mais le
choix du seuil à employer dépendra de la certitude désirée et de la vraisemblance des
alternatives.
5. Si la p-value est plus grande que α on accepte l'hypothèse H0. Si la p-value est plus petite
que α on la rejette.
5
La probabilité pour que H0 soit acceptée alors qu'elle est fausse est β, le risque de deuxième
espèce. C'est le risque de ne pas rejeter H0 quand on devrait la rejeter. Sa valeur dépend du
contexte, et est très difficilement évaluable (voire impossible à évaluer), c'est pourquoi seul le
risque α est utilisé comme critère de décision.
Tests classiques []
Article détaillé : Test (statistique).
Il existe de nombreux tests statistiques classiques parmi lesquels on peut citer :

le test de Student, qui sert à la comparaison d'une moyenne observée avec une valeur
« attendue ».

le test de Fisher, aussi appelé test de Fisher-Snédécor, qui sert à la comparaison de deux
variances observées.

l'Analyse de la variance ou Anova, permet de comparer entre elles plusieurs moyennes
observées (pour les groupes étudiés), selon un plan expérimental prédéterminé. Elle se
base sur une décomposition de la variance en une partie « explicable » (variance intergroupes) et une partie « erreur » (variance globale intragroupe - ou variance résiduelle),
supposée distribuée selon une loi normale. Ce test est particulièrement utilisé en sciences
humaines, sciences sociales, sciences cognitives, en médecine et en biologie.

le test du χ², également appelé test du χ2 de Pearson, qui sert notamment à la comparaison
d'un couple d'effectifs observés, ou à la comparaison globale de plusieurs couples
d'effectifs observés, et plus généralement à la comparaison de deux distributions
observées.

le test de Kolmogorov-Smirnov, qui comme le test du χ2 constitue un test d'adéquation
entre des échantillons observés et une distribution de probabilité. Il compare la fonction
de répartition observée et la fonction de répartition attendue. Il est particulièrement utilisé
pour les variables aléatoires continues.
En méthodes bayésiennes, on utilise le psi-test (mesure de distance dans l'espace des possibles)
dont on démontre que le test du χ2 représente une excellente approximation asymptotique
lorsqu'il existe un grand nombre d'observations.
Plan d'expérience
L'expérimentation est un moyen permettant d'acquérir de nouvelles connaissances à l'aide d'un
dispositif sur lequel l'expérimentateur est capable de contrôler certains paramètres de
fonctionnement (en entrée), de façon à permettre de recueillir (en sortie) des réponses
6
modélisables de façon suffisamment précise et avec une bonne économie (un nombre d'essais le
plus faible possible par exemple). La différence par rapport à l'observation de systèmes naturels,
spontanés ou fortuits, réside dans le contrôle des paramètres qu'elle réalise en fixant par exemple
la valeur des principaux paramètres d'entrée (ou facteurs) au cours de chaque essai élémentaire,
dans le choix de certaines combinaisons des valeurs de ces paramètres réalisées sur chacun des
essais nécessaires à la détermination d'un modèle. Les systèmes naturels présentent généralement
une structure de données qui ne permet pas d'en déduire un modèle fiable, même si les
observations sont très nombreuses, et malgré l'utilisation de techniques d'analyse de données très
sophistiquées. Dans ce cas les facteurs sont souvent nombreux (complexité du réel), embrouillés
(mauvaise structure de données), les réponses sont souvent brouillées par ce que l'on peut appeler
des bruits de fond. Cette difficulté de lisibilité de la nature explique en partie pourquoi le progrès
des connaissances a été très lent. L'expérimentation comme moyen de connaissance n'est pas si
ancienne et elle est restée longtemps très fragmentaire ; le concept n'a pu se développer qu'une
fois que l'on a su construire des systèmes contrôlables (grâce aux progrès de la mécanique) et
faire des mesures facilement, notamment la mesure du temps qui a permis de franchir des étapes
décisives.
On nomme plan d'expérience la suite ordonnée des essais élémentaires d'une l'expérimentation.
Ce plan s'intègre dans une méthode qui va de la recherche des connaissances sur le domaine où
elle se déroule, à la définition très précise des objectifs, à la stratégie expérimentale qui définit un
déroulement pouvant être conditionné par les résultats obtenus en cours de route
(expérimentation séquentielle), en passant par la coordination des différents intervenants. Cette
méthode est indispensable chaque fois que les essais présentent une certaine complexité, sous
peine d'échec (données inexploitables), de surcoût économique (délais de réponse), de coûts
humains, de souffrance animale par exemple. Un exemple très classique de plan est constitué par
un « plan en étoile » où en partant d'une valeur choisie pour chacun des paramètres dans une
expérience centrale, on complète celle-ci par des expériences où chaque fois un seul des facteurs
varie « toutes choses égales par ailleurs ». L'expérience de l'expérience montre que ce dispositif
est généralement très mauvais, contrairement à ce que peut suggérer l'intuition. Un autre type de
plan qui en prend le contrepied est un « plan factoriel » consistant à choisir des valeurs pour
chacun des facteurs de façon à pouvoir expérimenter toutes les combinaisons entre tous les
niveaux de tous les facteurs (lorsque cela est possible). Dans ce dispositif le nombre d'essais peut
devenir très grand (explosion combinatoire), mais il est possible d'obtenir un modèle très
exhaustif (comprenant toutes les interactions possibles entre facteurs), ci qui n'est généralement
pas nécessaire. L'objectif de l'article est de donner au lecteur des exemples qui illustrent
l'importance de la notion de plan d'expériences et d'exposer des cas qui sont à la fois les plus
simples conceptuellement et qui sont utilisés le plus fréquemment.
Position du problème []
Supposons que nous désirions savoir si la proportion de boules noires d'une urne est supérieure à
5%, l'urne contenant 1000 boules. Nous partons avec l'idée d'en tirer 100 dans l'espoir d'avoir
une bonne approximation de la proportion.
7



Si au cours du tirage, nous ramenons 51 boules noires, celui-ci peut être arrêté immédiatement :
le poursuivre n'aurait pas de sens, puisqu'avec 51 boules noires sur 1000 une proportion
supérieure à 5% est maintenant certaine.
On peut raffiner encore en remarquant que la probabilité de tirer par exemple 5 boules noires
dans les 5 premiers tirages ramène à 0,3 x 10-6 la probabilité que la proportion de boules noires
soit inférieure à 5%.
Dans la pratique, le calcul permet d'établir des règles strictes indiquant en fonction des résultats
à quel moment le tirage doit s'arrêter - avec décision prise dans un sens ou dans l'autre - ou s'il
doit être poursuivi.
Un plan d'expérience permet donc de réduire le nombre d'essais à ce qui est strictement
nécessaire pour prendre une décision, ce qui peut sauver du temps, de l'argent et des vies.
C'est un plan d'expérience de ce type qui a permis d'arrêter en cours de route une expérience
visant à déterminer si l'aspirine avait un effet de prévention sur les crises cardiaques, les résultats
établissant sans ambiguïté que c'était le cas (réduction de 25% des risques). Continuer
l'expérimentation serait revenu dans ces conditions à priver jusqu'à la date initialement prévue les
malades du lot-témoin d'accès à l'aspirine, ce qui aurait pu coûter la vie à certains d'entre eux.
Voir aussi l'article Inférence bayésienne et le problème dit du bandit manchot.
Plans d'expérience en sciences appliquées (plans
expérimentaux) []
Il existe de nombreux processus qu'on sait dépendre d'un grand nombre de paramètres externes
(on parle de facteurs) mais sans que l'on en ait des modèles analytiques.
Lorsque l'on est intéressé de connaître la dépendance d'une variable de sortie F d'un tel
processus, on se trouve confronté à plusieurs difficultés :

Quels sont les facteurs les plus influents ?

Existe-t-il des interactions entre les facteurs (corrélations) ?

Peut-on linéariser le processus en fonction de ces facteurs et le modèle ainsi obtenu est-il
prédictif ?

Comment minimiser le nombre de points de mesure du processus pour obtenir le maximum
d'informations ?

Existe-t-il des biais dans les résultats des mesures ?
La méthode du plan d'expérience répond à ces questions et peut ainsi être appliquée dans de
nombreux processus qui vont par exemple des essais cliniques à l'évaluation de la qualité des
processus industriels les plus complexes.
8
On peut ainsi pour l'industrie poser cette nouvelle définition : Un plan d'expériences est une suite
d’essais rigoureusement organisés, afin de déterminer avec un minimum d’essais et un maximum
de précision, l’influence respectives des différents paramètres de conception ou de fabrication
d’un produit, afin d’en optimiser les performances.
En sciences humaines []
Les symboles utilisés []


<...> = Emboîté, c'est-à-dire qu'il y a un groupe par modalité !
* ... = Croisé, c'est-à-dire qu'il n'y a qu'un seul groupe pour toutes les modalités.



S = Signifie sujet.
S10<M2> = Signifie qu'il y a 20 sujets (car 10 sujets x 2 modalités)
S10*M2 = Signifie qu'il y a 10 sujets

M2 = M est le symbole d'une VI (Variable Indépendante), et 2 en indice, indique le nombre de
modalités.
Plan monofactoriel []
On peut avoir deux types de plan monofactoriel :
Méthode 1
Type de plan
Emboîté
Type de groupe Groupes indépendants
Formule
Nombre de
données
Problème
S10<M2>
20 données pour 20 sujets
10 sujets pour M1 et 10 pour M2
Il est difficile d'avoir 2 groupes réellement
équivalents
Méthode 2
Croisé
Groupes appareillés
S10*M2
20 données pour 10 sujets
les 10 sujets passent M1 et
M2
Il y a des interférences d'une activité à
l'autre
Plan multifactoriel []
On aura ici, au moins 2 VI à tester en même temps. On peut avoir trois types de plan
multifactoriel :
9
Méthode 1
Type de
plan
Méthode 2
Méthode 3
Emboîté complet
Croisé complet
Type de
groupe
Un Groupe de sujets par
groupe expérimental
On a deux groupes
Chaque sujet rencontre toutes emboîtés, qui passe
les conditions expérimentales chacun toutes les
conditions
Formule
S10<M2*R3>
S10*M2*R3
S10<M2>*R3
60 données pour 10 sujets
60 données pour 20
sujets
Peut être fatiguant pour les
sujets + Il va y avoir un effet
d'une condition à l'autre
.
Nombre de
60 données pour 60 sujets
données
Il est difficile d'avoir des
groupes réellement
Problème
équivalents + Besoin de
beaucoup de sujets
Mixte ou quasi complet
Limites des plans expérimentaux exhaustifs []
Supposons que l'on soit en présence d'un processus qui dépende de 3 facteurs A, B et C qui ont
chacun leur domaine de définition (discret) {ai | i = 1,..,l} , {bj | j = 1,...,m} , {ck | k = 1,...,n}.
Une approche systématique consisterait à effectuer toutes les expériences possibles du processus
en faisant varier chacun des paramètres dans son domaine de définition:
Expérience 1: {a1,b1,c1}
Résultat F1
Expérience 2:{a2,b1,c1}
Résultat F2
Expérience 3:{a3,b1,c1}
Résultat F3
Expérience l m n:{al,bm,cn}
Résultat
Le nombre d'expériences nécessaires, qui est égal au produit l m n, peut être tout à fait
considérable et hors de portée pour des raisons de coût et/ou de temps.
Exemple []
10
Supposons que l'on souhaite caractériser un processus électrolytique par la mesure du courant
entre les électrodes.
Pour une solution d'électrolyte donnée, un modèle grossier laisse supposer que ce courant va
dépendre de trois facteurs principaux: (1) la dilution de la solution C, comprise entre 10% et
90%, (2) la température de la solution T, comprise entre 50°C et 100°C, et (3) la nature des
électrodes utilisées (étain, or et en platine). Dans ces conditions, en prenant des pas de 10%
pour la concentration et de 10°C pour la température, le plan expérimental exhaustif sera
constitué de 6x8x3, soit 144 expériences indépendantes qu'il faudra faire dans des conditions par
ailleurs identiques.
En supposant que chaque expérience prend 1 heure (en comptant le temps de préparation),
l'étude de ce simple processus ne demanderait pas moins de 4 semaines de travail à plein temps.
De plus, des expériences étalées sur un aussi grand laps de temps pourrait faire intervenir des
facteurs non-connus mais variant sur la durée de cette étude et pouvant fausser les résultats.
On comprend aisément que les points relevés ci-dessus deviennent dramatiques dès que l'on a
affaire à des processus un peu plus complexes et le coût expérimental d'une étude exhaustive
devient vite prohibitif, voir inapplicable. C'est un problème courant dans les processus industriels
qui exigent une reproductibilité et un contrôle qualité total.
La manière correcte d'aborder un plan d'expérience optimal est de procéder d'une manière tout à
fait analogue au principe de la droite de régression en supposant que l'on a des dépendances
linéaires (ou tout au plus quadratiques) du processus dans chacune de ces variables ainsi que des
interactions entre les variables. On se basera le plus souvent sur des hypothèses simples et/ou des
expériences limites pour se donner une idée de l'existence ou non de dépendances croisées.
Reprenons le processus décrit plus haut en supposant que en plus de T et C, on définisse m
comme une grandeur physique qui caractérise la matière de l'électrode (par exemple son poids
moléculaire ou son électrovalence, etc.):
On souhaite le décrire par une formule simplifiée du type:
F(T,C,m)=
b1 T2 + b2 C2 + b3 m2 + b4 T + b5 C + b6 m + b7 T C + b8 T m + b9 C m + b10 T C m + b11 T2 C + b12
T2 m + b13 C2 T + b14 C2 m + b15 T m2 + b16 C m2
Pour simplifier, on supposera raisonnablement que les termes en T2 C , T2 m , C2 T , C2 m , T m2
et C m2 sont négligeables par rapport aux termes du premier ordre, ce qui revient à dire que les
coefficients b11 , b12, b13 , b14 , b15 et b16 sont nuls (en général, le terme en T C m est aussi
négligeables).
Il reste alors 10 variables b1 , .. , b10 à déterminer pour avoir une connaissance analytique du
processus dans les intervalles spécifiés.
11
On « choisit » 10 points dans l'espace (T, C , m), pour lesquels on effectue l'expérience, obtenant
ainsi les valeurs de {Fi} pour chacun de ces points. On veillera évidemment à ce que tous les
autres paramètres de l'expérience restent constants.
NB : on travaille de préférence avec des variables réduites, c’est-à-dire des variables T, C et m
qui sont sans dimensions et normalisées à 1 sur leur intervalle de définition
Il en résulte le système de 10 équations à 10 inconnues:
Fi = ai1 b1 + ai2 b2 + ai3 b3 + ai4 b4 + ai5 b5 + ai6 b6 + ai7 b7 + ai8 b8 + ai9 b9 + ai10 b10
avec i = 1,..,10.
Les aij sont obtenus simplement en remplaçant T,C et m par leur valeurs aux points où l'on a fait
les expériences.
En écriture matricielle:
=
Pour résoudre ce système, il faut inverser la matrice
:
=
La théorie des plans expérimentaux permet à partir de modèles spécifiques plus ou moins
complexes de déterminer précisément en quels points les mesures doivent être faites.
Les plans factoriels []
Parmi les différents plans expérimentaux, les plans factoriels sont courants car ils sont les plus
simples à mettre en œuvre et ils permettent de mettre en évidence très rapidement l'existence
d'interactions entre les facteurs.
L'hypothèse de base est d'assigner à chaque facteur (normalisé) sa valeur la plus basse ( − 1) et
sa valeur la plus haute ( + 1). Ainsi, pour k facteurs, on se retrouve avec un ensemble de 2k
valeurs possibles.
12
Sans entrer dans les détails, la matrice d'expérience
possède alors des propriétés
intéressantes (on a par exemple: aT a = k 1) qui sont largement exploitées par les logiciels qui
établissent des plans expérimentaux. En particulier, l'ajout d'expériences supplémentaires ainsi
que des algorithmes de randomisation efficace du plan d'expérience initial permettent de mettre
en évidence des biais systématiques et de les supprimer ou alors de mettre en évidence
l'influence d'une variable cachée dont il faut tenir compte.
Pour reprendre l'exemple ci-dessus, on se retrouve avec un plan à 12 expériences (2 températures
extrêmes, 2 concentrations extrêmes et 3 paires d'électrodes).
Travaillons avec la température et la concentration normalisée:
t=
c=
On cherche maintenant uniquement des dépendances linéaires en t et en c, c'est-à-dire une
relation du type:
IX(t,c) = b1t+ b2c+ b3tc pour X=1,2 ou 3 selon le type d'électrode.
En effectuant les mesures du courant aux 4 points (50°C,10%) , (50°C,90%) , (100°C,10%),
(100°C,90%) correspondant aux points ( − 1, − 1),( − 1, + 1), ( + 1, − 1) et ( + 1, + 1) dans
l'espace des facteurs réduits, on a, pour chaque type d'électrode, on est ramené à un plan factoriel
22
=
On vérifie effectivement que aT a = k 1, et on obtient la résolution du système:
=
Soit:
13
b1 = (-I1 - I2 + I3 + I4)
b2 = (-I1 + I2 - I3 + I4)
b3 = (I1 - I2 - I3 + I4)
Ainsi, moyennant quelques précautions, on a ramené une étude d'un processus non analytique
constitué de 144 expériences distinctes à un processus d'une douzaine d'expériences, qui donne
des résultats intéressants sur les intervalles considérés, en particulier sur l'existence et l'amplitude
des interactions entre les différents facteurs.
Interactions logiques
La notion mathématique d’« interaction logique », conçue comme généralisation de celle
d’« interaction », issue du Plan d’Expériences, a été introduite à la fin des années 1990. D’abord
utilisée en analyse des données (Iconographie des corrélations), elle a trouvé un champ
d’application dans les modèles de régression multiple non postulés.
Notion d’interaction []
La notion d’interaction ne doit pas être confondue avec celle de corrélation. On parle d’effet
d’interaction lorsqu’une variable à expliquer Y est conditionnée par le couplage de deux
variables explicatives A et B.
Dans l’exemple suivant, Y n’est corrélé ni à A ni à B ; mais Y est corrélé négativement au
produit A.B. En effet, Y présente de fortes valeurs lorsque A.B présente de faibles valeurs :
A B A.B Y
Essai 1 -1 -1 1 10
Essai 2 -1 1 -1 21
Essai 3 1 -1 -1 19
Essai 4 1 1 1 9
L' « interaction » A.B est aussi appelé « produit croisé » de A et de B.
Un cas particulier de tableau de donnée []
14
Le tableau ci-dessus est parfois appelé « plan d’expériences complet à 2 niveaux ». En effet,
chaque variable explicative n’a que 2 niveaux (faible et fort), et tous les cas sont considérés, à
savoir :




A faible et B faible,
A faible et B fort,
A fort et B faible,
A fort et B fort.
La variable à expliquer Y est aussi appelée la "réponse" de l'expérience.
C’est un cas particulier du « plan d’expériences complet à k niveaux ».
Dans un « plan complet », les variables A, B et A.B sont orthogonales, c'est-à-dire que leur
corrélation est nulle.
Le plan complet est lui-même un cas particulier du « plan d’expérience », dans lequel les
variables explicatives A et B sont contrôlées de façon raisonnée pour obtenir le maximum
d’information concernant leurs influences sur Y, dans le minimum d’essais.
Enfin, le plan d’expériences est un cas particulier des tableaux de données, dans lesquels les
variables explicatives ne sont pas forcément contrôlées.
Généralisation aux tableaux quelconques []
La notion d’interaction logique, qui va être introduite ci-après, s’applique aux tableaux de
données en général, sur variables quantitatives et/ou qualitatives (pourvu que ces dernières
utilisent un codage disjonctif complet).
Quand les variables A et B n'ont pas la même unité, comment calculer le produit A.B pour qu’il
garde un sens physique ?
Il faut se ramener à une unité commune d’évaluation. L’usage est de centrer réduire les variables
A et B, avant de calculer le produit croisé A.B (les variables centrées réduites ont une moyenne
nulle et un écart type égal à un). Dans ces nouvelles unités, notre tableau devient :
A
B
A.B Y
Essai 1 -0.866 -0.866 .866 10
Essai 2 -0.866 0.866 -0.866 21
Essai 3 0.866 -0.866 -0.866 19
Essai 4 0.866 0.866 0.866 9
Interprétation physique du produit croisé []
15
L’interprétation physique du produit de deux variables de même unité, comme la longueur et la
largeur, est aisée (c’est une surface).
Mais que signifie l’effet sur Y du produit croisé A.B de deux variables qui étaient à l'origine
d’unités différentes, et qui ont été centrées réduites ?
Figure 1 : A en abscisse, B en ordonnée ; et les valeurs correspondantes de Y. La
variable à expliquer Y est faible si A et B sont faibles, ou bien si A et B sont forts.
Figure 2 :
• en rouge : variation de Y en fonction de A, pour B faible ;
• en bleu : variation de Y en fonction de A, pour B fort.
Y varie donc de façon différente en fonction de A, selon que B est faible ou fort.
Figure 3 : profils de variation, en fonction de la suite des essais : Y ressemble surtout à
« A*B ». Ou si l’on préfère, Y est corrélé positivement avec « A*B » et négativement
avec A.B.
Ces figures montrent que Y est fort si A est faible et B est fort, ou bien si A est fort et B est faible.
En d’autres termes l’opération « A*B » = -A.B correspond au « ou exclusif » de la logique.
La figure 1 représentait le « ou exclusif » dans le cas où les variables A et B sont discontinues à
deux niveaux.
Dans le cas où les variables A et B sont continues, on obtient la figure 4 caractérisée par des
« montagnes » en rouge lorsque A est fort et B faible, ou bien A est faible et B est fort. Dans le
cas contraire, il y a des « vallées » (en bleu).
16
Figure 4 : surfaces de réponse de la variable A*B
Notion d’« interaction logique » []
Puisque la variable artificielle « A*B » = -A.B correspond au « ou exclusif » de la logique, il est
naturel de s'intéresser aussi à une « interaction logique » beaucoup plus fréquente en physique, à
savoir le « et » logique : « A&B ».
Dans le cas des variables à 2 niveaux, la colonne « A&B » aura les valeurs suivantes (valeur
forte seulement si A et B sont forts):
A B A.B A*B A&B Y
Essai 1 -1 -1 1 -1 -1
10
Essai 2 -1 1 -1 1
21
-1
Essai 3 1 -1 -1 1
19
-1
Essai 4 1 1 1 -1 1
9
Et, dans le cas général des variables continues, nous avons la figure suivante :
17
Figure 5 : surface de réponse du « Et logique »
Les figures suivantes montrent d’autres "interactions logiques", dont on trouvera la description
ci-après, et les formules mathématiques en références.
Signification des symboles d’interactions logiques []
18
f(A,B)
Signification
La réponse Y est forte lorsque...
A*B A ou-exclusif B
...A est fort et B faible ou A est faible et B fort
A^B A ou B
...A est fort ou B est fort
A^-B A ou non B
...A est fort ou B est faible
A&B A et B
...A et B sont forts
A&-B A et non B
...A est fort et B est faible
A]B A modulé par B
...A est fort si B est fort
A]-B A modulé par non B ...A est fort si B est faible
A}B A modulé par B moyen ...A est fort si B est moyen
A{B A moyen si B
...A est moyen si B est fort
A{-B A moyen si non B
...A est moyen si B est faible
A'B ni A ni B (sens large) ...ni A ni B ne sont extrêmes (ils sont moyens)
A!B ni A ni B (sens strict) ...ni A ni B ne sont extrêmes (ils sont strictement moyens)
A#B A comme B
...A varie comme B
A+B "A plus B"
...la somme de A et B (centrés-réduits) est forte
A-B "A moins B"
...la différence de A et B (centrés-réduits) est forte
Modèles de régression multiple postulés et
non postulés
Modèle []
Un modèle relie une ou plusieurs variables à expliquer Y à des variables explicatives X, par une
relation fonctionnelle Y = F(X)


Un modèle physique est un modèle explicatif soutenu par une théorie.
Un modèle statistique, au contraire, est un modèle empirique issu de données disponibles,
sans connaissance a priori sur les mécanismes en jeu. On peut cependant y intégrer des
équations physiques (lors du pré traitement des données).
Régression multiple []
C’est le plus utilisé des modèles statistiques.
On dispose de n observations (i = 1,…, n ) de p variables. L'équation de régression s'écrit
où
19


ε i est l'erreur du modèle;
a0, a1, …, ap sont les coefficients du modèle à estimer.
Le calcul des coefficients a j et de l'erreur du modèle, à partir des observations, est un problème
bien maîtrisé (voir la Régression linéaire multiple).
Plus délicat est le choix des variables entrant dans le modèle. Il peut être postulé ou non postulé.
Modèle postulé []
Dans le modèle précédent, seuls les coefficients sont « dirigés par les données », la structure
polynomiale du modèle est imposée par l’utilisateur (selon son expertise du problème), qui
postule a priori :


le type de modèle : linéaire ou polynomial, et le degré du polynôme,
les variables qui entreront dans le modèle.
Exemple de modèle polynomial avec deux variables explicatives :
Le problème de la sélection des variables explicatives []
Lorsque le nombre de variables explicatives est grand, il peut se faire que certaines variables
soient corrélées entre elles. Dans ce cas il faut éliminer les doublons. Les logiciels utilisent pour
ce faire des méthodes de sélection pas à pas (ascendante, descendante ou mixte).
Il n’en reste pas moins que la qualité du modèle final repose en grande partie sur le choix des
variables, et le degré du polynôme.
Modèle non postulé []
Le modèle « non postulé » est au contraire entièrement « dirigé par les données », aussi bien sa
structure mathématique que ses coefficients.
La sélection des variables explicatives ne demande pas de connaissance a priori sur le modèle :
elle a lieu parmi un ensemble très grand de variables, comprenant :


les variables explicatives simples : A, B, C,... (proposées par les experts du domaine
considéré et dont le nombre p peut être supérieur à n) ;
des « interactions » ou « couplage » de ces variables, par exemple « A*B » (produit
croisé sur variables centrées-réduites), mais aussi des « interactions logiques » tel « A et
B », « A ou B », « A et B moyens », « A si B est fort », « A si B est moyen », « A si B est
faible », etc. ;
20

des fonctions de ces variables : par exemple cos(A) ou n’importe quelle fonction
sinusoïdale amortie ou amplifiée, fonction périodique non sinusoïdale, effet de seuil, etc.
La sélection est faite avant le calcul des coefficients de la régression selon le principe suivant :
On cherche le facteur, ou l'« interaction », ou la fonction, le mieux corrélé à la réponse.
L'ayant trouvé, on cherche le facteur, ou l'interaction, le mieux corrélé au résidu non
expliqué par la corrélation précédente; etc. Cette méthode vise à ne pas compter deux fois
la même influence, lorsque les facteurs sont corrélés, et à les ordonner par importance
décroissante.
La liste trouvée, classée par ordre d’importance décroissante, ne peut pas compter plus de
termes que d’inconnues (n). Si l’on ne garde qu’un terme dans le modèle, ce devra être le
premier de la liste. Si l’on n’en garde que deux, ce seront les deux premiers, etc.
En effet, puisque chacun des termes de la liste "explique" le résidu non expliqué par les
précédents, les derniers n'expliquent peut-être que du "bruit". Quel critère d'arrêt choisir ?
Le nombre de termes conservés dans le modèle peut être, par exemple, celui qui minimise
l’erreur standard de prédiction SEP (Standard error of Prediction), ou celui qui maximise le F de
Fisher. Ce nombre de terme peu aussi être choisi par l’utilisateur à partir de considérations
physiques.
Exemple : on suppose que l’ensemble des « variables explicatives » candidates est
{A,B,C,D,E,F,G}, et que le modèle obtenu est :
Y = constante + a.A + b.(« E et G ») + c.(« D et F moyens »)
On remarque que
* les variables B et C, non pertinentes, ne figurent pas dans le modèle
* la variable A est apparue comme terme simple,
* les variables E et G d’une part, et D et F, d’autre part, n’apparaissent que comme
« interactions logiques ».
Ce modèle « parcimonieux »,c'est-à-dire comportant peu de termes (ici trois), fait intervenir 5
variables, et collera mieux à la réalité physique qu’un modèle polynomial. En effet la
conjonction « E et G » qui signifie « E et G forts simultanément » est plus souvent rencontrée
dans la réalité physique (exemple : la catalyse en chimie) qu'un terme polynomial de type E.G.
Décomposition harmonique []
Un modèle non postulé sera également efficace dans la décomposition harmonique des séries.
21
En effet, le principe s'applique aussi bien en cas d’échantillonnage irrégulier (où les méthodes de
type moyenne mobile, ARIMA ou Box et Jenkins sont mises en défaut) que dans les cas non
stationnaires (où l’analyse de Fourier ne s’applique pas). Il permet de déceler et démêler les
interférences de divers cycles et saisonnalités avec des ruptures de tendances en « marches
d'escaliers », en « V » , des « ruptures logistiques », des motifs périodiques, et des événements
accidentels tels que des pics isolés ou des « morceaux d'ondes ».
Exemples []
Application au marketing []
Les données de cet exemple sont disponibles sur internet (voir Effet Prix Promo Colas [1])
Dans un magasin de grande surface, deux produits sont présentés à la vente. Les gondoles
peuvent être, ou non, mises en avant, les prix peuvent varier, de même que la fréquentation du
magasin.
Voici les modèles non postulés obtenus pour chacun des deux produits :
1VENTES = 311.6 - 1386. Pri]1GondoleEnAvant + 492.4 Fréq&2Prix
R2a = 0.849, Q2 = 0.841, F = 220.4 , SEP= 86.28
2VENTES = 396.1 - 1701. (2Pri-2GondoleEnAvant) + 346.0 Fréq]1Prix
R2a = 0.854, Q2 = 0.851, F = 229.3, SEP= 81.27
Les termes de ces équations sont rangés par importance décroissante, et leur influence positive
ou négative dépend du signe des coefficients.
D’où, compte tenu de la signification des symboles d’interactions logiques, l’on déduit que :


Les ventes du produit 1 diminuent lorsque son prix augmente, si la gondole est mise en
avant. Elles augmentent avec la fréquentation du magasin, si le prix du produit 2,
concurrent ,est fort.
Les ventes du produit 2 diminuent lorsque son prix augmente, augmentent lorsque la
gondole est mise en avant. Elles augmentent aussi avec la fréquentation du magasin, si le
prix du produit 1, concurrent, est fort.
Il est souvent utile d’associer aux modèles une analyse de données de type Iconographie des
corrélations :
22
Marketing prix promo
Figure 1, analyse des liens.
Traits pleins : corrélations positives remarquables.
Pointillés : corrélations négatives remarquables.
D'une part, on remarque les liens positifs des ventes du produit 1 avec :



la fréquentation,
la mise en avant de la gondole de présentation.
le prix du produit 2, concurrent.
D'autre part les liens négatifs des ventes du produit 1 avec :


le prix du produit 1
la mise en avant du produit 2, concurrent.
Amélioration de la qualité industrielle []
Les données de Kackar (1985) utilisées ici ont servi d’illustration à diverses techniques de
traitement de données. Voir D. Collombier : Plan d’expériences et amélioration de la qualité
industrielle. Une alternative à la méthode Taguchi. RSA, tome 40, n°2 (1992), p.31-43. [2]
On veut améliorer le cintrage de ressorts à lame servant à la suspension de camions. Les lames
sont chauffées dans un four, cintrées sous presse, puis refroidies dans un bain d’huile. On
souhaite obtenir un flèche de cintrage proche de 8 pouces.
23
Les facteurs contrôlés de la fabrication, à deux niveaux (une valeur faible et une valeur forte),
sont :





T°Four = température du four (1840 et 1880°F)
tChauffage = durée de chauffage (25 et 23 sec.)
tTransfertFourPresse = durée du transfert four-presse (10 et 12 sec)
tSousPresse = temps sous presse (2 et 3 sec.)
T°Refroidissement = température de refroidissement. Difficile à contrôler en cours de
fabrication, elle peut l’être seulement lors des essais. On la traite comme un facteur de
bruit à deux niveaux (130-160°F et 150-170°F)
Le plan d’expériences choisi, comprenant 8 essais (pour les facteurs de fabrication), est donc
répété deux fois, pour chacune des températures de refroidissement. Soit 16 essais.
En outre chacun des essais est répété 3 fois pour prendre en compte les sources de bruit non
contrôlées. Soit au total 48 essais.
Les réponses de l’expérience sont



Ymoy = flèche moyen pour la faible température de refroidissement (moyenne sur 3
mesures)
Ymoy = flèche moyen pour la forte température de refroidissement (moyenne sur 3
mesures)
Rapport Signal/Bruit = calculé d’après les 6 mesures par essai de fabrication.
Dans le tableau suivant, les niveaux des facteurs de fabrication sont notés -1 pour faible, et 1
pour fort. Le niveau de température de refroidissement est noté 1 pour faible et 2 pour fort.
tTransfert
FourPresse
T°Four tChauffage
1 -1
2 -1
3 1
4 1
5 -1
6 -1
7 1
8 1
9 -1
10 -1
-1
-1
-1
-1
1
1
1
1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
1
1
tSousPresse T°Refroid Ymoy Signal/Bruit
-1
-1
1
1
1
1
-1
-1
1
1
1
2
1
2
1
2
1
2
1
2
7.79
7.29
8.07
7.733
7.52
7.52
7.63
7.647
7.94
7.4
5,426739
5,426739
11,6357
11,6357
6,360121
6,360121
8,658226
8,658226
7,337677
7,337677
24
11 1
12 1
13 -1
14 -1
15 1
16 1
-1
-1
1
1
1
1
1
1
1
1
1
1
-1
-1
-1
-1
1
1
1
2
1
2
1
2
7.947
7.623
7.54
7.203
7.687
7.633
10,44231
10,44231
3,700976
3,700976
8,860563
8,860563
Voici les modèles non postulés obtenus pour le flèche Ymoy et pour le rapport Signal/Bruit :
Ymoy = 7.636 - 0.5687 tCha^T°Refroid + 0.3174 (T°Fo+tSousPresse) - 0.3127
T°Re&-T°Four
R2a = 0.934, Q2 = 0.918, F = 71.59, SEP= 0.7446E-01
Signal/Bruit = 7.803 + 7.449 (T°Fo-tChauffage) + 4.201 T°Fo^tSousPresse + 1.874
tCha]-T°Four
R2a = 0.969, Q2 = 0.964, F = 155.3, SEP= 0.5413
Les termes de ces équations sont rangés par importance décroissante (chacun expliquant le résidu
non expliqué par les précédents), et leur influence positive ou négative dépend du signe des
coefficients.
D’où, compte tenu de la signification des symboles d’interactions logiques, l’on déduit que :


La réponse moyenne diminue si tChauffage ou T°Refroidissement diminuent ; le résidu
non expliqué par les termes précédents augmente si T°Four +tSousPresse augmente ; et
enfin le résidu de ces résidus non expliqués diminue si T°refroidissement augmente en
même temps que diminue T°Four.
Le rapport Signal/Bruit augmente (donc la dispersion diminue) quand T°Four augmente,
et aussi lorsque tChauffage diminue ; le résidu non expliqué par les termes précédents
augmente avec T°Four ou tSousPresse ; et enfin le résidu de ces résidus non expliqués
augmente avec tChauffage si T°Four est faible.
Ces modèles permettent (par de multiples tirages en faisant varier les facteurs), de trouver le
compromis optimum pour un flèche moyen Y de 8 pouces avec un rapport Signal/bruit élevé. On
peut pour cela définir des courbes de désirabilités (le désir global est un compromis des deux) :
25
Desirabilité Signal/Bruit
Désirabilité Ymoy
Le tableau suivant donne dans la colonne "Choix", les valeurs favorisant ce compromis. Elles
pourront faire l'objet d'un essai de validation.
Bas Haut Choix
T°Four
-1
1
0.99
tChauffage
-1
1
-0.92
tTransfertFourPresse -1
1
0
tSousPresse
-1
1
0.17
T°Refroid
1
2
1.03
Ymoy
7,203 8,07 7.98
Signal/Bruit
3,701 11,636 11.04
Pour une vision plus synthétique du phénomène on peut associer aux modèles une analyse de
données de type Iconographie des corrélations :
Cintrage ressorts suspension
Figure 2, analyse des liens.
Traits pleins : corrélations positives remarquables.
Pointillés : corrélations négatives remarquables.
26
D'une part, on remarque les liens positifs de Ymoy (flèche des ressorts) avec :


le rapport Signal/Bruit,
la T°Four.
D'autre part les liens négatifs Ymoy avec:


la durée tChauffage
la température de refroidissement.
Quant au rapport Signal/Bruit il dépend


positivement de T°Four,
négativement de tChauffage.
Théorie des probabilités
Courbes de probabilité.
La Théorie des probabilités est l'étude mathématique des phénomènes caractérisés par le hasard
et l'incertitude. Les objets centraux de la théorie des probabilités sont les variables aléatoires, les
27
processus stochastiques, et les événements: ils traduisent de manière abstraite des événements
non déterministes ou des quantités mesurées qui peuvent parfois évoluer dans le temps d'une
manière apparemment aléatoire. En tant que fondement mathématique des statistiques, la théorie
des probabilités est essentielle à la plupart des activités humaines qui nécessitent une analyse
quantitative d'un grand nombre de mesures. Les méthodes de la théorie des probabilités
s'appliquent également à la description de systèmes complexes dont on ne connait qu'en partie
l'état, comme en mécanique statistique. Une grande découverte de la physique du vingtième
siècle fut la nature probabiliste de phénomènes physiques à une échelle microscopique, décrite
par la mécanique quantique.
Historique []
La théorie mathématique des probabilités trouve ses origines dans l'analyse de jeux de hasard par
Gerolamo Cardano au seizième siècle, et par Pierre de Fermat et Blaise Pascal au dix-septième
siècle. Bien qu'un simple pile ou face ou un lancer de dès soit un événement aléatoire, en les
répétant de nombreuses fois on obtient une série de résultats qui va posséder certaines propriétés
statistiques, que l'on peut étudier et prévoir. Deux résultats mathématiques fondamentaux à ce
propos sont la loi des grands nombres et le théorème de la limite centrale.
Initialement, la théorie des probabilités considérait surtout les événements discrets, et ses
méthodes étaient principalement combinatoires. Mais des considérations analytiques ont forcé
l'introduction de variables aléatoires continues dans la théorie. Cette idée prend tout son essor
dans la théorie moderne des probabilités, dont les fondations ont été posées par Andreï
Nikolaevich Kolmogorov. Kolmogorov combina la notion d'univers, introduite par Richard von
Mises et la théorie de la mesure pour présenter son système d'axiomes pour la théorie des
probabilités en 1933. Très vite, son approche devint la base incontestée des probabilités
modernes.
Théorie des probabilités discrète []
La théorie discrète des probabilités s'occupe d'événements dans le cadre d'un univers fini ou
dénombrable.
Exemples: lancer de dés, expériences avec des paquets de cartes, et marche aléatoire.
Définition classique: Initialement, la probabilité d'un événement était définie comme le nombre
de cas favorables pour l'événement, divisé par le nombre total d'issues possibles à l'expérience
aléatoire.
Par exemple, si l'événement est obtenir un nombre pair en lançant le dé, sa probabilité est
donnée par
, puisque trois faces sur six ont un nombre pair.
Définition moderne : La définition moderne commence par un ensemble appelé univers, qui
correspond à l'ensemble des issues possibles à l'expérience dans la définition classique. Il est
28
noté
. Ensuite, on a besoin d'une fonction f définie sur Ω, qui va associer à
chaque élément de Ω sa probabilité, satisfaisant donc les propriétés suivantes :
1.
2.
On définit ensuite un événement comme un ensemble d'issues, c'est-à-dire un sous-ensemble de
Ω. La probabilité d'un évènement E est alors définie de manière naturelle par :
Ainsi, la probabilité de l'univers est 1, et la probabilité de l'événement impossible (l'ensemble
vide) est 0.
Pour revenir à l'exemple du lancer de dés, on peut modéliser cette expérience en se donnant un
univers Ω = {1;2;3;4;5;6} correspondant aux valeurs possibles du dé, et une fonction f qui à
chaque
associe
.
Théorie des probabilités continue []
La théorie des probabilités continue s'occupe des événements qui se produisent dans un
univers continu (par exemple la droite réelle).
Définition classique: La définition classique est mise en échec lorsqu'elle est confrontée au cas
continu (cf. paradoxe de Bertrand).
Définition moderne Si l'univers est la droite réelle
, alors on admet l'existence d'une fonction
appelée fonction de répartition , qui donne
pour une variable aléatoire
X. Autrement dit, F(x) retourne la probabilité que X soit inférieur ou égal à x.
La fonction de répartition doit satisfaire les propriétés suivantes :
1.
est une fonction croissante et continue à droite.
2.
3.
Si
est dérivable, alors on dit que la variable aléatoire X a une densité de probabilité
.
29
Pour un ensemble
comme :
, la probabilité que la variable aléatoire X soit dans
est définie
Si la densité de probabilité existe, on peut alors la réécrire :
Tandis que la densité de probabilité n'existe que pour les variables aléatoires continues, la
fonction de répartition existe pour toute variable aléatoire (y compris les variables discrètes) à
valeurs dans .
Ces concepts peuvent être généralisés dans les cas multidimensionnel sur
continus.
et d'autres univers
Principes fondamentaux []
La probabilité d'un événement donné A,
, est représentée par un nombre compris entre 0 et
1. L'événement impossible a une probabilité de 0 et l'événement certain a une probabilité de 1. Il
faut savoir que la réciproque n'est pas vraie. Un événement qui a une probabilité 0 peut très bien
se produire dans le cas où un nombre infini d'événements différents peut se produire. Ceci est
détaillé dans l'article Ensemble négligeable.
Quelques notions ou propriétés fondamentales
Probabilité
Évènement
probabilité de A
probabilité de ne pas
avoir A
probabilité d'avoir A ou B
probabilité conditionnelle
de A,
sachant B
probabilité d'avoir A et B
est la réunion de A et B.
est l'intersection de A et de B.
est appelé la
probabilité conditionnelle de A sachant B. C'est la probabilité d'avoir A quand on sait que l'on a
B. Par exemple, pour un dé à 6 faces la probabilité d'avoir un 2 (A) quand on sait que le résultat
30
est pair (B) est égal à
car la probabilité d'avoir à la fois un 2 et un nombre pair est
égal à 1/6 et la probabilité d'avoir un nombre pair est égal à 1/2. Ici on remarque que
car on a toujours un nombre pair quand on a 2.
La théorie des probabilités aujourd'hui []
Article détaillé : axiomes des probabilités.
Article détaillé : espace probabilisé.
Certaines distributions peuvent être un mélange de distributions discrètes et continues, et donc
n'avoir ni densité de probabilité ni fonction de masse. La distribution de Cantor constitue un tel
exemple. L'approche moderne des probabilités résout ces problèmes par l'utilisation de la théorie
de la mesure pour définir un espace probabilisé et aboutir aux axiomes des probabilités
développés par Kolmogorov
Un espace probabilisé comporte trois parties:


un univers Ω: L'univers est l'ensemble de tous les résultats possibles de l'évenement
aléatoire. Par exemple pour un dé a 6 faces l'univers est Ω ≡ {1, 2, 3, 4, 5, 6}.
un ensemble d'événements : C'est une tribu sur les événements Ω. Cet ensemble
contient tous les résultats possibles de l'événement au sens large. Par exemple pour un dé
à 6 faces il contient la possibilité d'avoir un 1 ou un 2: {1, 2}, la possibilité de ne rien
sortir comme résultat: l'ensemble vide , la possibilité de sortir n'importe quel face du dé
{1, 2, 3, 4, 5, 6}. En général en probabilité on se contente de prendre la tribu borélienne.
À titre d'exemple la tribu borélienne pour le résultat d'un dé à 4 faces est donné (celle
pour le dé à 6 faces est encore plus grande mais suit le même principe):
{ø, {1}, {2}, {3}, {4}, {1,2}, {1,3}, {1,4}, {2,3}, {2,4}, {3,4}, {1,2,3}, {1,2,4}, {1,3,4},
{2,3,4}, {1,2,3,4}}. On remarque que cette tribu contient l'ensemble vide ø et
Ω={1,2,3,4}. Ceci est le cas pour toutes les tribus.

une mesure : Cette mesure ou probabilité est la probabilité de réaliser l'un des éléments
de . Cette probabilité est comprise entre 0 et 1 pour tous les éléments de , c'est le
premier axiome des probabilités. Par exemple pour un dé a 6 faces: la probabilité d'avoir
{1} est 1/6, la probabilité de Ω={1, 2, 3, 4, 5, 6}, tirer n'importe laquelle des 6 faces, est 1
(ceci est aussi toujours le cas, c'est le deuxième axiome des probabilités), la probabilité
de l'ensemble vide ø est 0. Ceci est toujours le cas, c'est également une conséquence des
axiomes des probabilités.
Dans cette optique, pour des événements deux à deux disjoints (c'est-à-dire, d'intersection deux à
deux vide) A1, A2, A3…, la probabilité de leur union apparaît comme la somme de leurs
probabilités, ou, avec les notations mathématiques,
31
C'est le troisième et dernier axiome des probabilités. Par exemple, et toujours pour un dé à 6
faces, la probabilité de tirer un 1 ou un 2
En plus de permettre une meilleure compréhension et une unification des théories discrètes et
continues des probabilités, l'approche de la théorie de la mesure nous permet aussi de parler de
probabilités en dehors de
, notamment dans la théorie des processus stochastiques. Par
exemple pour l'étude du mouvement brownien, la probabilité est définie sur un espace de
fonctions.
Lois de probabilité []
Article détaillé : Loi de probabilité.
Certaines variables aléatoires sont fréquemment rencontrées en théorie des probabilités car on les
retrouve dans de nombreux processus naturels ; leur loi a donc une importance particulière. Les
lois discrètes les plus fréquentes sont la loi uniforme discrète, la loi de Bernoulli, ainsi que les
lois binomiale, de Poisson et géométrique. Les lois uniforme continue, normale, exponentielle et
gamma sont parmi les plus importantes lois continues.
Convergence de variables aléatoires []
Article détaillé : convergence de variables aléatoires.
En théorie des probabilités, il y a plusieurs notions de convergence pour les variables aléatoires.
En voici une liste:
Convergence en loi: une suite de variables aléatoires
converge en loi vers la
variable aléatoire si et seulement si la suite des mesures images
converge étroitement vers la mesure image μX. En particulier dans le cas réel, il faut et il
suffit que les fonctions de répartition convergent simplement vers la fonction de
répartition de X en tout point de continuité de cette dernière.
Convergence en probabilité:
converge en probabilité vers
ssi
,
. Cette convergence implique la convergence en loi.
Convergence presque sûre:
converge presque sûrement vers
ssi
. Elle implique la convergence en probabilité,
donc la convergence en loi.
Convergence dans
:
converge dans
vers
ssi
. Elle implique aussi la convergence en probabilité.
Le calcul stochastique []
32
Article détaillé : calcul stochastique.
Un processus stochastique est un processus aléatoire qui dépend du temps. Un processus
stochastique est donc une fonction de deux variables : le temps et la réalisation ω d'une certaine
expérience aléatoire. Quelques exemples d'utilisation des processus stochastiques incluent le
mouvement brownien, les fluctuations du marché boursier, ou la reconnaissance vocale. En
temps discret, ces processus sont aussi connus sous le nom de Séries temporelles et servent entre
autres en économétrie.
Parmi les processus stochastiques, les chaînes de Markov constituent l'exemple le plus simple et
sans doute celui qui a le plus d'applications pratiques.
Chaîne de Markov []
Article détaillé : chaîne de Markov.
Une chaîne de Markov est un processus stochastique possédant la propriété markovienne. Dans
un tel processus, la prédiction du futur à partir du présent ne nécessite pas la connaissance du
passé. Il suffit alors de connaître l'état de la chaîne à un instant t pour savoir comme elle évoluera
au temps t+1, il n'est pas nécessaire de connaître tout le passé entre 0 et t pour prévoir l'évolution
de la chaîne.
Une chaîne en temps discret est une séquence X1, X2, X3, ... de variables aléatoires. La valeur Xn
étant l'état du processus au moment n. Si la distribution de probabilité conditionnelle de Xn+1 sur
les états passés est une fonction de Xn seulement, alors de façon mathématique:
où x est un état quelconque du processus,
est la probabilité d'avoir A quand on sait que
l'on a B par exemple ici la probabilité d'avoir une certaine valeur pour Xn + 1 quand on connaît la
valeur de Xn. L'identité ci-dessus est la propriété de Markov pour le cas particulier d'une chaîne
en temps discret. La probabilité P(Xn + 1 = x | Xn = y) est appelée la probabilité de transition de x à
y ; c'est la probabilité d'aller de x à y au temps n et a une importance particulière pour l'étude de
ces chaînes. Nous considérons ici uniquement des chaînes de Markov en temps discret mais il
faut savoir qu'il existe une généralisation en temps continu.
Cette propriété de Markov s'oppose à la notion d'hystérésis où l'état actuel dépend de l'histoire et
non seulement de l'état actuel. Ces chaînes de Markov ou des modèles de Markov cachés
interviennent dans l'étude de la marche aléatoire et ont de nombreux champs d'application: filtre
anti-spam, mouvement brownien, hypothèse ergodique, théorie de l'information, reconnaissance
des formes, algorithme de Viterbi utilisé en téléphonie mobile, etc...
33
Trois marches aléatoires (indépendantes) isotropes sur le réseau
Article détaillé : marche aléatoire.
; 10 000 pas.
Citons entre autres comme cas particuliers de chaînes de Markov la marche aléatoire qui sert en
particulier à l'étude de la diffusion ou du jeu de pile ou face. Une marche aléatoire est une chaîne
de Markov où la probabilité de transition ne dépend que de x-y. Autrement dit une chaîne de
Markov où l'on a: P(Xn + 1 = x | Xn = y) = f(x − y).
Un jeu de pile ou face où l'on jouerait 1 à chaque lancer est un exemple de marche aléatoire. Si
on a y après n lancers, P(Xn + 1 = x | Xn = y) = 1 / 2 si (x-y)=+1 ou -1 et 0 sinon. (on a une chance
sur deux de gagner 1 et une chance sur deux de perdre 1)
Équations différentielles stochastiques []
Article détaillé : Équation différentielle stochastique.
Les équations différentielles stochastiques sont une forme d'équation différentielle incluant un
terme de bruit blanc. Ces équations différentielles stochastiques remplacent les équations
différentielles ordinaires lorsque l'aléatoire entre en jeu. Au premier ordre par exemple:
Pour faire une analogie avec la physique, μ(X(t)) est la vitesse moyenne au point X(t) et σ est lié
au coefficient de diffusion (voir à ce propos l'exemple donné dans lemme d'Itô). Le lemme d'Itô
et l'intégrale d'Itô permettent alors de passer de ces équations stochastiques à des équations aux
dérivées partielles classiques ou à des équations intégrales. Par exemple en utilisant le lemme
d'Itô on obtient pour la probabilité de se trouver à l'instant t au point x:
Ce lemme est particulièrement important car il permet de faire le lien entre l'étude d'équations
stochastiques et les équations aux dérivées partielles qui relèvent de l'analyse. Ce lemme permet
entre autres d'obtenir les équation de Fokker-Planck en physique et de traiter le mouvement
brownien par des équations aux dérivées partielles classiques ou de modéliser les cours de la
bourse en Mathématiques financières.
34
Processus stochastique
Le calcul des probabilités classique concerne des épreuves où chaque résultat possible (ou
réalisation) est un nombre, ce qui conduit à la notion de variable aléatoire. Un processus
stochastique ou processus aléatoire (voir Calcul stochastique) ou fonction aléatoire (voir
Probabilité) représente une évolution, généralement dans le temps, d'une variable aléatoire.
Mathématiquement []
Soit
un espace de probabilité. On appelle processus aléatoire à valeur dans
un élément
valeur dans
Si
, où pour tout
est une variable aléatoire à
.
est une filtration, on appelle processus aléatoire adapté, à valeur dans
élément
où
est une variable aléatoire
, un
-mesurable à valeur
dans
La fonction
est appelée la trajectoire associée à la réalisation
.
Espace des trajectoires []
On appelle espace des trajectoires l'ensemble
peut alors poser, pour t > 0, Xt(ω) = ωt.
. Pour
, on
On est souvent amené, notamment dans l'étude des processus markoviens, à introduire la famille
des opérateurs de translation
Les opérateurs
. Pour
,
.
forment un semi-groupe puisque
On a Xs(θtω) = Xs + t(ω) = ωs + t, en particulier X0(θtω) = Xt(ω) = ωt.
Pratiquement []
Notion de processus []
35
De nombreux domaines utilisent des observations en fonction du temps (ou, plus
exceptionnellement, d'une variable d'espace). Dans les cas les plus simples, ces observations se
traduisent par une courbe bien définie. Malheureusement, des sciences de la Terre aux sciences
humaines, les observations se présentent souvent de manière plus ou moins erratique. Il est donc
tentant d'introduire des probabilités.
Un processus aléatoire généralise la notion de variable aléatoire utilisée en statistiques
élémentaires. On le définit comme une famille de variables aléatoires
variable à chaque valeur
réalisation du processus.
. L'ensemble des observations disponibles
qui associe une telle
constitue une
Un premier problème concerne le fait que la durée sur laquelle est construit le processus est
généralement infinie alors qu'une réalisation porte sur une durée finie. Il est donc impossible de
représenter parfaitement la réalité. Il y a une seconde difficulté beaucoup plus sérieuse : à la
différence du problème des variables aléatoires, la seule information disponible sur un processus
se réduit généralement à une seule réalisation.
Types de processus []
On distingue généralement les processus en temps discret et en temps continu, à valeurs discrètes
et à valeurs continues.
Si l'ensemble est dénombrable on parle de processus discret ou de série temporelle, si
l'ensemble est indénombrable on parle de processus continu. La différence n'a rien de
fondamental : en particulier la stationnarité, constance en fonction du temps des propriétés
statistiques, se définit de la même façon. Il ne s'agit même pas d'une différence pratique car les
calculs sur un processus continu s'effectuent à partir de l'échantillonnage d'une réalisation du
processus. La différence porte plutôt sur l'attitude adoptée face à l'utilisation d'une seule
réalisation.
Il existe une différence un peu plus nette entre les processus à valeurs continues et les processus
de comptage à valeurs discrètes. Les seconds remplacent par des sommes algébriques les
intégrales utilisées par les premiers.
Exemples []
En matière de processus à valeurs continues, les processus de Gauss sont particulièrement
utilisés pour les mêmes raisons que les variables de Gauss en statistiques élémentaires. Une
application intuitive du théorème de la limite centrale conduit à penser que bon nombre de
phénomènes, dus à des causes nombreuses, sont approximativement gaussiens. D'autre part, un
tel processus présente l'avantage d'être entièrement défini par ses caractéristiques au second
ordre, espérance et autocovariance.
La description d'un phénomène par des valeurs discrètes conduit à des processus de comptage
dont le plus simple est le processus de Poisson utilisé dans la théorie des files d'attente
36
La notion de propriété markovienne définit une classe de processus discrets ou continus, à
valeurs discrètes ou continues, qui repose sur l'hypothèse selon laquelle l'avenir ne dépend que
de l'instant présent.
Régression linéaire
Un exemple graphique
En statistiques, étant donné un échantillon aléatoire
régression simple suppose la relation affine suivante entre Yi et Xi:
un modèle de
La régression linéaire consiste à déterminer une estimation des valeurs a et b et à quantifier la
validité de cette relation grâce au coefficient de corrélation linéaire. La généralisation à p
variables explicatives de ce modèle est donnée par
et s'appelle la régression linéaire multiple.
Situation []
37
Empiriquement, à partir d'observations
, on a représenté dans un graphe
l'ensemble de ces points représentant des mesures d'une grandeur yi en fonction d'une autre xi,
par exemple la taille yi des enfants en fonction de leur âge xi.
Les points paraissent alignés. On peut alors proposer un modèle linéaire, c'est-à-dire chercher la
droite dont l'équation est yi = axi + b et qui passe au plus près des points du graphe.
Passer au plus près, selon la méthode des moindres carrés, c'est rendre minimale la somme des
carrés des écarts des points à la droite
où (yi - axi - b)² représente le carré de la distance verticale du point expérimental (yi,xi) à la droite
considérée comme la meilleure.
Cela revient donc à déterminer les valeurs des paramètres a et b (respectivement le coefficient
directeur de la droite et son ordonnée à l'origine) qui minimisent la somme ci-dessus.
Définitions []

Moyenne empirique des xi :
.

Moyenne empirique des yi :
.

Point moyen:

Variance empirique des xi :

Ecart-type empirique des xi :

Variance empirique des yi :

Ecart-type empirique des yi :

Covariance empirique des xi, yi :
.
.
.
.
.
.
La formule de la variance se retient par la mnémonique : La moyenne des carrés moins le carré
de la moyenne
de même pour la covariance : La moyenne du produit moins le produit des moyennes.
38
Résultat de la régression []
La droite rendant minimale la somme précédente passe par le point G et a pour coefficient
directeur
. Son équation est donc :
soit
Erreur commise []
Si l'on appelle εi l'écart vertical entre la droite et le point (xi , yi )
alors l'estimateur de la variance résiduelle σ²ε est :
la variance de a, σ²a , est estimée par
.
On est dans le cadre d'un test de Student sur l'espérance avec écart type inconnu. Pour un niveau
de confiance α donné, on estime que l'erreur sur a est :
où tn-2(1-α)/2 est le quantile d'ordre α/2 de la loi de Student à n-2 degrés de liberté.
L'erreur commise en remplaçant la valeur mesurée yi par le point de la droite axi + b est :
39
À titre d'illustration, voici quelques valeurs de quantiles.
Exemples de quantiles de la loi de Student
niveau de confiance
n
90 % 95 % 99 % 99,9 %
2,57
4,032 6,869
5 2,02
10 1,812 2,228 3,169 4,587
100 1,660 1,984 2,626 3,390
Lorsque le nombre de points est important (plus de 100), on prend souvent une erreur à 3σ, qui
correspond à un niveau de confiance de 99,7 %.
Voir aussi : Erreur (métrologie).
Coefficient de corrélation linéaire []
On peut aussi chercher la droite D' : x = a'y + b' qui rende minimale la somme :
On trouve alors une droite qui passe aussi par le point moyen G et telle que
.
On souhaite évidemment tomber sur la même droite. Ce sera le cas si et seulement si
a' = 1/a,
c'est-à-dire si
aa' = 1.
Les droites sont confondues si et seulement si
c'est-à-dire si et seulement si
40
On appelle cette quantité
le coefficient de corrélation linéaire entre x et y. On peut
démontrer que ce nombre est toujours compris entre -1 et 1.
En pratique sa valeur absolue est rarement égale à 1, mais on estime généralement que
l'ajustement est valide dès que ce coefficient a une valeur absolue supérieure à
Voir également : Corrélation (mathématiques).
Démonstration des formules par étude d'un minimum []
Pour tout réel a, on pose
polynôme du second degré en b. On obtient:
. Il suffit de développer et ordonner ce
Ce polynôme atteint son minimum en
Ce qui signifie que la droite passe par le point moyen G
Il reste à remplacer dans la somme de départ, b par cette valeur.
Pour tout réel a,
ce polynôme du second degré en a. On obtient
. Il suffit de développer et ordonner
.
Ce polynôme atteint son minimum en
41
La droite de régression est bien la droite passant par G et de coefficient directeur
.
Démonstration des formules grâce aux espaces vectoriels de
dimension n []
Dans l'espace
, muni du produit scalaire canonique, on considère le vecteur X de coordonnées
(x1,x2,...,xn), le vecteur Y de coordonnées (y1,y2,...,yn), le vecteur U de coordonnées (1, 1, ..., 1).
On peut remarquer que :





On note alors
le vecteur
et
le vecteur
Le vecteur Z de coordonnées (ax1 + b,ax2 + b,...,axn + b) appartient à l'espace vectoriel engendré
par X et U.
représente le carré de la norme du vecteur Y − Z.
La somme
Cette norme est minimale si et seulement si Z est le projeté orthogonal de Y dans l'espace
vectoriel vect(X,U).
Z est le projeté de Y dans l'espace vectoriel vect(X,U) si et seulement si (Z − Y).U = 0 et
.
Or
que
donc (Z-Y).U=0 signifie
.
En remplaçant dans
, on obtient
42
donc
signifie que
Enfin le coefficient de corrélation linéaire s'écrit alors
. Cette
quantité représente le cosinus de l'angle formé par les vecteurs
et
.
On retrouve alors les résultats suivants:

si le coefficient de corrélation linéaire est 1 ou -1, les vecteurs
colinéaires de coefficient de colinéarité a et
linéaire est parfait.

et
sont
. L'ajustement
si le coefficient de corrélation linéaire est en valeur absolue supérieur à
alors
l'angle formé par les deux vecteurs est compris entre − π / 6 et π / 6 ou entre 5π / 6 et 7π /
6.
Généralisation: le cas matriciel []
Article détaillé : Régression linéaire multiple.
Lorsqu'on dispose de plusieurs variables explicatives dans une régression linéaire, il est
souhaitable d'avoir recours aux notations matricielles. Si l'on dispose d'un jeu de n données (yi)i =
1..n que l'on souhaite expliquer par k variables explicatives (y compris la constante)
, on peut poser:
La régression linéaire s'exprime sous forme matricielle:
et il est question d'estimer le vecteur de coefficients k × 1
.
Son estimateur par moindre carré est:
43
Il faut que la matrice X soit de plein rang (
) afin que
soit inversible.
L'estimation de la matrice (symétrique) de variance-covariance de cet estimateur est:
Le terme
représente la somme des carrés des résidus
.
La qualité de l'ajustement linéaire se mesure encore par un coefficient de corrélation R2, défini ici
par:
où SCE (respectivement SCT) représente la somme des carrés expliqués (respectivement la
somme des carrés totaux). Ces sommes se donnent par
et
.
44
Téléchargement
Explore flashcards