STATS_AIF_Part1

publicité
Statistique
Intervenant: Mr Morad Lemtaoui
Objectif
Connaître les grands aspects de la
statistique ainsi que son utilité
dans le domaine de la finance et
de l’audit
Plan :
Statistique descriptive
Lois de probabilités
Pratique des sondages
Statistique
« C ’est un ensemble de méthodes
permettant de décrire et d ’analyser,
de façon quantifiée, des phénomènes
repérés par des éléments nombreux,
de même nature, susceptibles d ’être
dénombrés et classés. »
QU’EST CE QUE LA
STATISTIQUE DESCRIPTIVE?
La Statistique Descriptive est l'ensemble
des méthodes et techniques permettant
de présenter, de décrire et de résumer
des données numériques
nombreuses et variées.
Sous quelle forme se présentent les
données statistiques ?
Exemple 1 : Pour étudier la répartition
des terres agricoles d'une région, on
peut faire l'inventaire des exploitations
agricoles (soit n leur nombre), et noter
pour chacune d'elle sa taille (en
hectares).
L'ensemble des n exploitations s'appelle
la population statistique étudiée;
chacune des exploitations est un
individu, ou une unité statistique. La
taille (en ha) est la variable statistique
(ou caractère) étudiée.
Le but de l'étude est de voir comment
cette variable varie sur la population :
les tailles des exploitations sont elles
comparables ou très différentes, et dans
quelle mesure ?
Le résultat de la mesure de la variable
"taille" sur les individus "exploitations" est
un ensemble de n nombres, appelé série
statistique brute.
Sur la même population, on aurait pu
s'intéresser à d'autres variables telles l'âge
du chef d'exploitation, la culture dominante,
etc.. On remarquera que le résultat de
l'observation peut être exprimé sous forme
littérale (blé, etc...) ou numérique.
On présente alors souvent les résultats sous
forme d'un tableau 'individus x variables'.
N° Exploitation Taille (ha)
Age du chef
Nombre de
Culture dominante
d'exploitation (années)
personnes employées
1
50
50
blé
2
2
50.5
45
vigne
4
3
35
38
orge
3
4
62.1
25
blé
6
5
20
65
vigne
1
6
10
57
vigne
1
.
.
.
.
.
.
.
.
.
.
630
56
45
blé
2
Dans le tableau présenté ci-dessus, il y a :
combien d'individus ?
combien de variables ?
Exemple 2 : Un contrôleur doit vérifier le bon
fonctionnement d'une chaîne
d'embouteillage.
On considère que le remplissage est correct
si le contenu des bouteilles se situe entre 74
cl et 76 cl.
Il note exactement le contenu de 100
bouteilles testées (en cl) :
74.3
75.2
73
75
75.6
....
Il s'agit d'une série statistique brute
résultant de la mesure de la variable (ou
caractère) ……..sur les individus (ou
unités statistiques)…..… ?
La population étudiée comporte
….. individus.
D'autre part, si on s'intéresse uniquement à l'aspect
"correct" ou non du remplissage (c'est-à-dire au contenu
compris entre 74 et 76 cl ou pas), on peut définir comme
ci-dessous une variable "qualité".
Contenu
Qualité
1
74.3
Bonne
2
75.2
Bonne
3
73
Mauvaise
4
75
Bonne
5
75.6
Bonne
...
...
...
98
76.1
Mauvaise
99
74.2
100
72
Le tableau de données brutes ci-dessus comporte :
individus ?
variables ?
Notons que la statistique descriptive
traite des propriétés des populations,
plus que de celles d'individus
particuliers. Ainsi pour la population de
100 bouteilles, on s'intéressera à la
proportion de bouteilles trop ou pas
assez remplies, et non au fait que la
10ème bouteille testée était ou non bien
remplie.
En résumé la statistique descriptive
s'applique au cas où l'on dispose des
valeurs prises par une ou plusieurs
variables statistiques sur un
ensemble d'individus, la population
statistique.
Les différents aspects de la
statistique descriptive
La Statistique Descriptive est
l'ensemble des méthodes et techniques
permettant de présenter, de décrire, de
résumer, des données nombreuses et
variées.
Il faut préciser d'abord quel est
l'ensemble étudié, appelé population
statistique, dont les éléments sont des
individus ou unités statistiques.
Chaque individu est décrit par une ou
plusieurs variables, ou caractères
statistiques.
Chaque variable peut être, selon le cas
1. Quantitative : ses valeurs sont des
nombres exprimant une quantité,
sur lesquels les opérations
arithmétiques (somme, etc...) ont un
sens.
La variable peut alors être discrète ou
continue selon la nature de
l'ensemble des valeurs qu'elle est
susceptible de prendre (valeurs
isolées ou intervalle).
Exemples
Taille
 Chiffre d’affaire
 Nombre d’enfants

2. Qualitative
: ses valeurs sont
des modalités, ou catégories,
exprimées sous forme littérale
ou par un codage numérique.
Exemples de caractère qualitatif:
qualité d’une facture (correcte, erroné)
culture dominante d'une exploitation
Dans le cas particulier où il n'y a que
deux modalités, on dit que la variable
est dichotomique.
( Sexe (M ou F, 1 ou 0), qualité (bonne
ou mauvaise), etc..)
Les variables seront ensuite
analysées différemment selon
leur nature (quantitative,
qualitative, etc.), au moyen de
tableaux, graphiques, calcul
de paramètres-clé.
STATISTIQUE
DESCRIPTIVE TABLEAUX
ET GRAPHIQUES
A partir d'un tableau individus x
variables, on fera dans un premier
temps une description
unidimensionnelle de chacune des
variables, prise séparément.
Nom
Situation de
famille
Nombre
d’enfants
Age
Salaire
M. Faouzi
Marié
2
30
12500
M.Ali
Veuf
3
45
8700
Mme Afaf
Mariée
0
27
13000
Melle Badia
Célibataire
0
32
7500
M. Said
Marié
1
39
5200
….
….
….
….
….
Le nombre d'individus étant généralement
grand, voire très grand, une telle série brute
est difficilement lisible et interprétable. Il
est indispensable de la résumer.
Pour cela, on commence par un tri à plat,
décompte des modalités ou valeurs
obtenues, qui nous servira de base à la
construction de tableaux et de graphiques.
Le but est d'obtenir des résumés
clairs et concis, mais en conservant
l'essentiel de l'information contenue
dans les données initiales, et en
utilisant des techniques objectives
ne donnant pas une image déformée
de la réalité.
DEVELOPPEMENT
I. Les tableaux
On a noté la situation familiale des 150
employés d'une entreprise.
Noms
Situation de famille
M.Azim
Marié
MFarid
Veuf
Mme Latifi
Mariée
Melle Fatiha
Célibataire
M. Ahmed
Divorcé
M. Salih
Marié
M. Berrada
Divorcé
Mme Réda
Divorcée
Melle Fatiha
Célibataire
M. Halim
Marié
M. Chadi
Veuf
Mme Faouzi
Mariée
...
...
On ne s'intéresse pas à la situation
personnelle de M. Azim ou de M. Farid, mais
à la répartition du caractère "situation
familiale" dans la population des 150
employés.
Pour cela il faut, pour chacune des modalités
de
la
variable,
déterminer
l'effectif
correspondant, c'est-à-dire le nombre de
personnes ayant cette modalité : il faut
dénombrer le nombre de célibataires, le
nombre de mariés, etc..
Cela peut se résumer par :
Modalités
Effectifs
Marié
80
Célibataire
30
Veuf
20
Divorcé
20
On notera x1, x2, ..., xk les différentes
modalités, et n1, n2, ... , nk les effectifs
associés.
Dans le tableau ci-dessus, x1 = "marié",
n1 =
k=
La somme des effectifs vaut :
La variable que nous venons de voir
est…
On aurait pu tout aussi bien présenter les résultats
sous la forme ci-dessus, par exemple.
Modalité
Effectif
Célibataire
30
Marié
80
Divorcé
20
Veuf
20
Par contre, s'il s'agit d'une variable ordinale, les
modalités sont toujours présentées dans l'ordre :
x1 < x2 < .... < xk , comme dans l'exemple ci-dessous.
Modalités = tailles
Effectifs = Nombre de personnes de
cette taille
XS
10
S
25
M
40
L
32
XL
23
XXL
20
De même, pour une variable discrète,
on notera x1 , x2 , ... , xk les valeurs
rangées par ordre croissant, et n1 , n2 ,
... , nk les effectifs correspondants.
Noms
Nombre d'enfants
M.Azim
2
MFarid
3
Mme Latifi
0
Melle Fatiha
0
M. Ahmed
1
M. Salih
0
M. Berrada
1
Mme Réda
0
Melle Fatiha
2
M. Halim
4
M. Chadi
1
Mme Faouzi
3
M. Ali
2
Melle Loubna
0
M Fatih
0
M. Said
1
M. Radi
2
Mme Faraj
2
Ainsi, à partir de la série brute cidessus, construisez le tableau :
Nombre d'enfants xi
Effectifs ni
0
6
L'ensemble des couples
{ (xi , ni ), i = 1, ... , k }
est une série statistique (ordonnée), ou
distribution observée de la variable.
La somme de tous les ni est-elle toujours
égale à n, nombre des observations ?
On notera ceci :
effectif total
Pour ce qui est des variables continues, on
peut faire de même. Voyons l'exemple
d'une série brute de 60 valeurs du CA
mensuelle d’une entreprise (en 1000dh), et
le tableau des effectifs obtenus.
L'inconvénient est que, comme on aura
toujours un grand nombre de valeurs
différentes, on obtiendra un grand nombre de
petits effectifs, ne résumant finalement pas
grande chose !
CA (1000dh)
Effectifs
CA (1000dh)
Effectifs
159
1
169
7
160
0
170
7
161
0
171
9
162
0
172
6
163
2
173
5
164
3
174
2
165
3
175
1
166
0
176
2
167
5
177
1
168
6
Total :
60
Une variable continue ne prend pas des
valeurs isolées, mais des valeurs
appartenant à des intervalles. C'est
pourquoi, au lieu de définir des effectifs
par valeurs, on définira des effectifs par
intervalles, appelés classes.
Afin de simplifier la présentation on peut,
quitte à perdre un peu d'information,
regrouper les effectifs proches, par exemple
175 d’ effectif 1
176 d’ effectif 2
177 d’ effectif 1
peut être remplacé par [ 175 ; 178 [ d’ effectif
4.
On découpera ainsi l'intervalle des
valeurs en classes contiguës, de la
forme :
[ e1 ; e2 [ [ e2 ; e3 [ [ e3 ; e4 [ ....
[ ek ; ek+1 [
et on notera n1, n2, ... , nk les effectifs
associés.
ni est le nombre d'individus appartenant
à la classe [ ei ; ei+1 [.
Exemple 1
Classes de CA ( en 1000dh)
Effectifs
[159 - 165 [
6
[165 - 168 [
8
[168 - 171 [
20
[171 - 174 [
20
[174 - 177 [
5
[177 - 179 [
1
Exemple 2
Classes de CA ( en 1000dh)
Effectifs
moins de 160
1
[160 - 165 [
5
[165 - 170 [
21
[170 - 175 [
29
175 et plus
4
Le choix des classes est parfois délicat. A
priori tout choix tel qu'on ait des classes
contiguës recouvrant l'ensemble des valeurs
est correct : chaque individu appartient à
une classe et une seule ;
mais il faut dans la mesure du possible des
classes d'amplitudes égales, en nombre
suffisant pour ne pas schématiser trop
grossièrement les données (par exemple
ne pas limiter la série précédente à :
«moins de 170000dh» et «plus de
170000dh» mais pas trop pour ne pas
avoir un tableau interminable avec
beaucoup de tout petits effectifs.
Quel que soit le type de variable on a
finalement, pour toute modalité, valeur
xi , ou classe [ ei , ei+1 [, un effectif ni , tel
que
Il est parfois utile, surtout pour faire des
comparaisons entre plusieurs séries, de
raisonner plutôt avec des effectifs
relatifs(fréquences).
On appellera fréquence(relative) la valeur
que l'on peut aussi exprimer en
pourcentage par fi x 100, c'est le
pourcentage d'individus pour lesquels la
variable a pris la valeur xi , ou une valeur
de la classe [ ei , ei+1 [.
Complétez le tableau :
Modalités xi
Effectif ni
Fréquence fi
%
Célibataire
30
0.2
20
Marié
80
Divorcé
20
Veuf
20
Effectif total :
150
A quoi est égal ici le total de la colonne fréquence ?
Et celui de la colonne "pourcentage" ?
Il y a, parmi les 150 employés, …….% qui sont mariés.
Voyons un autre exemple : Pour étudier
les appels téléphoniques arrivant à un
central, on a noté, sur 96 jours
comparables, le nombre d'appels reçus
entre 9 h et 9 h 10. Les résultats sont
consignés dans ce tableau :
Quelle est la proportion de jours où le
nombre d'appels a été de 2 ?
Nombre
d'appels xi
Nombre de
jours ni
Fréquences
fi
% fi  100
0
2
0.0208
2.08
1
14
0.1458
14.58
2
23
0.2396
23.96
3
24
0.2500
25.00
4
18
0.1875
18.75
5
9
0.0938
9.38
6
6
0.0625
6.25
Total :
96
1
100
Combien y-a-t-il eu de jours où le nombre
d'appels a été inférieur ou égal à 2 ?
Nombre
d'appels xi
Nombre de
jours ni
Fréquences
fi
% fi  100
0
2
0.0208
2.08
1
14
0.1458
14.58
2
23
0.2396
23.96
3
24
0.2500
25.00
4
18
0.1875
18.75
5
9
0.0938
9.38
6
6
0.0625
6.25
Total :
96
1
100
Quelle est la proportion de jours où le
nombre d'appels a été supérieur ou égale
à 3?
Nombre
d'appels xi
Nombre de
jours ni
Fréquences
fi
% fi  100
0
2
0.0208
2.08
1
14
0.1458
14.58
2
23
0.2396
23.96
3
24
0.2500
25.00
4
18
0.1875
18.75
5
9
0.0938
9.38
6
6
0.0625
6.25
Total :
96
1
100
Plus généralement, si
{ (xi , ni ), i = 1, ..., K }
est la distribution observée d'une variable
discrète, n1 + n2 + ... + ni = Ni est le
nombre d'individus pour lesquels la
variable a été inférieure ou égale à xi..
On peut calculer Ni de proche en proche :
N1 = n1, N2 = N1 + n2, N3 = N2 + n3, etc ...
Les Ni sont les effectifs cumulés
croissants.
De même ni + ni+1 + ... + nk = N'i est le
nombre d'individus pour lesquels la
variable a été supérieure ou égale à xi.
Il peut se calculer de proche en proche :
N'k = nk , N'k-1 = nk + nk-1 ,
Les N'i sont les effectifs cumulés
décroissants.
On peut définir de même :
Fi = f1 + f2 + ... + fi , fréquences cumulées
croissantes obtenues de proche en proche
par Fi+1 = fi+1 + Fi
F'i = fi + fi+1 + ... + fk , fréquences cumulées
décroissantes obtenues de proche en
proche par F'i = F'i+1 + fi
Fi et F'i peuvent s'exprimer aussi en
pourcentage (en multipliant tout par 100).
Complétez le tableau :
Nombre
d'appels
Fréquence
en %
Fréquences cumulées
croissantes
0
2.08
2.08
1
14.58
16.66
2
23.96
3
25.00
65.62
4
18.75
84.37
5
9.38
93.75
6
6.25
Fréquences cumulées
décroissantes
97.92
83.34
59.38
15.63
6.25
Les définitions d'effectifs et de
fréquences cumulés restent les
mêmes dans le cas d'une variable
continue.
II. Les graphiques
Pour visualiser une distribution
statistique, il est généralement plus
parlant d'utiliser un graphique, à la
place ou en complément du tableau.
Variable Qualitative
Dans le cas d'une variable qualitative, les
modalités ne peuvent pas être
représentées sur un axe, selon une
échelle donnée, car elles ne sont pas
numériques.
On utilise surtout dans ce cas des
diagrammes circulaires : chaque modalité
est représentée par un secteur circulaire
dont l'angle (et donc la surface) est
proportionnel à son effectif.
Situation
familiale
Effectifs
Célibataire
30
Marié
80
Divorcé
20
Veuf
20
Total :
150
Une représentation équivalente
consiste à construire un
diagrammes en barres : chaque
rectangle a une base constante et
une hauteur proportionnelle à
l'effectif ni ou à la fréquence fi .
CSP
Cadres
Agents de maîtrise
Employés
Ouvriers
ni
10
40
60
90
fi
0,05
0,2
0,3
0,45
90
80
70
60
50
Série1
40
30
20
10
0
cadres
ouvriers employés ouvriers
Variable Quantitative
Dans le cas d'une variable quantitative,
les valeurs observées, numériques,
seront toujours placées selon un axe,
en suivant une échelle précise.
Cas des séries chronologiques
On représente directement les données
brutes en ordonnée, l'échelle du temps
étant placée en abscisse. Le temps
étant continu, on relie par des segments
de droite les points obtenus.
Cas d’une variable discrète
Après un tri à plat conduisant à la
distribution observée, on représente
celle-ci par un diagramme en bâtons les
xi sont placés suivant une échelle sur
l'axe des abscisses, et les effectifs ni
sont matérialisés par un "bâton" de
longueur ni (axe des ordonnées).
Nombre d'enfants xi
Effectifs ni
Fréquences fi
0
6
0.33
1
4
0.22
2
5
0.28
3
2
0.11
4
1
0.06
18
1
Cas d'une variable continue
On a vu que si l'on compte les effectifs
par valeur on risque souvent d'avoir un
trop grand nombre de valeurs
différentes, avec de trop faibles
effectifs, et qu'il convient de regrouper
les données en classes.
Variable quantitative
continue: représentée sous
forme d'un histogramme :
Un histogramme est une surface
composée d'une suite de rectangles
adjacents dont la hauteur de chacun est
proportionnelle à l'importance de
chaque classe, avec éventuellement une
correction des fréquences ou effectifs si
les amplitudes des classes ne sont pas
égales
Age (ans)
Nombre de
personnes
dans cette
tranche d'âge
20 à 30
100
30 à 40
150
40 à 50
90
50 à 65
20
La correction des effectifs ou des
fréquences se fait en trois
étapes :
Première étape: calcul des amplitudes
des classes ai.
Deuxième étape: Choix d'une
amplitude de base a (généralement
l'amplitude la plus petite) et calcul du
rapport amplitude de la classe sur
l’amplitude de base (ai/a)
Troisième étape : calcul des effectifs
corrigés : ni' = ni/(ai/a) ou fi'= fi/(ai/a)
Exemple : Considérons la
distribution suivante :
xi
[0 - 10[
[10-20[
[20 - 30[
[30 - 50[
[50 - 70[
[70 - 80[
fi en %
10
15
35
30
8 20
2
2
4
La correction se fait de la
manière suivante :
xi
[0 - 10[
[10 - 20[
[20 - 30[
[30 - 50[
[50 - 70[
[70 - 80[
Total
fi en %
10
15
35
30
8
2
100
ai
10
10
10
20
20
10
ai/a
1
1
1
2
2
1
-
-
fi en % corrigée
10
15
35
15
4
2
L’histogramme se présente
ainsi :
fi en %
xi
PARAMETRES STATISTIQUES
Les paramètres statistiques ont
pour but de résumer, à partir de
quelques nombres clés,
l'essentiel de l'information
relative à l'observation d'une
variable quantitative.
On définira plusieurs sortes de paramètres :
Certains, comme la moyenne, seront dits de
tendance centrale car ils représentent une
valeur numérique autour de laquelle les
observations sont réparties.
D'autres, par exemple, seront dits de
dispersion car ils permettent de résumer le
plus ou moins grand étalement des
observations de part et d'autre de la tendance
centrale.
I - Paramètres de tendance
centrale
La moyenne arithmétique d'une série statistique
(xi, ni) se calcule de la manière suivante :
La moyenne s'exprime toujours dans la même unité que
les observations xi . Elles peut être décimale, même si les
xi sont entiers par nature.
Nombre
d'appels xi
Fréquences fi
% fi x 100
0
0.0208
2.08
1
0.1458
14.58
2
0.2396
23.96
3
0.2500
25.00
4
0.1875
18.75
5
0.0938
9.38
6
0.0625
6.25
Total :
1
100
Ainsi la moyenne arithmétique du
nombre d'appels reçus à un standard
est : 2,97 appels
Plus généralement, lorsqu'on ne
dispose que de la distribution
regroupée en classes
Classes de
valeur
Effectifs Centre de classe
[ e1 e2 [
n1
x1
[ e2 e3 [
n2
x2
...
...
...
[ ei ei+1 [
ni
xi = ei + ei+1 / 2
...
...
...
[ eK eK+1 [
nK
xK
Total :
n
on calculera la moyenne par :
xi étant le centre de classe.
Dans une entreprise de 100 salariés, le
salaire moyen est égal à 8 400 Dh.
Supposons qu'une erreur se soit glissée
lors de la transcription des salaires.
Monsieur Dahbi est crédité d'un salaire
de 108 000 DH au lieu de 8 000 Dh.
De combien augmenterait la moyenne ?
La nouvelle moyenne est de : …….
Une seule valeur (sur 100) peut donc
beaucoup modifier la moyenne.
La moyenne arithmétique est
sensible aux valeurs extrêmes.
Remarque 1:
Pour plusieurs populations d'effectifs n1, n2,
....., nk, de moyennes respectives :
moyenne globale = moyenne des moyennes
Comparons le salaire moyen dans 2 entreprises
Entreprise A :
1/ 3 de femmes , salaire moyen 8000Dh
2/3 hommes, salaire moyen 11000
Dans l'entreprise A le salaire moyen est de : ….
Entreprise B :
2/ 3 de femmes , salaire moyen 9000Dh
1/3 hommes, salaire moyen 12000
Dans l'entreprise B le salaire moyen est de : ….
On constate donc que le salaire moyen
de B est égal à celui de A. Pourtant le
salaire moyen des hommes est
supérieur en B à celui des hommes en
A. Il en est de même pour les femmes.
D'où vient ce résultat paradoxal ?
Il s'agit d'un effet de structure : cela
vient du fait que les femmes (au salaire
plus bas) sont plus nombreuses en B
qu'en A.
Cela montre aussi qu'une moyenne ne
résume pas bien une population
hétérogène, comprenant des souspopulations différentes vis à vis du
caractère étudié (ici le salaire).
La médiane : M
Si la série brute des valeurs observées est
triée par ordre croissant :
la médiane M est la valeur du milieu, telle
qu'il y ait autant d'observations "au-dessous"
que "au-dessus".
c'est-à-dire que
Si n est impair, soit n = 2 p + 1 ,
M = x(p+1)
Si n est pair, soit n = 2 p, toute valeur de
l'intervalle médian [ x(p) ; x(p+1) ] répond à la
question.
Afin de définir M de façon unique, on choisit
souvent
soit le centre de l'intervalle médian.
Par exemple, la
médiane de la série
de tailles ci-contre
est :
M=
(m)
Aurait-elle été
différente si on avait
noté par erreur la
plus petite taille 0.55
m au lieu de 1.55 ?
En est-il de même
pour la moyenne ?
* Cas d'une variable continue:
Pour des données groupées en classes,
la classe médiane est la classe qui
contient la médiane. On détermine la
médiane par interpolation linéaire.
Salaire horaire
2-4
4-6
6-8
8-10
10-12
Total
ni
5
8
12
10
8
43
ni cumulées croissantes
5
13
25
34
43
La médiane est la valeur de rang (43 + 1) / 2 c’est
à dire 22, celle ci se trouve dans la classe 6-8, la
classe 6 - 8 est donc la classe médiane.
De manière générale, si a et b sont les
bornes de la classe contenant la
médiane, F(a) et F(b) les valeurs de la
fréquence cumulée croissante en a et b,
alors
Dans le cas d'une variable groupée en classes,
en peut calculer la médiane par la formule
suivante :
n
ai (  N i 1 )
2
Me  L0 
ni
Lo : Limite inférieure de la classe médiane
ai : Amplitude de la classe médiane
n : Nombre total des observations
Ni-1 effectif cumulé croissant de la classe inférieure à la
classe médiane
ni : effectif de la classe médiane
Le mode
C'est la valeur dont la fréquence est la plus élevée.
Détermination du mode :
Cas d'une variable discrète : Le mode
est facilement repérable. Sur le tableau
statistique, c'est la valeur xi pour
laquelle la fréquence est la plus élevée
Cas d'une variable continue : les données
sont groupées en classes ; deux situations se
présentent: les amplitudes sont égales ou
non égales.
1/ Les amplitudes sont égales : on définit la
classe modale comme la classe correspondant
à la fréquence la plus élevée et en faisant
l'hypothèse du centre de la classe, on retient
comme valeur modale le centre de la classe
modale.
2/ Les amplitudes sont inégales : il faut corriger
les effectifs ou les fréquences relatives de la
même manière que pour la construction de
l'histogramme. la détermination du mode se
ramène alors au cas précédent.
Classes
0-5
5-10
10-50
50-100
Effectifs
3
10
20
1
Si la distribution présente 2 ou plus maxima
relatifs, on dit qu'elle est bimodale ou
plurimodale. Cela signifie que la population
est hétérogène du point de vue de la variable
observée.
La population est composée de plusieurs
sous-populations ayant des caractéristiques
de tendance centrale différentes.
Positions respectives du mode, de la
médiane et de la moyenne pour une
distribution unimodale.
Lorsque la distribution est symétrique les trois
paramètres sont confondus.
Lorsque la distribution est asymétrique, la
médiane est généralement située entre le
mode et la moyenne et plus proche de cette
dernière.
Paramètres de dispersion
Deux distributions peuvent, tout en
ayant des caractéristiques de
tendance centrale voisines, être très
différentes.
Il est donc nécessaire de mesurer la
dispersion des valeurs autour des
tendances centrales.
L'Étendue : R
L'étendue (ou amplitude) d'une série
statistique est la différence entre la
valeur maximum et la valeur minimum
de la série.
R = Maximum (X) - Minimum (X)
Facile à déterminer, l'étendue ne
dépend que des 2 observations
extrêmes qui sont parfois le fait de
situations exceptionnelles.
Il est donc difficile de considérer
l'étendue comme une mesure stable de
la dispersion.
Ecart interquartile
Afin de diminuer l'influence des valeurs
extrêmes on peut tenir compte de
valeurs plus stables de la distribution.
intervalle interquartile [ Q1 , Q3 ] ou
écart interquartile = Q3 - Q1
Pour mesurer la dispersion de part et
d'autre de la moyenne, il faut mesurer
l'ordre de grandeur des xi
A quoi est égal
La variance est très utilisée, c'est
moyenne des carrés des écarts à la
moyenne.
C'est pourquoi on le note V(x),  étant l'écart-type

 ( x) 
1
ni( xi  x)²

n
s'exprime, contrairement à la variance, dans la
même unité que les xi
Une variance (et donc un écart-type) est
d'autant plus faible que les données sont
groupées autour de
car en moyenne les écarts sont plus faibles.
Si les données sont groupées, on a :
1
V ( x) 
ni( xi  x)²

n
les xi étant les centres de classes dans le
cas continu,
On calcule généralement l'écart-type en
complément de la moyenne.
Pour les calculs, il est souvent plus commode,
plutôt que de calculer
1
V ( x) 
ni( xi  x)²

n
de calculer
2
1
V(x) nixi² x
n
Calculons par
exemple l'écart-type
de la série "nombre
d'enfants par
famille"
V(x) =
donc
 =
enfants
Nombre d'enfants
xi
Nombre de
salariés ni
0
6
1
4
2
5
3
2
4
1
Total :
n = 18
Le coefficient de variation :
Le coefficient de variation est le rapport
de l'écart-type par rapport à la
moyenne.
Le coefficient de variation est
indépendant des unités choisies, il est
utile pour comparer des distributions
qui ont des unités différentes.
La variance, l'écart-type et le coefficient
de variation sont les paramètres de
dispersion les plus utilisés.
En particulier, le coefficient de variation
permet de comparer la variabilité
relative de plusieurs distributions qui
diffèrent fortement par leur ordre de
grandeur et éventuellement même par
leur unité de mesure
Synthèse
En plus des tableaux et graphiques, on
résume l'observation d'une variable
quantitative par un petit nombre de
paramètres.
III/ Description bivarié :
La statistique descriptive à deux
dimensions a essentiellement pour but
de caractériser les relations qui
existent entre deux séries
d'observations considérées
simultanément. Ces observations
peuvent être de nature qualitative ou
quantitative, continue ou discontinue.
Exemple :
Afin d'étudier la répartition des terres
agricoles d'une région, on a noté un
certain nombre de renseignements sur
chaque exploitation, notamment :
sa taille (surface, en hectares),
l'âge du chef d'exploitation,
le type de culture pratiquée,
le nombre de personnes employées à
temps plein sur l'exploitation
Le résultat est présenté sous la forme du tableau cidessous , individus  variables
N°
Exploitati
on
Taille
(ha)
Age du chef
d'exploitation
(années)
Culture
dominante
Nombre de
personnes
employées
1
50
50
blé
2
2
50.5
45
vigne
4
3
35
38
orge
3
4
62.1
25
blé
6
5
20
65
vigne
1
6
10
57
vigne
1
...
...
...
...
...
198
56
45
blé
2
Nous pouvons maintenant décrire
chacun des caractères, un par un :
Taille
Age
Culture
employés
Mais ceci ne nous permet pas de mettre en
évidence les liens existant peut être
entre la taille et l'âge : les jeunes
exploitants ont-ils des surfaces
comparables, inférieures, supérieures à
celles de leurs aînés ?
De même, le type de culture pratiqué
est-il le même quelle que soit la surface
? Le nombre d'employés est-il fonction
du type de culture, etc...
1.
Les tableaux statistiques :
1.1 série statistique double :
Nombre de
visites de
prospection xi
152
155
160
155
162
164
Nombre de
commandes yi
26
27
28
28
29
30
Y-a-t-il une liaison entre les deux variables
présentées?
Tableau de contingence :
Considérons
N
individus
décrits
simultanément selon deux caractères X
et Y.
X possède k modalités : x1, x2, x3, …….,
xi, …….xk
Y possède p modalités: y1, y2, y3,……..,
yj,……..yp
yj
Y1
y2
y3…………….yj…………………yq
ni.
xi
x1
x2
.
.
.
xi
.
.
.
xp
n11
…………….n32
…………………………………………………npq
n 1.
n 2.
.
.
.
n i.
.
.
.
n p.
n .j
n.1
n ..
……………………….....nij
n.2
n.3……….…n.j……………….n.q
Exemple de tableau de contingence
Montant du CA
mensuel xi
[0 - 2000[
[2 000 - 4 000[
[4 000 - 6 000[
[6 000 - 8 000[
[8 000 - 10 000[
[10 000 - 12 000[
[12 000 - 14 000[
[14 000 - 16 000[
[16 000 - 20 000[
Total
0200
6
5
4
11
7
0
0
1
2
36
Montant des achats : yj
200- 400- 600- 800400
600 800 1200
4
1
2
0
3
4
2
0
8
9
1
3
78
55
5
5
8
82
56
21
2
6
47
35
3
14
49
22
4
23
12
6
0
3
6
0
110
197 180
92
:
Total
12001500
0
0
0
4
11
15
9
5
3
47
13
14
25
158
185
105
97
51
14
662
On appelle distribution marginale de X la distribution à
une dimension des individus de la population qui
présente une modalité de X quelque soit la modalité de
Y. De façon analogue, on définit celle de Y.
3. Réduction des données :
Les paramètres utilisés pour caractériser
les distributions à deux variables sont
de deux types :
- Les paramètres qui concernent une seule
variable, ils servent à caractériser les
diverses distributions marginales.
- Les paramètres qui servent à décrire les
relations qui existent entre les deux séries
d'observations considérées simultanément.
a-
Moyennes et variances
marginales :
1
x   xi
N i
y  1  yi
N i
V(x)  1 (xi x)²
N i
V(Y) 1 (yi y)²
N i
Exemple :
Reprenons la série précédente :
Nombre de visites de
prospection xi
152
155
160
155
162
164
Nombre de commandes
yi
26
27
28
28
29
30
948
168
x  948 158
6
y 168 28
6
Nombre de visites
de prospection xi
152
155
160
155
162
164
948
Nombre de
commandes yi
26
27
28
28
29
30
168
(xi-x)²
(yi-y)²
36
9
4
9
16
36
110
4
1
0
0
1
4
10
V(x) 1 (xi x)²110 18.33
N i
6
V(y)  1 (yi  y)² 10 1.67
N i
6
Pour avoir une idée sur la variation simultanée
de X et Y on peut utiliser la covariance :
On appelle covariance de X et Y le nombre
il est aussi égal à :
cov( x, y ) 
1
xiyi  x y

n
Utilité de la covariance :
La covariance est positive si X et Y ont
tendance à varier dans le même sens,
et négative si elles ont tendance à
varier en sens contraire.
Exemple :10 étudiants ont passé l'examen partiel et
l'examen général et ont obtenu les notes suivantes :
Partiel ( X)
Total
71
49
80
73
93
85
58
82
64
32
687
Général (Y)
83
62
76
77
89
74
48
78
76
51
714
Cov (x , y) =(50875 / 10) – (687/10)x(714/10) = 182.32
XY
5893
3038
6080
5621
8277
6290
2784
6396
4864
1632
50875
La covariance est positive, donc il y a une relation croissante
entre X et Y. Autrement dit les deux variables varient dans le
même sens.
La Corrélation linéaire :
Dans le cas où les points du nuage se situent
tous sur une droite, on dit que la relation
entre x et y représente une dépendance
fonctionnelle linéaire .
Si les points du nuage de points ne sont pas
tous alignés sur une même droite, on peut
mesurer le degré de dépendance linéaire
entre les deux variables X et Y .
Comment ?
Coefficient de corrélation linéaire :
Le coefficient de corrélation linéaire a
pour objet de mesurer l'intensité de la
liaison linéaire entre les deux variables
X et Y :
cov( x, y )
r
 ( x) ( y )
Cette définition montre que le coefficient de
corrélation possédé le même signe que la
covariance
sa valeur est comprise entre -1 et 1.
Le signe du coefficient de
corrélation indique le sens de la
relation entre X et Y :
r > o veut dire que les deux variables X
et Y varient dans le même sens. Si X est
grande alors Y est grande, si X est
petite alors Y est petite . On parle de
corrélation positive.
Remarque :
Pour pouvoir parler de forte liaison
entre x et y il faut que la valeur
absolue de r atteigne au moins 0.87
Exemple :reprenons la série suivante
Nombre de visites de
prospection xi
152
155
160
155
162
164
948
Nombre de commandes
yi
26
27
28
28
29
30
168
r = 0.93 donc x et y sont fortement
corrélés, ainsi plus le nombre de visites
augmente, plus le nombre de commandes
augmente.
La corrélation, outil d’aide à la prévision :
L’intérêt d’une forte corrélation tient au fait
que la connaissance de l’une des variables
entraîne la connaissance de l’autre avec un
faible risque d’erreur.
Dés lors, il convient de trouver la double
relation mathématique qui existe entre les
deux variables xi et yi :
- la relation de type yi=f(xi) décrit l’évolution
de la variable y en fonction de xi et
- la relation de type xi=f(yi) décrit l’évolution
de la variable x en fonction de yi
Les droites de régression :
La méthode des moindres carrés est une
méthode d’ajustement qui consiste à
minimiser la somme des carrés des différence
entre les valeurs observées, yi et les valeurs
estimées, par l'équation de la droite de
régression :
yiaxib
cov( x, y )
a
V( x)
b  y  ax
Exemple : reprenons l’exemple précédent ou r=0.93
Nombre de
visites de
prospection xi
152
155
160
155
162
164
948
x 150
Nombre de
commandes
yi
26
27
28
28
29
30
168
y  28
V ( y )  1.67
(xi-x)²
(yi-y)²
(xi-x)(yiy)
36
9
4
9
16
36
110
4
1
0
0
1
4
10
12
3
0
0
4
12
31
V ( x)  18.33
cov(x, y) 315.17
6
cov(x, y) 5.17
a

0.28
V(x)
18.33
b  y  ax  16.24
On aura donc l’équation suivante :
yi = 0.28xi – 16.24
Si on se donne comme objectif pour le
mois prochain 170 visites (xi), quel sera
le nombre de de commande
prévisionnel (yi) approximatif:
yi = 0.28 x 170 –16.24 = 31.36 soit
approximativement 31 commandes
V/ Théories des probabilités :
La théorie des probabilités est la partie
la plus abstraite de la statistique. Elle
traite des phénomènes aléatoires et
s’est développée dans des salles de jeu,
ce qui explique le fait que la majorité
des exemples retenus sont empruntés
aux jeux de hasard.
La théorie des probabilités est
l’intermédiaire entre la statistique
descriptive qui traite des séries
statistiques directement, et l’inférence
statistique qui comprend les valeurs
statistiques comme les indicateurs
indirects de valeurs vraies mesurées par
échantillonnage
I/ Éléments du calcul des probabilités
Vocabulaire probabiliste:
Expérience aléatoire:
Une expérience est dite aléatoire si :
a- On ne peut prédire avec certitude son
résultat
b- On peut décrire l'ensemble de tous les
résultats possibles.
Exemple : jet d'un dé ; lancer d'une pièce de
monnaie, comportement d’achat d’une
personne.
Ensemble fondamental :
(appelé
également
univers
des
possibles, espace échantillonnal ou
référentiel) représente l'ensemble des
résultats possibles d'une expérience
aléatoire ; il est noté .
Exemple : Si on lance un dé une seul
fois, l’ensemble des résultats possibles
sont  = {1, 2, 3, 4, 5, 6}.
Événement :
c'est un élément ou sous ensemble de
. On distingue l'événement
élémentaire : obtenir 2 de l'événement
composé, obtenir un nombre impair.
Définition classique d’une
probabilité :
Soit  un ensemble fondamental et A un événement quelconque de  :
Nombre de cas favorables
Card A
P(A) =
=
Nombre de cas possibles
Card 
Exemple :
Soit une urne contenant 10 boules dont
2 blanches, 5 rouges et 3 bleu. On tire
une boule au hasard. Quelle est la
probabilité qu'elle soit de couleur
blanche ?
Soit A l'événement : « obtenir une boule
blanche »
P(A) = 2/10 =1/5
Définition fréquentielle
Soit  un ensemble fondamental et A un
événement quelconque de  .
P A  lim f n  A
n 
avec
n : nombre de fois que l’expérience se répète
et
n A
f n  A 
: fréquence de la réalisation de
n
l’événement A au cours des n répétitions.
Exemple :
Un professeur de statistique a enseigné
à 12848 personnes, parmi celles-ci 542
ont échoué
La probabilité d’échouer est
542/12848=0.0422
Les règles de calcul des
probabilités :
La probabilité de réalisation d’un événement
impossible est égale à 0.
La probabilité de réalisation d’un événement
certain est égale à 1.
Si A et B sont deux événements
incompatibles, alors la probabilité de la
réalisation simultanée des deux événements
est la somme des probabilité : P (A B) =
P(A) + P(B).
La probabilité de l’événement contraire de A
est 1-P(A)
Remarque :
Si A et b ne sont pas deux événements
compatible, alors :
P(A B) = P(A) +P(B)-P (A  B)
Exemple :
On jette un dé une seule fois, soient les deux événements
suivants :
A : obtenir un chiffre pair
B : obtenir un chiffre inférieur à 3
Calculer p(A /B) ?
P(A) = 3/6
P(B) = 3/6
P(AB) = 1/6
P( A/B) = (1/6) / (3/6) = 1/3
Si A est dépendant de B, cela signifie que si B s'est produit, la
probabilité que A se produise n'est pas la même que si B ne l'est
pas.
En retenant les données de l’exemple précédent, on peut dire que
A et B sont deux événements dépendants car : p(A)  p(A/B)
Remarque :
La notion d’indépendance peut être
étendu à plus de deux événements
Il ne faut pas confondre indépendance
et incompatibilité
II/ Notion de variable aléatoire :
Une variable aléatoire est une grandeur
numérique attaché au résultat d’une
expérience aléatoire. Chacune de ses valeurs
est associé à une probabilité d’apparition.
Exemple 1 : On jette une pièce de monnaie deux
fois et on s’intéresse au nombre de fois que pile
apparaît au cours des deux jets.
On à quatre résultats possibles : PP, PF, FP, FF
Le nombre de fois que Pile peut apparaître est 0, 1
ou 2.
La variable aléatoire retenue peut donc prendre ces
trois valeurs, son ensemble de définition est donc :
{0, 1, 2}
Exemple 2:
Soit une agence immobilière qui désire se lancer
dans la location à la journée de studios meublés.
Elle étudie la demande journalière possible x de
location durant les mois de juillet et août. Elle
obtient les résultats suivants :
xi
0
1
2
P (xi)
0.05 0.01 0.2
3
4
0.3 0.25
5
0.1
Une VA peut être discrète ou
continue :
Une VA est dite discrète si l'ensemble
des valeurs qu'elle est susceptible de
prendre est fini ou infini dénombrable.
Une VA est dite continue si elle peut
prendre toute valeur à l'intérieur d'un
intervalle donné.
Les caractéristiques d’une variable
aléatoires discrètes :
a-Loi de probabilité : On appelle loi de
probabilité de X l'ensemble des couples (xi,
pi).
b-Fonction de répartition :On, appelle
fonction de répartition, la fonction F définie
par :
F: IR -->[0,1]
x--> F(x) = P(X x)
c-Espérance mathématique: On appelle
espérance mathématique de X et on note
E(X) la moyenne des valeurs possibles
pondérées par leurs probabilités :
E(X) =  xi.pi.
d- Variance et écart type :
On appelle variance de la VA X le
nombre réel défini par :
V(X) = E[X - E(X)]² = E(X²)-E(X)²
On appelle écart type, la racine carrée de
la variance
Exemple :
Soit une agence immobilière qui désire se lancer
dans la location à la journée de studios meublés.
Elle étudie la demande journalière possible x de
location durant les mois de juillet et août. Elle
obtient les résultats suivants :
xi
0
1
2
P (xi)
0.05 0.01 0.2
3
4
0.3 0.25
5
0.1
Déterminer la fonction de répartition, l’espérance et
la variance de cette variable aléatoire.
Les caractéristiques d’une variable
aléatoires continue
Fonction de densité de probabilité : On
appelle fonction de densité de probabilité
toute fonction satisfaisant aux 2 conditions
suivantes : xIR, f(x)0



f(x)dx1
Fonction de répartition : Soit X une VA continue et f
sa densité de probabilité. La fonction de répartition de
X est la fonction F telle que:
F : IR
[0,1]
x
X
P(X  x)   f(x)dx


E(x)   xf(x)dx







V(x) (x E(x))²f(x)dx x²f(x)dx( xf(x)dx)²
III/ Lois de probabilité :
Il existe de nombreuses lois de
probabilités, chacune s'appliquant dans
des conditions bien particulières.
Loi de BERNOULLI
La variable de BERNOULLI est une
variable qui prend les valeurs 0 et 1
avec les probabilités respectives q et p
(p + q =1). La valeur 1 est associé à la
réalisation de l’événement considéré
‘succès’ et la valeur 0 à sa non
réalisation ‘échec’
Caractéristiques :
E  X    xi pi  p  E  X   p


V  X    xi2 pi   xi pi 2  p  p 2  p1  p   p.q  V  X   p.q
Loi BINOMIALE
Une variable aléatoire est dite binomiale si
elle représente le nombre de succès obtenus
dans une expérience de n épreuves où
la probabilité de succès reste constante.
La fonction de probabilité d’une telle fonction
est donnée par :
P X  k   Cnk p k q nk On note X  n, p 
La variable binomiale est entièrement
spécifiée par la connaissance de n et p.
La variable de BERNOULLI est un cas
particulier de la variable binomiale :
n=1.
Conditions d’application de la
variable binomiale :
1ère condition : L’expérience consiste en une
suite d’épreuves se soldant à chaque fois soit
par un succès soit par un échec.
2ème condition : Les épreuves se répètent de
manière identique et dans les mêmes
conditions.
3ème condition : La probabilité de succès reste
constante tout au long des n épreuves.
Caractéristiques de la variable
binomiale
Soit X  n, p  . X peut-être décrite comme
une somme de n variables de
BERNOULLI indépendantes :
X  X  X ,....  X n
1
2

E  X   E X  X ,....  X n  E X  E X  ....... E  X n 
1
2
1
2
 p  p  ....  p  n. p  E  X   n. p

V  X   V X  X ,....  X n  V X  V X  ....... V  X n 
1
2
1
2
 p.q  p.q  ........ p.q  n. p.q  V  X   n. p.q

    

    
Approximation de la loi binomiale :
1er cas :lorsque n est élevé et p n’est
ni proche de 1 ni de 0, la loi binomiale
est approché par la loi normale
2ème cas :Lorsque n est élevé et p est
faible (p<0.1) la loi binomiale est
approché par la loi de poisson
Exemple :
L’agence immobilière dispose d’un parc de 5
studios. La probabilité de louer chacun d’eux
au mois de juin est de 0.6. L’agence désire
étudier la probabilité de location de ce parc.
1- Quelle est la loi de probabilité suivie par
cette variable aléatoire ? Quels en sont les
paramètres ?
2- Calculer la probabilité de louer 0, 1, 2
studios?
Exemple 2:
Dans une population, la proportion
d’individu qui ont l’intention de ne pas
voter lors des prochaines élections
législatives est de 15%. Calculer la
probabilité pour que 25% des individus
d’un échantillon d’effectif 16
s’abstiennent?
La loi de POISSON
La distribution de probabilité d’une V.A.
X est dite distribution de POISSON
si elle est définie par les couples (xi , pi)
où x prend les valeurs 0, 1, 2, ……
avec les probabilités respectives données par :
x

P ( X  x )  e 
x!
Notation : X  Po ( )
 est un paramètre réel positif.
Caractéristiques
E( X )  
V(X).
Conditions d’application de la loi
de Poisson :
Soit une approximation de la loi
binomiale:
lorsque n est élevé et p très faible
(proche de 0). Généralement
l'approximation est valable dés que n >
50 et p < 0.1
X --> B(n;p) --> Po(= n.p)
Soit une résultante d’un processus
aléatoire particulier , le processus de
Poisson
La loi de POISSON s'applique en particulier dans le cas
d'événements se réalisant de façon aléatoire dans le
temps ou l'espace (pannes de machines, arrivées de clients à un comptoir,
appels téléphoniques sur une ligne ……). Si la réalisation d'un
événement donné vérifie les conditions suivantes :
Le nombre moyen de fois qu'un événement se réalise
dans un intervalle de temps ou dans un espace est
connu ,
La probabilité que cet événement se produise dans un
intervalle de temps est proportionnelle à la longueur de
cet intervalle et ne dépend en aucun cas du nombre
d'événements qui se sont produits antérieurement,
La probabilité que l'événement se produise plus d'une
fois dans un intervalle de temps très court est
négligeable
alors le nombre X d'événements réalisés au cours d'une
période de temps t est une variable de POISSON ayant
pour paramètre  = p.t.
Exemple 1:
L’arrivé des clients à un supermarché
est considérée comme un processus de
POISSON. On sait que le nombre moyen
de clients arrivant par minute au
supermarché est égale à 2.
Calculer la probabilité pour que pendant
une période particulière de 5 minutes il
arrive 12 clients.
Exemple 2:
Une entreprise utilise des pots de
peinture dont 0.2% sont défectueux.
Quelle est la probabilité que sur les
1000 pots qu’il utilise , il en trouve un
défectueux?
La loi normale
On parle de loi normale ou de loi de
LAPLACE – GAUSS, lorsque l’on a affaire
à une variable aléatoire continue
dépendant d’un grand nombre de
causes indépendantes, dont les effets
s’additionnent et dont aucune n’est
prépondérante.
Exemple : une
caractéristique de qualité, La durée d’un
trajet, les fluctuations accidentelles d’une grandeur ..
f(x)
m-
m
m+
x
Définition :
Une V.A continue X est dite distribuée
selon une loi normale si sa densité de
probabilité est :
f(x)  1 exp[ 1 ( x  m)²]
2 
 2
La loi normale dépend de deux paramètres m et
 . On note : X
N(m;).
Fonction de répartition
La fonction de répartition d'une variable
normale est donnée par l'expression :
x
(x) p(X  x)  f(x)dx

Caractéristiques :
E(X) = m
V(X) = ²
1
 2
x


exp[ 1 ( x m)²]dx
2 
Propriétés :
Le graphique de la fonction de densité de
probabilité de la Loi normale est une courbe
en cloche symétrique par rapport au point
d'abscisse x=m.
La droite verticale x=m divise l'aire comprise
entre la courbe et l'axe des abscisses en deux
parties égales P(X<m) = 0,5 et P(X>m) = 0,5
La grande partie des observations se situe
dans l'intervalle [m-3 ; m+3]
f(x)
m-
m
m-2
x
m+
m+2
68%
m-3
95%
99%
m+3
Intervalles remarquables :
P[m-2/3  < X <m-2/3  ]  50% ;
P[m -  < X <m +  ]  68%
P[m - 2 < X < m + 2]  95%;
P[m - 3 < X < m + 3]  99,74%
Calcul des probabilités
Pour une VA continue, on s'intéresse surtout à
une probabilité d'intervalle. La fonction de
densité étant compliquée, des tables ont été
prévues pour faciliter ce calcul.
Toutefois, étant donnée qu'il existe une infinité
de lois normales distinctes par leurs
paramètres, une seule variable normale est
tabulée et sert de référence pour les autres :
il s'agit de la loi normale centrée réduite.
Le passage de la loi normale à la loi normale centrée réduite s'effectue à
l'aide du changement de variable suivant :
z
X m

La loi normale centrée réduite à
pour paramètre : m =0 et = 1
Propriétés :
Le graphique de la fonction de densité de
probabilité de la LNCR est une courbe en
cloche symétrique par rapport au point
d'abscisse z= 0
La droite verticale z= 0 divise l'aire comprise
entre la courbe et l'axe des abscisses en
deux parties égales P(Z<0) = 0,5 et P(Z>0)
= 0,5.
La grande partie des observations se situe
dans l'intervalle -3 ;3.
Intervalles remarquables
P[-2/3 <Z< 2/3]  50% ;
P[- 1 < Z < +1]  68%
P[- 2 < Z < +2]  95%;
P[- 3 < Z < +3]  99,74%
Utilisation de la table N(O; 1)
Cette table nous donne les
probabilités de trouver une
valeur inférieur à z
Exemple :
X suit une loi normale N(345; 167)
On souhaite connaître la probabilité
pour que X soit inférieur à 500.
On effectue le changement de variable:
Z  X  x  X 345

167
On cherche p(X < 500)=
p(X < 500)= p(Z  500 345)  p(Z  0.93) (0.93)  0.8238
167
Remarque :
la table ne donne que les valeurs
p(Z ≤ z) . Il se peut que l'on cherche
p(Z ≥z). Il faut utiliser alors les deux
propriétés suivantes:
- la surface totale de la courbe est égale à
1;
- la courbe est symétrique par rapport à
l'axe des ordonnées.
Exemple :
Le poids moyen de 500 colis est de
141kg et l’écart type est de 15kg, en
supposant que ces poids sont
normalement distribués, calculer le
nombre de colis pesant :
- Entre 120 et 155kg
- Plus de 185 kg
Intervalle de confiance :
Dans le paragraphe précédent on a cherché à calculer
la probabilité que les valeurs de la variable soient
comprises dans un intervalle donné.
la notion d'intervalle de confiance procède de la
logique inverse: on se fixe la Probabilité et on
détermine les bornes de l’intervalle.
Quelles sont les bornes de l'intervalle dans lequel X
a une probabilité de 95 %de se situer ?
On peut écrire: p(- k < X < + k) = 0,95
P(-k<X <+ k) 0,95 est équivalent à p(-z<Z < +z)= 0,95
P(-z<Z<+z) =p(Z<z) - p(Z<-z)
= p(Z<z) - p(Z >z)
= P(Z<z) – [l - p(Z < z)]
=p(Z<z) - l + p(Z<z)
= 2 p(Z<z) - 1 = 0,95
D'où p(Z<z) = (0,95+1)/2 = 0,9750
Dans la table, pour la valeur de la
probabilité 0,975, on trouve z = 1,96. Il y
a 95 de chances
pour que la variable centrée réduite Z soit
comprise entre (- 1,96) et (+ 1,96).
Déterminons l'intervalle pour la variable aléatoire X.
On sait que : Z  X  x donc Z  X  x

D'où
X  x Z
Si on multiplie chaque membre des inégalités
dans l'expression p(-z <Z < +z) par , on
peut écrire:
p(-z <Z < +z) = p (- z < Z  < + z ).
Si on ajoute à chaque membre, on trouve:
p ( x - z < x+Z  < x + z ).
L'intervalle dans lequel X a 95 % de chances de se
trouver est :
x z,x z 
Loi de KHI-DEUX
Définition
Soit X 1 , X 2 ,......, X v v variables aléatoires
indépendantes telles que :
i  1,2,3,.....,v X i  0;1. Si X  X 2  X 2  ..... X v2
1
2
alors, X est une V.A continue soumise à
v
2
2
une loi de  à v degrés de liberté     0;12
i 1
Caractéristiques
E2v
V22.v
Introduction au test
d’indépendance du
-Calculer les effectifs théoriques (en cas d’indépendance)
-Calculer le  2
-Comparer la valeur calculé avec une valeur observée sur la
table de la loi du KHI-deux
Exemple :
On a interrogé des habitants de Casablanca,
de Rabat et Marrakech sur l’appréciation de 4
stations de radio.
Le croisement de ces deux variables donne le
tableau de contingence suivant :
casa
rabat
Marrak
ni.
Radio 1
18
18
11
47
Radio 2
12
15
18
45
Radio 3
32
20
23
75
Radio 4
15
12
6
32
n.j
77
65
58
200
Etape 1 : Calcul du tableau théorique
Considérons les marges qui correspondent aux distributions
des variables VILLE (77, 65, 58) et RADIO (47, 45, 75, 33).
Si ces deux variables étaient indépendantes, la distribution
des valeurs du tableau serait répartie de manière
“équilibrée” en ligne et en colonne.
La valeur théorique de chaque case s’obtient en multipliant
le total ligne par le total colonne puis en le divisant par le
total général.
Ainsi, la 1ère case devrait contenir la valeur (47x77)/200,
soit 18,1. Le tableau théorique est donc le suivant
casa
rabat
Marrak
ni.
Radio 1
18.1
15.3
16.3
47
Radio 2
17.3
14.6
13.1
45
Radio 3
28.9
24.4
21.8
75
Radio 4
12.7
10.7
21.8
32
n.j
77
65
58
200
Etape 2 : Calcul de la valeur du Khi2
Pour évaluer l’écart entre ce tableau et le
tableau précédent,
on calcule, pour chaque case :
En additionnant ces valeurs, on obtient 7,6 :
(0,0+0,5+0,5+1,6+0,0+1,9+0,3+0,8+0,1+
0,4+0,2+1,3) = 7,6
Étape 3: Comparer la valeur calculé avec une
valeur observée sur la table de la loi du KHI deux
Pour interpréter cette valeur, on se réfère à la table du Khi2 qui
présente les valeurs (cases de la table) ayant une probabilité
donnée d’être dépassées (en colonne), selon différents degrés de
liberté (en ligne).
La probabilité est notre seuil ou marge d’erreur que nous nous
fixons (en général 5%).
Le nombre de degré de liberté (noté ddl) correspond à :
ddl = (Nombre de lignes - 1) x (Nombre de colonnes - 1)
Dans notre exemple, on a ddl = (4-1) x (3-1), soit 6.
En regardant la case qui correspond à la
colonne 0,05 et à la ligne 6, on trouve la
valeur 12,59. Autrement dit, il y aurait, pour
notre tableau 5% de chances que le Khi2
dépasse cette valeur (et 95% de chances qu’il
soit inférieur).
Étant donné que le Khi2 calculé est
inférieur à cette valeur, nous retenons
l’hypothèse de l’indépendance de ces
deux variables
Loi de Student
Elle intervient en estimation, notamment
l’estimation de la moyenne quand la variance de
la population mère est inconnue.
Définition
X
Soit X   0;1 et Y   v2 2 V.A indépedant es. Si T 
alors,
Y
v
T est une variable soumise à une loi de Student à v degré de libeté. On note T  Tv .
Caractéristiques :
E T   0
v
V T  
si v  2.
v2
Téléchargement