C3 : Manipulations statistiques 1- Génération de valeurs aléatoires 2

publicité
C3 : Manipulations statistiques
Dorat Rémi
1- Génération de valeurs aléatoires
p2
2- Statistiques descriptives
p3
3- Tests statistiques
p8
4- Régression linéaire
p8
Manipulations statistiques 1
1- Génération de valeurs aléatoires
Fonction de génération de base et construction de générateurs
La fonction ALEA() renvoie un nombre aléatoire tiré uniformément dans [0;1]. A partir de cette fonction
simple, il est possible de construire différents générateurs aléatoires. Soit par exemple une cellule nommée a qui
contient une valeur numérique positive, une cellule nommée b qui contient une valeur numérique positive telle que b>a.
●
Dans ce cas, la fonction
a*ALEA()
renvoie un nombre dans [0;a]
●
En continuant, on a
(b-a)*ALEA() qui renvoie un nombre dans [0;b-a]
●
Enfin, la fonction
(b-a)*ALEA()+a
renvoie un nombre dans [a;b]
Génération de nombres entiers
En première approche, pour tirer des valeurs entières, on utilise le générateur de valeurs réelles. Par
exemple, pour tirer un nombre entier dans [N;M], on commence par nommer une cellule N qui contient la valeur de la
borne inférieure, une cellule M qui contient la valeur de la borne supérieure. Comme fonction de tirage aléatoire d'un
nombre entier, on peut proposer : ARRONDI((M-N)*ALEA()+N) qui tire une valeur aléatoire dans [N;M] et arrondit
ensuite cette valeur à l'entier le plus proche.
Une telle fonction est cependant biaisée, étudions l'évolution de ARRONDI((M-N)*ALEA()+N) en fonction
de la valeur de (M-N)*ALEA()+N :
La valeur de (M-N)*ALEA()+N est dans :
Valeur de ARRONDI((M-N)*ALEA()+N)
[N;N+0.5[
N
[N+0.5;N+1.5[
N+1
[N+1.5;N+2.5[
N+2
...
...
[M-1.5;M-0.5[
M-1
[M-0.5;M]
M
On remarque que la taille de l'intervalle qui permet d'obtenir N est 0.5, de même que la taille de l'intervalle qui permet
d'obtenir M. En revanche, la taille de l'intervalle permettant d'obtenir K entier dans ]N;M[ est 1. Donc, le générateur
aléatoire ARRONDI((M-N)*ALEA()+N) ne produit pas une distribution uniforme sur les entiers. Pour produire une
distribution uniforme, on part d'un tirage dans l'ensemble [N-0,5;M+0,5] : les arrondis des valeurs tirées dans cet
Manipulations statistiques 2
ensemble sont des entiers dans [N;M]. Le générateur :
ARRONDI((M-N+1)*ALEA()+N-0.5) permet de faire le tirage uniforme d'entiers dans [N;M].
Les générateurs d'Excel
Les générateurs construits proposés dans les paragraphes précédents recoupent des outils d'Excel. En
effet, non seulement on dispose du générateur de base ALEA(), mais également d'une fonction aléatoire qui permet de
tirer des nombres entier dans un intervalle : ALEA.ENTRE.BORNES(2;5) renvoi des entiers tirés au hasard
uniformément dans [2;5].
Construction d'un générateur de valeurs Gaussiennes-La méthode de Box-Mueller
Une méthode permet de générer des valeurs aléatoires gaussiennes à partir d'un générateur uniforme. Il
s'agit de la méthode de Box Mueller. Celle-ci consiste à tirer des valeurs uniformes. Pour un couple
[−1 ;1]
valeurs réelles tirées uniformément dans

v 0= x∗ −2∗ln
 s
s
et

v 1= y∗ −2∗ln
, en posant
s=x 2 y 2
, et si
s1
x , y
de
, alors les valeurs :
 s
s
sont à la base d'une distribution gaussienne centrée réduite. Par suite, il est possible de générer des tirages aléatoires
pour n'importe quelle gaussienne : cf a*N(0,1)+b.
Disposer d'un générateur de valeurs aléatoires s'avère nécessaire pour la simulation de processus, les
simulations Monte-Carlo etc.
2- Statistiques descriptives
Les moments
Excel propose une série de fonctions qui permettent d'obtenir les moments de base d'une distribution. On
passe une plage de valeurs en paramètres : =MOYENNE(A2:A14) (ou plusieurs plages =MOYENNE(A2:A14;B2;8)). De
la même manière, on peut utiliser les fonctions :
●
ECARTYPE
●
VAR pour la variance
●
KURTOSIS
D'autres caractérisations classique des distributions :
Manipulations statistiques 3
●
MEDIANE
●
MODE : renvoie la valeur la plus fréquence d'une plage de données.
●
COEFFICIENT.ASYMETRIE
●
MOYENNE.HARMONIQUE
Covariance et coefficient de corrélation
D'autres coefficients d'évaluation statistique :
●
COVARIANCE : calcul le coefficient de COVARIANCE entre deux séries selon la formule classique :
n
 ∗ y i−Y 
cov  X , Y =∑  x i− X
i=1
●
COEFFICIENT.CORRELATION : calcule le coefficient de corrélation entre deux séries.
CoeffCorr X ,Y =
Cov  X , Y 
 X  Y 
Calcul de distributions à partir de données disponibles
Pour obtenir une distribution, il existe plusieurs solutions. On en présente deux en parallèle : l'utilisation de
la fonction NB.SI qui a été vu dans le cours précédent et l'utilisation de la fonction FREQUENCE : ces deux fonctions
produisent un résultat équivalent.
Pour la fonction de fréquence, on donne comme premier paramètre la plage des valeurs dont on veut
obtenir la distribution et comme second paramètre une plage de valeurs qui détermine la distribution. Par exemple, on
suppose avoir la liste des valeurs dont on veut obtenir la distribution dans la plage A1:A300 et la série des valeurs qui
déterminent les intervalles dans B1:B11. Dans ce cas, on rentre la formule matricielle =FREQUENCE(A1:A300;B1:B11),
on a introduite une telle formule dans la colonne C. Si par exemple on a mis une série de valeurs aléatoires tirées entre
8 et 9 dans la colonne A (=(9-8)*ALEA()+8), alors :
Manipulations statistiques 4
On constate qu'en C2, on a l'ensemble des valeurs entre B2 et B1, qu'en C3, on a l'ensemble des valeurs entre B3 et B2
etc. Pour l'autre manière de faire la distribution : on introduit =NB.SI($A$1:$A$300;"<"&B1) dans E1, =NB.SI($A$1:$A
$300;"<"&B2) dans E2 etc. Ensuite, dans F2, on met E2-E1, dans F3, on met E3-E2 etc. On obtient donc la même
distribution dans la colonne C et dans la colonne F.
D'autres fonctions statistiques
La fonction QUARTILE. Cette fonction prend deux arguments : une plage de données et une option. Le
paramètre d'option peut prendre les valeurs 0, 1, 2, 3 ou 4. Pour 0, la fonction renvoie la valeur minimale. Pour 1, la
fonction renvoie la valeur telle que le quart des valeurs sont plus petites, le reste des valeurs étant plus grandes. Pour 2,
la fonction renvoie la médiane. Pour 3, la fonction renvoie la valeur telle que un quart des valeurs lui sont supérieures.
Pour 4, la valeur renvoie la valeur maximale de la distribution.
La fonction CENTILE fonctionne de la même manière que QUARTILE, elle prend en premier paramètre
une plage de données et en second paramètre une valeur comprise entre 0 et 1. Soit para2 le second paramètre. La
fonction renvoie la valeur V telle qu'une part para2 des valeurs de la plage de données sont inférieures à V, le reste
étant supérieur.
La fonction GRANDE.VALEUR prend deux paramètres : une plage de données et un entier K, elle renvoie
la Kème plus grande valeur de la plage de donnée. De la même manière, il existe une fonction PETITE.VALEUR pour
renvoyer la Kème plus petite valeur.
Information sur les distributions classiques
Excel donne accès à une série de distributions classiques. Pour chacune de ces distributions, le logiciel
Manipulations statistiques 5
propose à la fois une fonction permettant, à partir d'une valeur, d'établir sa probabilité, de manière cumulée (ensemble
des valeurs inférieures) ou la valeur associée en fonction de la fonction de distribution classique. Par exemple, pour
savoir quelle est la probabilité associée à la valeur 2 pour une gaussienne centrée réduite :
=LOI.NORMALE(2;0;1;FAUX)
Les paramètres fonctionnent de la sorte :
●
2 est la valeur x pour laquelle on veut connaître la valeur par la fonction de probabilité.
●
0 est la moyenne de la gaussienne qu'on utilise
●
1 est l'écart-type de la gaussienne qu'on utilise
●
FAUX signifie que l'on veut la valeur de la fonction de distribution et non pas la somme des f(x) pour tout x
inférieur à 2 (la fonction de répartition).
Pour une gaussienne centrée réduite, on peut directement utiliser LOI.NORMALE.STANDARD : en lui passant une
valeur x*, on obtient la somme des f(x) pour x<x*.
Tracer une distribution de probabilité devient alors assez simple. On intruduit :
et on obtient :
Manipulations statistiques 6
0,45
0,4
0,35
0,3
0,25
0,2
Série1
0,15
0,1
0,05
0
-6
-4
-2
0
2
4
6
D'autres distributions de probabilité classiques sont utilisables de la même manière (à voir à chaque fois leur
paramétrage dans l'aide associée à chaque fonction) :
●
LOI.BETA
●
LOI.BINOMIALE
●
LOI.EXPONENTIELLE
●
LOI.F
●
LOI.GAMMA
●
LOI.HYPERGEOMETRIQUE
●
LOI.KHIDEUX
●
LOI.POISSON
●
LOI.STUDENT
●
LOI.WEIBULL
Pour la plupart de ces fonctions, il est également possible d'obtenir l'inverse de la distribution : ie pour une probabilité, il
est possible de déterminer la valeur x qui donne cette probabilité par la fonction de distribution. Par exemple, on veut
savoir quelle est la valeur x qui donne la probabilité 0,3 par la loi normale :
=LOI.NORMALE.INVERSE(0,3;0;1) :
●
0,3 est la probabilité pour laquelle on veut connaître la valeur qui donne cette probabilité par la fonction de
distribution
Manipulations statistiques 7
●
0 est la moyenne de la loi normale utilisée
●
1 est l'écart type de la loi normale utilisée
3- Tests statistiques
http://www.bibmath.net/dico/index.php3?action=affiche&quoi=./c/chideuxtest.html
On propose une feuille d'exemple pour un test du CHI-DEUX dans une feuille jointe.
Voire le livre et les feuilles qui sont sur le CD.
Parler de la fonction PEARSON, parler des renvois de valeur de test.
●
INTERVALLE.CONFIANCE : renvoie l'intervalle de confiance pour la moyenne d'une population
●
TEST.F : à partir de deux ensembles de valeurs, donne la probabilité que la probabilité soit la même.
TEST.KHIDEUX
TEST.STUDENT
TEST.Z
4- Regressions
Excel propose un certain nombre de fonctions reposant sur la régression linéaire : des fonctions de
prévision, des calculs de tendance etc...
Fonction de base pour la régression
On se place dans le cas suivant : dans la colonne A, de A1 à A300, on a une série de valeurs pour une
variable explicative X, dans la colonne B, de B1 à B300, on a une série de valeurs pour la variable expliquée Y. On
suppose que Y=a*X+b et on veut approximer les coefficients a et b. Excel résout ce problème en utilisant la méthode
classique des moindres carrés ordinaires.
Pour obtenir les coefficients de la régression, on utilise la fonction DROITEREG. Cette fonction prend 4
paramètres dont 3 qui sont optionnels. Le premier paramètre est la plage contenant les y_connus, soit les valeurs
connues de la variables expliquées. Si aucun autre argument n'est spécifié, le logiciel utilisera des valeurs de la variable
Manipulations statistiques 8
explicative par défaut (1, 2, 3, 4 etc). Le troisième argument possible est soit VRAI ou omis et dans ce cas, le logiciel
fera une régression de la forme Y=a*X+b, soit il est FAUX et dans ce cas, le logiciel fera une régression Y=aX (c'est à
dire que b sera fixé à 0). Enfin, le 4ème argument est soit FAUX, soit VRAI. S'il est fixé à VRAI, la machine calculera des
statistiques complémentaires sur la regression.
Le résultat de la fonction est une matrice de régression contenant deux colonnes (une colonne pour le
paramètre a, une colonne pour le paramètre b) et contenant 5 lignes si on a demandé le calcul de statistiques
complémentaires, 1 ligne sinon. Un exemple de régression vous est proposé dans le classeur C3_TestRegression.xsl. Si
on demande l'affichage de statistiques supplémentaires :
●
En première ligne, on a les estimations pour les paramètres a et b
●
En seconde ligne : les valeurs d'erreur type pour l'estimation de a et de la constantes
●
En troisième ligne : le coefficient de détermination r² : ce coefficient est entre 1 (pour une régression parfaite) et
0. En deuxième colonne et troisième ligne : le coefficient d'erreur type pour la valeur y estimée.
En quatrième ligne : la statistiques F ou valeur F observée en première colonne, le nombre des degrés de
●
liberté en seconde colonne.
En cinquième colonne : la somme de regression des carrés en première colonne, la somme résiduelle des
●
carrés en seconde colonne.
Soit le tableau suivant pour le cas d'une régression linéaire à deux paramètres.
Estimation a
Estimation b
Erreur Type a
Erreur Type b
Coefficient
Erreur type y
détermination
Statistique F
Degrés de liberté
Somme de régression Somme résiduelle des
des carrés.
carrés
Régression linéaire : le cas de plus d'une variable explicative
Il est possible de vouloir faire une régression linéaire selon un schéma :
N
Y =∑ a i∗X ib
plutôt que selon un schéma
Y =a∗X b
i=1
Dans ce cas, le deuxième paramètre de la fonction DROITEREG ne doit pas être une plage de cellules d'une colonne
unique, mais une plage de cellules comprenant plusieurs colonnes. Dans ce cas, si l'option Statistiques est à VRAI lors
Manipulations statistiques 9
du calcul de la fonction, la matrice de retour contiendra deux lignes de N+1 colonnes, N étant le nombre des colonnes de
la matrice, et trois lignes de 2 colonnes. Soit (attention à l'ordre des coefficients estimés) :
Estimation a4
Estimation a3
Estimation a2
Estimation a1
Estimation b
Erreur Type a4
Erreur Type a3
Erreur Type a2
Erreur Type a1
Erreur Type b
Coefficient
Erreur type y
détermination
Statistique F
Degrés de liberté
Somme de régression Somme résiduelle des
des carrés
carrés.
Un exemple de telle régression est proposée sur le classeur C3_TestRegression.xsl
Autres fonctions utilisant la régression linéaire
La fonction TENDANCE : cette fonction permet le calcul de valeurs à partir d'une tendance linéaire. La
fonction PENTE renvoie la pente obtenue à partir d'une régression linéaire. Enfin, la fonction ORDONNEE ORIGINE
calcule le point auquel une droite doit croiser l'axe des ordonnées à partir d'une régression linéaire.
La fonction LOGREG : une autre régression que la régression linéaire
On ne développe pas l'utilisation de cette fonction qui est identique à la fonction DROITEREG.
Manipulations statistiques 10
Téléchargement