STAT2430 - Calcul statistique sur ordinateur

publicité
STAT2430 - Calcul statistique sur ordinateur
SÉANCE 1 - Manipulations de données sous Excel, SPSS et JMP
Objectifs de la séance
Utilisation d'Excel
Importer des données, nettoyage et mise en forme.
Formules pour des calculs simples (création / recodage de variables)
Création de graphiques. Amélioration de graphiques existants.
Assistant statistique.
Exportation des données dans un format lisible par d'autres logiciels.
Utilisation de JMP et SPSS
Importer des données. Utiliser les fonctionnalités des logiciels.
Réaliser quelques graphiques et statistiques de base.
Récupérer les sorties de logiciels pour préparer un rapport dans Word.
Présentation du contexte
Début 2001, une compagnie de jeux et jouets a effectué une campagne de publicité en Belgique, en
distribuant de nombreux bons de réduction dans les boîtes aux lettres. Le directeur des ventes aimerait avoir
une idée des résultats de cette campagne publicitaire et plus précisément sur la relation entre le montant
alloué à la publicité et le chiffre d'affaire réalisé, cela dans les trois régions de la Belgique: Wallonie, Flandres
et Bruxelles.
Pour cela, les données de quelques unes des filiales du groupe ont été récoltées et permettent de reconstituer
les trois variables suivantes:
Region: la région de Belgique où la filiale est installée.
Pub: la somme dépensée par la filiale pour la publicité locale.
Ventes: les ventes réalisées au premier semestre 2001.
Vous disposez de deux jeux de données:
• le fichier pub.dsv reprend les données pour les régions Bruxelles et Wallonie, respectivement codées
par 1 et 2. Note: l'extension dsv signifie "dollar separated values": le format est délimité, avec le
symbole $ comme séparateur. Les budgets en publicité (Pub) sont exprimés en Keuros. Les ventes
sont exprimées en Keuros pour Bruxelles, et en KBEF pour la Wallonie.
•
Le fichier flandres.xls reprend les données pour la Flandre. Y sont recensés le budget publicitaire, les
nombres d'articles vendus, et le prix unitaire de chaque article (en Keuros). Par une simple
multiplication, on peut donc connaître les ventes.
Les fichiers de données se trouvent sur le site web du cours STAT2430. Téléchargez les fichiers sur votre
disque en cliquant sur le bouton droit de la souris et sélectionnant « save target as ».
STAT2430 – Exercices Excel, SPSS, JMP
page 1/14
Travail demandé
Un rapport en Word doit être préparé pour répondre à la question du directeur des ventes par quelques
analyses statistiques et quelques graphiques. Le travail est découpé en plusieurs étapes précisées ci-dessous
qui respectent la méthodologie introduite au cours.
Afin que vous puissiez étudier les logiciels, le même travail est demandé sous Excel et un logiciel de statistique
générique (au choix SPSS ou JMP). Les manipulations à faire sont détaillées.
A titre indicatif, un rapport déjà préparé est joint en annexe. Votre travail doit comporter tous les éléments
inclus dans ce rapport, avec une mise en forme la plus proche possible pour les graphiques et tableaux.
Préparation des données sous Excel
Vous devez préparer 1 fichier qui reprend toutes les données et qui sera importé dans les autres logiciels (SPSS
ou JMP) afin de réaliser les analyses.
1. Ouvrir le fichier pub.dsv avec le Notepad ou Textpad pour visualiser sa structure puis le refermer.
2. Ouvrir les deux jeux de données dans Excel. Pour le fichier .dsv, utiliser l'assistant d'importation
(File…Open), qui permet d'importer tous les fichiers avec séparateurs. (Attention à ne pas choisir la virgule
comme séparateur des milliers.)
3. Mettre les deux jeux de données dans un format commun (et dans 1 fichier commun). Pour cela, les
manipulations suivantes sont à effectuer:
• Calculer le total des ventes dans le fichier flandre.xls
• Unifier le nom des variables
• Unifier les unités (tout exprimer en Keuros: 1 euro=40,3399 BEF). Créer pour cela une nouvelle
variable (appelée "ventes(Keuros)") grâce à la fonction "if" + étirer la formule sur toutes les lignes.
• Rendre cohérents les labels des variables
• S'assurer que les valeurs manquantes sont codées par une même valeur (une cellule vide car Excel ne
traite par les « . »).
• S'assurer que les mêmes séparateurs décimaux sont utilisés
• Si des valeurs sont clairement erronées, les remplacer soit par une valeur qui semble plus appropriée
soit par une valeur manquante. (Par exemple, les valeurs de ventes sont toujours plus élevées pour la
région 2 car elles sont exprimées en KBEF au lieu de Keuros.)
4. Visualiser rapidement la relation entre la publicité et les ventes dans Excel par un graphique pour repérer
d’éventuelles valeurs aberrantes. S’il y en a, les remplacer par des valeurs manquantes.
5. Une fois toutes ces étapes terminées, enregistrer, dans un répertoire que vous consacrerez au projet,
l'ensemble des données dans un nouveau fichier Excel appelé pub_pretraite.xls.
6. Enfin, exporter les données dans un fichier texte, en utilisant un format générique importable dans tout
logiciel de statistique. L'extension .txt avec tabulation comme délimiteur est recommandée.
Importation des données dans SPSS et JMP
Nous allons maintenant réaliser des analyses sur le fichier " pub_pretraite".
Importer les données dans les logiciels JMP et SPSS et les sauvegarder dans le format prédéfini du logiciel
(extension .SAV en SPSS et .JMP en JMP). Utiliser les fonctionnalités disponibles dans ces logiciels pour ajouter
des labels aux variables et aux modalités (exemple: 1="Bruxelles"…) et donner des types aux variables. Ces
améliorations sont pratiques lors de la constitution du rapport et du choix des analyses statistiques.
STAT2430 – Exercices Excel, SPSS, JMP
page 2/14
Visualisation de la relation entre les ventes et la publicité
1. Représenter graphiquement (en SPSS, JMP et Excel) la relation entre les ventes et la publicité au moyen
d'un graphique XY (nuage de points, aussi appelé scatterplot). Sous SPSS et JMP, utiliser des symboles
différents pour chaque région du pays. En Excel, faire un simple graphe XY car l’utilisation de symboles
est complexe.
2. Mettre chacun des graphiques en forme (titre, label pour les axes…) et les copier dans Word (voir
exemple dans le rapport joint).
Modélisation de la relation pour la région de Bruxelles
Manifestement, pour la région de Bruxelles, il existe un lien linéaire simple entre les ventes réalisées et le
budget publicitaire alloué. On vous demande dans chaque logiciel de :
1. Sélectionner de façon adéquate uniquement les données de Bruxelles
2. Effectuer une analyse de régression pour expliquer les ventes par la publicité.
3. Mettre en forme le tableau des coefficients du modèle (réduire le nombre de décimale des chiffres si
besoin, supprimer les colonnes peu intéressantes…).
4. Exporter le tableau vers Word
5. Interpréter les résultats
Les exemples de tableaux sont donnés dans le rapport joint
Indications :
• Sous SPSS sélectionner la région de Bruxelles (Data…Select cases) et puis réaliser un scatterplot. Ensuite,
ajouter la droite de régression (éditer le graphe, puis Chart…Options) et l'intervalle de confiance
(Chart…Options…Fit Options…Regression Prediction Line).
• Sous JMP, sélectionner les données par : rows…row selection…select pour sélectionner les lignes ≠1 puis
rows…exclude pour les exclure de l’analyse. Ensuite, lancer la régression par Analyze…Fit Y by X puis Fit
Line.
• Sous Excel, vous utiliserez l'assistant statistique (menu Tools… Data analysis) en n'utilisant que les
données de la région de Bruxelles. Pour cela, il est indispensable de commencer par trier l'ensemble des
données selon la région (menu Data… Sort).
Analyse du ratio (Ventes après pub - Ventes avant pub)/Pub pour les 3 régions
1. Créer la variable ratio =( Ventes après pub - Ventes avant pub)/pub. Vous pouvez soit le faire dans Excel
avec une formule, et copier/coller la colonne dans les autres logiciels soit le faire dans chaque logiciel mais
c’est plus long (SPSS: menu Transform… Compute, JMP : cols…new cols puis Formula après avoir
sélectionné la nouvelle colonne).
2. Créer un graphique permettant d'avoir un aperçu de la distribution de cette variable pour chaque région.
Lorsque disponible (SPSS et JMP), le graphique le mieux adapté est certainement le boxplot (dans SPSS :
Graph…Box-Plot, dans JMP Analyze…Fit Y by X puis, face au graphe X-Y, Diplay options…Box-plots) .
Sous Excel, on fera un graphique XY (scatterplot). Mettre ces graphiques en forme et les exporter dans
Word.
3. Enfin, pour comparer les valeurs de la variable RATIO selon les trois régions, l'outil statistique approprié
est l'analyse de la variance à 1 critère (ANOVA). Mettre en œuvre cette analyse de variance. Sous SPSS,
dans le menu Compare means… one Way ANOVA. Sous JMP, Analyze…Fit Y by X. Mettez en forme
puis recopier dans Word les tableaux des moyennes et tableau ANOVA obtenus avec les trois logiciels.
Sous Excel, utiliser l'assistant statistique (Tools… Data analysis, attention, il faut mettre les ratios des 3
régions en trois colonnes).
STAT2430 – Exercices Excel, SPSS, JMP
page 3/14
Exercice Spss supplémentaire
Cet exercice a pour but d'apprendre à jouer avec les options de mise en page de tableaux et de graphiques en
Spss. Vous trouverez dans le rapport deux tableaux et un graphe que vous devez être capable de réaliser
identiquement (au détail près!) en Spss.
Vous utiliserez pour cet exercice le fichier rongeur.sav. Ce fichier contient les renseignements concernant la
capture de rongeurs dans une portion de forêt. On y trouve:
• la variable season qui vaut "s" si l'animal a été capturé en été et "w" s'il a été capturé en hiver.
• la variable species qui donne l'espèce de l'animal. Il y a 2 espèces : les "Cg" et les "Ma".
• La variable sex qui vaut F si l'animal est une femelle et M si l'animal est un mâle.
• La variable body_mas qui donne le poids de l'animal en mg.
Les étapes à effectuer sont les suivantes:
1. Ouvrir le fichier rongeur.sav dans Spss.
2. Ajouter les labels suivants:
• season : saison – s=été et w=hiver
• species : espèce – Cg = espèce 1 et Ma = espèce 2
• sex : sex – F = femelles et M = mâles
Indications : travailler dans le "variable view". Définir d'abord "label" puis "values".
3. Créer la première table du rapport.
Indications : Utiliser le menu Analyse…Custom Table.
Il faut utiliser 2 statistiques (Count et Table%).
Ne pas oublier le titre ni la mention "cours stat2430 – séance 1" en bas de la table (option caption).
4. Modifier la première table afin d'obtenir la deuxième.
Indications : Il suffit de cliquer sur le tableau pour l'éditer. Modifier le nom des colonnes puis en
changer la longueur afin que le texte s'affiche de la même façon que dans le rapport.
5. Réaliser les boxplots se trouvant dans le rapport.
Indications : utiliser Graphs…Interactive. Une fois le graphe réalisé, il faut encore:
• Changer le type d’hachurage des boîtes
• Ajouter un titre
• Changer le titre de l'axe vertical ("body_mas" devient "poids (mg)")
• Changer les types de "moustaches" des boxplots
• Changer le type de marqueur des outliers (des ronds vide en ronds pleins)
STAT2430 – Exercices Excel, SPSS, JMP
page 4/14
RAPPORT 2003/09 - IS - 1
Résultats de la campagne publicitaire en Belgique
Visualisation de la relation (graphiques)
En global, pour toute la Belgique (Excel)
Relation entre budget publicitaire et ventes
2500
Ventes (en Keuros)
2000
Valeur aberrante
1500
1000
500
0
0
10
20
30
40
50
60
Budget publicitaure (en Keuros)
Le graphique permet de mettre en évidence une observation aberrante (budget publicitaire: 17,1 Keuros, CA:
2258 Keuros, localisé en Wallonie). Pour la suite, cette observation est retirée.
Finalement, on obtient :
Graphe des ventes en fonction de la publicité
500
Ventes (KEuros)
400
300
200
100
0
0
10
20
30
40
50
60
Publicité (KEuros)
STAT2430 – Exercices Excel, SPSS, JMP
page 5/14
Graphique Spss :
Relation entre budget publicitaire et ventes
500
400
300
Région
VENTES
200
Flandres
Wallonie
Bruxelles
100
0
10
20
30
40
50
60
PUB
Chaque région dispose de son symbole
Graphique JMP :
Bivariate Fit of ventes_n By PUB
400
350
Ventes
300
250
200
150
100
0
STAT2430 – Exercices Excel, SPSS, JMP
10
20
30
Publicité
40
50
page 6/14
Modélisation de la régression pour la région de Bruxelles
Sous SPSS
Coefficientsa
Model
1
Standardi
zed
Coefficie
nts
Beta
Unstandardized
Coefficients
B
Std. Error
223,230
12,851
5,742
,594
(Constant)
PUB
t
17,371
9,666
,924
Sig.
,000
,000
95% Confidence Interval for B
Lower Bound Upper Bound
195,988
250,472
4,482
7,001
a. Dependent Variable: VENTES
Linear Regression with
95,00% Mean Prediction Interval
ventes = 223,23 + 5,74 * pub
R-Square = 0,85
500,00
ventes
A
A
400,00
A
A
A
A
A
300,00
AA
A
200,00
A
A
A
A A
A
A
A
0,00
10,00
20,00
30,00
40,00
50,00
pub
Sous JMP
Parameter Estimates
Term
Intercept
PUB
Estimate
223.22969
5.7416636
STAT2430 – Exercices Excel, SPSS, JMP
Std Error
12.85062
0.593986
t Ratio
17.37
9.67
Prob>|t|
<.0001
<.0001
page 7/14
Sous Excel
PUB Line Fit Plot
Regression Statistics
Multiple R
R Square
Adjusted R Square
Standard Error
Observations
500
450
400
350
0,92
0,85
0,84
26,58
18
VENTES
300
250
200
150
VENTES
100
Predicted VENTES
50
0
0
5
10
15
20
PUB
25
30
35
Coefficients Standard Error
223,2
12,9
5,7
0,6
Intercept
PUB
40
t Stat
17,4
9,7
P-value
0,0
0,0
Lower 95%
196,0
4,5
Upper 95%
250,5
7,0
Analyse des trois régions
Effectifs par région
Count of REGION
REGION
Total
1 18
2 29
3 30
(blank)
Grand Total
77
région
Valid
Bruxelles
Wallonie
Flandres
Total
Frequency
18
30
30
Percent
23,1
38,5
38,5
Valid Percent
23,1
38,5
38,5
78
100,0
100,0
Cumulative
Percent
23,1
61,5
100,0
Analyse de la variable ratio (globale)
STAT2430 – Exercices Excel, SPSS, JMP
page 8/14
Ratio
Mean
6,439228
Standard Error
0,888359
Median
4,180732
Mode
#N/A
Standard Deviation 7,795322
Sample Variance 60,76704
Kurtosis
13,66867
Skewness
3,599627
Range
42,6071
Minimum
1,270833
Maximum
43,87794
Sum
495,8206
Count
77
Descriptives
RATIO
Mean
95% Confidence
Interval for Mean
Lower Bound
Upper Bound
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Statistic
6,4390
4,6696
Std. Error
,88838
8,2083
5,0432
4,1800
60,770
7,79549
1,27
43,88
Range
Interquartile Range
Skewness
Kurtosis
42,61
3,4450
3,600
13,669
,274
,541
Distribution de la variable ratio dans les trois régions
STAT2430 – Exercices Excel, SPSS, JMP
page 9/14
Graphique du ratio par région en Spss (box-plot)
50
42
16
40
58
30
27
20
11
65
10
RATIO
0
-10
N=
18
Bruxelles
29
Wallonie
30
Flandres
REGION
Graphique du ratio par région en JMP (box-plot)
Graphique du ratio par région en Excel
STAT2430 – Exercices Excel, SPSS, JMP
page 10/14
Ratio pour les trois régions
50
45
valeur du ratio
40
35
30
25
20
15
10
5
0
0
0,5
1
1,5
2
2,5
3
3,5
Région
Analyse de la variance à 1 critère (ANOVA)
En Spss :
Tableau des moyennes
RATIO
N
Bruxelles
Wallonie
Flandres
Total
18
29
30
77
Mean
8,6772
6,0945
5,4290
6,4390
Std. Deviation
9,02143
8,22769
6,47342
7,79549
Std. Error
2,12637
1,52784
1,18188
,88838
Minimum
1,27
1,84
1,75
1,27
Maximum
41,04
43,88
37,04
43,88
ANOVA
RATIO
Between Groups
Within Groups
Total
Sum of
Squares
124,219
4494,273
4618,492
STAT2430 – Exercices Excel, SPSS, JMP
df
2
74
76
Mean Square
62,109
60,733
F
1,023
Sig.
,365
page 11/14
9
8
Mean of RATIO
7
6
5
Bruxelles
Wallonie
Flandres
REGION
En JMP :
Oneway Analysis of ratio By REGION
Analysis of Variance
Source
REGION
Error
C. Total
DF
2
73
75
Sum of Squares
2221.206
26560.936
28782.142
Mean Square
1110.60
363.85
F Ratio
3.0524
Prob > F
0.0533
Means for Oneway Anova
Level
Number
Mean
Bruxelles
18
27.8309
Flandre
30
16.2715
Wallonie
28
14.2345
Std Error uses a pooled estimate of error variance
Std Error
4.4960
3.4826
3.6048
Lower 95%
18.870
9.331
7.050
Upper 95%
36.791
23.212
21.419
En Excel :
SUMMARY
Groups
Bruxelles
Wallonie
Flandres
ANOVA
Source of Variation
Count
Sum
Average Variance
18 156,2053 8,678073 81,37136
29 176,7486 6,094779 67,68623
30 162,8667 5,428889 41,91308
SS
STAT2430 – Exercices Excel, SPSS, JMP
df
MS
F
P-value
F crit
page 12/14
Between Groups
Within Groups
124,288
4494,007
2 62,14399 1,023286 0,364441 3,120348
74 60,72983
Total
4618,295
76
RAPPORT 2003/09 - IS - 1
Exercice supplémentaire en Spss : capture de rongeurs
STAT2430 – Exercices Excel, SPSS, JMP
page 13/14
Table du nombre de rongeurs capturés en fonction de la saison et de
l'espèce
saison
été
espèce
espèce 1
espèce 2
Count
46
137
hiver
Table %
13.3%
39.7%
Count
71
91
Table %
20.6%
26.4%
cours stat2430 - séance 1
Table du nombre de rongeurs capturés en fonction de la saison et de l'espèce
saison
été
nbre d'individus
capturés en été
espèce espèce 1
46
espèce 2
137
cours stat2430 - séance 1
hiver
pourcentage par rapport au
total des individus capturés
13.3%
39.7%
nbre d'individus
capturés en hiver
71
91
pourcentage par rapport au
total des individus capturés
20.6%
26.4%
Box plot du poids des 2 espèces en fonction
de la saison et du sexe
sexe
S
40.00
femelles
mâles
poids (mg)
saison
30.00
W
S
W
W
W
W
W
été
hiver
W
W
W
20.00
W
10.00
espèce 1
espèce 2
espèce
STAT2430 – Exercices Excel, SPSS, JMP
page 14/14
Téléchargement