STAT2430 Exercices Excel, SPSS, JMP page 1/14
STAT2430 - Calcul statistique sur ordinateur
SÉANCE 1 - Manipulations de données sous Excel, SPSS et JMP
Objectifs de la séance
Utilisation d'Excel
Importer des données, nettoyage et mise en forme.
Formules pour des calculs simples (création / recodage de variables)
Création de graphiques. Amélioration de graphiques existants.
Assistant statistique.
Exportation des données dans un format lisible par d'autres logiciels.
Utilisation de JMP et SPSS
Importer des données. Utiliser les fonctionnalités des logiciels.
Réaliser quelques graphiques et statistiques de base.
Récupérer les sorties de logiciels pour préparer un rapport dans Word.
Présentation du contexte
Début 2001, une compagnie de jeux et jouets a effectué une campagne de publicité en Belgique, en
distribuant de nombreux bons de réduction dans les boîtes aux lettres. Le directeur des ventes aimerait avoir
une idée des résultats de cette campagne publicitaire et plus précisément sur la relation entre le montant
alloué à la publicité et le chiffre d'affaire réalisé, cela dans les trois régions de la Belgique: Wallonie, Flandres
et Bruxelles.
Pour cela, les données de quelques unes des filiales du groupe ont été récoltées et permettent de reconstituer
les trois variables suivantes:
Region: la région de Belgique où la filiale est installée.
Pub: la somme dépensée par la filiale pour la publicité locale.
Ventes: les ventes réalisées au premier semestre 2001.
Vous disposez de deux jeux de données:
le fichier pub.dsv reprend les données pour les régions Bruxelles et Wallonie, respectivement codées
par 1 et 2. Note: l'extension dsv signifie "dollar separated values": le format est délimité, avec le
symbole $ comme séparateur. Les budgets en publicité (Pub) sont exprimés en Keuros. Les ventes
sont exprimées en Keuros pour Bruxelles, et en KBEF pour la Wallonie.
Le fichier flandres.xls reprend les données pour la Flandre. Y sont recensés le budget publicitaire, les
nombres d'articles vendus, et le prix unitaire de chaque article (en Keuros). Par une simple
multiplication, on peut donc connaître les ventes.
Les fichiers de données se trouvent sur le site web du cours STAT2430. Téléchargez les fichiers sur votre
disque en cliquant sur le bouton droit de la souris et sélectionnant « save target as ».
STAT2430 Exercices Excel, SPSS, JMP page 2/14
Travail demandé
Un rapport en Word doit être préparé pour répondre à la question du directeur des ventes par quelques
analyses statistiques et quelques graphiques. Le travail est découpé en plusieurs étapes précisées ci-dessous
qui respectent la méthodologie introduite au cours.
Afin que vous puissiez étudier les logiciels, le même travail est demandé sous Excel et un logiciel de statistique
générique (au choix SPSS ou JMP). Les manipulations à faire sont détaillées.
A titre indicatif, un rapport déjà préparé est joint en annexe. Votre travail doit comporter tous les éléments
inclus dans ce rapport, avec une mise en forme la plus proche possible pour les graphiques et tableaux.
Préparation des données sous Excel
Vous devez préparer 1 fichier qui reprend toutes les données et qui sera importé dans les autres logiciels (SPSS
ou JMP) afin de réaliser les analyses.
1. Ouvrir le fichier pub.dsv avec le Notepad ou Textpad pour visualiser sa structure puis le refermer.
2. Ouvrir les deux jeux de données dans Excel. Pour le fichier .dsv, utiliser l'assistant d'importation
(File…Open), qui permet d'importer tous les fichiers avec séparateurs. (Attention à ne pas choisir la virgule
comme séparateur des milliers.)
3. Mettre les deux jeux de données dans un format commun (et dans 1 fichier commun). Pour cela, les
manipulations suivantes sont à effectuer:
Calculer le total des ventes dans le fichier flandre.xls
Unifier le nom des variables
Unifier les unités (tout exprimer en Keuros: 1 euro=40,3399 BEF). Créer pour cela une nouvelle
variable (appelée "ventes(Keuros)") grâce à la fonction "if" + étirer la formule sur toutes les lignes.
Rendre cohérents les labels des variables
S'assurer que les valeurs manquantes sont codées par une même valeur (une cellule vide car Excel ne
traite par les « . »).
S'assurer que les mêmes séparateurs décimaux sont utilisés
Si des valeurs sont clairement erronées, les remplacer soit par une valeur qui semble plus appropriée
soit par une valeur manquante. (Par exemple, les valeurs de ventes sont toujours plus élevées pour la
région 2 car elles sont exprimées en KBEF au lieu de Keuros.)
4. Visualiser rapidement la relation entre la publicité et les ventes dans Excel par un graphique pour repérer
d’éventuelles valeurs aberrantes. S’il y en a, les remplacer par des valeurs manquantes.
5. Une fois toutes ces étapes terminées, enregistrer, dans un répertoire que vous consacrerez au projet,
l'ensemble des données dans un nouveau fichier Excel appelé pub_pretraite.xls.
6. Enfin, exporter les données dans un fichier texte, en utilisant un format générique importable dans tout
logiciel de statistique. L'extension .txt avec tabulation comme délimiteur est recommandée.
Importation des données dans SPSS et JMP
Nous allons maintenant réaliser des analyses sur le fichier " pub_pretraite".
Importer les données dans les logiciels JMP et SPSS et les sauvegarder dans le format prédéfini du logiciel
(extension .SAV en SPSS et .JMP en JMP). Utiliser les fonctionnalités disponibles dans ces logiciels pour ajouter
des labels aux variables et aux modalités (exemple: 1="Bruxelles"…) et donner des types aux variables. Ces
améliorations sont pratiques lors de la constitution du rapport et du choix des analyses statistiques.
STAT2430 Exercices Excel, SPSS, JMP page 3/14
Visualisation de la relation entre les ventes et la publicité
1. Représenter graphiquement (en SPSS, JMP et Excel) la relation entre les ventes et la publicité au moyen
d'un graphique XY (nuage de points, aussi appelé scatterplot). Sous SPSS et JMP, utiliser des symboles
différents pour chaque région du pays. En Excel, faire un simple graphe XY car l’utilisation de symboles
est complexe.
2. Mettre chacun des graphiques en forme (titre, label pour les axes…) et les copier dans Word (voir
exemple dans le rapport joint).
Modélisation de la relation pour la région de Bruxelles
Manifestement, pour la région de Bruxelles, il existe un lien linéaire simple entre les ventes réalisées et le
budget publicitaire alloué. On vous demande dans chaque logiciel de :
1. Sélectionner de façon adéquate uniquement les données de Bruxelles
2. Effectuer une analyse de régression pour expliquer les ventes par la publicité.
3. Mettre en forme le tableau des coefficients du modèle (réduire le nombre de décimale des chiffres si
besoin, supprimer les colonnes peu intéressantes…).
4. Exporter le tableau vers Word
5. Interpréter les résultats
Les exemples de tableaux sont donnés dans le rapport joint
Indications :
Sous SPSS sélectionner la région de Bruxelles (Data…Select cases) et puis réaliser un scatterplot. Ensuite,
ajouter la droite de régression (éditer le graphe, puis Chart…Options) et l'intervalle de confiance
(Chart…Options…Fit Options…Regression Prediction Line).
Sous JMP, sélectionner les données par : rows…row selection…select pour sélectionner les lignes 1 puis
rows…exclude pour les exclure de l’analyse. Ensuite, lancer la régression par Analyze…Fit Y by X puis Fit
Line.
Sous Excel, vous utiliserez l'assistant statistique (menu Tools… Data analysis) en n'utilisant que les
données de la région de Bruxelles. Pour cela, il est indispensable de commencer par trier l'ensemble des
données selon la région (menu Data… Sort).
Analyse du ratio (Ventes après pub - Ventes avant pub)/Pub pour les 3 régions
1. Créer la variable ratio =( Ventes après pub - Ventes avant pub)/pub. Vous pouvez soit le faire dans Excel
avec une formule, et copier/coller la colonne dans les autres logiciels soit le faire dans chaque logiciel mais
c’est plus long (SPSS: menu Transform… Compute, JMP : cols…new cols puis Formula après avoir
sélectionné la nouvelle colonne).
2. Créer un graphique permettant d'avoir un aperçu de la distribution de cette variable pour chaque région.
Lorsque disponible (SPSS et JMP), le graphique le mieux adapté est certainement le boxplot (dans SPSS :
Graph…Box-Plot, dans JMP Analyze…Fit Y by X puis, face au graphe X-Y, Diplay options…Box-plots) .
Sous Excel, on fera un graphique XY (scatterplot). Mettre ces graphiques en forme et les exporter dans
Word.
3. Enfin, pour comparer les valeurs de la variable RATIO selon les trois régions, l'outil statistique approprié
est l'analyse de la variance à 1 critère (ANOVA). Mettre en œuvre cette analyse de variance. Sous SPSS,
dans le menu Compare means… one Way ANOVA. Sous JMP, Analyze…Fit Y by X. Mettez en forme
puis recopier dans Word les tableaux des moyennes et tableau ANOVA obtenus avec les trois logiciels.
Sous Excel, utiliser l'assistant statistique (Tools… Data analysis, attention, il faut mettre les ratios des 3
régions en trois colonnes).
STAT2430 Exercices Excel, SPSS, JMP page 4/14
Exercice Spss supplémentaire
Cet exercice a pour but d'apprendre à jouer avec les options de mise en page de tableaux et de graphiques en
Spss. Vous trouverez dans le rapport deux tableaux et un graphe que vous devez être capable de réaliser
identiquement (au détail près!) en Spss.
Vous utiliserez pour cet exercice le fichier rongeur.sav. Ce fichier contient les renseignements concernant la
capture de rongeurs dans une portion de forêt. On y trouve:
la variable season qui vaut "s" si l'animal a été capturé en été et "w" s'il a été capturé en hiver.
la variable species qui donne l'espèce de l'animal. Il y a 2 espèces : les "Cg" et les "Ma".
La variable sex qui vaut F si l'animal est une femelle et M si l'animal est un mâle.
La variable body_mas qui donne le poids de l'animal en mg.
Les étapes à effectuer sont les suivantes:
1. Ouvrir le fichier rongeur.sav dans Spss.
2. Ajouter les labels suivants:
season : saison s=été et w=hiver
species : espèce Cg = espèce 1 et Ma = espèce 2
sex : sex F = femelles et M = mâles
Indications : travailler dans le "variable view". Définir d'abord "label" puis "values".
3. Créer la première table du rapport.
Indications : Utiliser le menu Analyse…Custom Table.
Il faut utiliser 2 statistiques (Count et Table%).
Ne pas oublier le titre ni la mention "cours stat2430 séance 1" en bas de la table (option caption).
4. Modifier la première table afin d'obtenir la deuxième.
Indications : Il suffit de cliquer sur le tableau pour l'éditer. Modifier le nom des colonnes puis en
changer la longueur afin que le texte s'affiche de la même façon que dans le rapport.
5. Réaliser les boxplots se trouvant dans le rapport.
Indications : utiliser Graphs…Interactive. Une fois le graphe réalisé, il faut encore:
Changer le type d’hachurage des boîtes
Ajouter un titre
Changer le titre de l'axe vertical ("body_mas" devient "poids (mg)")
Changer les types de "moustaches" des boxplots
Changer le type de marqueur des outliers (des ronds vide en ronds pleins)
STAT2430 Exercices Excel, SPSS, JMP page 5/14
RAPPORT 2003/09 - IS - 1
Résultats de la campagne publicitaire en Belgique
Visualisation de la relation (graphiques)
En global, pour toute la Belgique (Excel)
Le graphique permet de mettre en évidence une observation aberrante (budget publicitaire: 17,1 Keuros, CA:
2258 Keuros, localisé en Wallonie). Pour la suite, cette observation est retirée.
Finalement, on obtient :
Graphe des ventes en fonction de la publicité
0
100
200
300
400
500
0 10 20 30 40 50 60
Publicité (KEuros)
Ventes (KEuros)
Relation entre budget publicitaire et ventes
0
500
1000
1500
2000
2500
0 10 20 30 40 50 60
Budget publicitaure (en Keuros)
Ventes (en Keuros)
Valeur aberrante
1 / 14 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !