S2 - Université Paris

publicité
Tester
Répondre à une question concernant
la validité d’une hypothèse explicite,
en acceptant un risque d’erreur prédéterminé
Éventuellement sous d’autres hypothèses
(distribution)
Master MARKETING / Pierre Desmet
1
ASSOCIATION ou CAUSALITE ?
 Association : relation entre deux variables observées
 Causalité : mise en évidence une relation de cause à effet
 entre une variable d’action X (VI variable indépendante) et Y une variable
dépendante (VD)
 Conditions expérimentales à respecter pour établir la relation
 Variation concomitante (dx, dy)
 Séquence temporelle (action avant la mesure)
 Présence manipulée
 Absence de corrélation entre les variables indépendantes (orthogonalité)
 Élimination des autres causes possibles
 Élimination des effets des variables parasites par l’affectation aléatoire des
individus (randomisation), sinon quasi-expérimentation
2
Sommaire
Ecart par rapport à quel point de
comparaison ?
 Entre les groupes d’individus (échantillons indépendants)
 Comparaison entre les groupes (between)
 Comparabilité des échantillons / Limite l’effet « cobaye »
 Entre les réponses d’un même répondant (échantillons appariés)
 Evaluation successive (within)
 Élimine la variance individuelle
 Biais de l’effet d’ordre (rotation des stimuli) à contrôler / Moins gourmand en effectif
 Dans quel contexte ?
 Naturel (conditions réelles)
 Laboratoire (contrôle des conditions environnementales)
 Scénarios
 Validités
 Interne : contrôle des variables parasites
 Externe : capacité d’appliquer les résultats sur une autre population (effet de
l’échantillon, du temps, du contexte,…)
3
Sommaire
A
Plans expérimentaux classiques
Double affectation aléatoire des individus aux cellules ; des traitements aux cellules

Observation – Mesure

Traitement
Après seulement
 Quasi-expérimental :


O

X
« après seulement »
Pas de contrôle de l’affectation aléatoire
 Après avec groupe de contrôle
 Comparaison de 2 échantillons indépendants
 Avant-après
Groupe 1
X
O1
Après seulement – Groupe de contrôle
Groupe 1
A
Groupe 2
A
X
O1
O2
Avant - Après – Groupe de contrôle
Groupe 1
A
O1
X
O2
X
O2
Avant - Après – Groupe de contrôle
 Avant-après avec groupe de contrôle
 Plan Solomon
Groupe 1
A
O1
Groupe 2
A
O3
Groupe 1
A
O1
Groupe 2
A
O3
Groupe 3
A
Groupe 4
A
O4
Solomon 4 groupes
4
X
O2
O4
X
O5
O6
Sommaire
De nombreux effets indésirables
perturbent les résultats
 Les sources des effets indésirables
Traitement (E)
Effet de la manipulation
Histoire (H)
évolution de l’environnement, de l’information disponible
Contamination (I)
Modification des réponses en fonction de la connaissance de l’objet de
l’expérimentation ou des caractéristiques de l’expérience (effet Hawthorne)
Maturation (M)
évolution des sujets (t, t+n), apprentissage
Test (T)
Changement des réponses, ou biais, provoqué par la mesure
Sélection (S)
Variation dans la composition de l’échantillon : Auto-sélection;
échantillonnage; non réponse
Instrumentation
Changement dans l’instrument de mesure (enquêteur, mode d’interrogation…)
Effet expérimentateur (Rosenthal) : influence des croyances de
l’expérimentateur (concernant l’étude) sur les réponses des participants
Régression statistique
Mortalité
Présence de valeurs extrêmes; sélection successive en fonction de réponses
précédentes
Réduction de l’échantillon par le refus de participation : collecte contraignante
5
Sommaire
Test statistique : Configurer
 Définir le problème
 Formuler l’hypothèse
 H0 et H1
 Uni ou Bilatéral
 Choisir le niveau de risque / seuil de confiance
 Sélectionner le test approprié à la nature des variables
 Considérer les sources de variations (within / between samples)
 Interpréter le résultat d’un test
 Accepter ou Rejeter l’hypothèse
6
Sommaire
Tester une hypothèse
 Savoir si l’hypothèse concernant la population en général correspond
aux données empiriques
 Donc si l’on peut utiliser cette hypothèse dans un raisonnement
 Une hypothèse
 ‘La distribution des paniers d’achat correspond à une loi Normale’
 ‘Le panier moyen est de 35 €’ (valeur des paramètres d’une loi)
 La relation entre 2 variables


‘Plus le client est fidèle plus il est rentable’
‘Les femmes ont un montant moyen d’achat supérieur à celui des
hommes’
 Il ne s’agit pas de « valider » une hypothèse (au mieux « supportée »)
 H0 représente « la connaissance actuelle » (hypothèse la plus plausible)
 Mais plutôt de l’invalider, de la « rejeter »
 Parce que les données montrent que, au moins pour ces données,
l’hypothèse n’est pas conforme à la « réalité observée ».
7
Sommaire
Des hypothèses claires et précises
(que l’on peut réfuter)
 Il faut pouvoir exprimer l’hypothèse en une différence (attendu /
observé) dont on peut calculer la probabilité
 Etre exigeant sur la clarté et la précision :
 quelles variables, quelles mesures ?
 Précisément :
 Relation positive, négative …
 Linéaire, curviligne ? …
 Exemples (bons ?)
 La consommation est influencée par l’âge
 Plus l’âge est avancé, plus la consommation est importante
 Les seniors sont plus préoccupés par les questions de santé
 La variance des réponses des hommes sur la variable X est identique à celle des
femmes
 La proportion des femmes est la même dans le groupe des acheteurs et dans le
groupe des non-acheteurs
 Les femmes ont une intention d’achat plus élevée que les hommes
8
Sommaire
Formuler une hypothèse
 Définir des hypothèses alternatives
 H0 : une hypothèse de base
 H1 : une hypothèse adverse (complémentaire)
 H0 est la plus plausible, celle en laquelle on croît actuellement
 Souvent : pas de différences, effet nul, indépendance
 Les 2 hypothèses doivent couvrir l’ensemble des « possibles »
 H0 : X0>X1 ; H1: X0<X1 ?
-> Non car il manque X0=X1
 Choisir une formulation unilatérale ou bilatérale
 Unilatéral : inférieur ou supérieur à une valeur cible
 (H0) PM<50 et (H1) PM=>50 (PM= panier moyen)
 Bilatéral : autour d’une valeur cible
 (H0) PM= € 50 et (H1) PM =/= 50;
 C’est une décision importante qui change fortement le seuil de signification
retenu
 Passer en Unilatéral accroît beaucoup la précision ou permet d’avoir un
échantillon de plus faible taille pour la même précision
9
Sommaire
Quelles sont les erreurs possibles ?
 H0 : L’homme est innocent; H1 : L’homme est coupable
 Identifier les erreurs
 Condamner un innocent (a, alpha, 1ère espèce, type I)
rejet de H0 alors que H0 est vraie
 Innocenter un coupable (b, beta, 2ème espèce, type II)
 acceptation de H0 alors que H0 fausse (H1 est vraie)

 Les deux risques sont dépendants l’un de l’autre !
 Déterminer le risque acceptable
 Risque d’erreur = (a)
 Seuil de confiance = (1- a) (robustesse)
 Puissance du test = (1- b)
Situation
H0
H0
Conclusion
Vraie
Fausse
H0 Acceptée
1- a
b
H0 Rejetée
10
a
1- b
Sommaire
Choisir le risque alpha acceptable
 Plus le risque d’erreur accepté est grand,
 plus l’intervalle de confiance autour d’une estimation est étroit
 Quel niveau du risque acceptable (a, alpha)
 Un risque standard 5%….
 Si l’on recommence 100 fois le test sur différents échantillons, dans 5 cas la
conclusion est fausse
 Qui peut pourtant être adapté en fonction du problème à traiter
 Exemple : si H0= +20 € ; si H1 = -500 € : risque b plus important
 Les distributions sont tabulées pour un risque bilatéral
 Par exemple un risque à 5%
 Signifie 2.5% à gauche et 2.5% à droite
 Il faut donc corriger le risque de la table si le test est unilatéral
 Un risque unilatéral à 5%
 Veut donc dire qu’il demander une valeur alpha de 10%
11
Sommaire
Interpréter le résultat d’un test
 Deux approches opposées : Valeur critique ou Risque calculé
 Calcul de la statistique (Z, t, khi2, F, …)
 (1) Valeur critique : À un niveau de risque donné,
 Lire la valeur critique de la statistique
 Si Valeur calculée > Valeur critique, REJET de H0

Si Zcalc = 2,4 > Zcrit =1.96 : rejet de H0
 (2) Risque calculé (p level): Pour la valeur calculée,
 Lire le risque d’erreur qui lui est associé
 Si risque calculé < risque acceptable : REJET de H0


Si Z = 2,4, risque calculé = 1%
Risque calculé < Risque acceptable (5%) : rejet de H0
 Généralisation de la lecture du « p level »
 Une faible probabilité => REJET de H0
12
Sommaire
Test paramétrique ou non paramétrique
 Paramétrique : repose sur des hypothèses additionnelles concernant la
distribution de la variable étudiée (distribution théorique)
 Intérêt: calculer les probabilités associées à n’importe quel point

Aire sous la courbe selon (moy +/- s)
 Pour les variables quantitatives, les tests paramétriques reposent
souvent sur l’hypothèse de Normalité
 A valider avant l’utilisation du test
 Mais souvent tolérance par rapport à l’hypothèse (approximative)
<= X <
+-2s : 95%
10%
4%
4%
4%
2%
2%
0%
0%
-3,0
2,0
1,0
0,0
-1,0
-2,0
-3,0
0%
13
2,0
6%
1,0
6%
0,0
6%
-1,0
8%
-2,0
8%
X>
<= X <
+-2.6s : 99%
10%
8%
2%
X <=
12%
2,0
X>
%
0,47%
0,47%
99,07%
1,0
+-1s : 68%
10%
X <=
12%
Bornes
-2,6
2,6
Prob X <=
Prob X >
Prob <= X <
0,0
<= X <
%
2,28%
2,28%
95,45%
-1,0
X>
Bornes
-2,0
2,0
Prob X <=
Prob X >
Prob <= X <
-2,0
X <=
12%
%
15,87%
15,87%
68,27%
-3,0
Bornes
-1,0
1,0
Prob X <=
Prob X >
Prob <= X <
Sommaire
Analyse d’une base de données
Master MARKETING / Pierre Desmet
14
Etape 1: Prise en main de la base
 Importer le fichier et Impression de vérification
 Le renseigner
 Titre et bas de page
 Nom des variables, libellé, format)
 Description de l’échantillon : Variable discrète
 fréquences (FREQ)
 Description de l’échantillon : Variable quantitative :
 distribution (histogramme, moments) UNIVARIATE
 Tableaux de synthèse (Proc TABULATE)
 Variables de classement : statut
(CLASS)
 Variables modératrices : sex, recrutement, promotion (CLASS)
 Variables à analyser (quantitative ou binaire) : CA1, Statut (VAR)
 Représentations graphiques
Master Marketing
de Paris-Dauphine
15
Sommaire
Prise en main de la base
 Lecture ou importation
 Recherche des données aberrantes
 Identification des points extrêmes
 Traitement
 Traitement des observations manquantes
 Redressement éventuel de l’échantillon
 Diagnostic de l’écart
 Création d’un poids « w »
Master Marketing
de Paris-Dauphine
16
Sommaire
SAS principes de base

Fenêtres :
 Editeur de code, journal, results viewer
 Résultats
 Explorateur (data créés dans WORK)

Code -> exécution -> consulter le journal -> analyser les résultats

Exécution partielle : sélectionner le code puis F8
Le résultat imprimé
Les DATA créés
Le texte est coloré
PAS DE ROUGE dans le journal (erreur)
Master Marketing
de Paris-Dauphine
17
Sommaire
Le code

Une instruction se termine par un point virgule « ; »

Etape « DATA » création et manipulation des variables dans un tableau (équivalent Excel)
 Porte un nom : « DATA nom; »
 Peut être créé à partir d’un autre tableau « SET nom ;»

Etape « PROC » appel d’une procédure pour faire un traitement sur les variables
 PRINT, FREQ, TABULATE, REG, SORT, MEANS, RANK, …
 En précisant le nom du tableau concerné : « PROC PRINT data= nom;

Les étapes DATA et PROC
 Se terminent par « RUN; »
 Se succèdent dans un programme

Rendre le programme lisible par une autre personne en le structurant
 Identation du texte (montrer ce qui est imbriqué)
 Commentaires et titres explicites

/* texte */ partout même dans une instruction



DATA in ;

Input A ;
* texte ; (comme une instruction)
Title ″ titre à afficher en sortie ″ ;
Master Marketing
de Paris-Dauphine
18
Sommaire
Importation des données & Lecture
Proc IMPORT
 Proc IMPORT





Datafile : adresse fichier
Dbms = type de fichier
Getnames = 1 ligne avec noms
Replace = écrase la version antérieure
OUT= nom donné pour le DATA créé
A changer
Proc Import
datafile="d:/Travail/Cours/Cas/Libraire/Cas_10_1.xls"
out=in dbms=xls replace ;
getnames = yes;
run ;
 Ou lire directement le fichier texte





.csv, .prn, .txt
Data in ;
INFILE « adresse du fichier « ;
INPUT noms des variables
Pour avoir l’adresse clic droit sur le fichier


Propriété / Emplacement
On ne peut PAS lire un fichier déjà ouvert (excel)
Master Marketing
de Paris-Dauphine
19
Sommaire
Voir le contenu d’une base importée
Proc CONTENTS
 Décrire le contenu d’une base de données
* #CONTENTS# vérification de la bonne lecture ;
********************************************;
TITLE3 H=2
J=c "CONTENTS : Vérification du contenu d'un DATA" ;
PROC CONTENTS DATA=in ; * liste les variables ;
RUN ;
Master Marketing
de Paris-Dauphine
20
Sommaire
Impression
Proc PRINT
 Vérifier que les données ont été bien lues
* #PRINT# vérification de la bonne lecture ;
********************************************;
TITLE3 H=2 J=c "PRINT avec WHERE pour ne retenir que REC=6";
PROC PRINT DATA=in (obs =20);
* imprimer les 20 premières observations ;
* VAR var1 var2 ... ;
* par défaut de toutes les variables, sinon mettre var1,... ;
WHERE rec=6;
* dans une PROC, possibilité de ne travailler que sur un groupe avec WHERE ;
RUN ;
Master Marketing
de Paris-Dauphine
21
Sommaire
Personnaliser et Mettre en forme
Commentaires, TITLE et FOOTNOTE
 Commentaire


comme instruction (*…… ;)
n’importe où ( /*…… */)
* Commentaire Instruction ;
/* Commentaire n'importe où, même dans une PROC */
 Titre et note de bas de page (dans le programme et en sortie)


Plusieurs niveaux possibles Title1, Title2 footnote4,…
Un titre écrase le précédent; il est en cours tant qu’il n’est pas remplacé
TITLE1
H=1
FOOTNOTE1 H=1
FOOTNOTE2 H=1
J=r "Master Marketing - 2015"
J=l "(c) Desmet Pierre " ;
J=l "Université Paris-Dauphine" ;
J=l "ADD : Cas Libraire";
* j pour Justify Right / Left
* H pour height
 Commentaire dans une sortie
* insertion directe d'un commentaire sur la page html à partir du programme ;
* ================= ne pas dépasser la longueur de cette ligne ==================*;
data comments ;
length comment $ 100 ; input comment $ & ; cards ;
en tenant compte des individus, le résultat est significatif en tenant compte des
individus, le ;
proc print data=comments ;
Master Marketing
de Paris-Dauphine
22
Sommaire
Manipulations dans une étape DATA
 Créer un numéro d’observation
 Filtrer (IF…. THEN )
 Itérer (DO i=1 to N; …. ; END ;)
 Transformer les variables
data in ; set in ;
Numobs=_N_ ;
* traitement des données à problème ;
********************************************;
IF catotal_0=9999
then delete
IF catotal_0<0 or catotal_1<0
then delete
IF sex=.
then delete
IF rec>6
then delete
;
;
;
;
* transformation logarithmique des variables ;
********************************************;
IF catotal_0>0 then log_CA0=log(catotal_0) ; else log_CA0 =. ;
IF catotal_1>0 then log_CA1=log(catotal_1) ; else log_CA1 =. ;
dif_CA = catotal_0 - catotal_1 ;
RUN;
Master Marketing
de Paris-Dauphine
23
Sommaire
Création de libellés pour les questions
LABEL (dans une étape DATA)
 A mettre dans l’étape DATA (avant le RUN)
 LABEL est une seule instruction pour toutes les étiquettes
*#LABEL# des étiquettes (LABEL) pour les variables (dans un DATA) ;
*******************************************************************;
DATA in ; SET in;
Numobs=_N_ ; * création d'un numéro d'observation permanent ;
LABEL
RUN;
statut
rec
sex
catotal_0
catotal_1
rca_0
rca_1
liv_1
promo_1
club_0
club_1
="Statut semestre 2"
="Recrutement"
="Genre"
="Chiffre d affaires Semestre 0"
="Chiffre d affaires Semestre 1"
="Rang CA semestre 0"
="Rang CA semestre 1"
="Achat livre semestre 1"
="Pression promotionnelle semestre 1"
="Club semestre 0"
="Club semestre 1"
;
Master Marketing
de Paris-Dauphine
24
Sommaire
Formater les modalités d’une réponse
Proc FORMAT
 Formater : Remplacer des valeurs par du texte
 fichier plus léger (des codes uniquement : « 1 » au lien de « Homme »)
 Sorties faciles à interpréter
 « Value … ; » pour chaque format créé
*=================================================================;
*========= Format des modalités
=================;
*=================================================================;
* #FORMAT# des modalités ;
* le FORMAT est ensuite disponible pendant toute la session ;
* un FORMAT supplémentaire peut être créé n'importe quand ;
************************************************************;
PROC FORMAT ;
VALUE sexfmt
1="Homme" 2="Femme";
VALUE promofmt
1="Faible" 2="Moyenne" 3="Forte";
VALUE ouifmt
0="Non" 1="Oui";
VALUE recfmt
1="Porte-à-porte" 2="Magasin" 3="Presse" 4="Mailing"
5="Parrainage" 6= "Rattrapage" 7-high="Inconnu";
VALUE statutfmt
1="Inactif" 0="Actif" ;
RUN ;
 A l’utilisation le format de la variable se termine par un point « . »
 Format SEX sexfmt.
;
Master Marketing
de Paris-Dauphine
25
Sommaire
Création de rangs et de déciles –
Proc RANK
 Ordonner des valeurs
 Créer des déciles (10 groupes d’effectifs identiques)
 Groups=10
* création d'un rang pour une variable continue ;
******************************************************************;
proc rank data=in out=in ;
var catotal_0 catotal_1 ;
ranks r_ca_0 r_ca_1 ;
run;
* création de 10 groupes (déciles : de 0 à 9 ) pour une variable continue ;
******************************************************************;
proc rank data=in out=in groups= 10;
var catotal_0 catotal_1 ;
ranks decil_ca_0 decil_ca_1 ;
run;
Master Marketing
de Paris-Dauphine
26
Sommaire
Tirage d’un échantillon aléatoire
Proc SURVEYSELECT
 Avec un échantillon aléatoire plus petit (n = 500)
 La normalité est acceptable
PROC SURVEYSELECT DATAdata=data_temp
OUT= sample
METHOD = SRS /* tirage aléatoire sans remise */
N=500;
ID statut rec sex catotal_0 catotal_1 rca_0 rca_1 liv_1 promo_1 club_0 club_1;
RUN;
Master Marketing
de Paris-Dauphine
27
Sommaire
Explorer et Décrire
Faire un tableau de synthèse
et
étudier des distributions de fréquences
Master MARKETING / Pierre Desmet
28
Terminologie
 On peut regrouper les observations selon des modalités j de la variable x
 Le tableau de fréquence (distribution de fréquences) regroupe l’ensemble
des fréquences
 Compter le nombre d’observations dans chaque modalité (fréquence absolue
f)
 Le ramener en pourcentage (fréquence relative ou fonction de densité
théorique)
 Compter le nombre d’observations de la plus petite jusqu’à la modalité j
(fréquence cumulée F ou fonction de répartition théorique)
 Un tri simple présente les effectifs et % de chaque modalité
 Un tableau (tri) croisé détermine les effectifs pour chaque couple de
modalités des deux variables discrètes
 Un tableau donne des indications (moyenne, min, max, écart-type,…) sur des
variables pour des individus (regroupés)
29
Sommaire
Description d’une variable discrète
Tri simple, Fréquences – Proc FREQ
 Var discrète : binaire, nominale ou ordinales
 Fréquences absolues et Fréquences relatives (%)
* tri simple ;
TITLE3 H=2 J=c "FREQ : tri simple pour variables catégorielles avec FORMAT" ;
PROC FREQ DATA=in ;
TABLE statut sex rec rca_0 rca_1 liv_1 promo_1 club_0 club_1 ;
FORMAT sex sexfmt. rec recfmt. statut statutfmt. club_0 ouifmt. club_1 ouifmt. promo_1 promofmt. ;
RUN ;
Master Marketing
de Paris-Dauphine
30
Sommaire
Relation entre 2 variables discrètes
Tableau/Tri croisé : Proc FREQ
 TABLE (Lignes)*(Colonnes)
 Bien choisir la position des variables
 En colonne : celle qui est « à expliquer »
 En ligne celle qui « explique »
* Tri croisé / tableau croisé ;
* bien choisir le sens des % ;
***************************************************;
TITLE3 H=2 J=c "%: recrutement par sexe";
PROC FREQ DATA=in ;
TABLE sex*rec / nocol nopercent;
FORMAT sex sexfmt. rec recfmt. ;
RUN ;
TITLE3 H=2 J=c "%: sexe par recrutement";
PROC FREQ DATA=in ;
TABLE sex*rec / norow nopercent;
FORMAT sex sexfmt. rec recfmt. ;
RUN ;
Master Marketing
de Paris-Dauphine
31
Sommaire
Variable continue discrétisée
avec des formats
* un FORMAT pour discrétiser une variable continue
;
* plusieurs découpages possibles, le nom du format ne doit pas se terminer par un chiffre ;
*************************************************************;
PROC FORMAT ;
VALUE CAfmt 0="0" 1-50="1-50" 50.0001-100="51-100" 100.0001-high=">100";
VALUE CA1fmt low-100="<=100" 100.0001-high=">100";
RUN ;
TITLE3 H=2 J=c "FREQ : Catégorisation d'une variable continue avec un FORMAT";
PROC FREQ DATA=in ;
TABLE catotal_0;
FORMAT catotal_0 cafmt.;
RUN ;
PROC FREQ DATA=in ;
TABLE catotal_0;
FORMAT catotal_0 ca1fmt.;
RUN ;
Attention
Master Marketing
de Paris-Dauphine
32
Sommaire
Tableau de synthèse avec ventilation
Proc TABULATE
 Présenter
 Pour différentes modalités d’une ou plusieurs variables de CLASSification
 des informations de synthèse sur une VARiable



(effectif, mean, std, skewness, kurtosis, sum)
Ligne : la variable AVANT la virgule
Colonne : la variable APRES la virgule
TITLE3 H=2 J=c "Procédure TABULATE";
PROC TABULATE DATA=in ;
VAR catotal_0 catotal_1;
CLASS statut ;
TABLE
(catotal_1)*(n mean std max min skewness kurtosis) ,
(statut all) ;
FORMAT statut statutfmt. ;
RUN ;
Master Marketing
de Paris-Dauphine
33
Sommaire
Tendance centrale :
Moyenne (moment 1), Mode, Médiane
x
 Mode : modalité à la plus forte fréquence
 Médiane et quantiles : partage les effectifs en sous-groupes d’effectifs
identiques (Quartiles, déciles, percentiles)
 Moyenne (m ou m ): somme divisée par le nombre d’observations
 Arithmétique (somme)/n
(la plus utilisée)
 Géométrique (racine nième du produit)
Utilisée par exemple pour les taux de croissance
 Harmonique (moyenne des inverses)

 La moyenne
A
a  b 
2
G  a.b
1 11 1
   
H 2a b
 Permet de retrouver la somme si on la multiplie par les effectifs

Panier moyen = CA / Nb de paniers donc CA = Panier moyen * Nb de paniers
 Est plus précise que les quantiles
 Mais sensible aux valeurs extrêmes
34
Sommaire
Dispersion :
Ecart-type, Variance
 Déterminer l’importance des variations des observations autour de la
tendance centrale
 Pour une variable quantitative (ratio)
 Variations : variations quadratiques autour de la moyenne
Variations 
  xi  m
2
i


 xi  m 2
 Somme des carrés des écarts par rapport à la moyenne
s i
 Variance (V): moyenne des carrés des écarts à la moyenne
n 1
 Ecart-type (s): racine carrée de la variance
 Coefficient de variation CV :
 Rapport de l’écart-type sur la moyenne
s
CV  *100
x
 L’écart-type est très sensible à la présence de valeurs aberrantes
 Car la différence avec la moyenne est mise au carré
35
Sommaire
Distribution
selon la moyenne et l’écart-type

Source : http://biblioxtrn.uqar.qc.ca/stat/Fichesstat/Distribution/normale.htm
36
Sommaire
Autres mesures de dispersion
 Etendue (ou écart) : écart entre le Maximum et le Minimum
E  Ma  Mi
 Intervalle inter-quartile (IQR) :
Q Q
3
1
IQR 
Q
2
 50% des effectifs est dans l’intervalle (Q3-Q1)
 différences des quartiles Q3 et Q1 sur la médiane (Q2)
 Intervalle de Tukey (boite à moustache)
 [Q1-1.5*(Q3-Q1); Q3+1.5*(Q3-Q1)]
 Pour une distribution Normale correspond à [m-2.6s; m+2.6s ]
 IQR approximativement 1,7 Moyenne
 Intérêt :identifier les observations « extrêmes »
 MAD Mean absolute deviation : moyenne de l’écart en valeur absolue par
rapport à la moyenne
 Possible aussi de le calculer pour la médiane
37
MAD 
1
 x x
ni i
Sommaire
Symétrie et aplatissement
d’une distribution
(moments 3 et 4 standardisés)
Sk 
 xi  m3

Symétrie (skewness) : degré de symétrie dans la distribution à

Interprétation
i

2
  xi  m 
 i

3/ 2
gauche et à droite de la moyenne

Dissymétrie positive (right skewed) Courbe A:


Positive
Ku 
Valeur cible : 0; Acceptable si entre [-1;+1] ou même [-2;+2]

 xi  m4
i

2
  xi  m 
 i

2
la distribution s’étale sur la droite, La pointe des fréquences est à
gauche, Mode<Moyenne
L’Erreur standard permet de tester l’égalité à 0.

Aplatissement (Kurtosis): degré de concentration des valeurs

Interprétation
autour de la moyenne

Valeur cible d’une loi normale 3 (mésokurtique A)

Aplatissement négatif (leptokurtique)

Positif (platykurtique)
leptokurtique

« B, pointue, queues plus longues »
: « C plate, queues plus courtes que Normale »
! Présentation souvent de l’excès de Kurtosis (K-3) (valeur cible=0)

L’Erreur standard permet de tester l’égalité à 0
platikurtique
38
Sommaire
Variable continue : Description
Proc UNIVARIATE
PROC UNIVARIATE DATA=in ;
VAR catotal_0 ;
RUN ;
Master Marketing
de Paris-Dauphine
39
Sommaire
Recherche et Traitement des valeurs extrêmes
(outliers)
Les valeurs extrêmes ont une forte influence sur les
paramètres des distributions (moyenne et écart-type)
Master MARKETING / Pierre Desmet
40
Conséquence des points aberrants
 Sources



Erreurs
Situation atypique (achats pour un évènement)
Segment spécifique (CE d’une entreprise)
 Importance : très grande


Risque de devoir tout refaire
Modification des résultats qui peut être importante
 Comprendre la source du problème




Des erreurs de saisie
Une erreur dans le format de lecture …
Un décalage dans la lecture (une colonne vide)
Faible implication du répondant (Internet)
 On observe


Variable
Des modalités absentes ou inattendues
Des résultats étranges
41
Label
N NMiss
Total
Min
Mean Median Max StdMean
CATOTAL_0
3857
0 -2146491660 -2146826288 -556518.45
67
CATOTAL_1
3857
0 -2146339251 -2146826288 -556478.93
88 16143 556605.24
CLUB_0
3857
0 -2146825190 -2146826288 -556604.92
0
1 556605.21
CLUB_1
3857
0 -2146824639 -2146826288 -556604.78
0
1 556605.21
LIV_1
3857
0
0.85
1
1
PROMO_1
3857
0 -2146820483 -2146826288 -556603.70
1
3 556605.21
REC
3857
0
3.12
3
7
SEX
3857
0 -2146819522 -2146826288 -556603.45
2
2 556605.21
STATUT
3857
0
0
1
3287
12051
527
0
1
0
0.14
8258 556605.23
0.01
0.03
0.01
Sommaire
Détection des valeurs extrêmes
 Le point a d’autant plus de poids qu’il est éloigné de la moyenne
 (Moy, Var) avec (14.8 ; 768) sans (11.5 ; 157)
40
35
Y
Y1
Y2
30
25
20
15
10
5
 Détection selon l’éloignement « excessif » de la moyenne
 +/- 2.6 écart-type de la moyenne (prob <0.01)
 Boite à moustache

0
0
10
20
30
médiane, quartiles (boite), intervalle de tukey (1.5 interquartile) (lignes), moyenne (point)
 Test de l’existence d’outliers
 Procédure de Walsch (non paramétrique) (n>220)

http://www.statistics4u.com/fundstat_eng/ee_walsh_outliertest.html
 Test G de Grubb (le maximum est-il un outlier ?)
 Test ESD (combien y-a-t-il d’outliers ?)

http://www.itl.nist.gov/div898/handbook/eda/section3/eda35h3.htm
 Calcul d’un effet de levier (leverage)
 LOO : « leave one out » et re-estimation (jacknife, bootstrap)
 D de Cook avec une régression (pb si D de Cook > 4/ effectifs)
42
Sommaire
40
Recherche outliers
Var discrète
 Var Discrète :
 Proc FREQ
 Proc TABULATE avec min et max
Master Marketing
de Paris-Dauphine
43
Sommaire
Recherche outliers
Variable continue: Boite à moustaches

Détection des outliers / Comparaison de distributions entre les groupes
proc boxplot data=in;
plot revenu*group
/ boxstyle = SCHEMATICID/* schematic+identification de points parID */
cboxes
= CX153e7e
cboxfill = CX1589ff;
run;
44
Sommaire
Recherche outliers
Var Continue
 Var continue
 Proc BOXPLOT (boite à moustaches)
 Proc UNIVARIATE avec histogram
Master Marketing
de Paris-Dauphine
45
Sommaire
Présence d’outliers pour une variable
normale : Test de Grubb
TITLE3 H=2 J=c "Test de GRUBB données extrêmes à 5%" ;
PROC SUMMARY DATA=in ;
VAR Lca_0 ;
OUTPUT out=Grubb mean=mean max=max min=min std=sd n=n;
RUN;
DATA GRUBB; SET GRUBB;
KEEP G seuil resultat;
resultat="Les données comportent des valeurs extrêmes (outliers)";
G = max( (max - mean)/sd , (mean-min)/sd );
t = tinv( 0.05 /(2*n),n-2) ;
* alpha = 5% sinon à
changer;
seuil = (n-1)*sqrt(t**2/(n*(n-2+t**2))) ;
put G = seuil = ;
IF G<seuil THEN resultat="Pas d'outliers";
RUN;
PROC PRINT data= GRUBB; RUN;
 H0 : les données ne
comportent pas
d’outliers
Après élimination
Master Marketing
de Paris-Dauphine
46
Sommaire
Traitement outliers pour une variable
continue : WINSOR et TRIM
 Calcul des statistiques sans les outliers
 Proc UNIVARIATE, Fixer le risque retenu (ici 5%)
 WINSOR : remplacement par la dernière valeur gardée
 TRIM : élimination des valeurs extrêmes
TITLE3 H=2 J=l "WINSORisation (regroupt) et TRIM (troncature) des données" ;
PROC UNIVARIATE DATA=in WINSOR= 0.05 TRIM = 0.05 ;
VAR catotal_0 ;
RUN;
Master Marketing
de Paris-Dauphine
47
Sommaire
Redressement
Pondération des individus de manière à ce que,
pour un critère important,
la distribution empirique pondérée s’approche d’une
valeur ou d’une distribution souhaitée
Pour comparer les résultats sur d’autres variables
Master MARKETING / Pierre Desmet
48
Redressement d’un échantillon
(pondération)
 Pourquoi ?


Un échantillon non aléatoire
L’échantillon n’a pas la même structure qu’une distribution connue sur la population (âge, sexe,
csp,…) permettant de relier les résultats à d’autres informations



Genre, âge
Achat habituel de la marque
Deux échantillons à comparer ont des compositions différentes sur un critère important (achat
habituel de la marque,…)
 Quoi ?


Redresser un échantillon c’est donner un poids différent aux individus
Sinon chacun a un poids w= 1
 Comment ?


C’est une variable nouvelle créée : w
Qui sera utilisée dans les procédures Weight w ;
Règle empirique :
- Souvent taux de correction du simple au double (triple).
- La valeur du taux de correction maximal ne doit jamais être supérieure à 5 fois celle
du taux de correction minimal. Wmax < 5. Wmin
49
Sommaire
Correction d’un résultat par le quotient
 Proportionnalité directe
 f la fréquence connue sur la population,
 p la fréquence mesurée sur l’échantillon
 m la valeur moyenne observée pour la variable sur l’échantillon
 Alors l’estimation redressée (m*) est m* = m . f/p
 Exemple
 Le nombre moyen de caisses par magasin pour une enseigne est 28 (f)
 Un échantillon de magasins donne


une moyenne de 28.8 caisses par magasin.
un CA moyen de 1102 K€ par magasin avec
 L’estimation redressée pour la totalité des magasins de l’enseigne est


CA moyen = (1102*(28/28.8))
Un CA moyen de 1071 K€
50
Sommaire
Redressement simple
 La proportion des hommes est de 18% au lieu de 25% attendus
 Déterminer le poids à utiliser : w = fréquence observée/ fréquence souhaitée
* nouveau tableau DATA SAMPLE1 avec le poids (W) ;
*************************************************;
data sample1;
set sample ;
IF sex="1" then w= 1.152 ; else w= 0.959 ;
* poids = fréq(échant)/fréq (population) ;
http://www.mastermarketingdauphine.com/charge/ADD/ADD_test/Redressement.xls
Master Marketing
de Paris-Dauphine
51
Sommaire
Résultats redressement
* calcul de la valeur redressée ;
********************************;
proc tabulate data=sample1;
class sex ;
var catotal_0;
tables (sex all),catotal_0* (N mean) ;
title3 "Valeur brute" ;
run;
proc tabulate data=sample1;
class sex ;
var catotal_0;
weight w;
tables (sex all), N w*sum*F=10.0 catotal_0*(mean) ;
title3 "Valeur redressée de la différence de structure par sexe" ;
run;
Master Marketing
de Paris-Dauphine
52
Sommaire
Redressement double
 Calcul du poids


Par multiplication si les deux variables sont indépendantes
Par itération si elles sont corrélées
 Méthode



Ajustement progressif des marges par règle de 3 ou
Utilisation du solveur excel (! Aux rompus)
TOUJOURS bien vérifier que la somme des poids = n
 Indiquer clairement dans les sorties si les résultats sont « bruts » ou
« pondérés/redressés » (note de bas de page, footnote)
 Créer une variable « poids » ou « w » (pour weight)
 Utiliser l’option « pondération »
Master Marketing
de Paris-Dauphine
53
Sommaire
Téléchargement