Tester Répondre à une question concernant la validité d’une hypothèse explicite, en acceptant un risque d’erreur prédéterminé Éventuellement sous d’autres hypothèses (distribution) Master MARKETING / Pierre Desmet 1 ASSOCIATION ou CAUSALITE ? Association : relation entre deux variables observées Causalité : mise en évidence une relation de cause à effet entre une variable d’action X (VI variable indépendante) et Y une variable dépendante (VD) Conditions expérimentales à respecter pour établir la relation Variation concomitante (dx, dy) Séquence temporelle (action avant la mesure) Présence manipulée Absence de corrélation entre les variables indépendantes (orthogonalité) Élimination des autres causes possibles Élimination des effets des variables parasites par l’affectation aléatoire des individus (randomisation), sinon quasi-expérimentation 2 Sommaire Ecart par rapport à quel point de comparaison ? Entre les groupes d’individus (échantillons indépendants) Comparaison entre les groupes (between) Comparabilité des échantillons / Limite l’effet « cobaye » Entre les réponses d’un même répondant (échantillons appariés) Evaluation successive (within) Élimine la variance individuelle Biais de l’effet d’ordre (rotation des stimuli) à contrôler / Moins gourmand en effectif Dans quel contexte ? Naturel (conditions réelles) Laboratoire (contrôle des conditions environnementales) Scénarios Validités Interne : contrôle des variables parasites Externe : capacité d’appliquer les résultats sur une autre population (effet de l’échantillon, du temps, du contexte,…) 3 Sommaire A Plans expérimentaux classiques Double affectation aléatoire des individus aux cellules ; des traitements aux cellules Observation – Mesure Traitement Après seulement Quasi-expérimental : O X « après seulement » Pas de contrôle de l’affectation aléatoire Après avec groupe de contrôle Comparaison de 2 échantillons indépendants Avant-après Groupe 1 X O1 Après seulement – Groupe de contrôle Groupe 1 A Groupe 2 A X O1 O2 Avant - Après – Groupe de contrôle Groupe 1 A O1 X O2 X O2 Avant - Après – Groupe de contrôle Avant-après avec groupe de contrôle Plan Solomon Groupe 1 A O1 Groupe 2 A O3 Groupe 1 A O1 Groupe 2 A O3 Groupe 3 A Groupe 4 A O4 Solomon 4 groupes 4 X O2 O4 X O5 O6 Sommaire De nombreux effets indésirables perturbent les résultats Les sources des effets indésirables Traitement (E) Effet de la manipulation Histoire (H) évolution de l’environnement, de l’information disponible Contamination (I) Modification des réponses en fonction de la connaissance de l’objet de l’expérimentation ou des caractéristiques de l’expérience (effet Hawthorne) Maturation (M) évolution des sujets (t, t+n), apprentissage Test (T) Changement des réponses, ou biais, provoqué par la mesure Sélection (S) Variation dans la composition de l’échantillon : Auto-sélection; échantillonnage; non réponse Instrumentation Changement dans l’instrument de mesure (enquêteur, mode d’interrogation…) Effet expérimentateur (Rosenthal) : influence des croyances de l’expérimentateur (concernant l’étude) sur les réponses des participants Régression statistique Mortalité Présence de valeurs extrêmes; sélection successive en fonction de réponses précédentes Réduction de l’échantillon par le refus de participation : collecte contraignante 5 Sommaire Test statistique : Configurer Définir le problème Formuler l’hypothèse H0 et H1 Uni ou Bilatéral Choisir le niveau de risque / seuil de confiance Sélectionner le test approprié à la nature des variables Considérer les sources de variations (within / between samples) Interpréter le résultat d’un test Accepter ou Rejeter l’hypothèse 6 Sommaire Tester une hypothèse Savoir si l’hypothèse concernant la population en général correspond aux données empiriques Donc si l’on peut utiliser cette hypothèse dans un raisonnement Une hypothèse ‘La distribution des paniers d’achat correspond à une loi Normale’ ‘Le panier moyen est de 35 €’ (valeur des paramètres d’une loi) La relation entre 2 variables ‘Plus le client est fidèle plus il est rentable’ ‘Les femmes ont un montant moyen d’achat supérieur à celui des hommes’ Il ne s’agit pas de « valider » une hypothèse (au mieux « supportée ») H0 représente « la connaissance actuelle » (hypothèse la plus plausible) Mais plutôt de l’invalider, de la « rejeter » Parce que les données montrent que, au moins pour ces données, l’hypothèse n’est pas conforme à la « réalité observée ». 7 Sommaire Des hypothèses claires et précises (que l’on peut réfuter) Il faut pouvoir exprimer l’hypothèse en une différence (attendu / observé) dont on peut calculer la probabilité Etre exigeant sur la clarté et la précision : quelles variables, quelles mesures ? Précisément : Relation positive, négative … Linéaire, curviligne ? … Exemples (bons ?) La consommation est influencée par l’âge Plus l’âge est avancé, plus la consommation est importante Les seniors sont plus préoccupés par les questions de santé La variance des réponses des hommes sur la variable X est identique à celle des femmes La proportion des femmes est la même dans le groupe des acheteurs et dans le groupe des non-acheteurs Les femmes ont une intention d’achat plus élevée que les hommes 8 Sommaire Formuler une hypothèse Définir des hypothèses alternatives H0 : une hypothèse de base H1 : une hypothèse adverse (complémentaire) H0 est la plus plausible, celle en laquelle on croît actuellement Souvent : pas de différences, effet nul, indépendance Les 2 hypothèses doivent couvrir l’ensemble des « possibles » H0 : X0>X1 ; H1: X0<X1 ? -> Non car il manque X0=X1 Choisir une formulation unilatérale ou bilatérale Unilatéral : inférieur ou supérieur à une valeur cible (H0) PM<50 et (H1) PM=>50 (PM= panier moyen) Bilatéral : autour d’une valeur cible (H0) PM= € 50 et (H1) PM =/= 50; C’est une décision importante qui change fortement le seuil de signification retenu Passer en Unilatéral accroît beaucoup la précision ou permet d’avoir un échantillon de plus faible taille pour la même précision 9 Sommaire Quelles sont les erreurs possibles ? H0 : L’homme est innocent; H1 : L’homme est coupable Identifier les erreurs Condamner un innocent (a, alpha, 1ère espèce, type I) rejet de H0 alors que H0 est vraie Innocenter un coupable (b, beta, 2ème espèce, type II) acceptation de H0 alors que H0 fausse (H1 est vraie) Les deux risques sont dépendants l’un de l’autre ! Déterminer le risque acceptable Risque d’erreur = (a) Seuil de confiance = (1- a) (robustesse) Puissance du test = (1- b) Situation H0 H0 Conclusion Vraie Fausse H0 Acceptée 1- a b H0 Rejetée 10 a 1- b Sommaire Choisir le risque alpha acceptable Plus le risque d’erreur accepté est grand, plus l’intervalle de confiance autour d’une estimation est étroit Quel niveau du risque acceptable (a, alpha) Un risque standard 5%…. Si l’on recommence 100 fois le test sur différents échantillons, dans 5 cas la conclusion est fausse Qui peut pourtant être adapté en fonction du problème à traiter Exemple : si H0= +20 € ; si H1 = -500 € : risque b plus important Les distributions sont tabulées pour un risque bilatéral Par exemple un risque à 5% Signifie 2.5% à gauche et 2.5% à droite Il faut donc corriger le risque de la table si le test est unilatéral Un risque unilatéral à 5% Veut donc dire qu’il demander une valeur alpha de 10% 11 Sommaire Interpréter le résultat d’un test Deux approches opposées : Valeur critique ou Risque calculé Calcul de la statistique (Z, t, khi2, F, …) (1) Valeur critique : À un niveau de risque donné, Lire la valeur critique de la statistique Si Valeur calculée > Valeur critique, REJET de H0 Si Zcalc = 2,4 > Zcrit =1.96 : rejet de H0 (2) Risque calculé (p level): Pour la valeur calculée, Lire le risque d’erreur qui lui est associé Si risque calculé < risque acceptable : REJET de H0 Si Z = 2,4, risque calculé = 1% Risque calculé < Risque acceptable (5%) : rejet de H0 Généralisation de la lecture du « p level » Une faible probabilité => REJET de H0 12 Sommaire Test paramétrique ou non paramétrique Paramétrique : repose sur des hypothèses additionnelles concernant la distribution de la variable étudiée (distribution théorique) Intérêt: calculer les probabilités associées à n’importe quel point Aire sous la courbe selon (moy +/- s) Pour les variables quantitatives, les tests paramétriques reposent souvent sur l’hypothèse de Normalité A valider avant l’utilisation du test Mais souvent tolérance par rapport à l’hypothèse (approximative) <= X < +-2s : 95% 10% 4% 4% 4% 2% 2% 0% 0% -3,0 2,0 1,0 0,0 -1,0 -2,0 -3,0 0% 13 2,0 6% 1,0 6% 0,0 6% -1,0 8% -2,0 8% X> <= X < +-2.6s : 99% 10% 8% 2% X <= 12% 2,0 X> % 0,47% 0,47% 99,07% 1,0 +-1s : 68% 10% X <= 12% Bornes -2,6 2,6 Prob X <= Prob X > Prob <= X < 0,0 <= X < % 2,28% 2,28% 95,45% -1,0 X> Bornes -2,0 2,0 Prob X <= Prob X > Prob <= X < -2,0 X <= 12% % 15,87% 15,87% 68,27% -3,0 Bornes -1,0 1,0 Prob X <= Prob X > Prob <= X < Sommaire Analyse d’une base de données Master MARKETING / Pierre Desmet 14 Etape 1: Prise en main de la base Importer le fichier et Impression de vérification Le renseigner Titre et bas de page Nom des variables, libellé, format) Description de l’échantillon : Variable discrète fréquences (FREQ) Description de l’échantillon : Variable quantitative : distribution (histogramme, moments) UNIVARIATE Tableaux de synthèse (Proc TABULATE) Variables de classement : statut (CLASS) Variables modératrices : sex, recrutement, promotion (CLASS) Variables à analyser (quantitative ou binaire) : CA1, Statut (VAR) Représentations graphiques Master Marketing de Paris-Dauphine 15 Sommaire Prise en main de la base Lecture ou importation Recherche des données aberrantes Identification des points extrêmes Traitement Traitement des observations manquantes Redressement éventuel de l’échantillon Diagnostic de l’écart Création d’un poids « w » Master Marketing de Paris-Dauphine 16 Sommaire SAS principes de base Fenêtres : Editeur de code, journal, results viewer Résultats Explorateur (data créés dans WORK) Code -> exécution -> consulter le journal -> analyser les résultats Exécution partielle : sélectionner le code puis F8 Le résultat imprimé Les DATA créés Le texte est coloré PAS DE ROUGE dans le journal (erreur) Master Marketing de Paris-Dauphine 17 Sommaire Le code Une instruction se termine par un point virgule « ; » Etape « DATA » création et manipulation des variables dans un tableau (équivalent Excel) Porte un nom : « DATA nom; » Peut être créé à partir d’un autre tableau « SET nom ;» Etape « PROC » appel d’une procédure pour faire un traitement sur les variables PRINT, FREQ, TABULATE, REG, SORT, MEANS, RANK, … En précisant le nom du tableau concerné : « PROC PRINT data= nom; Les étapes DATA et PROC Se terminent par « RUN; » Se succèdent dans un programme Rendre le programme lisible par une autre personne en le structurant Identation du texte (montrer ce qui est imbriqué) Commentaires et titres explicites /* texte */ partout même dans une instruction DATA in ; Input A ; * texte ; (comme une instruction) Title ″ titre à afficher en sortie ″ ; Master Marketing de Paris-Dauphine 18 Sommaire Importation des données & Lecture Proc IMPORT Proc IMPORT Datafile : adresse fichier Dbms = type de fichier Getnames = 1 ligne avec noms Replace = écrase la version antérieure OUT= nom donné pour le DATA créé A changer Proc Import datafile="d:/Travail/Cours/Cas/Libraire/Cas_10_1.xls" out=in dbms=xls replace ; getnames = yes; run ; Ou lire directement le fichier texte .csv, .prn, .txt Data in ; INFILE « adresse du fichier « ; INPUT noms des variables Pour avoir l’adresse clic droit sur le fichier Propriété / Emplacement On ne peut PAS lire un fichier déjà ouvert (excel) Master Marketing de Paris-Dauphine 19 Sommaire Voir le contenu d’une base importée Proc CONTENTS Décrire le contenu d’une base de données * #CONTENTS# vérification de la bonne lecture ; ********************************************; TITLE3 H=2 J=c "CONTENTS : Vérification du contenu d'un DATA" ; PROC CONTENTS DATA=in ; * liste les variables ; RUN ; Master Marketing de Paris-Dauphine 20 Sommaire Impression Proc PRINT Vérifier que les données ont été bien lues * #PRINT# vérification de la bonne lecture ; ********************************************; TITLE3 H=2 J=c "PRINT avec WHERE pour ne retenir que REC=6"; PROC PRINT DATA=in (obs =20); * imprimer les 20 premières observations ; * VAR var1 var2 ... ; * par défaut de toutes les variables, sinon mettre var1,... ; WHERE rec=6; * dans une PROC, possibilité de ne travailler que sur un groupe avec WHERE ; RUN ; Master Marketing de Paris-Dauphine 21 Sommaire Personnaliser et Mettre en forme Commentaires, TITLE et FOOTNOTE Commentaire comme instruction (*…… ;) n’importe où ( /*…… */) * Commentaire Instruction ; /* Commentaire n'importe où, même dans une PROC */ Titre et note de bas de page (dans le programme et en sortie) Plusieurs niveaux possibles Title1, Title2 footnote4,… Un titre écrase le précédent; il est en cours tant qu’il n’est pas remplacé TITLE1 H=1 FOOTNOTE1 H=1 FOOTNOTE2 H=1 J=r "Master Marketing - 2015" J=l "(c) Desmet Pierre " ; J=l "Université Paris-Dauphine" ; J=l "ADD : Cas Libraire"; * j pour Justify Right / Left * H pour height Commentaire dans une sortie * insertion directe d'un commentaire sur la page html à partir du programme ; * ================= ne pas dépasser la longueur de cette ligne ==================*; data comments ; length comment $ 100 ; input comment $ & ; cards ; en tenant compte des individus, le résultat est significatif en tenant compte des individus, le ; proc print data=comments ; Master Marketing de Paris-Dauphine 22 Sommaire Manipulations dans une étape DATA Créer un numéro d’observation Filtrer (IF…. THEN ) Itérer (DO i=1 to N; …. ; END ;) Transformer les variables data in ; set in ; Numobs=_N_ ; * traitement des données à problème ; ********************************************; IF catotal_0=9999 then delete IF catotal_0<0 or catotal_1<0 then delete IF sex=. then delete IF rec>6 then delete ; ; ; ; * transformation logarithmique des variables ; ********************************************; IF catotal_0>0 then log_CA0=log(catotal_0) ; else log_CA0 =. ; IF catotal_1>0 then log_CA1=log(catotal_1) ; else log_CA1 =. ; dif_CA = catotal_0 - catotal_1 ; RUN; Master Marketing de Paris-Dauphine 23 Sommaire Création de libellés pour les questions LABEL (dans une étape DATA) A mettre dans l’étape DATA (avant le RUN) LABEL est une seule instruction pour toutes les étiquettes *#LABEL# des étiquettes (LABEL) pour les variables (dans un DATA) ; *******************************************************************; DATA in ; SET in; Numobs=_N_ ; * création d'un numéro d'observation permanent ; LABEL RUN; statut rec sex catotal_0 catotal_1 rca_0 rca_1 liv_1 promo_1 club_0 club_1 ="Statut semestre 2" ="Recrutement" ="Genre" ="Chiffre d affaires Semestre 0" ="Chiffre d affaires Semestre 1" ="Rang CA semestre 0" ="Rang CA semestre 1" ="Achat livre semestre 1" ="Pression promotionnelle semestre 1" ="Club semestre 0" ="Club semestre 1" ; Master Marketing de Paris-Dauphine 24 Sommaire Formater les modalités d’une réponse Proc FORMAT Formater : Remplacer des valeurs par du texte fichier plus léger (des codes uniquement : « 1 » au lien de « Homme ») Sorties faciles à interpréter « Value … ; » pour chaque format créé *=================================================================; *========= Format des modalités =================; *=================================================================; * #FORMAT# des modalités ; * le FORMAT est ensuite disponible pendant toute la session ; * un FORMAT supplémentaire peut être créé n'importe quand ; ************************************************************; PROC FORMAT ; VALUE sexfmt 1="Homme" 2="Femme"; VALUE promofmt 1="Faible" 2="Moyenne" 3="Forte"; VALUE ouifmt 0="Non" 1="Oui"; VALUE recfmt 1="Porte-à-porte" 2="Magasin" 3="Presse" 4="Mailing" 5="Parrainage" 6= "Rattrapage" 7-high="Inconnu"; VALUE statutfmt 1="Inactif" 0="Actif" ; RUN ; A l’utilisation le format de la variable se termine par un point « . » Format SEX sexfmt. ; Master Marketing de Paris-Dauphine 25 Sommaire Création de rangs et de déciles – Proc RANK Ordonner des valeurs Créer des déciles (10 groupes d’effectifs identiques) Groups=10 * création d'un rang pour une variable continue ; ******************************************************************; proc rank data=in out=in ; var catotal_0 catotal_1 ; ranks r_ca_0 r_ca_1 ; run; * création de 10 groupes (déciles : de 0 à 9 ) pour une variable continue ; ******************************************************************; proc rank data=in out=in groups= 10; var catotal_0 catotal_1 ; ranks decil_ca_0 decil_ca_1 ; run; Master Marketing de Paris-Dauphine 26 Sommaire Tirage d’un échantillon aléatoire Proc SURVEYSELECT Avec un échantillon aléatoire plus petit (n = 500) La normalité est acceptable PROC SURVEYSELECT DATAdata=data_temp OUT= sample METHOD = SRS /* tirage aléatoire sans remise */ N=500; ID statut rec sex catotal_0 catotal_1 rca_0 rca_1 liv_1 promo_1 club_0 club_1; RUN; Master Marketing de Paris-Dauphine 27 Sommaire Explorer et Décrire Faire un tableau de synthèse et étudier des distributions de fréquences Master MARKETING / Pierre Desmet 28 Terminologie On peut regrouper les observations selon des modalités j de la variable x Le tableau de fréquence (distribution de fréquences) regroupe l’ensemble des fréquences Compter le nombre d’observations dans chaque modalité (fréquence absolue f) Le ramener en pourcentage (fréquence relative ou fonction de densité théorique) Compter le nombre d’observations de la plus petite jusqu’à la modalité j (fréquence cumulée F ou fonction de répartition théorique) Un tri simple présente les effectifs et % de chaque modalité Un tableau (tri) croisé détermine les effectifs pour chaque couple de modalités des deux variables discrètes Un tableau donne des indications (moyenne, min, max, écart-type,…) sur des variables pour des individus (regroupés) 29 Sommaire Description d’une variable discrète Tri simple, Fréquences – Proc FREQ Var discrète : binaire, nominale ou ordinales Fréquences absolues et Fréquences relatives (%) * tri simple ; TITLE3 H=2 J=c "FREQ : tri simple pour variables catégorielles avec FORMAT" ; PROC FREQ DATA=in ; TABLE statut sex rec rca_0 rca_1 liv_1 promo_1 club_0 club_1 ; FORMAT sex sexfmt. rec recfmt. statut statutfmt. club_0 ouifmt. club_1 ouifmt. promo_1 promofmt. ; RUN ; Master Marketing de Paris-Dauphine 30 Sommaire Relation entre 2 variables discrètes Tableau/Tri croisé : Proc FREQ TABLE (Lignes)*(Colonnes) Bien choisir la position des variables En colonne : celle qui est « à expliquer » En ligne celle qui « explique » * Tri croisé / tableau croisé ; * bien choisir le sens des % ; ***************************************************; TITLE3 H=2 J=c "%: recrutement par sexe"; PROC FREQ DATA=in ; TABLE sex*rec / nocol nopercent; FORMAT sex sexfmt. rec recfmt. ; RUN ; TITLE3 H=2 J=c "%: sexe par recrutement"; PROC FREQ DATA=in ; TABLE sex*rec / norow nopercent; FORMAT sex sexfmt. rec recfmt. ; RUN ; Master Marketing de Paris-Dauphine 31 Sommaire Variable continue discrétisée avec des formats * un FORMAT pour discrétiser une variable continue ; * plusieurs découpages possibles, le nom du format ne doit pas se terminer par un chiffre ; *************************************************************; PROC FORMAT ; VALUE CAfmt 0="0" 1-50="1-50" 50.0001-100="51-100" 100.0001-high=">100"; VALUE CA1fmt low-100="<=100" 100.0001-high=">100"; RUN ; TITLE3 H=2 J=c "FREQ : Catégorisation d'une variable continue avec un FORMAT"; PROC FREQ DATA=in ; TABLE catotal_0; FORMAT catotal_0 cafmt.; RUN ; PROC FREQ DATA=in ; TABLE catotal_0; FORMAT catotal_0 ca1fmt.; RUN ; Attention Master Marketing de Paris-Dauphine 32 Sommaire Tableau de synthèse avec ventilation Proc TABULATE Présenter Pour différentes modalités d’une ou plusieurs variables de CLASSification des informations de synthèse sur une VARiable (effectif, mean, std, skewness, kurtosis, sum) Ligne : la variable AVANT la virgule Colonne : la variable APRES la virgule TITLE3 H=2 J=c "Procédure TABULATE"; PROC TABULATE DATA=in ; VAR catotal_0 catotal_1; CLASS statut ; TABLE (catotal_1)*(n mean std max min skewness kurtosis) , (statut all) ; FORMAT statut statutfmt. ; RUN ; Master Marketing de Paris-Dauphine 33 Sommaire Tendance centrale : Moyenne (moment 1), Mode, Médiane x Mode : modalité à la plus forte fréquence Médiane et quantiles : partage les effectifs en sous-groupes d’effectifs identiques (Quartiles, déciles, percentiles) Moyenne (m ou m ): somme divisée par le nombre d’observations Arithmétique (somme)/n (la plus utilisée) Géométrique (racine nième du produit) Utilisée par exemple pour les taux de croissance Harmonique (moyenne des inverses) La moyenne A a b 2 G a.b 1 11 1 H 2a b Permet de retrouver la somme si on la multiplie par les effectifs Panier moyen = CA / Nb de paniers donc CA = Panier moyen * Nb de paniers Est plus précise que les quantiles Mais sensible aux valeurs extrêmes 34 Sommaire Dispersion : Ecart-type, Variance Déterminer l’importance des variations des observations autour de la tendance centrale Pour une variable quantitative (ratio) Variations : variations quadratiques autour de la moyenne Variations xi m 2 i xi m 2 Somme des carrés des écarts par rapport à la moyenne s i Variance (V): moyenne des carrés des écarts à la moyenne n 1 Ecart-type (s): racine carrée de la variance Coefficient de variation CV : Rapport de l’écart-type sur la moyenne s CV *100 x L’écart-type est très sensible à la présence de valeurs aberrantes Car la différence avec la moyenne est mise au carré 35 Sommaire Distribution selon la moyenne et l’écart-type Source : http://biblioxtrn.uqar.qc.ca/stat/Fichesstat/Distribution/normale.htm 36 Sommaire Autres mesures de dispersion Etendue (ou écart) : écart entre le Maximum et le Minimum E Ma Mi Intervalle inter-quartile (IQR) : Q Q 3 1 IQR Q 2 50% des effectifs est dans l’intervalle (Q3-Q1) différences des quartiles Q3 et Q1 sur la médiane (Q2) Intervalle de Tukey (boite à moustache) [Q1-1.5*(Q3-Q1); Q3+1.5*(Q3-Q1)] Pour une distribution Normale correspond à [m-2.6s; m+2.6s ] IQR approximativement 1,7 Moyenne Intérêt :identifier les observations « extrêmes » MAD Mean absolute deviation : moyenne de l’écart en valeur absolue par rapport à la moyenne Possible aussi de le calculer pour la médiane 37 MAD 1 x x ni i Sommaire Symétrie et aplatissement d’une distribution (moments 3 et 4 standardisés) Sk xi m3 Symétrie (skewness) : degré de symétrie dans la distribution à Interprétation i 2 xi m i 3/ 2 gauche et à droite de la moyenne Dissymétrie positive (right skewed) Courbe A: Positive Ku Valeur cible : 0; Acceptable si entre [-1;+1] ou même [-2;+2] xi m4 i 2 xi m i 2 la distribution s’étale sur la droite, La pointe des fréquences est à gauche, Mode<Moyenne L’Erreur standard permet de tester l’égalité à 0. Aplatissement (Kurtosis): degré de concentration des valeurs Interprétation autour de la moyenne Valeur cible d’une loi normale 3 (mésokurtique A) Aplatissement négatif (leptokurtique) Positif (platykurtique) leptokurtique « B, pointue, queues plus longues » : « C plate, queues plus courtes que Normale » ! Présentation souvent de l’excès de Kurtosis (K-3) (valeur cible=0) L’Erreur standard permet de tester l’égalité à 0 platikurtique 38 Sommaire Variable continue : Description Proc UNIVARIATE PROC UNIVARIATE DATA=in ; VAR catotal_0 ; RUN ; Master Marketing de Paris-Dauphine 39 Sommaire Recherche et Traitement des valeurs extrêmes (outliers) Les valeurs extrêmes ont une forte influence sur les paramètres des distributions (moyenne et écart-type) Master MARKETING / Pierre Desmet 40 Conséquence des points aberrants Sources Erreurs Situation atypique (achats pour un évènement) Segment spécifique (CE d’une entreprise) Importance : très grande Risque de devoir tout refaire Modification des résultats qui peut être importante Comprendre la source du problème Des erreurs de saisie Une erreur dans le format de lecture … Un décalage dans la lecture (une colonne vide) Faible implication du répondant (Internet) On observe Variable Des modalités absentes ou inattendues Des résultats étranges 41 Label N NMiss Total Min Mean Median Max StdMean CATOTAL_0 3857 0 -2146491660 -2146826288 -556518.45 67 CATOTAL_1 3857 0 -2146339251 -2146826288 -556478.93 88 16143 556605.24 CLUB_0 3857 0 -2146825190 -2146826288 -556604.92 0 1 556605.21 CLUB_1 3857 0 -2146824639 -2146826288 -556604.78 0 1 556605.21 LIV_1 3857 0 0.85 1 1 PROMO_1 3857 0 -2146820483 -2146826288 -556603.70 1 3 556605.21 REC 3857 0 3.12 3 7 SEX 3857 0 -2146819522 -2146826288 -556603.45 2 2 556605.21 STATUT 3857 0 0 1 3287 12051 527 0 1 0 0.14 8258 556605.23 0.01 0.03 0.01 Sommaire Détection des valeurs extrêmes Le point a d’autant plus de poids qu’il est éloigné de la moyenne (Moy, Var) avec (14.8 ; 768) sans (11.5 ; 157) 40 35 Y Y1 Y2 30 25 20 15 10 5 Détection selon l’éloignement « excessif » de la moyenne +/- 2.6 écart-type de la moyenne (prob <0.01) Boite à moustache 0 0 10 20 30 médiane, quartiles (boite), intervalle de tukey (1.5 interquartile) (lignes), moyenne (point) Test de l’existence d’outliers Procédure de Walsch (non paramétrique) (n>220) http://www.statistics4u.com/fundstat_eng/ee_walsh_outliertest.html Test G de Grubb (le maximum est-il un outlier ?) Test ESD (combien y-a-t-il d’outliers ?) http://www.itl.nist.gov/div898/handbook/eda/section3/eda35h3.htm Calcul d’un effet de levier (leverage) LOO : « leave one out » et re-estimation (jacknife, bootstrap) D de Cook avec une régression (pb si D de Cook > 4/ effectifs) 42 Sommaire 40 Recherche outliers Var discrète Var Discrète : Proc FREQ Proc TABULATE avec min et max Master Marketing de Paris-Dauphine 43 Sommaire Recherche outliers Variable continue: Boite à moustaches Détection des outliers / Comparaison de distributions entre les groupes proc boxplot data=in; plot revenu*group / boxstyle = SCHEMATICID/* schematic+identification de points parID */ cboxes = CX153e7e cboxfill = CX1589ff; run; 44 Sommaire Recherche outliers Var Continue Var continue Proc BOXPLOT (boite à moustaches) Proc UNIVARIATE avec histogram Master Marketing de Paris-Dauphine 45 Sommaire Présence d’outliers pour une variable normale : Test de Grubb TITLE3 H=2 J=c "Test de GRUBB données extrêmes à 5%" ; PROC SUMMARY DATA=in ; VAR Lca_0 ; OUTPUT out=Grubb mean=mean max=max min=min std=sd n=n; RUN; DATA GRUBB; SET GRUBB; KEEP G seuil resultat; resultat="Les données comportent des valeurs extrêmes (outliers)"; G = max( (max - mean)/sd , (mean-min)/sd ); t = tinv( 0.05 /(2*n),n-2) ; * alpha = 5% sinon à changer; seuil = (n-1)*sqrt(t**2/(n*(n-2+t**2))) ; put G = seuil = ; IF G<seuil THEN resultat="Pas d'outliers"; RUN; PROC PRINT data= GRUBB; RUN; H0 : les données ne comportent pas d’outliers Après élimination Master Marketing de Paris-Dauphine 46 Sommaire Traitement outliers pour une variable continue : WINSOR et TRIM Calcul des statistiques sans les outliers Proc UNIVARIATE, Fixer le risque retenu (ici 5%) WINSOR : remplacement par la dernière valeur gardée TRIM : élimination des valeurs extrêmes TITLE3 H=2 J=l "WINSORisation (regroupt) et TRIM (troncature) des données" ; PROC UNIVARIATE DATA=in WINSOR= 0.05 TRIM = 0.05 ; VAR catotal_0 ; RUN; Master Marketing de Paris-Dauphine 47 Sommaire Redressement Pondération des individus de manière à ce que, pour un critère important, la distribution empirique pondérée s’approche d’une valeur ou d’une distribution souhaitée Pour comparer les résultats sur d’autres variables Master MARKETING / Pierre Desmet 48 Redressement d’un échantillon (pondération) Pourquoi ? Un échantillon non aléatoire L’échantillon n’a pas la même structure qu’une distribution connue sur la population (âge, sexe, csp,…) permettant de relier les résultats à d’autres informations Genre, âge Achat habituel de la marque Deux échantillons à comparer ont des compositions différentes sur un critère important (achat habituel de la marque,…) Quoi ? Redresser un échantillon c’est donner un poids différent aux individus Sinon chacun a un poids w= 1 Comment ? C’est une variable nouvelle créée : w Qui sera utilisée dans les procédures Weight w ; Règle empirique : - Souvent taux de correction du simple au double (triple). - La valeur du taux de correction maximal ne doit jamais être supérieure à 5 fois celle du taux de correction minimal. Wmax < 5. Wmin 49 Sommaire Correction d’un résultat par le quotient Proportionnalité directe f la fréquence connue sur la population, p la fréquence mesurée sur l’échantillon m la valeur moyenne observée pour la variable sur l’échantillon Alors l’estimation redressée (m*) est m* = m . f/p Exemple Le nombre moyen de caisses par magasin pour une enseigne est 28 (f) Un échantillon de magasins donne une moyenne de 28.8 caisses par magasin. un CA moyen de 1102 K€ par magasin avec L’estimation redressée pour la totalité des magasins de l’enseigne est CA moyen = (1102*(28/28.8)) Un CA moyen de 1071 K€ 50 Sommaire Redressement simple La proportion des hommes est de 18% au lieu de 25% attendus Déterminer le poids à utiliser : w = fréquence observée/ fréquence souhaitée * nouveau tableau DATA SAMPLE1 avec le poids (W) ; *************************************************; data sample1; set sample ; IF sex="1" then w= 1.152 ; else w= 0.959 ; * poids = fréq(échant)/fréq (population) ; http://www.mastermarketingdauphine.com/charge/ADD/ADD_test/Redressement.xls Master Marketing de Paris-Dauphine 51 Sommaire Résultats redressement * calcul de la valeur redressée ; ********************************; proc tabulate data=sample1; class sex ; var catotal_0; tables (sex all),catotal_0* (N mean) ; title3 "Valeur brute" ; run; proc tabulate data=sample1; class sex ; var catotal_0; weight w; tables (sex all), N w*sum*F=10.0 catotal_0*(mean) ; title3 "Valeur redressée de la différence de structure par sexe" ; run; Master Marketing de Paris-Dauphine 52 Sommaire Redressement double Calcul du poids Par multiplication si les deux variables sont indépendantes Par itération si elles sont corrélées Méthode Ajustement progressif des marges par règle de 3 ou Utilisation du solveur excel (! Aux rompus) TOUJOURS bien vérifier que la somme des poids = n Indiquer clairement dans les sorties si les résultats sont « bruts » ou « pondérés/redressés » (note de bas de page, footnote) Créer une variable « poids » ou « w » (pour weight) Utiliser l’option « pondération » Master Marketing de Paris-Dauphine 53 Sommaire