1
Cours de SAS Séance 3 (16 décembre 2008)
Statistique descriptive et inferentielle
- PROC UNIVARIATE, CORR
- PROC FREQ
- PROC GCHART
Exemple 1 :
1. Ouvrez la table SAS Température. Si elle est déjà crée, utiliser une instruction LIBNAME,
sinon, importer le fichier « temperature.txt ».
filename donnees 'F:\ecole-doct\cours3\temperatures.txt';
data temperature;
infile donnees firstobs=5;
input annee mois precipitations temperature;
run;
2. Tracer les histogrammes des variables Précipitations et Température et tester la normalité de
ces deux variables.
PROC UNIVARIATE
La procédure UNIVARIATE produit des statistiques descriptives, des graphiques et des tests
permettant de caractériser la distribution d’une ou plusieurs variables numériques continues (ou avec
un très grand nombre de modalités).
Pour résumer, la sortie de la procédure peut contenir :
a. Les statistiques descriptives usuelles pour caractériser la distribution :
- les statistiques de position :
- moyenne (MEAN)
- médiane (MED)
- mode (MODE)
- les statistiques de dispersion :
- écart-type et variance (STD DEV et VARIANCE)
- étendue (RANGE)
- écart interquartiles (Q3-Q1)
- certains quantiles, déciles ou centiles (99%, 95%, 90%, 10%, 5%, 1%)
- les statistiques de dissymétrie et d’aplatissement :
- dissymétrie (SKEWNESS)
- aplatissement (KURTOSIS)
b. Renseignements sur les données manquantes :
- code utilisé pour les valeurs manquantes (MISSING VALUE)
- effectif des données manquantes (COUNT)
- pourcentage des valeurs manquantes par rapport au nombre d’observations
(% COUNT/NOBS)
2
c. Tests statistiques
1. Test de Student pour tester la nullité de la moyenne
H0 : moyenne=0
H1 : moyenne ≠ 0
La statistique de Student est T=MEAN/(STD/SQRT(n))
Sous H0, T suit une loi de Student à n-1 degrés de liberté.
Niveau de significativité du test = p-value.
Règle de décision : Si p-value<alpha, rejeter H0.
2. Test du signe pour la médiane
H0 : médiane=0
H1 : médiane ≠ 0
La statistique du test est M=p-n/2
où p=nombre de valeurs >0 et n=nombre de valeurs ≠ 0.
Sous H0, M suit une loi binomiale B(n, 0.5).
Niveau de significativité du test = p-value.
Règle de décision : Si p-value<alpha, rejeter H0.
Remarque : Si la distribution est symétrique, ce test sert aussi à tester la nullité de la moyenne.
3. Test des rangs signés de Wilcoxon
H0 : médiane=0
H1 : médiane ≠ 0
Si la supposition de normalité de la distribution d’une variable n’est pas vérifiée, il faut utiliser le
test de Wilcoxon qui est un test non paramétrique. Cependant, ce test fait quand même une
hypothèse : la loi est continue et symétrique.
La statistique du test est S=p-n(n+1)/4
où p=somme des rangs des valeurs positives non nulles.
Sous H0, S suit une loi normale.
Niveau de significativité du test = p-value.
Règle de décision : Si p-value<alpha, rejeter H0.
3
4. Tests de normalité avec option Normal
H0 : la distribution théorique est celle d’une loi normale
H1 : autre distribution
Quatre tests sont réalisés : Shapiro-Wilks, Kolmogorov-Smirnov, Cramer-von Mises,
Anderson- Darling.
d. Intervalles de confiance, CIBASIC (TYPE=, ALPHA=)
- fournit des intervalles de confiance pour la moyenne, l’écart-type et la variance, sous
l’hypothèse de normalité des données
- TYPE=LOWER, UPPER, TWOSIDED (par défaut, TWOSIDED)
- ALPHA=niveau de confiance (par défaut, 5%)
e. Représentations graphiques de la distribution
- Steam and Leaf plot
- Histogramme
- Box plot (« boîte à moustache »)
- Normality plot (« droite de Henry »)
- QQ-PLOT
Syntaxe réduite la procédure
PROC UNIVARIATE DATA=nom_de_table options;
VAR variable(s) ;
CLASS variable(s) ;
FREQ variable;
WEIGHT variable;
ID variable;
OUTPUT OUT=nom_de_table statistiques;
HISTOGRAM ;
PROBPLOT ;
QQPLOT ;
INSET ; (affiche sur les graphiques des statistiques résumées)
GOUT= spécifier un catalogue SAS où seront sauvegardés les graphiques ;
RUN ;
data temperature; set temperature;
date=mdy(mois,1,annee);
format date monyy5.;
run;
/* Uniquement les statistiques descriptives*/
proc univariate data=temperature;
var precipitations temperature;
id date;
run;
/* Statistiques descriptives et graphiques*/
proc univariate data=temperature plot;
var precipitations temperature;
id date;
4
run;
/* Statistiques descriptives et histogrammes*/
proc univariate data=temperature;
var precipitations temperature;
id date;
histogram;
run;
/* Statistiques descriptives, histogrammes et ajustement d'une loi
normale*/
proc univariate data=temperature;
var precipitations temperature;
id date;
histogram / normal;
run;
/* Rajout de QQ-Plots*/
proc univariate data=temperature;
var precipitations temperature;
id date;
histogram / normal;
qqplot;
run;
Exercice : Réaliser la même étude, mais en regroupant les observations par mois.
Même chose pour les années.
3. Calculer la matrice de corrélation des variables continues.
PROC CORR
Cette procédure calcule divers coefficients de corrélation entre des variables. Implicitement, la
procédure CORR donne aussi les statistiques unidimensionnelles les plus usuelles.
PROC CORR DATA= jeu_de_données options;
VAR liste_des_variables ;
WITH liste_des_variables;
BY liste_des_variables;
FREQ variable;
WEIGHT variable;
RUN;
Options :
NOMISS élimine les observations présentant des valeurs manquantes (par défaut le calcul se
fait avec toutes les données définies pour chaque couple)
NOSIMPLE supprime l’affichage des statistiques unidimensionnelles
NOPRINT supprime les affichages dans la fenêtre Output
PEARSON demande le calcul des coefficients de corrélation de Pearson (option par défaut)
OUTP OUTP=nom_de_table demande le rangement de la matrice de corrélation dans une
table SAS
5
Instructions :
VAR donne la liste des variables à traiter (par défaut, toutes les variables numériques sauf
celles citées par BY, FREQ, WEIGHT
WITH les croisements sont limités aux variables de l’instruction VAR avec celles de
l’instruction WITH
BY variables définissant des groupes (le fichier doit être ordonné sur ces variables)
proc corr data=temperature;
var precipitations temperature;
run;
Exemple 2 :
1. Ouvrir la table SAS Couleurs. Afficher les fréquences des variables qualitatives Sexe,
Couleur des yeux et couleurs de cheveux.
PROC FREQ
La procédure FREQ permet d'obtenir des tables de fréquences et des tableaux de contingences ainsi
que plusieurs statistiques descriptives et différents tests.
PROC FREQ DATA= jeu_de_données options1;
BY nom_variable ...; (imprime des tables ou des tableaux différents pour les observations
de chaque groupe)
TABLES ligne_var[*col_var] / options2; (produit les tables de fréquences et les tableaux de
contingence demandés)
WEIGHT nom_variable; (par défaut, 1 par observation)
RUN;
Options1 :
FORMCHAR (1, 2,7)=`trois_caractères'
Identifie les caractères qui formeront les lignes de divisions (1) verticales, (2) horizontales et
(7) les intersections. Par défaut c'est |-+ .
ORDER= Indique l'ordre selon lequel apparaîtront les variables. Par défaut c'est INTERNAL.
PAGE Imprime une seule table ou un seul tableau par page.
Options2 :
ALPHA=
Identifie le niveau 100(1- ) % de l'intervalle de confiance. Par défaut =0,05.
CHISQ
Imprime la valeur et la "p-value" des khi-deux de Pearson, du maximum de vraisemblance et
de Mantel-Haenszel, ainsi que le test de Fisher, le coefficient de Phi, celui de contingence et
la statistique V de Cramer.
CELLCHI2
Imprime pour chaque cellule sa contribution à la statistique chi-deux.
CUMCOL
Imprime pour chaque cellule les pourcentages cumulatifs des colonnes.
DEVIATION
1 / 9 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !