VOTRE ENVIRONNEMENT DE TRAVAIL Nom de la librairie sas où

publicité
VOTRE ENVIRONNEMENT DE TRAVAIL
 Nom de la librairie sas où sont importées puis sauvegardées vos données : 
Lib_tp1
 Répertoire du système informatique mis en relation avec la librairie sas :
/home/mmami5/dsengdy/SAS/TP1
COLLECTE ET EXAMEN RAPIDE DU FICHIER DE TRAVAIL
 Volumétrie 
 nombre d’individus : 63
 nombre de variables : 11
 Types des données 
 Liste des variables quantitatives :
poids du cerveau, poids du corps, sommeil lent, sommeil paradoxal, sommeil total, esperance de vie, temps de
gestattion
 Liste des variables qualitatives non ordonnées
espece
 Liste des variables qualitatives ordonnées
danger predation, danger pendant sommeil, danger global
DOUBLONS : DETECTION ET CORRECTION
 Détection
 nombre de doublons :1
 nature du doublon :C'est une répétition
 Correction
 nature de la correction :Suppression de la répétition du doublon
ECHANTILLONNAGE : calculer les moyennes de la variable de poids de la population et de deux
échantillons issus de deux tirages aléatoires simples sans remise de taille 10
Moyennes
V01
Population entière
1er échantillon (taille=10) 2ème échantillon (taille=10)
198.79
345.60
7.93
 Commentaires sur ces moyennes : 
 La moyenne de la variable de poids de la population totale prend en compte tous les poids de
toutes les espèces .
 Alors que pour les échantillons issus des deux aléatoires simples sans remises nous avons le coté
aléatoires qui fait que le résultat obtenu dépend des espèces en présence , lors du 1er échantillon
-1-

on observe une moyenne élevée car présence du gorille,girafe,éléphant entre autres.
Pour le deuxième échantillon , on observe une faible moyenne caractérisant un echantillon de petit
d'espèce légere tel que le chat,chauve-souris.

DONNNES MANQUANTES
 Détection
2 donnéez manquantes: sommeil lent pour 'horse' et danger global pour 'cat'
 Correction 
Par tirage aléatoire
Utiliser la macro TDM_distrib()
- Variables traitées : sommeil lent et danger global
- Quelles sont vos remarques :
Les lignes traités par la correction se retrouvent à la fin de la liste
Les données sont remplis de manière aléatoire respectant les bornes des valeurs
ex: pour danger global la valeur est toujours compris entre 1 et 5
Par statistique de tendance centrale
Utiliser la macro TDM_simple()
- Variables traitées : Sommeil Lent ( Horse), Danger global ( Cat)
- Quelles sont vos remarques :
Pour danger global on obtient un résultat incohérent car il s'agit d'une variable qualitative qui est un entier
compris entre 1 et 5, et dans le cas présent nous obtenons un nombre décimal.
Par régression linéaire
1. Variables explicatives retenues : V01 poids du corps et V05 sommeil total
2. Test de Fisher : p-value= 7.028E-81
3. Commentaire : Valeur très petite , donc en supposant un seuil de 5%, on rejettera très fortement
l'hypothèse de nullité de l'ensemble des coefficients.Ces deux variables sont donc fortement
décorrélées.
4.
5. R2=
0.9460
Commentaire: proche de 1, très bonne représentativité des variables car proche
du bords dans un cercle de rayon 1.
6. Tests de Student (les p-value des variables explicatives) :
7.
8.
9.
10.
V01:0.0003
V05:<0.0001
commentaire :
On rejette l'hypothèse de nullité du coefficient testé
Contrôle de colinéarité :
Tolérances = 0.91026 pour les deux variables V01 et V05
VIF(s)= 1.09859 pour VO1 et V05
Autres :
11. Indépendance des résidus : Durbin-Watson = 2.391
12. Autres :
Conclusion sur la validité du modèle :
Le modèle est validé parce que le Test de Fisher et de Student le sont également au vue de l'analyse des
p-values respectives et la valeur de Durbin-Watson étant proche de deux , on a indépendance des résidus.
De plus les variables ne sont pas colinéaires.
8. Quelles sont vos remarques :
Nous remarquons que les variables Poids du corps et Sommeil total ne sont pas liés.
Traitement par régression logistique
1. Construction du modèle
- Variables exogènes présentées :Prend toutes les variables de V01 à V09 excepté V04
- Mode de sélection des variables : Forward
- Autres paramétrages : Option link=glogit ( le modèle est une régression logistique généralisée ).
- Variables exogènes retenus (rappel du critère de sélection) :
V08:Danger de prédation
V09:Danger pendant sommeil
2. Evaluation du modèle
- tests de significativité (général) :
Les statistiques de test du rapport de vraisemblance et la statistique du score correspondent à une p-value
inférieure à 0.0001; ce qui signifie qu'il y'a peu de chance que l'hypothèse de nullité des coefficients du
modèle soient tous égales à 0.Le test de Wald dit le contraire ce qui confirme l'analyse des effets sur le
modèle
- tests de significativité (coefficient par coefficient) :
TEST
Likelihood Ratio
CHI-2
149.3245
20
DF
<.0001
-3-
P-value
Score
Wald
EFFECT
V05
V08
119.7343
12.3725
DF
4
16
20
20
CHI-2 /WALD
11.7033
5.5833
<.0001
0.9027
P-value
0.0197
0.9920
- test de spécification
(validation croisée)
Modalité attendue
1
1
2
2
2
3
3
Modalité estimée
1
2
1
2
3
2
3
Pourcentage
94.444
5.556
7.143
85.714
7.143
10.0
80
3
4
4
5
5
4
3
4
4
5
10.0
10
90.0
12.5
87.50
3. Conclusion sur la validité du modèle :
Le modèle est valide car le pourcentage des résultats obtenus des modalités attendues et estimés sont
grandes.
On peut donc déduire une bonne concordance entre les modalités de 1 à 5.
4. Quelles sont vos remarques:
ETUDE CRITIQUE DES VARIABLES
Variables supprimées :
- Raison
Nouvelles variables :
- Raison
LES VALEURS HORS NORME
 Détection
 méthode des intervalles vides :
Les individus hors normes sont :
African Elephant : Intervalle =9
Asian Elephant : Intervalle =4
 méthode des boxplot :
Les individus hors normes sont :
African Elephant qui a des valeurs hors frontière supérieur mais qui ne sont pas aberrantes.
Suit l'Asian Elephant qui se situe aussi à l'écart de la boîte à moustache.
 Correction
 nature de la correction : Symétrisation par suppression des valeurs hors normes.

TRAITEMENT DE L’ASYMETRIE
 Détection
 coefficients d’asymétrie : Skewness= 6.563609
 commentaire : Gros décalage à gauche.

histogrammes :
 Correction
 nature et résultat de la correction :
-5-
EXAMENS BIVARIES
Choisissez une variable transformée et notez les corrélations linéaires avant et après transformation
V0.
Avant
Après
V01
V02
V03
V04
V05
V06
V07
Comparaison entre les corrélations avant et après transformation :
VARIABLES LATENTES
 Corrélation linéaire totale entre V03 et V04 : 
- valeur :
V03
V04
V03
sommeil lent
1.00000
61
0.53202
61
V04
sommeil paradoxal
0.53202
61
1.00000
62
- graphe : deux points sortent visiblement du nuage des points représentant les valeurs hors norme
Elephant d'afriquet d 'asie.
Corrélation entre V04 et V03
 Corrélation linéaire partielle entre V03 et V04 sachant V05 :
- valeur :
- graphe :
 Comparaison entre corrélations totales et partielles (votre commentaire) : 
Téléchargement