VOTRE ENVIRONNEMENT DE TRAVAIL Nom de la librairie sas où

- 1 -
VOTRE ENVIRONNEMENT DE TRAVAIL
Nom de la librairie sas où sont importées puis sauvegardées vos données :
Lib_tp1
Répertoire du système informatique mis en relation avec la librairie sas :
/home/mmami5/dsengdy/SAS/TP1
COLLECTE ET EXAMEN RAPIDE DU FICHIER DE TRAVAIL
Volumétrie
nombre dindividus : 63
nombre de variables : 11
Types des données
Liste des variables quantitatives :
poids du cerveau, poids du corps, sommeil lent, sommeil paradoxal, sommeil total, esperance de vie, temps de
gestattion
Liste des variables qualitatives non ordonnées
espece
Liste des variables qualitatives ordonnées
danger predation, danger pendant sommeil, danger global
DOUBLONS : DETECTION ET CORRECTION
Détection
nombre de doublons :1
nature du doublon :C'est une répétition
Correction
nature de la correction :Suppression de la répétition du doublon
ECHANTILLONNAGE : calculer les moyennes de la variable de poids de la population et de deux
échantillons issus de deux tirages aléatoires simples sans remise de taille 10
Moyennes
Population entière
1er échantillon (taille=10)
2ème échantillon (taille=10)
V01
198.79
345.60
7.93
Commentaires sur ces moyennes :
La moyenne de la variable de poids de la population totale prend en compte tous les poids de
toutes les espèces .
Alors que pour les échantillons issus des deux aléatoires simples sans remises nous avons le coté
aléatoires qui fait que le résultat obtenu dépend des espèces en présence , lors du 1er échantillon
on observe une moyenne élevée car présence du gorille,girafe,éléphant entre autres.
Pour le deuxième échantillon , on observe une faible moyenne caractérisant un echantillon de petit
d'espèce légere tel que le chat,chauve-souris.
DONNNES MANQUANTES
Détection
2 donnéez manquantes: sommeil lent pour 'horse' et danger global pour 'cat'
Correction
Par tirage aléatoire
Utiliser la macro TDM_distrib()
- Variables traitées : sommeil lent et danger global
- Quelles sont vos remarques :
Les lignes traités par la correction se retrouvent à la fin de la liste
Les données sont remplis de manière aléatoire respectant les bornes des valeurs
ex: pour danger global la valeur est toujours compris entre 1 et 5
Par statistique de tendance centrale
Utiliser la macro TDM_simple()
- Variables traitées : Sommeil Lent ( Horse), Danger global ( Cat)
- Quelles sont vos remarques :
Pour danger global on obtient un résultat incohérent car il s'agit d'une variable qualitative qui est un entier
compris entre 1 et 5, et dans le cas présent nous obtenons un nombre décimal.
Par régression linéaire
1. Variables explicatives retenues : V01 poids du corps et V05 sommeil total
2. Test de Fisher : p-value= 7.028E-81
3. Commentaire : Valeur très petite , donc en supposant un seuil de 5%, on rejettera très fortement
l'hypothèse de nullité de l'ensemble des coefficients.Ces deux variables sont donc fortement
décorrélées.
4.
5. R2= 0.9460 Commentaire: proche de 1, très bonne représentativité des variables car proche
du bords dans un cercle de rayon 1.
6. Tests de Student (les p-value des variables explicatives) :
- 3 -
7. V01:0.0003
8. V05:<0.0001
9. commentaire :
10. On rejette l'hypothèse de nullité du coefficient testé
Contrôle de colinéarité :
Tolérances = 0.91026 pour les deux variables V01 et V05
VIF(s)= 1.09859 pour VO1 et V05
Autres :
11. Indépendance des résidus : Durbin-Watson = 2.391
12. Autres :
Conclusion sur la validité du modèle :
Le modèle est validé parce que le Test de Fisher et de Student le sont également au vue de l'analyse des
p-values respectives et la valeur de Durbin-Watson étant proche de deux , on a indépendance des résidus.
De plus les variables ne sont pas colinéaires.
8. Quelles sont vos remarques :
Nous remarquons que les variables Poids du corps et Sommeil total ne sont pas liés.
Traitement par régression logistique
1. Construction du modèle
- Variables exogènes présentées :Prend toutes les variables de V01 à V09 excepté V04
- Mode de sélection des variables : Forward
- Autres paramétrages : Option link=glogit ( le modèle est une régression logistique généralisée ).
- Variables exogènes retenus (rappel du critère de sélection) :
V08:Danger de prédation
V09:Danger pendant sommeil
2. Evaluation du modèle
- tests de significativité (général) :
Les statistiques de test du rapport de vraisemblance et la statistique du score correspondent à une p-value
inférieure à 0.0001; ce qui signifie qu'il y'a peu de chance que l'hypothèse de nullité des coefficients du
modèle soient tous égales à 0.Le test de Wald dit le contraire ce qui confirme l'analyse des effets sur le
modèle
- tests de significativité (coefficient par coefficient) :
TEST CHI-2 DF P-value
Likelihood Ratio 149.3245 20 <.0001
Score 119.7343 20 <.0001
Wald 12.3725 20 0.9027
EFFECT DF CHI-2 /WALD P-value
V05 4 11.7033 0.0197
V08 16 5.5833 0.9920
- test de spécification
(validation croisée)
Modalité attendue
Modalité estimée
Pourcentage
1
1
94.444
1
2
5.556
2
1
7.143
2
2
85.714
2
3
7.143
3
2
10.0
3
3
80
3
4
4
3
4
4
5
4
5
5
3. Conclusion sur la validité du modèle :
Le modèle est valide car le pourcentage des résultats obtenus des modalités attendues et estimés sont
grandes.
On peut donc déduire une bonne concordance entre les modalités de 1 à 5.
4. Quelles sont vos remarques:
ETUDE CRITIQUE DES VARIABLES
Variables supprimées :
- Raison
- 5 -
Nouvelles variables :
- Raison
LES VALEURS HORS NORME
Détection
méthode des intervalles vides :
Les individus hors normes sont :
African Elephant : Intervalle =9
Asian Elephant : Intervalle =4
méthode des boxplot :
Les individus hors normes sont :
African Elephant qui a des valeurs hors frontière supérieur mais qui ne sont pas aberrantes.
Suit l'Asian Elephant qui se situe aussi à l'écart de la boîte à moustache.
Correction
nature de la correction : Symétrisation par suppression des valeurs hors normes.
TRAITEMENT DE LASYMETRIE
Détection
coefficients dasymétrie : Skewness= 6.563609
commentaire : Gros décalage à gauche.
histogrammes :
Correction
nature et résultat de la correction :
1 / 6 100%

VOTRE ENVIRONNEMENT DE TRAVAIL Nom de la librairie sas où

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !