VOTRE ENVIRONNEMENT DE TRAVAIL Nom de la librairie sas où sont importées puis sauvegardées vos données : Lib_tp1 Répertoire du système informatique mis en relation avec la librairie sas : /home/mmami5/dsengdy/SAS/TP1 COLLECTE ET EXAMEN RAPIDE DU FICHIER DE TRAVAIL Volumétrie nombre d’individus : 63 nombre de variables : 11 Types des données Liste des variables quantitatives : poids du cerveau, poids du corps, sommeil lent, sommeil paradoxal, sommeil total, esperance de vie, temps de gestattion Liste des variables qualitatives non ordonnées espece Liste des variables qualitatives ordonnées danger predation, danger pendant sommeil, danger global DOUBLONS : DETECTION ET CORRECTION Détection nombre de doublons :1 nature du doublon :C'est une répétition Correction nature de la correction :Suppression de la répétition du doublon ECHANTILLONNAGE : calculer les moyennes de la variable de poids de la population et de deux échantillons issus de deux tirages aléatoires simples sans remise de taille 10 Moyennes V01 Population entière 1er échantillon (taille=10) 2ème échantillon (taille=10) 198.79 345.60 7.93 Commentaires sur ces moyennes : La moyenne de la variable de poids de la population totale prend en compte tous les poids de toutes les espèces . Alors que pour les échantillons issus des deux aléatoires simples sans remises nous avons le coté aléatoires qui fait que le résultat obtenu dépend des espèces en présence , lors du 1er échantillon -1- on observe une moyenne élevée car présence du gorille,girafe,éléphant entre autres. Pour le deuxième échantillon , on observe une faible moyenne caractérisant un echantillon de petit d'espèce légere tel que le chat,chauve-souris. DONNNES MANQUANTES Détection 2 donnéez manquantes: sommeil lent pour 'horse' et danger global pour 'cat' Correction Par tirage aléatoire Utiliser la macro TDM_distrib() - Variables traitées : sommeil lent et danger global - Quelles sont vos remarques : Les lignes traités par la correction se retrouvent à la fin de la liste Les données sont remplis de manière aléatoire respectant les bornes des valeurs ex: pour danger global la valeur est toujours compris entre 1 et 5 Par statistique de tendance centrale Utiliser la macro TDM_simple() - Variables traitées : Sommeil Lent ( Horse), Danger global ( Cat) - Quelles sont vos remarques : Pour danger global on obtient un résultat incohérent car il s'agit d'une variable qualitative qui est un entier compris entre 1 et 5, et dans le cas présent nous obtenons un nombre décimal. Par régression linéaire 1. Variables explicatives retenues : V01 poids du corps et V05 sommeil total 2. Test de Fisher : p-value= 7.028E-81 3. Commentaire : Valeur très petite , donc en supposant un seuil de 5%, on rejettera très fortement l'hypothèse de nullité de l'ensemble des coefficients.Ces deux variables sont donc fortement décorrélées. 4. 5. R2= 0.9460 Commentaire: proche de 1, très bonne représentativité des variables car proche du bords dans un cercle de rayon 1. 6. Tests de Student (les p-value des variables explicatives) : 7. 8. 9. 10. V01:0.0003 V05:<0.0001 commentaire : On rejette l'hypothèse de nullité du coefficient testé Contrôle de colinéarité : Tolérances = 0.91026 pour les deux variables V01 et V05 VIF(s)= 1.09859 pour VO1 et V05 Autres : 11. Indépendance des résidus : Durbin-Watson = 2.391 12. Autres : Conclusion sur la validité du modèle : Le modèle est validé parce que le Test de Fisher et de Student le sont également au vue de l'analyse des p-values respectives et la valeur de Durbin-Watson étant proche de deux , on a indépendance des résidus. De plus les variables ne sont pas colinéaires. 8. Quelles sont vos remarques : Nous remarquons que les variables Poids du corps et Sommeil total ne sont pas liés. Traitement par régression logistique 1. Construction du modèle - Variables exogènes présentées :Prend toutes les variables de V01 à V09 excepté V04 - Mode de sélection des variables : Forward - Autres paramétrages : Option link=glogit ( le modèle est une régression logistique généralisée ). - Variables exogènes retenus (rappel du critère de sélection) : V08:Danger de prédation V09:Danger pendant sommeil 2. Evaluation du modèle - tests de significativité (général) : Les statistiques de test du rapport de vraisemblance et la statistique du score correspondent à une p-value inférieure à 0.0001; ce qui signifie qu'il y'a peu de chance que l'hypothèse de nullité des coefficients du modèle soient tous égales à 0.Le test de Wald dit le contraire ce qui confirme l'analyse des effets sur le modèle - tests de significativité (coefficient par coefficient) : TEST Likelihood Ratio CHI-2 149.3245 20 DF <.0001 -3- P-value Score Wald EFFECT V05 V08 119.7343 12.3725 DF 4 16 20 20 CHI-2 /WALD 11.7033 5.5833 <.0001 0.9027 P-value 0.0197 0.9920 - test de spécification (validation croisée) Modalité attendue 1 1 2 2 2 3 3 Modalité estimée 1 2 1 2 3 2 3 Pourcentage 94.444 5.556 7.143 85.714 7.143 10.0 80 3 4 4 5 5 4 3 4 4 5 10.0 10 90.0 12.5 87.50 3. Conclusion sur la validité du modèle : Le modèle est valide car le pourcentage des résultats obtenus des modalités attendues et estimés sont grandes. On peut donc déduire une bonne concordance entre les modalités de 1 à 5. 4. Quelles sont vos remarques: ETUDE CRITIQUE DES VARIABLES Variables supprimées : - Raison Nouvelles variables : - Raison LES VALEURS HORS NORME Détection méthode des intervalles vides : Les individus hors normes sont : African Elephant : Intervalle =9 Asian Elephant : Intervalle =4 méthode des boxplot : Les individus hors normes sont : African Elephant qui a des valeurs hors frontière supérieur mais qui ne sont pas aberrantes. Suit l'Asian Elephant qui se situe aussi à l'écart de la boîte à moustache. Correction nature de la correction : Symétrisation par suppression des valeurs hors normes. TRAITEMENT DE L’ASYMETRIE Détection coefficients d’asymétrie : Skewness= 6.563609 commentaire : Gros décalage à gauche. histogrammes : Correction nature et résultat de la correction : -5- EXAMENS BIVARIES Choisissez une variable transformée et notez les corrélations linéaires avant et après transformation V0. Avant Après V01 V02 V03 V04 V05 V06 V07 Comparaison entre les corrélations avant et après transformation : VARIABLES LATENTES Corrélation linéaire totale entre V03 et V04 : - valeur : V03 V04 V03 sommeil lent 1.00000 61 0.53202 61 V04 sommeil paradoxal 0.53202 61 1.00000 62 - graphe : deux points sortent visiblement du nuage des points représentant les valeurs hors norme Elephant d'afriquet d 'asie. Corrélation entre V04 et V03 Corrélation linéaire partielle entre V03 et V04 sachant V05 : - valeur : - graphe : Comparaison entre corrélations totales et partielles (votre commentaire) :