PASW® Categories 17.0 – Spécifications –Ajoutez des variables transformées, des valeurs prédites et des valeurs résiduelles au fichier de données de travail – Imprimez les résultats, dont : nMultiple R, R2, et graphiques R2 ajustés n Coefficients de régression standardisés, erreurs standard, corrélation d’ordre zéro, corrélation de partie, corrélation partielle, mesure de l’importance relative de Pratt pour les prédicteurs transformés, tolérance avant et après transformation, et statistiques F nTableau de statistiques descriptives incluant les fréquences marginales, le type de transformation, le nombre de valeurs manquantes et le mode n Historique d’itérations nTableaux pour les paramètres d’ajustement et de modèle : Tableau ANOVA avec degrés de liberté en fonction du niveau de dimensionnement optimal ; tableau résumé de modèle avec R2 ajusté pour dimensionnement optimal, valeurs t et niveaux de signification ; un tableau séparé avec ordre zéro, corrélation de partie et corrélation partielle ; et l’importance et la tolérance avant et après transformation. nCorrélations des prédicteurs transformés et des racines caractéristiques de la matrice de corrélation nCorrélations des prédicteurs originaux et racines caractéristiques de la matrice de corrélation n Quantifications de catégories –Ecrivez des données discrétisées et transformées dans un fichier de données externe n Trois nouvelles méthodes de régularisation : Ridge Regression, Lasso et Elastic Net –Améliorez la précision de prédiction en stabilisant les estimations de paramètres –Analysez les données à fort volume (davantage de variables que d’objets) –Obtenez la sélection automatique de variable à partir du jeu de prédicteurs –Ecrivez des modèles et des coefficients régularisés vers un nouvel ensemble de données pour utilisation ultérieure. n Deux nouvelles méthodes pour l’évaluation de la précision prédictive et de la sélection de modèle : .632(+) bootstrap, et Validation croisée (CV) –Trouvez le modèle optimal pour la prédiction avec les options .632(+) bootstrap et CV –Obtenez les estimations non paramétriques des erreurs standard des coefficients avec le bootstrap n Démarrages multiples systématiques –Découvrez la solution optimale globale lorsque des transformations monotones sont présentes –Ecrivez les signes des coefficients de régression vers un nouvel ensemble de données pour réutilisation CORRESPONDANCE n Analyse des correspondances –Entrez les données en tant que fichier de cas ou directement en tant qu’entrée de tableau –Spécifiez le nombre de dimensions de la solution –Choisissez entre deux mesures de distances : Distances Khi-carré pour l’analyse des correspondances ou distances euclidiennes pour les types d’analyse biplot –Choisissez entre cinq types de standardisation : suppression des moyennes de ligne, suppression des moyennes de colonne, suppression des moyennes de ligne et de colonne, égalisation des totaux de ligne, ou égalisation des totaux de colonne –Cinq types de normalisation : symétrique, principale, principale ligne, principale colonne et personnalisée – Imprimez les résultats, dont : n Tableau des correspondances n Tableau résumé : valeurs singulières, inertie, proportion d’inertie, prise en compte par les dimensions, proportions cumulatives d’inertie prises en compte par les dimensions, statistiques de confiance pour le nombre maximum de dimensions, profils de ligne et profils de colonne n Présentation des points de ligne et de colonne : Masse, notes, inertie, contribution des points à l’inertie des dimensions et contributions des dimensions à l’inertie des points n Statistiques de confiance de ligne et de colonne : déviations standard et corrélations pour les points de ligne et de colonne actifs CORRESPONDANCES MULTIPLES n Analyse des correspondances multiples (remplace l’analyse HOMALS, incluse dans les versions antérieures à SPSS Categories 13.0) – Spécifiez le poids des variables –Discrétisez les variables continues ou convertissez les variables de chaîne en valeurs d’entiers numériques en multipliant, classant ou regroupant les valeurs en un nombre présélectionné de catégories selon une distribution optimale (normale ou uniforme), ou en regroupant les valeurs d’un intervalle présélectionné en catégories. Les options de classement et de regroupement peuvent également être utilisées pour recoder les données catégoriques. –Spécifiez comment vous souhaitez gérer les données manquantes. Excluez uniquement les cellules de la matrice de données sans valeur valide, imputez les données manquantes avec le mode variable ou avec une catégorie supplémentaire, ou utilisez l’exclusion au niveau des listes. –Spécifiez les objets et variables devant être traités comme supplémentaires (la sortie complète est incluse pour les catégories qui se produisent uniquement pour les objets supplémentaires) –Spécifiez le nombre de dimensions dans la solution –Spécifiez un fichier contenant les coordonnées d’une configuration et les variables d’ajustement dans cette configuration fixée – Choisissez entre cinq options de normalisation : variable principale (optimise les associations entre les variables), objet principal (optimise les distances entre les objets), symétrique (optimise les relations entre les objets et les variables), indépendant, ou personnalisée (valeurs spécifiées par l’utilisateur autorisant tout ce qui est situé entre la normalisation principale de variable et la normalisation principale d’objet) – Contrôlez le nombre d’itérations – Spécifiez le critère de convergence – Imprimez les résultats, dont : n Résumé de modèle n Statistiques et historique d’itérations nStatistiques descriptives (fréquences, valeurs manquantes et mode) nMesures de discrimination par variable et dimension nQuantifications de catégorie (coordonnées centroïdes), masses, inertie des catégories, contribution des catégories à l’inertie des dimensions et contribution des dimensions à l’inertie des catégories Corrélations des variables transformées et racines caractéristiques de la matrice de corrélation pour chaque dimension nCorrélations des variables originales et des racines caractéristiques de la matrice de corrélation n Notes des objets nContributions des objets : Masse, inertie, contribution des objets à l’inertie des dimensions et contribution des dimensions à l’inertie des objets nGraphez les résultats, en créant les éléments suivants : n Graphiques de catégorie : points de catégorie, transformation (quantifications de catégorie optimale contre indicateurs de catégorie), valeurs résiduelles pour les variables sélectionnées et graphique joint de points de catégorie pour une sélection de variables n Notes des objets n Mesures de discrimination nBiplots d’objet et centroïdes de variables sélectionnées –Ajoutez des variables transformées et des notes d’objet au fichier de données de travail –Ecrivez des données discrétisées, des données transformées et des notes d’objet vers un fichier de données externes n CATPCA n Analyse des composantes principales via le dimensionnement optimal –Spécifiez le niveau de dimensionnement optimal auquel vous souhaitez analyser chaque variable. Choisissez entre : spline ordinal (monotone), spline nominal (non monotone), ordinal, nominal, nominal multiple ou numérique. –Spécifiez les poids des variables –Discrétisez les variables continues ou convertissez les variables de chaîne en valeurs d’entiers numériques en multipliant, classant ou regroupant les valeurs en un nombre présélectionné de catégories selon une distribution optionnelle (normale ou uniforme), ou en regroupant les valeurs d’un intervalle présélectionné en catégories. Les options de classement et de regroupement peuvent également être utilisées pour recoder les données catégoriques. –Spécifiez comment vous souhaitez gérer les données manquantes. Excluez uniquement les cellules de la matrice de données sans valeur valide, imputez les données manquantes avec le mode variable ou avec une catégorie supplémentaire, ou utilisez l’exclusion au niveau des listes. –Imprimez les résultats, dont : n Résumé de modèle n Statistiques et historique d’itérations nStatistiques descriptives (fréquences, valeurs manquantes et mode) n Variance prise en compte par variable et par dimension n Chargements de composants nQuantifications de catégorie et coor données de catégorie (vecteur et/ou coordonnées centroïdes) pour chaque dimension nCorrélations des variables transfor mées et racines caractéristiques de la matrice de corrélation nCorrélations des variables origina les et racines caractéristiques de la matrice de corrélation n Notes d’objet (composant) – Graphez les résultats en créant : nGraphiques de catégorie : points de catégorie, transformations (quantifications de catégorie optimale contre indicateurs de catégorie, valeurs résiduelles pour les variables sélectionnées et graphique joint des points de catégorie pour une sélection de variables nGraphique des notes d’objet (composant) nGraphique des chargements de composant PROXSCAL n Analyse de positionnement ltidimensionnel – Lisez une ou plusieurs matrices carrées de proximité, symétrique ou asymétrique – Lisez les poids, configurations initiales, coordonnées fixées et variables indépendantes – Traitez les proximités en tant qu’ordinales (non métriques) ou numériques (métriques) ; les transformations ordinales peuvent traiter les observations associées en tant que valeurs discrètes ou continues – Spécifiez le dimensionnement multidimensionnel avec trois modèles de différence ainsi que le modèle d’identité – Spécifiez les coordonnées fixes ou les variables indépendantes pour limiter la configuration. Additionnellement, spécifiez les transformations (numériques, nominales, ordinales et splines) pour les variables indépendantes. PREFSCAL n Examinez visuellement les relations entre deux objets afin de trouver une échelle quantitative commune – Lisez une ou plusieurs matrices rectangulaires de proximité – Lisez les poids, configurations initiales, et coordonnées fixées – Transformez optionnellement les proximités avec les fonctions linéaire, ordinale, ordinale lissée ou spline – Spécifiez le dépliage multidimensionnel avec identité, modèle euclidien pondéré ou modèles euclidiens généralisés – Spécifiez des coordonnées de ligne et de colonne fixes pour limiter la configuration Configuration système n Logiciel : PASW Statistics Base* 17.0 n Les autres pré-requis système varient en fonction du système d'exploitation Prédire les résultats et révéler les relations dans les données catégoriques Libérez tout le potentiel de vos données via l’analyse ou triple projection) pour représenter la relation entre les perceptuel, le dimensionnement des préférences et objets (cas), les catégories et les (jeux de) variables dans les techniques de réduction de dimensions, dont le dimensionnement optimal de vos variables. PASW Categories* dispose de tous les outils nécessaires pour Ce symbole indique une nouvelle fonction SPSS is a registered trademark and the other SPSS Inc. products named are trademarks of SPSS Inc. All other names are trademarks of their respective owners. © 2009 SPSS Inc. All rights reserved. SCT1702SPC-0209-FR sous la forme de distances sur les cartes perceptuelles. numériques complexes et sur les données de grandes Transformez vos variables qualitatives en variables dimensions. quantitatives Les procédures avancées disponibles sous PASW Categories Vous pouvez par exemple utiliser PASW Categories pour permettent d’exécuter des opérations statistiques déterminer quelle caractéristique les consommateurs additionnelles sur les données catégoriques. associent le plus étroitement à votre produit ou à votre marque ou pour déterminer la perception qu’a le client Utilisez les procédures de dimensionnement optimal de vos produits par comparaison avec d’autres produits (optimal scaling) de PASW Categories pour assigner proposés par vous-mêmes ou par vos concurrents. des unités de mesure et des points zéro à vos données catégoriques. Cette approche vous ouvre un tout nouvel Avec PASW Categories, vous pouvez utiliser la régression ensemble de fonctions statistiques et vous permet lorsque les prédicteurs et les variables de sortie sont d’exécuter des analyses sur les variables de niveaux de numériques, ordinaux ou nominaux et interpréter mesures mixtes–par exemple, sur des combinaisons de visuellement les données pour voir comment les lignes variables nominales, ordinales et numériques. et les colonnes s’associent dans les grands tableaux de notes, de décomptes, d’estimations, de classements ou de similarités. Vous disposez ainsi de la capacité à : Travailler avec les données ordinales et nominales et les n comprendre en utilisant des procédures similaires à la régression conventionnelle, les composants principaux et les analyses de corrélation canonique. Travailler avec des valeurs résiduelles non normales dans n les données numériques ou des relations non linéaires Utilisez les options Ridge Regression, Lasso, Elastic Net, la sélection de variable et la sélection de modèle pour les données numériques comme pour les données catégoriques. * PASW Categories et PASW Statistics Base, précédemment SPSS Categories™ et SPSS Statistics Base, font partie du portefeuille de logiciels d’analyse prédictive de SPSS Inc. To learn more, please visit www.spss.com. For SPSS office locations and telephone numbers, go to www.spss.com/worldwide. les analyses de corrélation. Représenter les similarités entre un ou deux jeux d’objets n une visibilité parfaite sur vos données catégoriques et entre les variables de prédicteur et la variable de sortie. Fonctionnalités susceptibles de modifications en fonction de la version finale mise en vente. Utiliser des biplots et des triplots (diagrammes à double n prédictive, l’apprentissage statistique, le mapping Avec les biplots et les triplots vous pouvez observer les Vous pouvez également utiliser CATREG pour appliquer L’analyse catonique non linéaire (OVERALS) utilise le Le dépliage multidimentionel (PREFSCAL) examine Les analystes ont utilisé la procédure de correspondance régression multiple avec le dimensionnement optimal relations entre les cas, les variables et les catégories. des Modèles Additifs Généralisés (GAM) particuliers, à la dimensionnement optimal pour généraliser la procédure visuellement les relations entre deux ensembles d’objets, de PASW Statistics* pour identifier les deux facteurs sous- vous pouvez appliquer la régression sur des mélanges Par exemple, vous pouvez définir des relations fois pour vos données numériques et pour vos données d’analyse des corrélations canoniques de façon à ce qu’elle par exemple, les consommateurs et les produits. Le jacents les plus forts dans les relations entre les marques de prédicteurs numériques, ordinaux et nominaux et de entre les produits, les clients et les caractéristiques catégoriques. accepte les variables de niveaux de mesures mixtes. Ce type Preference scaling exécute le ‘dépliage’ multidimensionnel et les attributs. En assignant à chaque marque et attribut variables de sortie. La dernière version de PASW Categories démographiques. Grâce à la capacité de PASW Categories à exécuter la n d’analyse permet de comparer plusieurs jeux de variables afin de trouver une carte qui représente les relations entre un chiffre spécifique à l’intérieur de chaque dimension, L’analyse des correspondances (CORRESPONDANCE) permet dans le même graphique après suppression de la corrélation ces deux ensembles d’objets sous forme de distances entre l’information a été affichée selon un graphique facilement En utilisant la procédure de dimensionnement des d’analyser les tableaux à double entrée qui contiennent entre les jeux. deux ensembles de points. compréhensible, appelé ‘carte perceptuelle’. Par exemple, analyses de correspondances et de correspondances préférences (preference scaling), vous pouvez visualiser des mesures de correspondance entre lignes et colonnes multiples pour évaluer numériquement les relations entre encore davantage les relations entre les objets. L’algorithme et d’afficher les lignes et les colonnes sous forme de points Par exemple, vous pourriez analyser les caractéristiques de Par exemple, si un groupe de conducteurs estimait 26 la plus étroitement identifiée par le marché comme ayant deux ou plusieurs variables nominales présentes dans de dépliage (unfolding algorithm) sur lequel est basée cette sur une carte. Un tableau croisé dans lequel les cellules produits telles que des soupes, dans une étude de goût. Les modèles de voitures sur dix attributs selon une échelle l’attribut “ populaire ”. De même les analystes peuvent vos données. Vous pouvez également utiliser l’analyse procédure permet d’exécuter des analyses non métriques contiennent les fréquences de jointures de deux variables juges représentent les variables à l’intérieur des ensembles à six points, vous pourriez trouver une carte avec des rapidement constater que les consommateurs intéressés par de correspondance pour analyser tout tableau ayant des pour les données ordinales et d’obtenir des résultats nominales serait un exemple d’un type très courant de tandis que les soupes représentent les cas. OVERALS établit clusters montrant quels modèles sont similaires et quelles des produits favorisant la bonne santé et comportant peu entrées non négatives. significatifs. La procédure de dimensionnement des tableau de correspondances. PASW Categories affiche une moyenne des évaluations des juges après suppression personnes aiment le plus ces modèles. Cette carte est un de matière grasse perçoivent les produits CC et DD de façon proximités permet d’analyser les similarités entre les objets de façon visuelle les relations entre les catégories de ces des corrélations et combine les différentes caractéristiques compromis basé sur les dix attributs différents et un tracé plus positive tandis que FF est perçue comme une marque et d’intégrer des caractéristiques pour ces objets dans la variables nominales. pour afficher les relations entre les soupes. Ou bien, chaque des dix attributs différents montre comment ils pondèrent riche et sucrée.** juge peut avoir utilisé un ensemble séparé de critères de façon différentielle les dimensions de la carte. inclut des procédures à l’état de l’art pour la sélection de modèle et la régularisation. Vous pouvez exécuter des Avec la procédure d’analyse des composantes principales, vous pouvez réduire vos données aux composants même analyse. importantes. Les biplots et triplots des objets de type il est clair sur la figure 1 que la marque AA est la marque L’analyse des correspondances multiples (MULTIPLE pour juger les soupes. Dans ce cas, chaque juge forme un catégorie et variable montrent leur relation. Ces options sont Les possibilités de PASW Categories CORRESPONDENCE) diffère de l’analyse des correspondances ensemble et OVERALS établit la moyenne des critères, après Mieux comprendre les perceptions du consommateur également disponibles pour les données numériques. Avec Les procédures suivantes sont disponibles pour rendre vos en ceci qu’elle permet d’utiliser plus de deux variables dans suppression des corrélations, puis combine les notes des En Australie du Sud, des spécialistes des études de marché analyses de données plus significatives. l’analyse. Avec cette procédure, toutes les variables sont différents juges. cherchaient à déterminer comment les consommateurs dimensionnement optimal vous disposez d’une matrice de corrélation basée sur les quantifications de vos variables analysées au niveau nominal. ordinales et nominales. Ou bien vous pouvez fractionner La régression nominale (CATREG) prédit les valeurs d’une vos variables en différents ensembles, puis analyser les variable de résultat nominale, ordinale ou numérique relations entre ces ensembles avec l’analyse de corrélation canonique non linéaire. percevaient six marques de café glacé. Ils ont interrogé des La procédure OVERALS peut également être utilisée pour la consommateurs pour estimer chacune des marques (notées Par exemple, vous pouvez utiliser l’analyse des régression multiple généralisée lorsque vous avez plusieurs de AA à FF sur la figure 1) pour 16 attributs catégoriques à partir d’une combinaison de variables de prédicteur correspondances multiples pour étudier les relations entre variables de résultat qui doivent être prédites de façon différents. Sur le tableau à 96 cellules qui en a résulté il était numériques et catégoriques (non)ordonnées. Vous pouvez les émissions favorites, le groupe d’âge et le sexe. Sur une conjointe à partir d’un ensemble de variables de prédicteur. difficile de voir clairement les relations entre les marques et utiliser la régression avec le dimensionnement optimal pour carte à dimension réduite créée avec PASW Categories, Afficher graphiquement les relations sous-jacentes décrire par exemple la façon dont la satisfaction au travail vous pourriez voir quels groupes gravitent autour de quelles Le positionnement multidimentionnel (PROXSCAL) Quel que soit le type de catégorie étudié : segment de peut être prédite à partir de catégorie de tache, de région émissions tout en apprenant également quelles émissions s’applique à une ou plusieurs matrices contenant des marché, diagnostics médicaux, sous cultures, partis géographique et de la quantité de trajet lié au travail. sont les plus similaires. similarités ou des dissimilarités (proximités). Ou bien, vous Les techniques de dimensionnement optimal quantifient L’analyse en composantes principales qualitatives (CATPCA) multivariées en tant qu’entrées à PROXSCAL. PROXSCAL associées aux tableaux à double entrée, en plaçant les les variables de telle sorte que le R Multiple soit maximisé. utilise le dimensionnement optimal pour généraliser la affiche les proximités sous forme de distances sur une carte relations entre vos variables dans un cadre de référence plus Le dimensionnement optimal peut être appliqué aux procédure d’analyse des composants principaux de façon afin de fournir une compréhension spatiale de la façon dont grand. Vous pouvez consulter une carte de vos données–et variables numériques lorsque les valeurs résiduelles sont à ce qu’elle puisse accepter les variables des niveaux les objets sont liés. Dans le cas des matrices de proximités non pas simplement un rapport statistique. non normales ou lorsque les variables de prédicteur ne de mesures mixtes. Elle est similaire à l’analyse de multiples, PROXSCAL analyse les communautés et trace les différences entre elles. politiques ou espèces biologiques, les procédures de dimensionnement optimal vous libèrent des restrictions les attributs perçus. pouvez calculer les distances entre les cas dans les données sont pas liées linéairement à la variable de résultat. Trois correspondance multiple mais vous pouvez spécifier un Les techniques de réduction de dimension de PASW nouvelles méthodes de régularisation : Ridge Regression, niveau d’analyse variable par variable. Categories permettent de surmonter les difficultés liées Lasso, et Elastic Net, améliorent la précision de prédiction aux tableaux encombrants. En effet, vous pouvez clarifier en stabilisant les estimations de paramètre. La sélection Par exemple, vous pouvez afficher les relations entre les similarités entre les différentes saveurs de colas les relations dans vos données en utilisant des cartes automatique de variables permet d’analyser des ensembles différentes marques et caractéristiques de voitures telles préférées par les consommateurs dans différents groupes perceptuelles et des biplots. de données à fort volume (davantage de variables que que le prix, le poids, la consommation, etc. Ou bien d’âge. Vous pourriez découvrir que les adolescents mettent Les cartes perceptuelles sont des graphiques résumés d’objets). Avec le niveau de dimensionnement numérique, vous pouvez décrire les voitures par classes (compactes, l’accent sur les différences entre saveurs traditionnelles et à haute résolution qui montrent les variables similaires vous pouvez effectuer la régularisation dans la régression moyennes, convertibles, 4x4, etc.) et CATPCA utilise ces saveurs nouvelles tandis que les adultes mettent l’accent ou les catégories proches les unes des autres. Elles en utilisant les méthodes Lasso ou Elastic Net pour vos classifications pour grouper les points pour les voitures. sur les colas diététiques par opposition aux colas non fournissent une visibilité unique sur les relations entre données numériques. En assignant une pondération importante à la variable de diététiques. n plus de deux variables catégoriques. Par exemple, vous pouvez utiliser PROXSCAL pour afficher classification, les voitures vont être regroupées de façon étroite autour des points de leur classe. PASW Categories affiche les relations complexes entre les objets, les groupes, les variables dans une carte à dimension réduite qui simplifie la compréhension de leurs relations. ** Source des données et de l’exemple : Kennedy, R., C. Riquier et Byron Sharp. 1996. “ Pratical Applications of Correspondence Analysis to Categorical Data in Market Research, ” Journal of Targeting, Measurement and Analysis for Marketing, Vol. 5, No. 1, pp. 56-70. Graphique 1 : les chercheurs ont étudié les perceptions des consommateurs par rapport à six marques de café glacé vendues en Australie du Sud. Les marques sont notées de AA à FF et sont caractérisées par différents attributs catégoriques tels que “ healthy ” (sain). La procédure de correspondance de SPSS a produit la carte de correspondance illustrée ici. Caractéristiques Statistiques CATREG n Analyse de régression nominale via le dimensionnement optimal –Spécifiez le niveau de dimensionnement optimal auquel vous souhaitez analyser chaque variable. Choisissez entre : spline ordinal (monotone), spline nominal (non monotone), ordinal, nominal, multiple nominal, ou numérique. –Discrétisez les variables continues ou convertissez les variables de chaîne en valeurs d’entier numérique en multipliant, classant ou regroupant les valeurs en un nombre présélectionné de catégories selon une distribution optionnelle (normale ou uniforme) ou en regroupant les valeurs d’un intervalle présélectionné en catégories. Les options de classement et de regroupement peuvent également être utilisées pour recoder les données catégoriques. –Spécifiez le mode de gestion des valeurs manquantes. Imputez les données manquantes avec le mode variable ou avec une catégorie supplémentaire, ou utilisez l’exclusion au niveau des listes. –Spécifiez les objets à traiter comme supplémentaires –Spécifiez la méthode à utiliser pour calculer la solution initiale – Contrôlez le nombre d’itérations – Spécifiez le critère de convergence – Graphez les résultats, soit comme : nGraphiques de transformation (quantifications de catégories optimales contre indicateur de catégorie) nGraphiques de valeurs résiduelles