Analysez vos données catégorielles

publicité
PASW® Categories 18 – Spécifications
Analysez vos données
catégorielles
Libérez la totalité du potentiel de vos données à travers
visuellement les données pour observer le lien entre les
l’analyse prédictive, l’apprentissage statistique, le mapping
lignes et les colonnes dans de grands tableaux de scores,
perceptuel, le dimensionnement des préférences et les
d’effectifs, d’évaluations, de classements ou de similarités.
techniques de réduction des dimensions, y compris
Ceci vous permet de :
le dimensionnement optimal de vos variables. PASW
n
Comprendre et travailler avec les données ordinales
Categories* vous fournit tous les outils dont vous avez
et nominales à l’aide de procédures similaires aux
besoin pour obtenir des informations claires sur les
analyses de régression conventionnelle, de composantes
données numériques et catégorielles complexes ainsi
principales et de corrélation canonique.
que les données à nombre de dimensions élevé.
Traiter les résidus anormaux dans les données
n
numériques ou les relations non linéaires entre les
Par exemple, utilisez PASW Categories pour comprendre
variables de valeurs prédites et la variable de résultat.
quelles sont les caractéristiques que les consommateurs
Utiliser les options de régression de crête, le lasso,
associent le plus à votre produit ou à votre marque, ou pour
Elastic Net, la sélection des variables et la sélection des
déterminer la perception que les clients ont de vos produits
modèles pour les données numériques et catégorielles.
par rapport aux autres produits que vous ou vos concurrents
proposez.
Avec PASW Categories, vous pouvez appliquer une régression lorsque la variable prédite et les variables de résultat
sont numériques, ordinales ou nominales et interpréter
* PASW Categories et PASW Statistics Base, anciennement nommés
SPSS Categories et SPSS Statistics Base, font partie de la gamme
Predictive Analytics Software de SPSS Inc.
Utiliser des diagrammes doubles et triples pour
n
La capacité de PASW Categories d’effectuer des régressions
représenter la relation entre les objets (observations),
multiples avec un dimensionnement optimal vous permet
les catégories et les (ensembles de) variables dans les
d’appliquer la régression lorsque vous avez des mélanges
analyses de corrélation
de valeurs prédites numériques, ordinales et nominales
Représenter les similarités entre un ou deux ensembles
n
et des variables de résultat. La dernière version de PASW
d’objets comme les distances dans les cartes
Categories comprend des procédures de pointe pour
perceptuelles
la sélection et la régularisation des modèles. Vous
pouvez effectuer des analyses de correspondance et de
Chaque module de la famille PASW Statistics peut
correspondance multiple pour évaluer numériquement
désormais être installé et exécuté séparément ou en
les relations entre deux variables nominales ou plus dans
association avec d’autres modules. PASW® Statistics
vos données. Vous pouvez également utiliser l’analyse des
Base* n’est plus nécessaire, car des fonctionnalités telles
correspondances pour analyser tout tableau ayant
que l’accès et la gestion des données et la création de
des entrées non négatives.
graphiques ont été ajoutées à tous les modules. Ceci vous
donne une flexibilité accrue dans la manière d’installer et
De plus, avec la procédure d’analyse des composantes prin-
d’utiliser ce logiciel polyvalent. PASW Statistics Base existe
cipales, vous pouvez réduire vos données aux composantes
toujours et reste à la base de nombreux déploiements,
importantes. Les diagrammes doubles et triples d’objets,
puisqu’il contient des procédures et tests statistiques
de catégories et de variables montrent les relations. Ces
fondamentaux pour beaucoup d’analyses.
options sont également disponibles pour les données
numériques. Le dimensionnement optimal vous donne
Transformez vos variables qualitatives en
une matrice de corrélation basée sur les quantifications
variables quantitatives
de vos variables ordinales et nominales. Vous pouvez
Les procédures avancées disponibles dans PASW Categories
également diviser vos variables en ensembles puis analyser
vous permettent d’effectuer des opérations statistiques
les relations entre les ensembles avec l’analyse de
supplémentaires sur les données catégorielles.
corrélations canoniques non linéaires.
Utilisez les procédures de dimensionnement optimal de
Affichez graphiquement les relations sous-jacentes
PASW Categories. Ceci ouvre un nouvel ensemble de fonc-
Quels que soient les types de catégories que vous
tions statistiques en vous permettant d’effectuer des analy-
étudiez, segments de marché, diagnostics médicaux,
ses de variables de niveaux de mesure mixtes, de combi-
sous-cultures, partis politiques ou espèces biologiques,
naisons de variables nominales, ordinales et numériques,
les procédures de dimensionnement optimal vous libèrent
par exemple.
des restrictions associées aux tableaux à double entrée,
plaçant les relations dans vos variables dans un cadre de
référence plus grand. Vous pouvez voir une carte des vos
données et pas seulement un rapport statistique.
Les techniques de réduction des dimensions de PASW
Comment utiliser PASW Categories ?
Categories vous permettent d’aller au-delà des tableaux
La régression catégorielle (CATREG) prédit les valeurs d’une
volumineux. Au lieu de cela, vous pouvez clarifier
variable de résultat nominale, ordinale ou numérique à
les relations dans vos données à l’aide de cartes
partir d’une combinaison de variables de valeurs prédites
perceptuelles et de diagrammes doubles.
catégorielles (non) ordonnées et numériques. Vous pouvez
n
Les cartes perceptuelles sont des graphiques
utiliser la régression avec le dimensionnement optimal
récapitulatifs haute résolution qui affichent graphique-
pour décrire, par exemple, comment la satisfaction
ment les variables similaires ou les catégories proches les
professionnelle peut être prédite à partir de la catégorie
unes des autres. Elles vous fournissent des informations
professionnelle, la région géographique et le nombre de
uniques sur les relations entre plus de deux variables
trajets professionnels.
catégorielles.
n
Les diagrammes doubles et triples vous permettent
Les techniques de dimensionnement optimal quantifient
d’examiner les relations entre les observations, les
les variables de manière à maximiser le R multiple. Le
variables et les catégories. Par exemple, vous pouvez
dimensionnement optimal peut être appliqué aux variables
définir les relations entre les produits, les clients et
numériques quand les résidus sont anormaux ou quand
les caractéristiques démographiques.
les variables de valeurs prédites ne sont pas associées de
manière linéaire à la variable de résultat. Trois nouvelles
En utilisant la dimensionnement des préférences, vous
méthodes de régularisation : régression de crête, le lasso
pouvez également visualiser les relations entre les objets.
et Elastic Net améliorent la précision de la prédiction
L’algorithme de dépliage innovant sur lequel cette
en stabilisant les estimations des paramètres. La sélection
procédure est basée vous permet d’effectuer des analyses
automatique des variables permet d’analyser des
non métriques pour les données ordinales et d’obtenir
ensembles de données importants contenant plus de
des résultats pertinents. Le dimensionnement des proximi-
variables que d’objets. En utilisant le niveau d’échelle
tés vous permet d’analyser les similarités entre les objets
numérique, vous pouvez aussi effectuer des régularisations
et d’inclure les caractéristiques des objets dans la même
dans la régression avec le lasso ou Elastic Net pour vos
analyse.
données numériques.
Vous pouvez également utiliser CATREG pour appliquer
des modèles additifs généralisés (GAM) à vos données
numériques et catégorielles.
L’analyse des correspondances (CORRESPONDENCE) vous
(compacte, moyenne, décapotable, utilitaire, sport, etc.) et
permet d’analyser les tableaux à double entrée contenant
CATPCA utilise ces classifications pour grouper les points
des mesures de correspondance entre les lignes et les
des voitures. En attribuant un poids important à la variable
colonnes ainsi que d’afficher les lignes et les colonnes
de classification, les voitures se regroupent étroitement
comme des points sur une carte. Un type de tableau de
autour du point de leur classe. PASW Categories affiche
correspondance très commun est un tableau à double
les relations complexes entre les objets, les groupes et les
entrée dans lequel les cellules contiennent des effectifs
variables dans une carte à dimensions réduites facilitant la
joints pour deux variables nominales. PASW Categories
compréhension de leurs relations.
affiche les relations entre les catégories de ces variables
nominales dans une présentation visuelle.
L’analyse de corrélations canoniques non linéaires
(OVERALS) utilise le dimensionnement optimal pour généra-
L’analyse des correspondances multiples (MULTIPLE
liser la procédure d’analyse des corrélations canoniques afin
CORRESPONDENCE) diffère de l’analyse des correspon-
de s’adapter à des variables de niveaux de mesure mixtes.
dances dans le fait qu’elle vous permet d’utiliser plus de
Ce type d’analyse vous permet de comparer plusieurs
deux variables dans votre analyse. Avec cette procédure,
ensembles de variables entre eux dans le même diagramme
toutes les variables sont analysées au niveau nominal
après avoir supprimé la corrélation dans les ensembles.
(catégories non ordonnées).
Par exemple, vous pouvez analyser les caractéristiques
Par exemple, vous pouvez utiliser l’analyse de correspon-
des produits. Les juges représentent les variables dans les
dances multiples pour explorer les relations entre l’émission
ensembles alors que les produits sont les observations.
de télévision préférée, la tranche d’âge et le sexe.
OVERALS établit les évaluations des juges après la suppression des corrélations et combine les différentes car-
L’analyse des composantes principales catégorielles
actéristiques pour afficher les relations entre les produits.
(CATPCA) utilise le dimensionnement optimal pour
Chaque juge peut également avoir utilisé un ensemble de
généraliser la procédure d’analyse des composantes
critères séparé pour juger les produits. Dans ce cas, chaque
principales afin de s’adapter à des variables de niveaux
juge forme un ensemble et OVERALS établit la moyenne des
de mesure mixtes. Elle est semblable à l’analyse des
critères après avoir supprimé les corrélations, puis combine
correspondances multiples, excepté le fait que vous
les scores des différents juges.
pouvez spécifier un niveau d’analyse variable par variable.
Par exemple, vous pouvez afficher les relations entre
différentes marques de voitures et les caractéristiques
telles que le prix, le poids, la consommation, etc. Vous
pouvez également décrire les voitures d’après leur classe
La procédure OVERALS peut également être utilisée pour
Par exemple, si un groupe de conducteurs a évalué 26
généraliser la régression multiple lorsque vous avez des
modèles de voitures en dix attributs sur une échelle de
variables de résultats multiples à prédire conjointement à
six points, vous pouvez trouver une carte avec des classes
partir d’un ensemble de variables de valeurs prédites.
affichant les modèles similaires et les personnes qui
préfèrent ces modèles. Cette carte est un compromis basé
Le positionnement multidimensionnel (PROXSCAL) effectue
sur les dix attributs différents et un graphique des dix
un positionnement multidimensionnel d’une ou plusieurs
attributs différents montre comment ils influencent
matrices contenant des similarités ou des dissemblances
de façon différentielle les dimensions de la carte.
(proximités). Vous pouvez également calculer les distances
entre les observations dans les données multivariées
PASW Categories peut être installé en tant que logiciel client
comme entrée dans PROXSCAL. PROXSCAL affiche les
seulement mais, pour des performances optimales, une ver-
proximités comme des distances dans une carte afin que
sion serveur est également disponible.
vous ayez une compréhension spaciale de la relation entre
les objets. Dans le cas des matrices de proximité multiples,
Une plus grande valeur ajoutée grâce à la collaboration
PROXSCAL analyse les points communs et représente les
Pour partager et réutiliser efficacement des actifs, les
différences entre eux.
protéger en respectant les règles de conformité internes et
externes et publier les résultats de manière à ce qu’un plus
Par exemple, vous pouvez utilisez PROXSCAL pour afficher
grand nombre d’utilisateurs puissent les consulter et les
les similarités entre les différentes saveurs des boissons
utiliser, envisagez d’enrichir votre logiciel PASW Statistics
préférées par les consommateurs dans diverses tranches
avec PASW® Collaboration and Deployment Services
d’âge. Vous constaterez peut-être que les jeunes soulignent
(anciennement SPSS Predictive Enterprise Services™). Vous
les différences entre les saveurs traditionnelles et nouvelles
pouvez obtenir plus d’informations sur ces précieuses fonc-
alors que les adultes mettent l’accent sur les boissons allé-
tionnalités en téléchargeant la brochure « Collaboration »
gées par rapport aux boissons non allégées.
sur www.spss.com/fr/software/deployment/cds.
Le dimensionnement des préférences (PREFSCAL)
examine visuellement les relations entre deux ensembles
d’objets, par exemple les consommateurs et les produits.
Le classement des préférences effectue un dépliage
multidimensionnel afin de trouver une carte représentant
les relations entre ces deux ensembles d’objets en tant
que distances entre deux ensembles de points.
Fonctions
Statistiques
CATREG
■ Analyse de la régression catégorielle par
dimensionnement optimal
–Spécifiez le niveau de dimensionnement
optimal auquel vous souhaitez analyser
chaque variable. Choisissez parmi :
spline ordinale (monotone), spline nominale (non monotone), ordinale, nominale, nominale multiple ou numérique.
–Effectuez la discrétisation des variables
continues ou convertissez les variables de chaînes en valeurs intégrales
numériques en multipliant, classant ou
regroupant les valeurs dans un nombre
de catégories présélectionné en fonction
d’une distribution facultative (normale
ou uniforme) ou en regroupant les
valeurs d’un intervalle présélectionné
dans des catégories. Les options de
classement et de regroupement peuvent
aussi être utilisées pour recoder les données catégorielles.
–Spécifiez comment vous souhaitez traiter
les données manquantes. Imputez les
données manquantes au mode de variable ou à une catégorie supplémentaire,
ou utilisez une exclusion par liste.
–Spécifiez les objets à traiter comme supplémentaires
–Spécifiez la méthode utilisée pour
calculer la solution initiale
– Contrôlez le nombre d’itérations
– Spécifiez le critère de convergence
–Représentez les résultats, sous
forme de :
■Graphiques de transformation
(quantifications de catégorie
optimale par rapport aux
indicateurs de catégorie)
■ Diagrammes résiduels
–Ajoutez des variables transformées,
des valeurs prédites et des résidus
au fichier de données de travail
– Imprimez les résultats, y compris :
■Diagrammes de R multiple,
R2 et R2 ajusté
Coefficients de régression standard-isés,
erreurs standard, corrélation d’ordre zéro,
corrélation de partie, corrélation partielle,
la mesure d’importance relative de Pratt
pour les valeurs prédites transformées,
la tolérance avant et après la
transformation et les statistiques F
■Tableau des statistiques descriptives,
y compris les fréquences marginales,
le type de transformation, le nombre
de valeurs manquantes et le mode
■ Historique d’itération
■Tableaux des paramètres d’ajustement
et de modèle : tableau ANOVA avec
les degrés de liberté en fonction du
niveau de dimensionnement optimal ;
tableau de résumé de modèle avec
ajusté pour l’échelle optimale, les
valeurs t et les seuils de signification ;
un tableau séparé avec l’ordre zéro,
corrélation de parties et partielles ;
et l’importance et la tolérance avant
et après la transformation
■Corrélations des valeurs prédites
transformées et valeurs propres
de la matrice de corrélation
■Corrélations des valeurs prédites
originales et valeurs propres de
la matrice de corrélation
■ Quantifications de catégorie
–Écrivez les données discrétisées
et transformées dans un fichier de
données externe
■ Trois nouvelles méthodes de régularisation :
régression de crête, le lasso et Elastic Net
–Améliorez la précision des prédictions en stabilisant les estimations des
paramètres
–Analysez les données volumineuses
(plus de variables que d’objets)
–Obtenez une sélection de variables
automatique de l’ensemble des valeurs
prédites
–Écrivez les modèles régularisés et les
coefficients dans un nouvel ensemble de
données pour une utilisation ultérieure
■ Deux nouvelles méthodes de sélection
de modèle et d’évaluation de la précision
prédictive : le bootstrap .632 et la
validation croisée (CV)
■
Fonctions susceptibles de changer en fonction de la version finale du produit.
–Trouvez le modèle optimal pour
la prédiction avec les options de
bootstrap .632(+) et de validation croisée
–Obtenez des estimations non paramétriques des erreurs standard des coefficients avec le bootstrap
■ Démarrages multiples systématiques
–Découvrez la solution optimale globale
lorsque des transformations monotones
ont impliquées
–Écrivez les signes des coefficients de
régression dans un nouvel ensemble de
données pour les réutiliser
CORRESPONDENCE
■ Analyse des correspondances
–Entrez les données comme un fichier
d’observation ou directement comme
entrée de tableau
–Spécifiez le nombre de dimensions de la
solution
–Choisissez entre deux mesures de
distance : Distances Khi-deux pour
l’analyse des correspondances ou
distances euclidiennes pour les types
d’analyses de diagrammes doubles
–Choisissez parmi cinq types de
standardisation : supprimer les
moyennes de lignes, supprimer les
moyennes de colonnes, supprimer les
moyennes de lignes et colonnes, égaliser
les totaux des lignes ou égaliser les totaux
des colonnes
–Cinq types de normalisation : symétrique,
principale, principale de ligne, principale
de colonne et personnalisée
– Imprimez les résultats, y compris :
■ Tableau des correspondances
■Tableau récapitulatif : valeurs
singulières, inertie, proportion d’inertie
justifiée par les dimensions, proportion
cumulative d’inertie justifiée par les
dimensions, statistiques de confiance
pour le nombre maximum de dimensions, profils de lignes et profils de
colonnes
■Aperçu des points de lignes et de
colonnes : masse, scores, inertie,
contribution des points à l’inertie
des dimensions et contribution des dimensions à l’inertie des points
Statistiques de confiance de ligne
et de colonne : écarts-types et
corrélations pour les points de
lignes et de colonnes actifs
■
MULTIPLE CORRESPONDENCE
■ Analyse des correspondances multiples
(remplace HOMALS des versions antérieures
à SPSS Catégories 13.0)
– Spécifiez les pondérations des variables
–Effectuez la discrétisation des variables
continues ou convertissez les variables
de chaîne en valeurs numériques entières
en multipliant, classant ou regroupant les
valeurs dans un nombre de catégories
présélectionné selon une distribution facultative (normale ou
uniforme), ou en regroupant les valeurs
d’un intervalle présélectionné dans des
catégories. Les options de classement
et de regroupement peuvent aussi être
utilisées pour recoder les données catégorielles.
–Spécifiez comment vous souhaitez
traiter les données manquantes. Excluez
uniquement les cellules de la matrice de
données sans valeur valide, imputez les données manquantes à l’aide du ode
de variable ou à l’aide d’une catégorie
supplémentaire ou utilisez l’exclusion par
liste.
–Spécifiez les objets et variables à traiter
comme supplémentaires (la sortie complète est comprise pour les catégories
concernant uniquement les objets supplémentaires)
–Spécifiez le nombre de dimensions dans
la solution
–Spécifiez un fichier contenant les coordonnées d’une configuration et ajustez les
variables dans cette configuration fixée
–Choisissez parmi cinq options de
normalisation : principale de variable
(optimise les associations entre les variables), principale d’objet (optimise les
distances entre les objets), symétrique
(optimise les relations entre les objets et
les variables), indépendante ou personnalisée (valeur définie par l’utilisateur
permettant tout entre la normalisation
principale de variable et la normalisation
principale d’objet)
–Contrôlez le nombre d’itérations
–Spécifiez le critère de convergence
–Imprimez les résultats, y compris :
■ Résumé du modèle
■ Statistiques et historique d’itération
■Statistiques descriptives (fréquences,
valeurs manquantes et mode)
■Mesures de discrimination
par variable et par dimension
■Quantifications de catégories
(coordonnées du barycentre), masse,
inertie des catégories, contribution des
catégories à l’inertie des dimensions et contribution des dimensions à l’inertie des catégories.
■Corrélations des variables transformées
et des valeurs propres de la matrice de
corrélation pour chaque dimension
■Corrélations des variables originales et
des valeurs propres de la matrice de
corrélation
■Scores d’objet
■Contributions d’objet : masse, inertie,
contribution des objets à l’inertie des
dimensions et contribution des dimensions à l’inertie des objets
– Représentez les résultats, en créant :
■Des graphiques de catégorie : points
de catégorie, transformation (quantifications de catégories optimales par
rapport aux indicateurs de catégorie),
résidus des variables sélectionnées et
graphique conjoint des points de catégorie pour une sélection de variables
Des scores d’objet
Des mesures de discrimination
■Des diagrammes doubles d’objets
et des barycentres de variables
sélectionnées
–Ajoutez toutes les variables transformées
et les scores d’objets au fichier de données de travail
–Écrivez les données discrétisées, les données transformées et les scores d’objet
dans un fichier de données externe
■
■
CATPCA
■ Analyse des composantes principales catégorielles par le biais du dimensionnement
optimal
–Spécifiez le niveau de dimensionnement
optimal auquel vous souhaitez analyser
chaque variable. Choisissez parmi : spline
ordinale (monotone), spline nominale
(non monotone), ordinale, nominale,
nominale multiple ou numérique.
– Spécifiez les pondérations des variables
–Effectuez la discrétisation des variables
continues ou convertissez les variables de
chaîne en valeurs intégrales numériques
en multipliant, classant ou regroupant les
valeurs dans un nombre de catégories
présélectionné selon une distribution
facultative (normale ou uniforme), ou
en regroupant les valeurs d’un intervalle
présélectionné dans des catégories. Les
options de classement et de regroupement peuvent aussi être utilisées pour
recoder les données catégorielles.
–Spécifiez comment vous souhaitez
traiter les données manquantes. Excluez
uniquement les cellules de la matrice de
données sans valeur valide, imputez les
données manquantes au mode variable
ou à une catégorie supplémentaire, ou
utilisez l’exclusion par liste.
–
–
Imprimez les résultats, y compris :
■ Résumé du modèle
■ Statistiques et historique d’itération
■Statistiques descriptives (fréquences, valeurs manquantes et mode)
■Variance justifiée par la variable et la dimension
■ Chargements des composantes
■Quantifications des catégories et
coordonnées des catégories
(coordonnées de vecteur et/ou du
barycentre) pour chaque dimension
■Corrélations des variables transformées
et des valeurs propres de la matrice de
corrélation
■Corrélations des variables originales
et des valeurs propres de la matrice de
corrélation
■ Scores d’objet (composantes)
Représentez les résultats, en créant :
■Graphiques de catégorie : points
de catégorie, transformations
(quantifications de catégories
optimales par rapport aux indicateurs
de catégorie), résidus des variables
sélectionnées et graphique conjoint
des points de catégorie pour une
sélection de variables
Représentation des scores d’objets
(de composantes)
■ Représentation des chargements de
composantes
■
PROXSCAL
■ Multidimensional scaling analysis
– Read one or more square matrices
of proximities, either symmetrical
or asymmetrical
– Read weights, initial configurations,
fixed coordinates, and independent
variables
– Treat proximities as ordinal (non-metric)
or numeric (metric); ordinal
transformations can treat tied
observations as discrete or continuous
– Specify multidimensional scaling with
three individual differences models, as
well as the identity model
– Specify fixed coordinates or independent
variables to restrict the configuration.
Additionally, specify the transformations
(numerical, nominal, ordinal, and
splines) for independent variables.
Fonctions susceptibles de changer en fonction de la version finale du produit.
Pour en savoir plus, visitez le site www.spss.com.
Pour savoir où se situent les bureaux de SPSS Inc. et à
quels numéros de téléphone nous contacter, consultez
www.spss.com/worldwide.
SPSS est une marque déposée et les autres produits SPSS Inc. cités sont
des marques commerciales de SPSS Inc. Tous les autres noms sont des
marques commerciales de leurs propriétaires respectifs. © 2009 SPSS
Inc. Tous droits réservés. SCT18SPC-0709-FR
PREFSCAL
■ Examinez visuellement les relations entre
les variables dans deux ensembles d’objets
afin de trouver une échelle quantitative
commune
– Visualisez une ou plusieurs matrices
rectangulaires de proximités
– Visualisez les pondérations, les configurations initiales, et les coordonnées fixes
–Transformez facultativement les
proximités avec les fonctions linéaires,
ordinales, ordinales lisses ou spline
–Précisez le dépliage multidimensionnel
avec l’identité, l’euclidien pondéré ou les
modèles euclidiens généralisés
–Spécifiez les coordonnées fixées des
lignes et des colonnes pour restreindre
la configuration
Configuration requise
La configuration requise diffère selon la plateforme. Pour plus d’informations, consultez
la page www.spss.com/fr/statistics.
Téléchargement