De nouveaux outils pour créer
des modèles de prévision
PASW® Neural Networks 18 – Spécifications
Votre organisation doit identifier les modèles et les
connexions dans l’environnement complexe et changeant
dans lequel vous travaillez afin de prendre des décisions
plus judicieuses pour chaque problème. Vous utilisez sans
doute PASW® Statistics Base* et un ou plusieurs modules
complémentaires pour vous aider dans cette tâche. Si c’est
le cas, vous savez quelle puissance et quelle polyvalence
vous avez à portée de main. Mais vous pouvez faire
encore plus. Vous pouvez explorer les modèles les plus
sophistiqués avec PASW Neural Networks*. Ce module
vous permet de découvrir les relations les plus complexes
qui existent au sein de vos données et de générer des
modèles de prévision plus performants.
Les procédures de PASW Neural Networks complètent les
statistiques plus traditionnelles de PASW Statistics Base
et de ses modules. Découvrez de nouvelles associations
dans vos données avec PASW Neural Networks, puis
confirmez leur signification avec les techniques statistiques
traditionnelles. PASW Neural Networks est disponible sous
forme d’application cliente autonome, mais une version
serveur est également disponible pour de meilleures
performances.
Pourquoi utiliser un réseau de neurones ?
Un réseau de neurones est un ensemble d’outils de modé-
lisation de données non linéaires composé de couches
d’entrée et de sortie, et d’une ou de deux couches mas-
quées. Les connexions entre les neurones de chaque couche
comprennent des pondérations associées qui sont ajustées
itérativement par l’algorithme d’apprentissage pour mini-
miser les risques d’erreur et produire des prévisions précis-
es. Vous définissez les conditions sous lesquelles le réseau
« apprend » et vous avez la possibilité de contrôler précisé-
ment les règles d’arrêt d’apprentissage et l’architecture du
réseau ou de laisser la procédure choisir automatiquement
la meilleure architecture à votre place. Vous pouvez associer
PASW Neural Network avec d’autres procédures statistiques
pour bénéficier d’une vision plus détaillée dans un certains
nombres de domaines. Dans le cas des études de marché,
par exemple, vous pouvez créer des profils de clients et
découvrir leurs préférences. Si votre marketing s’appuie sur
des bases de données, vous pouvez segmenter votre base
de clients afin d’optimiser les campagnes marketing.
Dans le cadre d’une analyse financière, vous pouvez
utiliser PASW Neural Networks pour analyser la solvabilité
des prospects et détecter les fraudes possibles. En analyse
opérationnelle, ce nouvel outil permet de gérer les flux
de trésorerie et d’améliorer la planification logistique.
Les applications scientifiques et médicales proposent des
fonctions de prévision des coûts de traitement, d’analyse
de résultats médicaux et d’estimation de la durée d’un
séjour hospitalier.
Contrôlez le processus du début à la fin
Avec PASW Neural Networks, vous avez le choix entre la
procédure Perceptron multicouches (MLP) et la procédure
de fonctions à base radiale (RBF).
Ces deux procédures sont des techniques d’apprentissage
supervisées, c’est-à-dire qu’elles établissent les relations
impliquées par les données. Elles utilisent toutes les deux
des architectures d’anticipation, ce qui signifie que les don-
nées se déplacent dans une seule direction : elles partent
des noeuds d’entrée et atteignent les noeuds de sortie en
passant par la couche masquée. Vous choisirez la procédure
* PASW Neural Networks et PASW Statistics Base, anciennement nommés
SPSS Neural Networks et SPSS Statistics Base, font partie de la gamme
Predictive Analytics Software de SPSS Inc.
en fonction du type de données dont vous disposez ainsi que
du niveau de complexité que vous cherchez à découvrir. Si la
procédure MLP est capable d’identifier des relations plus com-
plexes, la procédure RBF est généralement plus rapide.
Dans ces deux approches, vous répartissez vos données
en échantillons d’apprentissage, de test et de validation.
Le groupe d’apprentissage est utilisé pour estimer les
paramètres du réseau. L’échantillon de test est utilisé pour
éviter le surapprentissage. L’échantillon de validation est
employé pour évaluer de façon indépendante le réseau final
qui est appliqué à l’ensemble du groupe de données et à
toutes les nouvelles données.
Vous spécifiez les variables dépendantes, qui peuvent être
des variables continues, des variables qualitatives, ou une
combinaison des deux. Si une variable dépendante possède
un niveau de mesure d’échelle, alors le réseau neuronal
prédit des valeurs continues qui sont des approximations de
la valeur « véritable » d’une fonction continue des données
d’entrée. Si une variable dépendante est qualitative, alors le
réseau neuronal est utilisé pour classer les observations dans
la « meilleure » catégorie d’après les prédicteurs d’entrée.
Vous ajustez la procédure en choisissant la manière dont le
groupe de données est partitionné, le type d’architecture que
vous voulez et les ressources de calcul qui seront attribuées
à l’analyse. Vous pouvez enfin choisir d’afficher les résultats
sous forme de tableaux ou de diagrammes, d’enregistrer des
variables temporaires facultatives dans le groupe de données
actif et d’exporter les modèles sous forme de fichiers XML
pour évaluer des données ultérieures.
Chaque module de la famille PASW Statistics peut maintenant
être installé et exécuté séparément ou en conjonction avec
tout autre module. PASW Statistics Base n’est plus nécessaire
dans chaque cas car des fonctionnalités telles que l’accès et la
gestion des données de même que la création de diagrammes
ont été ajoutées à tous les modules. Vous bénéficiez ainsi
d’une plus grande flexibilité pour l’installation et l’utilisation
de cette application polyvalente. PASW Statistics Base est
toujours disponible et reste à la base de beaucoup de déploie-
ments, car il contient des procédures et des tests statistiques
fondamentaux pour beaucoup d’analyses.
Une plus grande valeur ajoutée grâce à la collaboration
Pour partager et réutiliser efficacement les ressources,
protégez-les conformément aux exigences de conformité
internes et externes et publiez les résultats de manière à
ce qu’un plus grand nombre d’utilisateurs professionnels
puisse les voir et interagir avec. Pourquoi ne pas enrichir
votre logiciel PASW Statistics avec PASW® Collaboration
and Deployment Services (anciennement SPSS Predictive
Enterprise Services) ? Vous trouverez des informations
complémentaires sur ces précieuses fonctionnalités dans
la brochure « Collaboration », téléchargeable sur le site
www.spss.com/fr/software/deployment/cds.
Dans un réseau MLP comme celui représen ici, les données vont de la couche
d’entrée à la couche de sortie en passant par une ou plusieurs couches cachées.
Dans la boîte de dialogue Perceptron multicouches (MLP), vous sélectionnez
les variables que vous voulez inclure dans votre modèle.
Fonctions
Perceptron multicouches (MLP)
La procédure MLP ajuste un type particulier
deseau de neurones nom perceptron
multicouches. Le perceptron multicouches
est une méthode supervisée qui utilise une
architecture d’anticipation. Il peut présenter
plusieurs couches masquées. Vous spécifiez une
ou plusieurs variables dépendantes, qui peu-
vent être des variables d’échelle, des variables
qualitatives, ou la combinaison des deux. Si
une variable dépendante possède un niveau de
mesure d’échelle, alors le réseau neuronal prédit
des valeurs continues qui sont des approxima-
tions de la valeur «ritable » d’une fonction
continue des données d’entrée. Si une variable
pendante est qualitative, alors leseau de
neurones est utilisé pour classer les observa-
tions dans la « meilleure » catégorie d’après les
variables indépendantes d’entrée.
Predicteurs
Facteurs
Covariables
La sous-commande EXCEPT liste toutes les
variables que la procédure MLP doit exclure
des listes de facteurs ou de covariables
sur la ligne de commande. Cette sous-
commande est utile si les listes de facteurs
ou de covariables contiennent un grand
nombre de variables.
La sous-commande RESCALE permet
d’échelonner les covariables ou les vari-
ables dépendant de l’échelle.
Variable dépendante (si d’échelle) :
standardisée, normalisée, ajustée
normalisée, ou aucune option
Covariables : standardisée, normalisée,
ajustée normalisée, ou aucune option
La sous-commande PARTITION indique
la méthode de partitionnement de
l’ensemble de données actif en échantil-
lons d’exploration, de test et de confirma-
tion. L’échantillon d’exploration comprend
les enregistrements de données utilisés
pour former le réseau de neurones.
L’échantillon de test est un ensemble
d’enregistrements de données indépen-
dant utilisé pour identifier une erreur
de prévision au cours de l’exploration
afin d’empêcher un surapprentissage.
L’échantillon de confirmation est un autre
ensemble d’enregistrements de données
indépendant utilisé pour évaluer le réseau
de neurones final. Vous pouvez spécifier :
Le nombre relatif d’observations dans le
groupe de données actif à affecter aléa-
toirement à l’échantillon d’exploration
Le nombre relatif d’observations dans le
groupe de données actif à affecter aléa-
toirement à l’échantillon de test
Le nombre relatif d’observations dans le
groupe de données actif à affecter aléa-
toirement à l’échantillon de confirmation
Une variable qui affecte chaque obser-
vation du groupe de données actif à
l’échantillon d’exploration, de test ou
de confirmation
La sous-commande ARCHITECTURE est utili-
sée pour spécifier l’architecture du réseau
de neurones. Vous pouvez spécifier :
S’il faut utiliser la sélection automatique
de l’architecture ou si l’automatisation
n’est pas utilisée
Le nombre de couches cachées dans le
réseau de neurones
La fonction d’activation à utiliser pour
toutes les unités des couches cachées
(tangente hyperbolique ou sigmoïde)
La fonction d’activation à utiliser pour
toutes les unités de la couche de sortie
(Identité, Tangente hyperbolique, sigmde
ou Softmax)
La sous-commande CRITERIA spécifie les
paramètres de calcul et de ressource de la
procédure MLP. Vous pouvez spécifier le type
d’exploration, qui détermine la manière dont
le réseau de neurones traite les enregistre-
ments de données d’exploration : apprent-
issage par lots, apprentissage en ligne,
apprentissage par mini-lots. Vous pouvez
également spécifier :
Le nombre d’enregistrements
d’apprentissage par mini-lot (si
c’est la méthode sélectionnée
pour l’apprentissage)
Le nombre maximum de cas à enregis-
trer en mémoire lorsque l’architecture
automatique et/ou l’apprentissage par
mini-lots sont appliqués.
L’algorithme d’optimisation utilisé pour
terminer les pondérations synaptiques :
Méthode du gradient, Gradient conjugué
échelonné.
Le taux d’apprentissage initial pour
l’algorithme d’optimisation par méthode
du gradient
La limite inférieure du taux
d’apprentissage lorsque la méthode du
gradient est utilisée avec un apprent-
issage en ligne ou par mini-lots
Le taux de vitesse pour l’algorithme
descendant de gradient d’optimisation
Le lambda initial, pour l’algorithme
d’optimisation par gradient conjugué
échelonné
Le sigma initial, pour l’algorithme
d’optimisation par gradient conjugué
échelonné
L’intervalle [a0−a, a0+a] au sein duquel
les vecteurs de pondération sont générés
aléatoirement en cas d’utilisation d’un
algorithme recuit simulé
Fonctions susceptibles de changer en fonction de la version finale du produit.
Pour en savoir plus, visitez le site www.spss.com. Pour
les sites SPSS et les numéros de téléphone, consultez
www.spss.com/worldwide.
SPSS est une marque déposée et les autres produits SPSS Inc. cités
sont des marques commerciales de SPSS Inc. Tous les autres noms
sont des marques commerciales de leurs propriétaires respectifs.
© 2009 SPSS Inc. Tous droits réservés. SN18SPC-0709-FR
La sous-commande STOPPINGRULES spécifie
les règles qui déterminent le moment où
l’apprentissage du réseau de neurones doit
être arrêté. Vous pouvez spécifier :
Le nombre d’étapes n à autoriser avant
de rechercher une baisse des erreurs de
prédiction
Le nombre maximum d’itérations
autorisées
La modification relative du rapport
d’erreur d’apprentissage.
Le critère du ratio d’erreurs
d’apprentissage
La sous-commande MISSING vous permet
d’indiquer si les valeurs manquantes utilisa-
teur de variables catégoriques (c’est-à-dire,
les facteurs et les variables dépendantes
qualitatives) sont traitées comme des
valeurs valides.
La sous-commande PRINT indique le résultat
tabulaire à afficher et peut être utilisée pour
demander une analyse de sensibilité. Vous
pouvez afficher :
Le tableau de résumé du traitement de
l’observation
Des informations sur le réseau de neu-
rones, y compris les variables dépendan-
tes, le nombre d’unités d’entrée et de
sortie, le nombre de couches et d’unités
cachées, et les fonctions d’activation
Un résumé des résultats du réseau de
neurones, comprenant l’erreur globale
moyenne, la règle d’arrêt utilisée pour
interrompre l’apprentissage et la durée
d’apprentissage
Un tableau de classification pour chaque
variable dépendante qualitative
Les pondérations synaptiques, c’est-
à-dire les estimations de coefficient,
depuis la couche i-1 unité j, jusqu’à
la couche i unité k
Une analyse de sensibilité, qui calcule
l’importante de chaque prédicteur dans
la détermination du réseau de neurones
La sous-commande PLOT permet de spécifier
le résultat graphique à afficher. Vous pouvez
afficher :
Un diagramme de réseau
Un graphique de valeur prédite contre
valeur observée pour chaque variable
dépendante
Un graphique de résidu contre valeur
prédite pour chaque variable dépendante
d’échelle
Courbe Receiver Operating Characteristic
(ROC) pour chaque variable qualitative
dépendante. Cela affiche également un
tableau indiquant l’aire qui se trouve sous
chaque courbe.
Les graphiques de gains cumulatifs de
chaque variable qualitative dépendante
Les graphiques de lift de chaque variable
qualitative dépendante
La sous-commande SAVE écrit les variables
temporaires facultatives dans le groupe de
données actif Vous pouvez enregistrer :
La valeur ou la catégorie prévue.
La pseudo-probabilité prévue
La sous-commande OUTFILE enregistre des
fichiers au format XML qui contiennent les
pondérations synaptiques
Fonctions à base radiale (RBF)
La procédure RBF ajuste un réseau de neurones
avec fonctions à base radiale, qui est un réseau
d’apprentissage supervisé d’anticipation
possédant une couche d’entrée, une couche
cachée appelée couche de fonction à base radi-
ale et une couche de sortie. La couche cachée
transforme les vecteurs d’entrée en fonctions à
base radiale. Tout comme la procédure MLP, la
procédure RBF réalise des opérations de prévi-
sion et de classification.
La procédure RBF forme le réseau
en deux étapes :
1. La procédure détermine les fonctions à
base radiale à l’aide de méthodes de clas-
sification. Le centre et la largeur de chaque
fonction à base radiale sont déterminés.
2. La procédure estime les pondérations synap-
tiques d’après les fonctions à base radiale. La
fonction d’erreur « somme des carrés », avec
fonction d’activation d’identité pour la couche
cachée, est utilisée pour les opérations de
prévision et de classification. Une régression
des moindres carrés ordinaire est utilisée
pour réduire l’erreur de somme des carrés.
En raison de cette approche d’apprentissage
en deux étapes, les réseaux RBF sont
généralement formés bien plus rapidement
que les réseaux MLP.
Les sous-commandes répertoriées pour la
procédure MLP permettent de réaliser des
fonctions similaires pour la procédure RBF,
avec les exceptions suivantes :
Avec la sous-commande ARCHITECTURE,
les utilisateurs peuvent spécifier la fonc-
tion à base radiale gaussienne utilisée
dans la couche masquée : RBF normalisée
ou RBF ordinaire
Avec la sous-commande CRITERIA, les util-
isateurs peuvent spécifier les paramètres
de calcul des procédures RBF, en indiquant
la quantité de chevauchement parmi les
unités cachées
Configuration requise
La configuration requise varie selon les
plates-formes. Pour plus d’informations,
consultez la page www.spss.com/fr/
statistics.
Fonctions susceptibles de changer en fonction de la version finale du produit.
1 / 4 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !