De nouveaux outils pour créer des modèles de prévision

Téléchargement

De nouveaux outils pour créer

des modèles de prévision

PASW® Neural Networks 18 – Spécifications

Votre organisation doit identifier les modèles et les

connexions dans l’environnement complexe et changeant

dans lequel vous travaillez afin de prendre des décisions

plus judicieuses pour chaque problème. Vous utilisez sans

doute PASW® Statistics Base* et un ou plusieurs modules

complémentaires pour vous aider dans cette tâche. Si c’est

le cas, vous savez quelle puissance et quelle polyvalence

vous avez à portée de main. Mais vous pouvez faire

encore plus. Vous pouvez explorer les modèles les plus

sophistiqués avec PASW Neural Networks*. Ce module

vous permet de découvrir les relations les plus complexes

qui existent au sein de vos données et de générer des

modèles de prévision plus performants.

Les procédures de PASW Neural Networks complètent les

statistiques plus traditionnelles de PASW Statistics Base

et de ses modules. Découvrez de nouvelles associations

dans vos données avec PASW Neural Networks, puis

confirmez leur signification avec les techniques statistiques

traditionnelles. PASW Neural Networks est disponible sous

forme d’application cliente autonome, mais une version

serveur est également disponible pour de meilleures

performances.

Pourquoi utiliser un réseau de neurones ?

Un réseau de neurones est un ensemble d’outils de modé-

lisation de données non linéaires composé de couches

d’entrée et de sortie, et d’une ou de deux couches mas-

quées. Les connexions entre les neurones de chaque couche

comprennent des pondérations associées qui sont ajustées

itérativement par l’algorithme d’apprentissage pour mini-

miser les risques d’erreur et produire des prévisions précis-

es. Vous définissez les conditions sous lesquelles le réseau

« apprend » et vous avez la possibilité de contrôler précisé-

ment les règles d’arrêt d’apprentissage et l’architecture du

réseau ou de laisser la procédure choisir automatiquement

la meilleure architecture à votre place. Vous pouvez associer

PASW Neural Network avec d’autres procédures statistiques

pour bénéficier d’une vision plus détaillée dans un certains

nombres de domaines. Dans le cas des études de marché,

par exemple, vous pouvez créer des profils de clients et

découvrir leurs préférences. Si votre marketing s’appuie sur

des bases de données, vous pouvez segmenter votre base

de clients afin d’optimiser les campagnes marketing.

Dans le cadre d’une analyse financière, vous pouvez

utiliser PASW Neural Networks pour analyser la solvabilité

des prospects et détecter les fraudes possibles. En analyse

opérationnelle, ce nouvel outil permet de gérer les flux

de trésorerie et d’améliorer la planification logistique.

Les applications scientifiques et médicales proposent des

fonctions de prévision des coûts de traitement, d’analyse

de résultats médicaux et d’estimation de la durée d’un

séjour hospitalier.

Contrôlez le processus du début à la fin

Avec PASW Neural Networks, vous avez le choix entre la

procédure Perceptron multicouches (MLP) et la procédure

de fonctions à base radiale (RBF).

Ces deux procédures sont des techniques d’apprentissage

supervisées, c’est-à-dire qu’elles établissent les relations

impliquées par les données. Elles utilisent toutes les deux

des architectures d’anticipation, ce qui signifie que les don-

nées se déplacent dans une seule direction : elles partent

des noeuds d’entrée et atteignent les noeuds de sortie en

passant par la couche masquée. Vous choisirez la procédure

* PASW Neural Networks et PASW Statistics Base, anciennement nommés

SPSS Neural Networks et SPSS Statistics Base, font partie de la gamme

Predictive Analytics Software de SPSS Inc.

en fonction du type de données dont vous disposez ainsi que

du niveau de complexité que vous cherchez à découvrir. Si la

procédure MLP est capable d’identifier des relations plus com-

plexes, la procédure RBF est généralement plus rapide.

Dans ces deux approches, vous répartissez vos données

en échantillons d’apprentissage, de test et de validation.

Le groupe d’apprentissage est utilisé pour estimer les

paramètres du réseau. L’échantillon de test est utilisé pour

éviter le surapprentissage. L’échantillon de validation est

employé pour évaluer de façon indépendante le réseau final

qui est appliqué à l’ensemble du groupe de données et à

toutes les nouvelles données.

Vous spécifiez les variables dépendantes, qui peuvent être

des variables continues, des variables qualitatives, ou une

combinaison des deux. Si une variable dépendante possède

un niveau de mesure d’échelle, alors le réseau neuronal

prédit des valeurs continues qui sont des approximations de

la valeur « véritable » d’une fonction continue des données

d’entrée. Si une variable dépendante est qualitative, alors le

réseau neuronal est utilisé pour classer les observations dans

la « meilleure » catégorie d’après les prédicteurs d’entrée.

Vous ajustez la procédure en choisissant la manière dont le

groupe de données est partitionné, le type d’architecture que

vous voulez et les ressources de calcul qui seront attribuées

à l’analyse. Vous pouvez enfin choisir d’afficher les résultats

sous forme de tableaux ou de diagrammes, d’enregistrer des

variables temporaires facultatives dans le groupe de données

actif et d’exporter les modèles sous forme de fichiers XML

pour évaluer des données ultérieures.

Chaque module de la famille PASW Statistics peut maintenant

être installé et exécuté séparément ou en conjonction avec

tout autre module. PASW Statistics Base n’est plus nécessaire

dans chaque cas car des fonctionnalités telles que l’accès et la

gestion des données de même que la création de diagrammes

ont été ajoutées à tous les modules. Vous bénéficiez ainsi

d’une plus grande flexibilité pour l’installation et l’utilisation

de cette application polyvalente. PASW Statistics Base est

toujours disponible et reste à la base de beaucoup de déploie-

ments, car il contient des procédures et des tests statistiques

fondamentaux pour beaucoup d’analyses.

Une plus grande valeur ajoutée grâce à la collaboration

Pour partager et réutiliser efficacement les ressources,

protégez-les conformément aux exigences de conformité

internes et externes et publiez les résultats de manière à

ce qu’un plus grand nombre d’utilisateurs professionnels

puisse les voir et interagir avec. Pourquoi ne pas enrichir

votre logiciel PASW Statistics avec PASW® Collaboration

and Deployment Services (anciennement SPSS Predictive

Enterprise Services™) ? Vous trouverez des informations

complémentaires sur ces précieuses fonctionnalités dans

la brochure « Collaboration », téléchargeable sur le site

www.spss.com/fr/software/deployment/cds.

Dans un réseau MLP comme celui représenté ici, les données vont de la couche

d’entrée à la couche de sortie en passant par une ou plusieurs couches cachées.

Dans la boîte de dialogue Perceptron multicouches (MLP), vous sélectionnez

les variables que vous voulez inclure dans votre modèle.

Fonctions

Perceptron multicouches (MLP)

La procédure MLP ajuste un type particulier

de réseau de neurones nommé perceptron

multicouches. Le perceptron multicouches

est une méthode supervisée qui utilise une

architecture d’anticipation. Il peut présenter

plusieurs couches masquées. Vous spécifiez une

ou plusieurs variables dépendantes, qui peu-

vent être des variables d’échelle, des variables

qualitatives, ou la combinaison des deux. Si

une variable dépendante possède un niveau de

mesure d’échelle, alors le réseau neuronal prédit

des valeurs continues qui sont des approxima-

tions de la valeur « véritable » d’une fonction

continue des données d’entrée. Si une variable

dépendante est qualitative, alors le réseau de

neurones est utilisé pour classer les observa-

tions dans la « meilleure » catégorie d’après les

variables indépendantes d’entrée.

■ Predicteurs

– Facteurs

– Covariables

■ La sous-commande EXCEPT liste toutes les

variables que la procédure MLP doit exclure

des listes de facteurs ou de covariables

sur la ligne de commande. Cette sous-

commande est utile si les listes de facteurs

ou de covariables contiennent un grand

nombre de variables.

■ La sous-commande RESCALE permet

d’échelonner les covariables ou les vari-

ables dépendant de l’échelle.

– Variable dépendante (si d’échelle) :

standardisée, normalisée, ajustée

normalisée, ou aucune option

– Covariables : standardisée, normalisée,

ajustée normalisée, ou aucune option

■ La sous-commande PARTITION indique

la méthode de partitionnement de

l’ensemble de données actif en échantil-

lons d’exploration, de test et de confirma-

tion. L’échantillon d’exploration comprend

les enregistrements de données utilisés

pour former le réseau de neurones.

L’échantillon de test est un ensemble

d’enregistrements de données indépen-

dant utilisé pour identifier une erreur

de prévision au cours de l’exploration

afin d’empêcher un surapprentissage.

L’échantillon de confirmation est un autre

ensemble d’enregistrements de données

indépendant utilisé pour évaluer le réseau

de neurones final. Vous pouvez spécifier :

– Le nombre relatif d’observations dans le

groupe de données actif à affecter aléa-

toirement à l’échantillon d’exploration

– Le nombre relatif d’observations dans le

groupe de données actif à affecter aléa-

toirement à l’échantillon de test

– Le nombre relatif d’observations dans le

groupe de données actif à affecter aléa-

toirement à l’échantillon de confirmation

– Une variable qui affecte chaque obser-

vation du groupe de données actif à

l’échantillon d’exploration, de test ou

de confirmation

■ La sous-commande ARCHITECTURE est utili-

sée pour spécifier l’architecture du réseau

de neurones. Vous pouvez spécifier :

– S’il faut utiliser la sélection automatique

de l’architecture ou si l’automatisation

n’est pas utilisée

– Le nombre de couches cachées dans le

réseau de neurones

– La fonction d’activation à utiliser pour

toutes les unités des couches cachées

(tangente hyperbolique ou sigmoïde)

– La fonction d’activation à utiliser pour

toutes les unités de la couche de sortie

(Identité, Tangente hyperbolique, sigmoïde

ou Softmax)

■ La sous-commande CRITERIA spécifie les

paramètres de calcul et de ressource de la

procédure MLP. Vous pouvez spécifier le type

d’exploration, qui détermine la manière dont

le réseau de neurones traite les enregistre-

ments de données d’exploration : apprent-

issage par lots, apprentissage en ligne,

apprentissage par mini-lots. Vous pouvez

également spécifier :

– Le nombre d’enregistrements

d’apprentissage par mini-lot (si

c’est la méthode sélectionnée

pour l’apprentissage)

– Le nombre maximum de cas à enregis-

trer en mémoire lorsque l’architecture

automatique et/ou l’apprentissage par

mini-lots sont appliqués.

– L’algorithme d’optimisation utilisé pour

déterminer les pondérations synaptiques :

Méthode du gradient, Gradient conjugué

échelonné.

– Le taux d’apprentissage initial pour

l’algorithme d’optimisation par méthode

du gradient

– La limite inférieure du taux

d’apprentissage lorsque la méthode du

gradient est utilisée avec un apprent-

issage en ligne ou par mini-lots

– Le taux de vitesse pour l’algorithme

descendant de gradient d’optimisation

– Le lambda initial, pour l’algorithme

d’optimisation par gradient conjugué

échelonné

– Le sigma initial, pour l’algorithme

d’optimisation par gradient conjugué

échelonné

– L’intervalle [a0−a, a0+a] au sein duquel

les vecteurs de pondération sont générés

aléatoirement en cas d’utilisation d’un

algorithme recuit simulé

Fonctions susceptibles de changer en fonction de la version finale du produit.

Pour en savoir plus, visitez le site www.spss.com. Pour

les sites SPSS et les numéros de téléphone, consultez

www.spss.com/worldwide.

SPSS est une marque déposée et les autres produits SPSS Inc. cités

sont des marques commerciales de SPSS Inc. Tous les autres noms

sont des marques commerciales de leurs propriétaires respectifs.

■ La sous-commande STOPPINGRULES spécifie

les règles qui déterminent le moment où

l’apprentissage du réseau de neurones doit

être arrêté. Vous pouvez spécifier :

– Le nombre d’étapes n à autoriser avant

de rechercher une baisse des erreurs de

prédiction

– Le nombre maximum d’itérations

autorisées

– La modification relative du rapport

d’erreur d’apprentissage.

– Le critère du ratio d’erreurs

d’apprentissage

■ La sous-commande MISSING vous permet

d’indiquer si les valeurs manquantes utilisa-

teur de variables catégoriques (c’est-à-dire,

les facteurs et les variables dépendantes

qualitatives) sont traitées comme des

valeurs valides.

■ La sous-commande PRINT indique le résultat

tabulaire à afficher et peut être utilisée pour

demander une analyse de sensibilité. Vous

pouvez afficher :

– Le tableau de résumé du traitement de

l’observation

– Des informations sur le réseau de neu-

rones, y compris les variables dépendan-

tes, le nombre d’unités d’entrée et de

sortie, le nombre de couches et d’unités

cachées, et les fonctions d’activation

– Un résumé des résultats du réseau de

neurones, comprenant l’erreur globale

moyenne, la règle d’arrêt utilisée pour

interrompre l’apprentissage et la durée

d’apprentissage

– Un tableau de classification pour chaque

variable dépendante qualitative

– Les pondérations synaptiques, c’est-

à-dire les estimations de coefficient,

depuis la couche i-1 unité j, jusqu’à

la couche i unité k

– Une analyse de sensibilité, qui calcule

l’importante de chaque prédicteur dans

la détermination du réseau de neurones

■ La sous-commande PLOT permet de spécifier

le résultat graphique à afficher. Vous pouvez

afficher :

– Un diagramme de réseau

– Un graphique de valeur prédite contre

valeur observée pour chaque variable

dépendante

– Un graphique de résidu contre valeur

prédite pour chaque variable dépendante

d’échelle

– Courbe Receiver Operating Characteristic

(ROC) pour chaque variable qualitative

dépendante. Cela affiche également un

tableau indiquant l’aire qui se trouve sous

chaque courbe.

– Les graphiques de gains cumulatifs de

chaque variable qualitative dépendante

– Les graphiques de lift de chaque variable

qualitative dépendante

■ La sous-commande SAVE écrit les variables

temporaires facultatives dans le groupe de

données actif Vous pouvez enregistrer :

– La valeur ou la catégorie prévue.

– La pseudo-probabilité prévue

■ La sous-commande OUTFILE enregistre des

fichiers au format XML qui contiennent les

pondérations synaptiques

Fonctions à base radiale (RBF)

La procédure RBF ajuste un réseau de neurones

avec fonctions à base radiale, qui est un réseau

d’apprentissage supervisé d’anticipation

possédant une couche d’entrée, une couche

cachée appelée couche de fonction à base radi-

ale et une couche de sortie. La couche cachée

transforme les vecteurs d’entrée en fonctions à

base radiale. Tout comme la procédure MLP, la

procédure RBF réalise des opérations de prévi-

sion et de classification.

La procédure RBF forme le réseau

en deux étapes :

1. La procédure détermine les fonctions à

base radiale à l’aide de méthodes de clas-

sification. Le centre et la largeur de chaque

fonction à base radiale sont déterminés.

2. La procédure estime les pondérations synap-

tiques d’après les fonctions à base radiale. La

fonction d’erreur « somme des carrés », avec

fonction d’activation d’identité pour la couche

cachée, est utilisée pour les opérations de

prévision et de classification. Une régression

des moindres carrés ordinaire est utilisée

pour réduire l’erreur de somme des carrés.

En raison de cette approche d’apprentissage

en deux étapes, les réseaux RBF sont

généralement formés bien plus rapidement

que les réseaux MLP.

Les sous-commandes répertoriées pour la

procédure MLP permettent de réaliser des

fonctions similaires pour la procédure RBF,

avec les exceptions suivantes :

■ Avec la sous-commande ARCHITECTURE,

les utilisateurs peuvent spécifier la fonc-

tion à base radiale gaussienne utilisée

dans la couche masquée : RBF normalisée

ou RBF ordinaire

■ Avec la sous-commande CRITERIA, les util-

isateurs peuvent spécifier les paramètres

de calcul des procédures RBF, en indiquant

la quantité de chevauchement parmi les

unités cachées

Configuration requise

■ La configuration requise varie selon les

plates-formes. Pour plus d’informations,

consultez la page www.spss.com/fr/

statistics.

Fonctions susceptibles de changer en fonction de la version finale du produit.

1 / 4 100%

Documents connexes

De nouveaux outils pour construire des modèles prédictifs

Université du Québec à Montréal - LabUnix

Thème 3B : motricité volontaire et plasticité cérébrale

résumé

Laboratoire 4 – Classification (1/2) – RBF

Chap 1 bases rappels 2017 Fichier

Liste de sites Web utiles

Diapositive 1

EGESB333 - Etudes de marché Descriptif de cours : 2016-2017

neurones à la naissance - NCCR

Comparaison de deux maladies neurodégénérative : Maladies

Neuroanatomie

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

De nouveaux outils pour créer des modèles de prévision

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

De nouveaux outils pour créer des modèles de prévision

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib