Fonctions
Perceptron multicouches (MLP)
La procédure MLP ajuste un type particulier
de réseau de neurones nommé perceptron
multicouches. Le perceptron multicouches
est une méthode supervisée qui utilise une
architecture d’anticipation. Il peut présenter
plusieurs couches masquées. Vous spécifiez une
ou plusieurs variables dépendantes, qui peu-
vent être des variables d’échelle, des variables
qualitatives, ou la combinaison des deux. Si
une variable dépendante possède un niveau de
mesure d’échelle, alors le réseau neuronal prédit
des valeurs continues qui sont des approxima-
tions de la valeur « véritable » d’une fonction
continue des données d’entrée. Si une variable
dépendante est qualitative, alors le réseau de
neurones est utilisé pour classer les observa-
tions dans la « meilleure » catégorie d’après les
variables indépendantes d’entrée.
■ Predicteurs
– Facteurs
– Covariables
■ La sous-commande EXCEPT liste toutes les
variables que la procédure MLP doit exclure
des listes de facteurs ou de covariables
sur la ligne de commande. Cette sous-
commande est utile si les listes de facteurs
ou de covariables contiennent un grand
nombre de variables.
■ La sous-commande RESCALE permet
d’échelonner les covariables ou les vari-
ables dépendant de l’échelle.
– Variable dépendante (si d’échelle) :
standardisée, normalisée, ajustée
normalisée, ou aucune option
– Covariables : standardisée, normalisée,
ajustée normalisée, ou aucune option
■ La sous-commande PARTITION indique
la méthode de partitionnement de
l’ensemble de données actif en échantil-
lons d’exploration, de test et de confirma-
tion. L’échantillon d’exploration comprend
les enregistrements de données utilisés
pour former le réseau de neurones.
L’échantillon de test est un ensemble
d’enregistrements de données indépen-
dant utilisé pour identifier une erreur
de prévision au cours de l’exploration
afin d’empêcher un surapprentissage.
L’échantillon de confirmation est un autre
ensemble d’enregistrements de données
indépendant utilisé pour évaluer le réseau
de neurones final. Vous pouvez spécifier :
– Le nombre relatif d’observations dans le
groupe de données actif à affecter aléa-
toirement à l’échantillon d’exploration
– Le nombre relatif d’observations dans le
groupe de données actif à affecter aléa-
toirement à l’échantillon de test
– Le nombre relatif d’observations dans le
groupe de données actif à affecter aléa-
toirement à l’échantillon de confirmation
– Une variable qui affecte chaque obser-
vation du groupe de données actif à
l’échantillon d’exploration, de test ou
de confirmation
■ La sous-commande ARCHITECTURE est utili-
sée pour spécifier l’architecture du réseau
de neurones. Vous pouvez spécifier :
– S’il faut utiliser la sélection automatique
de l’architecture ou si l’automatisation
n’est pas utilisée
– Le nombre de couches cachées dans le
réseau de neurones
– La fonction d’activation à utiliser pour
toutes les unités des couches cachées
(tangente hyperbolique ou sigmoïde)
– La fonction d’activation à utiliser pour
toutes les unités de la couche de sortie
(Identité, Tangente hyperbolique, sigmoïde
ou Softmax)
■ La sous-commande CRITERIA spécifie les
paramètres de calcul et de ressource de la
procédure MLP. Vous pouvez spécifier le type
d’exploration, qui détermine la manière dont
le réseau de neurones traite les enregistre-
ments de données d’exploration : apprent-
issage par lots, apprentissage en ligne,
apprentissage par mini-lots. Vous pouvez
également spécifier :
– Le nombre d’enregistrements
d’apprentissage par mini-lot (si
c’est la méthode sélectionnée
pour l’apprentissage)
– Le nombre maximum de cas à enregis-
trer en mémoire lorsque l’architecture
automatique et/ou l’apprentissage par
mini-lots sont appliqués.
– L’algorithme d’optimisation utilisé pour
déterminer les pondérations synaptiques :
Méthode du gradient, Gradient conjugué
échelonné.
– Le taux d’apprentissage initial pour
l’algorithme d’optimisation par méthode
du gradient
– La limite inférieure du taux
d’apprentissage lorsque la méthode du
gradient est utilisée avec un apprent-
issage en ligne ou par mini-lots
– Le taux de vitesse pour l’algorithme
descendant de gradient d’optimisation
– Le lambda initial, pour l’algorithme
d’optimisation par gradient conjugué
échelonné
– Le sigma initial, pour l’algorithme
d’optimisation par gradient conjugué
échelonné
– L’intervalle [a0−a, a0+a] au sein duquel
les vecteurs de pondération sont générés
aléatoirement en cas d’utilisation d’un
algorithme recuit simulé
Fonctions susceptibles de changer en fonction de la version finale du produit.