MOSIM’01 – du 25 au 27 avril 2001 – Troyes (France)
de détail des exemples pris en compte) assez fine.
Toutefois, plusieurs de ces variables sont partiellement
ou complètement non-pertinentes/redondantes pour le
concept étudié (Dhagat et Hellerstein, 1996), (John et
Kohavi, 1994), (Kira et Rendell, 1992), (Langley et
Sage, 1997), (Liu et White, 1994). Un problème
similaire intervient lorsque l’on aborde les exemples
(objets) composant un ensemble de données. Aussi, le
problème de la sélection d’exemples pertinents ne doit
pas être sous-estimé, en effet, tout comme certains
attributs sont plus utiles que d’autres, certains
exemples contribuent à la qualité d'une base de
connaissance plus que d’autres (Liu et White, 1994).
Ces différents problèmes font partie de l'étape filtrage
du processus de l'ECD.
Notre équipe a mis au point d'une part un algorithme de
sélection de variables pertinentes, le PDOBut
(Michaut, 1999), et d'autre part un algorithme de
sélection d'exemples pertinents (Morello et Lereno,
2000), (Lereno, 2000) basé sur le degré de généralité.
La sélection d'exemples pertinents a été largement
moins abordée dans la littérature que la sélection de
variables et on ne dispose donc pas de la même
richesse d'études sur le domaine. Toutefois, les
chercheurs (Blum et Langley, 1997) ont mis en avant
trois raisons essentielles qui justifient la sélection
d’exemples pertinents pour le processus d’induction :
l'algorithme d'induction utilisé peut avoir un coût
élevé en temps de calcul, dans ce cas, afin de réduire
ce temps de traitement, il est judicieux de ne
conserver que les exemples utiles à la qualité du
système d'apprentissage,
le qualité de l'apprentissage du système mis en place
peut lui même être influencé par les exemples
utilisés, ainsi il convient de focaliser l'apprentissage
sur les exemples informatifs,
dans le cas où l'on dispose d'objets non étiquetés, le
coût lié à l'étiquetage de ces objets peut être un
facteur à ne pas négliger, c'est pourquoi un nombre
réduit d'exemples est là encore souhaitable.
Ce dernier cas est envisageable au sein d'une structure,
où seule une collecte de données a été réalisée sans
accorder d'intérêt particulier à l'étiquetage.
Nous rajouterons que la maintenance dans le temps
d'une base de données est indispensable. En effet, la
mise à disposition de méthodes identifiant les instances
strictement nécessaires à la sauvegarde de l'information
contenue dans la base de données peuvent être d'une
grande utilité aux différents organes qui l'exploitent. Le
filtrage d’exemples s’impose donc comme une étape
majeure dans le processus de l’ECD.
Ces méthodes donnent de bons résultats et permettent
de réduire la granularité de la Base de données
technique sans perte d'information, du moins en ce qui
concerne l'application ordonnancement. En effet,
d'autres applications au sein de l'entreprise peuvent
exprimer le besoin de disposer de données filtrées dans
le cas du pilotage d'atelier.
2.3 Les réseaux à fonction radiale de base (RBF)
Afin de compléter nos travaux, il nous a semblé
intéressant de confronter les arbres de décision avec des
méthodes d'apprentissage supervisé par un réseau de
neurones artificiel. Les réseaux de neurones
"probabilistes" ont plus particulièrement retenu notre
attention.
L'architecture d'un réseau de neurones se révèle plus ou
moins adaptée en fonction de la tâche qu'on lui confie.
Certains sont très efficaces pour l'approximation de
fonctions mathématiques. C'est le cas de la catégorie des
mapping neural networks, cette terminaison anglo-
saxonne illustrant bien l'idée de cartographie d'une
fonction. D'autres, comme les réseaux de neurones à
fonction radiale de base (RBF, Radial Basis Function
Networks), sont plus adaptés aux tâches de classification
(Broomhead et Lowe, 1988). (Moody et Darken, 1989) et
(Segee, 1993) décrivent, de manière détaillée, le
fonctionnement de ce réseau et proposent des algorithmes
d’apprentissage adaptés à son architecture.
En raison de leurs capacités de classification, notre choix
s'est porté assez naturellement sur les réseaux RBF que
nous avons implémenté à l'aide du logiciel MATLAB.
Le réseau a tout d'abord été entraîné à l'aide des exemples
contenus dans la base de données technique. La population
est séparée en deux parties, les données d'entraînement et
les données de vérification. Puis, après avoir entraîné le
réseau RBF, ses capacités de généralisation sont évalués à
l'aide des données de vérification. Les différentes
expériences que nous avons conduites nous ont prouvé sa
grande efficacité dans la classification des exemples de
vérification. Toutefois, nos travaux montrent également
que cette solution pénalise l'étape filtrage du processus de
l'ECD. Ainsi, nous avons remarqué que la réduction du
nombre d'exemples ou de variables, entraînait une légère
diminution des performances du réseau RBF comme nous
allons le voir dans l’exemple suivant.
3. APPLICATION À UN PROBLÈME
D’ORDONNANCEMENT
Nous considérons le cas d'une entreprise désirant
perfectionner son système d'ordonnancement d'atelier.
Cette société utilise l'or comme matière première et
fabrique des gourmettes et des chaînes pour homme,
femme et enfant. Chaque semaine les "donneurs d'ordres"
contactent cette entreprise et passent leur commande. Les
produits sont ainsi fabriqués durant la semaine en
considérant qu'aucun or ne doit rester dans les ateliers de
fabrication durant le week-end afin de réaliser des
économies sur les coûts de stockage.
3.1 Le procédé de fabrication
Le procédé de fabrication comporte six phases auxquelles
une ou plusieurs machines peuvent être associées afin de
réaliser la tâche demandée. La figure 4 présente
succinctement le processus de fabrication d'un produit
(chaîne ou gourmette) à travers ces six étapes.