le résultat de l'apprentissage, il choisira un système basé sur les arbres de décision, sinon les
deux méthodes sont concurrentes.
On utilisera la méthode perceptron multi-couches (PMC) pour notre analyse, donc on
considère une couche d'entrée qui correspond aux variables d'entrée, une couche de sorties, et
un certain nombre de couches intermédiaires. Les liens n'existent qu'entre les cellules d'une
couche avec les cellules de la couche suivante.
2-Les arbres de décision :
Les arbres de décision permettent de produire des procédures de classification
compréhensibles par l'utilisateur. C'est en particulier le cas pour l'aide au diagnostic médical
où le médecin doit pouvoir interpréter les raisons du diagnostic. Car les arbres de décision
représentent graphiquement un ensemble de règles et sont aisément interprétables. Pour les
arbres de grande taille, la procédure globale peut être difficile à appréhender, cependant, la
classification d'un élément particulier est toujours compréhensible. Les algorithmes
d'apprentissage par arbres de décision sont efficaces, disponibles dans la plupart des
environnements de fouille de données.
On va utiliser J48, qui est une implantation de l'algorithme C4.5.
3- Séparateur à vaste marge (SVM) :
C'est une méthode de classification qui a donnée de bonnes performances dans la résolution
de problèmes variées, elle est adaptée à des ensembles de données de très grandes dimensions.
Cette méthode a montré son efficacité dans de nombreux domaines d'applications tels que la
reconnaissance des formes (burge, 1998),la reconnaissance du locuteur (Kharroubi, 2002), la
catégorisation de textes (Joachims, 1998), le traitement d'images (Zammit, 2008), la
prédiction de séries temporelles, la sélection des variables (El ferchichi et al., 2008) et le
contrôle qualité (bouillant et al., 2003).
Le SVM donne un fort degré de précision, et des bons résultats en généralisation.
Le SVM est plus performante que les réseaux de neurones dans la détection des défauts
lorsque le nombre des échantillons est réduit.
La technique SMO (Sequentiel Minimal Optimisation) est très adaptée grâce a sa rapidité
d’exécution.
4-Boosting :
Une méthode générale pour convertir des règles de prédiction peu performantes en une règle
de prédiction (très) performante.
L’une des premières méthodes mettant en place cette idée est l’algorithme AdaBoost qu’on va
utiliser dans notre analyse.
Techniques d’évaluation :
Cross-validation : pour une valeur K, le jeu est divisé en K partitions. L’une constitue le jeu
de test, les autres forment le jeu d’apprentissage. Ce processus est répété K fois, chaque
partition étant utilisée une fois comme jeu de test. Une valeur de 10 pour K en général
conseillée.
Use training Set : toutes les données servent à la fois à apprendre et à tester les modèles.