Résumé
Le data mining est une discipline en pleine expansion qui vise l’extraction des connaissances
pertinentes des grandes quantités de données. Elle utilise des outils provenant des statistiques,
de l’intelligence artificielle, et des techniques d’optimisation, ...etc. Le data mining vient même
d’être intégré dans des grands systèmes de gestion de bases de données tel que Oracle.
La technique des machines à vecteurs supports (SVM) est une méthode d’apprentissage statis-
tique qui a connu, cette dernière décennie, un grand développement en théorie et en application.
Elle repose sur un fondement théorique solide basé sur le principe de maximisation de la marge, ce
qui lui confie une grande capacité de généralisation. Les SVMs ont été utilisées avec succès dans
plusieurs domaines tels que la reconnaissance des visages, des textes manuscrits, de la parole,
...etc.
Dans ce travail, nous avons traité la question de l’utilisation de la méthode SVM pour l’analyse
des bases de données. En effet, Le processus d’analyse passe par plusieurs étapes, dans chacune,
les données subissent des traitements qui peuvent être optimisés par l’utilisation de la méthode
SVM. L’objectif de cette thèse est d’étudier les possibilités d’utilisation de cette méthode dans
les différents niveaux du processus d’analyse.
Nos principales contributions, dans cette thèse, peuvent se résumer en trois points :
1. Nous avons analysé les utilisations possibles des SVMs dans les différentes tâches des deux
niveaux les plus importants du processus d’analyse des bases de données, à savoir la pré-
paration et l’analyse. Nous avons discuté, sans implémentation, les différentes variantes de
la méthode SVMs qui peuvent être utilisées ainsi que les adaptations nécessaires face aux
attributs symboliques et aux grandes quantités de données.
2. Nous avons proposé une nouvelle méthode de prétraitement pour améliorer les performances
de la méthode SVM en face des grandes bases de données. Cette méthode, que nous avons
appelée CB-SR (Covering Based Samples Reduction), se base sur la détection précoce des
vecteurs supports en utilisant la visibilité des exemples les uns vis à vis des autres dans
l’espace de caractéristiques. La méthode a permis d’accélérer l’opération d’entrainement
tout en préservant la précision de la méthode SVM.
3. Nous avons proposé une nouvelle méthode pour l’accélération des SVMs multiclasse par
l’utilisation de la SVM monoclasse. La méthode, appelée OCBM-SVM (One Class based
Multiclass SVM), se base sur l’apprentissage d’un hyperplan, pour chaque classe, que nous
généralisons par un décalage. La méthode proposée a donné des résultats intéressants par
rapport aux méthodes, une-contre-une et une-contre-reste, actuellement utilisées.
Les contributions proposées ont été validées sur des données artificielles et réelles largement
utilisées par la communauté, et appuyées par des analyses montrant leurs avantages et leurs
limites. Les résultats sont encourageants et ouvrent de nouvelles perspectives de recherche.
Mots clés : Datamining, machine à vecteurs supports, apprentissage statistique, analyse des
bases de données, réduction d’exemples.