Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Université Mohamed Khider - Biskra
Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie
Département d’Informatique
Thèse
présentée pour l’obtention du diplôme de
Docteur en sciences
spécialité
Informatique
Utilisation des méthodes Support
Vector Machine (SVM) dans l’analyse
des bases de données
Présentée par : Abdelhamid DJEFFAL
Directeur de thèse : Dr. Mohamed Chaouki BABAHENINI
Co-Encadrant : Pr. Abdelmalik TALEB AHMED
Jury :
- Pr. DJEDI Noureddine Université de Biskra Président
- Dr. BABAHENINI Mohamed Chaouki Université de Biskra Rapporteur
- Pr. BALLA Amar ESI Examinateur
- Pr. FARAH Nadir Université de Annaba Examinateur
- Dr. ATHMANI Baghdad Université d’Oran Examinateur
- Dr. CHERIF Foudil Université de Biskra Examinateur
- Pr. TALEB-AHMED Abdelmalik Université de Valenciennes Invité
Année Universitaire 2011/2012
Dédicaces
À
mes parents,
ma femme,
mes filles,
mes frères et soeurs,
mes enseignants,
et mes amis,
je dédie ce modeste travail.
Remerciements
Je tiens premièrement à prosterner remerciant Allah le tout puissant de m’avoir donné le
courage et la patience pour terminer ce travail.
Je remercie ensuite mon cher encadreur Dr. Babahenini Mohamed Chaouki pour m’avoir
honoré par son encadrement, ses conseils précieux, sa patience et ses nobles valeurs humaines.
Je remercie également mon co-encadreur Pr. Taleb-Ahmed Abdelmalik, professeur à l’univer-
sité de valenciennes, pour m’avoir accueilli chaleureusement dans son laboratoire LAMIH, pour
ses conseils, ses lectures enrichissantes et son suivi continu.
Mes remerciements vont également aux membres de jury : Pr N.Djedi, Dr F.Cherif, Dr
B.Athmani, Pr A.Bala et Pr N.Farah pour m’avoir honoré par leur évaluation de ce travail.
Je témoigne toute ma reconnaissance à Mme A.Mohamedi et mon cousin Khaled Djeffal pour
leurs lectures de cette thèse.
Un grand merci va également à l’ensemble des membres du laboratoire LESIA avec qui je
partage bien plus qu’un lieu de travail.
Résumé
Le data mining est une discipline en pleine expansion qui vise l’extraction des connaissances
pertinentes des grandes quantités de données. Elle utilise des outils provenant des statistiques,
de l’intelligence artificielle, et des techniques d’optimisation, ...etc. Le data mining vient même
d’être intégré dans des grands systèmes de gestion de bases de données tel que Oracle.
La technique des machines à vecteurs supports (SVM) est une méthode d’apprentissage statis-
tique qui a connu, cette dernière décennie, un grand développement en théorie et en application.
Elle repose sur un fondement théorique solide basé sur le principe de maximisation de la marge, ce
qui lui confie une grande capacité de généralisation. Les SVMs ont été utilisées avec succès dans
plusieurs domaines tels que la reconnaissance des visages, des textes manuscrits, de la parole,
...etc.
Dans ce travail, nous avons traité la question de l’utilisation de la méthode SVM pour l’analyse
des bases de données. En effet, Le processus d’analyse passe par plusieurs étapes, dans chacune,
les données subissent des traitements qui peuvent être optimisés par l’utilisation de la méthode
SVM. L’objectif de cette thèse est d’étudier les possibilités d’utilisation de cette méthode dans
les différents niveaux du processus d’analyse.
Nos principales contributions, dans cette thèse, peuvent se résumer en trois points :
1. Nous avons analysé les utilisations possibles des SVMs dans les différentes tâches des deux
niveaux les plus importants du processus d’analyse des bases de données, à savoir la pré-
paration et l’analyse. Nous avons discuté, sans implémentation, les différentes variantes de
la méthode SVMs qui peuvent être utilisées ainsi que les adaptations nécessaires face aux
attributs symboliques et aux grandes quantités de données.
2. Nous avons proposé une nouvelle méthode de prétraitement pour améliorer les performances
de la méthode SVM en face des grandes bases de données. Cette méthode, que nous avons
appelée CB-SR (Covering Based Samples Reduction), se base sur la détection précoce des
vecteurs supports en utilisant la visibilité des exemples les uns vis à vis des autres dans
l’espace de caractéristiques. La méthode a permis d’accélérer l’opération d’entrainement
tout en préservant la précision de la méthode SVM.
3. Nous avons proposé une nouvelle méthode pour l’accélération des SVMs multiclasse par
l’utilisation de la SVM monoclasse. La méthode, appelée OCBM-SVM (One Class based
Multiclass SVM), se base sur l’apprentissage d’un hyperplan, pour chaque classe, que nous
généralisons par un décalage. La méthode proposée a donné des résultats intéressants par
rapport aux méthodes, une-contre-une et une-contre-reste, actuellement utilisées.
Les contributions proposées ont été validées sur des données artificielles et réelles largement
utilisées par la communauté, et appuyées par des analyses montrant leurs avantages et leurs
limites. Les résultats sont encourageants et ouvrent de nouvelles perspectives de recherche.
Mots clés : Datamining, machine à vecteurs supports, apprentissage statistique, analyse des
bases de données, réduction d’exemples.

אאאאאאאאאK
،א،אא،אאאKKK
אאאאאאאאK
אאאאאא،אא
אאאKאאא،
אKאא،אאאאא
אאאאא،אK
אאאאאאאאKאאא
אאאאאKא
אאאאאאאאK
אW
،אא،אאאא
אאאאאאאאאאאאK
אאאאאאאא
אאKאאאאאא
אא،אאאKא
אאאK
אא
אאאאאאאK
אאKאא
אאאאאK
א א  א  א אאא א،
KאK
אא
W،אא،אא،אא،אא
אK
1 / 132 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !