Classification dans des bases de données par des
méthodes de datamining
Yawo Eli Amesefe
Guillaume Cernier
Christophe Labrousse
Introduction
L’utilisation généralisée de l’informatique ces dernières dizaines d’années a
conduit à la constitution d’énormes bases de données, les informations étant toujours
plus précises, et facilement maintenables. C’est dans ce contexte que se sont
développées les techniques de fouilles de données, traduction française du terme
anglais datamining.
Au croisement des statistiques et de l’intelligence artificielle, ce terme
générique se compose d’outils théoriques complexes, puissants, et extrêmement
diversifiés ; et au travers d’un véritable processus de traitement, il extrait des méga-
bases de données des informations surprenantes, des associations insoupçonnées, des
modèles prédictifs… .
Appliquée depuis longtemps dans les banques pour prédire les clients à risque,
la fouille de donnée s’est échappée de ce carcan rigide pour envahir des domaines
aussi différents que la grande distribution ou la pharmaceutique. Elle est devenue une
des technologies, ou plutôt un des recueils de technologies, qui allie le mieux la
recherche de pointe, un fort retour sur investissement, et une grande efficacité dans le
domaine de l’aide à la décision.
Nous commencerons par étudier dans ce document, les trois méthodes les plus
utilisées actuellement à savoir les méthodes des arbres de décision, les machines à
support de vecteurs et la régression logistique.
Présentation théorique des méthodes
Les arbres de décision
Présentation
La méthode des arbres de décision consiste à réaliser la classification d’un objet selon
un ensemble de classes prédéfinies, en effectuant une suite de tests sur les attributs
décrivant cet objet. Il s’agit d’un apprentissage supervisé puisque les classes sont
connues à l’avance.
Les tests sont organisés de façon à ce que la réponse à l’un d’eux indique à quel
prochain test on doit soumettre l’objet. Ils sont donc organisés sous forme d’un arbre
dont chaque nœud correspond à un test portant sur un ou plusieurs des attributs de
l’objet, et chaque feuille de cet arbre correspond à une des classes prédéfinies.
Cette technique nécessite donc la construction d’un arbre de décision, à partir d’un
ensemble d’apprentissage S de m exemples, et d’un ensemble de classes prédéfinies
Il faut aussi trouver une mesure pour choisir, à chaque pas de test, le meilleur attribut
à tester à chaque nœud de l’arbre de décision. Ce choix est un critère central pour la
technique des arbres de décision, car il faut choisir l’attribut qui permet discrimine le
mieux les exemples d’apprentissage. Quelques mesures utilisées dans les algorithmes
d’arbres de décision sont décrites dans la section suivante.
Construction d’un arbre de décision
Formalisation du problème
Nous disposons d’un ensemble d’apprentissage S de m exemples ou objets.
On note un de ces exemples. Cet exemple ou objet est décrit par d attributs
et appartient à une classe
Mesures pour la sélection du meilleur attribut
La mesure servant à sélectionner le meilleur attribut à tester à un nœud test doit nous
permettre de rechercher parmi les différents attributs des objets d’un ensemble
d’apprentissage, celui qui possède la plus grande corrélation avec la répartition en
classes. Nous présenterons par la suite trois mesures permettant de choisir le meilleur
attribut, il s’agit de :
L’entropie croisée
La métrique de Gini
Le critère du
Le critère de Lerman
Construction récursive de l’arbre de décision
En possession de ces outils, il faut commencer par chercher le meilleur attribut, selon
une mesure fixée, afin de construire le nœud test racine de l’arbre de décision. Une
fois cet attribut identifié, les m objets de l’ensemble d’apprentissage sont projetés
selon les valeurs prises par cet attribut.
Cette projection est représentée dans l’arbre par les branches partant du nœud test vers
les nœuds fils. Le processus est ensuite répété sur chacun des sous ensembles issus de
la projection de l’étape précédente : un meilleur attribut selon la même mesure que
précédemment est recherché parmi les attributs n’ayant pas encore servi à faire un
test.
Le processus s’arrête lorsque tous les objets d’un sous ensemble issu d’une projection
appartiennent à une même classe, ou lorsqu’un de ces sous ensembles est vide (ce qui
signifie qu’aucun objet ne prend la valeur de projection de l’attribut).
D’autre part, s’il ne reste plus d’attribut à tester, le processus s’arrête et les objets
issus de la projection sont considérés comme appartenant à la classe majoritairement
représentée.
Elagage d’un arbre trop précis
L’élagage d’un arbre de décision consiste à chercher une valeur optimale du nombre
de nœuds tests dans l’arbre afin de réduire sa complexité. En effet, une application de
l’algorithme de construction récursive de l’arbre de décision jusqu’à son terme
fabrique un arbre dont les feuilles sont pures dans le meilleur cas, avec un grand
nombre de nœuds tests et une faible cardinalité des ensembles d’objets constituant ces
feuilles.
Pour simplifier cet arbre, une technique consiste à construire complètement l’arbre de
décision puis à l’élaguer progressivement en remontant des feuilles vers la racine. On
élimine en quelques sortes les tests les moins pertinents pour faire le classement des
données, puisque les tests sont effectués à la suite sur les attributs par ordre de
pertinence, l’élagage des feuilles vers la racine se justifie. Pour arrêter l’élagage, on
utilise une mesure de qualité qui exprimera l’erreur commise après élagage de l’arbre
de décision et une mesure de sa complexité. Un exemple d’une telle mesure sera
étudiant dans les sections suivantes.
D’autre part, certains problèmes inhérents à la construction d’arbres de décision se
posent:
Jusqu’à quelle profondeur construire l’arbre ? Comment gérer les attributs à valeurs
continue (pouvant prendre un nombre infini de valeur)? Quelle mesure choisir pour la
sélection des attributs ? Comment gérer des objets possédant des valeurs nulles pour
certains attributs ?
L’a
lgorithme C4.5
L’algorithme C4.5 est une extension de l’algorithme de construction d’arbres de
décision de base [2].
Cet algorithme utilise comme mesure de sélection du meilleur attribut, l’entropie
croisée. Etant donné une classe , et un attribut a, puis et , les ensembles finis
des valeurs qu’elles peuvent prendre. L’entropie croie de
!
et a est donné par la
formule :
Cette formule nous vient de la théorie de l’information et peut encore s’écrire sous la
forme d’une différence d’entropies :
Avec , l’entropie de
!
, et
, l’entropie de sachant a. C’est cette
quantité qui est la plus pertinente car elle permet de voir la probabilité conditionnelle
par rapport à la valeur de la classe.
signifie Probabilité . Dans la pratique, ces probabilités sont
estimées par des pourcentages calculés à partir de l’ensemble d’apprentissage.
L’algorithme d’élagage consiste à construire une séquence d’arbres par suppression
successive des nœuds tests en remontant des feuilles vers la racine ; on élimine ainsi
les tests les moins pertinents pour effectuer la classification.
Notons cette séquence . est l’arbre constitué d’une
seule feuille avec tous les objets de l’ensemble d’apprentissage. Pour passer d’un
arbre
k
T
à
1k
T+
, il faut supprimer un nœud test et fusionner toutes les feuilles filles de
ce nœud. Le critère choisi pour supprimer un nœud consiste à choisir le nœud
!
qui
minimise sur l’ensemble des nœuds
k
T
la valeur suivante :
Où :
est le nombre d’objets de l’ensemble d’apprentissage mal classés par le
nœud de dans l’arbre élagué à .
est le nombre d’objets mal classés dans l’arbre non élagué.
est le nombre de feuille de .
est le nombre de feuilles du sous-arbre de situés sous le nœud .
1 / 32 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!