Classification dans des bases de données par des méthodes de

Téléchargement

Classification dans des bases de données par des

méthodes de datamining

Yawo Eli Amesefe

Guillaume Cernier

Christophe Labrousse

Introduction

L’utilisation généralisée de l’informatique ces dernières dizaines d’années a

conduit à la constitution d’énormes bases de données, les informations étant toujours

plus précises, et facilement maintenables. C’est dans ce contexte que se sont

développées les techniques de fouilles de données, traduction française du terme

anglais datamining.

Au croisement des statistiques et de l’intelligence artificielle, ce terme

générique se compose d’outils théoriques complexes, puissants, et extrêmement

diversifiés ; et au travers d’un véritable processus de traitement, il extrait des méga-

bases de données des informations surprenantes, des associations insoupçonnées, des

modèles prédictifs… .

Appliquée depuis longtemps dans les banques pour prédire les clients à risque,

la fouille de donnée s’est échappée de ce carcan rigide pour envahir des domaines

aussi différents que la grande distribution ou la pharmaceutique. Elle est devenue une

des technologies, ou plutôt un des recueils de technologies, qui allie le mieux la

recherche de pointe, un fort retour sur investissement, et une grande efficacité dans le

domaine de l’aide à la décision.

Nous commencerons par étudier dans ce document, les trois méthodes les plus

utilisées actuellement à savoir les méthodes des arbres de décision, les machines à

support de vecteurs et la régression logistique.

Présentation théorique des méthodes

Les arbres de décision

Présentation

La méthode des arbres de décision consiste à réaliser la classification d’un objet selon

un ensemble de classes prédéfinies, en effectuant une suite de tests sur les attributs

décrivant cet objet. Il s’agit d’un apprentissage supervisé puisque les classes sont

connues à l’avance.

Les tests sont organisés de façon à ce que la réponse à l’un d’eux indique à quel

prochain test on doit soumettre l’objet. Ils sont donc organisés sous forme d’un arbre

dont chaque nœud correspond à un test portant sur un ou plusieurs des attributs de

l’objet, et chaque feuille de cet arbre correspond à une des classes prédéfinies.

Cette technique nécessite donc la construction d’un arbre de décision, à partir d’un

ensemble d’apprentissage S de m exemples, et d’un ensemble de classes prédéfinies

Il faut aussi trouver une mesure pour choisir, à chaque pas de test, le meilleur attribut

à tester à chaque nœud de l’arbre de décision. Ce choix est un critère central pour la

technique des arbres de décision, car il faut choisir l’attribut qui permet discrimine le

mieux les exemples d’apprentissage. Quelques mesures utilisées dans les algorithmes

d’arbres de décision sont décrites dans la section suivante.

Construction d’un arbre de décision

Formalisation du problème

Nous disposons d’un ensemble d’apprentissage S de m exemples ou objets.

On note un de ces exemples. Cet exemple ou objet est décrit par d attributs

et appartient à une classe

Mesures pour la sélection du meilleur attribut

La mesure servant à sélectionner le meilleur attribut à tester à un nœud test doit nous

permettre de rechercher parmi les différents attributs des objets d’un ensemble

d’apprentissage, celui qui possède la plus grande corrélation avec la répartition en

classes. Nous présenterons par la suite trois mesures permettant de choisir le meilleur

attribut, il s’agit de :

• L’entropie croisée

•

La métrique de Gini

• Le critère du

• Le critère de Lerman

Construction récursive de l’arbre de décision

En possession de ces outils, il faut commencer par chercher le meilleur attribut, selon

une mesure fixée, afin de construire le nœud test racine de l’arbre de décision. Une

fois cet attribut identifié, les m objets de l’ensemble d’apprentissage sont projetés

selon les valeurs prises par cet attribut.

Cette projection est représentée dans l’arbre par les branches partant du nœud test vers

les nœuds fils. Le processus est ensuite répété sur chacun des sous ensembles issus de

la projection de l’étape précédente : un meilleur attribut selon la même mesure que

précédemment est recherché parmi les attributs n’ayant pas encore servi à faire un

test.

Le processus s’arrête lorsque tous les objets d’un sous ensemble issu d’une projection

appartiennent à une même classe, ou lorsqu’un de ces sous ensembles est vide (ce qui

signifie qu’aucun objet ne prend la valeur de projection de l’attribut).

D’autre part, s’il ne reste plus d’attribut à tester, le processus s’arrête et les objets

issus de la projection sont considérés comme appartenant à la classe majoritairement

représentée.

Elagage d’un arbre trop précis

L’élagage d’un arbre de décision consiste à chercher une valeur optimale du nombre

de nœuds tests dans l’arbre afin de réduire sa complexité. En effet, une application de

l’algorithme de construction récursive de l’arbre de décision jusqu’à son terme

fabrique un arbre dont les feuilles sont pures dans le meilleur cas, avec un grand

nombre de nœuds tests et une faible cardinalité des ensembles d’objets constituant ces

feuilles.

Pour simplifier cet arbre, une technique consiste à construire complètement l’arbre de

décision puis à l’élaguer progressivement en remontant des feuilles vers la racine. On

élimine en quelques sortes les tests les moins pertinents pour faire le classement des

données, puisque les tests sont effectués à la suite sur les attributs par ordre de

pertinence, l’élagage des feuilles vers la racine se justifie. Pour arrêter l’élagage, on

utilise une mesure de qualité qui exprimera l’erreur commise après élagage de l’arbre

de décision et une mesure de sa complexité. Un exemple d’une telle mesure sera

étudiant dans les sections suivantes.

D’autre part, certains problèmes inhérents à la construction d’arbres de décision se

posent:

Jusqu’à quelle profondeur construire l’arbre ? Comment gérer les attributs à valeurs

continue (pouvant prendre un nombre infini de valeur)? Quelle mesure choisir pour la

sélection des attributs ? Comment gérer des objets possédant des valeurs nulles pour

certains attributs ?

L’a

lgorithme C4.5

L’algorithme C4.5 est une extension de l’algorithme de construction d’arbres de

décision de base [2].

Cet algorithme utilise comme mesure de sélection du meilleur attribut, l’entropie

croisée. Etant donné une classe , et un attribut a, puis et , les ensembles finis

des valeurs qu’elles peuvent prendre. L’entropie croisée de

et a est donné par la

formule :

Cette formule nous vient de la théorie de l’information et peut encore s’écrire sous la

forme d’une différence d’entropies :

Avec , l’entropie de

, et

, l’entropie de sachant a. C’est cette

quantité qui est la plus pertinente car elle permet de voir la probabilité conditionnelle

par rapport à la valeur de la classe.

signifie Probabilité . Dans la pratique, ces probabilités sont

estimées par des pourcentages calculés à partir de l’ensemble d’apprentissage.

L’algorithme d’élagage consiste à construire une séquence d’arbres par suppression

successive des nœuds tests en remontant des feuilles vers la racine ; on élimine ainsi

les tests les moins pertinents pour effectuer la classification.

Notons cette séquence . est l’arbre constitué d’une

seule feuille avec tous les objets de l’ensemble d’apprentissage. Pour passer d’un

arbre

T+

, il faut supprimer un nœud test et fusionner toutes les feuilles filles de

ce nœud. Le critère choisi pour supprimer un nœud consiste à choisir le nœud

qui

minimise sur l’ensemble des nœuds

la valeur suivante :

Où :

est le nombre d’objets de l’ensemble d’apprentissage mal classés par le

nœud de dans l’arbre élagué à .

est le nombre d’objets mal classés dans l’arbre non élagué.

est le nombre de feuille de .

est le nombre de feuilles du sous-arbre de situés sous le nœud .

1 / 32 100%

Documents connexes

algorithme algorithme -bases -une

L`algorithme suivant est décrit en langage pseudo

Faire tourner l`algorithme de gauche « à la main » pour A = 15

2de - algo - aide algobox

Examen de Datamining

Grille d'évaluation orale ISN - Compétences et capacités

Exercice d'algorithme : Boucle "tant que"

Premiers algorithmes… Exercice1 : Exercice2 : Exercice3 : Exercice4:

Exercice 1 : On considère l`algorithme suivant : Variables : n est un

Algorithme Soundex

Le 4 février 2000 - ASI @ INSA Rouen

Considérer l`algorithme

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Classification dans des bases de données par des méthodes de

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Classification dans des bases de données par des méthodes de

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib