La métrique de Gini
• Le critère du
• Le critère de Lerman
Construction récursive de l’arbre de décision
En possession de ces outils, il faut commencer par chercher le meilleur attribut, selon
une mesure fixée, afin de construire le nœud test racine de l’arbre de décision. Une
fois cet attribut identifié, les m objets de l’ensemble d’apprentissage sont projetés
selon les valeurs prises par cet attribut.
Cette projection est représentée dans l’arbre par les branches partant du nœud test vers
les nœuds fils. Le processus est ensuite répété sur chacun des sous ensembles issus de
la projection de l’étape précédente : un meilleur attribut selon la même mesure que
précédemment est recherché parmi les attributs n’ayant pas encore servi à faire un
test.
Le processus s’arrête lorsque tous les objets d’un sous ensemble issu d’une projection
appartiennent à une même classe, ou lorsqu’un de ces sous ensembles est vide (ce qui
signifie qu’aucun objet ne prend la valeur de projection de l’attribut).
D’autre part, s’il ne reste plus d’attribut à tester, le processus s’arrête et les objets
issus de la projection sont considérés comme appartenant à la classe majoritairement
représentée.
Elagage d’un arbre trop précis
L’élagage d’un arbre de décision consiste à chercher une valeur optimale du nombre
de nœuds tests dans l’arbre afin de réduire sa complexité. En effet, une application de
l’algorithme de construction récursive de l’arbre de décision jusqu’à son terme
fabrique un arbre dont les feuilles sont pures dans le meilleur cas, avec un grand
nombre de nœuds tests et une faible cardinalité des ensembles d’objets constituant ces
feuilles.
Pour simplifier cet arbre, une technique consiste à construire complètement l’arbre de
décision puis à l’élaguer progressivement en remontant des feuilles vers la racine. On
élimine en quelques sortes les tests les moins pertinents pour faire le classement des
données, puisque les tests sont effectués à la suite sur les attributs par ordre de
pertinence, l’élagage des feuilles vers la racine se justifie. Pour arrêter l’élagage, on
utilise une mesure de qualité qui exprimera l’erreur commise après élagage de l’arbre
de décision et une mesure de sa complexité. Un exemple d’une telle mesure sera
étudiant dans les sections suivantes.
D’autre part, certains problèmes inhérents à la construction d’arbres de décision se
posent:
Jusqu’à quelle profondeur construire l’arbre ? Comment gérer les attributs à valeurs
continue (pouvant prendre un nombre infini de valeur)? Quelle mesure choisir pour la
sélection des attributs ? Comment gérer des objets possédant des valeurs nulles pour
certains attributs ?