2.2 Construction des arbres
Dans le cas de l’apprentissage supervisé, les arbres de clas-
sification prennent une décision binaire qui donne l’appar-
tenance, ou non, à la classe considérée. La construction
des arbres se fait itérativement, noeud après noeud. Les in-
dividus qui arrivent à un noeud sont séparés en plusieurs
groupes et dirigés vers les noeuds fils. Ce processus est ef-
fectué jusqu’à ce que les groupes d’individus soient homo-
gène en classe ou qu’il respecte un critère d’homogénéité.
Les méthodes connues [17] [19] [20] [21] diffèrent par le
critère de séparation en un noeud donné, certains traitent le
cas d’attributs manquant [19], d’autres considèrent des cri-
tères de séparation dans un espace multidimensionnel [25],
etc ·Lors de la construction de l’arbre, en chaque noeud, il
est nécessaire de trouver l’attribut et la valeur de coupure
associée qui maximisent un certain gain d’information G,
soit le critère suivant :
arg max
{d,Sd}G(Sd)(1)
où dindice les attributs et Sdest la valeur de coupure as-
sociée à l’attributs d. L’un des critères les plus reconnus
utilise l’entropie de Shannon [19] telle que :
G= X
m
Em!−E0
Em=−X
i
pmilog(pmi)
.(2)
où E0est l’entropie des classes au noeud parent du noeud
considéré, Eml’entropie obtenue au noeud fils met pmi
la probabilité de la classe idans le noeud fils m. Une fois
l’arbre construit, tout individu sans label est propagé dans
l’arbre, en suivant les règles de décision, jusqu’à atteindre
un noeud terminal. Puis le label associé au noeud terminal
est attribué à l’individu sans label.
Les techniques d’arbres aléatoires, comme les forêts aléa-
toires [22] [23], se servent de l’instabilité des arbres pour
améliorer les performances de classification. Chaque arbre
de la forêt est conçu à partir d’un sous-échantillon choisi
aléatoirement dans la base d’apprentissage. De plus, pour
un noeud donné, le couple {d, Ss}qui maximise Gest
choisi à partir d’un sous-échantillon des attributs, lui aussi
choisi aléatoirement. Ces sous-échantillons d’individus et
d’attributs permettent de créer de l’instabilité d’un arbre à
l’autre, et donc de contrer les effets de sur-apprentissage
induit par les arbres. Un individu de la base de test est la-
bellisé autant de fois qu’il y a d’arbre dans la forêt, puis un
système de vote attribue le label final.
3 Arbres de classification et appren-
tissage faiblement supervisée
Dans cette partie, nous proposons une méthode pour établir
un modèle de classification dans le cas de l’apprentissage
faiblement supervisé. Ensuite, nous suggérons une règle
d’association des labels probabilistes dans le cas des forêts
aléatoires, puis une étape d’initialisation, sous la forme de
fusion de classifieur, est proposée.
3.1 Apprentissage
Nous proposons d’établir un nouveau critère pour
construire un arbre dans le cas de l’apprentissage faible-
ment supervisé. En s’appuyant sur la méthode C4.5 [19],
nous proposons un critère de séparation des données basé
sur l’a priori des classes. Il s’agit d’exprimer {pmi}, la
probabilité de la classe idans le noeud m, en fonction de
{πkn}, l’a priori pour chaque échantillon. Pour un attribut
d, en notant xd
kn la projection de xkn sur l’attribut dtel
que les valeurs de xkn soient inférieures à Sd(nous consi-
dérons ici que le noeud fils mregroupe les individus dont
les valeurs sur dsont inférieures à Sd), la probabilité de la
classe idans ms’exprime ainsi :
pmi =X
{k,n}|{xkn }≤Sd
(πki)α
I
X
j=1
X
{k,n}|{xkn }≤Sd
(πkj )α
(3)
où αest un paramètre. Nous souhaitons pouvoir assigner à
tout sous-ensemble de données d’apprentissage un a priori
global à partir des a priori de classification connus pour
chaque élément. Une première approche consiste effecti-
vement à considérer une moyenne (cas α=1). Cette solu-
tion présente toutefois l’inconvénient de donner la même
importance dans le calcul de la moyenne aux échantillons
présentant une forte (i.e. a priori uniforme) et faible in-
certitude. L’introduction de l’exposant alpha répond à ce
problème. L’expression (3) peut être vue comme le cal-
cul d’une moyenne pondérée : pour α> 1, les individus de
moindre incertitude voient leur contribution au calcul de la
moyenne renforcée contrairement aux échantillons présen-
tant une forte incertitude. On peut également rapprocher
cette proposition des entropies de type Rényi [26] qui ex-
ploite le même principe de pondération relative des contri-
butions de chaque terme de probabilités par une fonction
puissance. Il peut également être noté qu’asymptotique-
ment pour des grandes valeurs de α,pmi tend vers 1 pour la
probabilité a priori πki maximale dans l’échantillon traité.
Notons que la densité de probabilité pm= [pm1. . . pmI ]
est associée à chaque noeud m, et ainsi, contrairement au
cas supervisé, le noeud final est lui-même associé à un
vecteur label qui représente la densité de probabilité des
classes.
3.2 Test
Une fois que la technique de construction d’un arbre fai-
blement supervisé est acquise, une forêt aléatoire [22] peut
être élaborée. Soit t, tel que 1≤t≤T, un arbre de
la forêt. Un individu test xparcourt chaque arbre de la
forêt, donnant à chaque fois une densité de probabilité
pt= [pt1. . . ptI ]aux noeuds terminaux. Finalement, la