Sujet de mastère SIC : Approches de Construction Dynamique de
Forêts Aléatoires
Au cours de ces dernières années, les chercheurs qui travaillent sur les problématiques de
Reconnaissance de Formes, se sont de plus en plus intéressés aux méthodes de classification qui
utilisent des Combinaisons de Classifieurs. Certaines de ces méthodes ont montré qu'elles étaient
particulièrement performantes. L'une des plus efficaces, et des plus récentes par ailleurs, est la
famille de méthodes appelée Forêts Aléatoires (Random Forests).
Les méthodes de Forêts Aléatoires s'appuient sur la combinaison parallèle d'un nombre arbitraire
de classifieurs élémentaires de type Arbres de Décision. Un Arbre de Décision est un outil d'aide
à la décision et à l'exploration de données qui, comme son nom l'indique, prend la forme d'un
arbre, et qui permet de modéliser simplement, graphiquement et rapidement la répartition d'une
population de données en groupes homogènes. Au sein d'une Forêt Aléatoire, chaque arbre est
construit avec des valeurs de paramètres choisies aléatoirement. De cette façon on peut obtenir
un ensemble d'Arbres de Décision adaptés au problème, mais différents les uns des autres et
pouvant prendre des décisions différentes. S'agissant alors de classer un individu quelconque de
la population de données étudiée, tous les Arbres de Décision fournissent un « vote » pour une
classe, que l'on combine ensuite, généralement à l'aide d'un vote à la majorité, pour obtenir la
décision finale.
Les Forêts Aléatoires constituent une nouvelle famille de méthodes de classification dont la
popularité auprès de la communauté scientifique va grandissante. Cette famille de méthodes fait
l'objet d'études de plus en plus nombreuses, chacune contribuant à montrer qu'elles sont des
méthodes pratiques, efficaces et performantes. Nous proposons pour notre part d'étudier certaines
évolutions et améliorations possibles des algorithmes d'induction de Forêts Aléatoires.
Les algorithmes d'induction de Forêts Aléatoires dit « classiques », suivent généralement le
même schéma:
• Définition du facteur aléatoire introduit dans la construction des Arbres de Décision.
• Construction statique d'un nombre préalablement fixé d'Arbres de Décision.
• Mise en place d'une méthode de combinaison des décisions.
L'objectif du sujet est d'élaborer un principe de construction non plus statique mais dynamique,
d'une Forêt Aléatoire qui s'appuierait sur une « sélection » des Arbres de Décision utilisés dans la
forêt. Le but serait de pouvoir « guider » l'induction aléatoire des arbres, sur des critères plus
déterministes. Une première question qui se pose alors est : « Quel critère faut-il mettre en œuvre
pour la construction dynamique de Forêts Aléatoires? ». Si quelques chercheurs ont mis en
évidence l'importance de certaines propriétés pour la construction d'un ensemble de classifieurs,
comment les prendre en compte dans la construction dynamique des Forêts Aléatoires?
La deuxième question importante à laquelle il faut répondre est : « Quelle méthode de sélection
de classifieurs faut-il mettre en œuvre pour la construction dynamique de Forêts Aléatoires? ».
Les méthodes proposées dans la littérature sont-elles adaptées aux Forêts Aléatoires ou est-il
nécessaire de mettre au point un algorithme spécifique de sélection d'arbres de décision?
C'est à toutes ces questions que nous aimerions apporter des réponses, l'objectif étant, après une
analyse bibliographique des solutions proposées dans la littérature, de mettre en oeuvre plusieurs
schémas de construction dynamique de Forêts Aléatoires et de réaliser une étude comparative de
ces méthodes avec les méthodes dites « classiques ». Les expériences seront menées sur des
problèmes de reconnaissance de mots manuscrits arabes issus de la base IFN.