CHAPITRE 2. La sélection de variables 4
© Yosr NAIJA Avril 2015 © Marwa KAABI
2.3.1.1 La procédure de génération
La procédure de génération permet, à chaque itération, de générer un sous-ensemble
d’attributs qui va être évalué lors de la seconde étape de la procédure de sélection.
Cette procédure de génération peut soit commencer avec un ensemble vide d’attributs,
soit avec l’ensemble de tous les attributs, soit avec un sous-ensemble d’attributs choisis
aléatoirement. Dans les deux premiers cas, les attributs sont itérativement ajoutés
(Forward selection) ou retirés (Backward selection). Dans le troisième cas, soit on
ajoute, ou on retire des attributs comme dans les deux premiers cas, soit un nouveau
sous-ensemble d’attributs est créé de manière aléatoire à chaque itération (Random
generation).
Vu le nombre exhaustif de sous-ensemble candidats d'attributs, les méthodes de
génération peuvent être classées en trois grandes approches de génération ont été
proposées dans la littérature, la génération complète, la génération aléatoire et la
génération séquentielle [10], [11].
2.3.1.1.1 La génération complète
Dans la procédure de génération complète, un e recherche exhaustive est effectuée pour
trouver l'ensemble optimal d'attributs sur tout l'espace des solutions possibles, qui est
de l'ordre O(2N). Plusieurs procédures de recherche heuristique sont proposées afin de
réduire l'espace de recherche sans pour autant compromettre les chances de trouver le
sous-ensemble optimal à évaluer.
2.3.1.1.2 La génération aléatoire (heuristique)
Cette procédure de génération aléatoire n'évalue pas toutes les solutions possibles dans
l'espace de recherche de l'ordre O(2N), contrairement aux procédures de génération
complète. Un nombre maximal d'itérations est imposé afin de limiter le temps de calcul.
L'avantage de cette procédure est qu'elle ne nécessite pas l'utilisation de fonction
d'évaluation monotone. D'autre part, contrairement aux méthodes de génération
complète dont la complexité est exponentielle vis-à-vis de la dimension initial de
l'espace d'attributs. Plusieurs méthodes sont basées sur les algorithmes génétiques
(AG), initiés par Holland en 1975 [12], sont les méthodes de génération aléatoire les plus
utilisées [13].
2.3.1.1.3 La génération séquentielle
Le principe des procédures de génération séquentielle est d'ajouter ou supprimer un ou
plusieurs attributs au fur et à mesure des itérations. C'est-à-dire à chaque itération de
cette procédure, on considère à nouveau tout l'ensemble des attributs restants pour
l'étape de la sélection. La génération des sous-ensembles est typiquement incrémentable
(diminution/augmentation) dans un espace de recherche de l'ordre O(N2). On distingue
alors deux approches de génération séquentielle: