I. Redko et Y. Bennani
1.2 Principe de sous-espaces aléatoires
Dans ce travail, nous proposons une nouvelle approche Random Subspaces NMF (RS-
NMF) pour l’apprentissage par transfert non-supervisé. Cette approche combine la technique
d’échantillonnage dans l’espace des caractéristiques et l’idée de l’apprentissage par ensemble.
Bagging (Breiman, 1996), un nom dérivé de l’agrégation par bootstrap, a été la première
méthode de l’apprentissage par ensemble et l’une des méthodes les plus simples d’ensemble.
Le méta-algorithme, qui est un cas particulier du moyennage de modèles, a été conçu à l’ori-
gine pour la classification et il est habituellement appliqué sur les modèles d’arbres de décision,
mais il peut être utilisé avec n’importe quel type de modèle, que ce soit pour la classification ou
pour la régression. Le principe de sous-espaces aléatoires est une approche intéressante pour
générer des modèles qui ensuite peuvent être combinés. Les classifieurs sont appris sur des
sous-espaces de l’espace de description d’origine, choisis au hasard (l’ensemble d’apprentis-
sage est échantillonné dans l’espace des caractéristiques). Les sorties des modèles sont ensuite
combinées, généralement par un vote majoritaire. Plusieurs chercheurs ont utilisé ce principe
pour de nombreux classifieurs. Dans le cas supervisé, des algorithmes rapides, comme les
arbres de décision sont couramment utilisés avec des ensembles, néanmoins, les algorithmes
plus lents peuvent aussi bénéficier de techniques d’ensemble. Plusieurs exemples de cette ap-
proche peuvent être trouvés dans (Ho, 1998) (Breiman, 2001), où le classifieur se compose
de plusieurs arbres construites systématiquement en sélectionnant des sous-ensembles de ca-
ractéristiques, c’est-à-dire les arbres sont construites dans des sous-espaces choisis au hasard
(Random Forest). Les arbres dans différents sous-espaces généralisent leur classification de
façon complémentaire, et leur classification combinée peut être améliorée de façon monotone.
Dans le cas non supervisé, le clustering dans des sous-espaces est une extension du clus-
tering traditionnel qui vise à trouver des clusters homogènes dans les différents sous-espaces
d’un ensemble de données. Les algorithmes classiques de clustering utilisent toutes les dimen-
sions d’un ensemble de données d’entrée pour en apprendre autant que possible sur chaque
objet représenté. Cependant, pour les données de grande dimension, la plupart des dimensions
ne sont pas pertinentes. Ces dimensions non pertinentes perturbent les performances d’un al-
gorithme de classification en cachant les vrais clusters dans des groupes de données bruités.
Le clustering dans les sous-espaces a pour but de trouver tous les clusters dans tous les sous-
espaces. Cela signifie qu’un point peut faire partie de plusieurs groupes, qui existent dans des
sous-espaces différents. Par conséquent, il est nécessaire de regrouper simultanément les don-
nées dans de multiples sous-espaces et de trouver un consensus pour obtenir une classification
finale. Ce problème, connu sous le nom de Subspace clustering, a trouvé de nombreuses appli-
cations. Un certain nombre d’approches de clustering dans les sous-espaces ont été proposées
dans les deux dernières décennies. Une revue portant sur ces méthodes peut être trouvée dans
Parsons et al. (2004). Dans notre approche RS-NMF, ce paradigme sera utilisé pour l’appren-
tissage par transfert. En effet, ce paradigme divise les connaissances de l’espace source en
sous-espaces de connaissances et fait une sélection des connaissances les plus pertinentes pour
le transfert vers l’espace cible. Le principe de notre méthode est proche des approches multi-
vues proposées dans Akata et al. (2011) Gao et al. (2013).
Le reste de ce papier est organisé comme suit : dans la section 2, nous allons présenter
brièvement les notations de la factorisation matricielle non-négative de base, dans la section 3,
nous introduisons Random Subspaces NMF pour l’apprentissage par transfert non-supervisé.