Transformation de l’espace de description
transformation de cet espace afin de faciliter le processus d’apprentissage par transfert. La
factorisation approximative et la factorisation tensorielle (ou la décomposition) d’une matrice
jouent un rôle fondamental dans l’amélioration des données et l’extraction de composantes
latentes. Un point commun pour la suppression du bruit, la réduction du modèle, la recons-
truction de faisabilité, et la séparation aveugle de sources (Blind Source Separation) est de
remplacer les données d’origines par une représentation approximative reduite des dimensions
obtenues via une matrice, ou une factorisation ou éventuellement d’une décomposition matri-
cielle. La décomposition en valeurs singulières (SVD) traite les lignes et les colonnes d’une
manière symétrique, et fournit donc plus d’informations sur la matrice des données. Cette mé-
thode permet aussi de trier l’information contenue dans la matrice de telle sorte que, de façon
générale, la «partie pértinente» devienne visible. C’est la propriété qui rend la SVD si utile en
"data mining" et de nombreux autres domaines. La méthode de bidiagonalisation GK (Golub-
Kahan) a été initialement formulée (Golub et Kahan, 1965) pour le calcul de la SVD. Cette
méthode peut être aussi utilisée pour calculer une bidiagonalisation partielle.
Dans notre méthode nous utilisons cette technique pour les données "sparse" et l’Analyse
en Composants Principales (ACP) pour les autres jeux de données.
Le reste de cet article est organisé comme suit. La Section 2 présente brièvement le principe
de la factorisation matricielle et l’utilisation de cette technique pour le clustering, ainsi que
les principes de l’apprentissage par transfert. Les methodes proposées pour l’apprentissage
non supervisé et l’apprentisage topologique par transfert sont presentées dans la section 2.1
et 2.2 respectivement. Dans la section 3, nous présentons les résultats de la validation et leur
interprétation. Une conclusion et des perspectives sont données dans la section 4.
2 Transformation de l’espace de description
2.1 Transformation non supervisée
L’apprentissage non-supervisé est souvent utilisé pour le clustering des données et rare-
ment comme un procedé de prétraitement de données. Toutefois, il existe un certain nombre
de méthodes qui produisent de nouvelles représentations de données à partir des données non
étiquetés. Ces méthodes non supervisées sont parfois utilisées comme un outil de prétraite-
ment pour des modèles d’apprentissage supervisé. Étant donné une matrice de données re-
présentée comme des vecteurs de variables (pobservations en lignes et ncaractéristiques en
colonnes), le but de la transformation non supervisée de l’espace de description est de produire
une autre matrice de données de dimension (p, n0)(la représentation transformée de n0nou-
velles variables latentes) ou une matrice de similarité entre les données de dimension (p, p).
L’application d’une méthode supervisée sur la matrice transformée doit fournir de meilleurs
résultats par rapport à la base de données initiale. La transformation de l’espace de description
se fait suivant deux étapes successives. Dans un premier temps, nous décomposons la matrice
"sparse" des données selon la méthode SVD. Ensuite, la matrice des variables latentes obtenue
après cette décomposition est utilisée pour l’apprentissage d’un modèle topologique de type
lwo-SOM (Grozavu et al. (2009)), qui permet de détecter et de pondérer les caractéristiques
pertinentes. Le codage finale de chaque donnée est basé sur les distances de chaque donnée
à chaque prototype du modèle lwo-SOM. Cette dernière matrice des distances représente la
nouvelle description des données. Pour évaluer la qualité de ce nouveau codage des données,