Compression et classification de données de grande

publicité
Compression et classification de données de grande
dimension
Sylvain Lespinats, Alain Giron, Bernard Fertil
Unité INSERM 494, CHU Pitié-Salpétrière
91 bd de l'hôpital, 75634 PARIS (France)
RÉSUMÉ. Les données de grande dimension posent des problèmes spécifiques en classification. Sur un exemple de
donnés de grande dimension, nous montrons les conséquences dramatiques d'une méthode de compression originale
dont le but est pourtant de préserver le voisinage local.
MOTS-CLÉS : données de grande dimension, projection locale non linéaire, visualisation, exploration, point de vue,
Analyse en composantes curvilignes, placement d’objets dans un champ de forces, signature génomique,
bioinformatique.
1
Introduction
Les données de grande dimension posent des problèmes inhabituels d'analyse, étant donné que les
propriétés des espaces qui les contiennent ne sont pas nécessairement "évidentes". La notion de voisinage
en particulier doit être réexaminée pour tenir compte du nombre de dimensions. En particulier (notamment
dans le cas d'un espace euclidien), on est souvent confronté au problème de l'espace vide et de la
concentration de mesure : quand le nombre de dimensions est élevé, le voisinage immédiat d'une donnée
est très peu occupé tandis que la plupart des autres données se trouvent à des distances très comparables
de cette dernière. D'une manière générale, les distances entre données de grande dimension sont très
concentrées autour de leur moyenne.
L'exploration et l'analyse des données de grande dimension s'effectuent souvent à l'aide de méthodes de
réduction dimensionnelle. L'analyse en composantes principales (ACP), les techniques de
"multidimensional scaling" (MDS) [COX 94], les cartes de Kohonen (SOM) [KOH 97] sont des outils
classiques dans ce contexte. D'une manière générale, une fonction de coût (loss function) permet de
construire les règles de projection de l'espace original des données vers l'espace cible de dimension plus
faible. Pour les problèmes de classification, la conservation du voisinage apparaît un des aspects
importants à maîtriser. Dans ce travail, on présente une méthode de projection non linéaire de type MDS
dont le but explicite est de préserver "au mieux" le voisinage des données. On analysera ensuite les
conséquences de cette réduction de dimension pour un problème de classification de données de grande
dimension concernant les signatures génomiques.
2
Principes du modèle de réduction de la dimension des données
L'approche qui est présentée ici est du type MDS. Il convient donc de définir des métriques pour l'espace
d'origine des données et pour l'espace cible, une fonction de coût qui s'intéresse à caractériser l'erreur
réalisée lors de la projection des données, enfin un algorithme de projection. D'une manière générale, les
caractéristiques des données à analyser sont à prendre en considération pour choisir ces différents
éléments.
2.1
Métrique et fonction de coût
Les données d'études concernent la signature génomique. Cette dernière caractérise la molécule d'ADN
par 256 variables fréquentielles, définies sur un intervalle borné [0-1]. La signature génomique est
spécifique à chaque espèce vivante. Elle peut être obtenue à partir de l'examen d'une fraction relativement
faible du matériel génétique de l'espèce. En pratique, une séquence de 2000 nucléotides en donne une
bonne approximation. La métrique euclidienne permet de montrer des différences statistiquement
significatives entre les signatures génomiques des espèces [DES 99]. Cette métrique sera donc choisie
pour illustrer la méthode.
Pour définir la fonction de coût, on s'intéresse à l'ensemble des distances entre toutes les données (ou une
partie d'entre elles, voir étape d'initialisation, en 2.4), dans l'espace des données et dans l'espace cible. La
fonction de coût caractérise l'erreur de projection par les écarts entre distances entre objets mesurés dans
ces deux espaces. Cependant, pour préserver préférentiellement les distances concernant le voisinage
proche, une pondération est appliquée progressivement pendant la phase d'optimisation de la projection
pour réduire l'impact des erreurs liées aux grandes distances sur la construction locale de l'espace cible.
Cette approche s'inspire des travaux de P. Demartines et J. Herault [DEM 97] ainsi que ceux de T.
Kohonen [KON 97].
2.2
Algorithme d'optimisation
En général la position optimale des données à projeter dans l'espace cible ne peut être obtenue de manière
analytique. Il faut mettre en oeuvre un algorithme de minimisation de fonction possédant des
caractéristiques de robustesse et de convergence reconnues. Classiquement, dans le contexte des MDS, on
utilise la méthode de Newton-Raphson généralisée, la méthode TABU Search [GLO 95], les algorithmes
génétiques [GOL 89], le recuit simulé [DOW 95]. Nous proposons de mettre en place une méthode
dynamique fondée sur le concept de « placement d’objets dans un champ de force » ("Force Directed
Placement" ou FDP) [FRU 91]. La méthode FPD, qui a été décrite au début des années 80, est très utilisée
par exemple pour déterminer de manière optimale la position des différents éléments d'un circuit imprimé
(VLSI). Elle est par contre peu connue dans le domaine de l'analyse de données. La métaphore peut être
explicitée de la manière suivante : Les données exercent des forces les unes sur les autres dont l’intensité
dépend de l’écart (pondéré) entre les distances entre elles dans l’espace d’origine et dans l’espace cible.
Dans le cadre de notre implémentation, les forces sont générées par l’action de ressorts dont la longueur
au repos correspond à la distance entre les données qu’ils lient dans l’espace d’origine. A partir d'un état
initial où les données sont placées le plus judicieusement possible dans l'espace cible, le système converge
vers un état d'énergie minimum pour lequel les contraintes d'interaction entre les données sont satisfaites
au mieux. Cette approche est très intéressante dans le cas des MDS, étant donné sa vitesse de convergence
et ses possibilités à échapper aux minimums locaux.
Pour les problèmes de quelques milliers de données, il est possible de mettre directement en place la
procédure FDP pour le placement des données dans l'espace cible. Pour les problèmes de plus grande
dimension, il est souvent intéressant de sélectionner un certain nombre de données pour définir
grossièrement la topologie de l'espace d'arrivée, dans un premier temps. Les autres données sont ensuite
positionnées par rapport aux précédentes, en satisfaisant préférentiellement les contraintes locales. Nous
avons observé que cette approche hiérarchique de la projection est très efficace, surtout lorsque les
données initiales sont choisies après clustering.
2.3
Exemple de projection par la méthode FDP-MDS
Les données à projeter ont trois dimensions. Elles sont organisées en 2 boîtes cubiques avec un couvercle
ouvert ne pointant pas dans la même direction. La projection dans un espace à 2 dimensions par FDPMDS développe correctement les 2 boîtes et effectue une torsion de l'espace à grande échelle (Fig. 1). Les
relations de voisinage sont conservées de manière satisfaisante.
Figure 1 : Projection de 2 boites ouvertes (3D) dans un espace 2D. Haut gauche : données d'origine, haut
droit : données projetées, bas gauche, satisfaction des contraintes de distance (l'indice de satisfaction croit du
noir au blanc), bas droite, conservation des distances (l’intensité code la densité de points). Une version
couleur des figures de cet article est disponible sur notre site web:
< http://e6.imed.jussieu.fr/afficherpub.php/sfc05.pdf>
2.4
Classification des signatures génomiques
Les données concernées par cette étude sont de deux types. Les signatures globales de 5000 espèces
constituent un échantillon de la diversité des molécules d'ADN du vivant. La signature d'une espèce,
B. subtilis a été étudié en détail. 8420 signatures correspondant à l'analyse de l'ADN dans une fenêtre
glissante de taille prédéfinie ont été calculées. La signature de chacune de ces fenêtres (appelée signature
locale par la suite) porte en général les caractéristiques de B. subtilis. Il s'agit de retrouver l'espèce
d'origine des signatures locales par recherche de l'espèce la plus proche (classification au plus proche
voisin), dans l'espace d’origine (256 dimensions) et dans un espace cible de dimension 3. Dans le cadre de
cette courte présentation, deux situations sont étudiées : 1- l'espace cible est appris à l’aide de signatures
d’espèces, 2- l'espace cible est appris à l’aide de signatures d’espèces, mais aussi de signatures locales de
B. subtilis.
La référence de classification est calculée dans l'espace d’origine : 64 % des signatures sont correctement
attribuées à B. subtilis. Certaines espèces dont la signature est proche de celle de B. subtilis réduisent de
manière importante l'efficacité de la classification : En fait, B. subtilis est l’un des 5 plus proches voisins
dans 87% des cas. Il faut noter qu'un ensemble important de signatures locales est mal classé pour des
raisons biologiques connues. Lorsque l'espace cible est appris à l’aide de signatures d'espèces (cas 1), le
taux de bonne classification devient négligeable : 0,7%. On retrouve 24% de signatures bien classées
quand l'espace cible est appris à l’aide de l'ensemble des signatures (espèces et locales) (cas 2).
L'observation des données dans l'espace cible montre que la région correspondant aux signatures locales a
été développée pour satisfaire les contraintes de distances entre signatures locales quand ces dernières sont
introduites dans l'échantillon d'apprentissage (Fig. 2). Malgré tout, la qualité de classification est faible.
Figure 2: Signatures génomiques dans un espace de faible dimension. Une version couleur des figures de cet
article est disponible sur notre site web < http://e6.imed.jussieu.fr/afficherpub.php/sfc05.pdf>
3
Discussion et conclusion
L'approche de projection non linéaire décrite dans cet article a été conçue pour préserver au maximum le
voisinage des données. Pour les problèmes de petite dimension, il apparaît que son efficacité est très
bonne. Ce n'est malheureusement pas le cas pour les données de grande dimension où l'efficacité de
classification au plus proche voisin des signatures locales est fortement réduite lors de la projection. Il est
clair que la méthode de classification utilisée est particulièrement sensible aux "erreurs" de placement
puisqu'il suffit dans ce cas d'une seule espèce "mal placée" pour générer une erreur. Cette situation est
sûrement très fréquente lors de réduction de dimensions aussi importante (256 vers 3). Il paraît utile de
rappeler que l'analyse des données résultant de taux de compression conséquents doit être effectuée avec
d'infinies précautions.
Bibliographie
[COX 94] COX T., COX M., Multidimensional Scaling. Chapman & Hall, London, 1994.
[DEM 97] DEMARTINES P., HERAULT J., Curvilinear Component Analysis : A Self-Organizing Neural Network
for Nonlinear Mapping of Data Sets, IEEE Trans. Neural Networks, 1997, 8: 148-154.
[DES 99] DESCHAVANNE P.D., GIRON A. et al, Genomic signature: characterization and classification of
species assessed by chaos game representation of sequences. " Mol. Biol. Evol. 1999, 16: 1391-1399.
[DOW 95] DOWSLAND K.A., In C.R. Reeves ed, Modern Heuristic techniques for combinatorial problems, Chap.
2, McGraw-Hill Book Company, Bershire, 1995.
[FRU 91] FRUCHTERMAN T., REINGOLD E., Reingold E., " Graph Drawing by Force-directed placement "
Software-Practice and Experience, 1999, 21, 1129-1164.
[GLO 95] GLOVER F., LAGUNA M., Tabu search, In C.R. Reeves ed. Modern Euristic techniques for
combinatorial problems, Chap. 3, McGraw-Hill Book Company, Bershire, 1995.
[GOL 89] GOLDBERG D.E., Genetic algorithms in search, Optimization, and Machine Learning, Addison-Wesley,
Reading, Massachusetts, 1989.
[KOH 97] KOHONEN T., Self-Organizing Maps, Springer-Verlag, 1997.
[VER 01] VERLEYSEN M., Learning high-dimensional data, NATO Advance Research Workshop on limitation
and future trends in neural computing, Siena (Italy), 2001.
4
Remerciements
INSERM (dotation annuelle), Action inter-EPST Bio-informatique 2001 contrat N° 120910
Téléchargement