Compression et classification de données de grande dimension Sylvain Lespinats, Alain Giron, Bernard Fertil Unité INSERM 494, CHU Pitié-Salpétrière 91 bd de l'hôpital, 75634 PARIS (France) RÉSUMÉ. Les données de grande dimension posent des problèmes spécifiques en classification. Sur un exemple de donnés de grande dimension, nous montrons les conséquences dramatiques d'une méthode de compression originale dont le but est pourtant de préserver le voisinage local. MOTS-CLÉS : données de grande dimension, projection locale non linéaire, visualisation, exploration, point de vue, Analyse en composantes curvilignes, placement d’objets dans un champ de forces, signature génomique, bioinformatique. 1 Introduction Les données de grande dimension posent des problèmes inhabituels d'analyse, étant donné que les propriétés des espaces qui les contiennent ne sont pas nécessairement "évidentes". La notion de voisinage en particulier doit être réexaminée pour tenir compte du nombre de dimensions. En particulier (notamment dans le cas d'un espace euclidien), on est souvent confronté au problème de l'espace vide et de la concentration de mesure : quand le nombre de dimensions est élevé, le voisinage immédiat d'une donnée est très peu occupé tandis que la plupart des autres données se trouvent à des distances très comparables de cette dernière. D'une manière générale, les distances entre données de grande dimension sont très concentrées autour de leur moyenne. L'exploration et l'analyse des données de grande dimension s'effectuent souvent à l'aide de méthodes de réduction dimensionnelle. L'analyse en composantes principales (ACP), les techniques de "multidimensional scaling" (MDS) [COX 94], les cartes de Kohonen (SOM) [KOH 97] sont des outils classiques dans ce contexte. D'une manière générale, une fonction de coût (loss function) permet de construire les règles de projection de l'espace original des données vers l'espace cible de dimension plus faible. Pour les problèmes de classification, la conservation du voisinage apparaît un des aspects importants à maîtriser. Dans ce travail, on présente une méthode de projection non linéaire de type MDS dont le but explicite est de préserver "au mieux" le voisinage des données. On analysera ensuite les conséquences de cette réduction de dimension pour un problème de classification de données de grande dimension concernant les signatures génomiques. 2 Principes du modèle de réduction de la dimension des données L'approche qui est présentée ici est du type MDS. Il convient donc de définir des métriques pour l'espace d'origine des données et pour l'espace cible, une fonction de coût qui s'intéresse à caractériser l'erreur réalisée lors de la projection des données, enfin un algorithme de projection. D'une manière générale, les caractéristiques des données à analyser sont à prendre en considération pour choisir ces différents éléments. 2.1 Métrique et fonction de coût Les données d'études concernent la signature génomique. Cette dernière caractérise la molécule d'ADN par 256 variables fréquentielles, définies sur un intervalle borné [0-1]. La signature génomique est spécifique à chaque espèce vivante. Elle peut être obtenue à partir de l'examen d'une fraction relativement faible du matériel génétique de l'espèce. En pratique, une séquence de 2000 nucléotides en donne une bonne approximation. La métrique euclidienne permet de montrer des différences statistiquement significatives entre les signatures génomiques des espèces [DES 99]. Cette métrique sera donc choisie pour illustrer la méthode. Pour définir la fonction de coût, on s'intéresse à l'ensemble des distances entre toutes les données (ou une partie d'entre elles, voir étape d'initialisation, en 2.4), dans l'espace des données et dans l'espace cible. La fonction de coût caractérise l'erreur de projection par les écarts entre distances entre objets mesurés dans ces deux espaces. Cependant, pour préserver préférentiellement les distances concernant le voisinage proche, une pondération est appliquée progressivement pendant la phase d'optimisation de la projection pour réduire l'impact des erreurs liées aux grandes distances sur la construction locale de l'espace cible. Cette approche s'inspire des travaux de P. Demartines et J. Herault [DEM 97] ainsi que ceux de T. Kohonen [KON 97]. 2.2 Algorithme d'optimisation En général la position optimale des données à projeter dans l'espace cible ne peut être obtenue de manière analytique. Il faut mettre en oeuvre un algorithme de minimisation de fonction possédant des caractéristiques de robustesse et de convergence reconnues. Classiquement, dans le contexte des MDS, on utilise la méthode de Newton-Raphson généralisée, la méthode TABU Search [GLO 95], les algorithmes génétiques [GOL 89], le recuit simulé [DOW 95]. Nous proposons de mettre en place une méthode dynamique fondée sur le concept de « placement d’objets dans un champ de force » ("Force Directed Placement" ou FDP) [FRU 91]. La méthode FPD, qui a été décrite au début des années 80, est très utilisée par exemple pour déterminer de manière optimale la position des différents éléments d'un circuit imprimé (VLSI). Elle est par contre peu connue dans le domaine de l'analyse de données. La métaphore peut être explicitée de la manière suivante : Les données exercent des forces les unes sur les autres dont l’intensité dépend de l’écart (pondéré) entre les distances entre elles dans l’espace d’origine et dans l’espace cible. Dans le cadre de notre implémentation, les forces sont générées par l’action de ressorts dont la longueur au repos correspond à la distance entre les données qu’ils lient dans l’espace d’origine. A partir d'un état initial où les données sont placées le plus judicieusement possible dans l'espace cible, le système converge vers un état d'énergie minimum pour lequel les contraintes d'interaction entre les données sont satisfaites au mieux. Cette approche est très intéressante dans le cas des MDS, étant donné sa vitesse de convergence et ses possibilités à échapper aux minimums locaux. Pour les problèmes de quelques milliers de données, il est possible de mettre directement en place la procédure FDP pour le placement des données dans l'espace cible. Pour les problèmes de plus grande dimension, il est souvent intéressant de sélectionner un certain nombre de données pour définir grossièrement la topologie de l'espace d'arrivée, dans un premier temps. Les autres données sont ensuite positionnées par rapport aux précédentes, en satisfaisant préférentiellement les contraintes locales. Nous avons observé que cette approche hiérarchique de la projection est très efficace, surtout lorsque les données initiales sont choisies après clustering. 2.3 Exemple de projection par la méthode FDP-MDS Les données à projeter ont trois dimensions. Elles sont organisées en 2 boîtes cubiques avec un couvercle ouvert ne pointant pas dans la même direction. La projection dans un espace à 2 dimensions par FDPMDS développe correctement les 2 boîtes et effectue une torsion de l'espace à grande échelle (Fig. 1). Les relations de voisinage sont conservées de manière satisfaisante. Figure 1 : Projection de 2 boites ouvertes (3D) dans un espace 2D. Haut gauche : données d'origine, haut droit : données projetées, bas gauche, satisfaction des contraintes de distance (l'indice de satisfaction croit du noir au blanc), bas droite, conservation des distances (l’intensité code la densité de points). Une version couleur des figures de cet article est disponible sur notre site web: < http://e6.imed.jussieu.fr/afficherpub.php/sfc05.pdf> 2.4 Classification des signatures génomiques Les données concernées par cette étude sont de deux types. Les signatures globales de 5000 espèces constituent un échantillon de la diversité des molécules d'ADN du vivant. La signature d'une espèce, B. subtilis a été étudié en détail. 8420 signatures correspondant à l'analyse de l'ADN dans une fenêtre glissante de taille prédéfinie ont été calculées. La signature de chacune de ces fenêtres (appelée signature locale par la suite) porte en général les caractéristiques de B. subtilis. Il s'agit de retrouver l'espèce d'origine des signatures locales par recherche de l'espèce la plus proche (classification au plus proche voisin), dans l'espace d’origine (256 dimensions) et dans un espace cible de dimension 3. Dans le cadre de cette courte présentation, deux situations sont étudiées : 1- l'espace cible est appris à l’aide de signatures d’espèces, 2- l'espace cible est appris à l’aide de signatures d’espèces, mais aussi de signatures locales de B. subtilis. La référence de classification est calculée dans l'espace d’origine : 64 % des signatures sont correctement attribuées à B. subtilis. Certaines espèces dont la signature est proche de celle de B. subtilis réduisent de manière importante l'efficacité de la classification : En fait, B. subtilis est l’un des 5 plus proches voisins dans 87% des cas. Il faut noter qu'un ensemble important de signatures locales est mal classé pour des raisons biologiques connues. Lorsque l'espace cible est appris à l’aide de signatures d'espèces (cas 1), le taux de bonne classification devient négligeable : 0,7%. On retrouve 24% de signatures bien classées quand l'espace cible est appris à l’aide de l'ensemble des signatures (espèces et locales) (cas 2). L'observation des données dans l'espace cible montre que la région correspondant aux signatures locales a été développée pour satisfaire les contraintes de distances entre signatures locales quand ces dernières sont introduites dans l'échantillon d'apprentissage (Fig. 2). Malgré tout, la qualité de classification est faible. Figure 2: Signatures génomiques dans un espace de faible dimension. Une version couleur des figures de cet article est disponible sur notre site web < http://e6.imed.jussieu.fr/afficherpub.php/sfc05.pdf> 3 Discussion et conclusion L'approche de projection non linéaire décrite dans cet article a été conçue pour préserver au maximum le voisinage des données. Pour les problèmes de petite dimension, il apparaît que son efficacité est très bonne. Ce n'est malheureusement pas le cas pour les données de grande dimension où l'efficacité de classification au plus proche voisin des signatures locales est fortement réduite lors de la projection. Il est clair que la méthode de classification utilisée est particulièrement sensible aux "erreurs" de placement puisqu'il suffit dans ce cas d'une seule espèce "mal placée" pour générer une erreur. Cette situation est sûrement très fréquente lors de réduction de dimensions aussi importante (256 vers 3). Il paraît utile de rappeler que l'analyse des données résultant de taux de compression conséquents doit être effectuée avec d'infinies précautions. Bibliographie [COX 94] COX T., COX M., Multidimensional Scaling. Chapman & Hall, London, 1994. [DEM 97] DEMARTINES P., HERAULT J., Curvilinear Component Analysis : A Self-Organizing Neural Network for Nonlinear Mapping of Data Sets, IEEE Trans. Neural Networks, 1997, 8: 148-154. [DES 99] DESCHAVANNE P.D., GIRON A. et al, Genomic signature: characterization and classification of species assessed by chaos game representation of sequences. " Mol. Biol. Evol. 1999, 16: 1391-1399. [DOW 95] DOWSLAND K.A., In C.R. Reeves ed, Modern Heuristic techniques for combinatorial problems, Chap. 2, McGraw-Hill Book Company, Bershire, 1995. [FRU 91] FRUCHTERMAN T., REINGOLD E., Reingold E., " Graph Drawing by Force-directed placement " Software-Practice and Experience, 1999, 21, 1129-1164. [GLO 95] GLOVER F., LAGUNA M., Tabu search, In C.R. Reeves ed. Modern Euristic techniques for combinatorial problems, Chap. 3, McGraw-Hill Book Company, Bershire, 1995. [GOL 89] GOLDBERG D.E., Genetic algorithms in search, Optimization, and Machine Learning, Addison-Wesley, Reading, Massachusetts, 1989. [KOH 97] KOHONEN T., Self-Organizing Maps, Springer-Verlag, 1997. [VER 01] VERLEYSEN M., Learning high-dimensional data, NATO Advance Research Workshop on limitation and future trends in neural computing, Siena (Italy), 2001. 4 Remerciements INSERM (dotation annuelle), Action inter-EPST Bio-informatique 2001 contrat N° 120910