Compression et classification de données de grande

Téléchargement

dimension

Sylvain Lespinats, Alain Giron, Bernard Fertil

Unité INSERM 494, CHU Pitié-Salpétrière

91 bd de l'hôpital, 75634 PARIS (France)

RÉSUMÉ. Les données de grande dimension posent des problèmes spécifiques en classification. Sur un exemple de

donnés de grande dimension, nous montrons les conséquences dramatiques d'une méthode de compression originale

dont le but est pourtant de préserver le voisinage local.

MOTS-CLÉS : données de grande dimension, projection locale non linéaire, visualisation, exploration, point de vue,

Analyse en composantes curvilignes, placement d’objets dans un champ de forces, signature génomique,

bioinformatique.

1 Introduction

Les données de grande dimension posent des problèmes inhabituels d'analyse, étant donné que les

propriétés des espaces qui les contiennent ne sont pas nécessairement "évidentes". La notion de voisinage

en particulier doit être réexaminée pour tenir compte du nombre de dimensions. En particulier (notamment

dans le cas d'un espace euclidien), on est souvent confronté au problème de l'espace vide et de la

concentration de mesure : quand le nombre de dimensions est élevé, le voisinage immédiat d'une donnée

est très peu occupé tandis que la plupart des autres données se trouvent à des distances très comparables

de cette dernière. D'une manière générale, les distances entre données de grande dimension sont très

concentrées autour de leur moyenne.

L'exploration et l'analyse des données de grande dimension s'effectuent souvent à l'aide de méthodes de

réduction dimensionnelle. L'analyse en composantes principales (ACP), les techniques de

"multidimensional scaling" (MDS) [COX 94], les cartes de Kohonen (SOM) [KOH 97] sont des outils

classiques dans ce contexte. D'une manière générale, une fonction de coût (loss function) permet de

construire les règles de projection de l'espace original des données vers l'espace cible de dimension plus

faible. Pour les problèmes de classification, la conservation du voisinage apparaît un des aspects

importants à maîtriser. Dans ce travail, on présente une méthode de projection non linéaire de type MDS

dont le but explicite est de préserver "au mieux" le voisinage des données. On analysera ensuite les

conséquences de cette réduction de dimension pour un problème de classification de données de grande

dimension concernant les signatures génomiques.

2 Principes du modèle de réduction de la dimension des données

L'approche qui est présentée ici est du type MDS. Il convient donc de définir des métriques pour l'espace

d'origine des données et pour l'espace cible, une fonction de coût qui s'intéresse à caractériser l'erreur

réalisée lors de la projection des données, enfin un algorithme de projection. D'une manière générale, les

caractéristiques des données à analyser sont à prendre en considération pour choisir ces différents

éléments.

2.1 Métrique et fonction de coût

Les données d'études concernent la signature génomique. Cette dernière caractérise la molécule d'ADN

par 256 variables fréquentielles, définies sur un intervalle borné [0-1]. La signature génomique est

spécifique à chaque espèce vivante. Elle peut être obtenue à partir de l'examen d'une fraction relativement

faible du matériel génétique de l'espèce. En pratique, une séquence de 2000 nucléotides en donne une

bonne approximation. La métrique euclidienne permet de montrer des différences statistiquement

significatives entre les signatures génomiques des espèces [DES 99]. Cette métrique sera donc choisie

pour illustrer la méthode.

Pour définir la fonction de coût, on s'intéresse à l'ensemble des distances entre toutes les données (ou une

partie d'entre elles, voir étape d'initialisation, en 2.4), dans l'espace des données et dans l'espace cible. La

fonction de coût caractérise l'erreur de projection par les écarts entre distances entre objets mesurés dans

ces deux espaces. Cependant, pour préserver préférentiellement les distances concernant le voisinage

proche, une pondération est appliquée progressivement pendant la phase d'optimisation de la projection

pour réduire l'impact des erreurs liées aux grandes distances sur la construction locale de l'espace cible.

Cette approche s'inspire des travaux de P. Demartines et J. Herault [DEM 97] ainsi que ceux de T.

Kohonen [KON 97].

2.2 Algorithme d'optimisation

En général la position optimale des données à projeter dans l'espace cible ne peut être obtenue de manière

analytique. Il faut mettre en oeuvre un algorithme de minimisation de fonction possédant des

caractéristiques de robustesse et de convergence reconnues. Classiquement, dans le contexte des MDS, on

utilise la méthode de Newton-Raphson généralisée, la méthode TABU Search [GLO 95], les algorithmes

génétiques [GOL 89], le recuit simulé [DOW 95]. Nous proposons de mettre en place une méthode

dynamique fondée sur le concept de « placement d’objets dans un champ de force » ("Force Directed

Placement" ou FDP) [FRU 91]. La méthode FPD, qui a été décrite au début des années 80, est très utilisée

par exemple pour déterminer de manière optimale la position des différents éléments d'un circuit imprimé

(VLSI). Elle est par contre peu connue dans le domaine de l'analyse de données. La métaphore peut être

explicitée de la manière suivante : Les données exercent des forces les unes sur les autres dont l’intensité

dépend de l’écart (pondéré) entre les distances entre elles dans l’espace d’origine et dans l’espace cible.

Dans le cadre de notre implémentation, les forces sont générées par l’action de ressorts dont la longueur

au repos correspond à la distance entre les données qu’ils lient dans l’espace d’origine. A partir d'un état

initial où les données sont placées le plus judicieusement possible dans l'espace cible, le système converge

vers un état d'énergie minimum pour lequel les contraintes d'interaction entre les données sont satisfaites

au mieux. Cette approche est très intéressante dans le cas des MDS, étant donné sa vitesse de convergence

et ses possibilités à échapper aux minimums locaux.

Pour les problèmes de quelques milliers de données, il est possible de mettre directement en place la

procédure FDP pour le placement des données dans l'espace cible. Pour les problèmes de plus grande

dimension, il est souvent intéressant de sélectionner un certain nombre de données pour définir

grossièrement la topologie de l'espace d'arrivée, dans un premier temps. Les autres données sont ensuite

positionnées par rapport aux précédentes, en satisfaisant préférentiellement les contraintes locales. Nous

avons observé que cette approche hiérarchique de la projection est très efficace, surtout lorsque les

données initiales sont choisies après clustering.

2.3 Exemple de projection par la méthode FDP-MDS

Les données à projeter ont trois dimensions. Elles sont organisées en 2 boîtes cubiques avec un couvercle

ouvert ne pointant pas dans la même direction. La projection dans un espace à 2 dimensions par FDP-

MDS développe correctement les 2 boîtes et effectue une torsion de l'espace à grande échelle (Fig. 1). Les

relations de voisinage sont conservées de manière satisfaisante.

Figure 1 : Projection de 2 boites ouvertes (3D) dans un espace 2D. Haut gauche : données d'origine, haut

droit : données projetées, bas gauche, satisfaction des contraintes de distance (l'indice de satisfaction croit du

noir au blanc), bas droite, conservation des distances (l’intensité code la densité de points). Une version

couleur des figures de cet article est disponible sur notre site web:

< http://e6.imed.jussieu.fr/afficherpub.php/sfc05.pdf>

2.4 Classification des signatures génomiques

Les données concernées par cette étude sont de deux types. Les signatures globales de 5000 espèces

constituent un échantillon de la diversité des molécules d'ADN du vivant. La signature d'une espèce,

B. subtilis a été étudié en détail. 8420 signatures correspondant à l'analyse de l'ADN dans une fenêtre

glissante de taille prédéfinie ont été calculées. La signature de chacune de ces fenêtres (appelée signature

locale par la suite) porte en général les caractéristiques de B. subtilis. Il s'agit de retrouver l'espèce

d'origine des signatures locales par recherche de l'espèce la plus proche (classification au plus proche

voisin), dans l'espace d’origine (256 dimensions) et dans un espace cible de dimension 3. Dans le cadre de

cette courte présentation, deux situations sont étudiées : 1- l'espace cible est appris à l’aide de signatures

d’espèces, 2- l'espace cible est appris à l’aide de signatures d’espèces, mais aussi de signatures locales de

B. subtilis.

La référence de classification est calculée dans l'espace d’origine : 64 % des signatures sont correctement

attribuées à B. subtilis. Certaines espèces dont la signature est proche de celle de B. subtilis réduisent de

manière importante l'efficacité de la classification : En fait, B. subtilis est l’un des 5 plus proches voisins

dans 87% des cas. Il faut noter qu'un ensemble important de signatures locales est mal classé pour des

raisons biologiques connues. Lorsque l'espace cible est appris à l’aide de signatures d'espèces (cas 1), le

taux de bonne classification devient négligeable : 0,7%. On retrouve 24% de signatures bien classées

quand l'espace cible est appris à l’aide de l'ensemble des signatures (espèces et locales) (cas 2).

L'observation des données dans l'espace cible montre que la région correspondant aux signatures locales a

été développée pour satisfaire les contraintes de distances entre signatures locales quand ces dernières sont

introduites dans l'échantillon d'apprentissage (Fig. 2). Malgré tout, la qualité de classification est faible.

Figure 2: Signatures génomiques dans un espace de faible dimension. Une version couleur des figures de cet

article est disponible sur notre site web < http://e6.imed.jussieu.fr/afficherpub.php/sfc05.pdf>

3 Discussion et conclusion

L'approche de projection non linéaire décrite dans cet article a été conçue pour préserver au maximum le

voisinage des données. Pour les problèmes de petite dimension, il apparaît que son efficacité est très

bonne. Ce n'est malheureusement pas le cas pour les données de grande dimension où l'efficacité de

classification au plus proche voisin des signatures locales est fortement réduite lors de la projection. Il est

clair que la méthode de classification utilisée est particulièrement sensible aux "erreurs" de placement

puisqu'il suffit dans ce cas d'une seule espèce "mal placée" pour générer une erreur. Cette situation est

sûrement très fréquente lors de réduction de dimensions aussi importante (256 vers 3). Il paraît utile de

rappeler que l'analyse des données résultant de taux de compression conséquents doit être effectuée avec

d'infinies précautions.

Bibliographie

[COX 94] COX T., COX M., Multidimensional Scaling. Chapman & Hall, London, 1994.

[DEM 97] DEMARTINES P., HERAULT J., Curvilinear Component Analysis : A Self-Organizing Neural Network

for Nonlinear Mapping of Data Sets, IEEE Trans. Neural Networks, 1997, 8: 148-154.

[DES 99] DESCHAVANNE P.D., GIRON A. et al, Genomic signature: characterization and classification of

species assessed by chaos game representation of sequences. " Mol. Biol. Evol. 1999, 16: 1391-1399.

[DOW 95] DOWSLAND K.A., In C.R. Reeves ed, Modern Heuristic techniques for combinatorial problems, Chap.

2, McGraw-Hill Book Company, Bershire, 1995.

[FRU 91] FRUCHTERMAN T., REINGOLD E., Reingold E., " Graph Drawing by Force-directed placement "

Software-Practice and Experience, 1999, 21, 1129-1164.

[GLO 95] GLOVER F., LAGUNA M., Tabu search, In C.R. Reeves ed. Modern Euristic techniques for

combinatorial problems, Chap. 3, McGraw-Hill Book Company, Bershire, 1995.

[GOL 89] GOLDBERG D.E., Genetic algorithms in search, Optimization, and Machine Learning, Addison-Wesley,

Reading, Massachusetts, 1989.

[KOH 97] KOHONEN T., Self-Organizing Maps, Springer-Verlag, 1997.

[VER 01] VERLEYSEN M., Learning high-dimensional data, NATO Advance Research Workshop on limitation

and future trends in neural computing, Siena (Italy), 2001.

4 Remerciements

INSERM (dotation annuelle), Action inter-EPST Bio-informatique 2001 contrat N° 120910

1 / 4 100%

Documents connexes

Semaine du 19 au 22 mai 2015 (S33) Signature

Semaine du 23 au 27 février 2015 (S22) Signature

Machine Learning appliquée à la détection automatique de

Semaine du 16 au 19 mars 2015 (S24) Signature

Semaine du 2 au 6 février 2015 (S19) Signature

Les dragons Semaine 24 Aventure à terrible Verbe Avoir et être

Acides et bases - L`ADEME en Alsace

les signatures fréquentielles

Liaisons Vol 14-N°26

agenda_11

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Compression et classification de données de grande

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Compression et classification de données de grande

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib