2.1 Métrique et fonction de coût
Les données d'études concernent la signature génomique. Cette dernière caractérise la molécule d'ADN
par 256 variables fréquentielles, définies sur un intervalle borné [0-1]. La signature génomique est
spécifique à chaque espèce vivante. Elle peut être obtenue à partir de l'examen d'une fraction relativement
faible du matériel génétique de l'espèce. En pratique, une séquence de 2000 nucléotides en donne une
bonne approximation. La métrique euclidienne permet de montrer des différences statistiquement
significatives entre les signatures génomiques des espèces [DES 99]. Cette métrique sera donc choisie
pour illustrer la méthode.
Pour définir la fonction de coût, on s'intéresse à l'ensemble des distances entre toutes les données (ou une
partie d'entre elles, voir étape d'initialisation, en 2.4), dans l'espace des données et dans l'espace cible. La
fonction de coût caractérise l'erreur de projection par les écarts entre distances entre objets mesurés dans
ces deux espaces. Cependant, pour préserver préférentiellement les distances concernant le voisinage
proche, une pondération est appliquée progressivement pendant la phase d'optimisation de la projection
pour réduire l'impact des erreurs liées aux grandes distances sur la construction locale de l'espace cible.
Cette approche s'inspire des travaux de P. Demartines et J. Herault [DEM 97] ainsi que ceux de T.
Kohonen [KON 97].
2.2 Algorithme d'optimisation
En général la position optimale des données à projeter dans l'espace cible ne peut être obtenue de manière
analytique. Il faut mettre en oeuvre un algorithme de minimisation de fonction possédant des
caractéristiques de robustesse et de convergence reconnues. Classiquement, dans le contexte des MDS, on
utilise la méthode de Newton-Raphson généralisée, la méthode TABU Search [GLO 95], les algorithmes
génétiques [GOL 89], le recuit simulé [DOW 95]. Nous proposons de mettre en place une méthode
dynamique fondée sur le concept de « placement d’objets dans un champ de force » ("Force Directed
Placement" ou FDP) [FRU 91]. La méthode FPD, qui a été décrite au début des années 80, est très utilisée
par exemple pour déterminer de manière optimale la position des différents éléments d'un circuit imprimé
(VLSI). Elle est par contre peu connue dans le domaine de l'analyse de données. La métaphore peut être
explicitée de la manière suivante : Les données exercent des forces les unes sur les autres dont l’intensité
dépend de l’écart (pondéré) entre les distances entre elles dans l’espace d’origine et dans l’espace cible.
Dans le cadre de notre implémentation, les forces sont générées par l’action de ressorts dont la longueur
au repos correspond à la distance entre les données qu’ils lient dans l’espace d’origine. A partir d'un état
initial où les données sont placées le plus judicieusement possible dans l'espace cible, le système converge
vers un état d'énergie minimum pour lequel les contraintes d'interaction entre les données sont satisfaites
au mieux. Cette approche est très intéressante dans le cas des MDS, étant donné sa vitesse de convergence
et ses possibilités à échapper aux minimums locaux.
Pour les problèmes de quelques milliers de données, il est possible de mettre directement en place la
procédure FDP pour le placement des données dans l'espace cible. Pour les problèmes de plus grande
dimension, il est souvent intéressant de sélectionner un certain nombre de données pour définir
grossièrement la topologie de l'espace d'arrivée, dans un premier temps. Les autres données sont ensuite
positionnées par rapport aux précédentes, en satisfaisant préférentiellement les contraintes locales. Nous
avons observé que cette approche hiérarchique de la projection est très efficace, surtout lorsque les
données initiales sont choisies après clustering.
2.3 Exemple de projection par la méthode FDP-MDS
Les données à projeter ont trois dimensions. Elles sont organisées en 2 boîtes cubiques avec un couvercle
ouvert ne pointant pas dans la même direction. La projection dans un espace à 2 dimensions par FDP-
MDS développe correctement les 2 boîtes et effectue une torsion de l'espace à grande échelle (Fig. 1). Les
relations de voisinage sont conservées de manière satisfaisante.