Un algorithme d’indexation de motifs approchésJ. Pelfrêne, S. Abdeddaïm et J. AlexandreJOBIM 2002
Un algorithme d’indexation de motifs approchés
An approximate motifs indexing algorithm
Johann PELFRÊNE Saïd ABDEDDAÏM Joël ALEXANDRE
LIFAR / ABISS - Université de Rouen
ABISS, UMR CNRS 6037 - Université de Rouen
ExonHit Therapeutics - 65, Boulevard Masséna 75013 Paris
Mel : {johann.pelfrene,said.abdeddaim,joel.alexandre}@univ-rouen.fr
Résumé
Dans ce travail, nous proposons un nouvel algorithme pour indexer l’ensemble des motifs approchés présents
dans une ou plusieurs séquences. L’indexation de motifs exacts est un problème qui connaît des solutions algorith-
miques satisfaisantes. Cependant le fait de se limiter à des motifs exacts réduit considérablement l’intérêt en ce
qui concerne les séquences biologiques.
Après avoir exposé les bases et les contraintes de l’indexation de motifs approchés, nous expliquons brièvement
l’approche utilisée ainsi que les tests que nous avons réalisés.
Mots clés : index, motif approché, algorithme
Abstract
In this work, we propose a new algorithm, designed for indexing approximate motifs occurring in one or more
sequences. Indexing exact motifs is a problem that has good algorithmic solutions. Therefore, being limited to
exact motifs reduces amazingly the interest concerning biosequences. After having described indexing approximate
motifs basis and constraints, we will quickly explain our approach, and the tests we realized.
Keywords: index, approximate motif, algorithm
1 Introduction
La croissance exponentielle des données de séquençages et d’expressions disponibles fait qu’à terme, les temps
de parcours de toutes ces banques risquent de devenir un facteur limitant pour en extraire l’information. Une des
solutions pour réduire le temps de parcours est de créer un index. De même que lorsque l’on recherche un mot
dans un livre, il est plus simple de parcourir son index que de lire intégralement toutes les pages. Cette création
d’index, même si elle est très coûteuse dans un premier temps, permet d’accélérer les recherches ultérieures dans
les banques.
Un motif approché est un motif dans lequel on autorise qu’à certaines positions, la lettre ne soit pas fixée (joker).
Notre objectif est de développer un nouvel algorithme pour l’indexation des motifs approchés afin de constituer
une nouvelle méthode d’assemblage d’EST qui viendra se substituer aux logiciels mis en œuvre dans le logiciel
ACCES (cf. "Détection d’événements d’épissage alternatif par l’Assemblage Consensuel de Contig à partir d’ESt :
ACCES", B. Bely).
Dans un premier temps, nous présenterons les problèmes liés à l’indexation, puis nous expliquerons notre nouvel
algorithme d’indexation de motifs approchés primitifs, ainsi que quelques tests que nous avons effectués.
2 Motif primitif versus Motif non redondant
De nombreuses méthodes d’indexation ont été proposées pour la construction d’index de motifs répétés de manière
exacte [1, 2]. Si les performances de l’indexation de motifs exacts sont tout à fait satisfaisantes, le fait d’exiger que
le motif se retrouve exactement (sans tolérer d’éventuelles petites différences) dans les séquences limite considé-
rablement l’intérêt de ces méthodes. Indexer efficacement des motifs approchés reste cependant un problème qui
n’est pas encore parfaitement résolu : créer un index exhaustif des motifs approchés n’est pas possible. En effet, la
taille d’un tel index, et le temps de calcul croissent exponentiellement avec la taille des séquences !
Un résultat récent [3] montre cependant qu’un petit sous-ensemble de motifs approchés, dits motifs maximaux non
redondants, permet de déduire tous les autres motifs. On considère un seuil , le nombre minimal de répétition du
convention CIFRE - ExonHit Therapeutics
Ce travail est soutenu dans le cadre du programme "Bio-ingénierie 2000" du Ministère de la Recherche
JOBIM 2002 263