Recherche de motifs par projections aléatoires

publicité
Recherche de motifs par
projections aléatoires
François Gauthier
[email protected]
Bio-Informatique
Définition d’un « planted motif »

La recherche de motifs dans un contexte biologique n’est pas
une recherche exacte.

Un « planted motif » noté (l,d)-motif est défini comme suit.
Soit M le motif consensus inconnu de longueur l recherché.

Supposez que M se retrouve dans t séquences de longueur
commune n et que, chaque fois, le motif M est corrompu
d’exactement d nucléotides choisis au hasard.

Le problème consiste à retrouver le motif consensus M.
Compliqué de trouver de tels motifs?

La recherche de « planted motif » est effectivement un
problème complexe. Considérons un exemple :
Recherche de motifs « classique »
1.
On commence par trouver tous les l-mers des séquences dont
on dispose et on en choisit un qu’on désigne comme étant
une occurrence du motif recherché.
2.
On tente ensuite de trouver des occurrences supplémentaires
en sélectionnant les l-mers similaires au motif sélectionné.
3.
S’il y a beaucoup de « bruit » ou, plus précisément, une forte
entropie, on risque davantage de trouver des l-mers
aléatoires plutôt que des occurrences du motif réel. Voir
diapo précédente.
L’idée derrière les projections aléatoires

Si la recherche de motif se base non pas sur un l-mer, mais
bien sur un consensus de s de ces l-mers, les risques d’être
affecté par l’entropie sont grandement diminués.

Trouver tous les consensus possibles de s l-mers serait
t 
inefficace car il y aurait :   (n  l  1) s comparaisons à
s
effecttuer.

Les projections aléatoires fournissent une alternative efficace.
Algorithme de projection aléatoire

L’ensemble de tous les l-mers est partitionné en « bucket » de
telle façon que certains de ces « buckets » recevront plusieurs
occurrences du motif recherché et quelques séquences
aléatoires.

Pour ce faire, il suffit de choisir aléatoirement k positions
parmi les l disponibles et de placer le l-mer x dans un
« bucket » = f (x) déterminé par les bases aux k positions. F(x)
est une fonction de hachage.

Un « bucket » recevant un grand nombre de l-mers a de fortes
chances de contenir le motif recherché. Plusieurs essais avec
différentes fonctions de hachage sont effectués.
Algorithme de projection aléatoire
Motif consensus : CCATAG
l = 6, d = 2, k = 2
CtATgC
CCcTAc
tCtTAG
CaAcAG
CCAgAa
Cg
CA
tA
CtATgC
CCATAG
tCtTAG
Algorithme de projection aléatoire

Détermination de k : On veut avoir un minimum de séquences
aléatoires dans les « planted buckets ». Fixons un maximum de
E séquences « background ». Il y a t(n – l + 1) l-mers placés
dans 4k « buckets ». On fixe donc k comme :
 t (n  l  1) 
k  log 4 

E



Le nombre d’essai m est aussi calculé mathématiquement,
mais le développement est plus complexe.

Le nombre minimal de séquences s par « bucket » a été
déterminé expérimentalement.
Choix du motif consensus

Le choix du motif consensus est un sujet différent. Les
projections aléatoires ne servent qu’à augmenter l’efficacité
des méthodes de recherche en fournissant une meilleure
initialisation. Les auteurs ont toutefois utilisé l’algorithme EM.
Trop beau pour être vrai?

La méthode performe en effet très bien, mais elle a quelques
faiblesses. Le type de (l,d)-motif recherché a une forte
influence sur les performances.
Quand on sort du modèle théorique…

Les séquences biologiques ont souvent un pourcentage de
G+C différent du 50% utilisé pour les tests. Toutefois, une
réduction du taux de G+C implique une augmentation du
nombre de faux positifs lors des recherches.

De la même manière, plus les séquences candidates sont
longues, plus il y a de bruit et plus il y a de motifs aléatoires
qui peuvent être trouvés.

Ces deux situations réduisent considérablement les
performances de l’algorithmes.
Performances selon le taux de G+C
Performances selon la longueur
Est-ce que ça trouve les bons motifs?
Questions, commentaires?
C’est le temps de se réveiller et de poser une
question intelligente là…
Téléchargement