Recherche de motifs par
projections aléatoires
François Gauthier
f.gauthier@umontreal.ca
Bio-Informatique
Définition d’un « planted motif »
La recherche de motifs dans un contexte biologique n’est pas
une recherche exacte.
Un « planted motif » noté (l,d)-motif est défini comme suit.
Soit Mle motif consensus inconnu de longueur l recherché.
Supposez que Mse retrouve dans tséquences de longueur
commune net que, chaque fois, le motif Mest corrompu
d’exactement dnucléotides choisis au hasard.
Le problème consiste à retrouver le motif consensus M.
Compliqué de trouver de tels motifs?
La recherche de « planted motif » est effectivement un
problème complexe. Considérons un exemple :
Recherche de motifs « classique »
1. On commence par trouver tous les l-mers des séquences dont
on dispose et on en choisit un qu’on désigne comme étant
une occurrence du motif recherché.
2. On tente ensuite de trouver des occurrences supplémentaires
en sélectionnant les l-mers similaires au motif sélectionné.
3. S’il y a beaucoup de « bruit » ou, plus précisément, une forte
entropie, on risque davantage de trouver des l-mers
aléatoires plutôt que des occurrences du motif réel. Voir
diapo précédente.
L’idée derrière les projections aléatoires
Si la recherche de motif se base non pas sur un l-mer, mais
bien sur un consensus de sde ces l-mers, les risques d’être
affecté par l’entropie sont grandement diminués.
Trouver tous les consensus possibles de s l-mers serait
inefficace car il y aurait : comparaisons à
effecttuer.
Les projections aléatoires fournissent une alternative efficace.
( 1)s
tnl
s
 


1 / 15 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !