1
Caractérisation des génomes bactériens par la
représentation en jeu de Chaos et étude fréquentielle des
textures par Transformée de Fourier à deux dimensions
1Imen Messaoudi, 2Afef Elloumi, 3Zied Lachiri,
1, 2Département de Génie Electrique, ENIT, Tunis, Tunisie
3Département de Physique et Instrumentation, INSAT, BP 676,1080, Centre Urbain, Tunis, Tunisie
Abstract- Les programmes de séquençage des génomes ont
généré une grande masse de données dans les banques
d’ADN. La visualisation et l’extraction des informations
caractéristiques de ces données constituent une
problématique assez ardue. La mise en évidence de certaines
caractéristiques de l’ADN dépend fortement du type de
codage adopté. Les méthodes de codage de l’ADN
construisent des signaux ou des images. Le principe du
codage se base sur l’attribution de valeur(s) numérique(s) à
chacune des lettres constituant l’alphabet de l’ADN. Notre
travail s’inscrit dans le cadre d’étude des textures des
signatures génomiques de quelques organismes modèles par le
biais du jeu de chaos et par l’application de la transformée de
Fourier discrète à deux dimensions.
Mots clés- ADN, technique de codage, jeu de chaos,
fréquence d’apparition, motif, signature génomique,
transformée de Fourier discrète à deux dimensions.
I. INTRODUCTION
L‟amélioration des techniques de séquençage des génomes
a généré un grand nombre de données dans les banques
d‟ADN. L‟exploration de ces données a regroupé les efforts de
chercheurs en diverses disciplines tel que le traitement de
signal et d‟image, les sciences physiques, la génétique, la
bioinformatique, etc...
Dans le domaine de traitement de signal et d‟image, il est
indispensable de convertir l‟ADN sous une forme exploitable
et ce par l‟attribution de valeur(s) numérique(s) à chaque lettre
constituant une séquence donnée.
Dans ce papier, nous nous intéressons au codage de l‟ADN
par le jeu de chaos (appelé en anglais Chaos Game
Representation).
Le jeu de chaos est un algorithme itératif permettant de
représenter les séquences génomiques sous forme d‟images
dites fractales [27]. Le terme fractal désigne des courbes ou
images dont la structure est autosimilaire sur une échelle
étendue. A chaque itération, un nouveau point est crée à mi-
chemin de la ligne reliant le point précédent à un des
attracteurs qui représentent les bases de la séquence d‟ADN.
L‟ensemble des attracteurs définit le support de la
représentation. Les images produites par cette méthode
présentent des structures fractales dues aux périodicités qui
caractérisent l‟ADN. Ce papier comporte cinq parties. Dans la
première partie, nous présentons un bref rappel biologique sur
la molécule d‟ADN. Nous décrivons, dans la deuxième
section, la démarche suivie dans la production des images par
le jeu de chaos. Dans la troisième partie, nous présentons la
transformée de Fourier discrète à deux dimensions. Nous
abordons, dans la quatrième partie, une étude de quelques
représentations générées par le jeu de chaos. Enfin, nous
terminons par une étude fréquentielle des textures présentes
dans l‟image par application de Transformée de Fourier
Discrète à deux dimensions.
II. LA MOLECULE D’ADN
La molécule d‟ADN est le support physique de
l‟information génétique héréditaire. Elle a été identifiée par
Watson et Crick en 1953 à partir de l‟exploitation de clichés
de diffraction par rayon X [26]. L‟ADN est sous forme de
pelotes microscopiques localisées dans le noyau des cellules
des organismes eucaryotes. Il se présente le plus souvent sous
forme de deux longs filaments torsadés l'un dans l'autre pour
former une structure en double hélice. Chaque filament est
composé d‟une succession de quatre monomères désignés par
l'initiale de la base azotée qui entre dans leur composition : A
(Adénine), C (Cytosine), G (Guanine) et T (Thymine).
L‟adénine est complémentaire à la thymine et la cytosine est
complémentaire à la guanine ce qui est à l‟origine de la
structure en double hélice. L‟appariement d‟une base
appartenant à une hélice avec son complémentaire sur l‟autre
hélice se fait par des liaisons hydrogènes [9].
Chaque groupement de trois bases consécutives forme ce
que l‟on nomme codon. Il existe 64 combinaisons possibles
spécifiant 20 acides aminés, un codon d‟initiation : le ATG et
3 codons stop qui sont indispensables à l‟arrêt de la synthèse
des protéines, à savoir : TAA, TAG et TGA [2, 20]. Les
protéines sont déterminées par la succession d‟un grand
nombre d‟acides aminés en fonction de l'information présente
dans les gènes. Un gène est une suite de codons débutant par
un codon d‟initiation et se terminant par un codon stop.