1
Caractérisation des génomes bactériens par la
représentation en jeu de Chaos et étude fréquentielle des
textures par Transformée de Fourier à deux dimensions
1Imen Messaoudi, 2Afef Elloumi, 3Zied Lachiri,
1, 2Département de Génie Electrique, ENIT, Tunis, Tunisie
3Département de Physique et Instrumentation, INSAT, BP 676,1080, Centre Urbain, Tunis, Tunisie
1mess_im[email protected], 2afefelloum[email protected], 3Zied.lachiri@ enit.rnu.tn
Abstract- Les programmes de séquençage des génomes ont
généré une grande masse de données dans les banques
d’ADN. La visualisation et l’extraction des informations
caractéristiques de ces données constituent une
problématique assez ardue. La mise en évidence de certaines
caractéristiques de l’ADN dépend fortement du type de
codage adopté. Les méthodes de codage de l’ADN
construisent des signaux ou des images. Le principe du
codage se base sur l’attribution de valeur(s) numérique(s) à
chacune des lettres constituant l’alphabet de l’ADN. Notre
travail s’inscrit dans le cadre d’étude des textures des
signatures génomiques de quelques organismes modèles par le
biais du jeu de chaos et par l’application de la transformée de
Fourier discrète à deux dimensions.
Mots clés- ADN, technique de codage, jeu de chaos,
fréquence d’apparition, motif, signature génomique,
transformée de Fourier discrète à deux dimensions.
I. INTRODUCTION
L‟amélioration des techniques de séquençage des génomes
a généré un grand nombre de données dans les banques
d‟ADN. L‟exploration de ces données a regroupé les efforts de
chercheurs en diverses disciplines tel que le traitement de
signal et d‟image, les sciences physiques, la génétique, la
bioinformatique, etc...
Dans le domaine de traitement de signal et d‟image, il est
indispensable de convertir l‟ADN sous une forme exploitable
et ce par l‟attribution de valeur(s) numérique(s) à chaque lettre
constituant une séquence donnée.
Dans ce papier, nous nous intéressons au codage de l‟ADN
par le jeu de chaos (appelé en anglais Chaos Game
Representation).
Le jeu de chaos est un algorithme itératif permettant de
représenter les séquences génomiques sous forme d‟images
dites fractales [27]. Le terme fractal désigne des courbes ou
images dont la structure est autosimilaire sur une échelle
étendue. A chaque itération, un nouveau point est crée à mi-
chemin de la ligne reliant le point précédent à un des
attracteurs qui représentent les bases de la séquence d‟ADN.
L‟ensemble des attracteurs définit le support de la
représentation. Les images produites par cette méthode
présentent des structures fractales dues aux périodicités qui
caractérisent l‟ADN. Ce papier comporte cinq parties. Dans la
première partie, nous présentons un bref rappel biologique sur
la molécule d‟ADN. Nous décrivons, dans la deuxième
section, la marche suivie dans la production des images par
le jeu de chaos. Dans la troisième partie, nous présentons la
transformée de Fourier discrète à deux dimensions. Nous
abordons, dans la quatrième partie, une étude de quelques
représentations générées par le jeu de chaos. Enfin, nous
terminons par une étude fréquentielle des textures présentes
dans l‟image par application de Transformée de Fourier
Discrète à deux dimensions.
II. LA MOLECULE D’ADN
La molécule d‟ADN est le support physique de
l‟information génétique héréditaire. Elle a été identifiée par
Watson et Crick en 1953 à partir de l‟exploitation de clichés
de diffraction par rayon X [26]. L‟ADN est sous forme de
pelotes microscopiques localisées dans le noyau des cellules
des organismes eucaryotes. Il se présente le plus souvent sous
forme de deux longs filaments torsadés l'un dans l'autre pour
former une structure en double hélice. Chaque filament est
composé d‟une succession de quatre monomères désignés par
l'initiale de la base azotée qui entre dans leur composition : A
(Adénine), C (Cytosine), G (Guanine) et T (Thymine).
L‟adénine est complémentaire à la thymine et la cytosine est
complémentaire à la guanine ce qui est à l‟origine de la
structure en double hélice. L‟appariement d‟une base
appartenant à une hélice avec son complémentaire sur l‟autre
hélice se fait par des liaisons hydrogènes [9].
Chaque groupement de trois bases consécutives forme ce
que l‟on nomme codon. Il existe 64 combinaisons possibles
spécifiant 20 acides aminés, un codon d‟initiation : le ATG et
3 codons stop qui sont indispensables à l‟arrêt de la synthèse
des protéines, à savoir : TAA, TAG et TGA [2, 20]. Les
protéines sont déterminées par la succession d‟un grand
nombre d‟acides aminés en fonction de l'information présente
dans les gènes. Un ne est une suite de codons débutant par
un codon d‟initiation et se terminant par un codon stop.
2
La structure plus ou moins complexe d‟une protéine détermine
la nature de sa fonction chimique au sein de la cellule du
vivant [3, 22, 23].
Figure 1. Structure tridimensionnelle de la double hélice
d’ADN
III. L’ALGORITHME DU JEU DE
CHAOS
Le jeu de chaos ou CGR, a été proposé la première fois par
Jeffrey dans le but de prouver que les séquences génomiques
sont de nature non-aléatoire [15]. C‟est un algorithme itératif
permettant de dessiner des images fractales formant une
signature globale des séquences nucléotidiques [10,11, 24,
25]. Le terme signature génomique désigne les fréquences des
mots (un mot est une suite de nucléotides) qui constituent une
séquence d‟ADN [5, 14, 17].
L‟algorithme de construction consiste à placer les quatre
lettres A, C, G et T aux sommets d‟un carré unité, de telle
sorte qu‟ils aient les coordonnées A, C, G et T données par
l‟équation (1).
 
0,0 , 0,1 , 1,1 , 1,0
A C G T
 
(1)
La figure 2 donne l‟emplacement des attracteurs (les lettres A,
C, G et T) dans un plan carré.
Figure 2. Emplacement des attracteurs dans le plan de
représentation [0,1]2 par la méthode de jeu de chaos
La fonction utilisée pour la représentation CGR sur le support
fermé X = [0,1]2 est donnée par :
1
11
2
XX
nu
nn

(2)
Le premier point X0 est généralement placé au centre du carré.
Puis, le point Xn+1 est itérativement placé au milieu du
segment joignant Xn et le sommet correspondant à la lettre
un+1 [6, 7, 12, 27].
La figure 3 illustre le processus de construction du jeu de
chaos pour la séquence " AATGC ".
La figure 4 donne la CGR relative à la séquence complète du
gène threonine (thrA) chez la bactérie Escherichia coli.
Figure 4. CGR de la séquence complète du gène thrA
(2463 pb)
La densité de points, qui varie suivant les zones observées
dans les images CGR, peut fournir des informations assez
importantes sur la séquence. Dans la figure 4, par exemple, la
diagonale est pauvre en points. Cela peut être signe d‟absence
de mots bien définis tels que les purines (A et G) présentés par
la diagonale qui lie la lettre A (placée au coin gauche en bas) à
la lettre G (qui se trouve au coin haut à droite). L‟analyse par
CGR d‟une séquence plus longue illustre au mieux les
structures fractales que peut révéler le génome complet. Sur la
figure 5, nous pouvons voir clairement les deux axes croisés
(en blanc) qui existent déjà dans la CGR du gène thrA (figure
4). Ces derniers expriment les mots les plus rares dans le
génome de l‟organisme Escherichia coli.
Figure 5. Analyse d’une longue séquence de la bactérie
E.coli par CGR ; la séquence considérée est composée des
55930 premières bases du génome
3
Figure 3. Processus de construction de l’image CGR pour la séquence " AATGC "
4
L‟analyse par le jeu de chaos forme un outil puissant dans
la visualisation des structures fractales qui dérivent de
répétition de certains motifs dans les séquences d‟ADN.
Cependant, l‟identification de ces motifs n‟est pas possible.
Confrontés à ce problème, plusieurs chercheurs se sont
concentrés sur la recherche d‟un moyen qui rend les CGRs
plus utiles dans la caractérisation des génomes.
En 1999, il a été montré que la représentation par CGR a
l'avantage de visualiser les fréquences d'apparition des mots
[1, 13, 21] et ce en proposant une grille de lecture sur les
images obtenues. En effet, quand on divise une CGR en pixels
de dimension 1/2k, on peut déterminer la probabilité
d‟apparition des sous-modèles associés (mots constitués de k
lettres). La matrice de fréquence ainsi baptisée est appelée
FCGR (Frequency Chaos Game Representation). L‟intensité
de chaque pixel est codée en une couleur selon un gradient
croissant. Les pixels les plus sombres représentent les mots les
plus fréquents dans la séquence. Par contre, les pixels les plus
clairs représentent les mots les plus rares. Le nombre de cases
que comporte la grille de lecture permet de faire du jeu de
chaos de l‟ADN une analyse multi-échelle. La figure 6
représente l‟organisation des mots dans les images FCGRs
pour les échelles 1, 2 et 3.
(1) (2) (3)
Figure 6. Disposition des compteurs dans la représentation
par le jeu de chaos pour des mots de tailles 1 à 3
(1)
(2)
(3)
Figure 7. Représentation des matrices FCGRs d’ordres 1, 2
et 3 relatives au génome de la bactérie Erwinia amylovora
Dans la figure 7 on trouve un exemple des FCGR1, FCGR2 et
FCGR3. Ces images mettent en évidence la fréquence
d‟apparition des mots de tailles 1, 2 et 3 dans le génome de la
bactérie Erwinia amylovora.
Après avoir décrit les mécanismes de construction des
images CGR et FCGR nous passons à l‟analyse par
Transformée de Fourier Discrète à deux dimensions.
IV. TRANSFORMEE DE FOURIER
DISCRETE DES IMAGES 2D
Les images à deux dimensions (2D) sont des images
numériques chaque pixel est représenté par une fonction
discrète f(x,y) qui peut être réelle ou complexe.
Généralement la fonction f(x,y) représente l‟intensité de
l‟image au point d‟abscisse x et d‟ordonnée y. La transformée
de Fourier discrète d‟une image est donnée par l‟équation (3) :
 
11 2 / 2 /
00
1
,,
MN j um M j vn N
mn
F u v f m n e e
MN

 


(3)
La transformée de Fourier de la matrice f(m,n) donne une
matrice complexe F(u,v) avec u et v sont les fréquences
spatiales de l'image suivant les directions de l‟axe des
abscisses et de l‟axe des ordonnées respectivement.
Puisque la transformée de Fourier donne des valeurs
complexes, nous pouvons choisir de représenter l‟amplitude
ou la phase.
Le module de la transformée de Fourier est appelé spectre. Le
spectre donne la répartition énergétique en fonction de la
fréquence de l'image [4, 8, 19].
Les résultats de la transformée de Fourier permettent
d‟explorer le contenu fréquentiel global de l‟image. Cette
transformée permet, en outre, de passer vers une analyse
spectrale locale plus fine à partir de laquelle certains
paramètres texturaux peuvent être extraits. L'analyse de
texture dans l‟image est largement utilisée dans la
caractérisation, la segmentation, l‟indexation, la compression,
la reconnaissance des formes ou encore dans la classification.
V. RESULTATS ET DISCUSSION
Dans cette section, nous présentons en premier lieu les
résultats de l‟analyse des "frequency chaos game
representations" d‟ordre 8 (FCGR8) de quelques bactéries
dans le but d‟étudier les signatures génomiques relatives. Dans
la deuxième partie, nous présentons une étude fréquentielle
des textures qui existent dans de telles images par application
de transformée de Fourier discrète à deux dimensions.
Les bactéries étudiées sont : Yersinia pestis mediaevalis,
Atumefaciens, Escherichia coli, Bordetella, bronchiseptica,
5
Buchnera aphidicola, Actinobacillus succinogenes, Bacillus
cereus, Bacillus anthracis , Aquifex aeolicus et Treponema
denticola. Les données sont extraites du site du ″National
Center of Biotechnology Information″ (NCBI) [29].
1. Analyse des signatures génomiques
Pour cette étude, nous avons produit des FCGR d‟ordre 8
pour les génomes considérés. La figure 8 présente les images
obtenues.
Notons que la signature de la bactérie Escherichia coli
(figure 8.c) est semblable à celle donnée par l‟image CGR
dans la figure 5, à la différence que l‟image FCGR est plus
précise puisqu‟elle fournit la fréquence d‟apparition de tous
les mots de taille n (ici n=8).
De ce fait, les images CGR obtenues par analyse de segments
d‟ADN définissent des «signatures locales». Celles relatives
aux génomes complets, définissent des «signatures globales».
Bien évidemment, plus le segment d‟ADN est long, plus la
signature locale associée se rapproche de la signature de
l‟espèce.
L‟observation des signatures dans la figure 8 permet de
conclure que la signature génomique est spécifique à l‟espèce
étudiée. En effet, chaque signature met en évidence certains
types de motifs suivant le génome analysé. De plus la
variation de couleurs peut nous renseigner sur la composition
en bases dans la séquence.
Les signatures présentant des traits horizontaux sombres sur la
partie supérieure caractérisent les génomes riches en CG
(exemple : l‟organisme Bordetella bronchiseptica, figure 8.d).
D‟autres signatures comportent des traits horizontaux sombres
sur la partie inférieure (tel que le cas de Buchnera aphidicola
dans la figure 8.e) caractérisent ainsi les génomes riches en
AT. La figure 8.f, relative à l‟organisme Actinobacillus
succinogenes, montre, par contre, des traits horizontaux en
haut, en bas et au centre. Cela correspond à un génome
équilibré en bases.
Les figures 8.g, 8.h et 8.i (correspondant respectivement aux
bactéries: Bacillus cereus, Bacillus anthracis et Aquifex
aeolicus) montrent des diagonales noires, ce qui indique la
présence de longues suites de purines (A-G) et pyrimidines (T-
C). Cependant, l‟organisme Bordetella bronchiseptica (figure
8.d) comporte deux diagonales claires qui expriment labsence
de longues séquences purines et pyrimidines. En outre, la
signature de Bacillus cereus est apparentée à celle de Bacillus
anthracis. Les deux bactéries appartiennent à la même espèce
désignée par "groupe Bacillus cereus" et ont un degré de
parenté trop fort. Il est donc évident que leurs FCGRs
présentent de fortes similitudes.
L‟organisation spatiale des signatures relatives aux Yersinia
pestis mediaevalis, Atumefaciens et Escherichia coli (figures
8.a, 8.b et 8.c) révèlent une proximité phylogénétique des
espèces. Le gradient de couleur vertical dans le cas de
l‟Atumefaciens correspond à un déséquilibre en bases. Les
bactéries Yersinia pestis mediaevalis et Escherichia coli sont
caractérisées, par contre, par une composition en bases
relativement équilibrée. Ces signatures présentent des carreaux
clairs dérivant de la contre-sélection de certains mots, tels que
gatgggtg, ttgatttt, cctggggg et ggctgggg qui sont fortement
évités dans le génome de l‟Atumefaciens.
Il arrive des fois qu‟un ou plusieurs coins de la FCGR soient
plus sombres que le reste de l‟image. Ceci peut résulter des
longues suites de répétitions des mono-nucléotides A, C, G ou
T dans la séquence d‟analyse. Par exemple, dans la figure 9
nous considérons le génome de la bactérie Treponema
denticola. Les coins foncés de la FCGR associée indique la
présence de longues queues poly-A et poly-T.
Figure 9. Représentation par FCGR8 de la bactérie
Treponema denticola
La discrétisation des images CGRs selon une grille est un
outil pratique pour le calcul de signature génomique qui est
spécifique de l‟espèce étudiée. Mais le choix de l‟ordre
d‟analyse pose un problème en termes de nombre
d‟occurrences des mots et de dimension de la représentation.
Il convient donc de choisir la longueur des mots de sorte qu‟il
y ait un compromis entre l‟information qui puisse être
capturée, la dimension de la séquence et la dimension de
l‟image FCGR.
Les programmes de comparaison et de classification basés sur
le jeu de chaos optent pour de mots courts qui sont jugés
suffisants. La longueur de ces derniers varie entre 2 et 6
monomères.
L‟utilisation de mots de taille 3 (trinucléotides) se rapporte à
l‟étude des protéines [12, 28].
Les mots moyennement longs sont plutôt utiles dans les
études d‟homologie. Les mots trop longs sont souvent utilisés
dans le but de capter leur présence dans les génomes [16, 18].
1 / 10 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !