Caractérisation des génomes bactériens par la

publicité
Caractérisation des génomes bactériens par la
représentation en jeu de Chaos et étude fréquentielle des
textures par Transformée de Fourier à deux dimensions
1
Imen Messaoudi, 2Afef Elloumi, 3Zied Lachiri,
Département de Génie Electrique, ENIT, Tunis, Tunisie
3
Département de Physique et Instrumentation, INSAT, BP 676,1080, Centre Urbain, Tunis, Tunisie
1
[email protected], [email protected], 3Zied.lachiri@ enit.rnu.tn
1, 2
Abstract- Les programmes de séquençage des génomes ont
généré une grande masse de données dans les banques
d’ADN. La visualisation et l’extraction des informations
caractéristiques de ces données
constituent une
problématique assez ardue. La mise en évidence de certaines
caractéristiques de l’ADN dépend fortement du type de
codage adopté. Les méthodes de codage de l’ADN
construisent des signaux ou des images. Le principe du
codage se base sur l’attribution de valeur(s) numérique(s) à
chacune des lettres constituant l’alphabet de l’ADN. Notre
travail s’inscrit dans le cadre d’étude des textures des
signatures génomiques de quelques organismes modèles par le
biais du jeu de chaos et par l’application de la transformée de
Fourier discrète à deux dimensions.
L‟ensemble des attracteurs définit le support de la
représentation. Les images produites par cette méthode
présentent des structures fractales dues aux périodicités qui
caractérisent l‟ADN. Ce papier comporte cinq parties. Dans la
première partie, nous présentons un bref rappel biologique sur
la molécule d‟ADN. Nous décrivons, dans la deuxième
section, la démarche suivie dans la production des images par
le jeu de chaos. Dans la troisième partie, nous présentons la
transformée de Fourier discrète à deux dimensions. Nous
abordons, dans la quatrième partie, une étude de quelques
représentations générées par le jeu de chaos. Enfin, nous
terminons par une étude fréquentielle des textures présentes
dans l‟image par application de Transformée de Fourier
Discrète à deux dimensions.
Mots clés- ADN, technique de codage, jeu de chaos,
fréquence d’apparition, motif, signature génomique,
transformée de Fourier discrète à deux dimensions.
II. LA MOLECULE D’ADN
La molécule d‟ADN est le support physique de
l‟information génétique héréditaire. Elle a été identifiée par
Watson et Crick en 1953 à partir de l‟exploitation de clichés
de diffraction par rayon X [26]. L‟ADN est sous forme de
pelotes microscopiques localisées dans le noyau des cellules
des organismes eucaryotes. Il se présente le plus souvent sous
forme de deux longs filaments torsadés l'un dans l'autre pour
former une structure en double hélice. Chaque filament est
composé d‟une succession de quatre monomères désignés par
l'initiale de la base azotée qui entre dans leur composition : A
(Adénine), C (Cytosine), G (Guanine) et T (Thymine).
L‟adénine est complémentaire à la thymine et la cytosine est
complémentaire à la guanine ce qui est à l‟origine de la
structure en double hélice. L‟appariement d‟une base
appartenant à une hélice avec son complémentaire sur l‟autre
hélice se fait par des liaisons hydrogènes [9].
Chaque groupement de trois bases consécutives forme ce
que l‟on nomme codon. Il existe 64 combinaisons possibles
spécifiant 20 acides aminés, un codon d‟initiation : le ATG et
3 codons stop qui sont indispensables à l‟arrêt de la synthèse
des protéines, à savoir : TAA, TAG et TGA [2, 20]. Les
protéines sont déterminées par la succession d‟un grand
nombre d‟acides aminés en fonction de l'information présente
dans les gènes. Un gène est une suite de codons débutant par
un codon d‟initiation et se terminant par un codon stop.
I. INTRODUCTION
L‟amélioration des techniques de séquençage des génomes
a généré un grand nombre de données dans les banques
d‟ADN. L‟exploration de ces données a regroupé les efforts de
chercheurs en diverses disciplines tel que le traitement de
signal et d‟image, les sciences physiques, la génétique, la
bioinformatique, etc...
Dans le domaine de traitement de signal et d‟image, il est
indispensable de convertir l‟ADN sous une forme exploitable
et ce par l‟attribution de valeur(s) numérique(s) à chaque lettre
constituant une séquence donnée.
Dans ce papier, nous nous intéressons au codage de l‟ADN
par le jeu de chaos (appelé en anglais Chaos Game
Representation).
Le jeu de chaos est un algorithme itératif permettant de
représenter les séquences génomiques sous forme d‟images
dites fractales [27]. Le terme fractal désigne des courbes ou
images dont la structure est autosimilaire sur une échelle
étendue. A chaque itération, un nouveau point est crée à michemin de la ligne reliant le point précédent à un des
attracteurs qui représentent les bases de la séquence d‟ADN.
1
La structure plus ou moins complexe d‟une protéine détermine
la nature de sa fonction chimique au sein de la cellule du
vivant [3, 22, 23].
Puis, le point Xn+1 est itérativement placé au milieu du
segment joignant Xn et le sommet correspondant à la lettre
un+1 [6, 7, 12, 27].
La figure 3 illustre le processus de construction du jeu de
chaos pour la séquence " AATGC ".
La figure 4 donne la CGR relative à la séquence complète du
gène threonine (thrA) chez la bactérie Escherichia coli.
Figure 1. Structure tridimensionnelle de la double hélice
d’ADN
III. L’ALGORITHME DU JEU DE
CHAOS
Le jeu de chaos ou CGR, a été proposé la première fois par
Jeffrey dans le but de prouver que les séquences génomiques
sont de nature non-aléatoire [15]. C‟est un algorithme itératif
permettant de dessiner des images fractales formant une
signature globale des séquences nucléotidiques [10,11, 24,
25]. Le terme signature génomique désigne les fréquences des
mots (un mot est une suite de nucléotides) qui constituent une
séquence d‟ADN [5, 14, 17].
Figure 4. CGR de la séquence complète du gène thrA
(2463 pb)
L‟algorithme de construction consiste à placer les quatre
lettres A, C, G et T aux sommets d‟un carré unité, de telle
sorte qu‟ils aient les coordonnées A, C, G et T données par
l‟équation (1).
 A  0, 0 , C  0,1 , G 1,1 , T 1, 0 
La densité de points, qui varie suivant les zones observées
dans les images CGR, peut fournir des informations assez
importantes sur la séquence. Dans la figure 4, par exemple, la
diagonale est pauvre en points. Cela peut être signe d‟absence
de mots bien définis tels que les purines (A et G) présentés par
la diagonale qui lie la lettre A (placée au coin gauche en bas) à
la lettre G (qui se trouve au coin haut à droite). L‟analyse par
CGR d‟une séquence plus longue illustre au mieux les
structures fractales que peut révéler le génome complet. Sur la
figure 5, nous pouvons voir clairement les deux axes croisés
(en blanc) qui existent déjà dans la CGR du gène thrA (figure
4). Ces derniers expriment les mots les plus rares dans le
génome de l‟organisme Escherichia coli.
(1)
La figure 2 donne l‟emplacement des attracteurs (les lettres A,
C, G et T) dans un plan carré.
Figure 2. Emplacement des attracteurs dans le plan de
représentation [0,1] 2 par la méthode de jeu de chaos
La fonction utilisée pour la représentation CGR sur le support
fermé X = [0,1]2 est donnée par :
1
X n 1 
X n  u
(2)
n 1
2


Figure 5. Analyse d’une longue séquence de la bactérie
E.coli par CGR ; la séquence considérée est composée des
55930 premières bases du génome
Le premier point X0 est généralement placé au centre du carré.
2
Figure 3. Processus de construction de l’image CGR pour la séquence " AATGC "
3
L‟analyse par le jeu de chaos forme un outil puissant dans
la visualisation des structures fractales qui dérivent de
répétition de certains motifs dans les séquences d‟ADN.
Cependant, l‟identification de ces motifs n‟est pas possible.
Confrontés à ce problème, plusieurs chercheurs se sont
concentrés sur la recherche d‟un moyen qui rend les CGRs
plus utiles dans la caractérisation des génomes.
En 1999, il a été montré que la représentation par CGR a
l'avantage de visualiser les fréquences d'apparition des mots
[1, 13, 21] et ce en proposant une grille de lecture sur les
images obtenues. En effet, quand on divise une CGR en pixels
de dimension 1/2k, on peut déterminer la probabilité
d‟apparition des sous-modèles associés (mots constitués de k
lettres). La matrice de fréquence ainsi baptisée est appelée
FCGR (Frequency Chaos Game Representation). L‟intensité
de chaque pixel est codée en une couleur selon un gradient
croissant. Les pixels les plus sombres représentent les mots les
plus fréquents dans la séquence. Par contre, les pixels les plus
clairs représentent les mots les plus rares. Le nombre de cases
que comporte la grille de lecture permet de faire du jeu de
chaos de l‟ADN une analyse multi-échelle. La figure 6
représente l‟organisation des mots dans les images FCGRs
pour les échelles 1, 2 et 3.
(1)
(2)
Dans la figure 7 on trouve un exemple des FCGR1, FCGR2 et
FCGR3. Ces images mettent en évidence la fréquence
d‟apparition des mots de tailles 1, 2 et 3 dans le génome de la
bactérie Erwinia amylovora.
Après avoir décrit les mécanismes de construction des
images CGR et FCGR nous passons à l‟analyse par
Transformée de Fourier Discrète à deux dimensions.
IV. TRANSFORMEE DE FOURIER
DISCRETE DES IMAGES 2D
Les images à deux dimensions (2D) sont des images
numériques où chaque pixel est représenté par une fonction
discrète f(x,y) qui peut être réelle ou complexe.
Généralement la fonction f(x,y) représente l‟intensité de
l‟image au point d‟abscisse x et d‟ordonnée y. La transformée
de Fourier discrète d‟une image est donnée par l‟équation (3) :
F  u, v  
1 M 1 N 1
f  m, n  e j 2 um / M e j 2 vn / N

M  N m0 n 0
(3)
La transformée de Fourier de la matrice f(m,n) donne une
matrice complexe F(u,v) avec u et v sont les fréquences
spatiales de l'image suivant les directions de l‟axe des
abscisses et de l‟axe des ordonnées respectivement.
Puisque la transformée de Fourier donne des valeurs
complexes, nous pouvons choisir de représenter l‟amplitude
ou la phase.
Le module de la transformée de Fourier est appelé spectre. Le
spectre donne la répartition énergétique en fonction de la
fréquence de l'image [4, 8, 19].
(3)
Figure 6. Disposition des compteurs dans la représentation
par le jeu de chaos pour des mots de tailles 1 à 3
Les résultats de la transformée de Fourier permettent
d‟explorer le contenu fréquentiel global de l‟image. Cette
transformée permet, en outre, de passer vers une analyse
spectrale locale plus fine à partir de laquelle certains
paramètres texturaux peuvent être extraits. L'analyse de
texture dans
l‟image est largement utilisée dans la
caractérisation, la segmentation, l‟indexation, la compression,
la reconnaissance des formes ou encore dans la classification.
(1)
(2)
V. RESULTATS ET DISCUSSION
Dans cette section, nous présentons en premier lieu les
résultats de l‟analyse des "frequency chaos game
representations" d‟ordre 8 (FCGR8) de quelques bactéries
dans le but d‟étudier les signatures génomiques relatives. Dans
la deuxième partie, nous présentons une étude fréquentielle
des textures qui existent dans de telles images par application
de transformée de Fourier discrète à deux dimensions.
Les bactéries étudiées sont : Yersinia pestis mediaevalis,
Atumefaciens, Escherichia coli, Bordetella, bronchiseptica,
(3)
Figure 7. Représentation des matrices FCGRs d’ordres 1, 2
et 3 relatives au génome de la bactérie Erwinia amylovora
4
Buchnera aphidicola, Actinobacillus succinogenes, Bacillus
cereus, Bacillus anthracis , Aquifex aeolicus et Treponema
denticola. Les données sont extraites du site du ″National
Center of Biotechnology Information″ (NCBI) [29].
espèces. Le gradient de couleur vertical dans le cas de
l‟Atumefaciens correspond à un déséquilibre en bases. Les
bactéries Yersinia pestis mediaevalis et Escherichia coli sont
caractérisées, par contre, par une composition en bases
relativement équilibrée. Ces signatures présentent des carreaux
clairs dérivant de la contre-sélection de certains mots, tels que
gatgggtg, ttgatttt, cctggggg et ggctgggg qui sont fortement
évités dans le génome de l‟Atumefaciens.
1. Analyse des signatures génomiques
Pour cette étude, nous avons produit des FCGR d‟ordre 8
pour les génomes considérés. La figure 8 présente les images
obtenues.
Notons que la signature de la bactérie Escherichia coli
(figure 8.c) est semblable à celle donnée par l‟image CGR
dans la figure 5, à la différence que l‟image FCGR est plus
précise puisqu‟elle fournit la fréquence d‟apparition de tous
les mots de taille n (ici n=8).
De ce fait, les images CGR obtenues par analyse de segments
d‟ADN définissent des «signatures locales». Celles relatives
aux génomes complets, définissent des «signatures globales».
Bien évidemment, plus le segment d‟ADN est long, plus la
signature locale associée se rapproche de la signature de
l‟espèce.
Il arrive des fois qu‟un ou plusieurs coins de la FCGR soient
plus sombres que le reste de l‟image. Ceci peut résulter des
longues suites de répétitions des mono-nucléotides A, C, G ou
T dans la séquence d‟analyse. Par exemple, dans la figure 9
nous considérons le génome de la bactérie Treponema
denticola. Les coins foncés de la FCGR associée indique la
présence de longues queues poly-A et poly-T.
L‟observation des signatures dans la figure 8 permet de
conclure que la signature génomique est spécifique à l‟espèce
étudiée. En effet, chaque signature met en évidence certains
types de motifs suivant le génome analysé. De plus la
variation de couleurs peut nous renseigner sur la composition
en bases dans la séquence.
Les signatures présentant des traits horizontaux sombres sur la
partie supérieure caractérisent les génomes riches en CG
(exemple : l‟organisme Bordetella bronchiseptica, figure 8.d).
D‟autres signatures comportent des traits horizontaux sombres
sur la partie inférieure (tel que le cas de Buchnera aphidicola
dans la figure 8.e) caractérisent ainsi les génomes riches en
AT. La figure 8.f, relative à l‟organisme Actinobacillus
succinogenes, montre, par contre, des traits horizontaux en
haut, en bas et au centre. Cela correspond à un génome
équilibré en bases.
Figure 9. Représentation par FCGR8 de la bactérie
Treponema denticola
La discrétisation des images CGRs selon une grille est un
outil pratique pour le calcul de signature génomique qui est
spécifique de l‟espèce étudiée. Mais le choix de l‟ordre
d‟analyse pose un problème en termes de nombre
d‟occurrences des mots et de dimension de la représentation.
Il convient donc de choisir la longueur des mots de sorte qu‟il
y ait un compromis entre l‟information qui puisse être
capturée, la dimension de la séquence et la dimension de
l‟image FCGR.
Les programmes de comparaison et de classification basés sur
le jeu de chaos optent pour de mots courts qui sont jugés
suffisants. La longueur de ces derniers varie entre 2 et 6
monomères.
L‟utilisation de mots de taille 3 (trinucléotides) se rapporte à
l‟étude des protéines [12, 28].
Les mots moyennement longs sont plutôt utiles dans les
études d‟homologie. Les mots trop longs sont souvent utilisés
dans le but de capter leur présence dans les génomes [16, 18].
Les figures 8.g, 8.h et 8.i (correspondant respectivement aux
bactéries: Bacillus cereus, Bacillus anthracis et Aquifex
aeolicus) montrent des diagonales noires, ce qui indique la
présence de longues suites de purines (A-G) et pyrimidines (TC). Cependant, l‟organisme Bordetella bronchiseptica (figure
8.d) comporte deux diagonales claires qui expriment l‟absence
de longues séquences purines et pyrimidines. En outre, la
signature de Bacillus cereus est apparentée à celle de Bacillus
anthracis. Les deux bactéries appartiennent à la même espèce
désignée par "groupe Bacillus cereus" et ont un degré de
parenté trop fort. Il est donc évident que leurs FCGRs
présentent de fortes similitudes.
L‟organisation spatiale des signatures relatives aux Yersinia
pestis mediaevalis, Atumefaciens et Escherichia coli (figures
8.a, 8.b et 8.c) révèlent une proximité phylogénétique des
5
Figure 8. Signatures génomiques d’ordre 8 relatives aux bactéries : Yersinia pestis mediaevalis, Atumefaciens, Escherichia coli,
Bordetella bronchiseptica, Buchnera aphidicola, Actinobacillus succinogenes, Bacillus cereus, Bacillus anthracis et Aquifex
aeolicus
6
- Les spectres présentent des droites qui passent par le
centre ainsi que d‟autres droites qui lui sont parallèles dont
l‟épaisseur varie d‟une image à l‟autre.
2. Analyse fréquentielle des signatures
génomiques par Transformée de Fourier
Discrète
- Toute droite comportant des points ou des raies alignés
exprime une périodicité dans l‟image source orientée dans le
sens perpendiculaire (90° entre les directions spatiale et
fréquentielle).
Exemple
les
bactéries
Bordetella
bronchiseptica, Buchnera aphidicola, Bacillus cereus et
Bacillus anthracis présentent dans leurs spectres des lignes
verticales passant par le centre très concentrées en énergie,
ceci correspond dans les images sources à de lignes de force
horizontales passant de même par le centre (figure 10.d, figure
10.e, figure 10.g, figure 10.h et figure 10.i).
Dans cette partie nous nous intéressons à l‟étude des
FCGRs des bactéries par le biais de la transformée de Fourier
discrète à deux dimensions. Dans ce sens, nous avons choisi
de représenter l‟amplitude des coefficients de Fourier
(spectre). En effet, il est plus commode d‟utiliser le spectre ou
le carré du module (périodogramme) dans l‟analyse des
textures des images.
Ici, les images FCGR8 des bactéries Yersinia pestis
mediaevalis, Atumefaciens, Escherichia coli, Bordetella
bronchiseptica,
Buchnera
aphidicola,
Actinobacillus
succinogenes, Bacillus cereus, Bacillus anthracis et Aquifex
aeolicus, présentent différentes textures. Les spectres associés
sont donnés par la figure 10.
- Plus les droites sont épaisses et longues, plus les
fréquences sont élevées.
- Les textures fines ont une énergie plus grande vers les
hautes fréquences. Par contre, les textures grossières possèdent
une énergie plus basse.
Notons que le spectre permet de visualiser la distribution
énergétique d‟une image : la couleur rouge indique les hautes
fréquences alors que la couleur bleue désigne les basses
fréquences. Les pics du spectre traduisent des périodicités de
certains motifs dans l‟image. Le spectre permet, en outre, de
respecter la périodicité ainsi que l‟orientation des motifs.
- La transformée de Fourier conserve l‟énergie :
  f ( m,n) 2    F (u ,v ) 2
En comparant chaque image FCGR de la figure 8 avec le
spectre correspondant dans la figure 10, nous remarquons que
si l‟image originale possède une certaine structure texturale, il
en ira de même pour le spectre de Fourier. Ceci s‟illustre bien
dans le cas des bactéries Bacillus cereus, Bacillus anthracis et
Aquifex aeolicus (figure 10.g, figure 10.h et figure 10.i).
(4)
Perceptuellement, le spectre d‟une image informe sur les
périodicités qui y résident. Le calcul de ces périodicités est
possible si on exprime les fréquences spatiales dans le système
de coordonnées polaires.
Dans le plan de Fourier, un motif textural est exprimé en
fonction de deux fréquences f1 et f2 qui caractérisent la
périodicité et l‟arrangement de ce dernier [30].
Le spectre de Yersinia pestis mediaevalis (figure 10.a) montre
des points placés dans un plan carré autour du centre ; ceci
indique des périodicités dans les sens horizontal, vertical et
diagonal. Il en est de même pour les autres bactéries avec une
intensité variable suivant la force des périodicités dans l‟image
sujette d‟étude. De ce fait, l‟organisme Actinobacillus
succinogenes présente de rares périodicités (figure 10.f).
La correspondance entre périodicités spatiales et spectrales est
donnée par les équations (5) et (6).
Les pics sont équidistants (horizontalement et verticalement)
dans les spectres de toutes les bactéries ce qui veut dire que les
fréquences horizontales et verticales sont equi-réparties dans
les images sources (d‟origine). C‟est un résultat tout à fait
naturel vu que les sources sont des images fractales.
M

 u  f cos 
1


N
v 

f 2 sin 

(5)
  arg  f 2   arg  f1 
(6)
L‟extraction des fréquences privilégiées du spectre relève de
l‟analyse spectrale locale. Dans ce papier, nous nous sommes
limités à l‟analyse globale des spectres associés aux images
FCGRs de quelques bactéries. Le passage vers une étude plus
détaillée (en procédant par une analyse locale) fera l‟objet
d‟un futur travail.
En observant les spectres de Fourier, nous pouvons voir que
toutes ces images ont des caractéristiques communes :
- Le point central est concentré en énergie pour toutes les
images puisque l‟énergie autour de ce point est la moyenne de
l‟intensité de l‟image d‟origine.
7
Figure 10. Spectres des signatures d’ordre 8 relatives aux bactéries : Yersinia pestis mediaevalis, Atumefaciens, Escherichia coli,
Bordetella bronchiseptica, Buchnera aphidicola, Actinobacillus succinogenes, Bacillus cereus, Bacillus anthracis et Aquifex
aeolicus
8
caractérisation des textures. Les méthodes d‟analyse locale
basées sur la transformée de Fourier sont à la base de plusieurs
opérations de débruitage, de compression, de reconnaissance
de formes et de classification.
VI. CONCLUSION
L‟investigation dans le domaine de séquençage de l‟ADN
a augmenté le nombre de séquences dans les bases de données
génomiques. L‟extraction de l‟information pertinente dans cet
amas de données demeure une tâche difficile. De ce fait,
plusieurs recherches se sont focalisées sur les représentations
de l‟ADN qui peuvent révéler des informations intéressantes.
Parmi ces méthodes nous nous sommes intéressés, dans ce
papier, à la CGR (représentation par le jeu de chaos) ainsi que
la représentation FCGR. De point de vue visualisation, les
deux méthodes sont similaires. Néanmoins il a été montré que
la FCGR est plus utile que la CGR, vu qu‟elle informe sur la
probabilité d‟apparition des mots qui constituent une séquence
d‟ADN. Tandis que la CGR reste un outil de comparaison
visuelle entre génomes.
REFERENCES
[1]
[2]
[3]
[4]
Le potentiel de l‟approche FCGR repose sur la simplicité
de son implémentation ainsi que son efficacité dans la
visualisation des différentes structures que peut révéler les
signatures génomiques. Une signature génomique est définie
comme l‟ensemble des fréquences d‟apparition des mots dans
le génome d‟une espèce donnée. Dans le cas d‟étude des
génomes complets par FCGRs, les signatures obtenues sont
dites globales. L‟analyse d‟un segment du génome, dans ce
cadre, donne ce qu‟on appelle signature locale. Généralement
une signature locale est proche de la signature globale de
l‟espèce. Il apparaît, en outre, que la signature génomique est
spécifique de l‟organisme sujet d‟étude. Des signatures,
appartenant à différentes espèces, qui s‟apparentent présentent
une forte relation taxonomique (La taxonomie est la science
qui a pour objet de décrire et regrouper les organismes vivants
en classes).
[5]
[6]
[7]
[8]
[9]
L‟estimation de la fréquence d‟un mot peut indiquer sa
particularité selon qu‟il soit le plus abondant ou le plus évité
dans la séquence génomique. Ceci peut être signe d‟un mot
d‟un grand intérêt biologique.
[10]
[11]
Le choix de l‟ordre d‟analyse par FCGR pose un problème
en termes de nombre d‟occurrences des mots et de dimension
de la représentation. Il est concevable de choisir la longueur
des mots qui soit la plus adaptée à l‟objectif visé par l‟étude
menée. En effet, une taille de mots allant de 2 à 6 pb est
suffisante pour les comparaisons et les classifications des
espèces. Les mots moyennement longs sont plutôt utiles dans
les études d‟homologie. Les mots trop longs sont souvent
utilisés dans le but de capter leur présence dans les génomes.
[12]
[13]
[14]
Les images produites par le jeu de chaos sont caractérisées de
texturales. Les textures dérivent de la fractalité (autosimilarité)
des images FCGRs. Pour cela une étude spectrale s‟impose.
[15]
[16]
Le spectre de Fourier des signatures FCGRs permet d‟explorer
le contenu fréquentiel et donne une indication sur les
périodicités ainsi que l‟orientation des textures. Les textures
fréquentielles peuvent avoir des aspects perceptuels et
statistiques très variables. L‟extraction de ces fréquences
relève de l‟analyse locale, qui est très utilisée dans la
[17]
[18]
[19]
9
Almeida. J.S, Carrico. J.A, Maretzek. A, Noble. P.A, Fletcher. M,
“Analysis of genomic sequences by Chaos GameRepresentation”,
Bioinformatics Vol.17, n°5, pp 429–437, 2001.
Campbell. N.A, Mitchell. L.G, Reece. J.B, “Biology”, 5th Ed.
Benjamin/Cummings Publ. Co., Inc. Menlo Park, CA. (plus earlier
editions), 1999.
Chang.C.Q,
“Genomic
signal
processing”,
http://www.hku.hk/facmed/research/presentations/cq_chang.ppt.
Chaumont. M, „‟Le traitement du signal - La transformée de Fourier, la
transformée de Fourier discrète et la transformée en cosinus discret‟‟,
l‟Institut de Formation Supérieure en Informatique et Communication de
Rennes,http://www.lirmm.fr/~chaumont/download/cours/TS/TS_Fourrie
r.pdf, 2008.
Chapus. C, “Analyse de données phylogénétiques à l‟aide de la
signature génomique. Aspects méthodologiques et application aux
procaryotes”, Thèse d‟Université, Université Denis Diderot (Paris VII),
2005.
Cénac. P, “Étude statistique de séquences biologiques et convergence de
martingales”, PhD thesis on Applied Mathematics, Paul Sabatier
University, Toulouse III, pp 17−25, 2006.
Cénac. P, Fayolle. G, Lasgouttes. J.M, “ Dynamical Systems in the
Analysis of Biological Sequences”, research report n° 5351, pp 3–50,
2004.
Croquette.
V,
“La
transformée
de
Fourier
discrète”,
http://pimprenelle.lps.ens.fr/biolps/sites/default/files/teaching/4/C2.pdf,
2009.
Dale. J.W, Schantz. M, “From Genes to Genomes: Concepts and
Applications of DNA Technology” Edition John Wiley & Sons, LTD,
2002.
Deschavanne. P, Giron. A, Vilain. J, Dufraigne .CH, Fertil. B, “Genomic
Signature Is Preserved in Short DNA Fragment”, International
Symposium on Bio-Informatics and Biomedical Engineering, IEEE, pp
161–167, 2000.
Deshavanne. P, Giron. A, Vilain. J, Fagot. G, Fertil. B, “Genomic
signature : characterization and classification of species assessed by
chaos game representation of sequences” , Mol Biol E, Vol.16, n°10, pp
1391–1399, 1999.
Fiser. A, Tusnady. G.E, Simon. I, “Chaos game representation of protein
structures”, J.Mol Graphics, Vol.12, pp 295, 302–304, 1994.
Giron. A, Vilain. J, Serruys. C, Brahmi. D.P, Deschavanne. P, Fertil. B,
“Analysis of parametric images derived from genomic sequences using
neural network based approaches”,
IJCNN
International Joint
Conference on Neural Networks, IEEE, Vol 5,pp 3604 – 3608, 1999.
Goldman. N, “Nucleotide, dinucleotide and trinucleotide frequencies
explain patterns observed in chaos game representations of DNA
sequences”, Nucleic Acids Research Vol.21, n°10, pp 2487–2491, 1993.
Jeffrey. H.J, “Chaos game visualization of sequences”, Computers &
Graphics, Elsevier, Vol.16, n°1, pp 25–33, 1990.
Joseph. J, Sasikumar. R, “Chaos game representation for comparison of
whole genomes”, BMC Bioinformatics, Vol.7, n°1, pp 1-10, 2006.
Karlin. S, Burge. C, Dinucleotide relative abundance extremes: a
genomic signature. Trends Genet, Vol.11, pp 283–290, 1995.
Karlin. S, . LaDunga. I, “Comparisons of eukaryotic genomic
sequences”, Proc. Natl. Acad. Sci. USA , Vol.91, pp12832–12836,
1994.
Le Roux. J, “Traitement Numérique des Signaux Bidimensionnels”,
http://users.polytech.unice.fr/~leroux/crim2.pdf , 2005.
[20] Macgregor. R.B, Poon. G.M.K, “the DNA double helix fifty years on”
Computational biology and chemistry, Elsevier, Vol.27, n° 4-5, pp 461467, 2003.
[21] Makula. M, “Interactive visualization of oligomer frequency in DNA”
Computing and Informatics, Vol.28, pp 1001–1016, 2009.
[22] Rechenmann. F, Gautier. C, “Interpreting the genome”, La recherche, n°
332, pp 39-45, 2000.
[23] Sharp. P, Tuohy. T, Mosurski. K, “Codon usage in yeast: Cluster
analysis clearly differentiates highly and lowly expressed genes”,
Nucleic Acids Res, Vol.14, pp 5125-5143, 1986.
[24] Tavassoly. I, Tavassoly. O, Rad. M.S.R, Dastjerdi. M.N, “Multifractal
Analysis of Chaos Game Representation Images of Mitochondrial
DNA”, Frontiers in the Convergence of Bioscience and Information
Technologies FBIT , IEEE, pp 224–229, 2007.
[25] Tavassoly. I, Tavassoly. O,
Rad. M.S.R, Dastjerdi. M.N, “Three
dimensional Chaos Game Representation of genomic sequences ” ,
Frontiers in the Convergence of Bioscience and Information
Technologies FBIT , IEEE, pp 219–223, 2007.
[26] Watson. G, Witkowski. Z, Traduit par Relevanté. O, “ADN
recombinant”, deuxième édition, De Boeck Université, pp 8-60, 1992.
[27] Yu. Z.G, Shi. L, Xiao. Q.J, Anh. V,“Chaos game representation of
genomes and their simulation by recurrent iterated function systems”,
Bioinformatics and Biomedical Engineering ICBBE, IEEE, pp 41–46,
2008.
[28] Yu. Z.G, Anh. V, Ka-Sing. Lau, “Chaos Game Representation of Protein
Sequences based on the detailed HP model and their multifractal and
correlational analysis”, Journal of Theoretical Biology, Vol.226, n° 3, pp
341–348, 2004.
[29] http://mirrors.vbi.vt.edu/mirrors/ftp.ncbi.nih.gov/genomes/Bacteria/
[30] http://www.tsi.telecom-paristech.fr/pages/enseignement/ressources/beti/
textures_Fourier/texture.html
10
Téléchargement