Caractérisation des génomes bactériens par la représentation en jeu de Chaos et étude fréquentielle des textures par Transformée de Fourier à deux dimensions 1 Imen Messaoudi, 2Afef Elloumi, 3Zied Lachiri, Département de Génie Electrique, ENIT, Tunis, Tunisie 3 Département de Physique et Instrumentation, INSAT, BP 676,1080, Centre Urbain, Tunis, Tunisie 1 [email protected], [email protected], 3Zied.lachiri@ enit.rnu.tn 1, 2 Abstract- Les programmes de séquençage des génomes ont généré une grande masse de données dans les banques d’ADN. La visualisation et l’extraction des informations caractéristiques de ces données constituent une problématique assez ardue. La mise en évidence de certaines caractéristiques de l’ADN dépend fortement du type de codage adopté. Les méthodes de codage de l’ADN construisent des signaux ou des images. Le principe du codage se base sur l’attribution de valeur(s) numérique(s) à chacune des lettres constituant l’alphabet de l’ADN. Notre travail s’inscrit dans le cadre d’étude des textures des signatures génomiques de quelques organismes modèles par le biais du jeu de chaos et par l’application de la transformée de Fourier discrète à deux dimensions. L‟ensemble des attracteurs définit le support de la représentation. Les images produites par cette méthode présentent des structures fractales dues aux périodicités qui caractérisent l‟ADN. Ce papier comporte cinq parties. Dans la première partie, nous présentons un bref rappel biologique sur la molécule d‟ADN. Nous décrivons, dans la deuxième section, la démarche suivie dans la production des images par le jeu de chaos. Dans la troisième partie, nous présentons la transformée de Fourier discrète à deux dimensions. Nous abordons, dans la quatrième partie, une étude de quelques représentations générées par le jeu de chaos. Enfin, nous terminons par une étude fréquentielle des textures présentes dans l‟image par application de Transformée de Fourier Discrète à deux dimensions. Mots clés- ADN, technique de codage, jeu de chaos, fréquence d’apparition, motif, signature génomique, transformée de Fourier discrète à deux dimensions. II. LA MOLECULE D’ADN La molécule d‟ADN est le support physique de l‟information génétique héréditaire. Elle a été identifiée par Watson et Crick en 1953 à partir de l‟exploitation de clichés de diffraction par rayon X [26]. L‟ADN est sous forme de pelotes microscopiques localisées dans le noyau des cellules des organismes eucaryotes. Il se présente le plus souvent sous forme de deux longs filaments torsadés l'un dans l'autre pour former une structure en double hélice. Chaque filament est composé d‟une succession de quatre monomères désignés par l'initiale de la base azotée qui entre dans leur composition : A (Adénine), C (Cytosine), G (Guanine) et T (Thymine). L‟adénine est complémentaire à la thymine et la cytosine est complémentaire à la guanine ce qui est à l‟origine de la structure en double hélice. L‟appariement d‟une base appartenant à une hélice avec son complémentaire sur l‟autre hélice se fait par des liaisons hydrogènes [9]. Chaque groupement de trois bases consécutives forme ce que l‟on nomme codon. Il existe 64 combinaisons possibles spécifiant 20 acides aminés, un codon d‟initiation : le ATG et 3 codons stop qui sont indispensables à l‟arrêt de la synthèse des protéines, à savoir : TAA, TAG et TGA [2, 20]. Les protéines sont déterminées par la succession d‟un grand nombre d‟acides aminés en fonction de l'information présente dans les gènes. Un gène est une suite de codons débutant par un codon d‟initiation et se terminant par un codon stop. I. INTRODUCTION L‟amélioration des techniques de séquençage des génomes a généré un grand nombre de données dans les banques d‟ADN. L‟exploration de ces données a regroupé les efforts de chercheurs en diverses disciplines tel que le traitement de signal et d‟image, les sciences physiques, la génétique, la bioinformatique, etc... Dans le domaine de traitement de signal et d‟image, il est indispensable de convertir l‟ADN sous une forme exploitable et ce par l‟attribution de valeur(s) numérique(s) à chaque lettre constituant une séquence donnée. Dans ce papier, nous nous intéressons au codage de l‟ADN par le jeu de chaos (appelé en anglais Chaos Game Representation). Le jeu de chaos est un algorithme itératif permettant de représenter les séquences génomiques sous forme d‟images dites fractales [27]. Le terme fractal désigne des courbes ou images dont la structure est autosimilaire sur une échelle étendue. A chaque itération, un nouveau point est crée à michemin de la ligne reliant le point précédent à un des attracteurs qui représentent les bases de la séquence d‟ADN. 1 La structure plus ou moins complexe d‟une protéine détermine la nature de sa fonction chimique au sein de la cellule du vivant [3, 22, 23]. Puis, le point Xn+1 est itérativement placé au milieu du segment joignant Xn et le sommet correspondant à la lettre un+1 [6, 7, 12, 27]. La figure 3 illustre le processus de construction du jeu de chaos pour la séquence " AATGC ". La figure 4 donne la CGR relative à la séquence complète du gène threonine (thrA) chez la bactérie Escherichia coli. Figure 1. Structure tridimensionnelle de la double hélice d’ADN III. L’ALGORITHME DU JEU DE CHAOS Le jeu de chaos ou CGR, a été proposé la première fois par Jeffrey dans le but de prouver que les séquences génomiques sont de nature non-aléatoire [15]. C‟est un algorithme itératif permettant de dessiner des images fractales formant une signature globale des séquences nucléotidiques [10,11, 24, 25]. Le terme signature génomique désigne les fréquences des mots (un mot est une suite de nucléotides) qui constituent une séquence d‟ADN [5, 14, 17]. Figure 4. CGR de la séquence complète du gène thrA (2463 pb) L‟algorithme de construction consiste à placer les quatre lettres A, C, G et T aux sommets d‟un carré unité, de telle sorte qu‟ils aient les coordonnées A, C, G et T données par l‟équation (1). A 0, 0 , C 0,1 , G 1,1 , T 1, 0 La densité de points, qui varie suivant les zones observées dans les images CGR, peut fournir des informations assez importantes sur la séquence. Dans la figure 4, par exemple, la diagonale est pauvre en points. Cela peut être signe d‟absence de mots bien définis tels que les purines (A et G) présentés par la diagonale qui lie la lettre A (placée au coin gauche en bas) à la lettre G (qui se trouve au coin haut à droite). L‟analyse par CGR d‟une séquence plus longue illustre au mieux les structures fractales que peut révéler le génome complet. Sur la figure 5, nous pouvons voir clairement les deux axes croisés (en blanc) qui existent déjà dans la CGR du gène thrA (figure 4). Ces derniers expriment les mots les plus rares dans le génome de l‟organisme Escherichia coli. (1) La figure 2 donne l‟emplacement des attracteurs (les lettres A, C, G et T) dans un plan carré. Figure 2. Emplacement des attracteurs dans le plan de représentation [0,1] 2 par la méthode de jeu de chaos La fonction utilisée pour la représentation CGR sur le support fermé X = [0,1]2 est donnée par : 1 X n 1 X n u (2) n 1 2 Figure 5. Analyse d’une longue séquence de la bactérie E.coli par CGR ; la séquence considérée est composée des 55930 premières bases du génome Le premier point X0 est généralement placé au centre du carré. 2 Figure 3. Processus de construction de l’image CGR pour la séquence " AATGC " 3 L‟analyse par le jeu de chaos forme un outil puissant dans la visualisation des structures fractales qui dérivent de répétition de certains motifs dans les séquences d‟ADN. Cependant, l‟identification de ces motifs n‟est pas possible. Confrontés à ce problème, plusieurs chercheurs se sont concentrés sur la recherche d‟un moyen qui rend les CGRs plus utiles dans la caractérisation des génomes. En 1999, il a été montré que la représentation par CGR a l'avantage de visualiser les fréquences d'apparition des mots [1, 13, 21] et ce en proposant une grille de lecture sur les images obtenues. En effet, quand on divise une CGR en pixels de dimension 1/2k, on peut déterminer la probabilité d‟apparition des sous-modèles associés (mots constitués de k lettres). La matrice de fréquence ainsi baptisée est appelée FCGR (Frequency Chaos Game Representation). L‟intensité de chaque pixel est codée en une couleur selon un gradient croissant. Les pixels les plus sombres représentent les mots les plus fréquents dans la séquence. Par contre, les pixels les plus clairs représentent les mots les plus rares. Le nombre de cases que comporte la grille de lecture permet de faire du jeu de chaos de l‟ADN une analyse multi-échelle. La figure 6 représente l‟organisation des mots dans les images FCGRs pour les échelles 1, 2 et 3. (1) (2) Dans la figure 7 on trouve un exemple des FCGR1, FCGR2 et FCGR3. Ces images mettent en évidence la fréquence d‟apparition des mots de tailles 1, 2 et 3 dans le génome de la bactérie Erwinia amylovora. Après avoir décrit les mécanismes de construction des images CGR et FCGR nous passons à l‟analyse par Transformée de Fourier Discrète à deux dimensions. IV. TRANSFORMEE DE FOURIER DISCRETE DES IMAGES 2D Les images à deux dimensions (2D) sont des images numériques où chaque pixel est représenté par une fonction discrète f(x,y) qui peut être réelle ou complexe. Généralement la fonction f(x,y) représente l‟intensité de l‟image au point d‟abscisse x et d‟ordonnée y. La transformée de Fourier discrète d‟une image est donnée par l‟équation (3) : F u, v 1 M 1 N 1 f m, n e j 2 um / M e j 2 vn / N M N m0 n 0 (3) La transformée de Fourier de la matrice f(m,n) donne une matrice complexe F(u,v) avec u et v sont les fréquences spatiales de l'image suivant les directions de l‟axe des abscisses et de l‟axe des ordonnées respectivement. Puisque la transformée de Fourier donne des valeurs complexes, nous pouvons choisir de représenter l‟amplitude ou la phase. Le module de la transformée de Fourier est appelé spectre. Le spectre donne la répartition énergétique en fonction de la fréquence de l'image [4, 8, 19]. (3) Figure 6. Disposition des compteurs dans la représentation par le jeu de chaos pour des mots de tailles 1 à 3 Les résultats de la transformée de Fourier permettent d‟explorer le contenu fréquentiel global de l‟image. Cette transformée permet, en outre, de passer vers une analyse spectrale locale plus fine à partir de laquelle certains paramètres texturaux peuvent être extraits. L'analyse de texture dans l‟image est largement utilisée dans la caractérisation, la segmentation, l‟indexation, la compression, la reconnaissance des formes ou encore dans la classification. (1) (2) V. RESULTATS ET DISCUSSION Dans cette section, nous présentons en premier lieu les résultats de l‟analyse des "frequency chaos game representations" d‟ordre 8 (FCGR8) de quelques bactéries dans le but d‟étudier les signatures génomiques relatives. Dans la deuxième partie, nous présentons une étude fréquentielle des textures qui existent dans de telles images par application de transformée de Fourier discrète à deux dimensions. Les bactéries étudiées sont : Yersinia pestis mediaevalis, Atumefaciens, Escherichia coli, Bordetella, bronchiseptica, (3) Figure 7. Représentation des matrices FCGRs d’ordres 1, 2 et 3 relatives au génome de la bactérie Erwinia amylovora 4 Buchnera aphidicola, Actinobacillus succinogenes, Bacillus cereus, Bacillus anthracis , Aquifex aeolicus et Treponema denticola. Les données sont extraites du site du ″National Center of Biotechnology Information″ (NCBI) [29]. espèces. Le gradient de couleur vertical dans le cas de l‟Atumefaciens correspond à un déséquilibre en bases. Les bactéries Yersinia pestis mediaevalis et Escherichia coli sont caractérisées, par contre, par une composition en bases relativement équilibrée. Ces signatures présentent des carreaux clairs dérivant de la contre-sélection de certains mots, tels que gatgggtg, ttgatttt, cctggggg et ggctgggg qui sont fortement évités dans le génome de l‟Atumefaciens. 1. Analyse des signatures génomiques Pour cette étude, nous avons produit des FCGR d‟ordre 8 pour les génomes considérés. La figure 8 présente les images obtenues. Notons que la signature de la bactérie Escherichia coli (figure 8.c) est semblable à celle donnée par l‟image CGR dans la figure 5, à la différence que l‟image FCGR est plus précise puisqu‟elle fournit la fréquence d‟apparition de tous les mots de taille n (ici n=8). De ce fait, les images CGR obtenues par analyse de segments d‟ADN définissent des «signatures locales». Celles relatives aux génomes complets, définissent des «signatures globales». Bien évidemment, plus le segment d‟ADN est long, plus la signature locale associée se rapproche de la signature de l‟espèce. Il arrive des fois qu‟un ou plusieurs coins de la FCGR soient plus sombres que le reste de l‟image. Ceci peut résulter des longues suites de répétitions des mono-nucléotides A, C, G ou T dans la séquence d‟analyse. Par exemple, dans la figure 9 nous considérons le génome de la bactérie Treponema denticola. Les coins foncés de la FCGR associée indique la présence de longues queues poly-A et poly-T. L‟observation des signatures dans la figure 8 permet de conclure que la signature génomique est spécifique à l‟espèce étudiée. En effet, chaque signature met en évidence certains types de motifs suivant le génome analysé. De plus la variation de couleurs peut nous renseigner sur la composition en bases dans la séquence. Les signatures présentant des traits horizontaux sombres sur la partie supérieure caractérisent les génomes riches en CG (exemple : l‟organisme Bordetella bronchiseptica, figure 8.d). D‟autres signatures comportent des traits horizontaux sombres sur la partie inférieure (tel que le cas de Buchnera aphidicola dans la figure 8.e) caractérisent ainsi les génomes riches en AT. La figure 8.f, relative à l‟organisme Actinobacillus succinogenes, montre, par contre, des traits horizontaux en haut, en bas et au centre. Cela correspond à un génome équilibré en bases. Figure 9. Représentation par FCGR8 de la bactérie Treponema denticola La discrétisation des images CGRs selon une grille est un outil pratique pour le calcul de signature génomique qui est spécifique de l‟espèce étudiée. Mais le choix de l‟ordre d‟analyse pose un problème en termes de nombre d‟occurrences des mots et de dimension de la représentation. Il convient donc de choisir la longueur des mots de sorte qu‟il y ait un compromis entre l‟information qui puisse être capturée, la dimension de la séquence et la dimension de l‟image FCGR. Les programmes de comparaison et de classification basés sur le jeu de chaos optent pour de mots courts qui sont jugés suffisants. La longueur de ces derniers varie entre 2 et 6 monomères. L‟utilisation de mots de taille 3 (trinucléotides) se rapporte à l‟étude des protéines [12, 28]. Les mots moyennement longs sont plutôt utiles dans les études d‟homologie. Les mots trop longs sont souvent utilisés dans le but de capter leur présence dans les génomes [16, 18]. Les figures 8.g, 8.h et 8.i (correspondant respectivement aux bactéries: Bacillus cereus, Bacillus anthracis et Aquifex aeolicus) montrent des diagonales noires, ce qui indique la présence de longues suites de purines (A-G) et pyrimidines (TC). Cependant, l‟organisme Bordetella bronchiseptica (figure 8.d) comporte deux diagonales claires qui expriment l‟absence de longues séquences purines et pyrimidines. En outre, la signature de Bacillus cereus est apparentée à celle de Bacillus anthracis. Les deux bactéries appartiennent à la même espèce désignée par "groupe Bacillus cereus" et ont un degré de parenté trop fort. Il est donc évident que leurs FCGRs présentent de fortes similitudes. L‟organisation spatiale des signatures relatives aux Yersinia pestis mediaevalis, Atumefaciens et Escherichia coli (figures 8.a, 8.b et 8.c) révèlent une proximité phylogénétique des 5 Figure 8. Signatures génomiques d’ordre 8 relatives aux bactéries : Yersinia pestis mediaevalis, Atumefaciens, Escherichia coli, Bordetella bronchiseptica, Buchnera aphidicola, Actinobacillus succinogenes, Bacillus cereus, Bacillus anthracis et Aquifex aeolicus 6 - Les spectres présentent des droites qui passent par le centre ainsi que d‟autres droites qui lui sont parallèles dont l‟épaisseur varie d‟une image à l‟autre. 2. Analyse fréquentielle des signatures génomiques par Transformée de Fourier Discrète - Toute droite comportant des points ou des raies alignés exprime une périodicité dans l‟image source orientée dans le sens perpendiculaire (90° entre les directions spatiale et fréquentielle). Exemple les bactéries Bordetella bronchiseptica, Buchnera aphidicola, Bacillus cereus et Bacillus anthracis présentent dans leurs spectres des lignes verticales passant par le centre très concentrées en énergie, ceci correspond dans les images sources à de lignes de force horizontales passant de même par le centre (figure 10.d, figure 10.e, figure 10.g, figure 10.h et figure 10.i). Dans cette partie nous nous intéressons à l‟étude des FCGRs des bactéries par le biais de la transformée de Fourier discrète à deux dimensions. Dans ce sens, nous avons choisi de représenter l‟amplitude des coefficients de Fourier (spectre). En effet, il est plus commode d‟utiliser le spectre ou le carré du module (périodogramme) dans l‟analyse des textures des images. Ici, les images FCGR8 des bactéries Yersinia pestis mediaevalis, Atumefaciens, Escherichia coli, Bordetella bronchiseptica, Buchnera aphidicola, Actinobacillus succinogenes, Bacillus cereus, Bacillus anthracis et Aquifex aeolicus, présentent différentes textures. Les spectres associés sont donnés par la figure 10. - Plus les droites sont épaisses et longues, plus les fréquences sont élevées. - Les textures fines ont une énergie plus grande vers les hautes fréquences. Par contre, les textures grossières possèdent une énergie plus basse. Notons que le spectre permet de visualiser la distribution énergétique d‟une image : la couleur rouge indique les hautes fréquences alors que la couleur bleue désigne les basses fréquences. Les pics du spectre traduisent des périodicités de certains motifs dans l‟image. Le spectre permet, en outre, de respecter la périodicité ainsi que l‟orientation des motifs. - La transformée de Fourier conserve l‟énergie : f ( m,n) 2 F (u ,v ) 2 En comparant chaque image FCGR de la figure 8 avec le spectre correspondant dans la figure 10, nous remarquons que si l‟image originale possède une certaine structure texturale, il en ira de même pour le spectre de Fourier. Ceci s‟illustre bien dans le cas des bactéries Bacillus cereus, Bacillus anthracis et Aquifex aeolicus (figure 10.g, figure 10.h et figure 10.i). (4) Perceptuellement, le spectre d‟une image informe sur les périodicités qui y résident. Le calcul de ces périodicités est possible si on exprime les fréquences spatiales dans le système de coordonnées polaires. Dans le plan de Fourier, un motif textural est exprimé en fonction de deux fréquences f1 et f2 qui caractérisent la périodicité et l‟arrangement de ce dernier [30]. Le spectre de Yersinia pestis mediaevalis (figure 10.a) montre des points placés dans un plan carré autour du centre ; ceci indique des périodicités dans les sens horizontal, vertical et diagonal. Il en est de même pour les autres bactéries avec une intensité variable suivant la force des périodicités dans l‟image sujette d‟étude. De ce fait, l‟organisme Actinobacillus succinogenes présente de rares périodicités (figure 10.f). La correspondance entre périodicités spatiales et spectrales est donnée par les équations (5) et (6). Les pics sont équidistants (horizontalement et verticalement) dans les spectres de toutes les bactéries ce qui veut dire que les fréquences horizontales et verticales sont equi-réparties dans les images sources (d‟origine). C‟est un résultat tout à fait naturel vu que les sources sont des images fractales. M u f cos 1 N v f 2 sin (5) arg f 2 arg f1 (6) L‟extraction des fréquences privilégiées du spectre relève de l‟analyse spectrale locale. Dans ce papier, nous nous sommes limités à l‟analyse globale des spectres associés aux images FCGRs de quelques bactéries. Le passage vers une étude plus détaillée (en procédant par une analyse locale) fera l‟objet d‟un futur travail. En observant les spectres de Fourier, nous pouvons voir que toutes ces images ont des caractéristiques communes : - Le point central est concentré en énergie pour toutes les images puisque l‟énergie autour de ce point est la moyenne de l‟intensité de l‟image d‟origine. 7 Figure 10. Spectres des signatures d’ordre 8 relatives aux bactéries : Yersinia pestis mediaevalis, Atumefaciens, Escherichia coli, Bordetella bronchiseptica, Buchnera aphidicola, Actinobacillus succinogenes, Bacillus cereus, Bacillus anthracis et Aquifex aeolicus 8 caractérisation des textures. Les méthodes d‟analyse locale basées sur la transformée de Fourier sont à la base de plusieurs opérations de débruitage, de compression, de reconnaissance de formes et de classification. VI. CONCLUSION L‟investigation dans le domaine de séquençage de l‟ADN a augmenté le nombre de séquences dans les bases de données génomiques. L‟extraction de l‟information pertinente dans cet amas de données demeure une tâche difficile. De ce fait, plusieurs recherches se sont focalisées sur les représentations de l‟ADN qui peuvent révéler des informations intéressantes. Parmi ces méthodes nous nous sommes intéressés, dans ce papier, à la CGR (représentation par le jeu de chaos) ainsi que la représentation FCGR. De point de vue visualisation, les deux méthodes sont similaires. Néanmoins il a été montré que la FCGR est plus utile que la CGR, vu qu‟elle informe sur la probabilité d‟apparition des mots qui constituent une séquence d‟ADN. Tandis que la CGR reste un outil de comparaison visuelle entre génomes. REFERENCES [1] [2] [3] [4] Le potentiel de l‟approche FCGR repose sur la simplicité de son implémentation ainsi que son efficacité dans la visualisation des différentes structures que peut révéler les signatures génomiques. Une signature génomique est définie comme l‟ensemble des fréquences d‟apparition des mots dans le génome d‟une espèce donnée. Dans le cas d‟étude des génomes complets par FCGRs, les signatures obtenues sont dites globales. L‟analyse d‟un segment du génome, dans ce cadre, donne ce qu‟on appelle signature locale. Généralement une signature locale est proche de la signature globale de l‟espèce. Il apparaît, en outre, que la signature génomique est spécifique de l‟organisme sujet d‟étude. Des signatures, appartenant à différentes espèces, qui s‟apparentent présentent une forte relation taxonomique (La taxonomie est la science qui a pour objet de décrire et regrouper les organismes vivants en classes). [5] [6] [7] [8] [9] L‟estimation de la fréquence d‟un mot peut indiquer sa particularité selon qu‟il soit le plus abondant ou le plus évité dans la séquence génomique. Ceci peut être signe d‟un mot d‟un grand intérêt biologique. [10] [11] Le choix de l‟ordre d‟analyse par FCGR pose un problème en termes de nombre d‟occurrences des mots et de dimension de la représentation. Il est concevable de choisir la longueur des mots qui soit la plus adaptée à l‟objectif visé par l‟étude menée. En effet, une taille de mots allant de 2 à 6 pb est suffisante pour les comparaisons et les classifications des espèces. Les mots moyennement longs sont plutôt utiles dans les études d‟homologie. Les mots trop longs sont souvent utilisés dans le but de capter leur présence dans les génomes. [12] [13] [14] Les images produites par le jeu de chaos sont caractérisées de texturales. Les textures dérivent de la fractalité (autosimilarité) des images FCGRs. Pour cela une étude spectrale s‟impose. [15] [16] Le spectre de Fourier des signatures FCGRs permet d‟explorer le contenu fréquentiel et donne une indication sur les périodicités ainsi que l‟orientation des textures. Les textures fréquentielles peuvent avoir des aspects perceptuels et statistiques très variables. L‟extraction de ces fréquences relève de l‟analyse locale, qui est très utilisée dans la [17] [18] [19] 9 Almeida. J.S, Carrico. J.A, Maretzek. A, Noble. P.A, Fletcher. M, “Analysis of genomic sequences by Chaos GameRepresentation”, Bioinformatics Vol.17, n°5, pp 429–437, 2001. Campbell. N.A, Mitchell. L.G, Reece. J.B, “Biology”, 5th Ed. Benjamin/Cummings Publ. Co., Inc. Menlo Park, CA. (plus earlier editions), 1999. Chang.C.Q, “Genomic signal processing”, http://www.hku.hk/facmed/research/presentations/cq_chang.ppt. Chaumont. M, „‟Le traitement du signal - La transformée de Fourier, la transformée de Fourier discrète et la transformée en cosinus discret‟‟, l‟Institut de Formation Supérieure en Informatique et Communication de Rennes,http://www.lirmm.fr/~chaumont/download/cours/TS/TS_Fourrie r.pdf, 2008. Chapus. C, “Analyse de données phylogénétiques à l‟aide de la signature génomique. Aspects méthodologiques et application aux procaryotes”, Thèse d‟Université, Université Denis Diderot (Paris VII), 2005. Cénac. P, “Étude statistique de séquences biologiques et convergence de martingales”, PhD thesis on Applied Mathematics, Paul Sabatier University, Toulouse III, pp 17−25, 2006. Cénac. P, Fayolle. G, Lasgouttes. J.M, “ Dynamical Systems in the Analysis of Biological Sequences”, research report n° 5351, pp 3–50, 2004. Croquette. V, “La transformée de Fourier discrète”, http://pimprenelle.lps.ens.fr/biolps/sites/default/files/teaching/4/C2.pdf, 2009. Dale. J.W, Schantz. M, “From Genes to Genomes: Concepts and Applications of DNA Technology” Edition John Wiley & Sons, LTD, 2002. Deschavanne. P, Giron. A, Vilain. J, Dufraigne .CH, Fertil. B, “Genomic Signature Is Preserved in Short DNA Fragment”, International Symposium on Bio-Informatics and Biomedical Engineering, IEEE, pp 161–167, 2000. Deshavanne. P, Giron. A, Vilain. J, Fagot. G, Fertil. B, “Genomic signature : characterization and classification of species assessed by chaos game representation of sequences” , Mol Biol E, Vol.16, n°10, pp 1391–1399, 1999. Fiser. A, Tusnady. G.E, Simon. I, “Chaos game representation of protein structures”, J.Mol Graphics, Vol.12, pp 295, 302–304, 1994. Giron. A, Vilain. J, Serruys. C, Brahmi. D.P, Deschavanne. P, Fertil. B, “Analysis of parametric images derived from genomic sequences using neural network based approaches”, IJCNN International Joint Conference on Neural Networks, IEEE, Vol 5,pp 3604 – 3608, 1999. Goldman. N, “Nucleotide, dinucleotide and trinucleotide frequencies explain patterns observed in chaos game representations of DNA sequences”, Nucleic Acids Research Vol.21, n°10, pp 2487–2491, 1993. Jeffrey. H.J, “Chaos game visualization of sequences”, Computers & Graphics, Elsevier, Vol.16, n°1, pp 25–33, 1990. Joseph. J, Sasikumar. R, “Chaos game representation for comparison of whole genomes”, BMC Bioinformatics, Vol.7, n°1, pp 1-10, 2006. Karlin. S, Burge. C, Dinucleotide relative abundance extremes: a genomic signature. Trends Genet, Vol.11, pp 283–290, 1995. Karlin. S, . LaDunga. I, “Comparisons of eukaryotic genomic sequences”, Proc. Natl. Acad. Sci. USA , Vol.91, pp12832–12836, 1994. Le Roux. J, “Traitement Numérique des Signaux Bidimensionnels”, http://users.polytech.unice.fr/~leroux/crim2.pdf , 2005. [20] Macgregor. R.B, Poon. G.M.K, “the DNA double helix fifty years on” Computational biology and chemistry, Elsevier, Vol.27, n° 4-5, pp 461467, 2003. [21] Makula. M, “Interactive visualization of oligomer frequency in DNA” Computing and Informatics, Vol.28, pp 1001–1016, 2009. [22] Rechenmann. F, Gautier. C, “Interpreting the genome”, La recherche, n° 332, pp 39-45, 2000. [23] Sharp. P, Tuohy. T, Mosurski. K, “Codon usage in yeast: Cluster analysis clearly differentiates highly and lowly expressed genes”, Nucleic Acids Res, Vol.14, pp 5125-5143, 1986. [24] Tavassoly. I, Tavassoly. O, Rad. M.S.R, Dastjerdi. M.N, “Multifractal Analysis of Chaos Game Representation Images of Mitochondrial DNA”, Frontiers in the Convergence of Bioscience and Information Technologies FBIT , IEEE, pp 224–229, 2007. [25] Tavassoly. I, Tavassoly. O, Rad. M.S.R, Dastjerdi. M.N, “Three dimensional Chaos Game Representation of genomic sequences ” , Frontiers in the Convergence of Bioscience and Information Technologies FBIT , IEEE, pp 219–223, 2007. [26] Watson. G, Witkowski. Z, Traduit par Relevanté. O, “ADN recombinant”, deuxième édition, De Boeck Université, pp 8-60, 1992. [27] Yu. Z.G, Shi. L, Xiao. Q.J, Anh. V,“Chaos game representation of genomes and their simulation by recurrent iterated function systems”, Bioinformatics and Biomedical Engineering ICBBE, IEEE, pp 41–46, 2008. [28] Yu. Z.G, Anh. V, Ka-Sing. Lau, “Chaos Game Representation of Protein Sequences based on the detailed HP model and their multifractal and correlational analysis”, Journal of Theoretical Biology, Vol.226, n° 3, pp 341–348, 2004. [29] http://mirrors.vbi.vt.edu/mirrors/ftp.ncbi.nih.gov/genomes/Bacteria/ [30] http://www.tsi.telecom-paristech.fr/pages/enseignement/ressources/beti/ textures_Fourier/texture.html 10