Caractérisation des génomes bactériens par la

Téléchargement

représentation en jeu de Chaos et étude fréquentielle des

textures par Transformée de Fourier à deux dimensions

1Imen Messaoudi, 2Afef Elloumi, 3Zied Lachiri,

1, 2Département de Génie Electrique, ENIT, Tunis, Tunisie

3Département de Physique et Instrumentation, INSAT, BP 676,1080, Centre Urbain, Tunis, Tunisie

1mess_im[email protected], 2afefelloum[email protected], 3Zied.lachiri@ enit.rnu.tn

Abstract- Les programmes de séquençage des génomes ont

généré une grande masse de données dans les banques

d’ADN. La visualisation et l’extraction des informations

caractéristiques de ces données constituent une

problématique assez ardue. La mise en évidence de certaines

caractéristiques de l’ADN dépend fortement du type de

codage adopté. Les méthodes de codage de l’ADN

construisent des signaux ou des images. Le principe du

codage se base sur l’attribution de valeur(s) numérique(s) à

chacune des lettres constituant l’alphabet de l’ADN. Notre

travail s’inscrit dans le cadre d’étude des textures des

signatures génomiques de quelques organismes modèles par le

biais du jeu de chaos et par l’application de la transformée de

Fourier discrète à deux dimensions.

Mots clés- ADN, technique de codage, jeu de chaos,

fréquence d’apparition, motif, signature génomique,

transformée de Fourier discrète à deux dimensions.

I. INTRODUCTION

L‟amélioration des techniques de séquençage des génomes

a généré un grand nombre de données dans les banques

d‟ADN. L‟exploration de ces données a regroupé les efforts de

chercheurs en diverses disciplines tel que le traitement de

signal et d‟image, les sciences physiques, la génétique, la

bioinformatique, etc...

Dans le domaine de traitement de signal et d‟image, il est

indispensable de convertir l‟ADN sous une forme exploitable

et ce par l‟attribution de valeur(s) numérique(s) à chaque lettre

constituant une séquence donnée.

Dans ce papier, nous nous intéressons au codage de l‟ADN

par le jeu de chaos (appelé en anglais Chaos Game

Representation).

Le jeu de chaos est un algorithme itératif permettant de

représenter les séquences génomiques sous forme d‟images

dites fractales [27]. Le terme fractal désigne des courbes ou

images dont la structure est autosimilaire sur une échelle

étendue. A chaque itération, un nouveau point est crée à mi-

chemin de la ligne reliant le point précédent à un des

attracteurs qui représentent les bases de la séquence d‟ADN.

L‟ensemble des attracteurs définit le support de la

représentation. Les images produites par cette méthode

présentent des structures fractales dues aux périodicités qui

caractérisent l‟ADN. Ce papier comporte cinq parties. Dans la

première partie, nous présentons un bref rappel biologique sur

la molécule d‟ADN. Nous décrivons, dans la deuxième

section, la démarche suivie dans la production des images par

le jeu de chaos. Dans la troisième partie, nous présentons la

transformée de Fourier discrète à deux dimensions. Nous

abordons, dans la quatrième partie, une étude de quelques

représentations générées par le jeu de chaos. Enfin, nous

terminons par une étude fréquentielle des textures présentes

dans l‟image par application de Transformée de Fourier

Discrète à deux dimensions.

II. LA MOLECULE D’ADN

La molécule d‟ADN est le support physique de

l‟information génétique héréditaire. Elle a été identifiée par

Watson et Crick en 1953 à partir de l‟exploitation de clichés

de diffraction par rayon X [26]. L‟ADN est sous forme de

pelotes microscopiques localisées dans le noyau des cellules

des organismes eucaryotes. Il se présente le plus souvent sous

forme de deux longs filaments torsadés l'un dans l'autre pour

former une structure en double hélice. Chaque filament est

composé d‟une succession de quatre monomères désignés par

l'initiale de la base azotée qui entre dans leur composition : A

(Adénine), C (Cytosine), G (Guanine) et T (Thymine).

L‟adénine est complémentaire à la thymine et la cytosine est

complémentaire à la guanine ce qui est à l‟origine de la

structure en double hélice. L‟appariement d‟une base

appartenant à une hélice avec son complémentaire sur l‟autre

hélice se fait par des liaisons hydrogènes [9].

Chaque groupement de trois bases consécutives forme ce

que l‟on nomme codon. Il existe 64 combinaisons possibles

spécifiant 20 acides aminés, un codon d‟initiation : le ATG et

3 codons stop qui sont indispensables à l‟arrêt de la synthèse

des protéines, à savoir : TAA, TAG et TGA [2, 20]. Les

protéines sont déterminées par la succession d‟un grand

nombre d‟acides aminés en fonction de l'information présente

dans les gènes. Un gène est une suite de codons débutant par

un codon d‟initiation et se terminant par un codon stop.

La structure plus ou moins complexe d‟une protéine détermine

la nature de sa fonction chimique au sein de la cellule du

vivant [3, 22, 23].

Figure 1. Structure tridimensionnelle de la double hélice

d’ADN

III. L’ALGORITHME DU JEU DE

CHAOS

Le jeu de chaos ou CGR, a été proposé la première fois par

Jeffrey dans le but de prouver que les séquences génomiques

sont de nature non-aléatoire [15]. C‟est un algorithme itératif

permettant de dessiner des images fractales formant une

signature globale des séquences nucléotidiques [10,11, 24,

25]. Le terme signature génomique désigne les fréquences des

mots (un mot est une suite de nucléotides) qui constituent une

séquence d‟ADN [5, 14, 17].

L‟algorithme de construction consiste à placer les quatre

lettres A, C, G et T aux sommets d‟un carré unité, de telle

sorte qu‟ils aient les coordonnées A, C, G et T données par

l‟équation (1).

       

0,0 , 0,1 , 1,1 , 1,0

A C G T

   

(1)

La figure 2 donne l‟emplacement des attracteurs (les lettres A,

C, G et T) dans un plan carré.

Figure 2. Emplacement des attracteurs dans le plan de

représentation [0,1]2 par la méthode de jeu de chaos

La fonction utilisée pour la représentation CGR sur le support

fermé X = [0,1]2 est donnée par :









(2)

Le premier point X0 est généralement placé au centre du carré.

Puis, le point Xn+1 est itérativement placé au milieu du

segment joignant Xn et le sommet correspondant à la lettre

un+1 [6, 7, 12, 27].

La figure 3 illustre le processus de construction du jeu de

chaos pour la séquence " AATGC ".

La figure 4 donne la CGR relative à la séquence complète du

gène threonine (thrA) chez la bactérie Escherichia coli.

Figure 4. CGR de la séquence complète du gène thrA

(2463 pb)

La densité de points, qui varie suivant les zones observées

dans les images CGR, peut fournir des informations assez

importantes sur la séquence. Dans la figure 4, par exemple, la

diagonale est pauvre en points. Cela peut être signe d‟absence

de mots bien définis tels que les purines (A et G) présentés par

la diagonale qui lie la lettre A (placée au coin gauche en bas) à

la lettre G (qui se trouve au coin haut à droite). L‟analyse par

CGR d‟une séquence plus longue illustre au mieux les

structures fractales que peut révéler le génome complet. Sur la

figure 5, nous pouvons voir clairement les deux axes croisés

(en blanc) qui existent déjà dans la CGR du gène thrA (figure

4). Ces derniers expriment les mots les plus rares dans le

génome de l‟organisme Escherichia coli.

Figure 5. Analyse d’une longue séquence de la bactérie

E.coli par CGR ; la séquence considérée est composée des

55930 premières bases du génome

Figure 3. Processus de construction de l’image CGR pour la séquence " AATGC "

L‟analyse par le jeu de chaos forme un outil puissant dans

la visualisation des structures fractales qui dérivent de

répétition de certains motifs dans les séquences d‟ADN.

Cependant, l‟identification de ces motifs n‟est pas possible.

Confrontés à ce problème, plusieurs chercheurs se sont

concentrés sur la recherche d‟un moyen qui rend les CGRs

plus utiles dans la caractérisation des génomes.

En 1999, il a été montré que la représentation par CGR a

l'avantage de visualiser les fréquences d'apparition des mots

[1, 13, 21] et ce en proposant une grille de lecture sur les

images obtenues. En effet, quand on divise une CGR en pixels

de dimension 1/2k, on peut déterminer la probabilité

d‟apparition des sous-modèles associés (mots constitués de k

lettres). La matrice de fréquence ainsi baptisée est appelée

FCGR (Frequency Chaos Game Representation). L‟intensité

de chaque pixel est codée en une couleur selon un gradient

croissant. Les pixels les plus sombres représentent les mots les

plus fréquents dans la séquence. Par contre, les pixels les plus

clairs représentent les mots les plus rares. Le nombre de cases

que comporte la grille de lecture permet de faire du jeu de

chaos de l‟ADN une analyse multi-échelle. La figure 6

représente l‟organisation des mots dans les images FCGRs

pour les échelles 1, 2 et 3.

(1) (2) (3)

Figure 6. Disposition des compteurs dans la représentation

par le jeu de chaos pour des mots de tailles 1 à 3

(1)

(2)

(3)

Figure 7. Représentation des matrices FCGRs d’ordres 1, 2

et 3 relatives au génome de la bactérie Erwinia amylovora

Dans la figure 7 on trouve un exemple des FCGR1, FCGR2 et

FCGR3. Ces images mettent en évidence la fréquence

d‟apparition des mots de tailles 1, 2 et 3 dans le génome de la

bactérie Erwinia amylovora.

Après avoir décrit les mécanismes de construction des

images CGR et FCGR nous passons à l‟analyse par

Transformée de Fourier Discrète à deux dimensions.

IV. TRANSFORMEE DE FOURIER

DISCRETE DES IMAGES 2D

Les images à deux dimensions (2D) sont des images

numériques où chaque pixel est représenté par une fonction

discrète f(x,y) qui peut être réelle ou complexe.

Généralement la fonction f(x,y) représente l‟intensité de

l‟image au point d‟abscisse x et d‟ordonnée y. La transformée

de Fourier discrète d‟une image est donnée par l‟équation (3) :

   

11 2 / 2 /

MN j um M j vn N

F u v f m n e e



 





(3)

La transformée de Fourier de la matrice f(m,n) donne une

matrice complexe F(u,v) avec u et v sont les fréquences

spatiales de l'image suivant les directions de l‟axe des

abscisses et de l‟axe des ordonnées respectivement.

Puisque la transformée de Fourier donne des valeurs

complexes, nous pouvons choisir de représenter l‟amplitude

ou la phase.

Le module de la transformée de Fourier est appelé spectre. Le

spectre donne la répartition énergétique en fonction de la

fréquence de l'image [4, 8, 19].

Les résultats de la transformée de Fourier permettent

d‟explorer le contenu fréquentiel global de l‟image. Cette

transformée permet, en outre, de passer vers une analyse

spectrale locale plus fine à partir de laquelle certains

paramètres texturaux peuvent être extraits. L'analyse de

texture dans l‟image est largement utilisée dans la

caractérisation, la segmentation, l‟indexation, la compression,

la reconnaissance des formes ou encore dans la classification.

V. RESULTATS ET DISCUSSION

Dans cette section, nous présentons en premier lieu les

résultats de l‟analyse des "frequency chaos game

representations" d‟ordre 8 (FCGR8) de quelques bactéries

dans le but d‟étudier les signatures génomiques relatives. Dans

la deuxième partie, nous présentons une étude fréquentielle

des textures qui existent dans de telles images par application

de transformée de Fourier discrète à deux dimensions.

Les bactéries étudiées sont : Yersinia pestis mediaevalis,

Atumefaciens, Escherichia coli, Bordetella, bronchiseptica,

Buchnera aphidicola, Actinobacillus succinogenes, Bacillus

cereus, Bacillus anthracis , Aquifex aeolicus et Treponema

denticola. Les données sont extraites du site du ″National

Center of Biotechnology Information″ (NCBI) [29].

1. Analyse des signatures génomiques

Pour cette étude, nous avons produit des FCGR d‟ordre 8

pour les génomes considérés. La figure 8 présente les images

obtenues.

Notons que la signature de la bactérie Escherichia coli

(figure 8.c) est semblable à celle donnée par l‟image CGR

dans la figure 5, à la différence que l‟image FCGR est plus

précise puisqu‟elle fournit la fréquence d‟apparition de tous

les mots de taille n (ici n=8).

De ce fait, les images CGR obtenues par analyse de segments

d‟ADN définissent des «signatures locales». Celles relatives

aux génomes complets, définissent des «signatures globales».

Bien évidemment, plus le segment d‟ADN est long, plus la

signature locale associée se rapproche de la signature de

l‟espèce.

L‟observation des signatures dans la figure 8 permet de

conclure que la signature génomique est spécifique à l‟espèce

étudiée. En effet, chaque signature met en évidence certains

types de motifs suivant le génome analysé. De plus la

variation de couleurs peut nous renseigner sur la composition

en bases dans la séquence.

Les signatures présentant des traits horizontaux sombres sur la

partie supérieure caractérisent les génomes riches en CG

(exemple : l‟organisme Bordetella bronchiseptica, figure 8.d).

D‟autres signatures comportent des traits horizontaux sombres

sur la partie inférieure (tel que le cas de Buchnera aphidicola

dans la figure 8.e) caractérisent ainsi les génomes riches en

AT. La figure 8.f, relative à l‟organisme Actinobacillus

succinogenes, montre, par contre, des traits horizontaux en

haut, en bas et au centre. Cela correspond à un génome

équilibré en bases.

Les figures 8.g, 8.h et 8.i (correspondant respectivement aux

bactéries: Bacillus cereus, Bacillus anthracis et Aquifex

aeolicus) montrent des diagonales noires, ce qui indique la

présence de longues suites de purines (A-G) et pyrimidines (T-

C). Cependant, l‟organisme Bordetella bronchiseptica (figure

8.d) comporte deux diagonales claires qui expriment l‟absence

de longues séquences purines et pyrimidines. En outre, la

signature de Bacillus cereus est apparentée à celle de Bacillus

anthracis. Les deux bactéries appartiennent à la même espèce

désignée par "groupe Bacillus cereus" et ont un degré de

parenté trop fort. Il est donc évident que leurs FCGRs

présentent de fortes similitudes.

L‟organisation spatiale des signatures relatives aux Yersinia

pestis mediaevalis, Atumefaciens et Escherichia coli (figures

8.a, 8.b et 8.c) révèlent une proximité phylogénétique des

espèces. Le gradient de couleur vertical dans le cas de

l‟Atumefaciens correspond à un déséquilibre en bases. Les

bactéries Yersinia pestis mediaevalis et Escherichia coli sont

caractérisées, par contre, par une composition en bases

relativement équilibrée. Ces signatures présentent des carreaux

clairs dérivant de la contre-sélection de certains mots, tels que

gatgggtg, ttgatttt, cctggggg et ggctgggg qui sont fortement

évités dans le génome de l‟Atumefaciens.

Il arrive des fois qu‟un ou plusieurs coins de la FCGR soient

plus sombres que le reste de l‟image. Ceci peut résulter des

longues suites de répétitions des mono-nucléotides A, C, G ou

T dans la séquence d‟analyse. Par exemple, dans la figure 9

nous considérons le génome de la bactérie Treponema

denticola. Les coins foncés de la FCGR associée indique la

présence de longues queues poly-A et poly-T.

Figure 9. Représentation par FCGR8 de la bactérie

Treponema denticola

La discrétisation des images CGRs selon une grille est un

outil pratique pour le calcul de signature génomique qui est

spécifique de l‟espèce étudiée. Mais le choix de l‟ordre

d‟analyse pose un problème en termes de nombre

d‟occurrences des mots et de dimension de la représentation.

Il convient donc de choisir la longueur des mots de sorte qu‟il

y ait un compromis entre l‟information qui puisse être

capturée, la dimension de la séquence et la dimension de

l‟image FCGR.

Les programmes de comparaison et de classification basés sur

le jeu de chaos optent pour de mots courts qui sont jugés

suffisants. La longueur de ces derniers varie entre 2 et 6

monomères.

L‟utilisation de mots de taille 3 (trinucléotides) se rapporte à

l‟étude des protéines [12, 28].

Les mots moyennement longs sont plutôt utiles dans les

études d‟homologie. Les mots trop longs sont souvent utilisés

dans le but de capter leur présence dans les génomes [16, 18].

1 / 10 100%

Documents connexes

TD 7 : Transformée de Fourier

UE 3-2 Génétique moléculaire - Université François Rabelais

La théorie du Chaos - Experimentarium

∫ ∫=

Henri Spitezki est Docteur en Sciences de Gestion, titulaire d`un

Exercice : Durée des phases du cycle cellulaire CCL 39

la transformation de fourier

Schéma résumant le principe des puces à ADN.

sujet

Atelier-conférence

L3 – Intégration 2 - Probabilités 2013

Le patrimoine génétique

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Caractérisation des génomes bactériens par la

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Caractérisation des génomes bactériens par la

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib