méthode de segmentation automatisée de signaux aléatoires

publicité
UNIVERSITE D’ANGERS
ISTIA
ECOLE DOCTORALE D’ANGERS
2006
Master 2 Recherche
Spécialité : Systèmes Dynamiques et Signaux
Présenté par
Jérôme SEVERINI
à l’ISTIA - Université d’Angers
MÉTHODE DE SEGMENTATION
AUTOMATISÉE DE SIGNAUX
ALÉATOIRES
Responsable de stage : François Chapeau Blondeau
Laboratoire : LISA EA4014 - Université d’Angers
62, avenue Notre Dame du Lac - 49000 Angers
REMERCIEMENTS
Qu’il me soit permis de remercier tout dabord Mr le directeur J.L FERRIER pour mavoir donné loccasion de réaliser mon stage de master recherche
au sein du LISA, mais aussi mon maître de stage Mr François CHAPEAU
BLONDEAU , pour le temps quil m’a consacré ainsi que pour ces nombreux
conseils.
De même, je remercie tout les doctorants du LISA pour leur patience,
leur soutient ainsi que pour laide quils ont su me donner lorsquelle était
nécessaire.
2
RÉSUMÉ
Une nouvelle méthode de segmentation automatisée de signaux aléatoires
est présentée dans ce document. Cette méthode se compose d’un critère probabiliste principal, la longueur de code d’un signal, et d’un critère d’arrêt de
segmentation. La longueur de code permet de connaître le nombre de bits
par symbole nécessaire au codage d’un signal. Quant au critère d’arrêt, il est
mis en place à partir de l’observation du comportement du gain de longueur
de code des signaux inhomogènes et homogènes.
Cette méthode est tout d’abord appliquées sur des signaux synthétiques
afin d’en définir les limites de fonctionnement. Elle est par la suite appliquée sur des signaux réels que sont les indices financiers et les séquences
génomiques afin de juger de son efficacité.
3
Table des matières
I
II
Introduction
5
Élaboration de la méthode de segmentation
8
1 Principe de base la méthode
9
2 Estimation et codage d’un signal
2.1 La longueur de code minimum des données
2.2 L’estimation et codage des paramètres . .
2.2.1 Estimation des paramètres . . . . .
2.2.2 Codage des paramètres . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
12
12
13
3 Observation du gain de longueur de code
14
3.1 Les signaux inhomogènes . . . . . . . . . . . . . . . . . . . . . 14
3.2 Les signaux homogènes . . . . . . . . . . . . . . . . . . . . . . 18
4 Élaboration du critère d’arrêt de segmentation
20
5 Application sur des signaux synthétiques
22
5.1 Application sur une concaténation de 2 signaux . . . . . . . . 22
5.2 Application sur une concaténation de N signaux . . . . . . . . 26
III
Application de la méthode sur des signaux réels 31
1 Application sur des indices financiers
32
2 Application sur des séquences génomiques
37
IV
41
Conclusion
4
Première partie
Introduction
5
Le traitement du signal est la discipline qui développe les techniques
de traitements (filtrage, amplification, ...), d’analyse et d’interprétation des
signaux. Elle fait donc largement appel aux résultats de la théorie de l’information, des statistiques ainsi qu’à de nombreux autres domaines des mathématiques appliquées.
Parallèlement, le traitement d’image désigne l’ensemble des traitements
automatisés qui permettent à partir d’une image numérisée, de produire d’autres images numériques ou d’en extraire de l’information. Il s’agit donc d’un
sous-ensemble du traitement du signal dédié aux images et aux données dérivées comme la vidéo (en opposition aux parties du traitement du signal
consacrées à des signaux mono dimensionnels notamment), tout en opérant
dans le domaine numérique.
Autre sous-ensemble du traitement du signal, les analyses boursières. La
performance d’une bourse est mesurée par plusieurs indices :
– un indice principal qui mesure la performance globale de la bourse. Il
est calculé à partir de l’activité de la majorité des grandes compagnies,
– les indices sectoriels qui mesure la performance d’un sous-ensemble de
compagnie groupé par secteur d’activité.
Les différents taux existant permettent de comparer les activités de la
bourse par rapport aux années précédentes. Ainsi, le simple porteur d’action
(ou part de société), dispose d’outils d’analyse mathématiques des activités
boursières.
De part la diversité des domaines d’applications du traitement du signal
la mise en place de méthode généralisée reste délicate. En effet l’extraction
d’information sur la structure des signaux est un problème récurrent : par
exemple la prédiction des valeurs boursières, ou encore pour l’analyse de séquences génomiques avec l’extraction de sous segment, etc. Dans cette étude
nous nous intéresserons à la problématique de segmentation de signal.
La segmentation d’un signal est une opération dont le but est de rassembler des mesures entre elles selon un critère. Chaque ensemble ainsi formé
donne naissance à des sous segments (à des régions dans le cas des images),
permettant d’extraire des informations, comme la distinction entre objet et
image de fond pour le traitement d’image, ou encore dans le traitement de
la parole avec l’extraction de phrase, de mot, ...
Plusieurs travaux ont été effectués pour la création de méthode de segmentation. Dans le domaine du traitement du signal, une première méthode
de segmentation est à citer : le BIC, Bayesian Information Criterion [1], basé
sur un critère d’arrêt de segmentation portant sur l’information bayésienne
d’un signal, conserve l’équilibre entre la complexité du modèle étudié et les
6
performances du modèles en termes d’approximation des données expérimentales. Un concept similaire existe, le AIK, Aikake Information Criterion, lui
aussi fondé sur des principes statistiques de l’information [1]. Dans le domaine
de l’image, même si pour l’homme la compréhension d’une scène (extraction
d’objet) est naturelle, la mise au point d’algorithme de segmentation de haut
niveau sur l’image, reste encore en 2006 une problématique ouverte. A ce
jour, 4 classes de méthode de segmentation d’images existent :
– la segmentation basée sur le traitement par régions,
– la segmentation basée sur le traitement par contours,
– la segmentation basée sur une approche globale de l’image
– la segmentation basée sur la coopération des 3 premières méthodes de
segmentation
Autant dire qu’il existe plusieurs méthodes de segmentation dans chacun des
domaines concernés par le traitement du signal.
Ce document propose une nouvelle méthode de segmentation basée sur
le codage de l’information d’un signal. Mais tout d’abord, afin de pouvoir
analyser ou traiter un signal, la modélisation est une étape importante. Il
s’agit, dans un premier temps, de mettre en évidence une forme simple et
économique du signal qui permette de le définir « au plus proche » malgré
quelques écarts entre le modèle choisi et les mesures expérimentales. La méthode MDL, [2], propose un procédé adapté et optimisé pour déterminer le
nombre de paramètres ainsi que leurs estimations pour un modèle prédéfini.
Le modèle générique utilisé ici se compose du modèle des signaux étudiés, si
ce dernier est connu, du nombre α de sous segments ainsi que leurs tailles
−
→
respectives noté β . La suite du document expose donc la méthode de segmentation dans le cadre de ce modèle facilement applicable.
7
Deuxième partie
Élaboration de la méthode de
segmentation
8
Chapitre 1
Principe de base la méthode
Il existe un grand nombre de signaux dont les caractéristiques restent méconnues ou mal connues. L’exemple des séquences génomiques expose bien
le problème que cela engendre. Les séquences génomiques sont de longs enchaînements de nucléotide (A, C, T et G) codant l’ensemble de la structure
de l’être à qui elles appartiennent. Pouvoir déterminer quelles parties de telle
ou telle séquence code une protéine λ est le genre d’information pour laquelle une méthode de segmentation doit pouvoir apporter des éléments de
réponses. L’objectif de cette méthode de segmentation est l’extraction de
sous segments porteurs d’information présente dans un signal.
Tout d’abord, il a été précisé le type de modèle utilisé pour cette étude.
En effet, il se compose du modèle de signal observé afin d’être en possession
de la densité de probabilité des mesures. Si le modèle du signal n’est pas
connu, deux méthodes sont possibles :
– la méthode MDL, [2], afin de déterminer le nombre et les valeurs des
paramètres du modèle prédéfini,
– le calcul des probabilités des mesures du signal
Dans ce document, le modèle des signaux est supposé connu dans le cadre
d’expérimentation sur des mesures synthétiques (mesures générées à partir
du modèle choisi) mais inconnu pour les applications de la méthode sur des
mesures réelles. L’application sur des jeux de mesures de données réelles se
fait donc en calculant les probabilités d’apparition des mesures du signal.
La longueur de code des signaux est une caractéristique de nature informationnelle qui permet de connaître le nombre de bit minimum par symbole
afin de pouvoir coder l’ensemble du signal. Cette information est au cœur
9
de notre étude afin d’établir une méthode automatisée de segmentation. Le
calcul de la longueur de code d’un signal se fait à partir du jeu de mesure
−
→
X , mais aussi à partir du codage des paramètres de son modèle de densité
de probabilité :
Ltot = Ldonnées + Lparamètres
(1.1)
L’objectif de cette démarche scientifique est de réaliser un outil de segmentation de signaux aléatoires avec pour critère, leurs longueurs de codes
(notion explicitée un peu plus loin). Pour cela, le signal étudié est « balayé »
dans sa totalité avec pour chaque « pas » un calcul de gain en terme de
longueur de code. C’est-à-dire, que la longueur de code du signal dans son
intégrité et comparée à la somme des longueurs de codes des deux signaux
S1 et S2 obtenus par la « pseudo coupe » induite par le balayage. Ainsi il
est possible d’observer le gain en terme de longueur de code obtenu pour
l’ensemble Γ des coupes possibles et réalisables. L’observation des signaux se
fait donc à partir de l’égalité qui suit :
∆L = Ltot − (Ls1 + Ls2 )
(1.2)
avec Ls1 et Ls2 les longueurs de codes des signaux obtenus au cours du
balayage du signal étudié. L’objectif est de maximiser cette mesure afin de
déterminer l’emplacement des coupes.
10
Chapitre 2
Estimation et codage d’un signal
2.1
La longueur de code minimum des données
Un signal, par définition possède un nombre N de mesures, avec N pouvant
être très grand. La transmission ou le stockage de ces données est dans le
cas général coûteux. Afin de réduire la masse d’information, le codage des
données est la solution la plus adaptée. La théorie statistique de l’information
apporte des réponses à cette compression des données. Par exemple, le codage
de Huffman, qui au préalable trie les mesures par probabilité d’apparition
décroissante, code les données à partir de mots binaires courts pour les faibles
probabilités ou longs pour les autres. Déterminer la taille du code nécessaire
(taille des mots binaires) au codage du signal peut être calculé : il s’agit de la
longueur de code que défini le théorème de Shannon et qui sera utilisé pour
mettre en place la méthode de segmentation.
Soit une source d’information qui émet des symboles X ∈ {s1 , s2 , ..., sM }
que l’on considère comme un alphabet à M caractères, avec pour probabilités
−
→
p1 , p2 , ..., pM . On considère les blocs de n symboles X = X1 X2 ...Xn .
−
→
On s’intéresse ensuite à la probabilité d’obtenir le jeu de mesures X ,
n
Q
−
→
p(Xj ) avec l’ensemble des Xj indépendants. On trouve alors :
p( X ) =
j=1
−
→
p( X ) ≈ 2−nH(X)
(2.1)
pour n grand, et H(X) étant l’entropie de la source X. On introduit l’ensemble des séquences typiques noté T et de son complémentaire T tel que
T ∪ T représente la totalité des séquences possibles. Chaques codages de séquence sont préfixés par « 0 » pour l’ensemble T et par un « 1 » pour T . Pour
11
n grand, on obtient :
|T | ≈ 2nH(X) séquences, soit un codage de [nH(X) + 1] bits
T ≈ 2n log(M ) séquences, soit un codage de [n log2 (M ) + 1] bits
(2.2)
(2.3)
−
→
−
→
On appelle l( X ) la longueur de code de la séquence X , c’est à dire, le nombre
−
→
de bits nécessaires au codage de l’ensemble des mesures de la séquence X .
On obtient ainsi la longueur de code moyenne :
X −
→ −
→
p( X )l( X )
l=
→
−
X ∈S n
l=
X
→
−
X ∈T
X −
−
→ −
→
→ −
→
p( X )l( X ) +
p( X )l( X )
→
−
X ∈T
−
→
−
→
La minimisation de longueur de code permet d’atteindre E[l( X )] = H( X ) =
−
→
− log[p( X )], il en est donc déduit que la longueur de code minimale s’exprime :
−
→
−
→
lmin ( X ) = − log[p( X )]
(2.4)
Cependant, afin de garantir l’intégrité du signal, le codage des données n’est pas suffisant. Les paramètres du modèle de densité de probabilité
doivent eux aussi être inclus dans le codage du signal.
2.2
L’estimation et codage des paramètres
Ainsi l’Eq. (2.4) nous donne la longueur de code nécessaire pour les don−
→
nées du jeu de mesure X , seulement pour calculer la longueur de code totale,
il est nécessaire de déterminer le nombre et les valeurs des paramètres du modèle étudié.
2.2.1
Estimation des paramètres
Pour l’estimation des valeurs des paramètres, il existe une méthode classique : la méthode du maximum de vraissemblance.
−
→
On note Θ = (Θ1 , Θ2 , ..., Θk ) le vecteur des K paramètres à estimer. Pour un
−
→
−
→
jeu de mesure X , on estime Θ avec pour objectif de maximiser la probabilité
12
−
→
−
→ −
→
d’obtenir ce jeu de mesure sachant le vecteur paramètre Θ : p( X / Θ ). On
−
→
c
note Θ M V le vecteur des paramètres estimés :
−
→
−
→
−
→ −
→
c
Θ M V ( X ) = argmax
L(
X
,
Θ)
→
−
(2.5)
Θ
−
→ −
→
−
→ −
→
−
→
avec L( X , Θ ) = p( X , Θ ) appelé vraissemblance de la mesure X en présence
−
→
du vecteur paramètre inconnu Θ .
2.2.2
Codage des paramètres
L’estimation d’un paramètre, en utilisant le maximum de vraissemblance,
−
→
se fait à partir des N mesures de la séquence X . Ce nombre de mesures
joue donc un rôle important dans la précision avec laquelle les paramètres
pourront être estimés. Pour l’estimation
de paramètre, une borne fondamenq
−
→
tale existe sous la forme : 1/ N J1 (X, Θ ). Ce résultat fondamental de la
théorie statistique de l’estimation intervient dans une borne inférieure appelée « inégalité de Cramèr-Rao ». Autrement dit, àq
partir d’un jeu de N
−
→
mesures, l’estimation se fait avec une précision de 1/ N J1 (X, Θ ) près, limite en dessous de laquelle l’erreur moyenne d’estimation ne peut prendre de
−
→
valeur. L’expression J1 (X, Θ ) correspond à l’information de Fisher, qui est
la quantité d’information qu’une mesure de la variable aléatoire observable
−
→
X, apporte selon un vecteur paramètre Θ inobservable, selon lequel la densité de probabilité de X dépend. Comme il a été expliqué dans l’article du
MDL [2], la longueur de code d’un paramètre s’obtient avec :
"
#
1
Lparamètre,Θ = − log q
(2.6)
−
→
N J1 (X, Θ )
Il est aussi possible de l’exprimer de la manière suivante :
−
→
1
− = [log(N ) + log(J1 (X, Θ ))]
Lparamètre,→
Θ
2
−
→
Dans cette égalité, pour N grand, log(J1 (X, Θ )) sera considéré comme négligeable face à log(N ) puisque la quantité d’information apportée par une
mesure décroît en fonction de la taille du signal : plus le signal est grand
(N grand), plus l’information d’une mesure devient négligeable. Il sera donc
établie, pour un nombre K de paramètres, une longueur de code de la forme :
Lparamètres =
13
K
log(N )
2
(2.7)
Chapitre 3
Observation du gain de longueur
de code
L’utilisation du gain de longueur de code s’effectue tout d’abord sur des
jeux de signaux gaussiens synthétiques afin de maîtriser l’environnement de
test et de mettre en évidence la pertinence du critère ∆L au sein de la
méthode de segmentation.
3.1
Les signaux inhomogènes
Dans le cas de cette étude, un signal inhomogène est considéré comme
une concaténation de signaux homogènes possédant le modèle de densité de
probabilité en commun mais des paramètres à valeurs différentes comme le
met en évidence la figure 3.1.
En prenant l’exemple de la figure 3.1, soit un signal inhomogène S(t) composé de deux signaux homogènes de même taille (afin de faciliter la visualisation). L’utilisation de la fonction ∆L(t) fournie la courbe de la figure 3.2
La figure 3.2 met en évidence l’évolution du gain de longueur de code.
Les intervalles [0; 0.05] et [0.95; 1] représentent les effets de bords : c’est à
dire que sur ces intervalles la cohérence des calculs de longueur de code est
compromise en raison de division par zéro ou d’autres exceptions de ce genre.
Dans cette étude, les effets de bords sont arbitrairement fixés à 2 fois 5% de
la taille total du signal étudié.
Il est à noter que sur les intervalles [0.05; 0.5[ et [0.5; 0.95] la courbe croît
et décroît exponentiellement ce qui n’est en rien un résultat remarquable. En
14
5
10
4.5
9.5
4
9
3.5
8.5
3
8
2.5
7.5
2
7
1.5
6.5
1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
6
1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(a) S1 (t), de moyenne µ = 3 et (b) S2 (t), de moyenne µ = 8 et
d’écart type σ = 0.5
d’écart type σ = 0.5
10
9
8
7
6
5
4
3
2
1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(c) S(t), concaténation de S1 (t)
et S2 (t)
Fig. 3.1 – Obtention d’un signal inhomogène par une concaténation de signaux homogènes.
LONGUEUR DE CODE D UN SIGNAL INHOMOGENE
5000
4500
4000
3500
DELTAL( T )
3000
2500
2000
1500
1000
500
0
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
0.8
0.9
1
Fig. 3.2 – Longueur de code d’un signal inhomogène
15
effet, ces croissances semblent influencées par les distances de probabilités
séparant les deux signaux homogènes, ou encore par la différence de taille
des sous segments.
Enfin, le résultat important apporté par ce graphique, est le pic observé
en T = 0.5 qui est le gain maximum en terme de longueur de code. Ce pic
correspond en fait à la frontière séparant les deux signaux homogènes utilisés
pour construire le signal étudié. Ce résultat sans fluctuation se retrouve aisément sur des concaténations de signaux homogènes de distance de probabilité
assez éloigné. Pour cette exemple, la distance de Bhattacharrya entre S1 (t)
et S2 (t) est de 12.4668 unité, distance calculé à partir des estimateurs des
signaux dans le but de conserver les approximations pour le calcul de gain de
longueur de code, afin de considérer les signaux aux niveaux des estimateurs.
La figure suivante montre les effets que peuvent produire des distances
de probabilités proches. Pour cet exemple, les signaux concaténés sont les
suivants :
– S1 (t) est un signal gaussien de moyenne µ = 10 et d’écart type σ = 2.6.
Il se compose de 300 mesures,
– S2 (t) est un signal gaussien de moyenne µ = 11 et d’écart type σ = 2.
Il se compose de 700 mesures,
– Leur distance de probabilité sous forme de distance de Bhattacharyya
est de 0.0332 unité.
LONGUEUR DE CODE D UN SIGNAL INHOMOGENE
60
50
DELTAL( T )
40
30
20
10
0
−10
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
0.8
0.9
1
Fig. 3.3 – Longueur de code avec fluctuation d’un signal inhomogène
16
La figure 3.3 montre les fluctuations que connaît la longueur de code du
signal dont les propriétés sont citées juste avant.
Dans un premier temps il est à noter la différence d’amplitude du gain de
longueur de code. Ensuite, on remarque que les fluctuations influent sur la
justesse de la coupe à faire, allant d’une erreur de quelques mesures, comme
dans cet exemple, à une indétermination totale de la coupe à effectuer. Ces
erreurs de coupe et d’amplitude sont provoquées directement par la qualité
des estimateurs de paramètres des modèles étudiés, qui permettent le calcul
du ∆L. La figure ci-dessous montre le graphique de signaux de même caractéristiques que celui étudié ici mais avec des sous segments S1 et S2 , 10 et
100 fois plus grands.
LONGUEUR DE CODE D UN SIGNAL INHOMOGENE
6000
500
5000
400
4000
DELTAL( T )
DELTAL( T )
LONGUEUR DE CODE D UN SIGNAL INHOMOGENE
600
300
3000
200
2000
100
1000
0
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
0.8
0.9
(a) Sous segments 10 fois plus grand
0
1
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
0.8
0.9
1
(b) Sous segments 100 fois plus grand
Fig. 3.4 – Signaux de même caractéristiques que la figure 3.3 mais de tailles
supérieures
Il est aisé de remarquer que les amplitudes de la figure 3.4 sont multipliées
par 10 et 100. L’augmentation de la taille des sous segments influence directement la qualité des estimateurs influant eux-mêmes l’amplitude de ∆L(t).
De plus les fluctuations observées sur la figure 3.3 s’atténuent, voire disparaissent sur la figure 3.4 en fonction de la taille des signaux. Plus les signaux
sont grands, moins les fluctuations sont visibles.
Ces deux illustrations, mettent en évidence l’importance de la qualité
des estimateurs utilisés pour des signaux dits « proches ». Ces estimateurs
influent directement dans les amplitudes mais aussi sur l’apparition de fluctuations pré-disposées au signaux de faible distance de probabilité, pouvant
provoquer des erreurs plus ou moins importantes de détection de coupes.
17
LONGUEUR DE CODE D UN SIGNAL HOMOGENE
0
−1
−2
−3
DELTAL( T )
−4
−5
−6
−7
−8
−9
−10
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
0.8
0.9
1
Fig. 3.5 – Longueur de code d’un signal homogène
3.2
Les signaux homogènes
Un signal dit homogène est un jeu de mesure pour lequel il existe un
modèle de densité de probabilité qui régit l’ensemble de ces mesures. Il peut
s’agir d’un signal gaussien, laplacien, discret, etc. L’objectif de la segmentation est d’extraire des signaux homogènes de signaux plus complexes. Pour
cela les signaux homogènes doivent être reconnus, par la méthode de segmentation, grâce à leurs longueurs de codes. La figure 3.5 montre un résultat
possible d’étude de longueur de code. Le signal étudié est un signal gaussien
de moyenne µ = 10 et d’écart type σ = 5, pour 10000 mesures.
La figure 3.5 illustre le gain en longueur de code d’un signal homogène.
Sur l’ensemble de l’intervalle d’étude, ce gain est négatif, il n’y a donc aucun
intérêt à segmenter puisque cela causerait une augmentation du nombre de
bits nécessaire au codage du signal dans sa totalité et rendrait le codage
des données plus coûteux qu’il ne l’est déjà. De plus les fluctuations sont
bien trop importantes pour utiliser cette caractéristique de négativité sachant
que des signaux inhomogènes peuvent contenir quelques parties négatives
et en opposition des signaux homogènes peuvent comporter d’infime partie
positive.
Cependant, si l’analyse de la longueur de code des signaux homogènes se
porte sur une moyenne calculée à partir de plusieurs itérations d’un même si18
gnal, une propriété commune peut être extraite. Le résultat obtenu s’observe
sur la figure 3.6 qui représente la moyenne et l’écart type de la longueur de
code sur 1000 itérations de signaux de moyenne µ = 10, d’écart type σ = 5
et composé de 1000 mesures.
Il est à noter dans le cas de la figure 3.6 que la moyenne de longueur de
LONGUEUR DE CODE MOYENNE DE SIGNAUX HOMOGENES
0
DELTAL( T )
−1
−2
−3
−4
−5
−6
−7
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
0.8
0.9
1
ECART TYPE DE LA LONGUEUR DE CODE MOYENNE DE SIGNAUX HOMOGENES
SQRT [DELTAL( T )]
2
1.5
1
0.5
0
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
0.8
0.9
1
Fig. 3.6 – Moyenne de longueur de code sur 1000 itérations
code sur l’ensemble Ψ des itérations permet dans un premier temps d’aténuer les fluctuations. La longueur de code sur Ψ forme une légère parabole
presque assimilable à une constante. Cette forme est incitée par le codage des
paramètres sous la forme log(N ), qui suit la forme d’une parabole lors du
balayage du signal. De plus il est important de remarquer que les fluctuations
sur Ψ tendent vers une constante, c ≈ 1.5.
Cette propriété peut être généralisée sur l’ensemble des signaux homogènes. Tous ont un gain de longueur de code suivant le même modèle que
celui proposé par la figure 3.6. La différence à noter est une faible augmentation de l’amplitude en fonction du nombre de mesures du signal due à
l’influence de log(N ) au cours du balayage du signal. En effet, log(N ) contribue au calcul de ∆L, donc si N augmente, log(N ) augmente et finalement
∆L augmente. Cette hausse est aussi due à l’amélioration de la qualité des
estimateurs grâce à l’augmentation du nombre de mesures.
Ainsi, il est possible d’établir une propriété commune aux signaux homogènes afin de permettre une détection de ces derniers dans des signaux
inhomogènes grâce au préalable à un éventuelle échantillonnage adapté afin
de fixer les propriétés de signaux homogènes.
19
Chapitre 4
Élaboration du critère d’arrêt de
segmentation
Il n’existe pas qu’un seul critère d’arrêt de segmentation possible. Dans ce
chapitre sera exposé un de ces critères qui suite à plusieurs expérimentations
donne de bon résultat d’extraction de signaux homogènes mais qui est aussi
facile à mettre en place .
La distinction entre les signaux homogènes et inhomogènes, se fait à partir
des caractéristiques des signaux homogènes déterminées précédemment. Elles
sont au nombre de 3 :
– La moyenne générale extraite « du gain moyen de longueur de code de
signaux homogènes sur plusieurs itérations », que l’on notera Lmoy ,
– Les fluctuations qui influe sur Lmoy , noté Lmoyσ
– Les fluctuations du gain moyen Lσ
Comme il a été vu dans la partie précédente, le gain de longueur de
code des signaux homogènes est négatif, donnant ainsi une moyenne Lmoy
négative. La détection des gains de longueur de code maximum ne peut se
faire qu’à partir d’un seuil positif. Or comparer les gains de longueurs de code
de signaux inhomogènes qui sont toujours positif à Lmoy < 0 pose certains
problèmes. Le seuil de détection se fait donc avec l’utilisation de L2moy afin
d’obtenir un seuil positif.
Le maximum du gain de longueur de code du signal inhomogène étudié,
noté Lmax , sera comparé à une combinaison des trois caractéristiques afin de
pouvoir fixer un seuil de détection. Le critère sous sa forme générale est le
20
suivant :
Lmax > [Lmoy + (Lmoyσ + Lσ )]2
(4.1)
Si la condition est vraie alors une coupe est détectée. Ce critère peut être
utilisé de deux façons analogues. Le calcul des paramètres Lmoy , Lmoyσ et Lσ
peut s’effectuer :
– par une méthode de calibrage qui fixera les données,
– par le calcul de ces paramètres, obtenus en générant un signal homogènes possédant les même caractéristiques que le signal étudié.
Afin de tester la fiabilité et la robustesse de la méthode mise ainsi en
place, quelques tests sont effectués dans un premier temps sur des signaux
synthétiques (conçus artificiellement) à composante gaussienne.
21
Chapitre 5
Application sur des signaux
synthétiques
5.1
Application sur une concaténation de 2 signaux
Afin de fixer les idées à propos de la méthode de segmentation, le premier
exemple s’effectue sur un signal complexe composé de deux signaux homogènes gaussiens bien distinct l’un de l’autre. Les caractéristiques des signaux
homogènes sont les suivantes :
– S1 (t) est un signal de densité de probabilité gaussienne de moyenne
m1 = 20, d’écart type σ1 = 10 et de taille N1 = 3000 mesures,
– S2 (t) est aussi un signal gaussien, mais de moyenne m2 = 43, d’écart
type σ2 = 11 et de taille N2 = 7000.
La figure 5.1, permet de visualiser les résultats obtenus après traitement
du signal S(t). Par soucis de simplicité, tous les exemples se présentent de la
même manière. Un exemple s’organise comme suit :
– le premier graphique de la figure permet la visualisation du signal S(t)
analysé,
– ensuite les représentations de signaux qui suivent sont les sous segments homogènes détectés par la méthode de segmentation. Ensuite
pour chaque sous segment, le nombre de mesure que comporte chacun
d’entre eux est précisé dans leurs titres afin de pouvoir les comparer
aux tailles d’origines de ces sous segments.
– enfin, le dernier graphique, affiche le gain de longueur de code le long
du signal S(t) étudié.
22
S(t) = [S1(t) S2(t)]
S1(t): m = 20, s = 10 et N = 3000
S2(t): m = 43, s = 11 et N = 7000
100
80
Y( T )
60
40
20
0
−20
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
Signal y1, N = 3000
0.8
0.9
1
Signal y2, N = 7000
50
100
40
80
20
Y( T )
Y( T )
30
10
60
40
0
20
−10
−20
0
0.2
0.4
0.6
0.8
0
1
0
0.2
0.4
T
0.6
0.8
1
T
(a) Résultat de la segmentation
LONGUEUR DE CODE DU SIGNAL
5000
4500
4000
3500
DELTAL( T )
3000
2500
2000
1500
1000
500
0
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
0.8
0.9
1
(b) Longueur de code du signal S(t)
Fig. 5.1 – Application de la méthode de segmentation sur un signal synthétique composé de 2 signaux homogènes gaussiens
23
Dans l’exemple de la figure 5.1, un signal S(t) est conçu par concaténation
des signaux homogènes S1 (t) et S2 (t). Le signal obtenu se compose de 10.000
mesures, sur l’intervalle [0, 0.3] S1 (t) et sur ]0.3, 1] S2 (t). Il est aisé de remarquer à l’oeil nu que la segmentation doit s’effectuée en T = 0.3. En observant
les résultats de la méthode on se rend compte, que les sous segments extrait
de S(t) correspondent aux segments d’origines de S1 (t) et de S2 (t).
En effet, le deuxième graphique montre le premier signal extrait d’une
taille de 3000 mesures correspondant exactement à S1 (t). Il en est de même
pour la troisième représentation d’un signal de 7000 mesures étant S2 (t). Les
deux sous segment du départ ont donc bien été identifiés et extraits. Le dernier graphique affiche la courbe de gain de longueur de code de S(t). Le pic
représente le maximum de gain possible pour S(t). Ce maximum correspond
à la coupe permettant l’extraction des signaux homogènes et qu’effectue la
méthode. On peut donc déjà dire que le gain de longueur de code est un
critère aussi performant que l’oeil humain. Voyons avec l’exemple suivant si
cette performance s’arrête là.
L’exemple de la figure 5.2, expose les résultats de la méthode de segmentation pour un signal S(t) composé de deux signaux gaussiens homogènes,
S1 (t) et S2 (t). Ces deux sous segments sont relativement proches dans le
sens des distances de probabilité (Kullback-Leibler, ou Bhattacharyya), leurs
caractéristiques sont les suivantes :
– S1 (t) est un signal gaussien de moyenne m1 = 42, d’écart type σ1 = 10
et de taille N1 = 3000 mesures
– S2 (t) est un signal gaussien de moyenne m2 = 43, d’écart type σ2 = 11
et de taille N2 = 7000 mesures
Contrairement à l’exemple précédent, la segmentation à l’oeil nu devient
plus difficile. L’application de la méthode permet d’extraire 2 sous segments
homogènes de tailles respectives, N1 = 3008 et N2 = 6992 mesures. Ces deux
segments extraits sont bien S1 (t) et S2 (t) qui composent S(t). Le gain en
longueur de code semble correcte avec le dernier graphique, pourtant dans
le cas précis de cette réalisation de S(t), la méthode de segmentation fait
une erreur de 8 mesures. Pourquoi dans le cas précis de cette réalisation ?
S(t) étant une des multiples réalisations d’une variable aléatoire, le dernier
graphique varie selon les réalisations. Le maximum de gain varie alors lui aussi
pouvant ainsi provoquer des erreurs de coupes allant d’une dizaine de mesures
à une centaine. Il est à préciser que ces fluctuations de coupes apparaissent
pour des signaux proches et s’atténuent en fonction de la taille des sous
segments : plus les segments sont grands, meilleurs sont les estimateurs, plus
la méthode est précise.
24
S(t) = [S1(t) S2(t)]
S1(t): m = 42, s = 10 et N = 3000
S2(t): m = 43, s = 11 et N = 7000
100
Y( T )
80
60
40
20
0
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
100
80
80
60
60
40
20
0
0.9
1
Signal y2, N = 6992
100
Y( T )
Y( T )
Signal y1, N = 3008
0.8
40
20
0
0.2
0.4
0.6
0.8
0
1
0
0.2
0.4
T
0.6
0.8
1
T
(a) Résultat de la segmentation
LONGUEUR DE CODE DU SIGNAL
25
20
15
DELTAL( T )
10
5
0
−5
−10
−15
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
0.8
0.9
1
(b) Longueur de code du signal S(t)
Fig. 5.2 – Application de la méthode de segmentation sur un signal synthétique composé de 2 signaux homogènes gaussiens proches
25
On peut donc dire pour l’exemple de la figure 5.2, que pour une coupe
difficile à l’oeil nu d’un signal, la méthode de segmentation proposée permet
d’effectuer des coupes précises sans être pour autant infaillible. On peut
alors se poser la question de savoir si le nombre de segment présent réduit
les performances de la méthodes ?
5.2
Application sur une concaténation de N signaux
L’application de la méthode de segmentation sur des signaux complexes
comportant plus de 2 sous segments homogènes introduit la notion de méthode itérative. Les figures 5.3, 5.4 et 5.5 illustre cet espect.
Soit un signal complexe S(t) composé de 3 sous segments gaussien homogènes de paramètres :
– S1 (t), signal gaussien de moyenne m1 = 42, d’écart type σ1 = 10 et de
taille N1 = 3000
– S2 (t), signal gaussien de moyenne m2 = 44, d’écart type σ2 = 11 et de
taille N2 = 3000
– S3 (t), signal gaussien de moyenne m3 = 41, d’écart type σ3 = 10 et de
taille N3 = 4000
Dans un premier temps, la figure 5.3 expose les résultats de la méthode
de segmentation sur une réalisation possibles de S(t). On remarque que les
sous segments extraits, correspondant aux signaux S1 (t), S2 (t) et S3 (t), ont
pour taille N1 = 3001, N2 = 3003 et N3 = 3996 mesures. Là encore l’erreur
observée de la méthode est de quelques mesures, mais cela peut varier de la
dizaine à la centaine de mesures.
La méthode procède comme suit. Tout d’abord elle calcule le gain de
longueur de code de S(t) observable sur la figure 5.4(a). Le maximum de
gain pour S(t) est alors pour T ≈ 0.6. La méthode effectue donc une première
coupe exactement là où le maximum de gain se trouve, ici ≈ 0.6. Il existe
alors maintenant deux sous segments, Sa (t) de [0, ≈ 0.6] et Sb (t) de ] ≈ 0.6, 1],
tel que S(t) = [Sa (t) Sb (t)]. Le stockage des signaux se fait dans un pile LIFO
(Last In First Out), avec pour premier élément à traiter le numéro 1 :
1. Sa (t)
2. Sb (t)
26
S(t) = [S1(t) S2(t) S3(t)], S1(t): m = 42, s = 10 et N = 3000
S2(t): m = 44, s = 11 et N = 3000, S3(t): m = 41, s = 10 et N = 4000
N = 10000
100
50
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
100
60
N = 3003
N = 3001
80
40
50
20
0
0
0.2
0.4
0.6
0.8
0
1
0
0.2
0.4
0.6
0.8
1
N = 3996
80
60
40
20
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Fig. 5.3 – Application de la méthode de segmentation sur un signal synthétique composé de 3 signaux homogènes gaussiens
Ensuite la méthode passe à l’analyse du signal de gauche, ici Sa (t), la pile
ne contenant plus que Sb (t). La figure 5.4(b), met en évidence le calcul de
gain de longueur de code du signal Sa (t). On observe que le maximum se
trouve à la moitié du signal Sa (t). La méthode procède donc à une coupe en
T ≈ 0.5 et empile les signaux Sa1 (t) et Sa2 (t) obtenus. La pile prend alors la
forme :
1. Sa1 (t)
2. Sa2 (t)
3. Sb (t)
Enfin, la méthode traite dans l’ordre les signaux Sa1 (t), Sa2 (t) et Sb (t), de
gain de longueur de code respectif des figures 5.5(a), 5.5(b) et 5.5(c). Les
trois signaux sont alors détectés comme des sous segments homogènes grâce
à la comparaison de leurs maximums de gain de longueur de code avec le
critère de segmentation expliqué plus haut. La méthode a donc découvert
deux coupes et extrait trois signaux homogènes que sont : Sa1 (t), Sa2 (t) et
Sb (t).
Pour finir, les exemples sur des concaténations de 2 et 3 sous segments
se sont fait sur des signaux S(t) composé de 10.000 mesures. Le passage à
trois sous segments à donc réduit les tailles de ces derniers et donc diminué
27
la qualité des estimateurs. Dans le cas de cet réalisation, l’erreur de coupe est
de quelques mesures mais sur un ensemble de réalisation, l’erreur moyenne
de coupe augmente. Il ne s’agit donc pas du nombre de signaux, mais encore
et toujours la qualité des estimateurs qui influence la fiabilité des coupes de
la méthode.
LONGUEUR DE CODE DU SIGNAL
70
50
60
40
50
30
40
DELTAL( T )
DELTAL( T )
LONGUEUR DE CODE DU SIGNAL
60
20
30
10
20
0
10
−10
0
−20
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
0.8
0.9
(a) Longueur de code du signal S(t)
−10
1
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
0.8
0.9
1
(b) Longueur de code du sous segment
Sa (t)
Fig. 5.4 – Gains de longueur de code calculés par la méthode de segmentation
Pour finir les exemples sur des signaux synthétiques, la figure 5.6 affiche
les résultats de la méthode de segmentation pour un signal S(t) composé de
6 sous segments homogènes. Théoriquement, 4 coupes sont à effectuer. Un
réflexe possible serai d’observer la courbe de longueur de code de S(t) afin d’y
déceler les 4 coupes comme des maximum locaux. Seulement, et cet exemple
l’illustre bien, il est possible de noter 3 coupes, en repérant les maximum
locaux, en T ≈ 0.2, T ≈ 0.6 et T ≈ 0.9. La dernière coupe ne pourra être
détectée qu’en analysant les sous segments induits par les coupes déjà repérable. On peut donc en conclure que l’aspect itératif de la méthode permet
de détecter des coupes qu’un homme, disposant de la courbe de gain de longueur de code du signal étudié, ne pourrai repérer. La méthode reste donc
plus performante qu’une intervention humaine adaptée.
L’intérêt d’une méthode de segmentation est avant tout de pouvoir extraire des informations difficilement décelables de signaux réels, les signaux
synthétiques étant utilisés pour définir les limites de la méthode. La suite et
fin du document s’attache à l’évaluation de la méthode sur des signaux réels
tels que les indices financiers ou encore les séquences génomiques.
28
LONGUEUR DE CODE DU SIGNAL
0
−1
−1
−2
−2
−3
−3
−4
−4
DELTAL( T )
DELTAL( T )
LONGUEUR DE CODE DU SIGNAL
0
−5
−5
−6
−6
−7
−7
−8
−8
−9
−9
−10
−10
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
0.8
0.9
1
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
0.8
0.9
1
(a) Gain de longueur de code de Sa1 (t) (b) Gain de longueur de code de Sa2 (t)
LONGUEUR DE CODE DU SIGNAL
0
−1
−2
−3
DELTAL( T )
−4
−5
−6
−7
−8
−9
−10
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
0.8
0.9
1
(c) Gain de longueur de code de Sb (t)
Fig. 5.5 – Gains de longueur de code négatif pour des signaux homogènes
détectés par la méthode de segmentation
29
S(t) = [S1(t) S2(t) S3(t) S4(t) S5(t)], S1(t): m = 40, s = 10 et N = 2000
S2(t): m = 43, s = 11 et N = 1000, S3(t): m = 39, s = 10 et N = 3000
S4(t): m = 43, s = 12 et N = 3000, S5(t): m = 39, s = 9 et N = 1000
Y( T )
100
50
0
0
0.1
0.2
0.3
0.4
0.5
0.6
T 100
N = 998
N = 2000
100
50
0
0
0.2
0.4
0.6
0.8
N = 3002
N = 3007
0.9
1
0
0.2
0.4
0.6
0.8
1
0
0.2
0.4
0.6
0.8
1
100
50
0
0.8
50
0
1
100
0.7
0
0.2
0.4
0.6
0.8
50
0
1
N = 993
100
50
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(a) Résultat de la segmentation
LONGUEUR DE CODE DU SIGNAL
100
80
DELTAL( T )
60
40
20
0
−20
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
0.8
0.9
1
(b) Longueur de code du signal S(t)
Fig. 5.6 – Application de la méthode de segmentation sur un signal synthétique composé de 2 signaux homogènes gaussiens
30
Troisième partie
Application de la méthode sur des
signaux réels
31
Chapitre 1
Application sur des indices
financiers
Dans cette partie, la méthode de segmentation est appliquée à des signaux
réels. Le modèle de densité de probabilité de ces signaux n’est pas connus.
La méthode de segmentation calcule donc les probabilités des mesures afin
de déterminer la longueur de code, sachant que le nombre de paramètres
correspondant est égal aux nombre de classes de probabilités choisies à partir
par exemple d’un histogramme.
Les indices financiers sont déjà l’objet d’un grand nombre d’étude afin de
mieux comprendre les mécanismes qui les régissent. L’extraction d’information provenant de ces signaux pourrai permettre une meilleur compréhension
des marchés actuels, mais aussi de créer ou améliorer les méthodes de prédictions. La méthode de segmentation proposée dans ce document n’est pas
à considérer comme une méthode révolutionnaire mais plutôt comme une
nouvelle piste scientifique à approfondir.
Pour premier exemple, la méthode est appliquée à l’indice du CAC40.
Il s’agit du principal indice boursier de la place de Paris. Il est déterminé à
partir des cours de 40 actions cotées en continu parmi les 100 sociétés les plus
capitalisées d’Europe. Les données historiques concernant son cours sont disponible à partir du site de « Yahoo Finance ». Trois formes d’échantillonnages
du cours sont disponible :
– journalier,
– hebdomadaire,
– mensuel.
Afin de disposer du plus grand nombre de mesures, les exemples qui
suivent sont échantillonnés journalièrement sur une semaine ouvrée (c’est à
32
dire sans les week-ends). Les signaux mis à dispositions par Yahoo ont un
historique qui se limite à l’année 2000 à nos jours pour un très grand nombre
d’entre eux. Le CAC40 fait parti des signaux dont l’historique remonte aux
années 1990. La méthode de segmentation appliquée au cours d’ouverture
du CAC40 donne les résultats de la figure 1.1.
On remarque que suite à la segmentation 5 périodes homogènes sont mises
en avant. En corrélation avec les données récupérées sur le site de Yahoo, les
périodes sont dans l’ordre :
1. du 21/12/05 au 06/07/06, soit 138 mesures,
2. du 04/09/00 au 20/12/05, soit 1355 mesures,
3. du 10/02/00 au 03/09/00, soit 142 mesures,
4. du 17/07/98 au 09/02/00, soit 399 mesures,
5. du 01/03/90 au 16/07/98, soit 2087 mesures.
La méthode de segmentation à donc bien détecté des périodes homogènes
dans le cours du CAC40. L’interprétation de ces périodes est difficile pour
un débutant. En effet, comme il a été précisé plus haut dans le document,
la méthode de segmentation est précise mais pas infaillible. Les bornes des
périodes sont donc approximatives, élargissant les champs de recherches pour
trouver une interprétation possible des ces périodes homogènes. C’est donc
en comparant l’exemple du CAC40 avec l’indice de France Telecom, un des
composants du CAC40, que d’éventuelles hypothèses peuvent être émises.
L’exemple de la figure 1.2 affiche les résultats de la méthode appliquée
au cours de France Telecom qui fait parti des 40 entreprises participant au
calcul du CAC40. De même que l’exemple précédent, l’échantillonnage est
journalier, cependant l’historique boursier de France Telecom sur le site de
Yahoo est théoriquement de 5 ans. Pourtant les données récupérées sont celles
de la périodes 28/09/05 au 06/07/06 et il en est de même pour les autres
composants du CAC40. Malgré cette différence sur les périodes étudiées, la
méthode de segmentation est appliquée au cours de France Telecom. Trois
périodes homogènes sont détectées et sont les suivantes :
1. du 09/05/06 au 06/07/06, soit 42 mesures,
2. du 11/01/06 au 08/05/06, soit 84 mesures,
3. du 28/09/05 au 10/01/06, soit 75 mesures.
Il est à noter que la période d’évaluation du cours de France Telecom correspond à peu près à la première période homogène extraite du cours du
33
SIGNAL CAC40
N = 4121
10000
5000
0
0
0.1
0.2
0.3
0.4
0.5
5000
4500
0
0.2
0.4
0.6
0.8
0.8
0.9
1
4000
0
0.2
0.4
0.6
0.8
1
0
0.2
0.4
0.6
0.8
1
8000
N = 399
N = 142
0.7
6000
2000
1
7000
6500
6000
5500
0.6
8000
N = 1355
N = 138
5500
0
0.2
0.4
0.6
0.8
6000
4000
2000
1
N = 2087
6000
4000
2000
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(a) Résultat de la segmentation
LONGUEUR DE CODE DU CAC40
1500
DELTAL( T )
1000
500
0
−500
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
0.8
0.9
1
(b) Longueur de code du signal S(t)
Fig. 1.1 – Application de la méthode sur l’indice du CAC40
34
CAC40. Sur cette année étudiée, le cours de France Telecom n’est donc pas
homogènes comme peut l’être le cours du CAC40. En effet, le CAC40 possède 40 composants financiers possédant chacun leurs fluctuations plus ou
moins liées aux mêmes évènements. L’observation complète du CAC40 avec
cette méthode de segmentation doit donc se faire à partir des 40 indices
afin de pouvoir croiser les informations données par chacun des composant.
L’étude complète du CAC40 n’est pas le sujet de cette article. L’apparition
de périodes homogènes sur les cours financiers est donc jugée satisfaisante à
ce stade de recherche. Que devient alors la méthode de segmentation lorsqu’il s’agit d’extraire des périodes homogènes sur d’autres types de signaux,
comme par exemple les séquence génomiques.
35
SIGNAL FRANCE TELECOM
N = 200
25
20
15
0
0.1
0.2
0.3
0.4
0.5
0.6
20
N = 84
N = 41
19
18
17
16
0.7
0.8
0.9
1
22
0
0.2
0.4
0.6
0.8
20
18
16
1
0
0.2
0.4
0.6
0.8
1
N = 75
26
24
22
20
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(a) Résultat de la segmentation
LONGUEUR DE CODE DE FRANCE TELECOM
40
30
20
DELTAL( T )
10
0
−10
−20
−30
−40
−50
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
0.8
0.9
1
(b) Longueur de code du signal S(t)
Fig. 1.2 – Application de la méthode sur la côte en bourse de France Telecom
36
Chapitre 2
Application sur des séquences
génomiques
Les séquences génomiques, ou encore séquences d’ADN (Acide DésoxyriboNucléique), sont des molécules que l’on retrouve dans tous les êtres vivants.
Les molécules d’ADN sont formées par l’enchaînement de quatre bases (A, C,
T et G) et doivent coder pour les 20 acides aminés existant et constitutifs de
protéines. Le codage d’un acide aminé nécessite donc au minimum une suite
de 3 bases. Ces séquences génomiques sont présentes dans les chromosomes
qui contiennent un grand nombre de gènes (partie de chromosomes). Un gène
est donc une unité d’information génétique caractérisée par sa séquence de
base (ou nucléotide). Contrairement aux indices financiers, les séquences génomiques sont constituées de mesures servant au codage. La méthode de
segmentation se base justement sur la longueur de code nécessaire au codage
d’un signal.
Les signaux génomiques sont disponibles à partir du site www.ncbi.nih.gov
et plus précisément à partir de http ://www.ncbi.nlm.nih.gov/mapview/static/MVstart.html. Le signaux sont récupérés sous forme de fichiers textes
contenant les enchaînements nucléiques. Au préalable, les lettres correspondantes aux nucléotides sont arbitrairement changées en valeurs numériques
(A = 1, T = 2, G = 3 et C = 4). Suite à la conversion alpha-numérique, les
résultats de la méthode sont filtrés, avec un filtre passe bas, afin d’atténuer les
fluctuations bien trop grandes et rendre l’affichage plus visible. L’exemple de
la figure 2.1 montre les résultats de la méthode sur un gène du chromosome
1 de l’homme : le NT 79489.1.
La séquence génomique analysée se compose de 27512 bases. La méthode
de segmentation permet d’extraire 5 sous segments homogènes :
37
ETUDE DU GENE NT079489.1 DU CHOMOSOME1 HUMAIN
N = 27512
2
1
0
−1
0
0.1
0.2
0.3
0.4
0.5
0.6
1
0
−1
0
0.2
0.4
0.6
0.8
0.9
1
0
0.2
0.4
0.6
0.8
1
0
0.2
0.4
0.6
0.8
1
1
N = 1823
N = 7782
0.8
0
−1
1
2
1
0
−1
0.7
1
N = 3619
N = 5755
2
0
0.2
0.4
0.6
0.8
0
−1
1
N = 8533
2
1
0
−1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
(a) Résultat de la segmentation
LONGUEUR DE CODE DU SIGNAL
20
15
DELTAL( T )
10
5
0
−5
−10
−15
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
0.8
0.9
1
(b) Longueur de code du signal S(t)
Fig. 2.1 – Application de la méthode sur la séquence NT 79489.1 du chromosome 1 humain
38
– S1 (t) formé de 5755 mesures
– S2 (t) formé de 3619 mesures
– S3 (t) formé de 7782 mesures
– S4 (t) formé de 1823 mesures
– S5 (t) formé de 8533 mesures
L’information concernant le sens de ces sous segments reste difficile à obtenir puisque l’étude du génome reste encore jeune. Cependant cet exemple
montre des segments homogènes de tailles uniformes. C’est à dire que des segments d’une centaines de mesures n’apparaissent pas. La méthode est donc
assez discriminante afin d’exclure de trop petites zones homogènes face aux
parties dominantes des séquences. Il ne s’agit donc pas d’une méthode de
segmentation de « coupe à tout va ».
Enfin, le dernier exemple exposé par la figure 2.2, permet de visualiser
les résultats de la segmentation pour un autre gène du chromosome 1, le NT
77911.1 constitué de 40264 mesures. La méthode permet d’extraire 6 sous
séquences homogènes que sont :
– S1 (t) composé de 5998 mesures
– S2 (t) composé de 9394 mesures
– S3 (t) composé de 12764 mesures
– S4 (t) composé de 7653 mesures
– S5 (t) composé de 2435 mesures
– S6 (t) composé de 2020 mesures
Sur cet exemple aussi, la méthode de segmentation reste discriminante malgré
l’apparition de séquences dominantes, comme S3 (t). Comparer à l’exemple
précédent possédant presque 2 fois moins de mesures, 5 sous séquences ont
été extraite. La taille des signaux analysés influe sur les estimateurs utilisés
mais n’augmente pas le nombre de segments homogènes détectés. Pour finir,
l’apport des connaissances d’un spécialiste du génome humain serait utile
à l’interprétation des zones homogènes mises en évidence afin de pouvoir
discuter sur la pertinence de ces coupes.
39
ETUDE DU GENE NT077911.1 DU CHOMOSOME1 HUMAIN
N = 40264
2
0
−2
0
0.1
0.2
0.3
0.4
0.5
0.6
1
0
−1
0
0.2
0.4
0.6
0.8
N = 12764
N = 7653
0
0.2
0.4
0.6
0.8
1
0
0.2
0.4
0.6
0.8
1
0
0.2
0.4
0.6
0.8
1
0
0.2
0.4
0.6
0.8
1
1
0
−1
1
1
N = 2020
1
N = 2435
0.9
2
0
0
−1
0.8
0
−1
1
2
−2
0.7
1
N = 9394
N = 5998
2
0
0.2
0.4
0.6
0.8
0
−1
1
(a) Résultat de la segmentation
LONGUEUR DE CODE DU SIGNAL
100
80
DELTAL( T )
60
40
20
0
−20
0
0.1
0.2
0.3
0.4
0.5
T
0.6
0.7
0.8
0.9
1
(b) Longueur de code du signal S(t)
Fig. 2.2 – Application de la méthode sur la séquence NT 77911.1 du chromosome 1 humain
40
Quatrième partie
Conclusion
41
Il a été présenté dans ce document, une méthode de segmentation automatisées de signaux aléatoires basée sur un critère informationnel : le gain
de longueur de code. Ce critère probabiliste s’applique sur des signaux dont
les modèles de densité de probabilité ne sont pas forcément connus.
En pratique, elle conduit en général à de bons résultats lorsque le nombre
N de mesures du signal est grand, afin de bénéficier d’estimateurs des paramètres de qualité. Cette qualité est nécessaire pour des signaux composés de
sous segments de distance de probabilité proche (Kullback-Liebler, Bhattacharrya). Dans ce cas, les erreurs de segmentation sont plus ou moins importantes, de l’ordre de la dizaine/centaine de mesures, selon les réalisations si
il s’agit de signaux synthétiques.
Dans le cas d’une segmentation de signaux réels, la méthode proposée
permet d’extraire des périodes, dans le cas des indices financiers, ou des sous
séquences, pour les séquences génomiques, homogènes sans pour autant morceler complètement les signaux étudiés.
A l’issue de ce stage, certains points restent à approfondir et d’autres à
étudier :
– l’analyse complète des taux d’erreurs en fonction de : la taille des sous
segments et des distances de probabilités entre les sous segments,
– l’étude approfondie de la mise en place d’un critère de sensibilité
– l’implémentation de la méthode en récursif,
– l’interprétation exacte de sous segments d’exemple de signaux réels,
– l’étude poussées des distance de probabilités afin de les intégrer à la
méthode
42
Bibliographie
[1] Wentian Li. New stopping criteria for segmenting dna sequences. 2000.
[2] François Chapeau-Blondeau. Le principe de longueur de description
minimale pour la modélisation des données, ou la théorie statistique de
linformation pour bien exploiter les mesures. 2005.
43
Téléchargement