on cr´
ee d’abord un super-vecteur pour chaque fronti`
ere
segment´
ee manuellement. Ce vecteur est obtenu en cal-
culant les vecteurs acoustiques sur les trames autour de
la fronti`
ere. La figure 1 repr´
esente un super-vecteur sur
(2N+1) trames. Chaque fronti`
ere Bd´
epend du phon`
eme
X`
a sa droite et du phon`
eme Y`
a sa gauche. On obtient
ainsi un pseudo-triphone not´
eX−B+Y(voir figure 2).
Puisque la taille du corpus d’apprentissage est petite, il
est alors difficile de bien apprendre un mod`
ele GMM
pour chaque fronti`
ere. Pour cette raison, une ´
etape in-
term´
ediaire avant l’apprentissage consiste `
a rassembler
les pseudo-triphones par classes grˆ
ace `
a la cr´
eation d’un
arbre de r´
egression et de classification (CART). Ensuite,
un GMM est appris pour chaque classe.
2. Pour une phrase de test donn´
ee, on cherche une marque
de segmentation autour de chaque fronti`
ere obtenue par
HMM; la marque retenue est alors celle qui maximise
la vraisemblance par rapport au mod`
ele GMM associ´
e`
a
cette fronti`
ere.
FIG. 1: Exemple de super-vecteur pour une fronti`
ere donn´
ee
3 Algorithme de Brandt
L’algorithme de Brandt [5] est bas´
e sur un crit`
ere statistique
afin de d´
ecider s’il y a ou non une rupture de stationnarit´
e
dans le signal de parole. Il consid`
ere que le signal est une suite
d’unit´
es stationnaires puis mod´
elise chaque unit´
e par un mod`
ele
autor´
egressif (AR).
Soit alors w= (yn)une de ces unit´
es. Chaque ´
echantillon
ob´
eit donc `
a la loi de la forme: yn=Pp
i=1 aiyn−i+en
o`
upest l’ordre du mod`
ele, suppos´
e constant pour toutes les
unit´
es. Le ni`
eme ´
echantillon de la fenˆ
etre est ynet enest un
bruit gaussian de moyenne nulle et de variance ´
egale `
aσ2.
Par cons´
equent, chaque unit´
e est associ´
ee `
a un vecteur de pa-
ram`
etres Θ = (a1=. . . , ap, σ).
Soit w0une fenˆ
etre de longueur n. Le principe de l’algo-
rithme de Brandt est de d´
ecider si w0doit ˆ
etre d´
ecoup´
ee en
deux fenˆ
etres w1et w2ou non. Cette d´
ecision se fait sur les
vecteurs de param`
etres Θ1et Θ2associ´
es respectivement aux
fenˆ
etres w1et w2. Ainsi, un changement entre Θ1et Θ2est
d´
etect´
e quand le rapport de vraisemblance g´
en´
eralis´
e (GLR)
d´
epasse un seuil λpr´
ed´
efini. L’instant de ce changement est
consid´
er´
e comme l’instant de rupture de stationnarit´
e.
4 Crit`
eres d’´
evaluationdeperformances
Les crit`
eres de comparaison des algorithmes de segmenta-
tion sont la probabilit´
e d’insertion, la probabilit´
e d’omission et
TAB. 1: TSCs de la segmentation produite par HMM
5 10 20 30
TSC 33.54 59.77 85.24 92.83
le TSC. En particulier, le taux de segmentation correcte (TSC)
mesure la pr´
ecision d’une segmentation `
a une tol´
erance pr`
es
par rapport `
a la segmentation de r´
ef´
erence et ce en prenant en
compte le nombre d’insertions et d’omissions.
Soient U={U1, U2, . . . , Un}les instants des marques pro-
duites par un algorithme de segmentation automatique, et V=
{V1, V2, . . . , Vp}les instants des marques de la r´
ef´
erence. Nous
construisons la liste VU= (Vk1, . . . , Vkn)tels que kjest l’in-
dice dans {1, . . . , p}et Vkjla marque la plus proche de Uj.
Donc chaque ´
el´
ement de Uest reli´
e`
a un ´
el´
ement de V. Les
omissions sont les instants V`qui n’appartiennent pas `
a la liste
VU, o`
u`∈ {1, . . . , p}. Pour les insertions, on regarde les
´
el´
ements r´
ep´
et´
es dans VU. Si VUcontient mfois la mˆ
eme mar-
que V`par exemple, le nombre d’insertions autour de V`est
m−1. Supposons que les mmarques de Ucorrespondantes aux
mmarques V`dans VUsont (Uj, . . . , Uj+m−1). La marque la
plus proche, de ce dernier vecteur, de V`est consid´
er´
ee comme
la marque non ins´
er´
ee. Les autres m−1marques repr´
esentent
les insertions autour de V`.
On applique cette technique pour tout `tel que V`est r´
ep´
et´
e
dans VUafin de localiser toutes les insertions. Ainsi, une seg-
mentation dont le nombre de segments est le mˆ
eme que pour
la r´
ef´
erence, peut contenir des omissions et des insertions. De
plus, nous d´
efinissons les probabilit´
es d’insertion et d’omission
comme suit: Pi=ni
p+niet Po=no
n+noo`
uniest le nombre
total d’insertions et noest le nombre total d’omissions. Pour
calculer le TSC, on identifie les marques qui ne sont pas des
insertions au sens donn´
e pr´
ec´
edemment. Ensuite, on compte le
nombre de ces marques qui se situent `
a moins de ms de la
marque manuelle correspondante. Enfin, on divise ce nombre
par la somme du nombre de marques de la segmentation ma-
nuelle et du nombre d’insertions. Autrement dit:
T SC =100
p+ni
n
X
j=1
I[0,](|Vkj−Uj|)
o`
uI[0,](x)est l’indicatrice de l’intervalle [0, ]. Un algorithme
est donc consid´
er´
e comme d’autant plus pr´
ecis que son TSC est
proche de 1.
5 R´
esultats
On utilise un corpus franc¸ais de 7350 phrases prononc´
ees
par un seul locuteur masculin. Les signaux de parole r´
esultants
sont ´
echantillonn´
ees `
a16 kHz et la phon´
etisation sur un corpus
a´
et´
e v´
erifi´
ee manuellement.
5.1 HMM am´
elior´
e
L’objectif de cette section est d’ajuster les param`
etres du
HMM am´
elior´
e sur un corpus franc¸ais. Nous partons des va-
leurs de param`
etres ajust´
es sur un corpus chinois dans [7] et
analysons si ces valeurs restent encore valables sur le corpus
´
etudi´
e. Seuls les param`
etres d’apprentissage sont ajust´
es. La
zone de recherche de la marque de segmentation autour de
celle du HMM est fix´
ee `
a60 ms avec un pas de segmenta-
tion de 5ms. Les TSCs dans cette section sont calcul´
es pour