classique et soundpainteur professionnel, qui dirige no-
tamment l’ensemble de soundpainting Amalgammes 4.
Le corpus pilote comporte une vingtaine de gestes
r´
ep´
et´
es cinq fois chacun, en faisant varier la vitesse
d’ex´
ecution du geste, l’amplitude des bras, etc. Un jeu de
s´
equences de gestes typiques de performances r´
eelles ont
´
egalement ´
et´
e collect´
ees. La figure 3 montre une s´
equence
basique de quatre gestes. Il est important de collecter des
s´
equences de plusieurs gestes car la r´
ealisation d’un geste
isol´
e est diff´
erente de celle du mˆ
eme geste effectu´
e dans
un enchaˆ
ınement (similaire avec les ph´
enom`
enes de co-
articulation en traitement de la parole).
Le principe du prototype est le suivant. A mesure que
les images RVB et de profondeur sont captur´
ees par la
cam´
era, nous r´
ecup´
erons les coordonn´
ees spatiales des
articulations du soundpainteur, qui constituent les pa-
ram`
etres d’entr´
ee du syst`
eme. Seules les coordonn´
ees de
six joints sont utilis´
ees : coudes, poignets, et mains. La
reconnaissance de gestes est ensuite effectu´
ee sur des
fenˆ
etres temporelles glissantes de taille variable.
Une ´
etape de normalisation des gestes est r´
ealis´
ee avant
la reconnaissance proprement dite. Les coordonn´
ees des
joints sont r´
e-´
echantillonn´
ees par interpolation `
a 32 va-
leurs `
a chaque nouvelle fenˆ
etre temporelle pour avoir
toujours la mˆ
eme taille de donn´
ees en entr´
ee du classi-
fieur. Sont ensuite effectu´
ees une rotation par rapport aux
joints des ´
epaules du soundpainteur ainsi qu’une trans-
lation pour centrer l’acquisition par rapport `
a un point
de r´
ef´
erence. Ces normalisations correspondent `
a une
g´
en´
eralisation `
a 3 dimensions de l’algorithme ”1 dol-
lar” [17]. Enfin, une mise `
a l’´
echelle d’un cube de cˆ
ot´
e
1 est faite. Toutes ces ´
etapes de normalisation visent `
a
rendre le syst`
eme robuste aux diff´
erences d’ex´
ecution
de gestes d’un soundpainteur donn´
e, et permettent de
reconnaˆ
ıtre les gestes de n’importe quel soundpainteur,
`
a partir d’un corpus d’exemples collect´
es aupr`
es d’un
unique soundpainteur.
Chaque geste est mod´
elis´
e par une chaˆ
ıne de Markov
cach´
ee, qui est une approche adapt´
ee pour la mod´
elisation
de s´
equences. Cette approche est similaire `
a celle d’un
module d´
evelopp´
e`
a l’IRCAM [8], `
a la diff´
erence que
notre outil utilise un nombre d’´
etat par geste limit´
e`
a 2
ou 3 ´
etats, au lieu de mod´
eliser chaque point par un ´
etat
(i.e. 32 ´
etats par fenˆ
etre de 32 points). Les observations
sont mod´
elis´
ees `
a l’aide de distributions Gaussiennes mul-
tivari´
ees. La reconnaissance s’appuie sur l’algorithme de
Viterbi.
Les performances de notre prototype n’a pa ´
et´
e va-
lid´
e quantitativement. Toutefois nous avons pu effectuer
une validation informelle sur quelques gestes r´
ealis´
es par
diff´
erentes personnes en direct. Les quelques gestes test´
es
sont effectivement reconnus lorsqu’ils sont correctement
ex´
ecut´
es. En revanche, le syst`
eme reconnaˆ
ıt plusieurs
fois de suite un mˆ
eme geste au cours de son ex´
ecution.
Il est donc n´
ecessaire de filtrer les ´
etiquettes de gestes
g´
en´
er´
ees par le syst`
eme. Pour une description technique
4 . http://www.ensemble-amalgammes.fr consult´
e le 15
mars 2016
plus d´
etaill´
ee du prototype, nous invitons le lecteur `
a se
r´
ef´
erer `
a [14].
Enfin, une vid´
eo d´
emo du prototype peut ˆ
etre vue
sur la page Web suivante : https://vimeo.com/
112062148. Dans cette d´
emonstration, un message du
syst`
eme de reconnaissance de gestes est envoy´
e au logi-
ciel Max-MSP `
a l’aide du protocole UDP pour d´
eclencher
une note de piano ou la lecture d’un fichier audio.
D’autres limites du syst`
eme actuel concernent le pa-
nel de gestes potentiellement reconnaissables. Nous avons
ainsi privil´
egi´
e l’´
etude des gestes utilisant les bras plutˆ
ot
que les doigts, dont les mouvements ne sont pas d´
etect´
es
par notre dispositif. De plus, notre syst`
eme ne peut `
a
l’heure actuelle reconnaˆ
ıtre des param`
etres intrins`
eques
`
a certains gestes. Par exemple, le geste Volume Fader
(VF), grˆ
ace auquel le soundpainteur demande une modifi-
cation du volume sonore en utilisant la position de sa main
par rapport `
a celle de son bras, est identifi´
e globalement
par une ´
etiquette ”VF” mais la variation de nuance de-
mand´
ee n’est pas d´
etect´
ee (cela n´
ecessiterait l’information
de la position relative de la main vis-`
a-vis de l’avant-bras).
Par ailleurs, notre corpus ne comporte pas de gestes se
r´
ef´
erant `
a la position des membres de l’orchestre, comme
par exemple le geste scanner.
6. APPLICATIONS
6.1. Annotation automatique
Utilis´
e lors d’une performance de soundpainting, notre
syst`
eme vise `
a obtenir une indexation automatique des
gestes produits par le soundpainteur. Cette approche offre
de nombreuses applications, que ce soit au niveau de la
reconnaissance d’un geste simple, ou de celui de la trans-
cription de performances enti`
eres.
Lors d’une improvisation, le soundpainteur doit
r´
ealiser des signes ´
etablis de la mani`
ere la plus pr´
ecise
possible. Utiliser un outil d’analyse automatique de gestes
fond´
e sur la mod´
elisation du squelette humain peut donc
permettre de comparer le mˆ
eme signe effectu´
e par plu-
sieurs soundpainteurs. Notre outil pourrait donc ˆ
etre uti-
lis´
e dans un but p´
edagogique dans le cadre de l’appren-
tissage des gestes du soundpainting, ou pour ´
evaluer, en
temps r´
eel, la r´
ealisation de geste chez des praticiens
exp´
eriment´
es.
En parall`
ele de son utilisation en temps r´
eel pour
d´
etecter les gestes du soundpainteur, notre prototype peut
ˆ
etre utilis´
e pour enregistrer le d´
eroul´
e d’un ensemble
de gestes. Ce syst`
eme pourrait produire `
a chaque utili-
sation un fichier xml 5, organis´
ehi´
erarchiquement par
s´
equences de gestes, et conservant l’information tempo-
relle de chaque ´
ev`
enement. Ce fichier pourra par le suite
ˆ
etre repr´
esent´
e graphiquement sous la forme de s´
equence
de gestes successives (voir figure 1).
Au niveau de la performance, l’annotation de tous
les signes utilis´
es pourrait compl´
eter les captations au-
dio et vid´
eos utilis´
ees lors de l’analyse d’une s´
equence de
5 . Extensible Markup Language