5
2emes JOURNEES DU LABORATOIRE DE COMMUNIPARLEE ET DE TRAITEMENT DES SIGNAUX
(JLCPTS 2015)
deux méthodes proposées ont données de résultats un peu
satisfaisants et cela à cause des conditions réels d’acquisition
du signal visuel. On a vu que pour la détection de contours
avec l’approche classique nécessite plusieurs prétraitements
pour détecter les contours intérieurs et extérieurs des lèvres.
La deuxième méthode nous a révélé que ces paramètres
changent d’une image à une autre, d’une image où les lèvres
sont fermées à une image où les lèvres sont ouvertes. On se
retrouve à poser le problème suivant : est-ce-qu’on peut faire
une meilleure paramétrisation sur toute la base de données
sans faire des changements manuels des paramètres avec
moins de prétraitements.
La méthode qui répond à tous ces contraintes est la DCT.
D. Résultats de la classification
On va présenter les résultats de la classification par les
SVMs sur les résultats de la caractérisation par la DCT.
Les matrices d’entrés des SVMs doivent être représenté en
2-D, or que les taille des matrice sont en 3-D.
Les matrices contenant les caractéristiques visuelles des
deux bases respectivement Apprentissage et de Test sont
réorganisées comme suit :
Base Aapprentissage: [150, 63*500].
Base Test: [100, 63*500]
Ou chaque ligne de la matrice (d’apprentissage ou de test)
représente les 500 coefficients des 63 images d’un clip, c.-à-d.,
une ligne représente la caractérisation d’une répétition d’un
chiffre.
Les résultats de la classification sont représentés par le
paramètre Taux Moyen de Bon Reconnaissance ‘’TMBR’’ :
=
éé
Avec: N: nombre de classes = 10.
Nombre de répétitions = 15 (Apprentissage) et 10 (Test).
a) Classification par noyaux
La figure 21 présente l’influence des différents noyaux sur
le TMBR pour chaque chiffre, ou le système à fait une erreur
de 10% pour le chiffre 7 pour les noyaux Linéaires et RBF, et
pour remédier à cette erreur, on applique le noyau linéaire à la
classe d’erreur et le noyau RBF sur les autres classes. On
obtient résultat meilleur TMBR = 100%.
On peut représenter l’influence du type de noyaux sur le
TMBR global par la figure ci-dessous.
VI. CONCLUSION
Notre travail présenté dans ce document a porté sur la RAP
visuelle. Nous avons ainsi abordé les principaux problèmes de
la RAPV, à savoir la paramétrisation des informations de
parole et la nature du système de Reconnaissance.
Nous avons choisi pour résoudre ces problèmes en
appuyant sur des travaux réalisés dans le domaine de la
perception visuelle de la parole.
Nous nous sommes intéressés, en premier temps, à
l’extraction des paramètres visuels. Elles sont calculées sur
des images fixes basées sur la forme et les mouvements des
lèvres, et paramétrées par trois méthodes :
La premier est la détection de contour par estimation de
gradient (Approche classique), la deuxième méthode est la
détection des contours actifs par la formulation Level Set et la
dernier méthode c’est la DCT (Discret Cosine Transform).
Nous avons ensuite mis en œuvre le système de RAP visuelle
fondé sur le module de reconnaissance SVMs.
Aux cours de l’évaluation de notre système, on a constaté
que la méthode de paramétrisation classique ne donne pas de
bonne résultats, car cette méthode permet de détecter tous les
contours présents dans l’image, ainsi il nous a fallu employer
plusieurs prétraitements, mes la nature de la base de données
utilisée (milieu réel) a engendré plusieurs problèmes liés à la
détection des contours des lèvres. Par contre la méthode Level
Set permet plus ou moins de détecter les contours extérieurs
des lèvres, mais ces paramètres changent d’une image à une
autre. Pour remédier à ces problèmes, on a utilisé la DCT qui
nous a donné un TMBR (Taux Moyen de Bonne
Reconnaissance) égale à 100%.
La DCT reste toujours la meilleure approche pour la
caractérisation des images par rapport aux autres méthodes.
REFERENCES
[1] Alexandrina ROGOZAN, ‘Etude de la fusion des données hétérogènes
pour la reconnaissance automatique de la parole audiovisuelle’
,Thèse PHD, Ecole doctorale en électronique de l’université d’Orsay,
Paris, 1999.
[2] N. BAKIR, . DEBYECHE, Y. CHIBANI, ‘’Reconnaissance
automatique des chiffres arabes en milieu réel par fusion
audiovisuelle’’, 10ème Congrès Français d'A
coustique, Lyon, France,
Avril 2010
[3] BAKIR Nadia. ‘ Reconnaissance automatique de la parole par fusion
audiovisuelle dans un milieu réel’,Thèse de Magister en Électronique
Spécialité : Communication Parlée, USTHB 2008.
[4] Bovik A., "Handbouk of Image and Video
Processing", Academic Press, p891 (2000).
[5] Harshit Mehrotra, Gaurav Agrawal and M.C. Srivastava,’’ Automatic
Lip Contour Tracking and Visual Character Recognition for
Computerized Lip Reading’’, International Journal of Computer Science
4:1 2009.
Fig. 21. Influence du noyaux sur le TMBR pour chaque chiffre
Fig. 22. Comparaison des differents noyaux du SVM sur le TMBRG.