Dans un contexte de normalisation mondiale, un consortium formé

publicité
Dans un contexte de normalisation mondiale, un consortium formé autour du projet de
partenariat de 3GPP a recommandé comme codeur décodeur (codec) pour les services de
commandes vocales, l'utilisation de système évolué de codage étendu (XAFE : eXtended
Audio Front_End). L'approche visée par notre recherche constitue une alternative aux
codecs DSR-XAFE actuellement disponible dans les mobiles de communications GSM. En
effet, nous proposons d'incorporer une technique d'analyse acoustique multi-variable plus
robuste et à plus bas débit, dont l'optimisation est effectuée par une approche de
décomposition en sous-espaces à pondérations variables. Le système développé sera
compatible avec le projet de partenariat de 3GPP qu'il soit relatif aux réseaux élaborés sur
GSM (européen), ou 3GPP2 élaborés sur CDMA (Nords_Américains). Comparativement aux
standards de DSR actuels, notre système utilisant le paradigme multi-variable optimisé vise
une meilleure compression de débit ainsi que de meilleures performances pour de faibles
rapports signal-sur-bruit (RSB) dans des environnements acoustiques changeants (coté
client). L'idée consiste à agir au niveau de l'analyse acoustique du signal vocal afin de
trouver le type de paramètres le mieux adapté aux milieux bruités et plus particulièrement
ceux induits par le milieu de transmission sans fil. L'utilisation d'une analyse multi-variable
pose l problème d'assignation des poids de chaque source d'information. Il est en effet très
important de bien choisir ces poids en fonction des environnements acoustiques
changeants auxquels sont confrontés les systèmes de DSR.
Ce mémoire présente un nouveau front-end basé sur un paradigme multi-flots dans un
contexte de reconnaissance de la parole distribuée. Il vise à améliorer les performances des
systèmes basés sur les modèles de Markov cachés (MMC) en combinant les paramètres
conventionnels MFCC (Mel Frequency Cepstral Coefficient) et les LSF (Line Spectral
Frequencies), afin de constituer un nouveau vecteur acoustique multi- variable. Notre
contribution s'articule autour des aspects innovateurs suivants :
exploiter le potentiel des LSF à être utilisés comme paramètres complémentaires aux
coefficients MFCC classique;
optimiser l'assignation des poids à chaque variable et voir à quel point cela peut influer sur
le rendement du système;
tester le nouveau système d'analyse acoustique (front-end) avec différents débits de
transmission et de voir dans quelle mesure notre système peut réduire le débit de
transmission;
Les expériences effectuées ont prouvé que l'intégration des paramètres LSF conduit à une
amélioration du taux de reconnaissance. Les résultats obtenus ont également montré que
les MFCCs, en dépit de leur popularité, perdent de l'information appropriée au processus de
reconnaissance en milieu fortement bruité. L'optimisation de l'utilisation des flux de
paramètres en réduisant la dimension des vecteurs acoustiques a été effectuée de façon
efficace en utilisant la transformée de Karhunen-Loève (KLT). C'est une technique de
décomposition en sous-espaces également utilisée en rehaussement des signaux bruités.
Ainsi en intégrant KLT nous réalisons deux gains : réduction optimale de paramètres
et amélioration de la robustesse, en éliminant les composantes principales bruités
(généralement celles d'ordres supérieurs)
Téléchargement