
d'invariance.  
 Le degré d'encodage: certains phones sont plus encodés que d'autres, dès lors qu'ils 
dépendent du contexte phonétique adjacent. Les voyelles sont les plus stables, alors 
que les consonnes occlusives (à l'opposé) sont les plus sensibles à cette absence 
d'invariance. Entre les deux, les consonnes fricatives, où il n'y a pas de fermeture du 
conduit vocal à proprement parler, mais il y a modulation des organes phonatoires. 
L'énergie acoustique continue néanmoins à être libérée.  
 2) Absence de linéarité: le signal de parole est en réalité caractérisé par le fait que nous co-
articulons les phonèmes successifs. Au moment où on commence à articuler un mot, et qu'en 
l'écoutant on entend trois sons successifs, dans le signal ces trois phonèmes successifs se 
recouvrent l'un l'autre. L'information relative à chaque phonème se trouve mélangée, 
enchevêtrée dans le signal. Pour certains, c'est un avantage pour le système perceptif: si il 
traite séquentiellement le signal, il a déjà de l'information sur ce qui précède et sur ce qui va 
suivre. 
 3.5.Les processus de catégorisation perceptive 
 
Notre système perceptif est également caractérisé par le fait qu'il développe rapidement un système 
optimal pour la catégorisation perceptive: c'est la perception catégorielle.  
Si on analyse un système acoustique, il y a des variations continues au niveau des différentes 
composantes, en termes de composition spectrale. Le système perceptif ne semble pas fonctionner 
comme cela: il a une manière de traiter les informations où il minimise le bruit en faveur de la 
qualité du signal.  
Perception catégorielle: on prend un contraste basé sur un trait phonétique (le lieu ou le mode 
d'articulation, le voisement,...). Pour le constraste Ba/Da, il y a une composition spectrale au niveau 
de F1 et de F2 qui est représentée sur les spectrogrammes. C'est la transition du second formant. 
Avec les outils dont on dispose, on peut créer entre le Ba et le Da toute une série de stimuli 
intermédiaires simplement en modifiant l'orientation de la transition de façon à créer un continuum 
acoustique.  
Avec ces stimuli, on réalise deux expériences qui mobilisent deux types de tâches particulières: 
1) Une tâche d'identification: on présente les 11 stimuli créés de façon aléatoire à travers un 
casque, et le sujet doit  identifier ce qu'il perçoit (est-ce un /ba/ ? Oui ou non). Dans le 
continuum acoustique (abscisse), à une extrémité il y a un vrai /ba/ et à l'autre un vrai /da/. 
Si on fonctionne à la manière d'un appareil acoustique qui analyse ces différences, on doit 
s'attendre à ce que l'identification du /ba/ soit maximale à une extrémité, puis de dégrade 
progressivement pour arriver à une performance totalement nulle. En réalité, nous 
catégorisons: la performance est au maximum pour les quatre premiers pas, et à l'autre 
extrémité du continuum, la performance est à 0%. Au milieu, il y a une grande chute, où les 
sujets répondent au hasard (50%): c'est la frontière catégorielle (entre le 5 et le 7), où la 
courbe d'identification chute brutalement d'un niveau d'identification optiam à un niveau 
d'identification nul. 
2) Une tâche de discrimination: elle consiste à présenter deux stimuli de ce continuum 
acoustique (voir trois selon le paradigme). Le paradigme AX, qui est le plus utilisé, demande 
au sujet de dire si le second stimulus est identique au premier (est-ce que X=A ?). Le sujet 
doit donc discriminer entre les deux syllabes. La variante, le paradigme ABX, où on 
présente deux stimuli successifs identiques ou différents, puis le stimulus x, et le sujet doit 
dire si x est égal à A ou à B. En réalité, toutes les paires sont différentes. Aux extrémités du 
continuum, les sujets répondent au niveau du hasard (50%) et au centre, leur discrimination 
est optimale. (S5 à S7). La discrimination entre catégories est meillere que la discrimination 
à l'intérieur de ces catégories.