Université Montpellier 2 Licence Professionnelle Acoustique Perception Auditive F. GENIET Septembre 2009 1 I. La nature du phénomène sonore 1) La chaîne de l’audition. Source Sonore Propagation Réception Oreille Sensation Interprétation La vue très schématique ci-dessus permet de préciser les domaines mis en jeu dans la chaîne de l’audition : Les deux premiers blocs font partie de la physique : mécanique et acoustique permettent en principe d’expliquer la génération et la propagation des sons. Rappelons que le son dans l’air est une onde de compression mécanique longitudinale, dont la propagation est décrite par l’équation d’onde (ou équation de d’Alembert) 1 ∂2 p −∆p = 0 c 2 ∂t 2 la grandeur p(x,y,z,t) représente la surpression régnant au point (x,y,z) à l’instant t, et c représente la célérité de l’onde sonore γRT c= M γ =5/3 pour un gaz diatomique, R = 8.32 J mol-1K-1 est la constante des gaz parfaits, et M est la masse molaire du (mélange de) gaz. Dans le cas de l’air M ≈ 29 10-3 kg, et c ≈ 331 ms-1 à 0°C . La description du mécanisme de fonctionnement de l’oreille, bien qu’en très grande partie faisant appel à l’acoustique, fait partie du domaine de la physiologie. Ce fonctionnement est à peu près bien connu depuis le siècle dernier (XXème) bien que les recherche sur le sujet se poursuivent (Cf. cours G. Rebillard), et que tout le monde ne soit pas tout à fait d’accord sur tous les mécanismes. Le système de transducteur au niveau de l’oreille interne, transformant la vibration mécanique en influx nerveux et potentiel d’action, fait partie du domaine de la neurophysiologie, domaine ayant énormément progressé depuis 50 ans, grâce en particulier aux micro électrodes permettant de capter l’influx nerveux in vivo au niveau d’une seule cellule (Cf. également cours G. Rebillard). 2 Enfin, et c’est une partie qui va nous intéresser en particulier, la question de savoir comment nous percevons les sons, et comment nous les interprétons, bien qu’en principe réductible à la neurophysiologie (ce qui est totalement inenvisageable à l’heure qu’il est), fait appel au domaine de la psychophysique, ici la psycho-acoustique, qui tente de corréler des excitations physiques à nos sensations psychologiques. Dans ce domaine, le sujet percevant est évidemment un personnage clé (ce que n’aiment pas les physiciens !) et les expériences doivent être répétées de façon à obtenir des résultats statistiquement valables. Dans ce dernier domaine, la grande question est : « peut on relier ce que l’on mesure physiquement (fréquence, puissance, composantes de Fourier, sonagramme…) à ce que l’on perçoit, (sont aigu, intense, agréable…) ? » qui va en grande partie nous intéresser ici. Notez que la réponse à cette question dépend beaucoup de la profession de la personne à qui elle est posée : - pour un musicien, c’est impossible, et de fait, la subtilité des phénomènes acoustiques musicaux, et des sensations qui y sont reliées sont telles que l’on ne sait pas les relier par des lois simples. - Cependant pour un physicien ou un spécialiste d’acoustique industrielle, il semble par exemple y avoir une corrélation très claire entre l’exposition à un bruit intense et de façon prolongée (chose que l’on peut mesurer), et l’apparition de surdité à telle ou telle fréquence. La correspondance n’est pas très subtile, mais elle est néanmoins très utile. C’est ce point de vue que nous adopterons dans ce cours. 2) Les caractéristiques de la vibration sonore. a) Observation du signal sonore brut. Un microphone permet de capter la surpression (on la vitesse) de l’air en un point, et l’enregistrement, maintenant numérique, permet de visualiser très facilement le signal : 3 En premier lieu, on remarque que l’on est totalement incapable de dire à quoi correspond cet enregistrement, sauf qu’il est porteur d’information (ce n’est pas un bruit au sens ou on l’entends en traitement du signal), et que c’est sans doute de la musique (une sorte de régularité apparaît). Si on veut relier mesures et interprétation, il va falloir travailler ! On remarque alors de façon frappante des « structures temporelles emboîtées », qui apparaissent au fur et à mesure que l’on zoome. A la fin, on obtient un signal de forme assez variée selon que c’est une voix, un instrument ou un autre, l’environnement. Ce signal de pression est plus ou moins périodique, et on ne le comprend pas plus que le précédent (notez l’échelle temporelle) : En résumé, on voit se dégager les échelles temporelles suivantes : 10-4 s percussions b) 10-3 s 10-2 s sensation de hauteur 10-1 s 1s 10 s durée des notes et des mots 102 s 103 s durée des œuvres Fréquences et hauteurs. Les physiciens et acousticiens et spécialiste du traitement du signal utilisent ici le concept de « son pur », c'est-à-dire un son dont l’amplitude variant de façon sinusoïdale au cours du temps. Nous verrons pourquoi c’est très commode pour le traitement du signal (filtrage). Du point de vue psychoacoustique, c’est un très mauvais choix, et une des raisons de la méfiance des musiciens à l’égard des acousticiens en découle : les sons purs sont totalement non musicaux (par exemple la ronflette 50Hz due au secteur est un son pur !) . Pour de tels sons purs, la fréquence f du signal est reliée à la période par f = 1/T , et donne le nombre d’oscillations en une seconde. On peut alors vérifier expérimentalement que l’oreille humaine est sensibles aux sons de fréquences comprises entre environ 20 Hz et 20000 Hz. Cet intervalle se modifie avec l’age en se réduisant dans les hautes fréquences (cf. Chapitre III). Au-delà, ce sont les ultra sons, auxquels sont sensibles les chiens par exemple. En deçà, les infrasons que perçoivent par exemple les éléphants. 4 On remarque alors que la fréquence f la plus basse du signal, dite fondamentale 1, est associé à la hauteur perçue. Pour un diapason, par exemple à 440 Hz, dont les oscillations produisent une vibration quasi sinusoïdale, la fréquence est relié à la sensation La4 pour toute oreille de musicien entraîné. Si on double la fréquence f = 880 Hz, le musicien perçoit une note située un octave au dessus (essayer avec un piano) et ainsi de suite. Une progression géométrique (2,4,8,16…) de notes, correspond ainsi (en très bonne approximation) à une progression arithmétique (0,1,2,3…) de hauteurs : Fréquence(Hz) note 27,5 La -1 note la plus basse du piano 55 La0 3ème corde contre basse 110 La1 5ème corde guitare 220 La2 440 La3 2ème corde violon 880 La4 Si4 note la plus aigue de la guitare 1760 La5 Si5 note la plus aigue du violon 3520 La6 4186 Do7 note la plus aigue du piano Les fréquences supérieures (de 5000 à 20000 Hz) ayant un rôle essentiel dans la perception du timbre de la voix et des instruments, et des transitoires (attaques, percussions, consonnes). De ce qui précède, on voit qu’il est naturel d’introduire une échelle logarithmique de hauteur : c’est notre premier exemple de la loi de Fechner : « la sensation varie comme le log de l’excitation ». On définit donc l’échelle d’intervalle entre deux fréquences f1 et f2 dans l’échelle des Savarts par I S = 1000 log10 ( f2 ) ce qui donne 1 Octave ≈ 300 Savarts (301,03), et 1/2 ton ≈ 25 Savarts. f1 De même l’échelle des Cents, plus précise, et plus simple f I C = 1200 log 2 ( 2 ) ce qui donne 1 Octave = 1200 Cents, et 1/2 ton = 100 Cents. f1 1 en première approximation et de façon grossière. La sensation de hauteur est en fait bien plus subtile, en particulier pour les sons musicaux. Nous y reviendrons plus tard. 5 Enfin on notera que la gamme bien tempérée théorique (GBTT), qui divise l’octave en 12 intervalles égaux, correspond donc à des rapports de fréquence entre demi tons données par f2 / f1 = 2 1/ 12 ≈ 1.059463. On notera aussi que quoi qu’en disent les acousticiens, cette gamme est horriblement fausse ! Exercices : - Calculer le rapport de fréquence d’un intervalle de quinte, constitué de 3 tons et ½ . - Calculer les fréquences des fondamentales des notes de la GBTT. c) Amplitude et intensité sonore. En cours d’acoustique, vous verrez que pour un physicien, la grandeur énergétique pertinente, définie pour une onde sonore sinusoïdale plane, est l’intensité acoustique. C’est le flux d’énergie transportée par l’onde, c'est-à-dire l’énergie traversant une section de 1 m2 par seconde. Elle s’exprime en Watts m-2, et vaut en moyenne sur le temps (RMS) 2 p eff I= ρc où ρ est la masse volumique du gaz ( pour l’air, ρ ≈ 1,3 kg m-3 ) , et peff est la valeur efficace de la surpression acoustique. On retiendra que l’énergie est une grandeur quadratique de l’amplitude max (comme en électricité P = U2eff /R ) . Ici aussi, on observe que la sensation de niveau sonore n’augmente pas de façon linéaire avec l’augmentation de puissance, mais plutôt en suivant la loi de Fechner. On définit dont l’échelle logarithmique de niveau d’intensité I L = 10 log10 ( I ) I0 = 20 log10 ( p ) p0 en Décibels (RMS), ou dB (RMS) 1. Le niveau de référence correspond en gros au seuil d’audition à 1000 Hz, et vaut I 0 = 10 −12 W m −2 ce qui correspond à une surpression acoustique de p0 ≈ 20 µ Pa, correspondant à une amplitude de vibration du tympan de l’ordre de 10-9 m ! Le seuil de douleur de l’appareil auditif, au delà duquel des lésions, éventuellement permanentes, apparaissent, est quand à lui situé vers 130 dB. Quelques valeurs permettent de se faire une idée de cette échelle : 1 Coup de marteau sur une plaque d’acier à 1 m 110 dB Conversation ordinaire à 1 m 65 dB Salle concert vide 25-35 dB / Salle concert remplie 30-50 dB Quand on ne précise pas c’est RMS. 6 - Chuchotement doux à 1m 10-15 dB Exercices : - A quelle intensité acoustique correspond le seuil de douleur ? - Quelle est l’augmentation du niveau d’intensité lorsqu’on double la puissance d’émission d’une source ? - Même question si on double la source. La réponse semble dépendre de si vous considérez la pression ou l’intensité ! Pourquoi ? De quoi la réponse peut elle dépendre in fine ? Le diagramme ci-dessous résume les deux paragraphes précédents, en précisant les contours des phénomènes sonores perceptibles dans le plan Niveau – Fréquence : On constate déjà les performances remarquable du capteur : 3 décades en fréquence, 13 décades en intensité acoustique, Et on ne tient pas compte des aspects de mémorisation et corrélation du signal, qui jouent sur des échelles de temps beaucoup plus grandes (après tout, on détecte très bien un signal périodique de 1 Hz comme une basse techno, par exemple !) d) Timbre. Le timbre est la caractéristique la plus subtile du son. C’est elle qui nous permet de reconnaître un instrument, la voix d’une personne, la qualité du son d’un instrumentiste… Le timbre est relié entre autre à la forme du signal périodique sonore. En fait il est aussi extrêmement dépendant des attaques, des transitoires, de la décroissance du son, de la réverbération, des modulations du signal (battements, vibrato…) et du niveau sonore, toutes 7 choses qui n’apparaissent pas sur la forme d’une période de signal. Inversement, la perception du timbre semble indépendante de certain aspects : par exemple une note de violon archet poussé ou tiré ne présentent pas la même forme de signal alors que le timbre perçu est le même. Le timbre d’un signal périodique (sans attaque, ni modulation, ni enveloppe) est lié à sa décomposition de Fourier. Comme vous le verrez dans un autre cours, un signal périodique de période T se décompose de façon unique en une somme de signaux sinusoïdaux de fréquences fn = n f0 qui sont dites harmoniques de la fréquence fondamentale f0 = 1/T , et n est un entier. De façon plus précise ∞ S T (t ) = ∑ [ An cos( 2π f n t ) + Bn sin( 2π f n t )] = n=0 ∞ ∑C n=0 n cos( 2π f n t + ϕ n ) L’interprétation de cette dernière représentation est que le signal se décompose en une somme de « sons purs » de fréquences multiples de celle de la fondamentale, d’amplitudes Cn et de déphasages ϕn variables. Cn -ϕn 1/fn t Les valeurs des coefficients de la décomposition de Fourier sont données par T 1 A0 = ∫ S T (t ) dt T 0 T An = 2 S T (t ) cos( 2π f n t ) dt T ∫0 T Bn = 2 S T (t ) sin( 2π f n t ) dt T ∫0 si n≠0 , Cn = et An2 + Bn2 . Enfin la valeur moyenne RMS du signal, reliée à l’intensité acoustique, est donnée dans cette décomposition par ST 2 1 ≡ T T 2 ∫ [ST (t )] 0 dt = 1 2 ∞ ∑C n =0 2 n 8 L’interprétation de cette relation est que l’énergie portée par ce signal acoustique est une somme des énergies dues à chacun des sons purs pris séparément, ce qui justifie l’analyse énergétique spectrale. Il semble bien établi que pour un signal stationnaire, l’oreille humaine soit insensible à la phase ϕn des sons purs superposés. On peut voir par exemple sur les signaux ci-dessous, correspondant au La3 d’un violon joué en « poussé » ou en « tiré », que les signaux sont assez différents. Pourtant l’oreille ne perçoit pas de différence (même un violoniste expérimenté est incapable de distinguer à l’oreille). Si on trace le spectre énergétique Cn2 de ces deux signaux (Cf. ci-dessous), on s’apercevra qu’ils sont égaux : seule les phases ϕn des composantes diffèrent. On résume ceci en disant que l’oreille est un détecteur quadratique (énergétique). Dans la fenêtre ci-dessous, le principe de décomposition est utilisé de façon inverse, pour synthétiser un signal à partir de ses harmoniques. C’est le principe de la synthèse sonore additive, illustré ici à l’aide de WaveModeler : 9 En pratique, les signaux sonores ne sont jamais périodiques : ils ont une durée limitée (alors qu’un signal périodique s’étend de moins à plus infini), commencent et s’amortissent. Il faut donc adapter la théorie de Fourier dans ce cas. Les relations de Fourier s’écrivent alors de façon très simple avec des nombres complexes : fˆ (v ) = f (t ) = ∞ ∫ f (t ) e −∞ ∞ − 2 iπν t ∫ fˆ (v) e 2 iπν t dt dv −∞ ce qui peut encore s’écrire, pour un signal s( t ) réel, (exercice) ∞ s(t ) = ∫ A(v ) cos( 2πν t ) dν 0 ∞ + ∫ B(v ) sin( 2πν t ) dν 0 avec ∞ 1 A(ν ) = ∫ s(t ) cos( 2π ν t ) dt 2 −∞ ∞ et 1 B(ν ) = ∫ s(t ) sin( 2π ν t ) dt 2 −∞ On voit que pour un signal de durée finie, on se ramène au calcul d’intégrales de 2 fonctions sur un domaine fini. Ces intégrales sont calculées au moyen de l’algorithme de FFT. Dans la pratique, on trace C (ν ) = A 2 (ν ) + B 2 (ν ) en fonction de ν . Le spectre de puissance obtenu renseigne sur la répartition de la puissance du signal en fonction de la fréquence. Ce spectre est calculé de façon standard par tous les logiciels de traitement de son, en particulier par Audacity. Par exemple voici ci-dessous le spectre d’un La3 joué en tiré au violon : 10 On remarque la « forêt » très riche d’harmoniques multiples de 440 Hz. Le spectre du violon est en effet très riche, et on dénombre facilement plus d’une trentaine d’harmoniques ! Un théorème très important de la théorie de Fourier montre de façon très générale que la transformée de Fourier d’une fonction de durée ∆Τ présente une largeur des pics minimum ∆ f donnée par la relation fondamentale ∆Τ . ∆ f ≥ 1 . Ainsi, un signal de durée ∆Τ = 0.1 s ne peut pas être défini en fréquence à mieux que ∆ f = 10 Hz . Ceci est très important, et montre par exemple que l’on ne peut pas jouer trop vite de la contrebasse si on veut une bonne définition de la hauteur du fondamental. En effet deux notes à 20 Hz et 25 Hz sont séparées de environ 2 tons (une tierce majeure). Cet aspect joue également un rôle important dans le choix de la fenêtre temporelle utilisée pour réaliser les spectres comme ci-dessus : si on veut une bonne résolution temporelle (le spectre « à un instant donné ») on va prendre une fenêtre très étroite, au détriment de la précision des spectres : on obtient des pics très larges. Si on veut un spectre bien défini, il faut prendre des fenêtres plus larges, mais on perd en résolution temporelle : les notes se mélangent. En résumé, l’analyse de Fourier énergétique est un bon outil pour caractériser le timbre des sons permanents, ou de ceux en régime établi. Par contre elle renseigne très mal sur les transitoires d’attaque, qui sont essentiels à la reconnaissance des sons. Par exemple, il est très difficile de reconnaître un son de guitare si on coupe l’attaque du son. C’est un effet bien connu des guitaristes électriques qui l’utilisent (avec une pédale de volume) pour changer leur son. Nous allons voir une autre représentation du signal sonore, la représentation « tempsfréquence » ou sonagramme, qui permet d’éviter ces problèmes. e) Sonagramme. 11 Le sonagramme (ou sonogramme) est une représentation temps-fréquence, qui tente de résoudre le paradoxe apparent d’avoir une résolution correcte, à la fois en temps et en fréquence. L’expérience prouve qu’une fenêtre glissante ∆Τ ≈ 0.1 s , conduisant à une imprécision de ∆ f ≈ 10 Hz sur le spectre, permet d’obtenir des résultats acceptables. A l’origine, le sonogramme était obtenu au moyen de filtres électroniques et d’un enregistrement à la plume sur un rouleau ! De nos jours, l’algorithme de FFT permet de le tracer très rapidement sur un ordinateur, avec des fenêtres de largeur paramétrables. Un sonogramme présente l’aspect ci-dessus. Dans cet exemple, on voit des notes jouées au luth (fenêtre inférieure) et le spectre des harmoniques correspondantes dans la fenêtre principale. Cela permet en particulier de visualiser la décroissance plus rapide des harmoniques aigues, caractéristique du timbre des instruments à corde, ainsi que l’attaque très percussive et présentant une grande étendue en fréquence de cet instrument.. Une autre application se trouve dans la reconnaissance des voix, où la forme caractéristique du sonogramme permet de distinguer une voix d’une autre, par exemple. On voit sur l’exemple ci-dessous l’aspect très riche du signal parlé : les parties hautes fréquences (en bleu foncé) correspondent aux formants : harmoniques supérieures pondérées de façon importantes et qui distinguent les voyelles entre elles. Remarquer par exemple les hautes fréquences du son « i » un un ondes si_nu__soi_dales de fréquences différentes Pour conclure ce chapitre, le sonogramme est un outil très riche, donnant une bonne représentation des sons, et qui permet une grande variété de traitements du signal, avec des méthodes issues du traitement des images. Nous n’en parlerons pas plus ici, et renvoyons les lecteurs intéressés à la bibliographie. 12 II. La physiologie de l’oreille humaine. Nous donnons ici quelques aperçus sur le fonctionnement de l’oreille. Le cours de G. Rebillard vient en complément de celui-ci sur les mécanismes fins mis en jeu dans la cochlée. Ca : Conduit auditif Cc : Canaux semi circulaires Co : Cochlée E : Trompe d’Eustache En : Enclume Et : Etrier Fo : Fenêtre ovale Fr : Fenêtre ronde M : Marteau Ms : Mastoïde N : Nerf auditif P : Pavillon T :Tympan V : Vestibule 1) L’oreille externe. Constituée du pavillon et du conduit auditif, et se terminant au niveau du tympan, l’oreille externe joue un rôle dans la localisation des sources et la spatialisation sonore, ainsi qu’un rôle d’amplification du signal sonore. Le pavillon, avec ses circonvolutions, joue sans doute un rôle de coupe-vent (pour éviter un sifflement permanent à l’entrée du conduit auditif). Il joue aussi un rôle dans la localisation des sources. Le conduit auditif (30 mm sur 8mm environ) joue un rôle de protection de l’oreille moyenne. Il sert également à l’amplification du signal : c’est un résonateur amorti (pour que la résonance soit large), centré vers 3000 Hz. Enfin, il aide à la 13 localisation des hautes fréquences, qui sont « directionnelles » car elles ne diffractent pas : lorsque le conduit est bien orienté, on entends mieux la source. 2) L’oreille moyenne. L’oreille moyenne, enfermée dans une cavité osseuse situé après le tympan (la caisse du tympan), est constituée d’une chambre remplie d’air et communiquant avec le pharynx par la trompe d’Eustache. Cette dernière assure l’équilibrage des pressions entre oreille externe et moyenne. Elle comporte 3 os (les plus petits du squelette !) que sont le marteau, l’enclume et l’étrier. Le rôle de cette chaîne d’osselets est d’assurer le transfert d’énergie depuis le tympan (vibration dans l’air) à la fenêtre ovale, ou la vibration est transmise à un liquide. En d’autre termes, il s’agit de réaliser une amplification de la vibration, et une adaptation d’impédance entre deux milieux de densités très différentes. Ceci est assuré de façon mécanique par la taille des osselets et des membranes (tympan et fenêtre ovale) qui vont en décroissant. 14 Le système de bras de leviers des osselets assure en outre un déphasage de 180° entre les vibrations du tympan et de la fenêtre ovale. (quand l’un est poussé, l’autre est tirée). Cela nous permettra de mieux comprendre le fonctionnement de la Cochlée. Enfin, des muscles tenseurs permettent de brider le système, de façon a limiter l’endommagement de l’oreille interne du à une surpression excessive. C’est un mécanisme réflexe, mais que l’on peut en partie commander en « tendant l’oreille » ou « faisant le sourd » ! 3) L’oreille interne. C’est là que la magie de l’audition a lieu ! Dans l’oreille interne la vibration acoustique est codée sous forme d’influx nerveux, au moyen de transducteurs, les cellules cillées. L’oreille interne se trouve protégée dans une petite cavité osseuse de l’os du rocher. (2×1×0.7 cm environ). Elle est constituée de différentes parties : - - le vestibule et les canaux semi circulaires, qui contiennent en fait des accéléromètres jouant un rôle essentiel dans la sensation de l’équilibre (c’est ce qui se dérègle lorsqu’on a le mal de mer !). Nous n’en parlerons pas ici, mais le rôle des différentes parties ne semble pas encore faire l’unanimité. La cochlée, ou colimaçon, qui est l’organe de la transduction acoustiquenerveux. Elle communique avec l’oreille moyenne par deux membranes : la fenêtre ovale, reliée à l’étrier, et la fenêtre ronde, qui donne directement dans l’oreille moyenne. Cet partie de l’oreille est très étudiée (Cf. en particulier le cours de G. Rebillard). La cochlée est constituée par un enroulement en spirale de différents canaux remplis de liquide lymphatique : La rampe vestibulaire, reliée à la fenêtre ovale. La rampe tympanique, reliée à la fenêtre ronde Le canal cochléaire qui est situé entre les deux rampes précédentes et contient les cellules nerveuses assurant la transduction. Ces canaux sont séparés par les membranes basilaires et de Reissner. 15 - Enfin les deux rampes vestibulaire et tympanique communiquent à leur extrémité par un petit orifice : l’hélicotrême. Le système de détection en fréquence de la cochlée est un fait une sorte d’espèce d’analyseur de Fourier : la vibration de la fenêtre ovale crée une onde sonore qui se propage dans la rampe 16 vestibulaire, puis dans la rampe tympanique. Le déphasage entre fenêtre ovale et fenêtre ronde, du au mécanisme des osselets, renforce encore l’effet. Ce double système d’ondes allée-retour crée des figures d’ondes stationnaires sur la membrane de Reissner et la membrane basilaire. Cette dernière, est équipée d’accéléromètres sous la forme des cellules ciliées, qui détectent la forme de la vibration. Pour les vibrations hautes fréquence, le maximum de la vibration est située vers l’entrée de la cochlée, du coté des fenêtres ovales et rondes. Pour les basses fréquences, l’amplitude maximum se trouve localisée vers l’extrémité de la cochlée, du coté de l’hélicotrême. 17 Si on regarde en détail la membrane basilaire, on voit qu’elle est tapissée sur toute sa longueur de cellules cillées, séparées en cellules externes et internes. C’est la vibration de ces cellules qui déclanche le potentiel d’action des cellules nerveuses, qui est ensuite transmis au nerf acoustique, puis au cerveau pour être interprété. Les différents types de cellules jouent un rôle de feedback actif, mettant en mouvement la membrane tectonique, ce qui permet la détection de signaux très faibles. Enfin, notons que l’exposition répétée à des vibrations trop fortes fait tomber les cellules ciliées, et que celles-ci ne repoussent pas. C’est un des mécanismes de la surdité, dont on comprend maintenant comment il peut affecter différemment les différentes fréquences. 18 III. Psycho-acoustique . 1) Sensibilité de l’oreille. Courbes de Fletcher. Durant les année 1930-1940 Harvey Fletcher et ses collaborateurs des Bell Labs ont, au moyen d’expériences répétées de psychoacoustique sur des sujets variés, établi les courbes d’égale sensation en fonction de la fréquence. C’est ce que l’on appelle maintenant le diagramme de Fletcher-Munson. Le réseau de courbes isosoniques ci-dessus traduit l’égalité de sensation de niveau sonore pour des sons purs, en fonction de la fréquence. Autrement dit, des sons d’égales intensités acoustiques (et de niveaux égaux), ne produisent pas la même sensation selon la fréquence. On pouvait bien entendu s’y attendre : on ne perçoit pas les ultrasons au même niveau que les sons, par exemple ! Ces courbes sont indicées par le niveau à 1000 Hz, qui définit l’unité de sensation psychologique pour les sons purs : le phone. Ainsi un son de 100 phones correspond à un niveau de 100 dB à 1000 Hz, et de 120 dB vers 30 Hz. La courbe de seuil correspond au 19 minimum d’audition en fonction de la fréquence, et nous voyons qu’elle correspond à 4 dB à 1 kHz, c'est-à-dire que le seuil d’audition correspond à 4 phones. Dans la pratique, l’usage de ce réseau de courbes pour déterminer un niveau de nuisance n’est pas très pratique, et on utilise en fait un système de pondération des dB issus de ces courbes : - dB(A) pondéré par la courbe de Fletcher à 40 phones (bruits faibles) dB(B) pondéré par la courbe de Fletcher à 70 phones (bruits moyens) dB(C) pondéré par la courbe de Fletcher à 100 phones (bruits forts), les dB ordinaires étant encore appelés dB(Lin). On a donc dB(A) = dB(Lin) + courbe A, par exemple. Dans la pratique courante, ce sont les dB(A) qui sont utilisés la plupart du temps. Une application courante de l’usage de ces courbes est le bouton « loudness » des chaînes stéréo, qui compense la variation forte de niveau perçu à faible volume en rajoutant des basses et des aigues. 20 2) Influence de la fatigue et de l’age. Les courbes ci-dessus, sont établies pour un panel d’individus « moyens » . Il est bien connu que les capacités d’auditions se modifient avec l’age. Voyons comment cela se traduit sur les courbes d’audition. Les courbes ci-dessous traduisent la perte d’audition, c'est-à-dire l’opposé de l’élévation du seuil d’audition en fonction de l’age et de la fréquence. On voit que ces pertes sont importantes après 50 ans, et concernent surtout les fréquences élevées (supérieures à 4 kHz). En principe, ces fréquences ne sont pas essentielles pour le langage, et la « presbyacousie » ne devrait pas affecter la compréhension de la parole. En pratique il en est souvent autrement dans un environnement bruité, où les hautes fréquences permettent au cerveau d’extraire le signal du bruit (effet « cocktail party »). Les courbes ci après présentent un autre aspect de la perte d’audition, liée à la fatigue auditive : l’exposition prolongée à un bruit (ici bruit blanc de niveau 110 dB pendant 15 minutes) élève le seuil de perception de l’oreille, et cette effet de fatigue, plus prononcé dans les fréquences élevées, peut prendre plus d’une journée avant le retour à la normale. Pour des expositions plus longues, la perte peut être irréversible. 21 3) Echelle des sones. Les courbes de Fletcher et Munson permettent donc de relier les niveaux perçus de façon équivalente à des fréquences différentes. Par contre, on ne sait pas comment des courbes successives se traduisent en terme d’augmentation niveau perçu. L’idée du dB est que les phones ainsi définis devraient être proportionnels à la sensation, mais les travaux classiques de Stevens montrent que ce n’est pas tout à fait le cas. En effet on observe, pour des niveaux supérieurs à 40 phones, que « la sensation de niveau double pour une augmentation de 10dB » C’est la loi de puissance de Stevens. Cela conduit à l’échelle des Sones . Si on attribue au niveau 40 phones la valeur de 1 Sone, 50 phones donnent 2 Sones 60 phones donnent 4 Sones … où, de façon plus générale S =2 P − 40 10 qui s’inverse immédiatement en 10 log 2 S + 40 = P 22 En se rappelant la définition de P = 10 log(I / I0 ) , on trouve une variation de la Sonie en loi de puissance : I S = Cte I0 0,3 Concrètement, cela se traduit par : « il faut multiplier la puissance par 10 pour doubler la sensation de niveau sonore ». Noter que cela ne vaut que pour des signaux de même fréquence. Nous allons voir que lorsqu’on superpose des signaux de fréquences différentes, les choses ne se passent pas du tout de la même manière. Pour des niveaux inférieurs à 40 dB la loi change : à 10 phones, une variation de 2 dB suffit à doubler la sensation de niveau. 4) Sonie des sons complexes. Masquage. Ce paragraphe est entièrement inspiré du cours de Caroline Traube, de l’université de Montréal, dont la présentation est remarquable de clarté. 23 Bibliographie sommaire. 1. John Pierce, Le Son Musical, musique, acoustique, informatique. Coll. « Pour la Science », ed. Belin, 1984. Très agréable à lire, passionnant et assez complet, même si il n’est pas toujours très clair. 2. E. Leipp La Machine à Ecouter, essai de psychoacoustique. Ed. Dunod, 1977. Par le père de l’acoustique musicale en France. Très daté pour la partie informatique (ce qui est normal). Des remarques très pertinentes sur le fonctionnement du système auditif. De très bons schéma pour la physiologie de l’oreille. 3. Caroline Traube, http://cours.musique.umontreal.ca:16080/MUS3321/ cours de Psychoacoustique Musicale de l’Université de Montréal. Très bon cours, très recommandé.Ce que j’ai lu de plus clair sur la Sonie des sons purs et complexes et le masquage. 4. Serge Lewy, Acoustique Industrielle et Aéroacoustique. Hermès Sciences Publications, Paris 2001. Très documenté sur les modes de calcul des phones et sones, mais manque des explications. 5. http://www.christoph-lauer.de/Homepage/Sonogram.html Homepage de Christoph Lauer, présente le logiciel Sonogram 280, avec documentations. 24