Haute Ecole Libre de Bruxelles Ilya Prigogine Master GGN – Gestion Globale du Numérique TRAVAIL D’EXAMEN. Compression de données: Diminution de bitrate et conséquence sur le mp3. Professeur : Rudi Giot Etudiant : Grégory HENNAUT Année académique : 2014-2015 Dans ce travail de compression de donnée nous allons faire une étude partique où nous allons tenter d’analyser les différences et conséquence de la modification du bitrate, frequence d’echantilonnage lors de la compression mp3 d’un fichier Wav. Vous trouverez en fin de “test”, en annexe un rappel théorique sur le mp3: Analyse de fichier. Verification de ces analyses théorique” Bitrate Qualité Compression 1 mn de son occupe Référence CD audio Aucune 10,094 Mo 192 kbits/s ou plus CD audio conservée 1:7 ou moins 1,373 Mo ou plus 128 kbits/s CD audio quasi conservée 1:11 0,915 Mo Supportable Limite 1:15 1:22 703 Ko 469 Ko Non supportable 1:22 ou plus moins de 469 Ko 96 kbits/s 64 kbits/s 64 kbits/s ou moins Nous commencerons par créer un fichier wav composé d’une voix et d’un passage musicale + voix, chant. Test 1. (j’ai fait un test 2 que j’ai analysé et vous joindrai en annexe.) Les enregistrements et compressions ont été fait avec Soundtrack Pro. J’ai enregistré la voix via le micro intégré de l’ordinateur. J’ai extrait la musique wav depuis le cd original. Le morceau du test 2 est extrait de you tube via youtube to mp3 (donc 192 kbs). (Remarque : lien vers les flux you tube: http://www.h3xed.com/web-andinternet/youtube-audio-quality-bitrate-240p-360p-480p-720p-1080p ) Nous utiliserons du Wave ou .wav échantilloné à 44,1 khz (=fréquence max 22000hz) (standart du Cd audio), la différence avec un son echantilloné à 48 khz(=fréquence max de 24000 hz (standart vidéo) n’est pas flagrante, et quasi indiscernable à l’oreille de part la différence et la hauteur des fréquence max. Le format AIFF est l’équivalent “Mac” du wave. La différence entre ses 2 signaux est minine si ce n’est inextitente. Notre test de compression portera sur le bitrate et ses conséquences sur la qualité du son. Pour ce faire les échantillons ont été compréssé de 192 kbs à 32kbs. C’est chaque fois depuis le signal ref que la compression a été effectué. Nous allons analyser ces différents fichier. Premièrement par leur écoute , secondement au poids du fichier et ensuite en analysant le spectre de fréquence. Son ref 1 : test 1 REF wave 16 bits 44.1.wav (double clique pour ecouter) Voici l’ensemble des pistes, tests que j’ai généré Pour faciliter la lecture des différentes piste je les ai assemblé dans final cut pro, pour une lecture succesive des fichiers et en faire une video. (double cliquer pour jouer) Analyse de l’écoute: Remarque l’écoute doit se faire sur un matériel de monitoring de qualité, en effet un casques, les hauts parleur intégré à l’ordinateur, un home cinema ou des hauts parleur ne restitutent pas le spectre audio de la même façon. Je ne percois pas de différence audible entre le wav et aiff. Je ne percois pas non plus de différence entre le 192 kbs et le signal référence, légère perte de volume, niveau peutetre. ( voir perception de l’oreille, certaine fréquence ne sont pas audible par une oreille “moyenne” ou “viellissante”) À partir de 96kbs je commence à percevoir des déformations du signal, la voix ne change que très peu, par contre dans la musique il y a comme une sorte de “scintillement” dans les aigus et la batteries. Jusqu’ici la musique cela pouvait encore passer. A 56 kbs la vois reste comprehenssible, par contre la musique est devenue inaudible, ont à un fort scintillement et des piques dans les haute fréquence, aigues. A 32 kbs la voix, qui un signal plus simple que la musique scintille aussi, la musqiue est atroce, on a plus assez de place dans le signal pour transmettre l’info. VBR (variante bit rate) a 32kbs vbr, la voix semble mieux passer, mais pas de changement sur la musique. Enfin dernier test à 16kbs, j’ai du utiliser un autre programme pour faire cette compression. Le signal est de meilleur qualité que ces predecesseurs, mais le niveau sonore a clairement été diminuer. Moins de crêtes donc. Conclusion à l’écoute, les fichiers de 192 kbs et plus sont de très bonne qualité d’écoute, jusquà 128 kbs c’est acceptable, en dessous, les dégradations du signal deviennent agacant… aussi en fonction du signal à transmettre voix ou musique, en fonction de sa compléxité, le débit peut être différent. Analyse de la taille, poids des fichier: L’echantillon de base, wav 44,1 16bit, mesuré 5,6 Mo (le aiff pareil) aprés compression en mp3 192 Kbs le fichier mesure 262 Ko. Soit 5600000 octets contre 259000 octets, donc une reduction de taille de 20 à 22 fois en fonction du codage 11 fois avec un codage plus simple. Le fichier mp3 192kbs est ensuite réduit à 96kbs (réduction de 2 fois le débit) , la taille du fichier est quasi réduit de moitié, quasi parceque c’est le débit qui est réduit mais le codage reste. On remarquera aussi que le VBR ajoute des octect supplémentaire de part son codage plus compliqué (il doit coder la variation de bitrate). 47ko en VBR contre 45ko en 32Kbs. Aussi on remarque que le 16kbs, effectué dans un autre programme et qui a une dimunitioon du niveau aune fred d’echantillonage 4 fois plus petite, 11.025 contre 44.1 khz. Analyse spectre: Je n’utiliserai pas d’analyseur de bitrate, vu que c’est ce qui définit la différence entre mais fichier. En passant le signal dans différent analyseur, je constate que: Que entre la version reference et le 16kbs on a perdu la moitié du niveau sonore (-10db vers - 20db) Sur ce schéma, on voit bien que le dernier son est plus faible au niveau du volume, on voit aussi que les mp3(a partir bloc 3) dépasse le niveu préconisé (ligne rose) Sur ce schema en vert , on voit la diminution en db du volume suite à la compression, en rouge on observe la diminution de la bande passante du signal en Hz. Conclusion: En conclusion, on préconisera de ne pas ou plus descendre en dessous de 192kbs au minimun lors de la compression. La bande passante, les support de stockage et le matériel d’écoute évoluant en technologie, capacité et se démocratisant… …il est moins nécéssaire qu’avant de surcompresser. De manière général, pour diminuer la taille d’un fichier, il faut tenir compte du signal d’origine et de sa compléxité, et adapter la compression en fonction, une voix demande moins de place qu’une musique. Annexes: Test2 rappel théorique. Le mp3… Les caractéristiques d’un fichier audio standard issu d’un cd sont qu’il est échantillonné à 44.1 kHz, codé sur 16bits et stéréo. Cela a pour conséquence d’avoir un fichier relativement lourd en effet, comme on prend 44100 échantillons par seconde, chacun codé sur 16 bits (2 octets) et sur 2 canaux stéréo. On a donc ((44100*2)*2) octets par seconde… le tout multiplier par 60 secondes…on obtient environ 10 Mo par minute d’enregistrement. La taille de ces fichiers wave et l’avènement d’internet et de la téléphonie mobile, ont poussé à trouver un format de compression prenant nettement moins de place que le wave du cd. Le Mp3 est un format de compression audio. Son abréviation vient de MPEG-1 audio layer 3. Il permet de diminuer d’environ 11 fois la taille d’un fichier cd audio ou Wave et ainsi de mettre quasi 11 albums sur un seul cd. Cette diminution de taille est possible grâce à la compression et à un codage différent. Le tout est un algorithme de compression aussi appelé codec. Il est nécessaire de pouvoir compresser un fichier et le relire ensuite… il y a une phase d’encodage. Et ce fichier doit pouvoir ensuite être décodé. Encodage du flux audio : Décodage du flux audio : Il existe des systèmes de compression avec et sans perte… le mp3 est un algorithme de compression avec perte… cependant bien utilisé, les pertes sont infimes et inaudibles pour une oreille ou 2 oreilles humaines standard. Lorsqu’ on parle de perte, cela veut dire que après la compression, lors de la restitution certaines données ne seront pas reconstituées, il y a une perte d’information, on parle aussi de compression destructive. Cette « perte » permet de comprimer jusqu’à 11 ou 12 fois le signal…sans perte (basé sur les redondance et codage Huffman) maximum de 2 à 3 fois… Cette compression est basée sur la perception humaine, auditive pour le mp3 et dans le cas de l’image, la perception rétinienne ou encore le pouvoir de discrimination spatial (utilisé dans mon projet « Processing ») D’autres part, comme c’est une compression, différente, moins complète, que l’enregistrement de base, on l’utilisera en « fin de chaines »… à l’instar du MPEG du dvd… c’est un format de diffusion et pas de production. Principe et procédé…ou comment gagner de la place… L’algorithme du mp3 est basé sur 4 étapes, 2 de compressions et 2 de codages : 1-Réduction par compression liée au fonctionnement de l’oreille.(destructive) 2-Réduction par compression par le masquage et stéréo (destructive) 3-Réduction par codage lié à la fréquence d’échantillonnage. 4-Réduction par codage d’Huffman. +Modèle psycho acoustique de l’oreille. Le principe de base est de retirer les fréquences audio inaudibles ou quasi par l’oreille humaine. En effet l’oreille humaine perçoit les fréquences entre 20 Hz et 20 kHz. Cet écart diminuant avec l’âge. De plus au regard du schéma, on s’aperçoit que l’on entend bien principalement entre 2 kHz et 5 kHz et rapport au volume nécessaire à l’audition, on peut ainsi décider de supprimer toutes les fréquences en dessous de 2 kHz et au dessus de 15 kHz. Notons que certains sons, fréquences pourront convertit sans perte de qualité. +Principe de masquage et de stéréo. Certaines fréquences en couvrent d’autres… imaginer un orchestre, on entends un homme jouer du triangle, le son qu’il produit est très faible…mais vous l’entendait… quand les cuivres se mettent à jouer, leur son beaucoup plus fort couvre le triangle que vous ne discernait plus… Un son fort couvre un son faible… Aussi, le signal gauche et droit peut être identique et être dupliqué. +Le codage et fréquence d’échantillonnage. Le Wave issu du cd a une fréquence de 44.1kHz… autrement dit ont prends 44100 échantillons de fréquence par secondes codée sur 16bits… On va avoir des fréquences qui se répètent et d’autres quasi identiques. De plus si on prends moins d’échantillon (écrêtage) on diminue la taille du flux. Le tout étant codé sous forme de bites on peut très vite imaginer avoir des répétitions ainsi si une même fréquence revient plusieurs fois… plutôt que la coder à chaque fois… on codera sa fréquence et sa répétition, sa récurrence. Ici, on va transformer l’information sans perte, sans destruction en effet c’est la manière de l’écrire qui va changer. Au plus une information est répétée au moins il faut de bites pour la coder. Exemple : Supposons une suite de nombre 22, 23, 540, -500, 22. Le nombre 22 est présent 2 fois, les autres 1 fois… plutôt que de coder chaque info… on pourrait imaginer dire qu’il y a 2 fois 22 plutôt que de répéter l’information. Et ainsi établir une probabilité, et pouvoir comprimer l’information et la relire sans perte, c’est un codage arithmétique. Les quasis identiques pourront être transformé en fréquence identique mais là, il y aura une destruction de données. Dans l’exemple, 22 et 23 sont très proches…en fonction de l’étendue entre les nombres, 22 et 23 pourrait devenir 22,5 ; ou 23 devenir 22 celui-ci étant plus répété, sans altérer la perception humaine. +Codage par algorithme d’Huffman… ou principe de l’arbre. En plus des compressions précédentes, on va analyser l’ensemble des fréquences et leurs répétitions, et attribuer aux fréquences les plus répétées les codes les plus courts. C’est un codage à longueur variable. Le tout sans pertes d’informations. L’information est analysé… ici dans le cadre du mp3, les différentes fréquences… elles sont triés en commençant par les plus répétées et on octroie le codage le plus court au plus répétées. Exemple du principe ; Soit la phrase suivante : "COMMENT CA MARCHE". M A C E _ H O N T R 3 1 2 2 2 2 1 1 1 1 M A C E _ H O N T R 00 100 110 010 011 1110 1111 1010 10110 10111 Le défaut du codage d’huffman c ‘est qu’il faut analyser tout le fichier en entier pour pouvoir déterminer les caractères ou fréquences les plus utilisés… c’est le cas du codage dit statique…on dira qu’il est adaptatif si il modifie sa table pendant son exécution. Notion de bitrate ou nombre de bites par seconde. Le mp3 aura une taille dépendante du nombre de bits par seconde utilisée. Bitrate Qualité Compression 1 mn de son occupe Référence CD audio Aucune 10,094 Mo 192 kbits/s ou plus CD audio conservée 1:7 ou moins 1,373 Mo ou plus 128 kbits/s CD audio quasi conservée 1:11 0,915 Mo 96 kbits/s Supportable 1:15 703 Ko 64 kbits/s 64 kbits/s ou moins Limite 1:22 469 Ko Non supportable 1:22 ou plus moins de 469 Ko Remarque, un très petit bitrate peu convenir à l’utilisation sur un matériel bas de gamme tels que petit baladeur mp3 bon marché… au plus on aura un matériel d’écoute de qualité au plus on entendra les défauts liés à une forte compression… On fera toujours un compromis… taille – qualité en fonction de l’utilisation voulue. En conclusion, le mp3 est un format avec perte de qualité, pas dans toutes ces étapes, mais c’est un format destructif. Il n’est pas destiné à un usage professionnel hors support de diffusion. Mais il s’est imposé dans tout ce qui est téléphonie mobile et internet de part son faible poids. Une oreille très avertit, exercée tel que celle d’un ingénieur du son peut faire la différence entre un fichier compressé ou non. Il est aujourd’hui un des formats les plus utilisés pour l’écoute de musique. Liens utiles https://www.youtube.com/watch?v=xyKA4arxQ5I https://www.youtube.com/watch?v=aTQS25w8kZo https://www.youtube.com/watch?v=UoBPNTAFZMo http://www.h3xed.com/web-and-internet/youtube-audio-quality-bitrate-240p-360p-480p720p-1080p http://korben.info/comparatif-deezer-spotify-qobuz.html