Diminution de bitrate et conséquence sur le mp3.

publicité
Haute Ecole Libre de Bruxelles Ilya Prigogine
Master GGN – Gestion Globale du Numérique
TRAVAIL D’EXAMEN.
Compression de données:
Diminution de bitrate et conséquence sur le mp3.
Professeur : Rudi Giot
Etudiant : Grégory HENNAUT
Année académique : 2014-2015
Dans ce travail de compression de donnée nous allons faire une étude partique où nous
allons tenter d’analyser les différences et conséquence de la modification du bitrate,
frequence d’echantilonnage lors de la compression mp3 d’un fichier Wav.
Vous trouverez en fin de “test”, en annexe un rappel théorique sur le mp3:
Analyse de fichier.
Verification de ces analyses théorique”
Bitrate
Qualité
Compression
1 mn de son occupe
Référence
CD audio
Aucune
10,094 Mo
192 kbits/s
ou plus
CD audio
conservée
1:7 ou moins
1,373 Mo ou plus
128 kbits/s
CD audio quasi
conservée
1:11
0,915 Mo
Supportable
Limite
1:15
1:22
703 Ko
469 Ko
Non supportable
1:22 ou plus
moins de 469 Ko
96 kbits/s
64 kbits/s
64 kbits/s
ou moins
Nous commencerons par créer un fichier wav composé d’une voix et d’un passage
musicale + voix, chant. Test 1. (j’ai fait un test 2 que j’ai analysé et vous joindrai en
annexe.)
Les enregistrements et compressions ont été fait avec Soundtrack Pro.
J’ai enregistré la voix via le micro intégré de l’ordinateur.
J’ai extrait la musique wav depuis le cd original.
Le morceau du test 2 est extrait de you tube via youtube to mp3 (donc 192 kbs).
(Remarque : lien vers les flux you tube: http://www.h3xed.com/web-andinternet/youtube-audio-quality-bitrate-240p-360p-480p-720p-1080p )
Nous utiliserons du Wave ou .wav échantilloné à 44,1 khz (=fréquence max 22000hz)
(standart du Cd audio), la différence avec un son echantilloné à 48 khz(=fréquence max
de 24000 hz (standart vidéo) n’est pas flagrante, et quasi indiscernable à l’oreille de part
la différence et la hauteur des fréquence max. Le format AIFF est l’équivalent “Mac” du
wave. La différence entre ses 2 signaux est minine si ce n’est inextitente.
Notre test de compression portera sur le bitrate et ses conséquences sur la qualité du
son.
Pour ce faire les échantillons ont été compréssé de 192 kbs à 32kbs. C’est chaque fois
depuis le signal ref que la compression a été effectué.
Nous allons analyser ces différents fichier.
Premièrement par leur écoute , secondement au poids du fichier et ensuite en analysant
le spectre de fréquence.
Son ref 1 : test 1 REF wave 16 bits 44.1.wav (double clique pour ecouter)
Voici l’ensemble des pistes, tests que j’ai généré
Pour faciliter la lecture des différentes piste je les ai assemblé dans final cut pro, pour
une lecture succesive des fichiers et en faire une video. (double cliquer pour jouer)
Analyse de l’écoute:
Remarque l’écoute doit se faire sur un matériel de monitoring de qualité, en effet un
casques, les hauts parleur intégré à l’ordinateur, un home cinema ou des hauts parleur
ne restitutent pas le spectre audio de la même façon.
Je ne percois pas de différence audible entre le wav et aiff. Je ne percois pas non plus de
différence entre le 192 kbs et le signal référence, légère perte de volume, niveau peutetre. ( voir perception de l’oreille, certaine fréquence ne sont pas audible par une oreille
“moyenne” ou “viellissante”)
À partir de 96kbs je commence à percevoir des déformations du signal, la voix ne change
que très peu, par contre dans la musique il y a comme une sorte de “scintillement” dans
les aigus et la batteries.
Jusqu’ici la musique cela pouvait encore passer.
A 56 kbs la vois reste comprehenssible, par contre la musique est devenue inaudible, ont
à un fort scintillement et des piques dans les haute fréquence, aigues.
A 32 kbs la voix, qui un signal plus simple que la musique scintille aussi, la musqiue est
atroce, on a plus assez de place dans le signal pour transmettre l’info. VBR (variante bit
rate) a 32kbs vbr, la voix semble mieux passer, mais pas de changement sur la musique.
Enfin dernier test à 16kbs, j’ai du utiliser un autre programme pour faire cette
compression. Le signal est de meilleur qualité que ces predecesseurs, mais le niveau
sonore a clairement été diminuer. Moins de crêtes donc.
Conclusion à l’écoute, les fichiers de 192 kbs et plus sont de très bonne qualité d’écoute,
jusquà 128 kbs c’est acceptable, en dessous, les dégradations du signal deviennent
agacant… aussi en fonction du signal à transmettre voix ou musique, en fonction de sa
compléxité, le débit peut être différent.
Analyse de la taille, poids des fichier:
L’echantillon de base, wav 44,1 16bit, mesuré 5,6 Mo (le aiff pareil) aprés compression
en mp3 192 Kbs le fichier mesure 262 Ko. Soit 5600000 octets contre 259000 octets,
donc une reduction de taille de 20 à 22 fois en fonction du codage 11 fois avec un codage
plus simple.
Le fichier mp3 192kbs est ensuite réduit à 96kbs (réduction de 2 fois le débit) , la taille
du fichier est quasi réduit de moitié, quasi parceque c’est le débit qui est réduit mais le
codage reste.
On remarquera aussi que le VBR ajoute des octect supplémentaire de part son codage
plus compliqué (il doit coder la variation de bitrate). 47ko en VBR contre 45ko en 32Kbs.
Aussi on remarque que le 16kbs, effectué dans un autre programme et qui a une
dimunitioon du niveau aune fred d’echantillonage 4 fois plus petite, 11.025 contre 44.1
khz.
Analyse spectre:
Je n’utiliserai pas d’analyseur de bitrate, vu que c’est ce qui définit la différence entre
mais fichier.
En passant le signal dans différent analyseur, je constate que:
Que entre la version reference et le 16kbs on a perdu la moitié du niveau sonore (-10db
vers - 20db)
Sur ce schéma, on voit bien que le dernier son est plus faible au niveau du volume, on
voit aussi que les mp3(a partir bloc 3) dépasse le niveu préconisé (ligne rose)
Sur ce schema en vert , on voit la diminution en db du volume suite à la compression, en
rouge on observe la diminution de la bande passante du signal en Hz.
Conclusion:
En conclusion, on préconisera de ne pas ou plus descendre en dessous de 192kbs au
minimun lors de la compression. La bande passante, les support de stockage et le
matériel d’écoute évoluant en technologie, capacité et se démocratisant… …il est moins
nécéssaire qu’avant de surcompresser. De manière général, pour diminuer la taille d’un
fichier, il faut tenir compte du signal d’origine et de sa compléxité, et adapter la
compression en fonction, une voix demande moins de place qu’une musique.
Annexes:
Test2
rappel théorique.
Le mp3…
Les caractéristiques d’un fichier audio standard issu d’un cd sont qu’il est échantillonné à
44.1 kHz, codé sur 16bits et stéréo.
Cela a pour conséquence d’avoir un fichier relativement lourd en effet, comme on prend
44100 échantillons par seconde, chacun codé sur 16 bits (2 octets) et sur 2 canaux stéréo. On
a donc ((44100*2)*2) octets par seconde… le tout multiplier par 60 secondes…on obtient
environ 10 Mo par minute d’enregistrement.
La taille de ces fichiers wave et l’avènement d’internet et de la téléphonie mobile, ont poussé
à trouver un format de compression prenant nettement moins de place que le wave du cd.
Le Mp3 est un format de compression audio. Son abréviation vient de MPEG-1 audio layer 3.
Il permet de diminuer d’environ 11 fois la taille d’un fichier cd audio ou Wave et ainsi de
mettre quasi 11 albums sur un seul cd.
Cette diminution de taille est possible grâce à la compression et à un codage différent. Le tout
est un algorithme de compression aussi appelé codec.
Il est nécessaire de pouvoir compresser un fichier et le relire ensuite… il y a une phase
d’encodage. Et ce fichier doit pouvoir ensuite être décodé.
Encodage du flux audio :
Décodage du flux audio :
Il existe des systèmes de compression avec et sans perte… le mp3 est un algorithme de
compression avec perte… cependant bien utilisé, les pertes sont infimes et inaudibles pour
une oreille ou 2 oreilles humaines standard.
Lorsqu’ on parle de perte, cela veut dire que après la compression, lors de la restitution
certaines données ne seront pas reconstituées, il y a une perte d’information, on parle aussi de
compression destructive.
Cette « perte » permet de comprimer jusqu’à 11 ou 12 fois le signal…sans perte (basé sur les
redondance et codage Huffman) maximum de 2 à 3 fois…
Cette compression est basée sur la perception humaine, auditive pour le mp3 et dans le cas de
l’image, la perception rétinienne ou encore le pouvoir de discrimination spatial (utilisé dans
mon projet « Processing »)
D’autres part, comme c’est une compression, différente, moins complète, que
l’enregistrement de base, on l’utilisera en « fin de chaines »… à l’instar du MPEG du dvd…
c’est un format de diffusion et pas de production.
Principe et procédé…ou comment gagner de la place…
L’algorithme du mp3 est basé sur 4 étapes, 2 de compressions et 2 de codages :
1-Réduction par compression liée au fonctionnement de l’oreille.(destructive)
2-Réduction par compression par le masquage et stéréo (destructive)
3-Réduction par codage lié à la fréquence d’échantillonnage.
4-Réduction par codage d’Huffman.
+Modèle psycho acoustique de l’oreille.
Le principe de base est de retirer les fréquences audio inaudibles ou quasi par l’oreille
humaine. En effet l’oreille humaine perçoit les fréquences entre 20 Hz et 20 kHz. Cet écart
diminuant avec l’âge.
De plus au regard du
schéma, on s’aperçoit que
l’on entend bien
principalement entre
2 kHz et 5 kHz et rapport au
volume nécessaire à
l’audition, on peut ainsi
décider de supprimer toutes
les fréquences en dessous de
2 kHz et au dessus de 15
kHz.
Notons que certains sons, fréquences pourront convertit sans perte de qualité.
+Principe de masquage et de stéréo.
Certaines fréquences en couvrent d’autres… imaginer un orchestre, on entends un homme
jouer du triangle, le son qu’il produit est très faible…mais vous l’entendait… quand les
cuivres se mettent à jouer, leur son beaucoup plus fort couvre le triangle que vous ne
discernait plus… Un son fort couvre un son faible…
Aussi, le signal gauche et droit peut être identique et être dupliqué.
+Le codage et fréquence d’échantillonnage.
Le Wave issu du cd a une fréquence de 44.1kHz… autrement dit ont prends 44100
échantillons de fréquence par secondes codée sur 16bits… On va avoir des fréquences qui se
répètent et d’autres quasi identiques. De plus si on prends moins d’échantillon (écrêtage) on
diminue la taille du flux.
Le tout étant codé sous forme de bites on peut très vite imaginer avoir des répétitions ainsi si
une même fréquence revient plusieurs fois… plutôt que la coder à chaque fois… on codera sa
fréquence et sa répétition, sa récurrence.
Ici, on va transformer l’information sans perte, sans destruction en effet c’est la manière de
l’écrire qui va changer.
Au plus une information est répétée au moins il faut de bites pour la coder.
Exemple :
Supposons une suite de nombre 22, 23, 540, -500, 22.
Le nombre 22 est présent 2 fois, les autres 1 fois… plutôt que de coder chaque info… on
pourrait imaginer dire qu’il y a 2 fois 22 plutôt que de répéter l’information. Et ainsi établir
une probabilité, et pouvoir comprimer l’information et la relire sans perte, c’est un codage
arithmétique.
Les quasis identiques pourront être transformé en fréquence identique mais là, il y aura une
destruction de données.
Dans l’exemple, 22 et 23 sont très proches…en fonction de l’étendue entre les nombres, 22 et
23 pourrait devenir 22,5 ; ou 23 devenir 22 celui-ci étant plus répété, sans altérer la perception
humaine.
+Codage par algorithme d’Huffman… ou principe de l’arbre.
En plus des compressions précédentes, on va analyser l’ensemble des fréquences et leurs
répétitions, et attribuer aux fréquences les plus répétées les codes les plus courts. C’est un
codage à longueur variable. Le tout sans pertes d’informations.
L’information est analysé… ici dans le cadre du mp3, les différentes fréquences… elles sont
triés en commençant par les plus répétées et on octroie le codage le plus court au plus
répétées.
Exemple du principe ;
Soit la phrase suivante : "COMMENT CA MARCHE".
M A C E _
H O N T R
3
1
2
2
2
2
1
1
1
1
M
A
C
E
_
H
O
N
T
R
00
100
110
010
011
1110
1111
1010
10110
10111
Le défaut du codage d’huffman c ‘est qu’il faut analyser tout le fichier en entier pour pouvoir
déterminer les caractères ou fréquences les plus utilisés… c’est le cas du codage dit
statique…on dira qu’il est adaptatif si il modifie sa table pendant son exécution.
Notion de bitrate ou nombre de bites par seconde. Le mp3 aura une taille dépendante du
nombre de bits par seconde utilisée.
Bitrate
Qualité
Compression
1 mn de son occupe
Référence
CD audio
Aucune
10,094 Mo
192 kbits/s ou
plus
CD audio
conservée
1:7 ou moins
1,373 Mo ou plus
128 kbits/s
CD audio quasi
conservée
1:11
0,915 Mo
96 kbits/s
Supportable
1:15
703 Ko
64 kbits/s
64 kbits/s ou
moins
Limite
1:22
469 Ko
Non supportable
1:22 ou plus
moins de 469 Ko
Remarque, un très petit bitrate peu convenir à l’utilisation sur un matériel bas de gamme tels
que petit baladeur mp3 bon marché… au plus on aura un matériel d’écoute de qualité au plus
on entendra les défauts liés à une forte compression… On fera toujours un compromis… taille
– qualité en fonction de l’utilisation voulue.
En conclusion, le mp3 est un format avec perte de qualité, pas dans toutes ces étapes, mais
c’est un format destructif. Il n’est pas destiné à un usage professionnel hors support de
diffusion. Mais il s’est imposé dans tout ce qui est téléphonie mobile et internet de part son
faible poids.
Une oreille très avertit, exercée tel que celle d’un ingénieur du son peut faire la différence
entre un fichier compressé ou non.
Il est aujourd’hui un des formats les plus utilisés pour l’écoute de musique.
Liens utiles
https://www.youtube.com/watch?v=xyKA4arxQ5I
https://www.youtube.com/watch?v=aTQS25w8kZo
https://www.youtube.com/watch?v=UoBPNTAFZMo
http://www.h3xed.com/web-and-internet/youtube-audio-quality-bitrate-240p-360p-480p720p-1080p
http://korben.info/comparatif-deezer-spotify-qobuz.html
Téléchargement