SSII : séance finale 2013-14, lundi 6/01/2014 Sauver un signal audio numérique dans un fichier wave On trouve dans le fichier ‘la3.wav’ les trois blocs de données : RIFF, fmt et data. Les données sont disposées comme suit : on lit l’octet de poids faible d’abord, puis les autres en allant vers l’octet de poids fort (format little endian ou ‘petit-boutien’ ) • 52 49 46 46, signifie RIFF • 24 53 07 00, lire 00 07 53 24, soit 7*65536+83*256+36=480036 bytes • 66 6D 74 signifie fmt en ASCII • format PCM (code 01 00) • monophonie (01 00) une voie • 40 1F 00 00, soit fe=8 kHz • 40 1F 00 00 est le byte rate en octets par seconde • 01 00 indique qu’un échantillon est codé sur un octet • 08 00, lire 00 08, un échantillon occupe 8 bits L’en tête du fichier la3.wav précise donc : 8kHz, mono, 16 bits/échantillon, format PCM, taille 480 044 octets, bit rate 8000 octets par seconde, ... Comment doubler fe ? Page 1 Quantification d’un2013-14, signal discret Scilab SSII : séance finale lundi avec 6/01/2014 • • • • • • • • • signal discret : x=[x(nTe)=xn, n=0.. N-1] xn codé sur B bits, intervalle -1=< xn < 1 le pas de quantification Q= 2/2B taille de x : N*B en bits Signal binaire : xbinn= partieEntière(xn/Q) -2B-1 =< xbinn < 2B-1, par exemple B=8, -128=<xbinn<128 Signal quantifié (ou numérique) xquantn=xbinn*Q, avec -1 =< xquantn < 1 Erreur de quantification : en = xn – xquantn Rapport signal sur bruit ou SNR, s’exprime en dB : SNR= 20*log10(écartType(x)/écartType(e)) Exemple : SNR =72dB sur ligne téléphonique grand public // avec Scilab : sig='piano.wav'; // fichier audio à traiter [x,fe,B]=wavread(sig); disp(['Son lu :', sig,', fe : ',string(fe),'et B=',string(B)]) t=[0:length(x)-1]/fe; b=8; Q=2/(2^b) //pas de quantification xbin=floor(x/Q); xquant=xbin*Q; e=x-xquant; SNR=20*log10(st_deviation(x)/st_deviation(e)) sound(xquant,fe) plot2d(t,xquant) xgrid xtitle(['chronogramme du signal xbin',sig], t (s)', 's(t)') Page 2 Page 2 Composition fréquentielle spectre et TFD SSII : séance finale 2013-14,oulundi 6/01/2014 s [ sn s(nTe ), n 0..N 1] TFD S fft( s) [ S k S ( Sk n0 sne2ikn / N N 1 kfe ), k 0..N 1] N fenêtre rectangle N=32 1 signal s 0.5 0 -0.5 -1 0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 7000 8000 temps (s) spectre d'amplitude/N, N=32 M=256 0.4 spectre/N 0.3 0.2 0.1 0 0 1000 2000 3000 4000 5000 6000 Lire f0= 440 Hz a0=0.75 (~0.8) fe = N =32 NTe = Df =250Hz spectre/N <0.4 M=256 pts tracés fréquence (Hz) fenêtre rectangle N=256 1 signal s 0.5 0 -0.5 -1 0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 7000 8000 temps (s) spectre d'amplitude/N, N=256 M=2048 0.4 spectre/N 0.3 0.2 Lire : f0= a0= fe = N= NTe = Df = spectre/N = 0.1 0 0 1000 2000 3000 4000 5000 6000 fréquence (Hz) Page 3 Sous échantillonnage d’un signal sinusoïdal pur SSII : séance finale 2013-14, lundi 6/01/2014 de 0 à 0.011364 s 1 amplitude 0.5 0 -0.5 -1 0 0.002 0.004 0.006 0.008 0.01 temps t (s) abs(fft(y(1:N))), N=8192 5000 spectre d'amplitude 4000 3000 2000 1000 0 0 1000 2000 3000 4000 5000 6000 7000 8000 fréquence Hz Chronogramme de 0 à 0.011364 secondes. 1 amplitude 0.5 -0.5 Sous échantillonnage M=8 • ssech=s(1:8:length(s)); N devient N/8= 1024 Te devient 8*Te fe devient fe/8 =1000Hz a0/2 = 512/1024, a0=1 f0 = 440Hz taux compression : 8 -1 0 0.002 0.004 0.006 0.008 0.01 temps t (s) abs(fft(y(1:N))), N=1024 600 500 spectre d'amplitude • • • • • • 0 400 300 200 100 0 0 100 200 300 400 500 600 700 800 900 1000 fréquence Hz Page 4 SSII : séance finale 2013-14, lundi 6/01/2014 Énoncés de la contrainte de Shannon • • D’après ‘A Mathematical Theory of Communication’, july 1948, in Bell System Technical Journal, par Claude Elwood Shannon (1916-2001) Pour échantillonner correctement un signal s(t), il faut respecter la contrainte de Shannon : – Contrainte de Shannon simplifiée : la fréquence d'échantillonnage doit être égale au moins au double de la fréquence maximale du spectre du signal : • • – Contrainte de Shannon générale : la fréquence d'échantillonnage doit être égale au moins au double de la largeur du spectre du signal : • • • • s'il existe fmax telle que S(f >fmax)=0, alors fe >=2*fmax s'il existe fmin et fmax telle que S(f >0) =0 pour f<fmin et pour f>fmax, alors fe >=2*(fmax-fmin) Si la contrainte n’est pas respectée, les échantillons ne permettent pas de reconstituer le signal s(t) ! Conséquence : seuls les signaux ‘à bande limitée’ (c’est-à-dire dont le spectre est nul au-dessus d’une fréquence fmax) peuvent être échantillonnés correctement, d’où le filtre dit ‘anti-aliasing’ des cartes sons qui limite le spectre du signal à l’intervalle [0, fe /2[ avant l’échantillonnage Filtre reconstructeur et formule de Shannon • Voici la formule de Shannon qui reconstruit s(t) à partir des échantillons s(nTe) (seulement si la contrainte de Shannon est respectée !) : s(nTe ) s(t ) s(nTe ) n • sin( (t nTe ) / Te ) (t nTe ) / Te En terme de filtrage, la formule de Shannon applique au signal discret le filtre reconstructeur de Shannon, pour retrouver s(t) : – – ce filtre multiplie par Te les composantes fréquentielles entre –fe/2 et fe/2, et multiplie par 0 toutes les autres composantes du spectre pour supprimer voici la réponse fréquentielle de ce filtre tracée entre -fe et fe : Te • f -fe/2 0 fe/2 Si la contrainte de Shannon n‘est pas respectée pour l’échantillonnage, la formule est impuissante, s(t) est perdu, les échantillons sont inutiles ! Page 5 Sur-échantillonnage d’un signal discret dans un rapport M signifie SSII : séance finale 2013-14, lundi 6/01/2014 insertion de M-1 échantillons nuls entre deux échantillons du signal 8 // avec Scilab ou Matlab sse=zeros(size(s)); sse(1:M:length(s))=ssech; Effets du sur-échantillonnage sur le spectre : • S(f) ne change pas, car on ajoute des échantillons nuls • fe étant multipliée par 8, on voit M=8 périodes de S(f) entre 0 et fe S( f ) N 1 se n 0 n 2inf / f e Comment retrouver le spectre du signal de départ? 0.5 amplitude N/8 redevient N échantillons 8*Te redevient Te fe/8 redevient fe =8000Hz a0/2 reste 512/1024, a0=1 f0 = 440Hz 0 -0.5 -1 0 0.002 0.004 0.006 0.008 0.01 temps t (s) abs(fft(y(1:N))), N=8192 8 600 500 spectre d'amplitude • • • • • Chronogramme de 0 à 0.011364 secondes. 1 400 300 200 100 0 00 1000 440 2000 3000 4000 5000 6000 7000 fréquence Hz Page 6 8000 Compresser et décompresser le signal de spectre suivant SSII : séance finale 2013-14, lundi 6/01/2014 dans un facteur M=4 spectre (R échantillons) R/4 3*R/16 R/8 4 0 fe 0 fe 0 fe f f 4 H1(f) 4 0 f 0 fe f Page 7 Créer et appliquer un filtre de réponse fréquentielle SSII : séance finale 2013-14, lundi 6/01/2014 donnée avec Scilab La réponse fréquentielle du filtre est définie dans le vecteur H, les coefficients du filtre sont calculés dans le vecteur h, on filtre ‘piano.wav’, on compare spectrogrammes et énergies avant et après filtrage // filtre passe bande 1000Hz-2000Hz // gain 4, R=64, fe=8000Hz R=64; fe=8000; n=0:R-1; fr=n*fe/R; H=4*[zeros(1,R/8),ones(1,1+R/8), ... zeros(1,-1+R/2),ones(1,1+R/8), ... zeros(1,-1+R/8)]; plot2d3(fr,H) xgrid xtitle(['H2,avec R=',string(R)], ... 'fréquence (Hz)’, ‘H’) //calcul des coefficients du filtre h=fftshift(real(ifft(H))); plot2d3(n/fe,h) xtitle('coefficients du filtre',... 'temps (s)',... 'h=fftshift(real(ifft(H)))') xgrid(); // filtrage [y,fe]=wavread('piano.wav'); disp(fe) // fe=8000 sound(y,fe) yf= convol(h,y); wavwrite(yf,fe,'pianofilt.wav') sound(yf,fe) //Spectrogrammes (Goldwave) // énergie Ey=(y*y')/2 // énergie y = 163.96 Eyf=(yf*yf')/2 // énergie yf =89.62 Définition de l’énergie du signal x de taille X échantillons E ( x) 1 X 1 2 xn 2 n 0 Page 8 Utiliser un banc de filtres pour analyser SSII :automatiquement séance finale le 2013-14, lundi 6/01/2014 spectre d’un signal audio function [s, E, Esignal, fe]=bancfiltres(M, R, fichier, play) //fichier ‘bancfiltres.sce’ //utilisation [s,e,es,fe]=bancfiltres(8,128,'piano.wav',0); [e,fe]=wavread(fichier); N= R/(4*M); H=[ones(1,N-1),0.9,0.5,0.1,zeros(1,R-2*N-3),... 0.1,0.5,0.9,ones(1,N-2)]; h=fftshift(real(ifft(H))); n=0:R-1; for j=0:M-1 bande(j+1,:)=2*cos((2*j+1)*n*%pi/(2*M)).*h; end for j=0:M-1 sfiltre=convol(e,bande(j+1,:)); s(j+1,:)=sfiltre(1:length(e)); wavwrite(s(j+1,:),fe,['s'+string(j+1)+'.wav']); end Esignal= e*e'/2; E=diag(s*s')/2; disp(['sum(E):',string(sum(E))]) bar([0:M-1]*fe/(2*M),100*E/Esignal) xtitle(['Analyse de ',fichier],'frequence (Hz)'... ,'energie (% energie totale)') xgrid(); if play then sound(sum(s,1),fe); end endfunction Lit le signal audio dans e et fe Crée filtre générateur h Crée banc de M filtres De taille R partir du filtre h Filtre e dans sfiltre Ramène longueur sfiltre à celle de y et sauve dans des fichiers wave Calcule et affiche un diagramme barre des énergies en % de l’énergie de e Joue sum(s,1) si play!=0 Analyse de piano.wav 80 70 Définition de l’énergie d’un signal x de taille X échantillons énergie (% énergie totale) 60 50 40 E ( x) 30 1 X 1 2 xn 2 n 0 20 10 0 0 500 1000 1500 2000 2500 3000 3500 fréquence (Hz) Page 9 Structure de CODEC* utilisant un banc de filtres SSII : séance finale 2013-14, lundi 6/01/2014 *CODEC : coder decoder, cf. vocoder, Chicago, 1939 x B1 x1 B2 x2 • M xd2 M … BM M xd1 xM M xdM Algorithme compression Étage de compression banc de Étage sous-éM filtres chantillonneur Étage sur-ébanc de chantillonneur M filtres M xse1 M xse2 M M M B1 M B2 … xseM M BM i1 xi M xrec xM La structure du CODEC inclut cinq étages : 1. Banc de filtres de réponses fréquentielles B1,B2,… BM et de longueur R avec : (B1+B2+… BM)*X=X N*M échantillons, C=1/M 2. Sous-échantillonnage de rapport M, autorisé parce que la largeur de spectre des signaux x1, x2, … xM vaut fe/M (et donc la condition de Shannon générale est vérifiée) M*N/M échantillons, C=1 3. Etage de compression: objectif, atteindre C > 1, mais la compression est destructive, elle modifie le signal compressé 4. Sur-échantillonnage (intercale M-1 échantillons nuls) 5. Banc de filtres interpolateurs, obtenu en multipliant par M les réponses fréquentielles des filtres B1, B2, … BM 6. Synthèse additive, le signal décompressé est noté xrec Page 10 Compresser avec un banc de filtres en diminuant la SSII : longueur séance finale 2013-14, lundi 6/01/2014 du codage binaire des échantillons Y a t’il des bits inutiles dans les signaux suivants codés sur 8 bits issus d’un banc de filtres ? Quel est le taux de compression qui en résulte ? -0.8<s1<0.6 xmax= m= bits ? u= ? -0.25<s2<0.2 xmax= m = bits ? u= ? -0.10<s2<0.10 xmax= m= bits ? u= ? -0.03<s2<0.04 xmax= m= bits ? u= ? C= ? Page 11 SSII :Luminance séance finale 2013-14, lundi 6/01/2014 et chrominance • L’œil est plus sensible à la luminance (noir et blanc, clair et sombre) qu’à la chrominance (couleur), cf. ci-dessous tiré de http://semsci.u-strasbg.fr/efflum.htm • D’où le codage YUV (ou Y Cb Cr) des images TV à partir des informations R, G (vert) et B Y 0.299 R 0.587G 0.114 B U 0.492 B Y C B V 0.877 R Y C R Y est la luminance, maximum de lisibilité pour l’œil humain, traduction de l’image couleur en niveaux de gris CB et CR sont les chrominances bleue et rouge, pour reconstruire les informations de couleur Page 12 signal finale audio 2013-14, à … l’image numérique SSIIDu : séance lundi 6/01/2014 En résumé, 1/ la durée devient la dimension, longueur ou largeur, y dimensions. donc le temps devient espace, et 2/ on passe à deux Im(x,y) H s(t) y découpé en M lignes D t x nnage s (t ), t [0, D[ échantillo s [ sn s ( nTe ), n 0...N 1] f e 1 / Te , fréquence d ' échantillo nnage 0 L x découpé en N colonnes N floor ( D * f e ) Quantification : sQ floor ( s / Q ) * Q Q 2 / 2 B 21 B 1 sQ 1 nnage Im( x, y ), x [0, L [ , y [0, H [ échantillo mH nL , ), n 0...N 1, m 0...M 1] M N f x N / L, résolution horizontal e I [ I mn Im( f y M / H , résolution verticale X floor ( L * f x ), X floor ( H * f y ) définition : N M Quantifica tion : I Q floor ( I / Q) * Q Q 1 / 2 B 2B 0 IQ 1 Page 13 Détection contours par un filtre d’image SSII : séancedes finale 2013-14, lundi 6/01/2014 // filtrer l'image lena.jpg // à l’aide d’un filtre laplacien lena=imread('lena.png'); h = fspecial('laplacian'); imf = imfilter(lena,h); imshow(imf); 0.1667 h 0.667 0.1667 0.667 3.333 0.667 0.1667 0.667 0.1667 Page 14 Utilisation de la DCT pour compresser une image SSII : séance finale 2013-14, lundi 6/01/2014 (cet exemple est tiré de l’aide de Scilab : - - > help dct) la DCT 2D est appliquée à l’image A, dont la composition fréquentielle (fréquences spatiales, verticale et horizontale) est calculée. Les composantes d’amplitude inférieure à 1 sont négligées, La ligne ‘size(find(d<>0),’*’)’ trouve 165 composantes non nulles sur 1680 Le taux de compression vaut un peu plus de 10, C= 1680/165 L’image décompressée à droite est obtenue en appliquant la dct inverse, soit A1=dct(d,1); x=-2:0.1:2; A=eval3d(milk_drop,x,x); d=dct(A); d(abs(d)<1)=0; size(find(d<>0),'*') A1=dct(d,1); clf();fig=gcf(); fig.color_map=graycolormap(128); subplot(121),grayplot(x,x,A) subplot(122),grayplot(x,x,A1) Page 15 Schéma de principe de la compression JPEG SSII : séance finale 2013-14, lundi 6/01/2014 (tiré de Wikipédia) 1. 2. 3. 4. 5. Division de l’image en blocs de 8x8 pixels appelés ‘macroblocs’ Séparation de chaque bloc en plans Y (luminance), Cr et Cb (chrominances rouge et bleu), ces deux plans étant sous échantillonnés d’un rapport 2 suivant la hauteur et suivant la largeur, Transformation DCT (Discrete Cosine Transform) de chaque bloc : on obtient 8x8 coefficients de Fourier qui définissent la composition fréquentielle du bloc Quantification des coefficients : les plus faibles en valeur absolue sont annulés ou codés sur un nombre de bits plus faible (le pas de quantification est augmenté) : compression avec pertes. Compression des coefficients restants : codage RLE (Run Length Encoding), codage de Huffman ou VLC (Variable Length Coding) Page 16 Utilisation de la DCT dans2013-14, le principelundi de compression JPEG SSII : séance finale 6/01/2014 • L’image à compresser est découpée en blocs de 8x8 pixels, auxquels on applique la DCT, qui calcule 8x8 coefficients pour chaque bloc selon la formule suivante : – N=8, pixel(x,y), avec x=0..7, et y=0.. 7 est un bloc de 64 pixels – DCT(i,j), i=0..7, j=0..7 est le tableau des 64 coefficients DCT du bloc – C(i) vaut 1 pour i non nul, et sqrt(2) pour i = 0 (de même pour C(j) et j) • • • Le tableau DCT(i,j), i=0..7, j=0..7 contient le spectre du bloc de pixels, les fréquences spatiales normalisées varient entre 0 et fx/2=0.5 horizontalement et verticalement. 64 intensités donnent 64 coefficients DCT, taux de compression : C=1 La DCT inverse reconstitue le bloc de pixels à partir des coefficients DCT(i,j) i=0..7, j=0..7 Page 17 La DCT décompose chaque bloc de 8x8 pixels en une somme SSII :pondérée séancedesfinale 2013-14, lundi 6/01/2014 64 images élémentaires ci-dessous : La DCT calcule les 64 coefficients de pondération de la somme des images élémentaires, ou encore la composition fréquentielle spatiale. La DCT inverse reconstitue le bloc de pixels en faisant la somme pondérée des images élémentaires. Une image élémentaire contient une fréquence horizontale et une fréquence verticale. Les coefficients de pondération sont les DCT(i,j), i=0..7, j=0 .. 7. La correspondance entre les indices i et j et la fréquence spatiale normalisée est : fi = i/(2*N), et fj= j/(2*N). Origine des fréquences j=0 j=1 j=7 j i=0 i=1 DCT(i,j) forts DCT(i,j) faibles i=7 i Tiré du cours de Pierre Nerzic cité page 1 le bloc élémentaire associé au coefficient DCT(i,j), i=0..7, j=0..7, avec la fréquence horizontale j/16, et la fréquence verticale i/16 Les DCT(i,j) décroissent quand i et j augmentent dans la plupart des cas (les composantes des blocs de pixels ont des fréquences spatiales basses) Page 18 Application à l’image ‘cameraman.png’ pour SSII : séance finale 2013-14, lundi 6/01/2014 [Q,C]=quantzone(sim, 6), C= 3.047 [Q,C]=quantzone(sim, 6) : on conserve les 21 premiers coefficients DCT des fréquences spatiales les plus bassesbasses, soit i+j<6, On annule les autres Page 19 SSIIReprésenter : séance finale 2013-14, lundi spatiale 6/01/2014 une fréquence • • • • • • • • • • • i(x)= 0.5+ 0.5*cos(2*%pi*f*x) x varie de 0 à L Définition : N pixels entre 0 et L Période échantillonnage : L/N Résolution horizontale: fx = N/L Pixellisation : x= k*L/N, k= 0 … N-1 ik= 0.5*(1+cos(2*%pi*f*k*L/N) Normalisation de fe : L/N= 1 fx=1 pixel par unité de longueur x= 0 .. N-1 ik=0.5*(1+cos(2*%pi*f*x) // fréquence spatiale horizontale xset('window',0) N=32 // L=N; // un pixel par unité de longueur // fréquence d'échantillonnage spatiale normalisée fx=N/L x=0:N-1; y=0:N-1; P=7; // période spatiale en pixels f=1/P; // fréquence spatiale sx=(1+cos(2*%pi*f*x))/2; sy=ones(1,N); Ix=sy'*sx; xset("colormap",graycolormap(256)); Sgrayplot(x,y,Ix',strf="041"); xtitle('',['x, pour fx=',string(f)],'y') Page 20 de DCTlundi et de6/01/2014 FFT SSII Comparaison : séance finale 2013-14, • s= [sn, n=0 .. N-1], de taille N, avec sn=s(n/fe) • S=fft(s)=[Sk, k=0..N-1], de taille N, avec Sk=s(kfe/N) S k S (k fe N 1 ) n0 sn e 2i n k / N , N • D= dct(s)= [Dm, m= 0 .. N-1], avec Dm=D(fm) (2n 1) m ), 2N 2/ N Dm D( f m ) m n 0 sn cos( N 1 avec 0 1 / N , m 0 • S et D ont la même taille que s, soit N • L’exponentielle complexe devient un cosinus, D est un vecteur réel, à la différence des Sk qui sont complexes • Les fréquences des valeurs calculées sont différentes • Pour fft, Sk=S(fk) fk • f 2f k N 1 f e , k 0..N 1 0, e , e ,... fe N N N N Pour dct, Dm=D(fm) fm 2m m fe 1 fe 2 fe N 1 fe fe , m 0..N 1 , ,... 4N N 2 N 2 N 2 N 2 • DCT est donc une variante de FFT, qui calcule un spectre réel et non complexe pour des fréquences entre 0 et fe/2 et non pas 0 et fe Page 21