Dans le schéma classique du codage vidéo, une combinaison adaptative entre les
deux mouvements (temporel et spatial) de l’information est utilisée pour réaliser
une grande compression de donnée (codage vidéo hybride DPCM/DCT).
1.2 Sous-échantillonnage et interpolation
La plupart des techniques de codage qu’on décrira dans cette partie, font un
échantillonnage et une quantification avant de coder l’information. Le concept de
base du sous-échantillonnage est de réduire les dimensions (horizontale et
verticale) de l’image vidéo et donc de diminuer le nombre de pixels à coder.
Certaines applications vidéo sous-échantillonnent aussi le mouvement temporel
pour réduire le débit des trames avant de coder. Le récepteur doit donc décoder les
images et les interpoler avant de les afficher.
Cette technique de compression peut être considéré comme une des plus
élémentaires qui tient en compte les caractéristiques physiologiques de l’œil et qui
enlève la redondance contenue dans les données vidéo.
Les yeux humains sont plus sensibles aux variations de la luminosité que de
couleurs.
A cause de ce défaut de l'œil, le codage MPEG commence par diviser les images
dans les composants YUV (un composant de luminosité et deux de chrominance).
Ensuite les composants chromatiques sont sous-échantillonnées en fonction du
composant de luminance avec un rapport Y : U : V spécifique à une particulière
application. (Exemple : avec MPEG-2 le rapport est de 4 : 1 : 1 ou 4 : 2 : 2).
1.3 Prédiction compensée de mouvement
La prédiction compensée de mouvement est un puissant moyen pour réduire les
redondances temporelles entre trames et elle est utilisée dans MPEG-1 et MPEG-2
comme prédiction pour le codage DPCM. Le concept de la compensation du
mouvement est basé sur l’estimation du mouvement entre trames vidéo; si tous les
éléments d’une scène vidéo sont proches dans l’espace, le mouvement entre trames
peut être décrit avec un nombre limité de paramètres (vecteurs de mouvement des
pixels).
La meilleure prédiction d'un pixel est donnée par la prédiction de mouvement de la
trame précédente. Bien que, soit la prédiction de l'erreur que les vecteurs de
mouvement sont transmis, le codage de l'information de mouvement pour chaque
pixel de l'image n'est pas nécessaire.
Si la corrélation spatiale entre vecteurs de mouvement est assez haute, un vecteur
de mouvement pourra représenter un bloc de pixels adjacents.
Ces blocs sont souvent constitués d'un group de 16x16 pixels, et seulement un
vecteur de mouvement est estimé, codé et transmis pour chaque bloc.