Chapitre 7 : réglages des paramètres du son et de la vidéo numérique Introduction : On va étudier les différents paramètres concernant les fichiers vidéos et son, en les illustrant avec un logiciel de conversion vidéo free vidéo converter Table des matières I) free vidéo converter 1) utilité 2) notice d’utilisation II) Codage du son 1) quantification du signal sonore sur 8 bits ou sur 16 bits ? 2) pas de quantification 3) quantification du signal sur 8 bits 4) Codage sur 16 bits 5 ) La fréquence d'échantillonnage III) paramètres de la vidéo 1) nombre d’images par seconde (Fps) 2) codec 3) norme et format conteneur 4) Débit binaire ou bit rate (ou bitrate) IV) quelques formats de données particuliers 1) Flash Video 2) Digital Video 3) format AVI I) free vidéo converter 1) utilité Tout appareil numérique (caméscope, téléphone portable, appareil photo) possède son propre format de fichier vidéo et audio. Un logiciel comme adobe première peut travailler uniquement sur quelques types de fichiers. Il est nécessaire de convertir les fichiers provenant des appareils numériques avant de les importer sur adobe première. Pour cela on va utiliser un logiciel en utilisation libre que vous pouvez télécharger directement sur internet et qui s’appelle free video converter V2.5.0.0. Il en existe beaucoup d’autres comme AVS. 2) notice d’utilisation (On explicitera plus tard dans ce chapitre chacun des paramètres de l’audio et de la vidéo) - cliquer sur ajouter fichier - choisir le fichier à convertir - choisir le format de sortie - régler les paramètres vidéo : codec, taille, aspect fps(image par seconde), bit rate - régler les paramètres audio : codec fréquence d’échantillonnage, channel, bit rate - cliquer sur chemin de sortie, le fichier une fois convertit va s’enregistrer dans le chemin spécifié. Choisir le même emplacement que le fichier initial. - définir le point d’entrée et de sortie du fichier à convertir - cliquer sur convertir. Plus l’ordinateur est performant plus la conversion se fera rapidement. II) Codage du son 1) quantification du signal sonore sur 8 bits ou sur 16 bits ? Le son est une vibration de couche d’air. Elle est transformée en vibration électrique à l’aide d’’un microphone. Le signal en sortie du microphone est un signal analogique, c’est à dire une tension qui varie au cours du temps. Cette tension va être numériser c’est à dire transformé en O ou 1 pour être stockée dans l’ordinateur. Chaque échantillon de tension en volt est « pesé », tout comme un aliment, afin d’en déterminer son poids. En numérique, ce pesage est appelé quantification. Il s’effectue, pour reprendre notre analogie, à l'aide d'une balance à deux plateaux : dans un des plateaux se trouve l’échantillon à peser, dans l’autre les poids nécessaires pour trouver l’équilibre. La précision du pesage dépend donc de la valeur du plus petit poids disponible. Pour les signaux sonores (ou vidéo) , le poids de l’échantillon est la tension du signal électrique à numériser et la balance un quantificateur. Cet appareil convertit les tensions en valeurs numériques, exploitables par une station de montage virtuelle, par exemple. Cependant, la quantification ne peut pas représenter parfaitement la tension de l'échantillon du signal analogique d'origine. En effet, un signal analogique (représenté par un nombre réel) peut prendre une infinité de valeurs, or il va être converti en un signal formé d'un nombre fini de valeurs numériques « N » dont chacune est codée sur « n » bits (c'est-à-dire sous forme d'un nombre entier dont la valeur maximale est limitée). Il y aura donc nécessairement, après quantification, une erreur d'arrondi. La précision du signal converti sera donc liée au nombre de valeurs disponibles pour traduire chaque échantillon. 2) pas de quantification L'intervalle situé entre deux valeurs est noté « q » et se nomme « pas de quantification ». À chaque instant « t », l'amplitude du signal se trouvant à l'intérieur d'un échelon est remplacé par la valeur de l'échelon le plus proche. On comprend aisément que plus les pas de quantification sont petits, plus ils sont nombreux sur une plage donnée et donc que plus la précision du signal quantifié est importante. Exemple : si le pas de quantification est 10 mV et que la tension U = 12 mV la valeur numérique associé sur 8 bits sera : 0000 0001 Si U= 18 mV la valeur numérique associée est : (0000 0010)2 Car (0000 0010)2 = (2)10 = 2x10 = 20 mV. En effet 18 mV est une valeur analogique plus proche de 20 mV que de 10 mV L’erreur de la valeur enregistrée dans l’ordinateur par rapport à la valeur réelle est : 10 – 18 = 2mV Si U = 34 mV, Plus le pas de quantification est faible, plus les valeurs numériques sont proches de la valeur analogique, meilleur sera la qualité du codage, mais plus le fichier occupera de la place en mémoire. 3) quantification du signal sur 8 bits On prendra l’exemple d’un information sonore analogique comprise entre 16 V et 0 V. Si l’information est codée sur 8 bits, 16 V correspond au nombre binaire : 1111 1111 et une tension de O V est convertit avec le nombre binaire 0000 0000. Q2 Calculer le nombre total de valeur numérique correspondant à 16 V. Q3 En déduire le pas de quantification. Q4 Calculer la valeur de tension correspondant aux nombres binaires suivants : 0000 0001 0000 1000 Q5 Si la tension vaut U = 0,050 V , quelle sera sa valeur numérique stockée sur l’ordinateur. Quelle sera l’erreur en mV de la tension numérisée par rapport à la tension réelle. 4) Codage sur 16 bits Pour plus de précision on code l’information sur 16 bits. La tension analogique sera numérisée avec pour valeur maximum : 1111 1111 1111 1111 Et pour valeur minimum 0000 0000 0000 0000 Q6 Calculer le nombre total de valeur numérique correspondant à 16 V. haute fidélité, il faut donc, échantillonner à la fréquence Fe = 2x22 = 44 kHz (44100). Taille d'un fichier d'une minute d'enregistrement en fonction de la fréquence Fréquence Quantification Taille en mono Taille en stéréo 11 kHz 8 bits 660 ko 1,32 Mo 11 kHz 16 bits 1,32 Mo 2,64 Mo 22 kHz 8 bits 1,32 Mo 2,64 Mo 22 kHz 16 bits 2,64 Mo 5,28 Mo 44 kHz 8 bits 2,64 Mo 5,28 Mo 44 kHz 16 bits 5,28 Mo 10,56 Mo 48 kHz 16 bits 5,76 Mo 11,52 Mo Q7 En déduire le pas de quantification. Q8 Calculer la valeur de tension correspondant aux nombres binaires suivants : 0000 0000 0000 0001 0000 0000 1000 0000 Q9 Si la tension vaut U = 0,050 V , quelle sera sa valeur numérique stockée sur l’ordinateur. Quelle sera l’erreur en mV de la tension numérisée par rapport à la tension réelle. Q10 Conclusion : vaut-il mieux coder une information numérique sur 8 bits ou sur 16 bits ? 5 ) La fréquence d'échantillonnage C’est une donnée essentielle pour la qualité du son numérique. Avec la quantification des échantillons, elle détermine non seulement la qualité de l'enregistrement, mais encore la place que le fichier audio occupe en mémoire. La fréquence d'échantillonnage s'exprime en hertz et détermine le nombre d'échantillons utilisés par seconde. Plus la qualité d'enregistrement est grande, plus le fichier audio occupe de l'espace. On peut coder l’information sur 8 bits ou sur 16 bits. Par exemple, l’information sonore analogique est comprise entre 12V et 0 V. Sur 8 bits le 12 V correspond au nombre binaire : 1111 1111 , une tension O V est convertit avec le nombre binaire 0000 0000. Q11 Calculer le nombre de valeurs numériques différentes que peut prendre Le 0 V correspond Sur 16 La différence entre une quantification sur 8 bits et une sur 16 bits n'est pas facilement perceptible pour une oreille humaine non exercée. En revanche la fréquence d'échantillonnage a des effets très sensibles. Ainsi une fréquence de 11 kHz (11025) se révèle suffisante pour l'enregistrement de la parole, mais elle ne convient pas pour la musique car cela revient à écouter une symphonie au téléphone. La haute fidélité propose de restituer les fréquences inférieures à 22 kHz. C'est en effet la limite de l'audible pour l'oreille humaine. Par ailleurs, l'échantillonnage est une perte d'information et Claude Shannon a démontré qu'un échantillonnage à la fréquence Fe restitue fidèlement les fréquences inférieures à Fe/2: Pour compresser de la musique en III) paramètres de la vidéo 1) nombre d’images par seconde (Fps) L'image par seconde est une unité de mesure correspondant au nombre d'images affichées en une seconde par un dispositif. Plus le nombre d'images est élevé, plus l'animation semble fluide. La persistance rétinienne a longtemps été proposée pour expliquer cet effet, mais elle est remise en cause. L'Effet phi est aujourd'hui considéré comme l'explication principale. En informatique, les termes anglais de Frame ou FPS (frame per second) sont couramment utilisés pour désigner le nombre d'images par seconde. Au cinéma, le nombre d'images par seconde, qui était au début de 16 ou 18 images par seconde, fut normalisé à 24. À la télévision, le système européen PAL (ou SÉCAM en France) est de 25 images par seconde. Aux États-Unis et au Japon, la norme NTSC est de 30 images par seconde. Si le nombre d'images par seconde au moment de la projection est supérieur à celui du tournage, on obtient un accéléré. À l'inverse, si le nombre d'images par seconde au moment de la projection est inférieur à celui du tournage, on obtient un ralenti. Q12 A partir des réglages fournit sur la photo n°1 combien d’images par seconde va contenir la vidéo ? 2) codec définition Un codec est un procédé capable de compresser et/ou de décompresser un signal numérique. Ce procédé peut être un circuit imprimé ou un logiciel. Le mot-valise « codec » vient de « compression-décompression » (ou « codage-décodage » - COde-DECode en anglais). D'un côté, les codecs encodent des flux ou des signaux pour la transmission, le stockage ou le chiffrement de données. D'un autre coté, ils décodent ces flux ou signaux pour édition ou restitution. Les différents algorithmes (programmes informatique de compression et de décompression peuvent correspondre à différents besoins : qualité de restitution temps de compression ou de décompression limitation en termes de ressource processeur ou mémoire de débit du flux après compression ou de taille du fichier résultant. Ils sont utilisés pour des applications comme la téléphonie, les visioconférences, la diffusion de médias sur Internet, le stockage sur CD, DVD, la télé numérique par exemple. Q13 Donner la définition d’un codec. A l’aide du logiciel citer les codec possibles lors de la fabrication d’une vidéo de format de sortie DVD (PAL) exemple de codec DivX est une marque déposée correspondant originellement à un codec vidéo propriétaire basé sur MPEG-4 proposé par DivX Inc. (anciennement DivXNetworks, Inc.), connu pour sa capacité à compresser de longs et gros (plusieurs gigaoctets) fichiers vidéo en fichiers bien plus légers (quelques centaines de mégaoctets). 3) norme et format conteneur Un format vidéo décrit comment un dispositif envoie des images d'une vidéo à un autre dispositif, de la même manière qu'un lecteur de DVD envoie des images à un téléviseur, ou un ordinateur à son moniteur. Plus formellement, le format visuel décrit l'ordre et la structure des images qui créent l'image vidéo. La norme décrit le format des données. Exemple de norme : MPEG-1 : première norme audio et vidéo utilisé plus tard pour les Vidéo CDs. Ce format offre une résolution à l’écran de 352 × 240 pixels à 30 images par seconde ou de 352 × 288 à 25 images par seconde avec un débit d’environ 1,5 Mbit/s. Elle comprend le populaire format audio MPEG-1 partie 3 audio couche 3 (MP3). MPEG-2 : norme applicable au codage de l’audio et la vidéo, ainsi que leur transport pour la télévision numérique : télévision numérique par satellite, télévision numérique par câble, télévision numérique terrestre, et (avec quelques restrictions) pour les vidéo-disques DVD ou SVCD. C’est notamment le format utilisé jusqu’à présent pour la TV sur ADSL. Les débits habituels sont de 2 à 6 Mbit/s pour la résolution standard (SD), et de 15 à 20 Mbit/s pour la haute résolution (HD) MPEG-4 : norme applicable aux bas débits (jusqu’à 2 Mbit/s), exclus de la matrice des décodeurs de MPEG-2. Permet, entre autres, de coder des objets vidéo/audio et le contenu 3D. exemple, MPEG-4 AVC/H.264 est une norme vidéo, et x264 est un codec capable de produire un flux vidéo respectant cette norme. Il existe d'autres codecs pour cette norme. Lorsqu'il n'existe qu'une seule implémentation, les termes codec et norme sont confondus (exemple : VC-1). Un format conteneur contient des flux audio et vidéo respectant une quelconque norme. Ce format permet d'entrelacer les données audio et vidéo, et contient les informations permettant de les synchroniser au moment de la restitution. Un conteneur peut contenir plusieurs flux audio et vidéo, mais aussi des sous-titres, du chapitrage et des menus. Exemples de format conteneur : AVI MPEG ASF Q14 le format de données des appareils photo numériques sont souvent le MP4. A l’aide du logiciel retrouver les codecs possibles pour ce format de données. Q15 retrouver à l’aide de la photo 1, les information suivantes : Format de données Codec audio Codec video 4) Débit binaire ou bit rate (ou bitrate) Le débit binaire (bitrate) mesure une quantité de données numériques transmises en bits par seconde (bit/s, b/s ou bps).A ne pas confondre avec byte (Byte/s, B/s ou Bps). Qui généralement vaut 8 bits donc un octet. Ses principaux multiples sont : le kilobit par seconde (symbole kbit/s ou kbps) équivalent à 1 024 bit/s ; le megabit par seconde (symbole Mbit/s ou Mbps) équivalent à 1 024 kbit/s ; le gigabit par seconde (symbole Gbit/s ou Gbps) équivalent à 1 024 Mbit/s ; plus la qualité d’une image est importante, plus sa taille en kilo octet est importante. Par conséquent plus la taille d’une image est importante plus le débit binaire doit être important. Lorsqu’on veut diffuser des vidéos sur internet il est nécessaire d’avoir des images de petites tailles qui nécessite un débit binaire faible. En effet votre accès internet est limité en débit binaire ! Si le débit binaire de la vidéo est trop importante par rapport au débit de votre accès internet l’image sera saccadée. Q16 déterminer le débit binaire afficher sur la photo n°1 Q17 comparer le débit binaire nécessaire pour produire de la vidéo en format DVD (PAL) ou en format FLV (format flash pour le web) avec la même taille d’image en pixel 720x576.Dans quel format de sortie les images tiennent-telles le plus de place sur un support (DVD disque dur etc…? IV) quelques formats de données particuliers 1) Flash Video Flash Video (de l'anglais signifiant littéralement « vidéo Flash »), couramment abrégé sous le sigle FLV, est un format de fichier utilisé sur Internet pour diffuser des vidéos via le lecteur Adobe Flash Player versions 6, 7, 8, 9 et 10, de manière à pouvoir l'incorporer aux animations Flash. Ce format est notamment utilisé par les sites de partage de vidéos sur Internet. C'est un format conteneur. Le codec vidéo est soit une variante du H.264, soit le codec VP6 de la société On2, soit encore une suite de captures écran. L'audio est soit non compressé (PCM, ADPCM) soit compressé en MP3. Ce format a été fortement utilisé par les sites de partage de vidéo en streaming qui avaient besoin de diffuser un flux vidéo important, comme Youtube ou Dailymotion. Il a comme avantage :de proposer un faible encombrement (lors de transferts sur le réseau, ou du côté serveur), Il a comme inconvénient : d'être dépendant de la bande passante à disposition de l'utilisateur. Ce format peut être lu dans le logiciel Flash Player . Quelques lecteurs qui permettent de lire le format comme un fichier vidéo classique (sans passer par Flash Player), qui sont gratuits et ont été développés par des informaticiens bénévoles : playerDIY flowplayer VLC media player RealPlayer 2) Digital Video Le format Digital Video, ou DV, est un format vidéo qui date de 1996 et qui permet d’enregistrer des vidéos sur des cassettes en numérique avec une faible compression pour chaque image. Ceci facilite le transfert direct de la vidéo vers un ordinateur pour ensuite l’éditer. Les cassettes DV existent en sept formats : DV, MiniDV, DVCAM, Digital8, DVCPRO, DVCPRO50 et DVCPRO HD. Elles enregistrent une vidéo numérique compressée grâce à une méthode DCT. L’image de résolution standard de 720 × 576 pixels (25 images/seconde) en PAL et 720 x 480 pixels (30 images/seconde) en NTSC intègre deux trames (les lignes paires composant une trames et les lignes impaires, l'autre trame) par image et est compressées en Jpeg. Le rapport d’aspect de l’image diffusée est de 4:3 ou 16:9 après anamorphose. 3) format AVI L'Audio Video Interleave ou AVI, « Imbrication Audio Vidéo », est un format de fichier conçu pour stocker des données audio et vidéo. C’est donc un un format conteneur qui permet la lecture simultanée de l'image et du son. Il a été présenté par Microsoft en novembre 1992.Dans un fichier AVI, chaque composante audio ou vidéo peut être compressée par n'importe quel codec. Le format DivX est souvent utilisé comme codec vidéo, et le format mp3 comme codec audio, mais d'autres codecs peuvent également être utilisés, par exemple XviD ou MPEG pour la vidéo, et mp2, WAV etc. pour l'audio. Le format AVI permet de réunir en un seul fichier une piste vidéo et jusqu'à 99 pistes audio, ce qui permet de bénéficier, par exemple, de plusieurs langues pour un même film.