Les qualités de l'audio numérique

Grâce à cette page, j'espère expliquer ce qu'on est en droit d'attendre en terme de qualité sonore d'un format de fichier audio.

La source

/dossiers/dossier-2/vague.jpg

Imaginez une seul vague en mer coupée dans la tranche : Elle est basse à un endroit, haute à un autre, parfois plus ou moins... Il est possible d'enregistrer plein de mesures à plein d'endroits différents sur cette seule et même vague. Plus on prend de mesures, plus on pourrait redessiner cette vague à la perfection, et ainsi la diffuser, partager le dessin de son profil. Mais la quantité d'information alourdi considérablement le poids de votre fichier informatique.

Sur l'illustration on voit donc une vague parfaite. Puis une vague super moche, redessinée grace à 3 points de mesure. Et enfin une vague plutôt convaincante, redessinée grace à 14 points de mesure.

L'utilisateur (vous ?)

Un scientifique aura peut-être un intérêt à enregistrer de nombreux points. Un marin se satisfera de l'échelle de Douglas, de mer 0 à mer 9. Le vacancier se contentera d'un des 3 drapeaux sur la plage. Et moi je raconte à mes enfants que la mer, c'est le point 0 mètre, en oubliant carrément les marées. Nous avons tous une utilisation différente de cette même source, c'est pourquoi nous avons besoin d'une précision différente.

Appliqué à l'audio : un usager des transports en communs qui écoute un podcast politique sera moins exigeant qu'un audiophile écoutant la nouvelle interprétation d'une oeuvre majeure.

Deux familles de supports d'enregistrement

- l'analogique (ou physique) : les rouleaux de cire, les disques vinyls, les bandes magnétiques, etc. Formats tous largement dépassés aujourd'hui mais d'un grain audio irremplaçable, dont la forme physique et matériel définis l'enregistrement. Je ne vous en parlerais pas ici.

- le numérique : les ipods, les ordinateurs, les disques compacts (bien qu'ils soit physique, l'enregistrement y est numérique), etc. Tous dépendants d'un encodage plus ou moins dégradants, exprimé en format audio dont les extensions (ou suffixes) les plus connus sont le .MP3, le .WAV, le .M4A, etc.

Le numérique

Parce que le numérique à maintenant largement supplanté l'analogique, intéressons-nous seulement à cette famille. C'est aussi celle qui est le plus facile à quantifier et à qualifier.

Pour être enregistré sur un disque dur, une clé USB ou autre, une onde sonore physique, donc analogique, doit être converti dans un langage informatique facile à stocker (comme les points sur notre vague). On parle d'une conversion A/N (pour Analogique / Numérique).

Le fichier sera composé d'une quantité de valeurs pour chaque seconde de son, on parle "d'échantillonnage" ou de "fréquence d'échantillonnage", que l'on exprime en "Hz" ou en "kHz". C'est le nombre de points enregistrés chaque seconde sur l'onde sonore source : 44,1 kHz pour un CD audio représente 44 100 points enregistrés chaque seconde. 48 kHz dans l'audiovisuel c'est 48 000 points enregistrés chaque seconde. Imaginez que c'est un peu comme le nombre de mots qui composent la phase décrivant cette seconde.

Chaque point seront enregistrés avec plus ou moins de précision, on parle de "résolution" exprimée en "bits". Ce chiffre est divisible par 8 (c'est à dire en octet) : 16 bits = 2 x 8 bits ou 2 octets. Un échantillon pourrait donc ressembler à ça : "01100101 01001110". Imaginez que c'est un peu comme la taille de chacun de ces mots, du plus familier (8 bits) au plus savant (64 bits), du moins précis au plus subtile. 16 bits pour un CD audio, 24 bits dans l'audiovisuel, ...

Puis on multiplie par le nombre de pistes, de "canaux". Par exemple 1 canal (mono) pour une sonnerie de téléphone, 2 canaux (stéréo) pour un CD audio, et bien plus pour le multicanal (comme dans un cinéma).

Un studio d'enregistrement peut se permettre de stocker une quantité colossale de données, comprenant de nombreuses pistes, de multiples versions et dans une qualité sonore exceptionnelle. Un studio manipule généralement des fichiers en 96 kHz / 32 bits, soit un débit 4 fois supérieur au CD, 4 fois plus gros à stocker aussi.

Nos lecteurs de poche (smartphone par exemple), ont une capacité de stockage limité. C'est d'autant plus vrai que maintenant, les fichiers sont de moins en moins stockés dans l'appareil, mais passent leur temps à se promener sur le réseau internet ou téléphonique, en direct ; le streaming. Il faut donc minimiser la taille, pour ne pas saturer les réseaux.

Le format

Pour que tous les appareils se comprennent, il a été nécessaire de créer des formats audio, que l'on peut reconnaitre facilement par leur extension (ou suffixe). Chacun des formats ont été créé dans un but très précis.

Si l'on parle souvent de format "non compressé" (tel que le format wav ou l'aiff, par exemple), de compression "sans perte" ou "réversible" (le format flac, par exemple) ou de compression "avec perte" ou "irréversible" (le mp3, le m4u, le ogg, par exemple), aucun format ne peut se targuer de restituer parfaitement la qualité sonore de la source enregistrée. Car pour chacun d'entre eux, de très nombreux choix ont été fait par leurs inventeurs, pour simplifier le stockage.

Un exemple : L'oreille humaine ne percevant pas les sons trop grave (les infrasons, inférieurs à 20 Hertz) ni trop aigus (les ultrasons, supérieurs à 20 000 Hertz), il a été logiquement choisi de ne pas les enregistrer. On libère donc déjà de la place de stockage en n'enregistrant que les sons audibles. On ne garde que la bande passante comprise entre 20 et 20 000 Hz. Tous les formats sont concernés par ce choix.

Un autre exemple : Si certain format permettent une spatialistation grâce à un enregistrement en multicanal (4, 6, 10 pistes ou plus), que l'on trouve dans le cinéma par exemple, le choix d'un format stéréo est généralement fait, pour un album de musique par exemple, que l'on écoute au casque ou dans une voiture, avec nos oreilles droite et gauche. On réduit d'un facteur 2, 3, 5, ou plus, la taille de stockage.

Encore un exemple : Pour un podcast sur l'économie qui ne contient que de la voix, on va opter pour un format sans grave, sans aigu, avec une grande importance donnée aux fréquences de la voix, facile à stocker sur un petit lecteur de poche. On optera pour un format très compressé. On pourrait même opter pour du mono, et dans un débit faible.

La compression "sans perte" ou "réversible" (tel que le flac) simplifie modestement le fichier, il devient moins lourd, mais peux être désencoder. Pour imager simplement : l'encodage remplace tous les "aa" par "2a", les "aaa" par "3a", les "aaaa" par "4a". On gagne un peu de place et on est capable de reconvertir "4a" par "aaaa" lorsqu'on l'écoute. On désencode.

La compression "avec perte" ou "irréversible" (tel que le mp3) simplifie tellement le fichier source qu'il n'est pas possible de retourner en arrière. Pour imager simplement : l'encodage remplace tous les "aa", "aaa" et "aaaa" par des "a". On gagne beaucoup de place, mais on est incapable de dire si "a" veut dire "a", "aa", "aaa" ou "aaaa".

Pour notre podcast sur l'économie qui ne contient que de la voix, on optera pour le format MP3, parce qu'on se fiche pas mal de la précision du son.

Le débit

Une fois le format choisi on s'intéresse au "débit". C'est à dire la quantité de donnée par seconde. Il est exprimé en "kbps", c'est à dire en "kilo bits par seconde". En language informatique, c'est l'équivalent du nombre de millier de lettre que forme les données, chaque seconde.

Contrairement à un amateur, un professionnel ne s'intéresse pas au débit, mais à ce qui le compose. Il va donc choisir minutieusement la fréquence d'échantillonnage, la résolution et le nombre de canaux en fonction de son projet. En multipliant ces paramètres ont pourrait calculer le débit.

Donc, pour un CD audio, chaque seconde, il est traité 44 100 échantillons de 16 bits sur 2 canaux (stéréo), soit 1 411 200 bits par seconde, soit un débit de 1 411 kbps.

Pour un MP3, un amateur pourrait choisir un débit de 320 kbps, et tout est dit... Il existe aussi les débit variables, mais on va oublier ce détail :)

Autre exemple : Une norme en téléphonie, le G.711, a un échantillonnage de 8 000 Hz, un débit de 64 kbps et se permet même de ne garder que la bande passante du spectre sonore de la voix comprise entre 300 et 3 400 Hz ! Si on l'enregistrait dans ce format, une conversation de 1 minute pèserait 0,5 Mo !

Formules

Débit (en kbps) = Fréquence d'échantillonnage (en Hz) X Résolution (en bits) X Nbr de canaux (1 mono, 2 stéréo, etc.)

Poids (en Mo) = Débit (en kbps) X Durée (en seconde) / 8 (1 octets) / 1000 (1000 ko = 1 Mo)

Un détail : Avant 1998, on parlait de "kio" et non de "ko" où 1 kio = 1024 octets (puissance d'un nombre en base 2), en contradiction avec les normes en vigueur pour les autres unités. La normalisation CEI impose maintenant l'usage de la puissance d'un nombre en base 10 : 1 ko = 1000 octets. Plus d'infos ici.

Autre détail : Attention ici, je parle de "bits" (marqué d'un petit "b"). A ne pas confondre avec les "Bytes" (marqué d'un grand "B"), ce qui veux dire "Octets" en anglais, soir 8 fois moins ! Si on parlait d'un débit en "kBps" on ne diviserait pas par 8...

Exemple :
Un disque compact audio est enregistré en Wav, échantillonné en 44,1 kHz (ou 44 100 Hz soit 44 100 échantillons par seconde) de 16 bits chacun sur 2 canaux.
Soit 44 100 x 16 x 2 = 1 411 200 bits par seconde, soit un débit de 1 411 kilo bits par seconde (kb/s ou kbps).
Un disque de 60 minutes contient alors 5 080 320 000 bits / 8 = 635 040 000 Bytes, ou Octets (635 millions d'octets de 8 bits). Soit 635 Mo ! Une musique de 1 minute pèse alors 10,6 Mo. Voilà pourquoi un album sur CD audio ne contient qu'un peu plus d'1 heure de musique.

Résumons

Pour le CD audio :
Echantillonnage : 44 100 Hz
Résolution : 16 bits
Canaux : 2 (stéréo)
Débit : 1 411 kbps
Poids : 10,6 Mo/minute

Pour le meilleur MP3 :
Débit : 320 kbps
Poids : 1,44 Mo/minute

Verdict

Un MP3 d'un débit de 320 kbps (kilo bits par seconde) contient donc 320 000 bits par seconde de son. Bien moins que les 1 411 200 bits d'un CD audio.

Sur un aspect purement mathématique, la définition du son d'un MP3 est donc de 4,4 fois inférieure à celle d'un WAV. En réalité, c'est un poil plus difficile à qualifier en raison de la différence de compression de ces deux formats, le mp3 serait donc encore un peu moins bon, car très dégradé. Le MP3 est aussi un peu vicieux parce qu'un enregistement, même mono, est parfois enregistré sur 2 canaux, on ne divise donc pas toujours son poids pas 2. La même musique de 1 minute ne pèse plus que 1,44 Mo.

Le reste

Outre la qualité de l'enregistrement, de nombreux paramètres sont primordiaux dans l'écoute d'un son ; c'est un véritable nivellement par le bas (c'est à dire que c'est le moins bon de la chaine qui décide de la qualité de l'ensemble) :

- La source ; il faut une bonne source sonore.
- La chaîne d'enregistrement : c'est ce qui s'intercale entre la source et l'enregistreur : Microphones, câbles, électronique, etc.
- Le format ; dont on a parlé dans ce dossier.
- La chaîne d'écoute ; c'est ce qui s'intercale entre l'enregistrement et l'oreille de l'auditeur : Le qualité des composants du lecteur, de l'amplificateur, de la diffusion, la qualité des câbles, etc.
- L'auditeur ; c'est sa sensibilité

Premier exemple excessif : Tout peut être totalement parfait, si l'auditeur est sourd, c'est peine perdue. On nivelle par le bas = 0 !

Second exemple moins excessif : Si vous écoutez de la musique avec des oreillettes standard, depuis votre smartphone ; un MP3 suffira largement car le nivellement se faisant par le bas, c'est le smartphone et les écouteurs qui vont limiter la qualité d'écoute.

Troisième exemple : Si vous avez une chaine haute fidélité de qualité audiophile et qui vous à couté un rein, l'enregistrement sur dictaphone du groupe de musique du petit cousin de votre nièce ne sonnera jamais correctement.

Il faut bien comprendre que c'est l'élément (technique, ou pas) qui est le moins bon qui sera l'étalon de l'ensemble. Il faut donc rechercher à hausser la qualité de chacun des éléments les plus faibles pour tenter d'atteindre un système cohérent, équilibré de la source (la voix, le groupe, le bruitages, ...), jusqu'à l'écoute !

Ecoutez

Comparez donc le MP3 à 320 kbps que je vous propose, puis le 8 kbps. Vous devriez entendre une différence. Ou alors vous êtes sourd.

Il n'est donc pas difficile de comprendre qu'un fichier WAVE stéréo de 1 411 kbps est plus de 4 fois meilleur qu'un MP3 de 320 kbps.

MP3 en 320 kbps

MP3 en 8 kbps

Il s'agit de la musique "Nisi Dominus (Ellegro)", RV 608 de Vivaldi.

Conclusion

En matière de son, il n’existe pas de solution universelle : tout dépend de vos besoins, de vos attentes et du contexte d’écoute. Si le MP3 et les formats compressés ont permis de démocratiser l'accès à la musique en la rendant légère et facile à partager, ils ne peuvent rivaliser avec les formats non compressés ou sans perte, indispensables pour les audiophiles et les professionnels.

L’important est de comprendre que chaque format et chaque débit répond à une utilisation particulière : un podcast écouté dans les transports n’a pas les mêmes exigences qu’une symphonie sur une chaîne hi-fi haut de gamme. Ce dossier vous aura, je l’espère, permis de mieux saisir les compromis entre qualité et praticité, ainsi que les facteurs qui influencent l’expérience sonore.

Dans un monde où la technologie tend à privilégier la rapidité et la quantité sur la qualité, peut-être est-il temps de réévaluer nos choix. Après tout, prendre le temps d’écouter un son dans sa forme la plus pure, c’est aussi redécouvrir tout ce qui en fait sa richesse et son émotion.

Et vous, quel équilibre entre qualité et praticité choisissez-vous pour écouter vos sons préférés ?

♥ - Joseph SARDIN - Fondateur et Sonothécaire de BigSoundBank.com et LaSonotheque.org - Contact

Commentaires

Très bon article Joseph !
Très bons commentaires également, sauf un (les cons ça ose tout, c'est d'ailleurs à ça qu'on les reconnaît...)
Tout l'ensemble est facile à comprendre : Merci !

Joseph SARDIN vous répond :
Merci :)

C'est de la merde :)

L'article est très bien écrit mais quelques imprécisions/omissions me gênent, donc voici quelques suggestions pour améliorer l'article :

- Comparer un mp3 8kbps puis 320kbps pour ensuite conclure que le WAV est 4x mieux qu'un mp3 320kbps crée de la confusion en plus d'être faux. Le mp3 et le AAC sont des codecs perceptuels. Ils ne font pas que détruire des informations du lossless, mais leur principe est de créer un nouvel audio qui "sonne" pareil mais encodé par rapport au cerveau humain pour donner la sensation de totale transparence.
Utiliser un mp3 en 320kbps est bien au delà du seuil de transparence pour le modèle, et passer sur du lossless donnera au mieux 0.1% de sensation de transparence en plus (et uniquement sur des morceaux connus parfaitement en écoute comparative) et la majorité des gens (99,9999%) ne pourront jamais faire la différence à ce niveau de bitrate. Il est important aussi de mentionner que même si le mp3 est toujours très populaire, d'un point de vue technique il a été succédé par le mp4 (AAC) depuis bien longtemps et le modèle perceptuel du AAC est bien meilleur et se contente de bien moins de données pour donner le même résultat. Le AAC est considéré transparent avec l'encodeur Apple à partir de 64kbps par canal (donc 128kbps pour du stéréo), et donc à partir de ce seuil il devient difficile de le mettre à défaut surtout avec du VBR avec l'encodeur Apple.

- Par rapport à la qualité de la source il faut aussi mentionner qu'il y a un vrai manque de connaissance et beaucoup de gens qui pense qu'il est possible d'améliorer la qualité des fichiers en convertissant vers un conteneur plus grand. Par exemple télécharger des musiques sur YouTube en mp3 320kbps est extrêmement populaire sauf que le hic c'est que YouTube ne propose sur des serveurs que réellement des AAC128 ou du OPUS128 donc ceux qui font ça ont un énorme mp3 320 qui sonne théoriquement pareil ou moins bien que du AAC128/OPUS128. D'ailleurs les upload vers YouTube notamment du contenu amateur sont eux mêmes faits en lossy bien souvent, ce qui fait que dans ce processus, il y a eu au moins 3 conversions avec pertes. Si on s'assure par contre d'avoir archivé que du FLAC puis en convertissant soi même vers le format lossy de son choix, on s'assure de la qualité de manière très consistante.

- Dommage de pas avoir fait de parallèles avec l'analogique et le vinyle qui s'use au fil du temps. Les audiophiles raffolent de ce format qui pourtant est bien moins quali et consistant qu'un CD ou qu'un AAC lossy bien encodé avec le bon encodeur bien configuré. Les codecs lossy sont si bons que la majorité des artéfacts sont en réalité aussi présents dans le support CD d'origine, et ce qui rend fou les audiophiles est bien plus la FOMO (Fear Of Missing Out) qu'une réelle qualité déplaisante à l'écoute (à condition encore une fois d'encoder correctement avec les bons outils et un bon bitrate recommandé et raisonnable, car effectivement, un mp3 8kbit sera toujours horriblement dégueulasse).

- Dommage de mettre le focus autant sur le mp3 alors que le mp4 (aac) est son successeur direct, le mp3 date des années 90 et ne devrait plus du tout être utilisé sauf à avoir besoin de garder la compatibilité avec de très vieux baladeurs.

- Les codecs lossy trompent le cerveau à la manière des illusions d'optiques. Le cerveau ne traite pas l'information de manière numérique et mathématique, et toute l'ingénierie des codecs est d'avoir un modèle perceptuel qui va le tromper avec le moins de données possible pour le tromper de manière totale. Les nouveaux codecs comme le OPUS y parviennent de manière assez convaincante avec juste 32kbps/canal, mais la transparence sérieuse requiert toujours environ 128kbps avec VBR recommandé même sur les formats modernes. Pour l'égo on voudrait tous se dire qu'on a les oreilles d'or qui permettent même de distinguer facilement du AAC256 VBR à du lossless voire même de distinguer le CD du High-res mais la réalité est que des études ont prouvé que plus les gens claquaient des sommes folles à monter un setup audiophile, moins ils étaient capables de distinguer le bon lossy du lossless dans les faits. Ça donne à réfléchir sur le snobisme et sur le fait qu'on entende aussi ce que l'on veut/s'attend à entendre. C'est assez logique d'une certaine façon de se penser capable de reconnaitre la qualité à ce point, car sinon ce serait admettre aux yeux du monde d'avoir dépenser des milliers d'euros de manière complètement irréfléchie et irrationnelle.

- Je pense qu'une partie des artistes fait des tests également avec du AAC/MP3 en fin de production et donc utiliser un format lossy moderne permet certainement d'écouter pas mal de musique dans des conditions validées et testées par l'artiste. Je mentionnerais que certains artistes ont carrément l'irrespect d'uploader du mp3 (sous forme de faux FLAC) sur les plateformes de streaming ou même sur des CDs audio (en analysant le spectre du PCM du CD audio, analyse qui prouve que les hauts fréquences ont été coupées ce qui est caractéristique du mp3). Du coup parfois on s'auto-convainc d'écouter du FLAC/lossless alors que c'est juste un mp3 bien compressé et normalement on ressent pas la moindre gêne car c'est nickel.

Joseph SARDIN vous répond :
Merci pour ces importantes précisions et suggestions. Je vais avoir du mal à les intégrer de ce pas, je laisse donc votre commentaire avec plaisir.

Franchement, très bon article, un poil de technique avec une petite note d'humour, je valide ;-)

Ah enfin ! quelqu'un qui sait de quoi il parle, sur un sujet laissé à l'abandon depuis des années. Je suis un ancien dj des années 70-80 et j'ai tendance à reprendre mes vieux vinyles pour les transformer en mp3, mais pas n'importe comment cars j'utilise adobe audition qui est une machine de guerre pour ce genre d'opération et effectivement mes mp3 sont enregistrés en 44 100 hz à 320 kbps et vraiment je ne suis pas déçu. Merci à Joseph Sardin pour toutes ces explications et les détails. Jean-Louis

Voir les 3 autres commentaires

Par contre rien sur le wav qui est pour moi la meilleure qualité audio n’ayant subit aucune compression…

Joseph SARDIN vous répond :
Si, je parle du wav.

Texte complet et instructif, même quand on croit connaitre le sujet. Merci !

Le problème c'est justement que le monde est imparfait et surtout celui qui va écouter sa musique, il faudra déja que son audition soit parfaite, et comme l'audition baisse inévitablement depuis l'enfance, c'est fulgurant même en prenant toute les préoccupations possible, on perd des fréquences et des db en vieillissant, c'est physiologique, et on n'a pas besoin d'attendre 50 ans pour les perdre, très loin de la, un jeune homme de 20 ans en a perdu déjà pas mal par rapport a un enfant de 5 ans. Deuxièmement le client final ne peut pas modifier la qualité d'enregistrement de base au studio et du support original, et bien souvent suivant le type de musique et artiste, ce n'est pas fameux du tout même sur cd original. Donc même en écoutant ta musique en qualité studio, la qualité ne sera pas terrible voire même plus dégradé que sur du mp3 320. Un système hifi qui ne pardonne pas te donnera une vrai catastrophe avec du souffle et autres désagréments au final que tu n'auras même pas. Le mp3 320, c'est au final largement suffisant surtout si on écoute de tout comme genre et je ne parle pas de streaming, aujourd'hui on a largement les capacités de disque dur et même sur smartphone avec micro sd 2 to par exemple qui existe en 2024 pour pouvoir tout stocker en interne. Pour avoir entendu de la musique (classique, etc) sur du matériel coutant prêt de 500000-1 million euros pendant des heures et des casques audio de plusieurs milliers d'euros dans des showrooms spécifique grâce a des connaissances, on en revient beaucoup au final car sinon il faut écouter qu'un nombre très restreint de type de musique et support, et encore, bien souvent ce n'est même pas suffisant. Vaut mieux un système qui pardonne un peu au final car le temps passe. Chacun voit midi a sa porte et fait ce qu'il veut au final.