Les qualités de l'audio numérique

Grâce à cette page, j'espère expliquer ce qu'on est en droit d'attendre en terme de qualité sonore d'un format de fichier audio.

La source

Les qualités de l'audio numérique 0 — Une vague, en 3 et 14 points

Imaginez une seul vague en mer coupée dans la tranche : Elle est basse à un endroit, haute à un autre, parfois plus ou moins... Il est possible d'enregistrer plein de mesures à plein d'endroits différents sur cette seule et même vague. Plus on prend de mesures, plus on pourrait redessiner cette vague à la perfection, et ainsi la diffuser, partager le dessin de son profil. Mais la quantité d'information alourdi considérablement le poids de votre fichier informatique.

Sur l'illustration on voit donc une vague parfaite. Puis une vague super moche, redessinée grace à 3 points de mesure. Et enfin une vague plutôt convaincante, redessinée grace à 14 points de mesure.

L'utilisateur (vous ?)

Un scientifique aura peut-être un intérêt à enregistrer de nombreux points. Un marin se satisfera de l'échelle de Douglas, de mer 0 à mer 9. Le vacancier se contentera d'un des 3 drapeaux sur la plage. Et moi je raconte à mes enfants que la mer, c'est le point 0 mètre, en oubliant carrément les marées. Nous avons tous une utilisation différente de cette même source, c'est pourquoi nous avons besoin d'une précision différente.

Appliqué à l'audio : un usager des transports en communs qui écoute un podcast politique sera moins exigeant qu'un audiophile écoutant la nouvelle interprétation d'une oeuvre majeure.

Deux familles de supports d'enregistrement

- l'analogique (ou physique) : les rouleaux de cire, les disques vinyls, les bandes magnétiques, etc. Formats tous largement dépassés aujourd'hui mais d'un grain audio irremplaçable, dont la forme physique et matériel définis l'enregistrement. Je ne vous en parlerais pas ici.

- le numérique : les ipods, les ordinateurs, les disques compacts (bien qu'ils soit physique, l'enregistrement y est numérique), etc. Tous dépendants d'un encodage plus ou moins dégradants, exprimé en format audio dont les extensions (ou suffixes) les plus connus sont le .MP3, le .WAV, le .M4A, etc.

Le numérique

Parce que le numérique à maintenant largement supplanté l'analogique, intéressons-nous seulement à cette famille. C'est aussi celle qui est le plus facile à quantifier et à qualifier.

Pour être enregistré sur un disque dur, une clé USB ou autre, une onde sonore physique, donc analogique, doit être converti dans un langage informatique facile à stocker (comme les points sur notre vague). On parle d'une conversion A/N (pour Analogique / Numérique).

Le fichier sera composé d'une quantité de valeurs pour chaque seconde de son, on parle "d'échantillonnage" ou de "fréquence d'échantillonnage", que l'on exprime en "Hz" ou en "kHz". C'est le nombre de points enregistrés chaque seconde sur l'onde sonore source : 44,1 kHz pour un CD audio représente 44 100 points enregistrés chaque seconde. 48 kHz dans l'audiovisuel c'est 48 000 points enregistrés chaque seconde. Imaginez que c'est un peu comme le nombre de mots qui composent la phase décrivant cette seconde.

Chaque point seront enregistrés avec plus ou moins de précision, on parle de "résolution" exprimée en "bits". Ce chiffre est divisible par 8 (c'est à dire en octet) : 16 bits = 2 x 8 bits ou 2 octets. Un échantillon pourrait donc ressembler à ça : "01100101 01001110". Imaginez que c'est un peu comme la taille de chacun de ces mots, du plus familier (8 bits) au plus savant (64 bits), du moins précis au plus subtile. 16 bits pour un CD audio, 24 bits dans l'audiovisuel, ...

Puis on multiplie par le nombre de pistes, de "canaux". Par exemple 1 canal (mono) pour une sonnerie de téléphone, 2 canaux (stéréo) pour un CD audio, et bien plus pour le multicanal (comme dans un cinéma).

Un studio d'enregistrement peut se permettre de stocker une quantité colossale de données, comprenant de nombreuses pistes, de multiples versions et dans une qualité sonore exceptionnelle. Un studio manipule généralement des fichiers en 96 kHz / 32 bits, soit un débit 4 fois supérieur au CD, 4 fois plus gros à stocker aussi.

Nos lecteurs de poche (smartphone par exemple), ont une capacité de stockage limité. C'est d'autant plus vrai que maintenant, les fichiers sont de moins en moins stockés dans l'appareil, mais passent leur temps à se promener sur le réseau internet ou téléphonique, en direct ; le streaming. Il faut donc minimiser la taille, pour ne pas saturer les réseaux.

Le format

Pour que tous les appareils se comprennent, il a été nécessaire de créer des formats audio, que l'on peut reconnaitre facilement par leur extension (ou suffixe). Chacun des formats ont été créé dans un but très précis.

Si l'on parle souvent de format "non compressé" (tel que le format wav ou l'aiff, par exemple), de compression "sans perte" ou "réversible" (le format flac, par exemple) ou de compression "avec perte" ou "irréversible" (le mp3, le m4u, le ogg, par exemple), aucun format ne peut se targuer de restituer parfaitement la qualité sonore de la source enregistrée. Car pour chacun d'entre eux, de très nombreux choix ont été fait par leurs inventeurs, pour simplifier le stockage.

Un exemple : L'oreille humaine ne percevant pas les sons trop grave (les infrasons, inférieurs à 20 Hertz) ni trop aigus (les ultrasons, supérieurs à 20 000 Hertz), il a été logiquement choisi de ne pas les enregistrer. On libère donc déjà de la place de stockage en n'enregistrant que les sons audibles. On ne garde que la bande passante comprise entre 20 et 20 000 Hz. Tous les formats sont concernés par ce choix.

Un autre exemple : Si certain format permettent une spatialistation grâce à un enregistrement en multicanal (4, 6, 10 pistes ou plus), que l'on trouve dans le cinéma par exemple, le choix d'un format stéréo est généralement fait, pour un album de musique par exemple, que l'on écoute au casque ou dans une voiture, avec nos oreilles droite et gauche. On réduit d'un facteur 2, 3, 5, ou plus, la taille de stockage.

Encore un exemple : Pour un podcast sur l'économie qui ne contient que de la voix, on va opter pour un format sans grave, sans aigu, avec une grande importance donnée aux fréquences de la voix, facile à stocker sur un petit lecteur de poche. On optera pour un format très compressé. On pourrait même opter pour du mono, et dans un débit faible.

La compression "sans perte" ou "réversible" (tel que le flac) simplifie modestement le fichier, il devient moins lourd, mais peux être désencoder. Pour imager simplement : l'encodage remplace tous les "aa" par "2a", les "aaa" par "3a", les "aaaa" par "4a". On gagne un peu de place et on est capable de reconvertir "4a" par "aaaa" lorsqu'on l'écoute. On désencode.

La compression "avec perte" ou "irréversible" (tel que le mp3) simplifie tellement le fichier source qu'il n'est pas possible de retourner en arrière. Pour imager simplement : l'encodage remplace tous les "aa", "aaa" et "aaaa" par des "a". On gagne beaucoup de place, mais on est incapable de dire si "a" veut dire "a", "aa", "aaa" ou "aaaa".

Pour notre podcast sur l'économie qui ne contient que de la voix, on optera pour le format MP3, parce qu'on se fiche pas mal de la précision du son.

Le débit

Une fois le format choisi on s'intéresse au "débit". C'est à dire la quantité de donnée par seconde. Il est exprimé en "kbps", c'est à dire en "kilo bits par seconde". En language informatique, c'est l'équivalent du nombre de millier de lettre que forme les données, chaque seconde.

Contrairement à un amateur, un professionnel ne s'intéresse pas au débit, mais à ce qui le compose. Il va donc choisir minutieusement la fréquence d'échantillonnage, la résolution et le nombre de canaux en fonction de son projet. En multipliant ces paramètres ont pourrait calculer le débit.

Donc, pour un CD audio, chaque seconde, il est traité 44 100 échantillons de 16 bits sur 2 canaux (stéréo), soit 1 411 200 bits par seconde, soit un débit de 1 411 kbps.

Pour un MP3, un amateur pourrait choisir un débit de 320 kbps, et tout est dit... Il existe aussi les débit variables, mais on va oublier ce détail :)

Autre exemple : Une norme en téléphonie, le G.711, a un échantillonnage de 8 000 Hz, un débit de 64 kbps et se permet même de ne garder que la bande passante du spectre sonore de la voix comprise entre 300 et 3 400 Hz ! Si on l'enregistrait dans ce format, une conversation de 1 minute pèserait 0,5 Mo !

Formules

Débit (en kbps) = Fréquence d'échantillonnage (en Hz) X Résolution (en bits) X Nbr de canaux (1 mono, 2 stéréo, etc.)

Poids (en Mo) = Débit (en kbps) X Durée (en seconde) / 8 (1 octets) / 1000 (1000 ko = 1 Mo)

Un détail : Avant 1998, on parlait de "kio" et non de "ko" où 1 kio = 1024 octets (puissance d'un nombre en base 2), en contradiction avec les normes en vigueur pour les autres unités. La normalisation CEI impose maintenant l'usage de la puissance d'un nombre en base 10 : 1 ko = 1000 octets. Plus d'infos ici.

Autre détail : Attention ici, je parle de "bits" (marqué d'un petit "b"). A ne pas confondre avec les "Bytes" (marqué d'un grand "B"), ce qui veux dire "Octets" en anglais, soir 8 fois moins ! Si on parlait d'un débit en "kBps" on ne diviserait pas par 8...

Exemple :
Un disque compact audio est enregistré en Wav, échantillonné en 44,1 kHz (ou 44 100 Hz soit 44 100 échantillons par seconde) de 16 bits chacun sur 2 canaux.
Soit 44 100 x 16 x 2 = 1 411 200 bits par seconde, soit un débit de 1 411 kilo bits par seconde (kb/s ou kbps).
Un disque de 60 minutes contient alors 5 080 320 000 bits / 8 = 635 040 000 Bytes, ou Octets (635 millions d'octets de 8 bits). Soit 635 Mo ! Une musique de 1 minute pèse alors 10,6 Mo. Voilà pourquoi un album sur CD audio ne contient qu'un peu plus d'1 heure de musique.

Résumons

Pour le CD audio :
Echantillonnage : 44 100 Hz
Résolution : 16 bits
Canaux : 2 (stéréo)
Débit : 1 411 kbps
Poids : 10,6 Mo/minute

Pour le meilleur MP3 :
Débit : 320 kbps
Poids : 1,44 Mo/minute

Verdict

Un MP3 d'un débit de 320 kbps (kilo bits par seconde) contient donc 320 000 bits par seconde de son. Bien moins que les 1 411 200 bits d'un CD audio.

Sur un aspect purement mathématique, la définition du son d'un MP3 est donc de 4,4 fois inférieure à celle d'un WAV. En réalité, c'est un poil plus difficile à qualifier en raison de la différence de compression de ces deux formats, le mp3 serait donc encore un peu moins bon, car très dégradé. Le MP3 est aussi un peu vicieux parce qu'un enregistement, même mono, est parfois enregistré sur 2 canaux, on ne divise donc pas toujours son poids pas 2. La même musique de 1 minute ne pèse plus que 1,44 Mo.

Le reste

Outre la qualité de l'enregistrement, de nombreux paramètres sont primordiaux dans l'écoute d'un son ; c'est un véritable nivellement par le bas (c'est à dire que c'est le moins bon de la chaine qui décide de la qualité de l'ensemble) :

- La source ; il faut une bonne source sonore.
- La chaîne d'enregistrement : c'est ce qui s'intercale entre la source et l'enregistreur : Microphones, câbles, électronique, etc.
- Le format ; dont on a parlé dans ce dossier.
- La chaîne d'écoute ; c'est ce qui s'intercale entre l'enregistrement et l'oreille de l'auditeur : Le qualité des composants du lecteur, de l'amplificateur, de la diffusion, la qualité des câbles, etc.
- L'auditeur ; c'est sa sensibilité

Premier exemple excessif : Tout peut être totalement parfait, si l'auditeur est sourd, c'est peine perdue. On nivelle par le bas = 0 !

Second exemple moins excessif : Si vous écoutez de la musique avec des oreillettes standard, depuis votre smartphone ; un MP3 suffira largement car le nivellement se faisant par le bas, c'est le smartphone et les écouteurs qui vont limiter la qualité d'écoute.

Troisième exemple : Si vous avez une chaine haute fidélité de qualité audiophile et qui vous à couté un rein, l'enregistrement sur dictaphone du groupe de musique du petit cousin de votre nièce ne sonnera jamais correctement.

Il faut bien comprendre que c'est l'élément (technique, ou pas) qui est le moins bon qui sera l'étalon de l'ensemble. Il faut donc rechercher à hausser la qualité de chacun des éléments les plus faibles pour tenter d'atteindre un système cohérent, équilibré de la source (la voix, le groupe, le bruitages, ...), jusqu'à l'écoute !

Ecoutez

Comparez donc le MP3 à 320 kbps que je vous propose, puis le 8 kbps. Vous devriez entendre une différence. Ou alors vous êtes sourd.

Il n'est donc pas difficile de comprendre qu'un fichier WAVE stéréo de 1 411 kbps est plus de 4 fois meilleur qu'un MP3 de 320 kbps.

MP3 en 320 kbps

MP3 en 8 kbps

Il s'agit de la musique "Nisi Dominus (Ellegro)", RV 608 de Vivaldi.

Conclusion

En matière de son, il n’existe pas de solution universelle : tout dépend de vos besoins, de vos attentes et du contexte d’écoute. Si le MP3 et les formats compressés ont permis de démocratiser l'accès à la musique en la rendant légère et facile à partager, ils ne peuvent rivaliser avec les formats non compressés ou sans perte, indispensables pour les audiophiles et les professionnels.

L’important est de comprendre que chaque format et chaque débit répond à une utilisation particulière : un podcast écouté dans les transports n’a pas les mêmes exigences qu’une symphonie sur une chaîne hi-fi haut de gamme. Ce dossier vous aura, je l’espère, permis de mieux saisir les compromis entre qualité et praticité, ainsi que les facteurs qui influencent l’expérience sonore.

Dans un monde où la technologie tend à privilégier la rapidité et la quantité sur la qualité, peut-être est-il temps de réévaluer nos choix. Après tout, prendre le temps d’écouter un son dans sa forme la plus pure, c’est aussi redécouvrir tout ce qui en fait sa richesse et son émotion.

Et vous, quel équilibre entre qualité et praticité choisissez-vous pour écouter vos sons préférés ?

♥ - Joseph SARDIN - Fondateur et Sonothécaire de BigSoundBank.com et LaSonotheque.org - Contact