Faire un don
Fichiers audio libres de droits et gratuits.
EN - FR
Logo du site LaSonotheque.org
Logo du site LaSonotheque.org
⚠️ LaSonothèque a du mal... elle a besoin de vous pour rester en vie ! Faites un (petit) don ⚠️
Tous les dossiers

Les qualités audio

Grâce à cette page, j'espère expliquer ce qu'on est en droit d'attendre en terme de qualité sonore d'un format de fichier audio.

La source

/dossiers/dossier-qualite_mp3/vague.jpg

Imaginez une seul vague en mer coupée dans la tranche : Elle est basse à un endroit, haute à un autre, parfois plus ou moins... Il est possible d'enregistrer plein de mesures à plein d'endroits différents sur cette seule et même vague. Plus on prend de mesures, plus on pourrait redessiner cette vague à la perfection, et ainsi la diffuser, partager le dessin de son profil. Mais la quantité d'information alourdi considérablement le poids de votre fichier informatique.

Sur l'illustration on voit donc une vague parfaite. Puis une vague super moche, redessinée grace à 3 points de mesure. Et enfin une vague plutôt convaincante, redessinée grace à 14 points de mesure.

L'utilisateur (vous ?)

Un scientifique aura peut-être un intérêt à enregistrer de nombreux points. Un marin se satisfera de l'échelle de Douglas, de mer 0 à mer 9. Le vacancier se contentera d'un des 3 drapeaux sur la plage. Et moi je raconte à mes enfants que la mer, c'est le point 0 mètre, en oubliant carrément les marées. Nous avons tous une utilisation différente de cette même source, c'est pourquoi nous avons besoin d'une précision différente.

Appliqué à l'audio : un usager des transports en communs qui écoute un podcast politique sera moins exigeant qu'un audiophile écoutant la nouvelle interprétation d'une oeuvre majeure.

Deux familles de supports d'enregistrement

- l'analogique (ou physique) : les rouleaux de cire, les disques vinyls, les bandes magnétiques, etc. Formats tous largement dépassés aujourd'hui mais d'un grain audio irremplaçable, dont la forme physique et matériel définis l'enregistrement. Je ne vous en parlerais pas ici.

- le numérique : les ipods, les ordinateurs, les disques compacts (bien qu'ils soit physique, l'enregistrement y est numérique), etc. Tous dépendants d'un encodage plus ou moins dégradants, exprimé en format audio dont les extensions (ou suffixes) les plus connus sont le .MP3, le .WAV, le .M4A, etc.

Le numérique

Parce que le numérique à maintenant largement supplanté l'analogique, intéressons-nous seulement à cette famille. C'est aussi celle qui est le plus facile à quantifier et à qualifier.

Pour être enregistré sur un disque dur, une clé USB ou autre, une onde sonore physique, donc analogique, doit être converti dans un langage informatique facile à stocker (comme les points sur notre vague). On parle d'une conversion A/N (pour Analogique / Numérique).

Le fichier sera composé d'une quantité de valeurs pour chaque seconde de son, on parle "d'échantillonnage" ou de "fréquence d'échantillonnage", que l'on exprime en "Hz" ou en "kHz". C'est le nombre de points enregistrés chaque seconde sur l'onde sonore source : 44,1 kHz pour un CD audio représente 44 100 points enregistrés chaque seconde. 48 kHz dans l'audiovisuel c'est 48 000 points enregistrés chaque seconde. Imaginez que c'est un peu comme le nombre de mots qui composent la phase décrivant cette seconde.

Chaque point seront enregistrés avec plus ou moins de précision, on parle de "résolution" exprimée en "bits". Ce chiffre est divisible par 8 (c'est à dire en octet) : 16 bits = 2 x 8 bits ou 2 octets. Un échantillon pourrait donc ressembler à ça : "01100101 01001110". Imaginez que c'est un peu comme la taille de chacun de ces mots, du plus familier (8 bits) au plus savant (64 bits), du moins précis au plus subtile. 16 bits pour un CD audio, 24 bits dans l'audiovisuel, ...

Puis on multiplie par le nombre de pistes, de "canaux". Par exemple 1 canal (mono) pour une sonnerie de téléphone, 2 canaux (stéréo) pour un CD audio, et bien plus pour le multicanal (comme dans un cinéma).

Un studio d'enregistrement peut se permettre de stocker une quantité colossale de données, comprenant de nombreuses pistes, de multiples versions et dans une qualité sonore exceptionnelle. Un studio manipule généralement des fichiers en 96 kHz / 32 bits, soit un débit 4 fois supérieur au CD, 4 fois plus gros à stocker aussi.

Nos lecteurs de poche (smartphone par exemple), ont une capacité de stockage limité. C'est d'autant plus vrai que maintenant, les fichiers sont de moins en moins stockés dans l'appareil, mais passent leur temps à se promener sur le réseau internet ou téléphonique, en direct ; le streaming. Il faut donc minimiser la taille, pour ne pas saturer les réseaux.

Le format

Pour que tous les appareils se comprennent, il a été nécessaire de créer des formats audio, que l'on peut reconnaitre facilement par leur extension (ou suffixe). Chacun des formats ont été créé dans un but très précis.

Si l'on parle souvent de format "non compressé" (tel que le format wav ou l'aiff, par exemple), de compression "sans perte" ou "réversible" (le format flac, par exemple) ou de compression "avec perte" ou "irréversible" (le mp3, le m4u, le ogg, par exemple), aucun format ne peut se targuer de restituer parfaitement la qualité sonore de la source enregistrée. Car pour chacun d'entre eux, de très nombreux choix ont été fait par leurs inventeurs, pour simplifier le stockage.

Un exemple : L'oreille humaine ne percevant pas les sons trop grave (les infrasons, inférieurs à 20 Hertz) ni trop aigus (les ultrasons, supérieurs à 20 000 Hertz), il a été logiquement choisi de ne pas les enregistrer. On libère donc déjà de la place de stockage en n'enregistrant que les sons audibles. On ne garde que la bande passante comprise entre 20 et 20 000 Hz. Tous les formats sont concernés par ce choix.

Un autre exemple : Si certain format permettent une spatialistation grâce à un enregistrement en multicanal (4, 6, 10 pistes ou plus), que l'on trouve dans le cinéma par exemple, le choix d'un format stéréo est généralement fait, pour un album de musique par exemple, que l'on écoute au casque ou dans une voiture, avec nos oreilles droite et gauche. On réduit d'un facteur 2, 3, 5, ou plus, la taille de stockage.

Encore un exemple : Pour un podcast sur l'économie qui ne contient que de la voix, on va opter pour un format sans grave, sans aigu, avec une grande importance donnée aux fréquences de la voix, facile à stocker sur un petit lecteur de poche. On optera pour un format très compressé. On pourrait même opter pour du mono, et dans un débit faible.

La compression "sans perte" ou "réversible" (tel que le flac) simplifie modestement le fichier, il devient moins lourd, mais peux être désencoder. Pour imager simplement : l'encodage remplace tous les "aa" par "2a", les "aaa" par "3a", les "aaaa" par "4a". On gagne un peu de place et on est capable de reconvertir "4a" par "aaaa" lorsqu'on l'écoute. On désencode.

La compression "avec perte" ou "irréversible" (tel que le mp3) simplifie tellement le fichier source qu'il n'est pas possible de retourner en arrière. Pour imager simplement : l'encodage remplace tous les "aa", "aaa" et "aaaa" par des "a". On gagne beaucoup de place, mais on est incapable de dire si "a" veut dire "a", "aa", "aaa" ou "aaaa".

Pour notre podcast sur l'économie qui ne contient que de la voix, on optera pour le format MP3, parce qu'on se fiche pas mal de la précision du son.

Le débit

Une fois le format choisi on s'intéresse au "débit". C'est à dire la quantité de donnée par seconde. Il est exprimé en "kbps", c'est à dire en "kilo bits par seconde". En language informatique, c'est l'équivalent du nombre de millier de lettre que forme les données, chaque seconde.

Contrairement à un amateur, un professionnel ne s'intéresse pas au débit, mais à ce qui le compose. Il va donc choisir minutieusement la fréquence d'échantillonnage, la résolution et le nombre de canaux en fonction de son projet. En multipliant ces paramètres ont pourrait calculer le débit.

Donc, pour un CD audio, chaque seconde, il est traité 44 100 échantillons de 16 bits sur 2 canaux (stéréo), soit 1 411 200 bits par seconde, soit un débit de 1 411 kbps.

Pour un MP3, un amateur pourrait choisir un débit de 320 kbps, et tout est dit... Il existe aussi les débit variables, mais on va oublier ce détail :)

Autre exemple : Une norme en téléphonie, le G.711, a un échantillonnage de 8 000 Hz, un débit de 64 kbps et se permet même de ne garder que la bande passante du spectre sonore de la voix comprise entre 300 et 3 400 Hz ! Si on l'enregistrait dans ce format, une conversation de 1 minute pèserait 0,5 Mo !

Formules

Débit (en kbps) = Fréquence d'échantillonnage (en Hz) X Résolution (en bits) X Nbr de canaux (1 mono, 2 stéréo, etc.)

Poids (en Mo) = Débit (en kbps) X Durée (en seconde) / 8 (1 octets) / 1000 (1000 ko = 1 Mo)

Un détail : Avant 1998, on parlait de "kio" et non de "ko" où 1 kio = 1024 octets (puissance d'un nombre en base 2), en contradiction avec les normes en vigueur pour les autres unités. La normalisation CEI impose maintenant l'usage de la puissance d'un nombre en base 10 : 1 ko = 1000 octets. Plus d'infos ici.

Autre détail : Attention ici, je parle de "bits" (marqué d'un petit "b"). A ne pas confondre avec les "Bytes" (marqué d'un grand "B"), ce qui veux dire "Octets" en anglais, soir 8 fois moins ! Si on parlait d'un débit en "kBps" on ne diviserait pas par 8...

Exemple :
Un disque compact audio est enregistré en Wav, échantillonné en 44,1 kHz (ou 44 100 Hz soit 44 100 échantillons par seconde) de 16 bits chacun sur 2 canaux.
Soit 44 100 x 16 x 2 = 1 411 200 bits par seconde, soit un débit de 1 411 kilo bits par seconde (kb/s ou kbps).
Un disque de 60 minutes contient alors 5 080 320 000 bits / 8 = 635 040 000 Bytes, ou Octets (635 millions d'octets de 8 bits). Soit 635 Mo ! Une musique de 1 minute pèse alors 10,6 Mo. Voilà pourquoi un album sur CD audio ne contient qu'un peu plus d'1 heure de musique.

Résumons

Pour le CD audio :
Echantillonnage : 44 100 Hz
Résolution : 16 bits
Canaux : 2 (stéréo)
Débit : 1 411 kbps
Poids : 10,6 Mo/minute

Pour le meilleur MP3 :
Débit : 320 kbps
Poids : 1,44 Mo/minute

Verdict

Un MP3 d'un débit de 320 kbps (kilo bits par seconde) contient donc 320 000 bits par seconde de son. Bien moins que les 1 411 200 bits d'un CD audio.

Sur un aspect purement mathématique, la définition du son d'un MP3 est donc de 4,4 fois inférieure à celle d'un WAV. En réalité, c'est un poil plus difficile à qualifier en raison de la différence de compression de ces deux formats, le mp3 serait donc encore un peu moins bon, car très dégradé. Le MP3 est aussi un peu vicieux parce qu'un enregistement, même mono, est parfois enregistré sur 2 canaux, on ne divise donc pas toujours son poids pas 2. La même musique de 1 minute ne pèse plus que 1,44 Mo.

Le reste

Outre la qualité de l'enregistrement, de nombreux paramètres sont primordiaux dans l'écoute d'un son ; c'est un véritable nivellement par le bas (c'est à dire que c'est le moins bon de la chaine qui décide de la qualité de l'ensemble) :

- La source ; il faut une bonne source sonore.
- La chaîne d'enregistrement : c'est ce qui s'intercale entre la source et l'enregistreur : Microphones, câbles, électronique, etc.
- Le format ; dont on a parlé dans ce dossier.
- La chaîne d'écoute ; c'est ce qui s'intercale entre l'enregistrement et l'oreille de l'auditeur : Le qualité des composants du lecteur, de l'amplificateur, de la diffusion, la qualité des câbles, etc.
- L'auditeur ; c'est sa sensibilité

Premier exemple excessif : Tout peut être totalement parfait, si l'auditeur est sourd, c'est peine perdue. On nivelle par le bas = 0 !

Second exemple moins excessif : Si vous écoutez de la musique avec des oreillettes standard, depuis votre smartphone ; un MP3 suffira largement car le nivellement se faisant par le bas, c'est le smartphone et les écouteurs qui vont limiter la qualité d'écoute.

Troisième exemple : Si vous avez une chaine haute fidélité de qualité audiophile et qui vous à couté un rein, l'enregistrement sur dictaphone du groupe de musique du petit cousin de votre nièce ne sonnera jamais correctement.

Il faut bien comprendre que c'est l'élément (technique, ou pas) qui est le moins bon qui sera l'étalon de l'ensemble. Il faut donc rechercher à hausser la qualité de chacun des éléments les plus faibles pour tenter d'atteindre un système cohérent, équilibré de la source (la voix, le groupe, le bruitages, ...), jusqu'à l'écoute !

Ecoutez

Comparez donc le MP3 à 320 kbps que je vous propose, puis le 8 kbps. Vous devriez entendre une différence. Ou alors vous êtes sourd.

Il n'est donc pas difficile de comprendre qu'un fichier WAVE stéréo de 1 411 kbps est plus de 4 fois meilleur qu'un MP3 de 320 kbps.

MP3 en 320 kbps

MP3 en 8 kbps

Il s'agit de la musique "Nisi Dominus (Ellegro)", RV 608 de Vivaldi.

Conclusion

Pour un audiophile, il est incompréhensible qu'il soit maintenant à la mode d'écouter sur internet des musiques compressées irrémédiablement. Le MP3 (et autre OGG, AAC, etc.) sont les pires supports audio de tous les temps...

Dans l'idéal, il faudrait :
- une source de qualité,
- enregistrée dans un bon studio et dans les rêgles de l'art,
- sur un support et dans un format sans perte,
- sur une chaine audio de grand qualité,
- ecoutée par des oreilles expertes,
- appréciée par des cerveaux attentifs et cultivés...

Et comme le monde est imparfait, nous avons :
- n'importe quoi,
- enregistré n'importe où et n'importe comment,
- sur un support et dans un format catastrophique,
- sur une chaine audio déplorable,
- capté par des oreilles déglinguées,
- entendu par des cerveaux distraits et sans esprits critiques...

Certain iront même jusqu'à dire que c'est aussi vrai dans le son que dans la vidéo, la photographie, le cinéma, la littérature, le journalisme, l'éducation, la politique, ainsi que dans tous les autres domaines... Et si vous avez su lire ce dossier jusqu'au bout, c'est que vous êtes probablement d'accord avec ça :)

- Joseph SARDIN - Fondateur et Sonothécaire de BigSoundBank.com et LaSonotheque.org - Contact

Notez, Commentez !


Commentaires


Franchement, très bon article, un poil de technique avec une petite note d'humour, je valide ;-)

Ah enfin ! quelqu'un qui sait de quoi il parle, sur un sujet laissé à l'abandon depuis des années. Je suis un ancien dj des années 70-80 et j'ai tendance à reprendre mes vieux vinyles pour les transformer en mp3, mais pas n'importe comment cars j'utilise adobe audition qui est une machine de guerre pour ce genre d'opération et effectivement mes mp3 sont enregistrés en 44 100 hz à 320 kbps et vraiment je ne suis pas déçu. Merci à Joseph Sardin pour toutes ces explications et les détails. Jean-Louis

Par contre rien sur le wav qui est pour moi la meilleure qualité audio n’ayant subit aucune compression…
Si, je parle du wav. - Joseph SARDIN

Texte complet et instructif, même quand on croit connaitre le sujet. Merci !

Le problème c'est justement que le monde est imparfait et surtout celui qui va écouter sa musique, il faudra déja que son audition soit parfaite, et comme l'audition baisse inévitablement depuis l'enfance, c'est fulgurant même en prenant toute les préoccupations possible, on perd des fréquences et des db en vieillissant, c'est physiologique, et on n'a pas besoin d'attendre 50 ans pour les perdre, très loin de la, un jeune homme de 20 ans en a perdu déjà pas mal par rapport a un enfant de 5 ans. Deuxièmement le client final ne peut pas modifier la qualité d'enregistrement de base au studio et du support original, et bien souvent suivant le type de musique et artiste, ce n'est pas fameux du tout même sur cd original. Donc même en écoutant ta musique en qualité studio, la qualité ne sera pas terrible voire même plus dégradé que sur du mp3 320. Un système hifi qui ne pardonne pas te donnera une vrai catastrophe avec du souffle et autres désagréments au final que tu n'auras même pas. Le mp3 320, c'est au final largement suffisant surtout si on écoute de tout comme genre et je ne parle pas de streaming, aujourd'hui on a largement les capacités de disque dur et même sur smartphone avec micro sd 2 to par exemple qui existe en 2024 pour pouvoir tout stocker en interne. Pour avoir entendu de la musique (classique, etc) sur du matériel coutant prêt de 500000-1 million euros pendant des heures et des casques audio de plusieurs milliers d'euros dans des showrooms spécifique grâce a des connaissances, on en revient beaucoup au final car sinon il faut écouter qu'un nombre très restreint de type de musique et support, et encore, bien souvent ce n'est même pas suffisant. Vaut mieux un système qui pardonne un peu au final car le temps passe. Chacun voit midi a sa porte et fait ce qu'il veut au final.

Découpez suivant les pointillés