PayPal, le réflexe sécurité pour payer en ligne
Fichiers audio libres de droits et gratuits.
Drapeau Anglais
English - Français
Logo du site LaSonotheque.org Logo du site LaSonotheque.org
ciseaux

Les Dossiers
Les qualités audio

Grâce à cette page, j'espère expliquer ce qu'on est en droit d'attendre en terme de qualité sonore d'un format de fichier audio.

La source

Une onde sonore (physique) est parfaitement définie. Imaginez une seul vague en mer coupée dans la tranche : Elle est basse à un endroit, haute à un autre, parfois plus ou moins... Il est possible d'enregistrer des milliards de mesures à des milliards d'endroits différents sur cette seule et même vague. Plus on prend de mesures, plus on pourrait redessiner cette vague à la perfection, et ainsi la diffuser, partager le dessin de son profil. Mais la quantité d'information alourdi considérablement le poids de votre fichier informatique. Un scientifique aura peut-être un intérêt à enregistrer de nombreux points. Un marin se satisfera de l'échelle de Douglas, de mer 0 à mer 9. Le vacancier se contentera d'un des 3 drapeaux sur la plage. Et moi je raconte à mes enfants que la mer, c'est le point 0 mètre, en oubliant carrément les marées. Nous avons tous une utilisation différente de cette même source, c'est pourquoi nous avons besoin d'une précision différente.

Appliqué à l'audio, un usager des transports en communs écoutant un podcast politique sera moins exigeant qu'un audiophile écoutant la nouvelle interprétation d'une oeuvre majeure.

Deux familles de supports d'enregistrement

- l'analogique (ou physique) : les disques vinyls, les rouleaux de cire, les cassettes audio, etc. Formats tous largement dépassés aujourd'hui mais d'un grain audio irremplacable, dont la forme physique et matériel définis l'enregistrement. Je ne vous en parlerais pas ici.

- le numérique : les ipods, les ordinateurs, les disques compacts (bien qu'ils soit physique, l'enregistrement y est numérique), etc. Tous dépendants d'un encodage plus ou moins dégradants, exprimé en format audio dont les extensions (ou suffixes) les plus connus sont le .MP3, le .WAV, le .M4A, etc.

Le numérique

Parce que le numérique à maintenant largement supplanté l'analogique, intéressons-nous qu'à cette famille. C'est aussi celle qui est le plus facile à quantifier et à qualifier.

Pour être enregistré sur un disque dur, une clé USB ou autre, une onde sonore physique, donc analogique, doit être converti dans un langage informatique facile à stocker. On parle d'une conversion A/N (pour Analogique / Numérique).

Le fichier sera composé d'un nombre "d'échantillon" par seconde, on parle "d'échantillonnage" ou de "fréquence d'échantillonnage", que l'on exprime en "Hz" ou en "kHz" : C'est le nombre de points enregistrés chaque seconde sur l'onde sonore source. 44,1 kHz pour un CD audio représente 44 100 points enregistrés chaque seconde. 48 kHz dans l'audiovisuel c'est 48 000 points enregistrés chaque seconde. Imaginez que c'est le nombre de mot qui composent la phase décrivant cette seconde.

Chacun de ces dizaines de milliers échantillons par seconde sera enregistré dans une "résolution" exprimée en "bits". Ce chiffre est divisible par 8, c'est à dire en octet : 16 bits = 2 x 8 bits ou 2 octets. Imaginez que c'est la taille de chacun de ces mots, du plus familier (8 bits) au plus savant (32 bits). 16 bits pour un CD audio, 24 bits dans l'audiovisuel, ...

Puis on multiplie par le nombre de pistes, de "canaux". 1 canal (mono) pour une sonnerie de téléphone, 2 canaux (stéréo) pour un CD audio, bien plus pour le multicanal.

Un studio d'enregistrement peut se permettre de stocker une quantité colossale de données, comprenant de nombreuses pistes, de multiples versions et dans une qualité sonore exceptionnelle. Un studio manipule généralement des fichiers en 96 kHz / 32 bits, soit un débit 4 fois supérieur au CD, 4 fois plus lourd aussi.

Nos lecteurs de poche, eux, ont une capacité de stockage bien ridicule. C'est d'autant plus vrai que maintenant, les fichiers sont de moins en moins stockés localement, mais passent leur temps à se promener sur le réseau internet ou téléphonique, en direct ; le streaming.

Le format

Il a donc été nécessaire de créer des formats audio, que l'on peut reconnaitre facilement par leur extension (ou suffixe). Chacun des formats ont été créé dans un but très précis.

Si l'on parle souvent de format sans "réduction de données" ou "non compressé" (tel que le format wav ou l'aiff, par exemple), de compression "sans perte" ou "réversible" (le format flac, par exemple) ou de compression "avec perte" ou "irréversible" (le mp3, le m4u, le ogg, par exemple), aucun format ne peut se targuer de restituer parfaitement la qualité sonore de la source enregistrée. Car pour chacun d'entre eux, de très nombreux choix ont été fait pour simplifier le stockage.

Un exemple : L'oreille humaine ne percevant pas les sons trop grave (les infrasons, inférieurs à 20 Hertz) ni trop aigus (les ultrasons, supérieurs à 20 000 Hertz), il a été logiquement choisi de ne pas les enregistrer. On libère donc déjà de la place de stockage en n'enregistrant que les sons audibles. On ne garde que la bande passante comprise entre 20 et 20 000 Hz. Tous les formats sont concernés.

Un autre exemple : Si certain format permettent une spatialistation grâce à un enregistrement en multicanal (4, 6, 10 pistes ou plus), que l'on trouve dans le cinéma par exemple, le choix d'un format stéréo est généralement fait, pour un album de musique par exemple, que l'on écoute au casque ou dans une voiture. On réduit d'un facteur 2, 3, 5, ou plus, la taille de stockage.

Un exemple : Pour un podcast sur l'économie qui ne contient que de la voix, on va opter pour un format sans grave, sans aigu, avec une grande importance donnée aux fréquences de la voix, facile à stocker sur un petit lecteur de poche. On optera pour le format MP3. On pourrait même opter pour du mono et dans un débit bas.

La compression "sans perte" ou "réversible" (tel que le flac) simplifie modestement le fichier, il devient moins lourd, mais peux être désencoder. Pour imager : Il remplace tous les "aa" par "2a", les "aaa" par "3a", les "aaaa" par "4a". On gagne un peu de place et on est capable de reconvertir "4a" par "aaaa" lorsqu'on l'écoute. On désencode.

La compression "avec perte" ou "irréversible" (tel que le mp3) simplifie tellement le fichier source qu'il n'est pas possible de retourner en arrière. Pour imager : Il remplace tous les "aa", "aaa" et "aaaa" par des "a". On gagne beaucoup de place, mais on est incapable de dire si "a" veut dire "a", "aa", "aaa" ou "aaaa".

Pour le podcast sur l'économie qui ne contient que de la voix, on optera pour le format MP3, parce qu'on se fiche pas mal de la présision du son.

Le débit

Une fois le format choisi on s'intéresse au "débit". C'est à dire la quantité de donnée par seconde. Il est exprimé en "kbps", c'est à dire en "kilo bits par seconde". En language informatique, c'est l'équivalent du nombre de millier de lettre que forme les données, chaque seconde.

Contrairement à un amateur, un professionnel ne s'intéresse pas au débit, mais à ce qui le compose. Il va donc choisir minutieusement la fréquence d'échantillonnage, la résolution et le nombre de canaux en fonction de son projet. En multipliant ces paramètres ont pourrait calculer le débit.

Donc, pour un CD audio, chaque seconde, il est traité 44 100 échantillons de 16 bits sur 2 canaux (stéréo), soit 1 411 200 bits par seconde, soit un débit de 1 411 kbps.

Pour un MP3, un amateur pourrait choisir un débit de 320 kbps, et tout est dit... Il existe aussi les débit variables, mais on va oublier ce détail :)

Autre exemple : Une norme en téléphonie, le G.711, a un échantillonnage de 8 000 Hz, un débit de 64 kbps et se permet même de ne garder que la bande passante du spectre sonore comprise entre 300 et 3 400 Hz ! Si on l'enregistrait dans ce format, une conversation de 1 minute peserait 0,5 Mo !

Formules

Débit (en kbps) = Fréquence d'échantillonnage (en Hz) X Résolution (en bits) X Nbr de canaux (1 mono, 2 stéréo, etc.)

Poids (en Mo) = Débit (en kbps) X Durée (en seconde) / 8 (1 octets) / 1000 (1000 ko = 1 Mo)

Un détail : Avant 1998, on parlait de kio et non de ko où 1 kio = 1024 octets (puissance d'un nombre en base 2), en contradiction avec les normes en vigueur pour les autres unités. La normalisation CEI impose maintenant l'usage de la puissance d'un nombre en base 10 : 1 ko = 1000 octets. Plus d'infos ici.

Autre détail : Attention ici, je parle de "bits" (marqué d'un petit "b"). A ne pas cofondre avec les "Bytes" (marqué d'un grand "B"), ce qui veux dire "Octets" en anglais, soir 8 fois moins ! Si on parlait d'un débit en "kBps" on ne diviserait pas par 8...

Exemple :
Un disque compact audio est enregistré en Wav, échantilloné en 44,1 kHz (ou 44 100 Hz soit 44 100 échantillons par seconde) de 16 bits chacun sur 2 canaux.
Soit 44 100 x 16 x 2 = 1 411 200 bits par seconde, soit un débit de 1 411 kilo bits par seconde (kb/s ou kbps).
Un disque de 60 minutes contient alors 5 080 320 000 bits / 8 = 635 040 000 Bytes, ou Octets (635 millions d'octets de 8 bits). Soit 635 Mo ! Une musique de 1 minute pèse alors 10,6 Mo. Voilà pourquoi un album sur CD audio ne contient qu'un peu plus d'1 heure de musique.

Résumons

Pour le CD audio :
Echantillonnage : 44 100 Hz
Résolution : 16 bits
Canaux : 2 (stéréo)
Débit : 1 411 kbps
Poids : 10,6 Mo/minute

Pour le meilleur MP3 :
Débit : 320 kbps
Poids : 1,44 Mo/minute

Verdict

Un MP3 d'un débit de 320 kbps (kilo bits par seconde) contient donc 320 000 bits par seconde de son. Bien moins que les 1 411 200 bits d'un CD audio.

Sur un aspect purement mathématique, la définition du son d'un MP3 est donc de 4,4 fois inférieure à celle d'un WAV. En réalité, c'est un poil plus difficile à qualifier en raison de la différence de compression de ces deux formats, le mp3 serait donc encore un peu moins bon, car très dégradé. Le MP3 est aussi un peu vicieux parce qu'un enregistement, même mono, est parfois enregistré sur 2 canaux, on ne divise donc pas toujours son poids pas 2. La même musique de 1 minute ne pèse plus que 1,44 Mo.

Le reste

Outre la qualité de l'enregistrement, de nombreux paramètres sont primordiaux dans l'écoute d'un son ; c'est un véritable nivellement par le bas (c'est à dire que c'est le moins bon de la chaine qui décide de la qualité de l'ensemble) :

- La source ; il faut une bonne source sonore.
- La chaîne d'enregistrement : c'est ce qui s'intercale entre la source et l'enregistreur : Microphones, câbles, électronique, etc.
- Le format ; dont on a parlé dans ce dossier.
- La chaîne d'écoute ; c'est ce qui s'intercale entre l'enregistrement et l'oreille de l'auditeur : Le qualité des composants du lecteur, de l'amplificateur, de la diffusion, la qualité des câbles, etc.
- L'auditeur ; c'est sa sensibilité

Premier exemple excessif : Tout peut être totalement parfait, si l'auditeur est sourd, c'est peine perdue. On nivelle par le bas = 0 !

Second exemple moins excessif : Si vous écoutez de la musique avec des oreillettes standard, depuis votre smartphone ; un MP3 suffira largement car le nivellement se faisant par le bas, c'est le smartphone et les écouteurs qui vont limiter la qualité d'écoute.

Troisième exemple : Si vous avez une chaine haute fidélité de qualité audiophile et qui vous à couté un rein, l'enregistrement sur dictaphone du groupe de musique du petit cousin de votre nièce ne sonnera jamais correctement.

Il faut bien comprendre que c'est l'élément (technique, ou pas) qui est le moins bon qui sera l'étalon de l'ensemble. Il faut donc rechercher à hausser la qualité de chacun des éléments les plus faibles pour tenter d'atteindre un système cohérent, équilibré de la source (la voix, le groupe, le bruitages, ...), jusqu'à l'écoute !

Conclusion

Pour un audiophile, il est incompréhensible qu'il soit maintenant à la mode d'écouter sur internet des musiques compressées irrémédiablement. Le MP3 (et autre OGG, AAC, etc.) sont les pires supports audio de tous les temps...

Dans l'idéal, il faudrait :
- une source de qualité,
- enregistrée dans un bon studio et dans les rêgles de l'art,
- sur un support et dans un format sans perte,
- sur une chaine audio de grand qualité,
- ecoutée par des oreilles expertes,
- appréciée par des cerveaux attentifs et cultivés...

Et comme le monde est imparfait, nous avons :
- n'importe quoi,
- enregistré n'importe où et n'importe comment,
- sur un support et dans un format catastrophique,
- sur une chaine audio déplorable,
- capté par des oreilles déglinguées,
- entendu par des cerveaux distraits et sans esprits critiques...

Certain iront même jusqu'à dire que c'est aussi vrai dans le son que dans la vidéo, la photographie, le cinéma, la littérature, le journalisme, l'éducation, la politique ... ainsi que dans tous les autres domaines :)

Ecoutez

Comparez donc le MP3 à 320 kbps que je vous propose puis le 8 kbps. Vous devriez entendre une différence. Ou alors vous êtes sourd.

Imaginez qu'entre un fichier encodé à 128kbps et un encodé à 320kbps il y a proportionnellement la même déstruction sonore. Si votre oreille est fine et si votre système de diffusion est de bonne qualité vous l'entendrez.

Il n'est donc pas difficile de comprendre qu'un fichier WAVE stéréo de 1 411 kbps est plus de 4 fois meilleur qu'un MP3 de 320 kbps.

Le lecteur flash utilisé pour la lecteur peut ne pas fonctionner sur votre ordinateur, dans ce cas, cliquez sur "Ecouter"

MP3 (8kbps)     Ecouter
MP3 (16kbps)     Ecouter
MP3 (32kbps)     Ecouter
MP3 (56kbps)     Ecouter
MP3 (96kbps)     Ecouter
MP3 (128kbps)     Ecouter
MP3 (196kbps)     Ecouter
MP3 (256kbps)     Ecouter
MP3 (320kbps)     Ecouter

Il s'agit de la musique "Nisi Dominus (Ellegro)", RV 608 de Vivaldi.

♡ - Joseph SARDIN - Fondateur de BigSoundBank.com et LaSonotheque.org - Contact

ciseaux
ciseaux
Découpez suivant les pointillés