Le signal inaudible qui mesure nos audiences
Publié par Joseph SARDIN, le
Résumé
- Un tatouage audio inaudible est inséré en permanence dans le son des chaînes TV et radio
- Il porte l'identifiant de la chaîne, la date, l'heure de diffusion
- Trois technologies dominent le marché : Médiamétrie, Nielsen PPM, Kantar SNAP
- Chacune choisit une bande de fréquences et une méthode différentes
- La technique a été détournée par la publicité pour pister les téléphones
Allumez votre radio. À cet instant, dans le flux qui sort du haut-parleur, un signal vient de passer. Vous ne l'avez pas entendu, et personne autour de vous non plus. Pourtant il était bien là, niché à la frontière de votre audition, porteur de trois informations très précises : le nom de la station, la date, l'heure. Ce signal a un nom : le watermarking audio. Et il se trouve, à cet instant même, dans des millions de flux audio diffusés un peu partout dans le monde.
Pourquoi marquer le son lui-même
Pour comprendre pourquoi ces signaux existent, il faut remonter à un problème très concret. Mesurer l'audience consistait, longtemps, à brancher un boîtier sur le téléviseur et à lire les changements de chaîne. Puis sont arrivés le câble, le satellite, l'ADSL, la fibre, les box opérateurs, les plateformes de replay, le streaming. Chaque nouveauté technique imposait une adaptation. C'est devenu intenable.
L'idée de marquer le son lui-même apparaît alors comme une solution élégante. Si chaque chaîne dépose une signature unique dans son flux audio, un microphone placé dans la pièce peut reconnaître ce qui sort du poste, sans rien savoir du mode de réception. C'est le principe du tatouage numérique sonore, ou watermarking audio.
Trois écoles, trois philosophies
Aujourd'hui, trois grands acteurs se partagent le marché mondial, et il est révélateur que chacun ait fait des choix techniques radicalement différents.
En France, Médiamétrie a déployé sa technologie maison à partir de 2008. Le signal se loge dans une zone très haute du spectre, autour de 18 à 22 kHz, juste au-dessus du seuil d'audition de la majorité des adultes mais encore dans la bande passante des microphones électret. Trop aigu pour être entendu, trop bas pour être un véritable ultrason au sens où je le décrivais dans mon lexique audio.
Aux États-Unis, Nielsen Audio fait l'inverse. Sa technologie PPM, héritée d'Arbitron rachetée en 2013, encode l'identifiant des stations dans la bande 1 à 3 kHz, en plein milieu de l'audible. Le signal n'est pas placé au-dessus de l'audition, il est noyé dedans, sous le seuil de perception grâce au masquage psychoacoustique : un son fort masque les sons faibles voisins, on glisse le watermark dans cette zone d'ombre. La modulation employée s'apparente à du FSK multi-bandes, des bouffées de tonalités très brèves dispersées dans le spectre vocal. Le PPM équipe les 48 plus grands marchés radio américains depuis 2007.
Le britannique Kantar Media, troisième larron, a développé deux systèmes propriétaires baptisés SNAP et INK. SNAP repose sur de la modulation de phase, encore une autre approche. Standardisée par la SMPTE en 2017, elle est utilisée par la BBC, par NRJ Audio en France pour ses contenus web, et même intégrée nativement dans AWS Elemental MediaConvert pour le streaming en cloud. Plus de 2 200 chaînes dans le monde sont marquées avec cette technologie.
Trois acteurs, trois bandes de fréquences, trois techniques de modulation. Le watermarking audio n'est pas une recette unique : c'est une famille de solutions qui négocient toutes le même compromis impossible entre inaudibilité, robustesse à la compression et quantité d'information transportée.
Trois informations, et tout suit
Le contenu du tatouage est partout le même, ou presque. Trois données : l'identifiant unique de la chaîne ou de la station, la date, l'heure. Sur certains systèmes, on remplace l'horodatage par un timecode relatif, ce qui permet de mesurer aussi les contenus non-linéaires comme les podcasts ou les replays.
Cette frugalité suffit à mesurer beaucoup. En comparant l'heure inscrite dans le watermark avec l'heure réelle de captation, le système distingue le direct du différé. Si vous regardez le 20 heures de France 2 à 21h30 en replay, l'audimètre comprend qu'il s'agit du même programme, simplement consommé une heure et demie plus tard. C'est cette finesse qui a permis à Médiamétrie d'intégrer le différé dans le Médiamat dès 2011, puis le replay sur téléviseur en 2014.
Le marquage se fait très en amont, directement dans la régie technique de chaque chaîne, avant émission. Le signal voyage ensuite avec le programme, traverse l'air de votre salon et arrive jusqu'au boîtier qui l'écoute.
Le boîtier le plus petit du monde
Côté réception, deux générations d'audimètres se complètent en France. À domicile, c'est le TVM3, un boîtier au format tablette tactile déployé depuis 2018, qui équipe environ 7 750 postes du panel Médiamat. Il combine watermarking et fingerprinting, une seconde technologie qui compare un échantillon sonore à une base de programmes pour les cas où le tatouage ne passe pas.
C'est le second dispositif qui intrigue le plus. Sous le nom de Rate On Air, Médiamétrie a conçu un audimètre miniature porté en permanence par les panélistes. Il mesure 4,4 cm sur 4,4 cm, fait 1,5 cm d'épaisseur, pèse moins de 40 grammes. C'est, selon Médiamétrie, le plus petit audimètre du monde. On le porte à la ceinture, en pendentif ou au poignet, et il écoute en continu tout ce qui passe dans l'air ambiant. Ce mini boîtier équipe les 5 000 panélistes de l'étude EAR > Insights, qui a remplacé en septembre 2022 l'ancien Panel Radio. Grâce à lui, on capte enfin ce qui échappait aux mesures classiques : la radio écoutée en voiture, dans un café, au bureau, sur un casque. Aux États-Unis, l'équivalent Nielsen est porté comme un pager. Chez Kantar, c'est de plus en plus une simple application mobile installée sur le téléphone du panéliste.
Quelques curieux ont d'ailleurs démonté ces boîtiers. Un article du blog Blogmotion, accompagnant un démontage de Deus Ex Silicium, note l'absence totale de référence de fabricant sur le circuit imprimé ou sur la coque. La confidentialité fait clairement partie du dispositif.
Voltair, ou la guerre des watermarks
Si la mécanique paraît bien huilée, l'histoire récente montre qu'elle a ses faiblesses. Aux États-Unis, à partir de 2014, un débat technique est devenu une affaire publique. La société Telos Alliance, via sa filiale 25-Seven, a commercialisé un boîtier baptisé Voltair, capable d'amplifier le signal de watermark Nielsen sur les flux des stations qui s'en équipaient. Résultat : certaines stations ont vu leur audience mesurée grimper de 30 % en un mois, sans changement de programmation.
L'explication tient à la nature même du masquage psychoacoustique utilisé par Nielsen. Le watermark a besoin d'une matière sonore dense pour se cacher dessous. Sur une station musicale, c'est facile : la musique fournit en permanence l'énergie nécessaire. Sur une station talk avec des silences, des respirations, des passages calmes, le watermark se fait souvent fragile, voire inaudible pour les boîtiers. Conclusion mécanique : les radios musicales étaient surévaluées, les radios parlées sous-mesurées. Voltair rééquilibrait artificiellement le signal pour que les PPM le détectent mieux, même dans des conditions acoustiques difficiles.
Nielsen a d'abord critiqué le boîtier, l'accusant d'introduire des artefacts audibles. Numeris, l'équivalent canadien, en a interdit l'usage en juin 2015. Puis, en 2016, Nielsen a sorti son propre encodage amélioré, eCBET, qui faisait fondamentalement la même chose. La controverse a fini en match nul technique, mais elle aura révélé une vérité gênante : la mesure d'audience par watermarking n'est pas un instrument neutre. Selon le format de la station, selon le niveau de bruit ambiant, selon la qualité du masquage, les chiffres peuvent varier considérablement. Et derrière ces variations, ce sont des budgets publicitaires qui basculent.
Quand la pub s'empare de la technique
L'histoire prend un tour plus sombre quand on regarde les usages dérivés. À partir de 2014, une société indo-singapourienne baptisée SilverPush a eu une idée : utiliser exactement la même technologie pour pister les utilisateurs entre leurs appareils. Une publicité diffusée à la télévision émet un beacon ultrasonique. Une application installée sur le smartphone, en arrière-plan, écoute en permanence le micro et reconnaît ce signal. Le téléphone et le téléviseur sont silencieusement appariés. On parle de cross-device tracking, ou pistage transmédia.
Une étude présentée à l'IEEE European Symposium on Security and Privacy en 2017 a recensé 234 applications Android intégrant le SDK SilverPush ou des technologies similaires comme Lisnr et Shopkick. Souvent, des applications anodines : restauration rapide, météo, jeux. La Federal Trade Commission américaine a tapé du poing sur la table dès 2016, exigeant que les éditeurs d'applis déclarent explicitement cette captation à leurs utilisateurs. Google a banni les apps prises la main dans le sac. SilverPush a officiellement abandonné ce volet de son activité en 2015, mais la technologie, elle, est toujours là.
Le cas est intéressant pour comprendre les enjeux. Le watermarking audio est neutre en soi : c'est juste un canal de communication discret entre un haut-parleur et un microphone. Selon l'opérateur, c'est de la mesure d'audience consentie, encadrée et anonymisée, ou bien c'est du pistage publicitaire opaque. Le même signal physique, deux mondes éthiques opposés.
Un étage du spectre en activité permanente
Quand on enregistre des sons d'ambiance au quotidien, comme c'est mon cas pour alimenter les banques de sons, cette histoire a quelque chose de troublant. La zone utile pour la prise de son s'arrête en général autour de 20 kHz. Et pendant qu'on capture une ambiance urbaine, des radios et des télévisions diffusent en permanence, dans le décor, des watermarks qui se logent juste à la frontière de cette zone. D'autres signaux occupent le milieu de l'audible, masqués sous la musique ou la voix, indétectables sans analyseur de spectre. C'est une bonne illustration de ce que je notais dans mon dossier sur la qualité de l'audio numérique : ce qu'on n'entend pas n'est pas forcément ce qu'on n'enregistre pas.
Un étage entier du spectre sonore est en activité, hors de l'audition humaine mais bien présent dans l'air. À chaque journal télé dans une salle d'attente, à chaque autoradio dans un taxi, des messages numériques se faufilent dans l'air et finissent peut-être dans la mémoire d'un boîtier de 40 grammes, ou dans le micro d'une application installée sur un téléphone. De l'agrégat statistique de millions de ces micro-événements naissent les chiffres d'audience livrés chaque matin aux médias, et parfois, sans qu'on le sache, des profils publicitaires.
Saviez-vous qu'un signal presque audible voyageait en permanence dans vos ondes radio et TV ? Avez-vous déjà tenté, par curiosité, d'aller jeter un œil à la zone 1-3 kHz ou 18-22 kHz d'un flux télé sur un analyseur de spectre ?
"Une actualité, une découverte récente, une information à partager ou des talents de rédacteur ? Contactez-moi !"
♥ - Joseph SARDIN - Fondateur et Sonothécaire de BigSoundBank.com et LaSonotheque.org - Contact