Dither (audio)

Le dither ou dithering est une technique d'amélioration de données du son numérique basée sur une application volontaire de bruit au signal d'entrée pour permettre la reproduction de niveaux inférieurs au seuil de quantification et remplacer de la distorsion par une légère élévation du bruit de fond, moins sensible à l'oreille.

Application au signal d'entrée d'un bruit η (t)

Le dithering (dépolissage) est l'application à l'audio du principe de résonance stochastique. Il s'applique :

dans la conversion analogique-numérique ;
dans la requantification du signal numérique après les opérations de traitement du signal effectuées avec une résolution supérieure ;
dans les conversions de fréquence d'échantillonnage.

C'est souvent l'une des dernières étapes de la production audio d'un disque compact.

Terminologie

Le jargon audionumérique français utilise universellement le terme anglais dither.

Les organismes officiels de terminologie n'ont pas traité le dithering (hésitation, tremblement)[1] dans le sens où on l'emploie en traitement du signal audio.

Mario Rossi utilise l'expression « Décorrélation de l'erreur de quantification »[2]. En France, certains auteurs, notamment dans le milieu universitaire préfèrent bruit de dispersion[3], qui fait allusion à la dispersion statistique. Des auteurs canadiens suivent le Bureau des brevets canadien[4] qui emploie « signal de juxtaposition », même quand il ne s'agit pas de tramage (informatique), où effectivement on juxtapose des pixels, tandis que le Grand dictionnaire terminologique du Québec indique « signal de superposition »[5]. Aucune expression n'est aussi simple et universellement employée que l'anglais dither.

Le mot dither, verbe et nom commun, évoque en anglais une agitation indécise, ou une indécision agitée. Le terme anglais étant une métaphore, en voici quelques-unes pouvant jouer le même rôle en français, en plus de « vibration » (vibrer le signal comme on le fait du béton pour le rendre compact ou de la farine pour la passer au tamis) et « tremblement » ou « tremblotement »[6] : inquiéter le signal, ou y ajouter de l'inquiétude, de l'agitation (et le sortir d'une quiétude improductive), le dépolir, y mettre du frisson ou le frissonner, y ajouter un fourmillement (qui charrie des petits bouts d'information).

Le terme anglais dither est hérité de la technique de construction des calculateurs de bombardement, mécaniques, depuis la seconde Guerre mondiale. Les ingénieurs se sont aperçus que l'appareil était plus précis quand la vibration causée par des oscillateurs d'« activation » et des électro-aimants agitait les pièces déplacées faiblement. Dans cet usage dither se traduit par activation[7].

Traitement d'un signal audio

L'erreur de quantification

Requantification d'un signal sur 16 niveaux (4 bits)
en haut, arrondi brut, en bas décorrélation de l'erreur de quantification avec dither[8]

signal d'entrée.
signal requantifié.
erreur de quantification.
valeur efficace de l'erreur de quantification.

Des difficultés à utiliser ces médias ? Des difficultés à utiliser ces médias ?
Fichier audio
Requantification avec et sans inquiétude (dither)
Trois pings générés par un programme (total 14 s. Ping codé sur 16 bits. Ping requantifié sur 4 bits sans inquiéter le signal (no dither) Ping requantifié sur 4 bits avec inquiétude (dither) TPDF

La quantification fait correspondre chaque valeur du signal d'entrée à une valeur de sortie choisie parmi un certain nombre de valeurs possibles, inférieur au nombre de valeurs possibles en entrée. Il se pratique donc une espèce d'arrondi, dont le reste s'appelle erreur de quantification. Cette erreur atteint au maximum la moitié de l'échelon de quantification de sortie.

La valeur efficace de l'erreur dépend en premier lieu de la résolution de sortie. Le rapport signal sur bruit d'un signal audionumérique est le rapport entre la puissance efficace d'une sinusoïde à pleine échelle (0 dB FS) et la puissance du bruit de quantification considéré comme un bruit blanc à distribution uniforme[9]. Pour n bits, elle est de

\xi ={\frac {3}{2}}2^{2n}

soit en décibels 6,02 n + 1,76

ce qui donne 98 dB pour 16 bits, et 6 dB de plus par bit de résolution supplémentaire[10].

Mais le niveau varie entre la pleine échelle et zéro. L'erreur est alors proportionnellement plus importante, jusqu'à remplacer complètement le signal, quand son amplitude est inférieure à l'échelon de quantification.

Transmission d'un signal faible sans dithering (vibrage) :

Soit un signal d'amplitude 0,4 fois l'échelon de conversion, transmis par un système qui arrondi à l'entier le plus proche :

s'il est transmis comme (0.2, 0.3, 0.5, 0.6, 0.5, 0.3, 0.2, 0.3, ...), il se retrouve en sortie avec une amplitude de 1.
s'il est transmis comme (-0.2, -0.1, 0.1, 0.2, 0.1, -0.1, -0.2, -0.1, ...), il n'est pas transmis.

Lorsque le niveau varie, l'erreur est ainsi corrélée au signal, c'est une distorsion à laquelle l'audition humaine est plus sensible qu'elle ne l'est à un bruit aléatoire permanent. On peut penser cette distorsion comme une intermodulation avec la fréquence d'échantillonnage. Dans un signal audio musical, les harmoniques, importants dans la perception du timbre sont le plus souvent à des niveaux très inférieurs à celui de la fréquence fondamentale. Pour les faibles amplitudes, l'erreur de quantification est manifestement corrélée au signal.

Comme le résume l'ingénieur du son Bob Katz : « Si un signal subit une quantification, cela va induire une distorsion par rapport au signal d'entrée original, qui peut introduire des harmoniques, des harmoniques repliées dans le spectre audible, de l'intermodulation, ou n'importe quelle distorsion choisie dans une panoplie d'effets tout à fait indésirables, ressenties comme du bourdonnement, de la rêcheté, de l'âpreté, de la froideur et/ou une perte de profondeur dans le son »[11].

Décorrélation de l'erreur de quantification

En ajoutant au signal d'entrée un bruit stationnaire

à la résolution du signal d'entrée (analogique s'il s'agit d'une conversion analogique-numérique),
d'amplitude égale à un échelon de quantification,

les signaux faibles apparaissent, même si leur niveau est inférieur à celui du bruit. On peut les entendre et les détecter par un traitement adéquat.

L'erreur de quantification devient aléatoire. Le bruit résultant est moins déplaisant à l'oreille que la distorsion obtenue autrement.

L'ajout de bruit au signal pour effectuer la décorrélation de l'erreur de quantification, déjà connue sous le nom de dithering (vibrage) dans le traitement de l'image dans les années 1960, s'est imposée pour l'audio dans le courant des années 1980[12].

L'inquiétude (dithering) du signal correspond, dans le domaine de la grandeur du signal, à la limitation de la bande passante à au plus la moitié de la fréquence d'échantillonnage dans le domaine temporel. Elle est aussi indispensable que celle-ci à la linéarité de la représentation numérique du signal(Widrow, Kollár et Liu 1996, p. 355-356).

Conditions de linéarité du signal numérique
domaine	temps	grandeur du signal
Opération	échantillonnage	quantification
Condition	limitation de bande passante	limitation de dynamique
Limite	bande passante inférieure à la moitié de la fréquence d'échantillonnage	rapport signal sur bruit inférieur à la moitié de la résolution
sinon	repliement du spectre (aliasing) : on entend des fréquences dépendant de la fréquence d'échantillonnage et du signal	corrélation du bruit de fond : on entend des fréquences dépendant de la fréquence d'échantillonnage et du signal

Il existe deux types de traitement par adjonction de bruit :

Schéma de la quantification avec inquiétude (*dither*) soustractive.

dans le procédé soustractif, le signal de bruitage aux propriétés statistiques convenables est ajouté avant la quantification (typiquement, la conversion analogique-numérique) et soustrait après la transmission (typiquement, après la conversion numérique-analogiqe). Comme ce procédé implique la transmission du signal de bruitage ou des moyens de le reconstituer exactement, et que le signal quantifié ne subisse aucune transformation, il n'a guère d'application dans le traitement du signal audio (hors télécommunications). Sa mise en œuvre pour la diffusion de disque compact audio aurait nécessité une nouvelle norme, incompatible avec la précédente (les appareils anciens ne disposant pas des moyens de soustraire le bruit) ; l'industrie a jugé le bénéfice de ce procédé insuffisant pour ce faire, au regard de la dynamique sonore existant réellement sur les enregistrements ;
dans le procédé non-soustractif, dont les résultats sont théoriquement un peu moins bons, un bruit approprié est ajouté, à faible niveau, au signal avant la quantification.

Dans les deux cas, il reste à choisir les propriétés du bruit d'agitation (dither).

Avec bruit à densité de probabilité rectangulaire

Connu aussi sous le sigle RPDF Rectangular Probability Density Function.

On ajoute au signal, diminué de la valeur d'un demi-échantillon de quantification, une valeur prise au hasard, avec une probabilité de tirage équivalente, entre zéro et un échelon de quantification. On dit que la fonction de densité de probabilité est rectangulaire parce que c'est la forme de son graphe. Avec ce procédé, le signal d'erreur est décorrélé du signal, mais son amplitude ne l'est pas(Wannamaker 1997, p. 78). En effet, la probabilité que le résultat quantifié soit affecté par le bruit d'agitation dépend de la valeur instantanée du signal : elle est nulle si celle-ci est exactement au milieu de l'échelon de quantification, et certaine si elle est exactement à la limite de l'échelon.

On peut calculer l'élévation du niveau moyen de bruit qui résulte de cet ajout de bruit. Comme il s'agit, par définition, d'un signal indépendant de l'erreur de quantification, et de même amplitude, leurs puissances s'ajoutent, donnant une élévation du niveau de bruit de fond de 3 dB (voir Décibel)[13].

Avec bruit à densité de probabilité triangulaire

Connu aussi sous le sigle TPDF (Triangular Probability Density Function).

On ajoute deux fois au signal, diminué de la valeur d'un échelon de quantification, une valeur prise au hasard, avec une probabilité de tirage équivalente, entre zéro et un échelon de quantification. C'est l'équivalent de deux applications de bruit RPDF successives. La fonction de densité de probabilité résultante a une forme triangulaire ; il y a ainsi une chance sur huit qu'on diminue le signal d'entre 0,5 à 1 échelon de quantification, autant de chances de l'augmenter d'entre 0,5 et 1 échelon de quantification, et trois chances sur quatre de l'augmenter ou de le diminuer de moins de 0,5 échelon de quantification.

L'agitation par ce type de signal est celle qui augmente le moins la valeur efficace du bruit tout en éliminant les distorsions et modulations du bruit corrélées avec le signal d'entrée(Wannamaker 1997, p. 80). Comme elle est équivalente à ajouter deux fois un signal indépendant de l'erreur de quantification, et de même amplitude, leurs puissances s'ajoutent, donnant une élévation du niveau de bruit de fond de 4,8 dB (voir Décibel)[13].

L'agitation TPDF est recommandée par l'AES pour l'instrumentation de mesure numérique[14].

Avec bruit gaussien

Le bruit gaussien est équivalent à l'application successive un grand nombre de fois d'un bruit RPDF. La fonction de densité de probabilité résultante est en forme de cloche, ou courbe de Gauss, typique d'un dither (rugosité) généré par des sources analogiques, tels que des préamplificateurs de micro. Si la profondeur de bits d'un enregistrement est suffisamment grande, le bruit analogique à l'entrée du convertisseur analogique-numérique sera suffisant pour l'inquiétude (dithering) de l'enregistrement. Dans le cas contraire, comme il existe en tout état de cause du bruit de ce type dans le signal, l'ajout de bruit TPDF ne donne pas les résultats théoriques prévus. On ajoute donc du bruit gaussien.

L'élévation du niveau moyen de bruit qui résulte de l'ajout d'un bruit gaussien est de 6 dB[13]. On peut en déduire qu'une source avec un niveau de bruit de fond à −92 dB FS convient parfaitement pour une quantification sur 16 bits. Si l'on inclut dans le bruit de fond celui du local d'enregistrement, cette condition est pratiquement toujours remplie. Un niveau de bruit inférieur, implique, soit une quantification avec plus de bits, soit l'ajout de bruit d'inquiétude (dither).

Avec bruit coloré

Lipshitz et Vanderkooy ont montré que des bruits différant par leur densités spectrale se comportent différemment quand ils sont utilisés pour « agiter » (dither) un signal. Ils suggérèrent un bruit modelé pour être le moins audible possible pour linéariser la quantification des signaux sonores[15] - [16].

Un bruit coloré est un bruit blanc qui a été filtré. Des algorithmes de dithering (dépolissage) utilisent des bruits qui ont plus d'énergie dans les hautes fréquences de manière à la réduire dans la bande audio où l'oreille est la plus sensible (voir Courbe isosonique).

Avec formage de bruit (noise shaping)

Schéma de la quantification avec inquiétude(*dither*) et formage de bruit (*noise shaping*)

Le formage de bruit (Noise shaping (en)) ajoute au schéma de base de l'inquiétude du signal par un bruit une boucle de contre-réaction avec filtre (et, implicitement, un délai, de sorte que l'erreur ne s'annule pas immédiatement à l'entrée). De cette façon, le traitement modèle la répartition spectrale du bruit sur l'erreur de quantification. On calcule le filtre de façon que l'énergie du bruit se trouve principalement dans les fréquences les moins audibles. On peut obtenir une réduction du bruit perçu équivalente à quatre bits de résolution supplémentaire par rapport à l'agitation (dithering) standard[17].

Si on utilise la boucle de contre-réaction seule (avec le bruit η(t) = 0), le bruit de quantification reste corrélé au signal, même si son spectre est déplacé vers une zone moins sensible. Il se peut aussi que le filtre, en l'absence de bruit, génère une distorsion par cycle limite. Le formage du bruit est donc essentiellement un complément à l'inquiétude (dithering) du signal par un bruit.

Avec des fréquences d'échantillonnage supérieures à deux fois la bande passante audio (88,2 kHz ou 96 kHz), le formage de bruit peut transférer la plus grande partie de la puissance du bruit résultant de l'erreur de quantification et de l'agitation (dithering) du signal en dehors de la bande audible.

Utilisation

Le dithering (dépolissage) devrait être utilisé avant toute conversion analogique-numérique et toute re-quantification, afin de décorréler le bruit de quantification du signal d'entrée et de compenser la non-linéarité inhérente à ce processus, cause de (distorsion) ; moins le signal de sortie comporte de bits par échantillon et plus le dithering (dépolissage) doit être efficace. Tout processus incluant une réduction de la définition (nombre de bits) des échantillons devrait ajouter un dither (frisson) à la forme d'onde.

Il convient de remarquer, toutefois, que ce soin précautionneux de la qualité du son doit être « laissé en perspective. Si le mixage n'est pas bon, ou si la musique ne marche pas, sans doute le dépoli (dither) du signal n'a pas du tout d'importance. Si tout le reste du projet est bien, et que nous voulions obtenir la meilleure qualité sonore, alors un dépoli (dither) correct est très important »[18].

Frissons (dither) et filtres

Le dithering (inquiétude) du signal est aussi nécessaire à certains filtres numériques. Un filtre numérique fonctionne par convolution du signal avec une réponse impulsionnelle ; pour permettre un traitement suffisamment rapide, les filtres peuvent utiliser la récursivité, et arriver par ce moyen à des opérations sur des portions de signal du même ordre de grandeur que l'échelon de quantification. À ce niveau, on ne peut pas considérer que l'escalier de la quantification soit une rampe linéaire.

L'agitation par une valeur de bruit combat cette non-linéarité.

Quel type d'inquiétude (dithering) utiliser ?

Dans la conversion analogique-numérique, on utilise inévitablement le bruit gaussien. Généralement, le signal en comporte suffisamment du fait de l'addition des bruits thermiques acoustique sur la membrane des microphones et électronique dans les circuits, auxquels se superposent encore les autres bruits électroniques. Dans le cas contraire, soit on augmente la résolution (nombre de bits), soit on ajoute volontairement du bruit gaussien.
Si on inquiète (dither) un signal devant subir d'autres traitements, il faut utiliser la méthode TPDF qui a une amplitude de quantification de deux échelons de quantification (de sorte la rugosité (dither) s'étend de -1 à +1)[16]. Il s'agit du dither (frisson) de plus faible puissance pour qu'aucune distorsion provenant de la quantification ni bruit de modulation ne soit introduit (bruit de fond constant). Si un bruit coloré est utilisé à ce niveau intermédiaire de traitement, le contenu d'une fréquence peut « baver » sur une autre sur une gamme de fréquences importante et devenir passablement audible.
S'il s'agit d'un traitement final avant transmission, choisir le bruit coloré ou le bruit mis en forme (noise shaping) qui peuvent abaisser le niveau de bruit dans des gammes de fréquences où celui-ci est le plus audible.

Annexes

Bibliographie

(en) Bernard Widrow, Istvan Kollár et Ming-Chang Liu, « Statistical Theory of Quantization », IEEE transactions on Instrumentation and Measurement, vol. 45, n^o 2,‎ avril 1996, p. 353-361 (lire en ligne) [PDF].
(en) Robert Alexander Wannamaker, The Theory of Dithered Quantization : Ph.D. Thesis presented to the University of Waterloo, Waterloo, Ontario, Canada, L'auteur, 1997, 223 p. (lire en ligne) [PDF].

Liens externes

(en) Keeping Your Digital Audio Pure from First Recording to Final Master : Dither - Bob Katz (en), Digital Domain.
(en) What is Dither ? - Stephen Dawson, hifi-writer.com, 21 août 2003.
(en) Dither Explained - Aldrich Nika, 25 avril 2002 [PDF].

Notes et références

Commission électrotechnique internationale, « Vocabulaire Électrotechnique International 723-10-80 ».
Mario Rossi, Audio, Lausanne, Presses Polytechniques et Universitaires Romandes, 2007, 1^re éd., p. 639.
Caroline A. Traube et Olivier Bélanger, Analyse, synthèse et traitement des sons, Académie supérieure de musique de Strasbourg, 2011 (lire en ligne), p. 20; Analog Devices, « Modulateur delta-sigma avec bruit de dispersion (dither) », 2013 (consulté le 25 février 2020).
Office de la propriété intellectuelle du Canada : revendication CA 2371535
(54) Titre anglais : Method and apparatus for dithering
(54) Titre français : Procédé et dispositif de juxtaposition
La revendication 2715393 porte sur l'image, mais elle utilise l'intéressante expression « Juxtaposition stochastique ».
GDTQ: dither consulté le 20 avril 2012.
Office Européen des Brevets, EP2425534 - Method and apparatus for dithering in multi-bit sigma-delta analog-to-digital converters = Procédé et appareil de tremblotement dans des convertisseurs analogiques à numériques sigma-delta multibit.
Michel Fleutry, Dictionnaire encyclopédique d'électronique anglais-français, La maison du dictionnaire, 1991 (ISBN 2-85608-043-X), p. 219.
Le signal est codifié sur 8 bits (256 valeurs possibles). Dans la version requantifiée avec dépoli (dither), le bruit est de type TPDF. Le signal d'erreur de quantification est traité par un filtre de Butterworth du huitième ordre avec fréquence de coupure à 20 kHz.
Pour une discussion du bruit de quantification, voir (en) Bernard Widrow et István Kollár, Quantization Noise : Roundoff Error in Digital Computation, Signal Processing, Control, and Communications, Cambridge, Royaume-Uni, Cambridge University Press, 2008, 778 p. (lire en ligne).
Il s'agit d'une limite absolue, la performance optimale est atteinte avec plus de bruit ; c'est l'objet du présent article. Mario Rossi, Audio, Lausanne, Presses Polytechniques et Universitaires Romandes, 2007, 1^re éd., p. 637.
If a signal is quantized, this will introduce a distorsion related to the original input signal which can introduce harmonics, harmonics aliased down to lower frequencies (see Chapter 20), intermodulation, or any set of highly indesirable kinds of distorsion, perceived as a buzz, grit, harshness, coldness and/or loss of depth in the sound. (en) Bob Katz, Mastering Audio : The Art and the Science, New York, Focal Press, 2007, 2^e éd., 334 p. (ISBN 978-0-240-80837-6), p. 53.
(en) John Vanderkooy et Stanley Lipshitz, « Dither in digital audio », Journal of the Audio Engineerig Society, vol. 35,‎ 1987.
(en) John Watkinson, Convergence in Broadcast and Communications Media : The fundamentals of audio, video, data processing and communication technologies, Focal Press, 2001, p. 163-164.
AES17-1998 (r2004) « Revision of AES17-1991 AES standard method for digital audio engineering — Measurement of digital audio equipment. ».
(en) Stanley P. Lipshitz, John Vanderkooy et Robert A. Wannamaker, « Minimally Audible Noise Shaping », Journal of the Audio Engineering Society, vol. 36, n^o 11,‎ novembre 1991, p. 836-852 (lire en ligne).
(en) Stanley P. Lipshitz, John Vanderkooy et Robert A. Wannamaker, « Dither in digital audio », Journal of the Audio Engineering Society, vol. 35, n^o 12,‎ décembre 1987, p. 966-975 (lire en ligne).
(en) Michael A. Gerzon, Peter Craven, Robert Stuart et Rhonda Wilson, « Psychoacoustic Noise Shaped Improvements in CD and Other Linear Digital Media : Preprint 3501 », 94th Convention of the Audio Engineering Society, Berlin, AES,‎ mars 1993 (lire en ligne).
If the mix isn't good, or the music is not working, then dither probably doesn't matter much at all. But if everything else in a project is right, and we want to maintain the sound quality, then proper dithering is very important. (Katz 2007, p. 53).

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.