Direct Stream Digital
Direct Stream Digital (DSD) est un procédé de stockage des signaux audio sur un média numérique utilisé notamment sur le Super Audio CD lancé dès 1999 par Sony et Philips.
Il est en concurrence directe avec le PCM (codage sonore utilisé pour les Compact Discs) haute définition présent sur les DVD-Audio, lancés commercialement peu après le Super Audio CD.
Histoire
Lorsque le processus de conversion Sigma-Delta a été décrit pour la première fois dans le brevet 2 927 962 de C. C. Cutler en 1954 (mais il ne fut nommé ainsi que dans l'article de H. Inose, Y. Yasuda, et J. Murakami en 1962), la décimation n'existait pas et l'intention était de transférer telles quelles des données sur-échantillonnées.
C'est en 1969 que D.J. Goodman propose dans son article « The Application of Delta Modulation of Analog-to-PCM encoding », pour la toute première fois dans l'histoire du son, de décimer des données Sigma-Delta sur-échantillonnées pour ensuite les convertir en Modulation d'impulsion codée[1] (en anglais PCM, acronyme de Pulse Code Modulation).
Tout juste trente ans plus tard, en 1999, Sony et Philips réutilisent le principe 'Delta-Sigma Direct' pour leur nouveau type de données audio surnommé Direct Stream Digital, et l'associe au format Super Audio CD, dont l'objectif est de succéder au Compact Disc et, si succès commercial, le supplanter.
Description
Le DSD est une méthode de stockage de signal Sigma-Delta avant application d'un décimateur qui le convertit en PCM.
Sa technologie consiste en un codage de son à très haute fréquence d’échantillonnage, 64 fois supérieure à l'échantillonnage PCM du Compact Disc, soit 64 fs (1 fs = 44100 Hz, donc 44 100 Hz × 64 = 64 fs = 2,822 4 MHz). Il est quantifié sur 1 bit unique, autorisant une bande passante allant jusqu’à 80 kHz voire 100 kHz et une dynamique de 120 dB ; elle est donc bien supérieure à celle recommandée par le théorème d’échantillonnage de Nyquist-Shannon. Ce procédé n'ayant pas besoin de filtres décimateurs et d'interpolation, il assure une haute fidélité de reproduction du signal original ainsi qu'une bonne cohérence de la phase.
Les conversions analogique-numérique et numérique-analogique sont ainsi simplifiées, assurant une qualité de conversion du signal accrue pour un coût de production moindre. Il permet par ailleurs une spatialisation multicanale en plus de la stéréophonie utilisée jusqu’ici.
Pour accroître la capacité d’enregistrement du Super Audio CD, le flux audio-numérique subit une compression sans perte appelée DST ((en)Direct Stream Transfer) autorisant jusqu’à 80 minutes d’enregistrement de pistes DSD stéréo et multicanales combinées[2].
Les techniques mises en jeu à cet effet emploient le Noise Shaping, ou mise en forme du bruit de quantification, par lesquelles ce bruit est repoussé dans les gammes de fréquences situées en dehors de la zone utile. Ces fréquences sont inaudibles à l'oreille humaine, mais souvent atténuées par les lecteurs au moyen d'un filtre coupe-haut du fait qu'elles risquent en contrepartie d'endommager (parfois fatalement) les tweeters qui ne sont pas super-tweeters, c'est-à -dire non conçus pour reproduire les ultrasons.
La modulation 1 bit (tout ou rien) n’est pas nouvelle : elle s’apparente à la modulation de largeur d'impulsion (Pulse Width Modulation utilisée dans les onduleurs, les amplificateurs de classe D, les dispositifs à valve de lumière : micro-miroirs DMD, etc.) pour laquelle le rapport cyclique varie en fonction de l’amplitude du signal à transcrire (voir schéma comparatif à droite). Le flux numérique 1 bit (DSD) doit cependant suivre un rythme d’horloge imposé (qui correspond à la fréquence sur-échantillonnée) on parle alors de PDM (Pulse Density Modulation) ou modulation de densité d’impulsions. Toutes les platines CD-A et DVD-A bénéficient d’un modulateur « un bit » permettant de retrouver, à partir d’un flux PCM (16, 20 ou 24 bits), un flux de type DSD (1 bit) qui est très simple à convertir en analogique (filtrage passe-bas d’ordre peu élevé). Il n'est donc pas nécessaire de recourir à un convertisseur Sigma Delta lors de la lecture du flux DSD du Super Audio CD.
Évolutions apportées pour succéder au PCM 44,1 kHz / 16 bits du Compact Disc
Le CD avec sa fréquence d’échantillonnage de 44,1 kilohertz, très proche de la limite haute de la plage de fréquences Hi-Fi (20 kilohertz), oblige à disposer d'un filtre à fréquence de coupure brutale dans les hautes fréquences (20 db/octave). Un tel filtrage détruit une grande partie de la richesse et la finesse de certains enregistrements (pas seulement dans les aigus) : ce problème fut très tôt identifié et les premières générations de lecteurs CD furent équipés de circuits d'interpolation afin de suréchantilloner le signal numérique, et ainsi limiter la destruction des harmoniques et hautes fréquences.
Afin de pallier cette lacune, le DSD fut fixé à un haut taux d'échantillonnage (voir plus haut) et son principe de modulation permet avec un simple filtre du premier ordre (6 db/octave) de ne pas « écraser » les harmoniques[2]. Compte tenu de sa fréquence d'échantillonnage et son mode de fonctionnement, le CD est par exemple incapable de reproduire correctement un signal rectangulaire (riche en harmoniques) de 10 kilohertz, le résultat étant plus proche d'une sinusoïde (les harmoniques de rang supérieur à 2 sont éliminés)[2], malgré le suréchantillonnage. Le traitement du signal opéré avec le SA-CD permet de conserver les harmoniques et d'obtenir un signal respectant la source et donc une grande finesse de détails[2].
L'échantillonnage retenu à l'origine pour le CD reposait sur des critères technologiques, la qualité de reproduction des harmoniques n'ayant pas été jugée primordiale devant les impératifs de l'époque. La fréquence d’échantillonnage de 44,1 kHz était héritée d'une méthode de conversion numérique d'un signal audio en signal vidéo pour un enregistrement sur cassette vidéo.
CD | SACD | |
---|---|---|
Format | 16 bit PCM | 1 bit DSD |
Fréquence d'échantillonnage | 44 100 Hz | 2 822 400 Hz[3] |
Plage dynamique | 96 dB | 120 dB sur toute la plage de fréquences[3] |
Gamme de fréquence[4] | 20 Hz–20 kHz | 20 Hz–50 kHz en général[3], jusqu'à 100 kHz avec certains lecteurs[5] |
Capacité du disque | 700 MB | 7,95 GB |
Stéreo | Oui | Oui |
Son multicanal | Non | Oui |
Technologie de compression sans pertes : le DST
Afin de réduire l'espace de stockage et la bande passante requises, une méthode de compression sans pertes appelée Direct Stream Transfer (DST) est utilisée. Elle est obligatoire pour le programme multicanal, mais seulement optionnelle pour le programme stéréophonique. Le facteur de compression se situe entre deux et trois, ce qui permet, comme vu plus haut, de combiner 80 minutes d'un même programme en stéréo et en multicanal[6].
Le Direct Stream Transfer est notamment devenu un des points techniques du standard MPEG-4 Audio (également appelé MP4) (ISO/IEC 14496-3:2001/Amd 6:2005 - Lossless coding of oversampled audio) en 2005[7] - [8]. Celui-ci comporte les définitions du DSD et du DST telles que décrites dans les spécifications du Super Audio CD.
Le MPEG-4 DST fournit un codage sans pertes des signaux audio sur-échantillonnés[9] - [10]. Une implantation référentielle du MPEG-4 DST fut publiée en tant que ISO/IEC 14496-5:2001/Amd.10:2007 en 2007.
Sécurité du code
Le DSD, pour les besoins du Super Audio CD, comprend plusieurs mesures de protection des données qui rendent ce format impossible à copier de façon directe, au même titre que la couche CD conventionnelle 700 mégaoctets des disques hybrides. Cela inclut un chiffrement des données audio sur 80 bits à l'aide d'une clé codée dans une région spéciale du disque qui n'est lisible que par un lecteur Super Audio CD sous licence. La couche haute définition d'un SA-CD ne peut être lue par un lecteur CD/DVD d'ordinateur, tout comme il est impossible de créer un Super Audio CD autrement qu'aux deux sites de fabrication spécifiquement agréés, qui se trouvent à Shizuoka et Salzbourg[11].
Le Pit Signal Processing
Outre les mesures de sécurité du Super Audio CD susvisées, on trouve principalement le PSP ou Pit Signal Processing (pit signifiant « fosse » ou « fossé » en français, dans le contexte d'un disque numérique il se traduit par « encoche »), une empreinte physique qui consiste en une modulation de profondeur des encoches du disque (les données, elles, sont stockées dans la longueur des encoches comme sur un Compact Disc). Le capteur optique doit être doté d'un circuit spécial afin de la détecter et l'interpréter, puis est comparée avec les informations sur le disque afin de s'assurer de sa validité (il s'agit donc d'un chiffrement à double clé). Bien que la majorité des lecteurs DVD, DVD Audio et DVD-Rom puissent théoriquement lire les données d'un Super Audio CD (même galette, même densité de gravure et laser de lecture), ils ne peuvent les interpréter puisqu'ils ne sont pas équipés du circuit de décodage nécessaire, et ne les reconnaissent donc pas[12].
En ce qui concerne les Super Audio CD hybrides, le Pit Signal Processing s'applique uniquement à la couche SA-CD haute densité, et non à la couche CD.
Les contournements qui sont apparus
Un certain nombre de nouveaux lecteurs de Super Audio CD sont équipés de sorties numériques IEEE 1394 (également appelées FireWire ou i.Link) ou HDMI transportant des données DSD (dont certains modèles de la première ère de la PS3 de Sony font partie), d'où il serait possible d'obtenir le flux DSD en brut. Le mécanisme de protection utilisé est le DTCP (Digital Transmission Content Protection) et peut être sollicité dans les modes « Copier une fois » ou « Ne jamais copier ».
Une compagnie installée en Suisse, DVD Upgrades, a proposé à la fin années 2000 un circuit imprimé de sortie modifié qui prélève le signal numérique dans le flux de données juste avant l'étape de conversion numérique/analogique, ainsi qu'un port S/PDIF permettant de recueillir le flux DSD converti préalablement en PCM[13]. Cela permettait d'obtenir un signal numérique non DRM aussi bien d'un Super Audio CD que d'un DVD Audio.
Après l'arrivée début des années 2010 des téléchargements de fichiers DSD lisibles sur ordinateurs et transmissibles via S/PDIF ou câble Toslink vers un convertisseur, les tentatives de contournements des sécurités du disque deviennent inutiles aux yeux des pirates. Ces téléchargements offrent effectivement l'alternative de simples copies de fichiers, ce qui détourne toutes les protections du disque SA-CD.
Concurrence avec le PCM
L'avenir
Aspects commerciaux
En raison de l'échec commercial à grande échelle du Super Audio CD, celui-ci n'étant guère plus édité qu'à des fins audiophiles, mais à rythme régulier, le DSD ne semble pas voué à devenir un futur format majeur, sinon à demeurer dans l'audio haut de gamme et inconnu du grand public.
La qualité de fabrication d'un Super Audio CD est supérieure à un simple CD (le support physique en lui même est plus dense et un peu plus lourd qu'un simple CD).
Seul Sony possède les usines de pressage compatibles pour en fabriquer selon un processus de fabrication très précis, dont celle basée en Autriche, Sony DADC.
Sony a commercialisé fin janvier 2014, un enregistreur numérique de poche, le PCM-D100, compatible avec le format DSD (2,8 MHz/1 bit).
En avril 2014, AudioFEEL présente un projet proposant d'associer le principe DSD à un support média de type solid state (carte SD). L'idée est de créer un nouveau format 'populaire' capable de succéder aux formats optiques vieillissants : CD, SA-CD, DVD, etc[14].
Devant le peu d'intérêt suscité par le format DSD trop 'exclusif', ce projet sera finalement rebaptisé DA[SD]. Le premier lecteur proposé (d-play) sera compatible avec les formats DSD64 (2,8 MHz), DSD128 (5,6 MHz) et PCM/Flac de 16 bits/44,1 kHz à 24 bits/192 kHz.
Le DSD double taux et au-dessus
Le Korg MR-1000 est un enregistreur numérique 1-bit calibré sur un échantillonnage de 5 644 800 bits par seconde (communément simplifié en 5,6 MHz), soit le double de l'échantillonnage DSD existant actuellement. Il est également appelé DSD128 puisque le taux normal étant de 64 fs (1 fs = échantillonnage CD = 44,1 kHz), il est ici doublé à 128 fs. Il est prévu que le DSD à double taux soit exploité par d'autres marques et soit prochainement utilisé, mais dans une moindre mesure que le DSD classique (voir section précédente).
Depuis fin 2010, les studios d'enregistrement s'équipent de plus en plus de convertisseurs et stations MAO capables du DSD double taux, et l'exploit a été réussi en mai 2013 d'accomplir un enregistrement symphonique cadencé à 11 289 600 bits par seconde (communément simplifié en 11.2 MHz ou 256 fs)[15].
Références
- Data Converter Architectures Chapter 3 page 3.136 Consulté le 10 juin 2009
- « Connaître le SACD »(Archive.org • Wikiwix • Archive.is • Google • Que faire ?) (consulté le )
- (en) Surround Sound – The High-End: SACD and DVD-Audio – Super Audio CD (SACD), sur le site extremetech.com.
- Généralement donnée pour un signal simplement sinusoïdal.
- (en) www.SA-CD.net, site référençant les Super Audio CD
- practical-home-theater-guide.com Direct Stream Digital Technology, consulté le 3 juin 2009
- ISO/IEC, « ISO/IEC 14496-3:2001/Amd 6:2005 - Lossless coding of oversampled audio », ISO, (consulté le )
- ISO/IEC, « ISO/IEC 14496-4:2004/Amd 15:2007 - Lossless coding of oversampled audio », ISO, (consulté le )
- ISO/IEC JTC 1/SC 29/WG 11 N7465, « Description Lossless coding of oversampled audio », chiariglione.org, (consulté le )
- ISO/IEC JTC 1/SC 29/WG 11 N7465, « Description Lossless coding of oversampled audio », archive.org, (consulté le )
- « Sony Starts Hybrid Super Audio CD Production Facilities in Europe », SA-CD.net, (consulté le )
- « Details of DVD-Audio and SACD », DVDdemystified.com (consulté le )
- dvdupgrades.ch
- « AudioFEEL - "FEEL the Music!" », sur audiofeel.fr (consulté le ).
- « Taking DSD from 2.8 MHz to 11.2 MHz doesn't just step it up to the next level, it catapults it! », sur le site , consulté le vendredi 10/05/2013.