Accueil🇫🇷Chercher

G.722.2

Le G.722.2 est une norme de compression audio de l'UIT-T (Union internationale des tĂ©lĂ©communications). Ce protocole est Ă©galement normalisĂ© par l'ETSI sous le nom AMR-WB (Adaptive Multi Rate - Wide Band). Ce codec est appelĂ© « large bande Â» car il permet une bande passante plus grande que celle des tĂ©lĂ©phones classiques (fixes et mobiles).

  • FrĂ©quence d'Ă©chantillonnage : 16 000 Hz
  • Bande passante audio : 50 Ă  7 000 Hz
  • DĂ©bit sur le rĂ©seau : de 6,60 Ă  23,85 kbit/s

Qualité des communications téléphoniques – rappel historique

L’amélioration des communications téléphoniques a été une préoccupation permanente des industriels et des opérateurs : une période récente riche en évolution technologique a permis l’émergence de la voix en bande élargie (normes G.722 et G722.2) également appelée voix HD (Haute Définition).

Que ce soit en téléphonie fixe, mobile ou en VoIP le transport de la parole sur les réseaux de télécommunication s'effectue au travers d'une chaîne comportant invariablement une partie acoustique (microphone, écouteur), un échantillonnage pour numériser le signal, des traitements de correction des défauts (bruit, écho acoustique) et un dispositif de codage.

Du fait de la relation entre la frĂ©quence d'Ă©chantillonnage et la bande passante du signal transmis (thĂ©orème d'Ă©chantillonnage de Nyquist-Shannon), l'Ă©chantillonnage dĂ©finit la qualitĂ© intrinsèque du signal. En tĂ©lĂ©phonie standard, le codec le plus utilisĂ© est le G.711 ; la bande passante est de « 300 Hz, 3 400 Hz Â» pour une frĂ©quence d'Ă©chantillonnage de kHz (article « traitement de la parole Â»). Ceci rĂ©sulte des limitations techniques initiales du RĂ©seau tĂ©lĂ©phonique commutĂ©. Cette gamme de frĂ©quence est suffisante pour comprendre l'interlocuteur distant mais est loin de couvrir la gamme de frĂ©quences de la parole humaine (50 Hz – 12 kHz) et a fortiori celle de l'audition (20 Hz, 20 kHz chez un sujet jeune). Cette restriction se traduit par une voix plus pauvre, moins fidèle et des confusions de certains sons en particulier les sifflantes "ss" et "ff" dont le pic d'Ă©nergie est dans le haut du spectre au-delĂ  de kHz. En conditions dĂ©favorables, par exemple en environnement bruyant, la comprĂ©hension est plus difficile. Il en est de mĂŞme lors de communications en langue Ă©trangère.

Outrepasser ces limitations constitue depuis longtemps une ambition des acteurs des tĂ©lĂ©communications. Dès la fin des annĂ©es 1980, la normalisation Ă  l'UIT-T du codeur G.722 posait le cadre de la tĂ©lĂ©phonie en bande Ă©largie c'est-Ă -dire offrant une gamme de frĂ©quence Ă©tendue Ă  « 50 Hz – kHz Â» pour un Ă©chantillonnage Ă  16 kHz et se dĂ©tachant nettement de la tĂ©lĂ©phonie traditionnelle appelĂ©e dorĂ©navant tĂ©lĂ©phonie bande Ă©troite. Outre la largeur de bande et le format de codage, la norme G.722 dĂ©finit Ă©galement l'ensemble des exigences de qualitĂ© en ce qui concerne le rapport signal Ă  bruit, la distorsion…
L'époque était celle du RNIS dont on espérait un déploiement et une adoption massifs. Ce ne fut pas le cas et l'usage du codeur G.722 fut restreint aux applications professionnelles notamment les terminaux pour radio reporters, la visioconférence.

La tĂ©lĂ©phonie en bande Ă©largie rĂ©clame deux ingrĂ©dients techniques majeurs: un rĂ©seau transparent et de qualitĂ© – c'est-Ă -dire qui transporte sans modification le signal codĂ© par exemple en G.722 – et des terminaux dont les caractĂ©ristiques audio et acoustique respectent la qualitĂ© « large bande Â» du signal de parole. Ă€ l'Ă©poque, les deux conditions n'Ă©taient pas rĂ©unies. Le rĂ©seau RNIS n'ayant pas connu le succès escomptĂ© et l'Ă©tat de la technologie tant en acoustique qu'en traitement du signal ne permettait pas de disposer de terminaux ayant les caractĂ©ristiques attendues tout au moins pour un marchĂ© grand public.

La concrétisation de la téléphonie bande élargie vint donc nettement plus tard. Ce fut tout d'abord dans la première moitié des années 2000 au travers des softphones, c'est-à-dire des solutions logicielles fonctionnant sur ordinateur (PC essentiellement) et permettant d'établir une communication vocale au travers d'un réseau IP (Internet par exemple). Après une première période "bande étroite", ces solutions firent assez rapidement appel à des codeurs bande élargie (codec Siren (en) pour XP Messenger de Microsoft en 2001, iSAC (en) de GIPS pour Skype à la fin 2003). En dépit de certaines difficultés techniques – dont la gestion des accès audio ou de la fonction mains libres par exemple – l'usage des "PCs" lève une bonne partie des obstacles précédemment mentionnés. La puissance des machines permettait dès cette époque de réaliser les traitements temps réel nécessaires, les accessoires multimédias (casque, microphone, enceinte) respectait la qualité bande élargie. Quant au réseau Internet, s'il n'y a pas de garantie de Qualité de Service, pour le moins il est transparent au format codé du média. Le succès de ces solutions de softelephony ne fut pas accompagné d'une communication sur la qualité et la bande élargie mais plutôt sur la gratuité et le couplage voix data. Tout au plus, on relevait des commentaires d'utilisateurs appréciant la qualité des communications lorsque le réseau était non congestionné.

L'étape suivante date de la deuxième moitié des années 2000 avec la généralisation des offres de Voix sur IP (VoIP), tant pour le grand public au travers des passerelles domestiques ("Box" ) que sur les réseaux d'entreprise et la disponibilité croissante de terminaux bande élargie. Les progrès en matière de transducteurs acoustiques (écouteurs et haut-parleurs), la puissance croissante des processeurs équipant les terminaux facilitent alors la disponibilité de terminaux conforme aux exigences de la bande élargie. Encore fallait-il pour le contexte domestique que les terminaux sans fil soient également compatibles. C'est le cas depuis que l'évolution du DECT au travers de la norme CAT-iq (pour Cordless Advanced Telephony – Internet and Quality) définit le support du codeur G.722 sur l'interface DECT. Cette norme approuvée par l'ETSI a été intégrée dans la plupart des produits.

C'est également à cette époque que la terminologie "Haute Définition" (HD) est apparue pour désigner la téléphonie en bande élargie. Que ce soit la "Voix Haute Définition" d'Orange, le "High Definition Sound" de Bouygues Telecom ou encore "HD Voice" de Polycom, les acteurs du domaine s'inspirent alors largement de la HD TV pour leur communication à l'intention du grand public.

La téléphonie mobile embraie à son tour à la fin des années 2000 avec le déploiement du codeur WB-AMR sur certains réseaux 3G UMTS, puis sur les réseaux 4G (VoLTE).

La voix HD pour quelle qualité et quels bénéfices?

Élargir le spectre de frĂ©quences des communications tĂ©lĂ©phoniques Ă  la gamme [50 Hz – kHz] amĂ©liore nettement deux dimensions perceptives: le confort et l'intelligibilitĂ©.

  • Ce confort est liĂ© au spectre plus large de la parole (en particulier dans les basses frĂ©quences) et de l'amĂ©lioration des autres facteurs techniques qui peuvent ĂŞtre la rĂ©duction des niveaux de bruit et de la distorsion du signal. Ces amĂ©liorations rĂ©sultent de l'attention apportĂ©e par les industriels dans le cadre de la Voix HD Ă  l'ensemble de ces facteurs.

Sur un plan plus fonctionnel, l'intelligibilitĂ© de la conversation profite Ă©galement de la bande Ă©largie, (article Polycom). La reproduction d'un spectre de frĂ©quences plus large aide le système cognitif Ă  mieux reconnaĂ®tre les mots prononcĂ©s. Les sons non-voisĂ©s (tels les sifflantes « s » et « f », les consonnes) ont un spectre d'Ă©nergie qui dĂ©passe la limite des 3 400 Hz de la tĂ©lĂ©phonie traditionnelle. L'indice d'articulation (Articulation Score en anglais) est le pourcentage de reconnaissance correcte de syllabes ou de mots dans une liste ou dans une phrase. Dans le cas de syllabes, cet indice passe de 75 % pour un signal de parole limitĂ© Ă  3,3 kHz Ă  95 % pour une bande de frĂ©quence de kHz. Cet accroissement de l'intelligibilitĂ© est particulièrement apprĂ©ciable dans des conditions dĂ©favorables, par exemple en environnement bruyant ou dans le cas de communications en langue Ă©trangère. Il en rĂ©sulte une moindre fatigue et une efficacitĂ© accrue particulièrement intĂ©ressante pour les secteurs professionnels. Plus d'appels tĂ©lĂ©phoniques peuvent ĂŞtre passĂ©s dans plus d'endroits (lieux bruyants, transports).

La mesure de cette amĂ©lioration de qualitĂ© est rĂ©alisĂ©e au travers de tests subjectifs effectuĂ©s selon des critères dĂ©finis par des normes internationales (recommandation P.800). Sur l'Ă©chelle MOS qui comporte 5 niveaux (de 1 qualitĂ© mĂ©diocre Ă  5 qualitĂ© excellente), la diffĂ©rence entre bande Ă©troite et bande Ă©largie est de l'ordre de 1,0 MOS. Le seuil de diffĂ©rence juste perceptible Ă©tant de l'ordre de 0,2 MOS, la bande Ă©largie se distingue donc très nettement de la bande Ă©troite.

Les composantes techniques de la Voix Haute DĂ©finition

L'ensemble de la chaîne audio doit respecter les critères de qualité de la bande élargie, à savoir la réponse en fréquence étendue à kHz, les niveaux de bruit et de distorsion inférieurs à certains seuils.

Ces exigences concernent tant l'ensemble des traitements réalisés dans le terminal: échantillonnage, codage de la parole … que l'acoustique de ce même terminal. Les composants matériels sont bien sûr les mêmes dans le cas de communications bande étroite. Celles-ci bénéficient donc des exigences de qualité "bande élargie" imposées aux éléments acoustiques (microphone, écouteur, …). Ce dernier point est déterminant car dans les premières phases du déploiement de la Voix Haute Définition, le nombre de terminaux HD est faible. La probabilité de passer un appel en bande élargie l'est encore plus. Mais le possesseur d'un terminal HD est assuré d'avoir pour tous ses appels (y compris en bande étroite) la meilleure qualité possible.

Il ne suffit pas que le terminal respecte ces exigences, encore faut il que le réseau offre une qualité de service (Quality Of Service - QoS) garantie tant en ce qui concerne la disponibilité du service de communication que la performance du transport (délai de bout en bout réduit, taux d'erreurs sur le canal radio, …). Ce sont les règles d'ingénierie et de dimensionnement du réseau qui permettent de garantir cette QoS.

Pour une meilleure qualité d'utilisation, les terminaux Voix HD embarquent généralement des fonctions telles le "main libre" et le dé-bruitage. Celui-ci est particulièrement déterminant pour les communications mobiles qui dans une proportion importante sont passées depuis des environnements bruyants. Comme les autres composants d'un service de communication Voix HD, mains libres et dé-bruitage doivent répondre à des critères de performance.

Le codeur WB-AMR

Le codeur ou codec est le dispositif qui dans la chaĂ®ne de communication adapte le signal Ă  transmettre – ici la parole - au rĂ©seau de transport. La fonction première du codeur est la compression de dĂ©bit. Ă€ l'Ă©mission, le codeur produit un flux codĂ© c'est-Ă -dire une reprĂ©sentation des Ă©chantillons de parole sur un nombre de bits compatible avec les capacitĂ©s du rĂ©seau de transmission. C'est ce format codĂ© qui circule sur le rĂ©seau. Ă€ la rĂ©ception, le dĂ©codeur rĂ©gĂ©nère un signal qui d'un point de vue perceptuel doit ĂŞtre le plus proche possible du signal de parole original. Ă€ titre d'exemple, un signal de parole bande Ă©largie est Ă©chantillonnĂ© Ă  16 kHz, les Ă©chantillons sont reprĂ©sentĂ©s sur 16 bits. Le dĂ©bit original est donc de 256 kbit/s. Pour ĂŞtre compatible avec la capacitĂ© des rĂ©seaux mobiles, le codeur WB-AMR dĂ©crit ci-dessous, ramène ce dĂ©bit Ă  12,65 kbit/s. Cette rĂ©duction de dĂ©bit doit se faire en respectant plusieurs contraintes:

  • une dĂ©gradation la plus faible possible de la qualitĂ© de la parole,
  • un coĂ»t en calcul compatible avec les puissances des processeurs prĂ©sents dans les terminaux,
  • un retard introduit dans la chaĂ®ne de communication le plus faible possible,
  • une robustesse aux erreurs de transmission survenant sur la chaĂ®ne de communication.

Pour parvenir à ces fins, le codage de parole fait appel à des techniques algorithmiques qui tirent parti des propriétés de la parole et de celles de l'audition humaine.

Il existe plusieurs familles de codeurs de parole (référence). Certains sont normalisés c'est-à-dire développés ou sélectionnés dans le cadre d'une action de normalisation lancée par un organisme international tel le 3GPP ou l'ITU-T. La solution retenue résulte généralement d'une compétition entre plusieurs candidats selon des critères connus et partagés par les acteurs. Puisqu'il s'agit de format de communication, il est crucial de s'assurer de leur interopérabilité c'est-à-dire que l'émetteur et le récepteur, quel qu’ils soient, puissent communiquer. À cet effet, la description précise de la norme de codage est publique, des séquences de test permettent de s'assurer de la bonne implantation de l'algorithme de codage.

Sur les réseaux mobiles, la ressource radio étant limitée, le débit du codage de parole doit demeurer faible. Du fait des erreurs survenant sur le canal radio, le codeur doit également être robuste aux erreurs de transmission. La technologie AMR (Adaptive Multi-Rate) a été développée dans ce but. Il s'agit d'un codeur multi débits c'est-à-dire pouvant fonctionner à plusieurs débits (ou modes). Le choix du mode répond à un compromis entre la qualité de la parole (c.a.d le débit du codeur), le niveau de qualité du lien radio (C/I, niveau de champ rapporté aux interférences) et la capacité de la cellule.

Par exemple, lorsque les conditions radios sont bonnes (C/I élevé), le mode ayant un débit parole plus élevé et un codage canal plus faible sera choisi. A contrario, lorsque les conditions radio se dégradent (le rapport C/I baisse), il sera nécessaire d’augmenter le codage canal et donc de passer à un mode AMR plus faible.

Le codeur AMR a Ă©tĂ© normalisĂ© par le 3GPP (3rd Generation Partnership Project, instance de normalisation pour les rĂ©seaux mobiles cellulaires) en 1999. S'appliquant Ă  des signaux bande Ă©troite, il comporte 8 modes : 12,2 kbit/s, 10,2 kbit/s, 7,95 kbit/s, 7,4 kbit/s, 6,7 kbit/s, 5,9 kbit/s, 5,15 kbit/s et 4,75 kbit/s. Il est largement employĂ© sur les rĂ©seaux mobiles 2G et 3G.

Bâti sur le mĂŞme modèle, le codeur WB-AMR destinĂ© Ă  la bande Ă©largie a quant Ă  lui Ă©tĂ© normalisĂ© en 2000 au 3GPP (Release 5). Il a Ă©tĂ© Ă©galement reconnu comme norme par l'ITU-T en juillet 2003 sous le nom de G.722.2. Le codeur WB-AMR comporte 9 modes dont seuls 5 sont obligatoires dans les terminaux : 6,6 kbit/s, 8,85 kbit/s, 12,65 kbit/s, 15,85 kbit/s, 23,85 kbit/s. Sur les rĂ©seaux 2G, seuls les 3 dĂ©bits infĂ©rieurs peuvent ĂŞtre employĂ©s. Sur les rĂ©seaux 3G, les cinq dĂ©bits sont utilisables. Toutefois, sur le plan de la qualitĂ©, pour la parole, les deux dĂ©bits supĂ©rieurs se distinguent peu du mode 12,65 kbit/s tout en consommant notablement plus de ressource radio. Aussi, les dĂ©ploiements du codeur WB-AMR se limitent-ils gĂ©nĂ©ralement aux 3 modes infĂ©rieurs. Ceci est d'autant plus justifiĂ© qu'Ă  12,65 kbit/s - dĂ©bit très proche du plus Ă©levĂ© de l'AMR (12,2 kbit/s) - la couverture radio et la capacitĂ© cellulaire du codeur WB-AMR sont très proches de celles de l'AMR.

À l'instar de l'AMR, le codeur WB-AMR utilise la technologie ACELP (Algebraic Code Excited Linear Prediction) qui s'appuie sur une modélisation du système de production de la parole. Il est également doté de mécanismes de transmission discontinue ("DTX") permettant d'optimiser la consommation de la ressource radio en ne transmettant pas de signal lors des périodes de non-activité vocale. Pour cela, à l'encodeur, un détecteur d'activité vocale (VAD pour "Voice Activity Detection") discrimine les instants de parole de ceux de silence ou de bruit. Au décodeur, un générateur de bruit de confort (CNG pour "Comfort Noise Generator") régénère un signal le plus proche possible du bruit original. Au décodeur, des dispositifs de correction de trames corrompues permettent de réduire l'effet des erreurs survenant sur le canal radio. Le décodeur est prévenu de l'état de chaque trame (entièrement préservée, partiellement corrompue, entièrement corrompue) au moyen d'informations fournies par les couches réseau.

L'évaluation de la qualité du codeur WB-AMR au travers de différents tests subjectifs réalisés par l’industrie (notation MOS – Mean Opinion Score ou Note d'opinion moyenne) montre que:

  • pour de la parole, cette qualitĂ© progresse de 6,6 kbit/s Ă  12,65 kbit/s, puis reste Ă  peu près constante jusqu'au dĂ©bit de 23,85 kbit/s,
  • Ă  12,65 kbit/s, elle est quasi Ă©quivalente Ă  celle du codeur G.722 utilisĂ© pour la tĂ©lĂ©phonie fixe en bande Ă©largie,
  • la diffĂ©rence par rapport au codeur bande Ă©troite AMR est de l'ordre de 1,0 MOS.

Voix HD sur réseau mobile

Pour disposer de la Voix Haute Définition sur un réseau mobile, l’ensemble des éléments, terminal inclus, doit être adapté pour supporter le codeur AMR-WB :

Terminal :

  • Le chipset Ă©quipant le terminal (tĂ©lĂ©phone ou smartphone) doit bien sĂ»r embarquer le codeur AMR-WB qui doit ĂŞtre inscrit dans la liste des codeurs (codecs) Ă©changĂ©e avec le rĂ©seau lors de l'Ă©tablissement d'appel.
  • De manière Ă  restituer la qualitĂ© bande Ă©largie, l'acoustique (microphone et Ă©couteur) et l'Ă©lectronique doivent ĂŞtre conformes aux critères de la bande Ă©largie tant en ce qui concerne la rĂ©ponse en frĂ©quence que la distorsion, rapport signal Ă  bruit, etc.

RĂ©seaux :

  • Le rĂ©seau doit reconnaĂ®tre le codeur AMR-WB et assurer le transport bout en bout des trames codĂ©es, ceci sans aucune transformation. L'ensemble des Ă©lĂ©ments du rĂ©seau doit Ă©voluer Ă  cet effet. Tant dans le rĂ©seau d'accès (BTS/BSC en 2G, Node B/RNC en 3G, eNode B en 4G) que dans le rĂ©seau cĹ“ur (MSC-S/MGW).
  • En particulier pour garantir la transparence au format codĂ© en AMR-WB, doit ĂŞtre supportĂ© le mode TrFO (Transcoder Free Operation) pour les rĂ©seaux 3G/UMTS et le mode TFO (Tandem Free Operation) pour les rĂ©seaux 2G/GSM. Ces modes garantissent qu'aucune opĂ©ration n'est effectuĂ©e sur le signal codĂ© en AMR-WB au cours de sa traversĂ©e du rĂ©seau. En particulier le transcodage habituellement appliquĂ© au signal de parole est supprimĂ© pour les appels mobile Ă  mobile.
  • Dans les rĂ©seaux 4G/LTE, les codecs AMR-WB sont utilisĂ©s pour le transport de la voix sur les rĂ©seaux LTE proposant le service VoLTE (voix sur LTE). Ce service nĂ©cessite des smartphones Ă©quipĂ©s du codec AMR-WB.

DĂ©ploiement de la Voix HD

En 2010 40 réseaux mobiles étaient déjà ouverts pour le service Voix HD dans 6 pays : La Moldavie, l'Arménie, la Belgique, la France, l'Espagne et l'Angleterre. Dans son communiqué de presse du [1], Orange a annoncé la Voix HD sur l'ensemble de son réseau 3G/3G+.

Licences

L’utilisation des codecs AMR (Narrow Band ou Wide Band) n’est pas libre de droit. Leur utilisation dans une application informatique ou un terminal (fixe ou mobile) impose l’acquisition d’une licence.

Notes et références

  1. La Haute Définition mobile a trouvé sa voix orange.com, le 23 novembre 2010, voir archive

Voir aussi

Articles connexes

Lien externe

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.