Traitement de la parole

Le traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole.

Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse

à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ;
à l'amélioration de l'intelligibilité quand le signal est dégradé ;
à l'identification de la personne qui parle ;
à l'établissement automatique d'un texte écrit à partir de la parole ;
à la synthèse de la parole à partir d'un texte écrit.

Les caractères expressifs (au sens de l'art dramatique) et musicaux de la voix humaine font partie du domaine plus vaste du traitement du signal.

Les principales disciplines qui contribuent aux technologies du traitement de la parole sont

la psychoacoustique
la phonétique
la phonologie
les méthodes générales du traitement du signal

Histoire

L'émergence à la fin du XIX^e siècle d'une puissante industrie du téléphone, marque le début de l'effort de recherche en traitement de la parole. Passé les premières expérimentations, et les premiers appareils offrant peu de confort d'écoute, l'industrie téléphonique naissante lance des études pour déterminer les caractéristiques de base d'un signal décrivant la parole, à acheminer sur ses lignes. Dans les années 1920, l'invention de l'électronique multiplie les possibilités de traitement du signal; on détermine la bande passante et la dynamique sonore nécessaires à l'intelligibilité de la parole.

La bande passante nécessaire, normalisée[1], est de 300 Hz à 3 400 Hz (soit trois octaves et demie à peu près du ré3 au la7)[2].
La dynamique sonore dans la transmission est d'environ 30 dB.

Ces études sont nécessaires pour permettre l'acheminement de plusieurs signaux sur la même paire de conducteurs (multiplexage).

Une vingtaine d'années plus tard, les bases théoriques du traitement du signal (théorème d'échantillonnage, théorie de l'information) sont établis, à partir de l'expérience des télécommunications et de la radiodiffusion.

En 1933, le premier système de synthèse vocale est construit, à partir de l'enregistrement de mots, pour l'horloge parlante.

L'application de l'électronique avec la possibilité d'enregistrer et d'analyser le signal dans un sonagramme stimule, à la même époque, les études phonétiques, phonologiques et psychoacoustiques.

Dans les télécommunications, la recherche de l'efficacité de la transmission de la voix inspire l'idée de ne plus transmettre le son, mais des commandes de synthèse vocale effectuée par un appareil à la réception. Le Vocoder est inventé en 1939, avec le bénéfice annexe de permettre le cryptage du signal téléphonique.

La technologie informatique trouve dans le traitement de la parole une application où une grande industrie peut concentrer les moyens de recherche et financer des appareils dont le coût est réparti sur des millions d'usagers.

Domaines

Codeurs

Les codeurs de paroles, suite directe des recherches sur l'exploitation des réseaux téléphoniques, transforment le signal audible en un débit aussi réduit que possible d'information.

Un codeur spécifique à la parole doit obtenir de meilleurs résultats qu'un codeur généraliste (comme le mp3).

Analyseurs

Les analyseurs de paroles transforment le signal porteur de la parole en une description de ses caractéristiques, sans se préoccuper de sa signification. Cette description peut servir à la commande d'un synthétiseur (Vocoder).

Ils peuvent servir à quantifier l'intelligibilité du signal transmis par un système.

Ils constituent la première étape pour les traitements de reconnaissance du locuteur et de reconnaissance du texte, pour lesquels ils constituent collections de données.

Reconnaissance de locuteurs

Ces dispositifs identifient la personne qui prononce un texte.

Il y a deux problèmes distincts, d'une complexité croissante :

vérifier l'identité d'un locuteur qui répète un texte connu à l'avance, comme la signature authentifie un texte écrit ;
identifier le ou les locuteurs dans un signal qui en comporte plusieurs, sur un texte quelconque et non connu à l'avance.

Reconnaissance de la parole

Il s'agit de passer des caractéristiques du signal à un texte intelligible.

La difficulté augmente avec la complexité du problème à traiter

nombre de locuteurs possibles : il est plus simple de régler un système pour un locuteur unique dont les façons de parler sont connues ;
nombre de mots possibles : il est plus simple d'élaborer un système chargé de reconnaître seulement une liste de mots-clé ;
variation du flux : il est plus simple de reconnaître un mot isolé que de constituer des phrases dans un flux ...

Synthèse de la parole

Les synthétiseurs ont pour objectif de transformer en signal,

soit un relevé des caractéristiques produit par un analyseur,
soit un texte.

Aucune langue ne possède une écriture totalement phonétique, et la parole comporte des intonations, comme celles qui marquent l'organisation des phrases, qui ne sont qu'indirectement inscrites dans le texte. Un synthétiseur doit résoudre ces difficultés, et aussi traiter le problème des mots nouveaux ou étrangers.

Annexes

Bibliographie

Pierre Escudier et Jean-Luc Schwartz, La parole : Des modèles cognitifs aux machines communicantes, Paris, Hermès - Lavoisier, 2000, 406 p.
René Boite, Hervé Bourlard, Thierry Dutoit, Joël Hancq et Henri Leich, Traitement de la parole, Lausanne, PPUR, 2000, 488 p.
Mohamed Zakaria KURDI, Traitement automatique des langues et linguistique informatique - Tome 1, Parole, morphologie et syntaxe, ISTE, 2017.

Liens externes

Introduction au traitement automatique de la parole, Faculté Polytechnique de Mons

Notes et références

Norme ITU T M 1040 lire en ligne.
Chez Bell telephone en 1930, on considère une bande passante de 250 Hz à 2 750 Hz, fréquences avec atténuation de 10 dB par rapport à 1 000 Hz ((en) W.H. Martin, « Transmitted Frequency Range for Telephone Message Circuits », Bell Systems Technical Journal, vol. 9, n^o 3,‎ juillet 1930 (lire en ligne)).

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.