Extraction terminologique
L'extraction terminologique est une application du traitement automatique du langage naturel qui consiste à extraire automatiquement une liste de termes à partir d'un corpus spécialisé. Les logiciels réalisant l'extraction terminologique sont appelés extracteurs de termes.
Applications
Les termes extraits par l'extracteur de termes peuvent être utilisés de plusieurs façons :
- Terminologie assistée par ordinateur : Dans ce cas, l'extracteur de termes aide le terminologue dans sa tâche en lui "prémâchant" le travail. On parle alors de candidats-termes et non de termes. Le/la terminologue dépouille la liste de candidats-termes (phase dite de dépouillement terminologique) proposés par l'extracteur et sélectionne les termes qu'il ou elle souhaite ajouter à la terminologie en cours de construction.
- Création de ressources bilingues : Une fois extraits, les termes peuvent être alignés avec leurs traductions. Ceci permet de créer des dictionnaires spécialisés/glossaires/terminologies bilingues utiles pour la traduction humaine et la traduction automatique
- Indexation automatique (Voir l'article dédié): Les termes extraits peuvent être utilisés comme descripteur ou mot-clé pour indexer des documents de façon qu'ils soient accessibles via un moteur de recherche.
- Création d'index thématiques : Les termes peuvent être utilisés comme entrées d'un index thématique que ce soit pour un livre, un manuel ou pour un site web (ex.: nuages de mots clés). Dans ce cas, ils aident le lecteur/l'internaute à s'orienter dans le document, en lui donnant un accès direct aux thématiques traitées.
Indices pour l'identification automatique des termes
Les indices utilisés pour l'identification automatique de termes sont de trois sortes :
- Spécificité du terme : Le terme est bien plus courant dans le corpus spécialisé qu'il ne l'est dans un corpus de langue générale.
- Forme : Le termes sont bien souvent des syntagmes nominaux mais peuvent aussi être des syntagmes verbaux ou adjectivaux. Dans tous les cas, on s'attachera à reconnaître un syntagme bien formé, le plus souvent en s'appuyant sur des patrons morpho-syntaxiques.
- Cohésion : Si le terme est composé de plusieurs mots, ceux-ci montrent un fort degré de cohésion, c'est-à -dire qu'ils apparaissent fréquemment ensemble (on dit qu'ils cooccurrent fréquemment).
Généralement, l'extracteur de termes prend en entrée un corpus pré-traité : les textes du corpus ont été découpés en phrases, les phrases sont découpées en mots et les mots ont été étiquetés.
Liens externes
Sites traitant de l'extraction terminologique
Extracteurs plutôt destinés à la terminologie assistée par ordinateur
- Yatea
- BioTex, application d'extraction automatique de termes biomédicaux.
- Acabit
- TranslatedLabs
Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.