Accueil🇫🇷Chercher

Extraction terminologique

L'extraction terminologique est une application du traitement automatique du langage naturel qui consiste à extraire automatiquement une liste de termes à partir d'un corpus spécialisé. Les logiciels réalisant l'extraction terminologique sont appelés extracteurs de termes.

Applications

Les termes extraits par l'extracteur de termes peuvent être utilisés de plusieurs façons :

  • Terminologie assistĂ©e par ordinateur : Dans ce cas, l'extracteur de termes aide le terminologue dans sa tâche en lui "prĂ©mâchant" le travail. On parle alors de candidats-termes et non de termes. Le/la terminologue dĂ©pouille la liste de candidats-termes (phase dite de dĂ©pouillement terminologique) proposĂ©s par l'extracteur et sĂ©lectionne les termes qu'il ou elle souhaite ajouter Ă  la terminologie en cours de construction.
  • CrĂ©ation de ressources bilingues : Une fois extraits, les termes peuvent ĂŞtre alignĂ©s avec leurs traductions. Ceci permet de crĂ©er des dictionnaires spĂ©cialisĂ©s/glossaires/terminologies bilingues utiles pour la traduction humaine et la traduction automatique
  • CrĂ©ation d'index thĂ©matiques : Les termes peuvent ĂŞtre utilisĂ©s comme entrĂ©es d'un index thĂ©matique que ce soit pour un livre, un manuel ou pour un site web (ex.: nuages de mots clĂ©s). Dans ce cas, ils aident le lecteur/l'internaute Ă  s'orienter dans le document, en lui donnant un accès direct aux thĂ©matiques traitĂ©es.

Indices pour l'identification automatique des termes

Les indices utilisés pour l'identification automatique de termes sont de trois sortes :

  • SpĂ©cificitĂ© du terme : Le terme est bien plus courant dans le corpus spĂ©cialisĂ© qu'il ne l'est dans un corpus de langue gĂ©nĂ©rale.
  • Forme : Le termes sont bien souvent des syntagmes nominaux mais peuvent aussi ĂŞtre des syntagmes verbaux ou adjectivaux. Dans tous les cas, on s'attachera Ă  reconnaĂ®tre un syntagme bien formĂ©, le plus souvent en s'appuyant sur des patrons morpho-syntaxiques.
  • CohĂ©sion : Si le terme est composĂ© de plusieurs mots, ceux-ci montrent un fort degrĂ© de cohĂ©sion, c'est-Ă -dire qu'ils apparaissent frĂ©quemment ensemble (on dit qu'ils cooccurrent frĂ©quemment).

Généralement, l'extracteur de termes prend en entrée un corpus pré-traité : les textes du corpus ont été découpés en phrases, les phrases sont découpées en mots et les mots ont été étiquetés.

Voir aussi

Liens externes

Sites traitant de l'extraction terminologique

Extracteurs plutôt destinés à l'indexation

Extracteurs plutôt destinés à la terminologie assistée par ordinateur

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.