Entité nommée
Une entité nommée est une expression linguistique référentielle[1], souvent associée aux noms propres et aux descriptions définies.
Cet objet du langage a émergé avec le besoin d'applications de recherche d'information, en particulier lors des campagnes MUC financées par la DARPA, dans les années 90 aux États-Unis[2]. Dans ce contexte, les entités nommées peuvent être considérées comme ayant une visée essentiellement applicative[3]. Elles peuvent être objet de traitements à divers degrés de finesse[4] (détection, extraction, reconnaissance, liaison) et nécessitent généralement d'importantes ressources (par exemple des bases lexicales). Elles sont l'objet d'une tâche du traitement automatique du langage naturel appelée reconnaissance d'entités nommées.
Appréhension historique
Dans le cadre des travaux en recherche d'information, la capacité pour une machine de comprendre et d'indexer correctement un document est devenu un enjeu majeur. Parmi les objets du langage particulièrement sollicités figurent :
- Les personnes (ou anthroponymes) : entités humaines, réelles ou fictives, contemporaines ou historiques,
- Lieux (ou toponymes) : entités localisées géographiquement,
- Organisations (ou ergonymes) : sociétés, institutions, gouvernements, etc.
Traitement et difficultés
Exploiter les entités nommées est maintenant devenu un élément incontournable d'un grand nombre de processus impliquant le traitement automatique du langage naturel ou la fouille de textes[5]. Cela nécessite généralement d'utiliser des bases lexicales volumineuses, aussi exhaustives que possible, des entités à référencer, de concert avec des méthodes contextuelles permettant de déterminer quelle entité est mentionnée dans un texte donné.
Les entités nommées sont sujettes, entre autres, à trois phénomènes compliquant leur reconnaissance et leur liaison : la synonymie (il peut y avoir de nombreuses expressions pour une entité donnée), l'homonymie (une expression linguistique donnée peut être associée à des entités distinctes selon le contexte) et la métonymie (une expression linguistique, dans un contexte donnée, peut être associée à une entité différente de celle qu'elle désigne habituellement).
Par ailleurs, les entités nommées sont réputées être une classe ouverte : il est impossible d'en faire une liste complète, et de nouvelles entités (ou dénomination d'entités) sont continuellement créées. Leur traitement est ainsi d'autant plus difficile que l'on cherche à reconnaître des entités rares ou nouvelles (donc absentes de la base lexicale). Ceci explique que les exemples pédagogiques ne puissent pas rendre compte de la difficulté de la tâche lorsque l'on sort du domaine général.
Les dernières évolutions en matière de traitement des entités nommées se tournent vers la liaison de ces dernières à un référentiel (par exemple DBpedia ou Wikidata) : il s'agit non seulement de déterminer quelle est la catégorie d'une expression linguistique, mais également quel individu d'une base de connaissances est mentionné (ce qui résout le cas particulier des homonymes).
Notes et références
- Michel Charolles, La référence et les expressions référentielles en français, Ophrys, , 258 p. (ISBN 978-2-7080-1014-7, lire en ligne)
- (en) Ralph Grishman et Beth Sundheim, « Design of the MUC-6 evaluation », Tipster'96 Proceedings,
- Maud Ehrmann, Les entités nommées, de la linguistique au TAL : statut théorique et méthodes de désambiguïsation (thèse de doctorat en Linguistique théorique, descriptive et automatique), (lire en ligne )
- Damien Nouvel, Maud Ehrmann et Sophie Rosset, Les entités nommées pour le traitement automatique des langues, , 168 p. (ISBN 978-1-78405-104-4, lire en ligne)
- Damien Nouvel, Reconnaissance des entités nommées par exploration de règles d'annotation,