Wikimeta
Wikimeta est un outil d'annotation de texte compatible avec le Web sémantique utilisant les ressources de DBpedia en tant que liens documentaires. Il est disponible exclusivement en tant que service Web, non libre mais gratuitement accessible pour les chercheurs. C'est également un système d'annotation offrant des fonctionnalités de traitement automatique du langage tels que les entités nommées ou l'étiquetage grammatical[1].
Dernière version | 1.8 () |
---|---|
Environnement | Service Web, Java (langage), Perl (langage) |
Type | Web sémantique, Web des données (Linked Data) |
Site web | « www.wikimeta.com/fr »(Archive.org • Wikiwix • Archive.is • Google • Que faire ?) |
Historique
Wikimeta est une plateforme d'annotation sémantique dont le développement a commencé en 2008 au Laboratoire Informatique d'Avignon. L'origine du projet repose sur l'élaboration d'une ontologie statistique dérivée de Wikipédia intitulée NLGbAse et dont la finalité est d'aider à la mise au point de système de désambiguïsation pour l'étiquetage d'entités nommées[1]. Un système d'étiquetage d'entités nommées fut mis au point et présenté lors de la campagne Ester[2]. Ce système fut ensuite complété par un étiqueteur sémantique compatible avec les formats et standards du Web sémantique. Une preuve de concept fut présentée à la conférence TALN en 2011[3]. Le développement d'une plateforme d’annotation sémantique complète fut ensuite réalisé. Cette plateforme d'annotation repose largement sur l'ontologie NLGbAse. Actuellement cette plateforme est maintenue par un laboratoire de recherche privé. Si le projet n'est pas libre, ses revenus sont néanmoins utilisés pour fournir des accès gratuits aux étudiants ainsi qu'assurer la maintenance et l'hébergement de l'ontologie NLGbAse qui elle demeure intégralement libre[1].
Technologie
La plateforme repose sur l'utilisation d'un détecteur d'entités nommées reconnaissant les entités de la campagne Ester. Les étiquettes consistent en des références à des classes d'entités nommées (normalisées d'après la taxonomie Ester). Ce premier niveau d'étiquetage permet de localiser dans le texte les noms de personnes de lieu ou encore de produits (étiquettes ORG, LOC, PERS).
La plateforme fournit également en sortie des étiquettes grammaticales. Elle permet donc de procéder à du forage de texte en détectant dans par exemple les verbes, les adjectifs, etc. Le jeu d'étiquetage utilisé répond au standard du Pen TreeBank[4].
Dans un second temps, le système fait entrer en jeu ses capacités sémantiques en associant aux étiquettes d'entités nommées une URI pointant vers un dépôt du web sémantique. L'annotation sémantique exploite l'ontologie libre de désambiguïsation NLGbAse. Ce choix permet d'apposer des liens sémantiques vers les ressources de DBpedia ainsi que vers des ressources du réseau Linked Data du Web de données. Ces ressources complémentaires sont notamment World Factbook de la CIA ainsi que GeoNames[1] - [5].
Langues supportées
Le système est prévu pour traiter nativement des textes en français, anglais et espagnol, avec des modèles de désambiguïsation spécifiquement calculés pour chaque langue, en utilisant les dumps des éditions correspondantes de Wikipédia[1].
Accès et formats
La plateforme est fournie sous la forme d'un service web accessibles via des appels en Java, Perl, Php ou Python. Les annotations apposées sur le texte (entités nommées, étiquettes grammaticales, liens sémantiques) sont retournées au format JSon ou XML[6]. Issue du milieu académique, la plateforme offre un accès gratuit et illimité pour les étudiants et les travaux de laboratoire.
L'ontologie de désambiguïsation qu'elle utilise est entièrement libre, diffusée sous licence Creative Commons[7].
Usages
L'annotateur peut être utilisé pour ses capacités sémantiques ou de traitement automatique du langage. Il a notamment fait l'objet d'un développement primé intitulé Zone Project consistant à enrichir de contenus sémantiques des flux RSS[8].
Références
- Wikimeta Project’s Evolution Includes Commercial Ambitions and Focus On Text-Mining, Semantic Annotation Robustness Sur Semanticweb.com
- Sylvain Galliano, Guillaume Gravier, Laura Chaubard, The ESTER 2 Evaluation Campaign for the Rich Transcription of French Radio Broadcasts Communication Interspeech
- Démonstration de l'API de NLGbAse, François-Xavier Desmarais, Éric Charton, TALN 2011 Montpellier
- Description du jeu de Part Of Speech utilisé
- Charton, E., Gagnon, M., Ozell, B.: Automatic SemanticWeb annotation of named entities. In: Canadian AI (2011)
- Description sur le site
- Indication et licence de la page d'accueil
- Projet Zone sur Github et article Vers la construction de workflows pour le filtrage semantique de nouvelles, Christophe Desclaux, INRIA