Wikimeta

Wikimeta est un outil d'annotation de texte compatible avec le Web sémantique utilisant les ressources de DBpedia en tant que liens documentaires. Il est disponible exclusivement en tant que service Web, non libre mais gratuitement accessible pour les chercheurs. C'est également un système d'annotation offrant des fonctionnalités de traitement automatique du langage tels que les entités nommées ou l'étiquetage grammatical[1].

Wikimeta

Informations
Dernière version	1.8 (9 mai 2012)
Environnement	Service Web, Java (langage), Perl (langage)
Type	Web sémantique, Web des données (Linked Data)
Site web	« www.wikimeta.com/fr »^{(Archive.org • Wikiwix • Archive.is • Google • Que faire ?)}

Historique

Wikimeta est une plateforme d'annotation sémantique dont le développement a commencé en 2008 au Laboratoire Informatique d'Avignon. L'origine du projet repose sur l'élaboration d'une ontologie statistique dérivée de Wikipédia intitulée NLGbAse et dont la finalité est d'aider à la mise au point de système de désambiguïsation pour l'étiquetage d'entités nommées[1]. Un système d'étiquetage d'entités nommées fut mis au point et présenté lors de la campagne Ester[2]. Ce système fut ensuite complété par un étiqueteur sémantique compatible avec les formats et standards du Web sémantique. Une preuve de concept fut présentée à la conférence TALN en 2011[3]. Le développement d'une plateforme d’annotation sémantique complète fut ensuite réalisé. Cette plateforme d'annotation repose largement sur l'ontologie NLGbAse. Actuellement cette plateforme est maintenue par un laboratoire de recherche privé. Si le projet n'est pas libre, ses revenus sont néanmoins utilisés pour fournir des accès gratuits aux étudiants ainsi qu'assurer la maintenance et l'hébergement de l'ontologie NLGbAse qui elle demeure intégralement libre[1].

Technologie

La plateforme repose sur l'utilisation d'un détecteur d'entités nommées reconnaissant les entités de la campagne Ester. Les étiquettes consistent en des références à des classes d'entités nommées (normalisées d'après la taxonomie Ester). Ce premier niveau d'étiquetage permet de localiser dans le texte les noms de personnes de lieu ou encore de produits (étiquettes ORG, LOC, PERS).

La plateforme fournit également en sortie des étiquettes grammaticales. Elle permet donc de procéder à du forage de texte en détectant dans par exemple les verbes, les adjectifs, etc. Le jeu d'étiquetage utilisé répond au standard du Pen TreeBank[4].

Dans un second temps, le système fait entrer en jeu ses capacités sémantiques en associant aux étiquettes d'entités nommées une URI pointant vers un dépôt du web sémantique. L'annotation sémantique exploite l'ontologie libre de désambiguïsation NLGbAse. Ce choix permet d'apposer des liens sémantiques vers les ressources de DBpedia ainsi que vers des ressources du réseau Linked Data du Web de données. Ces ressources complémentaires sont notamment World Factbook de la CIA ainsi que GeoNames[1] - [5].

Langues supportées

Le système est prévu pour traiter nativement des textes en français, anglais et espagnol, avec des modèles de désambiguïsation spécifiquement calculés pour chaque langue, en utilisant les dumps des éditions correspondantes de Wikipédia[1].

Accès et formats

La plateforme est fournie sous la forme d'un service web accessibles via des appels en Java, Perl, Php ou Python. Les annotations apposées sur le texte (entités nommées, étiquettes grammaticales, liens sémantiques) sont retournées au format JSon ou XML[6]. Issue du milieu académique, la plateforme offre un accès gratuit et illimité pour les étudiants et les travaux de laboratoire.

L'ontologie de désambiguïsation qu'elle utilise est entièrement libre, diffusée sous licence Creative Commons[7].

Usages

L'annotateur peut être utilisé pour ses capacités sémantiques ou de traitement automatique du langage. Il a notamment fait l'objet d'un développement primé intitulé Zone Project consistant à enrichir de contenus sémantiques des flux RSS[8].

Références

Wikimeta Project’s Evolution Includes Commercial Ambitions and Focus On Text-Mining, Semantic Annotation Robustness Sur Semanticweb.com
Sylvain Galliano, Guillaume Gravier, Laura Chaubard, The ESTER 2 Evaluation Campaign for the Rich Transcription of French Radio Broadcasts Communication Interspeech
Démonstration de l'API de NLGbAse, François-Xavier Desmarais, Éric Charton, TALN 2011 Montpellier
Description du jeu de Part Of Speech utilisé
Charton, E., Gagnon, M., Ozell, B.: Automatic SemanticWeb annotation of named entities. In: Canadian AI (2011)
Description sur le site
Indication et licence de la page d'accueil
Projet Zone sur Github et article Vers la construction de workflows pour le filtrage semantique de nouvelles, Christophe Desclaux, INRIA

Wikimeta

Historique

Technologie

Langues supportées

Accès et formats

Usages

Références

Articles connexes

Voir aussi