JeuxDeMots
JeuxDeMots est un jeu sérieux développé par le LIRMM et relevant du modèle de Game with a purpose (en) (ou GWAP : jeu avec un but) dont l'objet est la construction d'une base de connaissance sous la forme d'un réseau lexical.
RĂ©alisateur |
LIRMM |
---|
Date de sortie |
2007 |
---|
Langue |
français |
---|
Site web |
---|
RĂ©seau lexical
Un réseau lexical est une structure qui recense les relations lexicales et sémantiques qui existent entre les mots d'une même langue. Un tel réseau est un graphe, dont les nœuds correspondent à des termes et les arcs à des types de relations entre ces termes. Ainsi, les associations d'idées que l'on peut faire avec un terme donné constituent le plus élémentaire des types de relations du réseau. (par exemple, le terme chat est un nœud relié aux nœuds miauler, félin, griffe, litière, ronronner, minou, souris, croquettes, animal de compagnie, etc. par des arcs correspondant à la relation idées associées).
Le réseau lexical JeuxDeMots[1] définit ainsi une centaine de types de relations, qui sont soit lexicales (synonymie, dérivé morphologique, dérivés étymologiques, etc.) soit sémantiques (thèmes/domaines, patients/agents typiques pour les verbes, hyperonymes, holonymes, causes/conséquences, sentiments associés, etc.). Au sein du réseau, les relations sont orientées et pondérées (une relation donnée est orientée d'un terme vers un autre avec un poids proportionnel à la fréquence avec laquelle elle associe ces deux termes)[2]. Un poids négatif représente une impossibilité (par exemple autruche peut <0 voler). Certains nœuds correspondent aux différents usages d'un même terme (par exemple avocat (justice) et avocat (fruit)).
Principe
JeuxDeMots est un jeu conçu en 2007[3] pour acquérir des données lexicales : ce sont les joueurs qui les fournissent en répondant à une consigne donnée relativement à un terme cible. Ce système de collecte de données repose sur le principe selon lequel les données recueillies sont supposées valides dès lors qu'elles sont données par deux joueurs en réponse à la même consigne et sur le même terme, sans qu'ils n'aient la possibilité de communiquer. Les termes qui s'avèrent être communs quand on confronte les réponses des deux joueurs deviennent des relations au sein du réseau lexical en construction.
Par exemple :
- Consigne : Donnez des génériques du terme chat
- Réponses du joueur A : animal, félin, mammifère, vertébré
- Réponses du joueur B : carnivore, animal, félidé, animal de compagnie, mammifère
- Les réponses communes aux deux joueurs sont : mammifère, animal. Dans le réseau vont donc être créées les deux relations suivantes :chat----a pour générique > mammifère et chat----a pour générique > animal
Les parties se jouent en temps limité et de façon asynchrone. Les joueurs gagnent d'autant plus de points qu'ils ont de réponses communes, mais, pour favoriser l'enrichissement du réseau et la diversité des relations qui le constituent, les joueurs sont incités à faire preuve d'originalité : les associations de termes les plus évidentes, celles qui viennent à l'esprit en premier, sont pénalisées (perte de points) dès lors qu'elles ont été proposées par un certain nombre de couples de joueurs, tandis qu'une prime est accordée aux associations de termes moins souvent proposées, donc moins solidement établies au sein du réseau, et a fortiori à la création de relations inédites.
L'accumulation de relations ainsi validées par les propositions communes des joueurs construit progressivement le réseau lexical au sein duquel les liens entre termes sont typés par la nature de la consigne qui les a générés et pondérés par le nombre de couples de joueurs qui les ont suggérés. JeuxDeMots est donc une stratégie d'acquisition de ressources lexicales exploitant le fait établi que les données fournies par un très grand nombre de non-experts qui ne se concertent pas sont de meilleure qualité que celle émanant des travaux d'un petit groupe d'experts[4]. En effet, un joueur expérimenté va répondre de façon plus organisée, plus originale et plus pertinente et améliorer ainsi la qualité de sa contribution au réseau lexical. De même, en acquérant de l'expérience, et une compréhension du jeu plus fine, il va chercher la confrontation avec des termes / consignes plus difficiles de manière à améliorer significativement son classement[1] - [5].
Chiffres
Amorcé en 2007 avec environ 150 000 termes sans aucune relation entre eux, le réseau JeuxDeMots comptait en mars 2021 plus de cinq millions de termes liés par environ 360 millions de relations.
Environ 1,5 million de parties de JeuxDeMots ont été jouées depuis le début, et plus de 200 millions sur l'ensemble des jeux constituant le projet. JeuxDeMots et les autres jeux du projet sont des jeux gratuits et les données lexicales constituant le réseau sont librement accessibles et téléchargeables sous la licence Domaine Public[6].
L'acquisition de données lexicales via cette approche ludique est efficace[7] - [8] en particulier pour les langues peu dotées en ressources d'informatique linguistique[9] et pour la recherche en TAL[10] - [11] - [12]. Elle respecte également une certaine éthique[13] - [14] en évitant le recours à des travailleurs anonymes sous-payés.
Applications
En tant que base de connaissance, le réseau lexical obtenu est le support d'un certain nombre d'applications et activités pédagogiques[15] - [16] - [12] ou relevant du TAL, comme l'analyse de discours ou d'opinions[17] - [18]. Plus généralement, c'est un ensemble de données organisées exploitable en intelligence artificielle[19] pour réaliser des inférences, et sa structure de réseau favorise la réalisation d'algorithmes de propagation, qui en circulant de nœud en nœud permettent d'élaborer des explications sous forme de chemins dans le réseau. La richesse et la diversité des données lexicales permettent également de modéliser des analogies ou des comparaisons pour la détection de métaphores ou leur résolution.
Le Laboratoire d'Informatique de Grenoble a utilisé le modèle JeuxDeMots pour produire des ressources lexicales dans un certain nombre de langues peu dotées en ressources linguistiques, comme l'arabe, le khmer, le portugais, le japonais, le vietnamien, le bengali, le comorien[20]...
Références
- Mathieu Lafourcade, Nathalie Le Brun, Alain Joubert, Jeux et intelligence collective : résolution de problèmes et acquisition de données sur le web, Londres, ISTE éditions, , 156 p. (ISBN 978-1-78405-052-8, lire en ligne), p. 107-136 (Chapitre 5)
- Mathieu Lafourcade et Alain Joubert, « JeuxDeMots : un prototype ludique pour l’émergence de relations entre termes », ADT'08 : Actes des Journées internationales d'Analyse statistiques des Données Textuelles. France,‎ , p. 657-666 (lire en ligne)
- (en) Mathieu Lafourcade, « Making people play for Lexical Acquisition with the JeuxDeMots prototype », SNLP'07: 7th International Symposium on Natural Language Processing, Pattaya, Chonburi, Thailand,,‎ , p. 7-15 (lire en ligne)
- Collectif, Ressources Lexicales : Contenu, construction, utilisation, Ă©valuation, John Benfamins, , 364 p. (lire en ligne), p. 187-216
- (en) J. Chamberlain et al., Using Games to Create Language Resources : Successes and Limitations of the Approach. Theory and Applications of Natural Language Processing., Gurevych, Iryna; Kim, Jungi (Eds.), Springer, , 42 p. (ISBN 978-3-642-35084-9, lire en ligne)
- « JeuxDeMots : un jeu en ligne pour produire des données lexicales libres », sur Linuxfr.org,
- (en) M. Sabou, A. Scharl et M. Föls, « Crowdsourced Knowledge Acquisition: Towards Hybrid-Genre Workflows », International Journal on Semantic Web & Information Systems, no v.9 n.3,‎ , p. 14-41 (DOI 10.4018/ijswis.2013070102)
- (en) B. Gaume et al., « Skillex: a graph-based lexical score for measuring the semantic efficiency of used verbs by human subjects describing actions. », Traitement Automatique des Langues et Sciences Cognitives, no numéro spécial 45 (3),‎ , p. 1-25
- M. Mangeot et H.T. Nguyen, « Projet Mot à mot : élaboration d'un système lexical multilingue par le biais de dictionnaires bilingues. in : Passeurs de mots, passeurs d'espoir: lexicologie, terminologie et traduction », Actes des huitièmes Journées scientifiques du Réseau de chercheurs Lexicologie, terminologie, traduction,,‎ , p. 121-132
- F. Morlane-Hondere, Une approche linguistique de l'évaluation des ressources extraites par analyse distributionnelle automatique, Université de Toulouse 2-Le Mirail, Sciences du langage, Thèse de Sciences du langage, CLLE.,
- (en) D. Vannella et al., « Validating and Extending Semantic Knowledge Bases using Video Games with a Purpose », Proc. of the 52nd Annual Meeting of the Association for Computational Linguistics (ACL 2014), Baltimore, USA,‎ , p. 1294-1304
- (en) F. KneiĂźl, Crowdsourcing for linguistic field research and e-learning. Dissertation, LMU MĂĽnchen : Faculty of Mathematics, Computer Science and Statistics, epubli, , 188 p. (ISBN 978-3-8442-9318-0, lire en ligne)
- (en) M. Sabou et al., « Games with a Purpose or Mechanised Labour?: A Comparative Study », Proceedings of the 13th International Conference on Knowledge Management and Knowledge Technologies, Graz, Austria,‎
- (en) K. Fort, G. Adda et K. Bretonnel-Cohen, « Amazon Mechanical Turk: Gold Mine or Coal Mine? », Computational Linguistics, no 37:2,‎ , p. 413-420
- (en) N. Gala et al., « Graded Lexicons : new ressources for educational purposes and much more in Critical CALL », Proceedings of the 2015 EUROCALL Conference, Padova, Italy,‎ , p. 204-209
- « Le jeu en classe de langue. Jeux utiles en français : Jeuxdemots.org », sur lewebpedagogique.com,
- E. Kergosien et al., « SENTERRITOIRE pour la détection d’opinions liées à l’aménagement d’un territoire », Rev. Int. Geomat. Traitement de l’information et prospective, no 25 (1),‎ , p. 11-34
- (en) E. Kergosien et al., « Looking for Opinion in Land-Use Planning Corpora. », Computational Linguistics and Intelligent Text Processing, no Volume 8404 of the series Lecture Notes in Computer Science,‎ , p. 128-140
- « Robots - Leur intelligence dépasse déjà la nôtre », sur science-et-vie.com,
- « World of JeuxDeMots »