AccueilđŸ‡«đŸ‡·Chercher

Lexique-grammaire

Le lexique-grammaire est à la fois une méthode et une pratique effective de description formelle des langues[1], qui considÚre l'étude systématique des entrées lexicales comme le principal défi actuel de l'étude scientifique des langues[2] - [3] - [4]. Le lexique-grammaire a été développé par Maurice Gross à partir de la fin des années 1960[5], la méthode et la pratique se nourrissant mutuellement.

La base théorique sur laquelle se fonde le lexique-grammaire est le distributionnalisme de Zellig S. Harris[6] - [7], et notamment la notion de transformation. Les conventions de notation pour la présentation des informations grammaticales se veulent aussi simples et aussi transparentes que possible.

La méthode du lexique-grammaire est inspirée des sciences expérimentales[8]. Elle met l'accent sur la collecte des faits, donc sur la confrontation avec la réalité des usages linguistiques, du point de vue quantitatif (description systématique du lexique) et qualitatif (précautions méthodologiques).

Le lexique-grammaire pose Ă©galement une exigence de formalisation. Les rĂ©sultats de la description doivent ĂȘtre suffisamment formels pour permettre une application au traitement automatique des langues, notamment Ă  travers la rĂ©alisation d'analyseurs syntaxiques[9] - [10]. Le modĂšle formel est tel que les rĂ©sultats de la description prennent la forme de tableaux Ă  double entrĂ©e, appelĂ©s tables ou matrices, qui croisent des entrĂ©es lexicales avec les propriĂ©tĂ©s syntaxico-sĂ©mantiques[11]. Les rĂ©sultats obtenus sont une base d’informations syntaxico-sĂ©mantiques.

Les expériences ont montré que plusieurs individus ou équipes peuvent parvenir à une cumulativité de leurs descriptions.

Le terme lexique-grammaire est utilisé pour la premiÚre fois par Annibale Elia[12].

Base théorique

La base théorique sur laquelle se fonde le lexique-grammaire est le distributionnalisme de Zellig Harris[6] - [7], et notamment la notion de transformation au sens de Zellig Harris. Maurice Gross fut un étudiant de Zellig Harris. Les conventions de notation pour la présentation des informations grammaticales se veulent aussi simples et aussi transparentes que possible. Ce souci vient de Zellig Harris, dont la théorie est orientée vers la surface directement observable ; c'est aussi une différence avec la grammaire générative, qui recourt normalement à des structures abstraites telles que les structures profondes.

Collecte des faits

La méthode du lexique-grammaire est inspirée des sciences expérimentales[8]. Elle met l'accent sur la collecte des faits, donc sur la confrontation avec la réalité des usages linguistiques[13], du point de vue quantitatif et qualitatif.

Quantitativement : le lexique-grammaire inclut un programme de description systĂ©matique du lexique, y compris observer pour chaque entrĂ©e lexicale dans quelles constructions syntaxiques elle apparaĂźt[14]. Il s'agit d'un travail Ă  grande Ă©chelle, rĂ©alisable par des Ă©quipes et non par des spĂ©cialistes isolĂ©s. La recherche exclusive de rĂšgles de syntaxe gĂ©nĂ©rales, indĂ©pendantes du matĂ©riel lexical qu’elles manipulent, est dĂ©noncĂ©e comme une impasse[15]. C'est une diffĂ©rence avec la grammaire gĂ©nĂ©rative, qui valorise la notion de gĂ©nĂ©ralisation.

Qualitativement : des prĂ©cautions mĂ©thodologiques sont appliquĂ©es pour assurer une bonne reproductibilitĂ© des observations, et notamment pour se prĂ©munir contre les risques liĂ©s aux exemples construits[16]. Une de ces prĂ©cautions consiste Ă  prendre comme unitĂ© minimale de sens la phrase Ă©lĂ©mentaire[17]. En effet, un mot n'acquiert un sens prĂ©cis que dans un contexte ; de plus, en insĂ©rant un mot dans une phrase, on a l'avantage de manipuler une sĂ©quence susceptible d'ĂȘtre jugĂ©e comme acceptable ou inacceptable. C’est Ă  ce prix que des propriĂ©tĂ©s syntaxico-sĂ©mantiques ont pu ĂȘtre considĂ©rĂ©es comme dĂ©finies avec suffisamment de prĂ©cision pour que cela eĂ»t un sens de les confronter Ă  l’ensemble du lexique. Ces prĂ©cautions ont Ă©voluĂ© au fur et Ă  mesure des besoins et de l’apparition de nouveaux moyens techniques. Ainsi, Ă  partir du dĂ©but des annĂ©es 1990, les contributeurs du lexique-grammaire ont pu recourir de plus en plus facilement Ă  la prise en compte d’exemples attestĂ©s dans des corpus[18]. Cette nouvelle prĂ©caution s’est simplement ajoutĂ©e aux prĂ©cĂ©dentes, faisant du lexique-grammaire une mĂ©thode qui relĂšve Ă  la fois de la linguistique introspective et de la linguistique de corpus[19], un peu comme le prĂ©conisait Fillmore[20]. Les projets amĂ©ricains FrameNet[21] et VerbNet[22] tĂ©moignent d’ailleurs d’une relative convergence vers des objectifs proches de ceux du lexique-grammaire.

Formalisation

Le lexique-grammaire pose Ă©galement une exigence de formalisation. Les rĂ©sultats de la description doivent ĂȘtre suffisamment formels pour permettre :

- une vĂ©rification par confrontation Ă  la rĂ©alitĂ© de l’usage,

- une application au traitement automatique des langues, et plus particuliÚrement au traitement linguistique profond (en), notamment à travers la réalisation d'analyseurs syntaxiques par des informaticiens[9] - [10].

Cette contrainte de formalisation se manifeste par l’adoption d’un modĂšle discrĂ©tisĂ© de la syntaxe et de la sĂ©mantique. Ainsi, l’acceptabilitĂ© est modĂ©lisĂ©e par une propriĂ©tĂ© binaire : pour les besoins de la description, une phrase est considĂ©rĂ©e soit comme acceptable, soit comme inacceptable, comme en grammaire gĂ©nĂ©rative et pour les mĂȘmes raisons.

De mĂȘme, l’ambiguĂŻtĂ© lexicale est reprĂ©sentĂ©e en sĂ©parant soigneusement un mot en un nombre entier d’entrĂ©es lexicales, qui sont distinctes les unes des autres au mĂȘme titre que deux entrĂ©es de mots morphologiquement diffĂ©rents (par exemple, les diffĂ©rents sens de manquer correspondent Ă  des entrĂ©es distinctes).

Les propriĂ©tĂ©s syntaxico-sĂ©mantiques des entrĂ©es (par exemple les structures de phrase dans lesquelles un verbe donnĂ© peut apparaĂźtre, ou la distribution du sujet) forment une liste systĂ©matiquement confrontĂ©e Ă  toutes les entrĂ©es. Elles sont identifiĂ©es par des intitulĂ©s assez informels tels que , qui reprĂ©sente une transformation entre deux structures de phrases (ou constructions syntaxiques) relevant d'une mĂȘme entrĂ©e lexicale.

La notion d'entrée lexicale n'est donc pas confondue avec celle de construction syntaxique. C'est pourquoi on évite le terme de "cadre de sous-catégorisation (en)", souvent utilisé dans le contexte de modÚles qui tendent à considérer que les deux notions sont en bijection. Dans le cadre du lexique-grammaire, les décisions sur la classification ("sous-catégorisation") d'une entrée se fondent a priori sur l'ensemble des constructions syntaxiques qui relÚvent de l'entrée, non sur une seule construction ("cadre").

Enfin, seules sont retenues les propriétés pour lesquelles on trouve une procédure permettant de déterminer de façon suffisamment fiable si une entrée donnée la possÚde ou non. Une telle procédure est déterminée expérimentalement en testant sur un vocabulaire étendu la reproductibilité des jugements. Les propriétés sont donc modélisées comme binaires et non comme des continuums.

Étant donnĂ© ce modĂšle formel, l'essentiel de la description d'une langue consiste Ă  spĂ©cifier les propriĂ©tĂ©s des entrĂ©es. Les rĂ©sultats de la description prennent donc naturellement la forme de tableaux Ă  double entrĂ©e, appelĂ©s tables ou matrices, qui croisent des entrĂ©es lexicales avec les propriĂ©tĂ©s syntaxico-sĂ©mantiques[11].

La description de la structure des phrases met en jeu l'identification d'un ensemble d'arguments caractéristique de chaque entrée prédicative ; en particulier, on met en application des principes pour distinguer les arguments (sujets et objets ou compléments essentiels) des compléments non essentiels (adverbiaux ou compléments circonstanciels).

RĂ©sultats

Les rĂ©sultats obtenus par l’application de ces principes mĂ©thodologiques par quelques dizaines de linguistes pendant quelques dizaines d’annĂ©es sont une base d’informations syntaxico-sĂ©mantiques pour le traitement des langues. On peut juger de la qualitĂ© de cette base d'informations en prenant en compte :

- son volume, évaluable par le nombre d'entrées,

- la richesse des phĂ©nomĂšnes linguistiques qu’elle prend en compte, Ă©valuable par le nombre de propriĂ©tĂ©s,

- et son degré de formalisation.

Pour le français, plus de 75 000 entrĂ©es ont Ă©tĂ© Ă©tablies[23] ; des descriptions plus ou moins substantielles, toujours suivant le mĂȘme modĂšle, existent pour une dizaine d’autres langues, les mieux reprĂ©sentĂ©es Ă©tant l’italien[24], le portugais[25], le grec moderne[26] et le corĂ©en[27].

Des travaux ont été réalisés et publiés dans le cadre du lexique-grammaire sur les substantifs prédicatifs depuis les années 1970[28], et sur les expressions figées depuis les années 1980[29].

La notion de substantif prédicatif est issue des travaux de Zellig Harris[30]. Elle part de l'idée que si, par exemple, le verbe étudier est analysé comme le prédicat dans la phrase Luc étudie les éclipses, il est naturel d'analyser le substantif étude (ou la séquence faire une étude) comme prédicat dans la phrase Luc fait une étude sur les éclipses. Dans ce cas, le substantif en question est dit prédicatif. Le verbe qui l'accompagne, ici faire, est, lui, qualifié de verbe support (it). L'idée a été appliquée systématiquement dans le cadre du lexique-grammaire à partir des années 1970[28] - [31] - [32] - [33].

Les contributeurs du lexique-grammaire parlent d'expression figĂ©e lorsqu'une expression (par exemple mot de passe) possĂšde des propriĂ©tĂ©s spĂ©cifiques (ici, son sens) qui justifient qu'on lui consacre une entrĂ©e lexicale, bien qu'elle soit constituĂ©e de plusieurs Ă©lĂ©ments (mot, de et passe) qui, d'une façon ou d'une autre, peuvent ĂȘtre considĂ©rĂ©s comme des mots[29]. Un programme systĂ©matique de description de ces expressions a Ă©tĂ© entrepris dans le cadre du lexique-grammaire Ă  partir des annĂ©es 1980[34] - [35] - [36] - [37].

Cumulativité

Ces expĂ©riences ont montrĂ© que plusieurs individus ou Ă©quipes peuvent parvenir Ă  des rĂ©sultats identiques. Cette reproductibilitĂ© assure la cumulativitĂ© des descriptions. Ce rĂ©sultat est crucial pour le futur du traitement des langues : la quantitĂ© de donnĂ©es qui doit ĂȘtre accumulĂ©e et reprĂ©sentĂ©e au sein d'un modĂšle cohĂ©rent est telle que de nombreuses Ă©quipes de recherche et dĂ©veloppement doivent coopĂ©rer, et on doit pouvoir fusionner leurs rĂ©sultats sans avoir Ă  rĂ©Ă©crire des parties substantielles de la grammaire et du lexique de chaque langue. Cette exigence est loin d'ĂȘtre facile Ă  remplir, car on connaĂźt peu d'exemples de grammaires d'une taille significative qui ne soient pas l'Ɠuvre d'un unique spĂ©cialiste.

Interface avec les standards internationaux

Avec le but d'améliorer la mise à disposition des données de maniÚre lisible et explicite, le lexique-grammaire du français a été transcodé en un format ISO standard LMF. Ces travaux sont détaillés dans le chapitre: Conversion of Lexicon-Grammar Tables to LMF: application to French[38].

Notes et références

  1. Ibrahim, Amr Helmy. 2003. Le cadre du lexique-grammaire. Linx 48:101-122.
  2. Maurice Gross, Méthodes en syntaxe : régime des constructions complétives, Paris, Hermann, , p. 9:
    « Nous nous proposons de remplacer [l'approche qui] consiste essentiellement Ă  effectuer des observations isolĂ©es dans des rĂ©gions diffĂ©rentes de la structure linguistique. Ces observations ne sont jamais systĂ©matiques, et les « trous » qui les sĂ©parent ne sont pas explorĂ©s empiriquement. (...) Toute construction thĂ©orique a toujours Ă©tĂ© prĂ©cĂ©dĂ©e d’un long travail d'accumulation systĂ©matique de donnĂ©es, et les chercheurs se sont toujours efforcĂ©s de combler les trous qui pouvaient se prĂ©senter dans leurs donnĂ©es avant d'avancer une rĂšgle gĂ©nĂ©rale. »
  3. Maurice Gross, Méthodes en syntaxe : régime des constructions complétives, Paris, Hermann, , p. 45:
    « Nous pensons que seul l'examen systématique des données peut conduire à la découverte [des] principes généraux abstraits [d'une] théorie linguistique un tant soit peu générale]. »
  4. Annibale Elia, « Pour un lexique-grammaire de la langue italienne : les complĂ©tives objet », Lingvisticae Investigationes, vol. 2, no 2,‎ , p. 233-276 (ISSN 0378-4169, e-ISSN 1569-9927, DOI https://doi.org/10.1075/li). Document utilisĂ© pour la rĂ©daction de l’article
    « Nous croyons qu'avant de proposer des interprétations ou des "explications", il faut passer par un travail aussi complet que possible d'énumération et d'observation du lexique d'une langue. »
  5. Gross, Maurice. 1968. Grammaire transformationnelle du français. Vol. 1, Syntaxe du verbe. Paris : Larousse (rĂ©Ă©ditĂ© sous le mĂȘme titre, Paris: CantilĂšne, 1986).
  6. (en) Harris, Zellig. 1964. "Transformations in Linguistic Structure", Proceedings of the American Philosophical Society (en) 108:5, p. 418-122.
  7. Harris, Zellig, Notes du cours de syntaxe, Paris, Seuil,
  8. Lamiroy, BĂ©atrice. 2003. "In memoriam Maurice Gross", Travaux de linguistique 46:1, pp. 145-158.
  9. Michel Delamar, Maurice Gross, http://www.univ-paris-diderot.fr/2001/pres011212.htm
  10. (en) Roche, Emmanuel, 1997, "Parsing with Finite-State Transducers", in Finite-State Language Processing, Cambridge, Mass./ London, MIT Press.
  11. Gross, Maurice. 1975. Méthodes en syntaxe. Le régime des constructions complétives. Paris : Hermann.
  12. Annibale Elia, « Pour un lexique-grammaire de la langue italienne : les complĂ©tives objet », Lingvisticae Investigationes, vol. 2, no 2,‎ , p. 233-276 (ISSN 0378-4169, e-ISSN 1569-9927, DOI https://doi.org/10.1075/li). Document utilisĂ© pour la rĂ©daction de l’article
    « Nous avons entrepris un projet de lexique-grammaire de la langue italienne. »
  13. (en) Eric Laporte, « The Science of Linguistics », Inference. International Review of Science, vol. 1, no 2,‎ (lire en ligne)
  14. Maurice Gross, Méthodes en syntaxe : régime des constructions complétives, Paris, Hermann, , p. 225:
    « Nous pensons qu'il est normal qu’une propriĂ©tĂ© syntaxique ait une distribution non triviale sur le lexique »
  15. (en) Gross, Maurice. 1979. On the failure of generative grammar. Language 55:4, pp. 859-885.
  16. (en) Gross, Maurice, A linguistic environment for comparative Romance syntax, Papers from the XIIth Linguistic Symposium on Romance Languages, 1984, pp. 373-446, Amsterdam/Philadelphia: John Benjamins.
  17. (en) Gross, Maurice. 1988. Methods and Tactics in the Construction of a Lexicon-Grammar. In Linguistics in the Morning Calm 2, Selected Papers from SICOL 1986, pp. 177-197, SĂ©oul : Hanshin Pub. Co.
  18. Notamment grùce au logiciel Intex développé par Max Silberztein.
  19. Laporte, Éric. 2008. Exemples attestĂ©s et exemples construits dans la pratique du lexique-grammaire. Observations et manipulations en linguistique: entre concurrence et complĂ©mentaritĂ©, sous la direction de Jacques François. Louvain/Paris/Dudley : Peeters. MĂ©moires de la SociĂ©tĂ© de linguistique de Paris. Nouvelle SĂ©rie. Vol. 16, pp. 11–32.
  20. (en) Fillmore, Charles. 1992. "'Corpus linguistics' vs. 'Computer-aided armchair linguistics'". Directions in Corpus Linguistics, Mouton de Gruyter, pp. 35-60. (Proceedings from a 1992 Nobel Symposium on Corpus Linguistics, Stockholm.)
  21. (en) Baker, Collin F., Charles J. Fillmore, Beau Cronin. 2003. "The Structure of the Framenet Database", International Journal of Lexicography 16.3, pp. 281-296.
  22. (en) Kipper-Schuler, Karin, Anna Korhonen, Neville Ryant, Martha Palmer. 2006. "Extending VerbNet with Novel Verb Classes". Proceedings of the International Conference on Language Resources and Evaluation (LREC), Genoa.
  23. Gross, Maurice. 2006. État du lexique-grammaire du français et perspectives d'extension. History of the Language Sciences, tome 3, Sylvain Auroux et al. (eds.), Berlin-New York: Walter de Gruyter, pp. 2122-2129.
  24. (en) D'Agostino, Emilio, Annibale Elia, & Simonetta Vietri. 2004. "Lexicon-Grammar, Electronic Dictionaries and Local Grammars of Italian", Lexique, syntaxe et lexique-grammaire. Papers in honour of Maurice Gross, Coll. Lingvisticae Investigationes Supplementa, 24, Amsterdam/Philadelphia : Benjamins, pp. 125–136.
  25. (en) Ranchhod, Elisabete; P. Carvalho; C. Mota; A. Barreiro, "Portuguese Large-scale Language Resources for NLP Applications". In Proceedings of the 4th LREC, pp. 1755-1758, Lisbon.
  26. Kyriacopoulou, Tita. 2004. Analyse automatique des textes Ă©crits : le cas du grec moderne. Thessaloniki : University Press.
  27. Nam, Jee-sun, « Lexique-grammaire des adjectifs corĂ©ens et analyse syntaxique automatique », Langages, vol. 126,‎ , p. 105-123 (ISSN 0458-726X, e-ISSN 1958-9549, DOI 10.3406/lgge.1997.1779, lire en ligne, consultĂ© le )
  28. Labelle, Jacques. 1974. "Le substantif symétrique". Cahier de linguistique 5, pp. 17-49, Montréal: UQAM.
  29. Gross, Maurice. 1982. Une classification des phrases "figées" du français. Revue québécoise de linguistique 11.2, pp. 151-185, Montréal: UQAM.
  30. (en) Harris, Zellig, 1964. "The Elementary transformations", Transformations and Discourse Analysis Papers, 54, Philadelphie, Université de Pennsylvanie (republié dans Papers in Structural and Transformational Linguistics, 1970, Dordrecht:Reidel).
  31. Giry-Schneider, Jacqueline. 1978. Les nominalisations en français. L'opérateur faire dans le lexique. GenÚve: Droz.
  32. Giry-Schneider, Jacqueline. 1987. Les prédicats nominaux en français. Les phrases simples à verbe support. GenÚve: Droz.
  33. Gross, Gaston. 1989. Les constructions converses du français, GenÚve : Droz.
  34. Laurence Danlos, « La morphosyntaxe des expressions figĂ©es », Langages, vol. 63,‎ , p. 53-74 (ISSN 0458-726X, e-ISSN 1958-9549, DOI 10.3406/lgge.1981.1876, lire en ligne, consultĂ© le ).
  35. (en) Gross, Maurice. 1986. "Lexicon-Grammar. The Representation of Compound Words". In COLING-1986 Proceedings, Bonn, pp. 1-6. pdf
  36. (pt) Ranchhod, Elisabete. 1990. Sintaxe dos Predicados Nominais com Estar. Linguistica 1-2, Lisboa: Instituto Nacional de Investigaçao Cientifica.
  37. (en) Vietri, Simonetta. 2014. Idiomatic Constructions in Italian. A Lexicon-Grammar approach. Amsterdam: John Benjamins. 259 p. DOI: 10.1075/lis.31
  38. Eric Laporte, Elsa Tolone, Matthieu Constant: Conversion of Lexicon-Grammar Tables to LMF: application to French, in Gil Francopoulo (sous la direction de) LMF Lexical Markup Framework, ISTE / Wiley 2013 (ISBN 978-1-84821-430-9)

Voir aussi

Liens externes

Bibliographie


Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.