Accueil🇫🇷Chercher

Langage naturel

Un langage naturel[1], ou langage ordinaire, est une langue « normale » parlée par un être humain. Il s'oppose au langage formel, tel que le langage informatique, ainsi qu'aux langues construites.

Histoire

On dĂ©signe par langage naturel le langage parlĂ© par les humains, apparu entre 200 000 ans et 50 000 ans avant notre ère. Après 2 millions d'annĂ©es de gestation par l’Homo erectus, qui a pris la suite de l'Homo habilis, l’homme moderne, appelĂ© Homo sapiens, est apparu par la conjonction de nombreux facteurs :

  • La maĂ®trise du feu (environ 500 000 ans avant notre ère), qui a permis d'alimenter un cerveau de taille croissante (au-dessus de 500 cm3)[2] ;
  • L’altricialitĂ© secondaire, qui a permis au nourrisson de passer de 60 % du cerveau Ă  la naissance Ă  moins de 25 % et d'atteindre, après 10 ans de maturation, des volumes de cerveau de 1 400 cm3 et plus ;
  • La prĂ©existence d’une protolangue chantĂ©e par l'un des prĂ©dĂ©cesseurs de cette race, l'homme de NĂ©andertal (the singing Neandertal[AOdledl 1]), nĂ© il y a environ 400 000 ans[AOdledl 1], et qui, d'après les connaissances actuelles, ne possĂ©dait pas de syntaxe ;
  • une mutation gĂ©nĂ©tique de plusieurs gènes dominants, qui ont dĂ©veloppĂ© la capacitĂ© cognitive[Notes 1], dont celui dit de la parole FOXP2[AOdledl 2]. Le gène FOXP2 prend des formes variables selon les espèces[3]. Ce gène, dans la forme humaine, a donnĂ© la capacitĂ© Ă  l’homme de passer des mots Ă  la syntaxe (ce facteur n’est pas suffisant en lui-mĂŞme, car il existe chez d’autres espèces sans donner naissance Ă  la parole. Nous ne savons pas si les diffĂ©rentes formes de gène sont identiques). Il faut mentionner que ces gènes seraient Ă  l’origine de la maturation de l’aire de Broca et de l’aire de Wernicke[Notes 2] (voir Ă  ce sujet la thĂ©orie de Jean Pierre Changeux[4] - [5]) ;
  • l’augmentation continue de la masse de l’encĂ©phale[AOdledl 2] depuis l’Homo habilis jusqu'Ă  l’Homo sapiens ;
  • le redressement du pharynx[AOdledl 3], qui a permis la vocalisation plus poussĂ©e de la parole.

Il y a deux scénarios d’apparition de l’Homo sapiens : le scénario « Out of Africa » et le scénario pluri-centripète (polygenèse). Les recherches récentes[Notes 3] - [AOdledl 4] en paléolinguistique ont identifié au début du XXIe siècle un fond de 27 mots, communs à la racine de toutes les langues terrestres écrites, ce qui pousse à favoriser le scénario « Out of Africa » (monogenèse). En effet, plusieurs sources n’auraient pas eu de raison d’adopter la même protolangue de départ.

Ultérieurement, l’Homo sapiens s'est imposé au sein de l'espèce humaine, soit du fait de l’hypothèse productiviste[6], soit du fait de l’hypothèse sociologique[AOdledl 5].

Depuis environ 7 000 ans, ce langage a pris une forme Ă©crite dans un certain nombre de langues, qui se sont alors imposĂ©es comme les langues dominantes. Principalement de ce fait, 6 000 langues sont en danger d’extinction Ă  l'heure actuelle.

On notera que la langue des signes est Ă©galement une langue naturelle.

Les langages informatiques

En informatique, le langage naturel s'oppose au langage informatique :

Le défi que souhaitent relever les éditeurs de moteurs de recherche est de pouvoir donner des résultats pertinents à une requête formulée en langage naturel.

Alan Turing, mathématicien britannique de la première moitié du XXe siècle, a par ailleurs conjecturé qu'une intelligence artificielle pouvait tellement bien donner l'impression de « parler » qu'elle serait difficile à discerner d'un être humain. On appelle tests de Turing les tests d’intelligence artificielle ayant la faculté d’imiter la conversation humaine.

Cohérence du langage naturel

Si la cohérence d’un texte est la propriété d’un texte qui ne demande pas de déduction pour passer d’un élément documentaire au suivant, nous utiliserons l’exemple de Florian Wolf et al.[7] pour illustrer cette propriété :

  • Le temps Ă©tabli sur le site de lancement spatial de Kourou hier Ă©tait beau.
  • De ce fait, le lancement du nouveau lanceur Ariane s’est effectuĂ© conformĂ©ment au planning.
  • Et le lanceur a mis deux satellites sur orbite.

Les inférences à faire pour comprendre le texte sont ici triviales, respectant le principe de pertinence dans la transmission d’information. Elles sont progressives. Il faut du beau temps pour lancer une fusée, et le lanceur Ariane peut lancer deux satellites. Encore faut-il caractériser ces inférences : « le temps était beau et de ce fait » explicite la première inférence, et « le lanceur Ariane […] a mis deux satellites sur orbite » explicite la deuxième inférence. On ne sait pas si le lanceur peut lancer quatre satellites, mais ce n’est pas le sujet. Il faut être conscient de la nécessité de tous les mots dans ce texte.

En outre la progression est respectée : on parle du temps qu’il fait, puis du lancement de la fusée et enfin de ce qui est lancé.

Retirez de ce texte l'adjectif spatial accolé au nom centre et nous ne savons plus justifier sa cohérence. Il faut alors faire une inférence moins explicite : le centre de Kourou est un centre spatial. Il faut pour ce faire se pencher sur la théorie de la pragmatique pour évaluer le coût de cette inférence. Il faut noter que le principe de pertinence évolue fortement qu'on soit dans un langage écrit où les préétablis sont faibles ou dans le langage oral où le préétabli est important sachant que l'auteur connaît une part des connaissances de son auditeur.

Il faut reconnaître que de nombreux textes ne satisfont pas cette propriété : ainsi Michel Charolles[8] consacre de nombreux documents à inventorier ces situations d’ambiguïté dans les textes :

  • dans le texte « On sonne. Je suis dans mon bain. », il y a de nombreuses connexions Ă  Ă©tablir pour arriver Ă  la cohĂ©rence ;
  • quant au texte « Le studio de Marc donnait sur une place très frĂ©quentĂ©e. Le bruit Ă©tait Ă©pouvantable. Paul passa la soirĂ©e sur un banc au bord de l’ocĂ©an. Le vent soufflait. Il allait pleuvoir. », il est donnĂ© comme un exemple d’ambiguĂŻtĂ© : soumis a un panel de lecteurs, les interprĂ©tations vont de « il y a un appartement bruyant et « bizarrement » un certain Paul passe une soirĂ©e au bord de la mer » Ă  « Paul, seul occupant du studio, est triste de devoir y aller le lendemain Ă  cause du mauvais temps ».

Ces exemples mettent en exergue la notion de profondeur du traitement implicite que ces textes demandent pour atteindre la cohérence.

Aspects lexicaux

On définira la conformité typographique comme la propriété des textes à respecter l’orthographe et la typographie dans la rédaction. S'il est acceptable de considérer que « Lift-Gate » constitue une entité nommée et que « lift-gate » est un nom commun, la traduction littérale du mot « Lift-Gate » en entité nommée introduit un bruit inutile dans les traitements sémantiques. Il est souhaitable de filtrer ces manifestations dans les traitements morphologiques.

La conformité lexicale consiste à choisir le bon terme pour un concept : ainsi « Tailgate » est un mot composé explicite, le « tail gate » se traduisant en français par « hayon arrière », même si en français, ce terme est redondant car « hayon » suffit.

L’usage d’un dictionnaire est satisfaisant pour autant qu’on recherche non seulement les mots rencontrés mais les parties des mots (lexèmes) susceptibles de constituer des mots.

C’est ainsi que le choix, dans les deux premiers documents du corpus, de remplacer « decklid » par « boot lid » qui signifie « couvercle de la malle arrière » s’est imposé. Nous désignerons ce type d’erreur par erreur lexicale relevant de l’analyse des mots composés.

Il faut au-delà se tourner vers la levée des ambiguïtés des expressions. Il ne faut pas s’arrêter aux lemmes racines des mots composés.

Aspects génériques

Les qualités de stylistique qui concourent à une meilleure cohérence. Les documents génériques gagnent à être écrits au présent générique, en normalisant autant que possible les formes négatives. Ainsi une exigence adopte la forme active et s’écrit au présent générique, et la transformation des formes passives en formes actives suffisent à la satisfaction du besoin. Il peut être également utile d’utiliser une transformation pour traiter les textes négatifs.

Aspects discursifs

Les qualités des documents se qualifient principalement au regard des composants du cœur de la cohérence [Notes 4] :

  • CohĂ©sion et progressivitĂ© : la cohĂ©sion et la progression sont les propriĂ©tĂ©s d’un texte qui permettent d’établir la continuitĂ© de la progression du texte ; cette propriĂ©tĂ© rend compte de la capacitĂ© du texte Ă  ĂŞtre cohĂ©rent du point de vue chronologique.
  • CohĂ©rence logique : nous dĂ©finirons la cohĂ©rence logique comme l'absence de contradictions exprimĂ©es par le texte.
  • Consistance : nous dĂ©finirons la consistance comme la propriĂ©tĂ© d’une proposition ou d’un groupe de propositions de signifier quelque chose de façon limpide. Cette qualitĂ© inclut la clartĂ© de la rĂ©daction.
  • PlausibilitĂ© : la plausibilitĂ© d'un fait est sa capacitĂ© Ă  paraĂ®tre possible ; dans le domaine du langage naturel, nous considèrerons comme une phrase plausible une phrase que l’on n’est pas Ă©tonnĂ© d’entendre [LFL07]. OpĂ©rationnellement nous envisageons la thĂ©orie de Dempster et Shaffer, qui permet d’allouer deux valeurs, crĂ©dibilitĂ© et confiance, Ă  un prĂ©dicat tel que : CrĂ©dibilitĂ© de (P) = 1 – Confiance de (Non P).
  • Explicitation des connaissances : une connaissance est explicite si elle permet de comprendre un texte sans en connaĂ®tre le contexte local. Elle s’appuie sur le principe de pertinence appliquĂ© aux Ă©lĂ©ments oubliĂ©s par l’auteur dans la documentation.
  • Absence de sur-information : il arrive que l’on trouve dans un texte deux fragments qui signifient exactement la mĂŞme chose. Dans le domaine des spĂ©cifications on utilise le terme d’absence de sur-spĂ©cification.

Notes et références

Notes

  1. Voir à ce sujet les recherches des généticiens de l'Institut Max Planck. En juillet 2006, l'Institut et 454 Life Sciences ont annoncé qu'elles entreprenaient le séquençage du génome de l'homme de Néandertal. Composé de trois milliards de paires de base, le génome de l'homme de Néandertal est à peu près de la taille du génome humain et a probablement de nombreux gènes identiques. On pense que la comparaison du génome de l'homme de Néandertal et du génome humain permettra de mieux connaître cette espèce disparue, ainsi que l'évolution de l'homme et du cerveau humain. Institut Max-Planck d'anthropologie évolutionniste.
  2. Ces zones ont été identifiées à la fin du XIXe siècle et aucune preuve d'activation de ces zones n'est donnée pour d'autres espèces d’Homo que l’Homo sapiens
  3. http://www.tlfq.ulaval.ca/axl/monde/origine-langues.htm
  4. Enhancing coherency of specification documents from automotive industry, Jean Noël Martin 2012, Braga Portugal slate 2012 - Juin 2012 http://drops.dagstuhl.de/portals/oasics/index.php?semnr=12004

Références

  1. « langage naturel », Grand Dictionnaire terminologique, Office québécois de la langue française (consulté le ).
  2. CĂ©cile Lestienne, Ghislain Dehanne, Laurent Sagart, Pascal Picq, La Plus Belle Histoire du langage, Seuil, 2008.
  3. (en) Alec MacAndrew, FOXP2 and the Evolution of Language.
  4. Jean-Pierre Changeux, L'Homme neuronal, Fayard, Paris, 1983.
  5. Jean-Pierre Changeux, Propriété des ensembles neuronaux dans Théories du langage et théories de l'apprentissage, Édition du seuil, Paris, 1979.
  6. Joseph Donato, La Variation linguistique dans Linguistique sous la direction de Fréderic François, PUF, 1980.
  7. Fabien Wolf et Edward Gibson, Coherence dans Natural Language, Massachusetts Institute of Technology, 2006.
  8. Michel Charolles, Cohérence, pertinence et intégration conceptuelle, université de Paris III, 2002.

Bibliographie

Les références sont entre autres issues de l’ouvrage Aux Origines des langues et du langage, sous la direction de Jean-Marie Hombert, Fayard, 2005

  1. Jean-Jacques Hubelin, La Langue des premiers hommes.
  2. Philippe Vernier, Évolution du cerveau et émergence du langage.
  3. Christophe Coupé, À la Recherche des indices du langage articulé.
  4. Christophe Coupé, L’Impossible Quête de la Langue Mère.
  5. Bernard Victorri, Les Mystères de l’émergence du langage.

Voir aussi

Articles connexes

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.