Accueil🇫🇷Chercher

Similarité lexicale

En linguistique, la similaritĂ© lexicale est la mesure du degrĂ© de ressemblance entre des sĂ©ries de mots appartenant Ă  deux langages donnĂ©s. Une similaritĂ© lexicale de 1 (ou 100 %) correspondrait Ă  un recouvrement total entre les vocabulaires, tandis que 0 signifie qu'il n'y a pas de mots communs.

Il y a plusieurs façons de dĂ©finir la similaritĂ© lexicale et les rĂ©sultats varient en consĂ©quence. Par exemple, la mĂ©thode de l’Ethnologue consiste Ă  comparer un ensemble standardisĂ© de listes de mots et Ă  compter les formes qui prĂ©sentent une similitude Ă  la fois dans la forme et dans la signification. En utilisant une telle mĂ©thode, l'anglais a Ă©tĂ© Ă©valuĂ© comme prĂ©sentant une similitude lexicale de 60 % avec l'allemand et de 27 % avec le français.

La similaritĂ© lexicale peut ĂŞtre utilisĂ©e pour Ă©valuer le degrĂ© de relation gĂ©nĂ©tique entre deux langages. Des pourcentages supĂ©rieurs Ă  85 % indiquent habituellement que les deux langues comparĂ©es sont probablement des dialectes apparentĂ©s[1].

La similarité lexicale constitue seulement une indication de l'intelligibilité mutuelle des deux langages, étant donné que cette dernière dépend aussi du degré de similitude phonétique, morphologique et syntaxique. Les variations dues aux différentes listes de mots utilisées ont aussi un effet là-dessus. Par exemple, la similitude lexicale entre le français et l'anglais est considérable dans les champs lexicaux relatifs à la culture, alors que leur similarité est plus restreinte quand il s'agit de mots de base (en termes de fonction). Contrairement à l'inter-intelligibilité, la similitude lexicale ne peut être que symétrique.

Langues indo-européennes

Le tableau ci-dessous présente quelques valeurs de similarité lexicale pour des couples donnés de langues romanes, germaniques et slaves, telles que collectées et publiées par l'Ethnologue[2].

Lang.
code
Langue 1
↓
Coefficients de similarité lexicale
CatalanAnglaisFrançaisAllemandItalienPortugaisRoumainRomancheRusseSardeEspagnol
catCatalan 1-0,85-0,870,850,730,76-0,750,85
engAnglais -10,270,60----0,24--
fraFrançais 0,850,2710,290,890,750,750,78-0,800,75
deuAllemand -0,600,291-------
itaItalien 0,87-0,89-1-0,770,78-0,850,82
porPortugais 0,85-0,75--10,720,74--0,89
ronRoumain 0,73-0,75-0,770,7210,72-0,830,71
rohRomanche 0,76-0,78-0,780,740,721-0,740,74
rusRusse -0,24------1--
srdSarde 0,75-0,80-0,85-0,830,74-10,76
spaEspagnol 0,85-0,75-0,820,890,710,74-0,761
CatalanAnglaisFrançaisAllemandItalienPortugaisRoumainRomancheRusseSardeEspagnol
Langue 2 → cat eng fra deu ita por ron roh rus srd spa

Notes :

  • Les codes langue sont ceux de la norme ISO 639-3
  • L'Ethnologue ne prĂ©cise pas avec quelle variante de la langue sarde la similaritĂ© lexicale a Ă©tĂ© calculĂ©e
  • "-" indique que les donnĂ©es de comparaison ne sont pas disponibles

Notes et références

  1. DĂ©finition sur www.ethnologue.com
  2. Voir par exemple les données de similarité lexicale pour le Français, l'allemand, l'Anglais
Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.