Linguistique de corpus

La linguistique de corpus est une branche de la linguistique qui étudie le langage à travers des exemples contenus dans des textes réels. En particulier elle se propose d'extraire d'un corpus les connaissances linguistiques essentielles à l’enseignement des langues et à l'élaboration des dictionnaires.

La linguistique de corpus situe la signification dans le discours et dans l'interaction entre les gens plutôt que dans l'esprit des locuteurs. En effet le sens des mots est déterminé par le contexte dans lequel ils sont employés. Aujourd'hui la création de ces corpus linguistiques est possible grâce au processus automatique c'est-à-dire grâce à l'emploi d'outils statistiques et de programmes informatiques qui rendent le travail humain beaucoup plus facile.

Concernant la valeur de l'annotation de corpus, il existe deux points de vue différents, l'un de John Sinclair, qui préfère l'annotation minimale afin que les textes puissent parler pour "eux-mêmes"[1], l'autre de l'équipe Survey of English Usage qui préconise l'annotation comme une compréhension linguistique plus efficace.

Historique

Définition et origine du mot

L'expression « linguistique de corpus » est une traduction de l'anglais Corpus Linguistics car c'est à partir du monde anglophone que l'étude de cette discipline commence à se développer dans le domaine linguistique. Si la linguistique est une discipline scientifique consacrée à l'étude du langage, le corpus représente son objet principal.

Dans la tradition, la notion de corpus est définie de manière canonique, dans les domaines religieux, juridiques et littéraires. Elle a été élaborée par des disciplines comme la philologie et l’herméneutique qui concernent le domaine des traitements automatiques du langage. Cette conception canonique de corpus comme « sac des mots « aujourd'hui est remplacée par une notion qui considère le corpus comme un ensemble de textes oraux ou écrits et pas seulement un ensemble de mots ou des phrases qui ne sont pas liés à un certain contexte[2].

Naissance de la linguistique de corpus

Certains affirment que la naissance de la linguistique de corpus peut être associée à la création en 1755 du Johnson, le premier dictionnaire de la langue anglaise basé sur un corpus. En effet, avec Johnson commence une tradition lexicographique plus normative qui se base sur des textes authentiques[3].Toutefois, malgré cette considération, le début d'une discipline aussi neuve est strictement lié à l’avènement d'ordinateurs de plus en plus puissants qui permettent d'obtenir plus facilement une analyse linguistique des textes. L'année 1964, en particulier, marque le véritable départ des travaux sur corpus, avec la création du premier corpus informatisé par une équipe de chercheurs de l'université Brown aux États-Unis[4]. Il s'agit du Computational Analysis of Present-Day American English, un corpus général, compilé en 1967 par Henri Kučera et W. Nelson Francis, qui possède 500 échantillons de textes en anglais. Ces derniers sont obtenus à partir de travaux publiés aux États-Unis et ils contiennent plus d’un million de mots en anglais-américain tirés de différentes sources. Pour l’étude de l’emploi de l’anglais, une autre publication très importante est le Survey of English Usage (SEU) qui émane du premier centre de recherche sur corpus en Europe. Selon l’auteur de ce projet, le linguiste Randolph Quirk, l’objectif est principalement didactique[5]. En effet, la linguistique de corpus nait pour répondre au besoin d’enseigner l’anglais comme seconde langue. Si les dictionnaires traditionnels dans leur analyse de mots isolés sont incapables de dire comment employer un mot, la linguistique de corpus réussit à combler cette lacune. Elle s’appuie sur la linguistique appliquée qui centre son effort sur l’enseignement de la langue et l’élaboration de dictionnaires[6].

Diffusion en France

En France la linguistique de corpus commence à se développer une dizaine d’années plus tard grâce à la constitution de Frantext, la première base de données de textes français (textes littéraires, philosophiques, scientifiques et techniques) qui permet de fournir des exemples pour le Trésor de la langue française. Par conséquent, à travers le traitement de textes, la plupart des données textuelles sont automatiquement saisies sur support électronique. Cela permet l’apparition des corpus écrits de taille variable et, dans un deuxième temps, des corpus de l’oral qui nécessitent une transcription manuelle des enregistrements sonores. Mais petit à petit, grâce à l’intérêt des linguistes pour la langue parlée, les corpus de l’oral commencent à apparaître aussi sur la Toile en devenant donc accessibles à l’analyse.

Méthodologie

La linguistique de corpus se base sur un certain nombre de méthodes qui suivent le modèle élaboré par Wallis et Nelson en 2001[7]. Dans la recherche linguistique sur les corpus ils montrent trois étapes différentes qu’ils appellent (3 A perspective) : Annotation, Abstraction, Analyse.

L'annotation consiste à appliquer au corpus des données qui ne sont pas explicitement présentes lors de la compilation de données. En d’autres termes, l’annotation permet d’ajouter des structures linguistiques spécifiques aux données brutes du corpus, comme les jeux d’étiquettes[8] et l’analyse syntaxique.
L'abstraction prévoit la traduction des termes spécifiques qui se trouvent dans un ensemble de données.
L'analyse consiste à examiner, modifier et généraliser cet ensemble de données souvent à travers des évaluations statistiques.

Linguistique de corpus et TAL

La communauté TAL (Traitement Automatique des Langues), depuis ses débuts, offre des approches nouvelles à la linguistique de corpus qui traditionnellement s’appuyait sur des méthodes et des objectifs plus classiques. En effet, la linguistique de corpus est souvent considérée comme relevant majoritairement d'une perspective TAL car elle traite de grandes quantités de données textuelles sur support électronique[9]. Les avantages de ce type de traitement automatique résident dans la rapidité du traitement des données et dans la fiabilité de ces traitements[10].

Un autre domaine où la linguistique de corpus et le TAL s’appliquent est celui de la traduction, une discipline qui utilise un ensemble de textes récoltés et organisés en corpus, selon les langues concernées dans le travail de traduction. Pour développer une telle tâche, il existe plusieurs logiciels qui peuvent faciliter l’analyse des documents à traduire, à des fins lexicales et terminologiques. Certains logiciels se trouvent en ligne gratuitement et ils permettent d’établir des concordances de textes autour de mots-clés ou de rechercher des occurrences et leurs collocations directement sur la Toile de façon que le web soit employé comme corpus.

La linguistique de corpus a une place très importante dans n’importe quel domaine concernant l’aspect pratique d’une langue et c’est pour cette raison qu’elle peut être considérée comme « la seule approche qui peut prétendre à être une linguistique de la parole »[6].

Notes et références

Sinclair, J. 'The automatic analysis of corpora', in Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82). Berlin: Mouton de Gruyter. 1992.
Rastier, François (2004). « Enjeux épistémologiques de la linguistique de corpus ». In Rubrique Dits et inédits. http://www.revue-texto.net/Inedits/Rastier/Rastier_Enjeux.html (consulté le 13/3/2017).
Williams, Geoffrey (2006). « La linguistique et le corpus : Une affaire prépositionnelle ». In Texto, revue de linguistique en ligne. http://www.revue-texto.net/Parutions/Livres-E/Albi-2006/Williams.pdf (consulté le 4 avril 2017).
Eshkol-Taravella, Iris et Lefeuvre-Halftermeyer, Anaïs (2017). « Linguistique de corpus : vues sur la constitution, l’analyse et l’outillage ». In Corela. http://corela.revues.org/4800 ; DOI : 10.4000/corela.4800 (consulté le 14/3/2017).
Jacqueline, Léon (2008). « Aux sources de la « Corpus Linguistics » : Firth et la London School ». In Langages. Mars 2008, (n^o 171), p. 12-33.
Wolfgang, Teubert (2009). « La linguistique de corpus : une alternative [version abrégée] ». In Semen. http://semen.revues.org/8914 (consulté le 5 avril 2017).
Wallis, Sean et Nelson Gerald (2001). « Knowledge Discovery in Grammatically Analysed Corpora ». In Data Mining and Knowledge Discovery, n^o 5, 305-335.
Barbera, Manuel (2013). Linguistica dei corpora e linguistica dei corpora italiana. Un’introduzione. Milano : Qu. A.S.A.R. s.r.l.
Condamines, Anne (2005). « Linguistique de corpus et terminologie ». In Langages, La terminologie : nature et enjeux, 2005, n^o 157, p. 36-47.
Arbach, Najib (2015). « Constitution d’un corpus oral de FLE : enjeux théoriques et méthodologiques ». In Linguistique, Université Rennes.