Littérométrie

La littérométrie est une sous-discipline des études littéraires dans le cadre des Humanités numériques, proposée par Paul Fièvre et illustrée par l'ouvrage de Michel Bernard et Baptiste Bohet (voir la référence infra). Elle a pour finalité de définir les méthodes et outils de mesure des textes littéraires, des conditions de production et de réception. Elle identifie et qualifie les instruments permettant d'explorer un texte ou un corpus, étudier une hypothèse, vérifier un savoir confirmé. Pour ce qui concerne l'analyse des textes, elle reprend les bases de la lexicométrie ou de la logométrie. L'analyse des données, la statistique générale ou l'analyse des données textuelles (voir Alceste (logiciel)) constituent le cœur technique de cette discipline. La littérométrie en soi n'explique rien mais se propose de valider sans contestation des hypothèses et d'échapper à l'arbitraire de l'interprétation essayiste. En tenant compte de la spécificité du corpus littéraire, cette discipline invite préalablement le chercheur ou l'amateur à écarter les hypothèses trop éloignées des faits historiques avérés.

La littérométrie est une analyse descriptive et comparative des textes.

Les outils pour mener à bien les travaux de littérométrie sont organisés en trois types :

outils de production
- format de stockages des textes (XML DTD TEI principalement)
  - Le format XML est adapté pour le marquage des textes dont la variabilité est indénombrable a priori.
- format de publication des textes (TXT, HTML, EPUB, PDF, etc.)
  - Les formats existants cités sont éligibles pour la publication. Le format de stockage permet l'automatisation d'exporter des textes vers des formats de publication actuels et futurs.

outils d'analyse
- dénombrements et comparaison
  - Le dénombrement est la partie le plus immédiatement nécessaire à l'étude d'un texte : vocabulaire total ou partiel sur un terme, recherche sur un mot ou un champ lexical.
  - La comparaison de plusieurs textes (usuellement 2) permet de mettre en évidence deux versions textes, deux textes d'un même auteur, deux textes d'un même thème ou sujet, deux corpus.
- statistiques et indicateurs
  - La statistique descriptive présente sous forme numérique l'organisation du texte (parties, chapitres, actes, scènes, personnages, poèmes, strophes, longueurs de phares et de vers)
  - les indicateurs particuliers comme l'indicateur de fractionnement des vers dans le théâtre classique offrent au chercheur d'établir des catégories ou classent de textes par genre, auteur ou période.
outils de présentation
- représentation graphique de données numériques
- représentation schématique (arborescence, frise chronologique, cartographie de lieux et trajectoires)

Tous les éléments rassemblés par les outils illustrent et explicitent l'étude, l'explication ou la présentation professorale des textes littéraires.

Les textes

Les mesures élémentaires du texte

Le texte littéraire est un sous-ensemble des textes d'une langue. Plus que tout autre texte, le texte littéraire est une chambre d'écho où les significations et les effets de style sont trop variés pour permettre d'explorer automatiquement leur(s) signification(s). Les sens sont parfois spécifiques à une œuvre, un auteur, une période, un genre. C'est pour cette raison que la mesure du texte s'impose de n'être qu'une mesure empirique sans autre proposition d'explication de sens ou de signification.

Les principales mesures sont :

la taille du texte en nombre de caractères,
la longueur des parties (actes et scènes, chapitres)
la liste du lexique (liste ordonnée des mots)
l'identification des traits stylistiques

La lexicométrie ou logométrie complètent alors ces mesures par d'autres indices plus pointus (richesse du vocabulaire, distances intertextuelles, calcul des cooccurrences et des isotopies du discours, etc.). Pour distinguer les homonymies et homographies, l'opération de lemmatisation prépare un texte en regroupant les mots par famille et par signification en opérant un travail combiné d'analyse sémantique et d'analyse grammaticale. Cette opération est difficile à envisager par un automate ; la langue littéraire comporte un réseau de sens métaphoriques qui empêche toute détermination objective. L'outil TXM[1], développé au sein de l'ENS Lyon et mis en ligne en juin 2014, ambitionne d'offrir une plate-forme d'analyse des textes et de génération automatique de résultat. Cet outil est intellectuellement piloté par une pensée linguistique. L'utilisateur est invité à construire une partie des outils complémentaire pour analyser ses propres textes.

Par ailleurs, quelques méthodes et techniques n'apportent qu'un apport très faible ou inexistant à la connaissance des faits littéraires : la méthode de classification des textes par le Modèle vectoriel ou encore l'attribution de textes à un auteur par le comptabilisation des mots en utilisant le digramme initial de chaque occurrence.

Les indicateurs du texte

Une fois les premières opérations de mesure élémentaires effectuées, il est possible d'explorer plus avant les textes en croisant les éléments deux à deux. Ainsi pour le théâtre, le nombre de répliques par personnages et par actes comparé avec le nombre de vers par personnages et par actes permet de distinguer les personnages qui parlent souvent (nombre de répliques) des personnages qui parlent beaucoup (nombre de vers), d'apprécier si la prise de parole est concentrée au début, au milieu ou en fin de texte.

les répartitions des masses (exemple nombre de répliques par personnage et par acte)

La répartition des répliques par personnages en quantité et en volumes illustre les recherches qui ont abouti à une typologie des personnages selon leur apparition.

PERSONNAGE	ACTE I	ACTE II	ACTE III	ACTE IV	ACTE V	TOTAL
Antiochus	26	0	30	2	8	66
Arsace	15	0	11	0	5	31
Bérénice	11	10	14	13	10	58
Phénice	3	1	1	3	0	8
Titus	0	22	7	17	13	59
Paulin	0	11	0	7	0	18
Rutile	0	1	0	1	0	2
TOTAL	55	45	63	43	36	242

la répartition et dimensions des parties Dialogues/Récit/Narration

Pour les textes pour lesquels la question est pertinente (Roman, Nouvelle), l'étude de la répartition des dialogues récit et narration représente possibilité de décrire une construction de l'œuvre qui n'a pas fait jusqu'en 2012 de recherches nombreuses et variées.

L'accroissement du vocabulaire

Courbe de fréquence des mots dans Le Cid de Pierre Corneille

La loi de Zipf est un moyen d'appréhender l'accroissement du vocabulaire dans un texte. Cette loi corrigée par Benoît Mandelbrot appliquée à un texte n'apporte, seule, aucun élément d'information significatif. Par contre, il peut être fructueux de comparer la courbe d'accroissement de plusieurs textes similaires comme des tragédies et comédies de l'âge classique français et confirmer ou non l'interrogation de Lucienne Rochon (revue Europe n^o 453, 1967) sur la richesse du vocabulaire de Racine.

Courbe de comparaison du Misanthrope, de la Fausse apparence, de Tite et de Bérénice

Il ne paraît pas probant de tirer des conclusions à la seule lecture du graphique ci-contre au risque de dire que le Jean Racine de « Bérénice » a écrit « La Fausse apparence ». Une autre approche du même phénomène consiste à s'intéresser au nombre d'hapax du texte et de leur appartenance grammaticale. La nombre d'hapax pour Le Cid de Pierre Corneille est de 1256. Information qui incite à mettre en lumière les autres fréquences. La courbe générée par cette répartition est nommée traîne de Bérénice.

La richesse du vocabulaire

Cet indicateur $V/n$ où V est le nombre d'occurrences distinctes et N le nombre d'occurrences totales d'un texte donne une indication de la richesse du vocabulaire. Mais, comme le démontre l'expérience cette mesure doit être pondérée par le fait que l'accroissement du vocabulaire est logarithmique ; la richesse du vocabulaire ne s'accroit pas indéfiniment en fonction de la longueur du texte. Les cas limites sont : un texte aussi long que possible composé d'un seul mot et un texte de longueur indéfini comportant autant de mots distincts. Cette mesure simple comporte une limite car elle est sensible à la longueur du texte. Il est préférable de choisir la formule $Log(V)/Log(N)$ .

La comparaison des textes

Dans la mesure où l'on dispose de deux textes voisins (même auteur, même sujet, même date, même genre), il est vivement recommandé d'en opérer une comparaison des éléments chiffrés de chacun des textes. Cette comparaison peut faire ressortir un fait saillant déterminant ou au contraire constater une plate similitude. Le traitement de la comparaison des textes a pu laisser croire à certains chercheurs qu'il est possible de déterminer l'auteur d'un texte littéraire ; Dominique Labbé a présenté des recherches tentant de remettre en cause la paternité des œuvres de Molière sans obtenir l'assentiment de toutes les composantes de la recherche universitaire, Georges Forestier (professeur de littérature) (Université Paris IV) a constitué un dossier de contre-enquête.

Les recherches spécifiques

Dans la mesure où l'on dispose d'un dictionnaire des champs lexicaux, la mise en valeur des mots et de la localisation de ceux-ci dans le texte et d'amélioration la lecture savante du texte. Il est possible de connaître ainsi le nombre d'occurrences du mot "fureur" dans Bérénice de Jean Racine.

Recommandation pour le traitement des textes

Le texte littéraire à quelques exceptions près n'a pas une structure fixe comme l'exige le traitement automatiques des données. Le DTD TEI est un format XML qui permet de baliser un texte d'une manière conventionnelle ce qui permet aux outils informatiques de disposer d'une structure pour opérer des traitements sans ambiguïté.

Autour du texte

Constitution de savoirs par la constitution de banques de données

Les conditions de production et de réception des textes littéraires se prêtent particulièrement à une analyse statistique. Naissance de l'écrivain d'Alain Viala est l'ouvrage de référence qui constitue cette partie des études littéraires tant du point de vue de la méthode, de l'approche théorique que des résultats obtenus. L'émergence de bases de données en ligne comme le Catalogue électronique des Spectacles de l'Ancien régime CESAR, les dictionnaires numérisés par les grandes bibliothèques comma Gallica offre des perspectives d'études aussi nouvelles qu'étendues.

Par ailleurs, dans les unités de recherche en littérature, se constituent des listes et banque de données sur des thématiques comme la querelle littéraire au sein du Projet AGON ou les Idées du théâtre s'intéressant aux préfaces et dédicaces du XVI^e siècle et XVII^e siècle français.

Réédition et Diffusion

La publication en ligne permet la diffusion aisée et facilement accessibles d'éditions critiques ou de textes illustratifs. Il existe plusieurs formats publics dont EPUB (format) ou propriétaire (PDF, XHTML) qui déterminent le format du livre numérique. Tous les textes sont concernés aussi bien les corpus historiques, ou ceux d'une problématique ou d'un auteur.

Notons principalement pour le théâtre et spectacles

Autour d'un auteur

Autour d'une thématique

Dans les grandes bibliothèques et corpus généraux

Par ailleurs, la publication d'un manuscrit et de ses versions comportant des renoncements, révisions, ajouts représente une difficulté particulière : c'est l'objectif que s'est assigné le logiciel de comparaison de version MEDITE qui signifie Machine pour l'Étude Diachronique et Interprétative du Travail de l'Écrivain.

Notes et références

« Projet Textométrie », sur textometrie.ens-lyon.fr (consulté le 29 juin 2016)

Liens externes

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.