Hyperbase
Hyperbase est un logiciel d'exploration documentaire et statistique des textes, accessible par le Web ou utilisable sur micro-ordinateur. Il est diffusé par le CNRS et l'université Côte d'Azur et est conçu et développé par Étienne Brunet et Laurent Vanni, au sein de l'UMR « Bases, corpus, langage »[2]. Entre sa naissance en 1989 et sa dernière version 10 en 2021, Hyperbase a intégré le savoir-faire lexicométrique français en matière de statistique textuelle et d'exploration documentaire des grands corpus ; il est ouvert aujourd'hui sur le deep learning et l'intelligence artificielle. Le logiciel est utilisé en linguistique[3], recherche littéraire[4], histoire[5], sociologie ou sciences politiques[6].
Développé par | Centre national de la recherche scientifique et université Côte-d'Azur |
---|---|
Première version | |
Dernière version | 10 ()[1] |
Système d'exploitation | MacOS et Microsoft Windows |
Environnement | Navigateur web |
Langues | Français, allemand et anglais |
Site web | hyperbase.unice.fr/hyperbase |
Historique
La première version du logiciel Hyperbase date de 1989. Après vingt ans d’expériences en divers langages sur gros systèmes, Étienne Brunet se tourne vers les microordinateurs et crée à l’occasion du bicentenaire de la Révolution française, au Centre Georges-Pompidou, un logiciel micro-installable d'analyse des textes. D'abord développé sous Mac avec Hypercard, Hyperbase s'épanouit à partir de la fin des années 1990 sous Windows. Dans les années 2000, Hyperbase s'articule aux lemmatiseurs et étiqueteurs TreeTagger ou Cordial et dépasse ainsi le seul traitement statistique des mots graphiques par le traitement combiné des formes, des lemmes, des codes grammaticaux ou des enchainements syntaxiques. En 2010, Hyperbase traite à côté du français et du latin, des grandes langues européennes (anglais, espagnol, allemand, italien, portugais). En 2017, Hyperbase est développé, d'une part, sous une version 10.0 pour ordinateur de bureau, qui offre plusieurs nouvelles fonctionnalités dont un traitement approfondi des cooccurrences, la comparaison des données avec GoogleBooks (70 milliards de mots) et une meilleure articulation avec des logiciels partenaires comme Iramuteq ou Gephi et, d'autre part, sous une version Web[7]. En 2020, la version web du logiciel, développée par Laurent Vanni, se dote de fonctionnalités de deep learning, d'apprentissage, de prédiction et description des textes.
Fonctionnalités
Hyperbase combine deux types de fonctions, documentaires et statistiques, qui permettent à l'analyste de décrire, caractériser, classer et interpréter les textes.
- Fonctions documentaires
- Retour au texte plein ou lemmatisé pour une lecture naturelle du corpus
- Navigation hypertextuelle dans le corpus par mots-clefs
- Recherche et tri des contextes et des concordances d'une unité
- Index et dictionnaires des formes, des lemmes, des codes et des fréquences
- Fonctions statistiques
- Calcul des spécificités et graphes de distribution des unités linguistiques du corpus
- Indices de richesse lexicale et d'accroissement du vocabulaire
- Traitement et représentation factoriels de matrices lexicales ou grammaticales complexes dans la lignée des travaux de Jean-Paul Benzécri
- Calcul de distances entre textes, classification et représentation arborées
- Extraction des phrases typiques et des segments répétés
- Calcul et représentations des cooccurrences et réseaux thématiques
- Comparaison statistique avec le Trésor de la langue française, GoogleBooks, le British National Corpus
Utilisation
Hyperbase est utilisé dans plusieurs disciplines des sciences humaines et sociales soucieuses de décrire et interpréter des textes (œuvres littéraires, archives historiques, discours politiques, questionnaires et entretiens sociologiques). Hyperbase permet d'établir des chronologies endogènes dans des corpus socio-historiques, de faire des typologies d'auteurs dans des corpus littéraires ou de caractériser les genres dans des corpus linguistiques. Le logiciel est particulièrement utilisé pour déceler les thématiques ou isotopies des discours, notamment grâce au calcul des univers lexicaux d'un mot-pole ou le traitement généralisé des cooccurrences.
Le logiciel se présente comme un outil heuristique qui permet grâce à l'articulation du quantitatif (statistique textuelle) et du qualitatif (retour assisté et systématique au texte) de nourrir et contrôler l'acte interprétatif au fondement des humanités.
Configuré de manière ad hoc, il permet l'analyse en ligne de certains corpus comme « L'observatoire du discours présidentiel français (1958-2014) »[8], la base Balzac (recherche hypertextuelle dans la Comédie humaine)[9], Rabelais[10] ou la cinquantaine des plus grands auteurs de la littérature française (du Bellay, Racine, Hugo, Sand, Rimbaud, Aragon, Le Clézio, etc.)[11].
Voir aussi
- Alceste (Max Reinert, société Image, Toulouse)
- Analyse de données textuelles
Bibliographie
Où sont recensés quelques travaux universitaires qui appuient leurs analyses sur le logiciel Hyperbase ou expliquent son fonctionnement et son bien-fondé scientifique.
Ouvrages
- Cécile Alduy et Stéphane Wahnich, Marine Le Pen prise aux mots. Décryptage du nouveau discours frontiste, Paris, Sciences humaines, 304 p. (ISBN 2021172104 et 978-2021172102).
- Étienne Brunet,Comptes d’auteurs. Tome 1. Études statistiques de Rabelais à Gracq, textes édités par Damon Mayaffre, préface d’Henri Béhar, Paris, Champion, 2009, 396 p. (ISBN 274532019X et 978-2745320193).
- Étienne Brunet et Céline Poudat (dir.), Ce qui compte, tome 2, Méthodes statistiques, préface de Ludovic Lebart, Paris, Champion, 2011, 376 p. (ISBN 2745322257 et 978-2745322258).
- Étienne Brunet, Au bout du compte, tome 3, Questions linguistiques, textes édités par Bénédicte Pincemin, préface de François Rastier, Paris, Champion, 2016.
- Margareta Kastberg-Sjoblom, L'écriture de J.M.G. Le Clézio, Des mots aux thèmes, Paris, Champion, 2006, 304 p. (ISBN 2745314122 et 978-2745314123).
- Véronique Magri-Mourgues, Voyage à pas comptés.Pour une poétique du récit de voyage au XIXe siècle, Paris, Champion, 2009, 328 p. (ISBN 2745319418 et 9782745319418).
- Pascal Marchand, Le grand oral. Les discours de politique générale de la Ve République, Bruxelles, De Boeck, 2007, 215 p. (ISBN 2804153371 et 9782804153373).
- Damon Mayaffre, Le discours présidentiel sous la Ve République. Chirac, Mitterrand, Giscard, Pompidou, de Gaulle, Paris, Presses de Sciences Po, 2012, 384 p. (ISBN 2724612442).
- Damon Mayaffre, Mesure et démesure du discours. Nicolas Sarkozy (2007-2012), Paris, Presses de Sciences Po, 2012, 358 p. (ISBN 978-2-7246-1243-1).
- Sylvie Mellet et Dominique Longrée (dir.), New Approaches in Text Linguistics, Amsterdam, John Benjamins Pub Co, 2009, 206 p. (ISBN 9027226830 et 9789027226839).
Thèses et travaux universitaires
- Attika Yasmine Abbès et E. Brunet (dir.), Étude lexicologique, stylistique et pragmatique de l'œuvre de Mouloud Mammeri, Nice, 2000.
- Marion Bendinelli et S. Mellet(dir.), Étude des auxiliaires modaux et des semi-modaux dans les débats présidentiels américains (1960-2008) : analyse qualitative et quantitative. Relations d’influence et enjeux de pouvoir, Nice, 2012.
- Julien Bonneau et D. Mayaffre (dir.), Modulations mathématiques et descriptives pour l’émergence de parcours interprétatifs dans des corpus textuels. Application au corpus Mendès France (1922-1982), Nice, 2012.
- Yann Bouvier et P.-Y. Beaurepaire (dir.), Chapitre III : « La lecture Logométrique et les outils d'Hyperbase », Récits de voyage et représentation de l'espace. La Méditerranée de Jérôme Maurand, un espace vécu, Nice, 2007, p. 72-85 .
- Camille Bouzereau, G. Salvan (dir.) et D. Mayaffre (dir.), Doxa et contre-doxa dans la construction du territoire discursif du Front National (2000-2017), Nice, 2020.
- Magali Guaresi (préface de Fraçoise Thébaud), Parler au féminin. Les professions de foi des député-e-s sous la Cinquième République (1958-2007), Paris, L'Harmattan, 2018. (Livre issu de la thèse dirigée par D. Mayaffre et J.-P. Pellegrinetti, soutenue en 2015 à Nice).
- Aude Hendrick, Des mots de circonstance. Le discours de rentrée de la haute magistrature belge au XIXe siècle (Promoteur Jean-Pierre Nandrin et co-promoteur Xavier Rousseau, Bruxelles, 2012.
- Hakim Hessas et F. Rastier (dir.), L’Europe dans la revue Europe. Analyse sémantique et statistique de corpus, Paris, 2010.
- Véronique Magri-Mourgues et E. Brunet (dir.), Le Discours sur l’Autre à travers quatre récits de voyage en Orient (Voyage en Orient de Lamartine, Le Nil, Égypte et Nubie de Maxime Du Camp, Un Été dans le Sahara et Voyage en Égypte de Fromentin), Nice, 1993.
- Damon Mayaffre, R. Schor (dir.), Le Discours politique dans les années 1930. Analyse du vocabulaire de Maurice Thorez, Léon Blum, Pierre-Etienne Flandin et André Tardieu (1928-1939), Nice, 1998.
- Heba Metwally, D. Mayaffre (dir.), Les Thèmes et le temps dans Le Monde diplomatique (1990-2008), Nice, 2017.
- Caroline Philippart et S. Mellet (dir.), Hagiographie et statistique linguistique, Nice, 2008.
- José Parada-Ramirez et V. Magri-Mourgues (dir.), Lecture documentée et analyse textométrique de l'œuvre de Jules Verne : les influences de la Franc-Maçonnerie dans son œuvre, Nice, 2013.
- Yumiko Tahata, J. Streiff-Fenart (dir.) et M. Sekine (dir.), « Qu'est-ce qu'un Français ». La construction et les effets de la « francité » dans la société française contemporaine, Nice et Keio.
Articles
- Raymond Blanchard, Joceline Chabot et Sylvia Kasparian, « Sous la loupe d’Hyperbase : les combattants russes dans l’œil de la presse illustrée française de 1914 à 1919 », JADT 2012.
- Étienne Brunet, « Nouveau traitement des cooccurrences dans Hyperbase », Corpus, 11, 2012, pp. 219-248.
- Benoît Corvez et Anne-Sophie Lechevallier, « La verbalisation de 68 dans la doxa intellectuelle » dans A. Callu (dir.),Le mai 68 des historiens. Entre identités narratives et histoire orale, Villeneuve d'Ascq : Presses universitaires du Septentrion, 2010, pp. 37-52.
- Carine Duteil-Mougel, « Les Mécanismes persuasifs des textes politiques. Propositions théoriques pour l’analyse de corpus », Corpus, 4, 2005.
- Baptiste Foulquié, « De l'utilité de la sémantique textuelle comme médium entre corpus et analyse », Texto, 2006.
- Jean-Philippe Genet, « Panorama critique de l’utilisation d’internet par les médiévistes en France », [Edito a stampa in Medioevo in retetra ricerca edidattica, acuradi Roberto Greci, Bologna 2002, pp. 23-34].
- Véronique Magri-Mourgues, « Analyse textométrique et interprétation. Hyperbase, Rousseau et les Lumières », Travaux neuchâtelois de linguistique (TRANEL), no 5. La linguistique de corpus – de l’analyse quantitative à l’interprétation qualitative / Korpuslinguistik – von der quantitativen Analyse zur qualitativen Interpretation, Daniel Elmiger et Alain Kamber (éds), p. 77-93.
- Damon Mayaffre, « Plaidoyer en faveur de l’Analyse de Données co(n)Textuelles Parcours cooccurrentiels dans le discours présidentiel français (1958-2014) », JADT 2014, Proceedings of the 12th International Conference on Textual Data Statistical Analysis, édité par E. Néé, M. Valette, J.-M. Daube et S. Fleury, Paris, Inalco-Sorbonne nouvelle, 2014, pp. 15-32.
- Jean-Michel Rampon, « Professions de foi et élection présidentielle de 2002. Une approche verbale de la distance entre candidats », Mots. Les langages du politique [En ligne], no 81, 2006, mis en ligne le , consulté le .
- Laurent Vanni et Adiel Mittmann, « Cooccurrences spécifiques et représentations graphiques, le nouveau « thèmes » d'Hyperbase », JADT2016 - Statistical Analysis of Textual Data, Nice, Presses Fac Imprimeur, 2016, vol. 1, pp. 295-306.
Notes et références
- « http://ancilla.unice.fr/ »
- « UMR 7320 : Bases, Corpus, Langage », sur bcl.cnrs.fr (consulté le )
- Cf. bibliographie. Par exemple : Marion Bendinelli, Étude des auxiliaires modaux et des semi-modaux dans les débats présidentiels américains (1960-2008) : analyse qualitative et quantitative. Relations d’influence et enjeux de pouvoir (dir. S. Mellet, 2012, Nice)
- Cf. bibliographie. Par exemple : Véronique Magri-Mourgues, Le Voyage à pas comptés. Pour une poétique du récit de voyage au XIXe siècle, Champion, 2009
- Cf. bibliographie. Par exemple : Magali Guaresi, Parler au féminin. Les professions de foi des député-e-s sous la Cinquième République (1958-2007) (dir. D. Mayaffre et co-dir. J.-P. Pellegrinetti, 2015, Nice)
- Cf. bibliographie. Par exemple : Damon Mayaffre, Mesure et démesure du discours. Nicolas Sarkozy 2007-2012, Presses de SciencesPo, 2012
- « Hyperbase | Analyse de données textuelles en ligne », sur hyperbase.unice.fr (consulté le )
- « Mesure du Discours - Observatoire du discours politique français de 1958 à … », sur unice.fr (consulté le ).
- « CONCORDANCE de Balzac », sur unice.fr (consulté le ).
- http://ancilla.unice.fr/rabelais.html
- http://logometrie.unice.fr/pages/bases//