Accueil🇫🇷Chercher

Thésaurus documentaire

Un thésaurus, thésaurus de descripteurs ou thésaurus documentaire[2] est une liste organisée de termes contrôlés et normalisés[3] (descripteurs et non descripteurs) représentant les concepts d'un domaine de la connaissance.

  • Concept ou Terme prĂ©fĂ©rentiel
    • vĂ©hicule
  • Domaines
    • vĂ©hicule - transport [MT 3330]
  • Terme(s) Ă©quivalent(s)
    • moyen de transport
  • Terme(s) gĂ©nĂ©rique(s) [TG]
    • (aucun)
  • Terme(s) spĂ©cifique(s) [TS]
    • navire
    • vĂ©hicule aĂ©rien
    • vĂ©hicule amphibie
    • vĂ©hicule militaire
    • vĂ©hicule spatial
    • vĂ©hicule terrestre
  • Terme(s) associĂ©(s) [TA]
    • mĂ©tier : transport [MT 6005]
    • technique automobile [MT 3510]
    • transport [MT 3330]
Environnement sémantique du terme « véhicule » extrait du thésaurus Motbis édité par le Ministère de l'Éducation nationale[1]

C'est un langage contrôlé utilisé pour l'indexation de documents et la recherche de ressources documentaires dans des applications informatiques spécialisées. Les thésaurus sont donc une catégorie de langages documentaires parmi d'autres. Les termes (dans l'exemple ci-contre : véhicule, navire, etc.) sont reliés entre eux par des relations de synonymie (terme équivalent), de hiérarchie (terme générique et terme spécifique) et d'association (terme associé) ; chaque terme appartient à une catégorie ou domaine.

Introduction

Le thésaurus documentaire est un outil linguistique qui permet de mettre en relation le langage naturel des utilisateurs et celui contenu dans les ressources. Cette technique pallie les limites du langage naturel utilisé par les auteurs des documents et les personnes interrogeant des systèmes documentaires, langage naturel très riche mais aussi assez souvent ambigu. Le thésaurus évite ainsi les risques induits par les synonymies, les homonymies et les polysémies présentes dans le langage naturel[4]. Contrairement à un dictionnaire auquel il est souvent comparé, un thésaurus ne fournit qu'accessoirement des définitions, les relations des termes et leur sélection l'emportant sur la description des significations.

Par exemple un thésaurus reliant récolte à culture, blé à céréale, et France à Europe, permettra pour une question portant sur la récolte du blé en France de trouver des ressources indexées avec culture céréale Europe.

Les thésaurus documentaires sont un type de thésaurus qui suivent des principes de construction établis depuis les années 1970 dans une norme internationale de l'ISO, dont la dernière édition a été publiée en 2011[5] - [6].

Avec l'élaboration de normes et d'applications informatiques spécialisées, comme dans le domaine voisin des ontologies, une convergence des problématiques (ressources, hiérarchie, réutilisation, etc.) a rapproché les thésaurus documentaires des ontologies.

Étymologie, orthographe et histoire

Thesaurus, signifie « recueil, répertoire » en latin. Il a donné naissance au dictionnaire thesaurus linguae latinae de Robert Estienne et à un type d'ouvrages que l'on nomme thésaurus, bien que distincts des thésaurus documentaires et des thésaurus lexicographiques.

Les thésaurus documentaires développés dans le contexte des banques de données scientifiques dans les années 1970[7], prennent de l’importance grâce au développement de l’informatisation dès les années 1990. C’est un système de recherche privilégié notamment en raison de l’utilisation des opérateurs booléens qui permet alors de faire des équations logiques de rechercheref name="Moureau1973"/>.

Les trois orthographes thesaurus, thésaurus et trésor[8] sont admises par les dictionnaires : la première est un xénisme qui reprend directement la forme latine, la seconde en est une francisation partielle et semble la plus fréquente dans la littérature, la dernière en est la forme française. Le pluriel latin thesauri est quelquefois employé, mais passe pour une forme désuète ou un anglicisme (l'anglais employant le pluriel latin). La cohérence veut qu'on écrive soit un thesaurus, des thesauri, soit un thésaurus, des thésaurus, soit un trésor, des trésors.

Le thésaurus contemporain

Ce nouvel outil en documentation et en sciences de l'information (en anglais Information Retrieval) destiné à l'indexation manuelle ou automatique, puis au repérage des documents apparait après la Seconde Guerre mondiale. Le mot thésaurus a été employé en documentation à cause du Thesaurus de Peter Mark Rodget (Roget's Thesaurus of english words and phrases - 1852) qui était un dictionnaire anglais de synonymes et de notions connexes, organisé systématiquement, un thésaurus lexicographique[9]. Après la guerre, c'est-à-dire dès 1947 le développement des sciences et techniques en documentation a nécessité de nouveaux outils de recherche et entraîné entre 1947 et 1957 un grand courant international de recherches théoriques en recherche d'information et en classifications documentaires.

Peter Luhn, et Bernier et Crane aux États-Unis, revendiqueront chacun la paternité du thesaurus documentaire de mots-clefs, termes ou concepts. Ce mot, devenu à la mode pour tout ce qui concernait le contrôle du vocabulaire (langage contrôlé), fut utilisé la première fois publiquement en documentation par Hélène - Louise Brownson (secrétaire de Vannevar Bush), après dix années de recherches théoriques à la Conférence de Dorking en ces termes : « application of a mechanized thesaurus based on networks of related meanings »[10] - [11].

Outil d'indexation et outil de recherche

Un thésaurus est un type particulier de langage documentaire. Il est constitué d'un ensemble structuré de concepts représentés par des termes, pouvant être utilisés pour l'indexation de documents dans une banque de données bibliographiques ou dans un catalogue de centre de documentation, à des fins de recherche documentaire.

L'utilisation du thésaurus permet de pallier les imperfections du langage naturel dans un but d'indexation. Le langage naturel — soit notre langage quotidien — contient de nombreux soucis de polysémie et de synonymie.

Le thésaurus est un outil d'indexation combinatoire à vocabulaire contrôlé, c'est-à-dire que les termes qui le constituent sont sélectionnés et ne peuvent être modifiés (sauf lors des mises à jour). Il est postcoordonné car les descripteurs définissant les concepts peuvent être combinés ou associés a posteriori lors de la recherche d'information.

L'indexation en langage documentaire grâce au thésaurus permet une homogénéité du mode d'indexation qui ne dépend alors plus de la culture de l'indexeur.

Le thésaurus est utilisé à l'entrée et la sortie de la chaîne documentaire, c'est-à-dire lors de la phase d'indexation et lors de la phase d'interrogation par l'usager.

La capacité de recherche via le thésaurus est importante puisque ce dernier utilise un langage combinatoire qui associe et recoupe les mots de la recherche pour optimiser la qualité des résultats.

Trois types de termes composent un thésaurus :

  • Les descripteurs utilisĂ©s pour indexer un document, il s'agit de l'ensemble des mots autorisĂ©s pour indexer.
  • Les non-descripteurs qui par convention ne peuvent pas ĂŞtre employĂ©s pour indexer un document, et qui renvoient au descripteur Ă  utiliser. Ils sont utilisĂ©s Ă  la recherche.
  • Les mots outils : ce sont des descripteurs qui ne peuvent ĂŞtre utilisĂ©s seuls (exemple : mĂ©thode). Ils sont coordonnĂ©s avec au moins un autre descripteur.

Pour l'utilisateur d'un catalogue électronique ou d'une base de données bibliographique, le thésaurus peut constituer un instrument de recherche. D'ailleurs il y a différents types de recherche. On peut procéder à une recherche hiérarchique consistant à parcourir le thésaurus en suivant son arborescence : on va du plus général au plus particulier. Il y a également la recherche par termes. On part des termes pour parcourir le reste du thésaurus

Relations entre les concepts et les termes

Un thésaurus a une double organisation : entre concepts (c'est-à-dire une relation sémantique) et entre termes représentant ces concepts (c'est-à-dire une relation d'équivalence).

Relations entre concepts, relations sémantiques

Les relations entre concepts sont de plusieurs types :

  • Relations hiĂ©rarchiques stricto sensu, base de la hiĂ©rarchie du thĂ©saurus. Elles sont reprĂ©sentĂ©es par les sigles TG (terme gĂ©nĂ©rique - en anglais, BT : broader term) et TS (terme spĂ©cifique - en anglais, NT : narrower term). Exemples :
    • chat TG fĂ©lin (le concept de « chat » a pour gĂ©nĂ©rique le concept de « fĂ©lin », plus gĂ©nĂ©ral)
    • fĂ©lin TS chat (le concept de « fĂ©lin » a pour spĂ©cifique le concept de « chat », plus prĂ©cis)
    • fĂ©lin TG carnivore (le concept de « fĂ©lin » a pour gĂ©nĂ©rique le concept de « carnivore », plus gĂ©nĂ©ral).
Un concept qui est le générique d'un autre peut donc lui-même être le spécifique d'un troisième (les boucles doivent être exclues).
Habituellement, un concept est lié à un générique et un seul (sauf dans le cas du concept racine), et à 0 à n spécifiques. Il est toutefois possible, si l'on introduit la polyhiérarchie, d'avoir dans un thésaurus donné plusieurs génériques pour un même concept.
Pour plus de précision, les relations hiérarchiques peuvent être typées :
  • Relations d'associations ou relations associatives enrichissant le rĂ©seau de relations hiĂ©rarchiques selon d'autres axes de type sujets connexes. Ces relations peuvent ĂŞtre de nature très variĂ©e : causalitĂ©, localisation, relations de nature temporelle, composition, etc.
Les relations d'association sont représentées par le sigle TA (terme associé - en anglais, RT : related term). Ces relations entre concepts permettent au chercheur de modifier progressivement son interrogation ou de l'élargir sur d'autres bases que la relation hiérarchique.
  • Appartenance Ă  un « groupe de concepts ». Il est courant de sĂ©lectionner et regrouper des concepts selon un critère spĂ©cifique, tels que leur pertinence Ă  un domaine particulier. Ces regroupements de concepts sont appelĂ©s suivant les contextes : thèmes, domaines, champs sĂ©mantiques, microthĂ©saurus (MT).
  • Appartenance Ă  un « groupe de facettes », qui permet de rapprocher des « concepts frères » (sibling concepts).

Il est important de noter que, dans le modèle de base d'ISO 25964, les relations d’association sont réciproques. Ainsi la relation qui unit Oiseau et Ornithologie est symétrique et valable dans les deux sens. Néanmoins la norme offre la possibilité de spécialiser ces relations pour les rendre non symétriques, comme dans le cas d'une relation CAUSE/EFFET (section 10.4 de la norme ISO 25964-1). Le vocabulaire du Web, SKOS n'impose pas la réciprocité de la symétrie pour la relation associative : les relations associatives peuvent ainsi être symétriques, non symétriques ou antisymétriques[12].

Relations entre les termes représentant les concepts, relations d'équivalence

Les relations d'équivalence entre termes représentant un même concept permettent de lutter contre la polysémie. La nouvelle norme de 2011 ISO 25964-1:2011 désigne parmi l'ensemble des termes pouvant représenter un même concept : un terme préférentiel (descripteur) et des termes non-préférentiels (non-descripteurs), base de l'univocité du concept. Cette relation est représentée par le sigle EP (abréviation d'« Employé Pour »). La relation inverse des termes non-préférentiels vers le terme préférentiel est représentée par le sigle EM (abréviation d'« Employer »)

Ce sont des variantes des termes spécifiques (synonymie ou quasi-synonymie) considéré comme « équivalent » dans le langage courant, ou des termes représentant des concepts assez proches pour être considérés comme « équivalent » pour le dispositifs d'accès à l'information.

Autres attributs

Divers types de relations, rubriques ou attributs complémentaires peuvent être adjoints à cette structure pour enrichir le thésaurus ou améliorer son usage. Citons en particulier différents types de notes : notes d'emploi (ou explicative ou d'application) qui définissent ou clarifient le périmètre sémantique d'un concept, notes de définition, notes utiles aux gestionnaires, etc. On peut également prévoir des « équivalents linguistiques » des concepts pour des thésaurus multilingues, ainsi que des passerelles avec d'autres thésaurus du même domaine ou de domaines différents.

Constitution d'un thésaurus

Un thĂ©saurus s'Ă©labore, soit manuellement par la voie d'une personne ou de plusieurs, grâce Ă  une intelligence humaine (l'Ă©laboration d'un thĂ©saurus de 3 000 descripteurs par une seule personne peut prendre six Ă  huit mois), soit de manière automatique, par le biais de l'intelligence artificielle, grâce Ă  des logiciels de construction automatique de thĂ©saurus du type du SATO (Système d'analyse de textes par ordinateur), soit par un mĂ©lange de l'approche humaine et automatique.

Des systèmes de traitement automatique de textes (indexation automatique) permettent l'extraction des termes les plus fréquents d'un corpus et dans une certaine mesure facilitent l'émergence de leurs relations sémantiques. Ces infos-logiciels utilisent également des outils linguistiques de reconnaissance morpholexicale et syntaxique. D'après G. Salton, Luhn[13] et Mooers furent les premiers à envisager le remplacement des indexeurs par la machine et de l'intelligence humaine par l'intelligence artificielle par exemple grâce à l'analyse de la fréquence des mots clefs (CRANFIELD II, SMART Information Retrieval System, pertinence, relevance), ce qui entraîna le courant de la génération automatique de thésaurus par exemple le NCI_Metathesaurus[14] grâce à des logiciels spécialisés tels chez I.B.M. THESAUT-TP (création automatique d’un thésaurus à partir de profils ou questions documentaires) qui est un logiciel de traitement linguistique d’aide à l’interrogation ou TLS (Thesaurus and Linguistic System) qui avec le programme THES, permet la création et la consultation de thésaurus pour enrichir une question[15] - [16]. Elle est à relier alors à l'indexation automatique de documents. Il s'agit d'un vocabulaire contrôlé puisqu'il résulte d'un long processus de tri des mots, appellations et expressions utilisés dans un domaine particulier. Il s'agit d'une démarche pragmatique et continue de rationalisation des termes descriptifs. Il existe trois méthodes de constitution d'un thésaurus :

  • analytique (a priori) : Ă  partir des mots clefs de l'indexation ;
  • synthĂ©tique (a posteriori) : Ă  partir de listes de mots-clef prĂ©Ă©tablies Ă  l'aide de dictionnaires, lexiques, glossaires, etc.
  • mixte.

Ces méthodes portent parfois d'autres noms, comme méthode « stalactitique » et « stalagmitique » (D. Sörgel)[17] - [18] - [19]. En vue de la meilleure adéquation au domaine considéré, les termes sont inventoriés, comparés, mis en relation et finalement hiérarchisés pour rendre compte des traits essentiels du domaine. Cette hiérarchie s'appuie sur une typologie : chaque terme appartient à une catégorie qui le situe par rapport à tous les autres termes retenus et qui fixe de cette manière sa priorité d'emploi. La hiérarchie des termes peut tout à fait être différente d'un thésaurus à un autre et même sous réserve d'incohérence dans un usage ou un autre du même thésaurus.

Finalement, en partant du niveau le plus haut et correspondant au domaine du thésaurus, on trouve d'abord les subdivisions majeures représentant les composantes du domaine - subdivisions souvent nommés microthésaurus[20]. Un exemple de thésaurus formé d'un ensemble de microthésaurus, puis pour chaque subdivision, la hiérarchie propre aux descripteurs. Dans le thésaurus à schémas fléchés (ex. Thésaurus du Management), il y a une structuration en champs sémantiques, chacun constitue un ensemble de 30 à 40 descripteurs définis par un mot clef titre placé au centre de la grille. Un thésaurus peut aussi concerner plusieurs domaines, comme cela est le cas d'un macrothésaurus (exemple : Thésaurus de l'OCDE)[21]. Un thésaurus sectoriel est spécialisé lui dans un seul domaine spécifique de la connaissance (exemple : Thésaurus de la Formation).

Il demeure toujours une dimension arbitraire dans la hiérarchie d'un thésaurus, soit dans le choix des termes, soit dans leur position hiérarchique.

Il existe différentes normes pour l'élaboration des thésaurus[22] - [23]. (Lire aussi le numéro spécial de la revue Documentaliste de l'ADBS[24].)

  • ISO 25964-1 : ThĂ©saurus et interopĂ©rabilitĂ© avec d’autres vocabulaires[25]

Ce projet de norme en cours de finalisation remplace les deux anciennes normes : ISO 2788-1986 : Principes directeurs pour l'établissement et le développement des thésaurus monolingues, et ISO 5964-1985 : Principes directeurs pour l'établissement et le développement des thésaurus multilingues.

  • SKOS : SpĂ©cification en langage RDF dĂ©veloppĂ© par le W3C, pour la publication et l'utilisation des thĂ©saurus dans le cadre du Web sĂ©mantique.
  • Normes anglaises : BS 8723 : 2005. Structured vocabularies for information retrieval, adaptation anglaise de la norme ISO 2788.
  • Normes amĂ©ricaines : ANSI/NISO Z39-19:2005, Controlled vocabularies [PDF][26].

Exemple de thésaurus élémentaire

Soient les rubriques principales d'un micro-thesaurus sur un système informatique collaboratif :

  • Individus
  • Logiciel
  • RĂ©seau
  • Ressources

La rubrique Individus se composerait par exemple de :

  • Lecteur (TG) ;
  • Participant (TG) ; Auteur (EP) ; Contributeur (EP) ;
    • Éditeur non-inscrit (TS) ; Anonyme (EP) ; Adresse IP (forme mĂ©taphorique Ă  Ă©viter) ;
    • Éditeur inscrit (TS) ;
  • Participant mandatĂ© (TG) ;
    • Administrateur (TS) ; Sysop (terme usuel dans la communautĂ©) ;
    • Gestionnaire (TS) ;
    • ReprĂ©sentant (TS) (chargĂ© des relations extĂ©rieures) ;
  • Utilisateur (terme imprĂ©cis : Ă  proscrire) ; Internaute (imprĂ©cis : Ă  proscrire).

Le responsable de toute contribution pourrait ainsi être spécifié par au moins un terme descriptif choisi parmi les cinq termes spécifiques (TS) ou parmi les trois termes génériques (TG), selon les besoins. Les termes (EP) seront par principe évités dans l'indexation, mais pourront être utilisés ultérieurement pour exploiter exclusivement tel ou tel type de contribution sans employer rigoureusement les termes propres de la description initiale.

Les modes de présentation

Quel que soit son support, un thésaurus utilise habituellement des présentations par classement alphabétique de ses termes ; premier stade avant la présentation des relations hiérarchiques. Ainsi l'utilisateur peut-il être dérouté dans un premier temps par l'absence d'un terme dans une liste, alors qu'une autre modalité d'usage du thésaurus lui révèlera que ce terme est bien pris en compte mais grâce à une relation d'équivalence à un terme préférentiel. Des présentations sous forme de graphes et cartes permettent des explorations plus complexes.

L'utilisation ou exploration d'un thésaurus peut se faire habituellement à l'aide de différents modes de présentation :

  • Liste(s) alphabĂ©tique(s) des termes : pour une approche globale ou la recherche d'un terme particulier ;
  • Liste(s) hiĂ©rarchique(s) des termes : pour l'approfondissement d'une notion ;
  • Liste(s) d'occurrences (liste permutĂ©e) : pour la vĂ©rification de la pertinence d'un Ă©lĂ©ment d'une expression utilisĂ©e comme descripteur ;
  • Automatiquement par un moteur de recherche.

On peut trouver dans ces listes, le symbole 'MT indiquant le microthésaurus dont relève le terme. Un microthésaurus est un champ sémantique particulier qui permet de consulter lors de l'indexation d'un document tous les termes voisins.

Il existe plusieurs types de présentation[27] :

  • le thĂ©saurus hiĂ©rarchique
  • le thĂ©saurus Ă  schĂ©mas flĂ©chĂ©s, spĂ©cialitĂ© du Bureau Van Dijk, Belgique[28] : l’ensemble du vocabulaire est dĂ©coupĂ© en champ sĂ©mantique mais encore :
  • ThĂ©saurus Ă  arborescences,
  • Polygones,
  • Arbres circulaires[29]…

Le thésaurus graphique continue à se développer grâce aux interfaces du web et de l'informatique[30]. Les systèmes de gestion électronique de documents (GED) comportent tous un module de gestion et d'exploitation intégrées de thésaurus.

Éléments optionnels d'un thésaurus

On trouve associées aux descripteurs des définitions (cas d'homonymie), des notes assistant l'utilisateur ou l'éditeur (notices), des liens de toute nature, etc.

Origines des thésaurus

  • GĂ©rard Cordonnier[31] : en France, les travaux de GĂ©rard Cordonnier, puis Jean-Pierre Pagès avec le CODOC et Jean-Claude Gardin avec le SYNTOL sur le Langage codĂ© sont très proches de recherches effectuĂ©es aux États-Unis par Bernier et Crane et par Luhn sur le thesaurus[32]
  • Calvin Mooers : aux États-Unis, avec Mooers et le Zatocoding[33]) du Massachusetts Institute of Technology (MIT), introduit le premier les termes descripteur Descriptor (en) en recherche d'information, IRT, mot employĂ© en 1949, mais auparavant en fĂ©vrier 1947 dans un article fait elliptiquement allusion Ă  un nouvel instrument lexicographique appelĂ© thesaurus liĂ© Ă  la recherche mĂ©canisĂ©e, qui comprendrait des « termes d'indexation » avec des « nuances de signification », et ainsi qu'un dictionnaire et une encyclopĂ©die, puis abandonna l'idĂ©e de lier le thĂ©saurus au dictionnaire (qui comprend la dĂ©finition des termes). Un outil appelĂ© thĂ©saurus de recherche documentaire et informationnelle Ă©tait donc dĂ©jĂ  inventĂ© avant son application pratique. C'est en 1959 seulement que date le premier thĂ©saurus opĂ©rationnel nommĂ© ainsi, et postĂ©rieur au concept de thĂ©saurus, objet de recherches de chercheurs amĂ©ricains et europĂ©ens.
  • Mortimer Taube : Plus tard en 1951 Mortimer Taube invente les Uniterms Ă  partir des intuitions de Mooers (1955, The Uniterm system of index : Ă  chaque uniterme correspond une fiche, oĂą sont inscrits les numĂ©ros de rĂ©fĂ©rence des documents sĂ©lectionnĂ©s pertinents) et la recherche se fait ensuite grâce Ă  des cartes perforĂ©es. Les premiers thĂ©saurus sont liĂ©s au système documentaire des cartes perforĂ©es ou punched cards. Taube s'appuie sur des mots-clefs et Mooers sur des concepts, or un concept peut - ĂŞtre dĂ©crit par plusieurs mots-clefs diffĂ©rents.
  • Charles Bernier et E.J. Crane : Toujours en 1947 les ingĂ©nieurs Crane, E. J., et Bernier, Charles. L., de Chemical Abstracts aux États-Unis, travaillent sur les sĂ©mantèmes et la sĂ©mantique et dĂ©veloppent eux aussi un concept de thĂ©saurus adaptĂ© Ă  la recherche d'informations cette fois de façon professionnelle : jusqu'en , date oĂą il introduit la notion d'un « thĂ©saurus technique ». Bernier poursuit ses recherches pour construire un rĂ©seau d'associations permanentes entre les concepts : « Une collection complète de rapports permanents parmi les sĂ©mantèmes pour en science dĂ©finie est un enregistrement concentrĂ© de faits Ă©tablis et acceptĂ©s de la science de l'Ă©poque, qui a une valeur en mettant en Ĺ“uvre un rappel des faits pertinents. Une collection de rapports de cette nature ressemblerait Ă  un thĂ©saurus. » (Bernier et Heumann)[34].
  • Ranganathan : En 1933, Ranganathan invente la classification Ă  facettes appelĂ©e aussi Colon classification (qui entraĂ®ne plus tard, Cf Jean Aitchison, la crĂ©ation du thĂ©saurus Ă  facettes, thesaurofacettes ou Thesaurofacet).
  • Hans Peter Luhn : ingĂ©nieur suisse chez IBM, fĂ©cond en idĂ©es, Luhn est le crĂ©ateur des « codes-notions » et « familles de notions » pense lui dès 1952 comme Mooers mais sans utiliser le terme de thĂ©saurus, dont pourtant on le crut ĂŞtre l'inventeur mais il n'utilise ce terme qu'en 1957 au sujet d'un « dictionnaire de notions » c'est-Ă -dire de termes autorisĂ©s pour l'indexation, avec classes (segments) de sous - classes, coordination des termes, recherches destinĂ©es Ă  l'informatique. En 1959 Luhn invente les index permutĂ©s KWIC (Key Word in Context) qui complèteront ensuite les thĂ©saurus. En 1957, J-P Wadington introduit un système d'IR dans lequel les mots sont organisĂ©s par classes avec un rapport gĂ©nĂ©rique / spĂ©cifique[35].
  • Le Cambridge Langage Recherch Unit (CLRU)[36] : En Angleterre, le Cambridge Langage Recherch Unit (Needham, Joyce, Whiley, K. Sparck Jones, M. Masterman[37]) Ă©tudie le thĂ©saurus sous un modèle mathĂ©matique (Algorithmique). En 1955, des travaux expĂ©rimentaux ont lieu avec un thĂ©saurus documentaire de recherche au Royal Radar Establishement, Malven.

Les premiers thesauri

Le premier thésaurus opérationnel est celui des termes de la chimie en 1959, Thesaurus of Engineering Terms (E.I.DuPont de Nemours and Co. de l'Engeneering Information Center. Le Thesaurus of ASTIA descriptors en créé par l’Armed Services Technical Information Agency (devenue le Défense Documentation Center) avec des concepts selon la méthode de Calvin Mooers, c'est-à-dire des « descripteurs », mots ou groupe de mots proposés pour l'indexation et qui fusionnera avec le thesaurus of Engineering Terms, construit par l’Engineers Joint Council, en 1964 pour former le Thesaurus TEST en 1967. En 1961 parait le Chemical Engineering Thesaurus, élaboré par l'American Institute of Chemical Engineers (AIChE). On appela donc aussi le thésaurus documentaire « thésaurus de descripteurs » (G. Van Slype). Le Bureau Van Dijk se spécialisa dans le thésaurus à schémas fléchés, à représentation graphique, avec des terminogrammes tel le Thesaurus Euratom, le premier thésaurus européen, et on inventa aussi des thésaurus à arborescences à polygones ou à schémas circulaires (ou cercles concentriques) tel celui de l'armée néerlandaise en 1964, le TDCK Circular Thesaurus System[38]. Le premier thésaurus français portant ce nom serait le thésaurus l'armement du CEDOCAR. La floraison de thesauri date des années 1970 en sciences et techniques. Dès les années 1960 apparaissent des symposiums sur la construction de thesauri (Symposium on Thesaurus Building, Oslo, Norway (1965) appelés aujourd'hui workshop (Building Taxonomies for Information Retrieval: A Hands-On Workshop, 2005, ASIS). Selon Brian Vickery ce mot regroupe alors au moins quatre sens différents sous un même mot. Apparaissent des bibliographies et des annuaires de thesauri nationaux et internationaux, recensés soit par l'ASLIB ou par le Bulletin des bibliothèques de France (BBF) en France[39]. Les thésaurus sont inventoriés dans différents répertoires dont :

Le thésaurus fut inventé en vue de l'indexation puis de la recherche de documents. En 1971, l'UNESCO a établi des principes directeurs pour les thésaurus multilingues. Bien vite, en 1972/74, le thésaurus est normalisé (normes nationales AFNOR Z 47 - 100 et internationales ISO 2788), après un symposium à Berlin-Ouest en 1973 avec l'UNISIST, l'ISO et l'UNESCO puis une conférence à Helsinki en qui conduit au Projet de guide d'établissement de thésaurus multilingues.

Ă€ la suite de la publication de nouvelles normes anglo-saxonnes en 2005 (ANSI/NISO Z39.19 et BS 8723), une nouvelle version de cette norme ISO, fusionnant les versions mono- et multilingue, est apparue sous forme de projet en .

Notes et références

  1. Thésaurus MOTBIS en ligne par SCÉRÉN - CNDP, mot 3330
  2. Guide pratique pour l’élaboration d’un thésaurus documentaire Michèle Hudon, avec la collab. de Danièle Dégez et Dominique Ménillet, Les éd. ASTED, 2009
  3. B. Bilodeau, « Normalisation et normes pour la gestion de l’information et des documents », Documentation et bibliothèques, vol. 58, no 3,‎ juillet–septembre 2012 (lire en ligne)
  4. Hudon, Michèle., Analyse et représentation documentaires : introduction à l'indexation, à la classification et à la condensation des documents, Québec, Presses de l'Université du Québec, , 297 p. (ISBN 978-2-7605-3745-3, OCLC 873807457), p. 130
  5. ISO 25964-1:2011 : Thésaurus et interopérabilité avec d'autres vocabulaires -- Partie 1: Thésaurus pour la recherche documentaire.
  6. Livre blanc : ISO 25964-1 - Thésaurus pour la recherche documentaire, Janvier 2013 (AFNOR, janvier 2013)
  7. Magdeleine MOUREAU, « Principe et développement d'un thesaurus : exemple d'application : Le Thesaurus pétrole  », Bulletin des bibliothèques de France (BBF), no 1,‎ , p. 5-29 (lire en ligne)
  8. Institut national de la langue française, Trésor de la langue française : dictionnaire de la langue du xixe et du xxe siècle (1789-1960), t. XVI : Teint-zzz, Paris, Gallimard, , 1452 p. (ISBN 2-07-077016-8, lire en ligne), p. 588b.
    « ♦ LING. (lexicogr.). “Inventaire des unités lexicales d'une langue visant à l'exhaustivité” (Mounin 1974) ; titre d'ouvrages d'érudition, notamment de dictionnaires et d'encyclopédies. Trésor de la langue grecque; Trésor de la langue latine; Trésor de la langue française; Trésor du Félibrige. »
  9. Cf. Charles Bernier.
  10. Journée d'études de Dorking, « International Study Conference on Classification for Information Retrieval », 1957 http://www.bbf.enssib.fr/consulter/bbf-1958-01-0040-008]
  11. Sylvie Dalbin, « Thésaurus et informatique documentaires. Des Noces d'Or », Documentaliste Sciences de l'Information 2007, vol.4, no 1., vol. 44, no 1 « Langages documentaires et outils linguistiques »,‎ , p. 76-80 (lire en ligne)
  12. SKOS. 8.6.3. Symétrie de skos:related, Traduction de SKOS sur le site sparna.fr (Consulté le 2/4/2022
  13. Jacques Chaumier, La saga IBM de l’informatique documentaire. Quelques jalons
  14. NCI Metathesaurus
  15. [The past thirty years in information retrieval, Journal of the American Society for Information Science Volume 38, Issue 5, Date: September 1987, Pages: 375-380 Gerard Salton sur le site de JASIST / Gerard Salton Exploiting a Large Thesaurus for Information Retrieval
  16. Bibliographie
  17. Thesaurus Construction and Use: A Practical Manual, Jean Aitchison, Routledge Ed, 4e édition (1er avril 2002) Marie-Thérèse Laureilhe, Le thésaurus,Son rôle, sa structure et son élaboration.Lyon, Presses de lENSB, 1981
  18. Lire sur le Web F.W. Lancaster, Thesaurus construction and use : a condensed course ; 1985 [PDF]
  19. Voir aussi IFLA Guidelines for Multilingual Thesauri
  20. Sur la base de données FRANTIQ, PACTOLS Peuples et cultures, Anthroponymes, Chronologie relative, Toponymes, Œuvres, Lieux, Sujets
  21. Thésaurus de l'OCDE
  22. Dominique Chichereau, Odile Contat, Danièle Dégez et Alina Deniau, « Les normes de conception, gestion et maintenance de thésaurus », Documentaliste-Sciences de l'Information, vol. 44, no 1,‎ , p. 66 (ISSN 0012-4508 et 1777-5868, DOI 10.3917/docsi.441.0066, lire en ligne, consulté le )
  23. Thésaurus et autres schémas de concepts : documents normatifs
  24. Lire : Langages documentaires et outils linguistiques. 2e partie. Normes, standards et interopérabilité, Les normes de conception, gestion et maintenance de thésaurus, Évolutions récentes et perspectives, Dominique Chichereau, Odile Contat, Danièle Dégez, Alina Deniau, Michèle Lénart, Claudine Masse, Dominique Ménillet, documentaliste sciences de l'information, Volume 44 2007/1
  25. Thesauri and interoperability with other vocabularies. Part 1 : Thesauri for information retrieval (en), sur le site de l'ISO[PDF]
  26. Norme ANSI/NISO Z39-19:2005 [PDF]
  27. Voir Alan Gilchrist The thesaurus in retrieval, Londres. Aslib. 1971
  28. Van Slype Georges, Définition des caractéristiques essentielles des thesauri, Bruxelles : Bureau Marcel van Dijk, 1976.
  29. Définition de arbre circulaire sur le Thésaurus de l'activité gouvernementale du Québec]
  30. Sylvie Dalbin, « Thésaurus et informatique documentaires Partenaires de toujours? », Documentaliste Sciences de l'information, vol. 44, no 1,‎ (DOI 10.3917/docsi.441.0042, lire en ligne)
  31. cf. Mémoire de maîtrise en sciences de l'information, Université de Panthéon Sorbonne, 1997-1998 : Gaëlle MILLET : HISTOIRE DES PREMIERS THESAURI EN FRANCE A TRAVERS TROIS PERSONNES CLEFS : ROBERT PAGES, JEAN CLAUDE GARDIN, ET DANIELE DEGEZ sous la direction de Sylvie Fayet Scribe
  32. Cf. Vers des précurseurs : .
  33. cf. Calvin Mooers
  34. Bernier et Crane, Correlative Index, Semantics and semantems...
  35. H-P Luhn, "A statistical approach to mechanized encoding and searching of literature information", publié dans l'IBM Journal of Research and Development. Cet article expose les bases de l'indexation automatisée des textes, fondée sur l'analyse statistique de la fréquence des termes et ouvre la voie à tous les travaux sur l'analyse des occurrences et des cooccurrences. Luhn utilise également dans cet article le terme de thésaurus. (Source Urfist d'après CHAUMIER).
  36. Margaret Masterman, Language, Cohesion and Form, Cambridge University Press, décembre 2005.
  37. http://bbf.enssib.fr/.../bbf-1969-05-0181-001
  38. Marie-Thérèse Laureilhe, De quelques thesauri, Bbf 1970 - Paris, t. 15, no 1 Marie-Thérèse Laureilhe, Essai de bibliographie et index par matières parus depuis 1960 (au 1er mars 1969) ; voir aussi

Bibliographie

Sources clefs :

Divers :

  • International Classification and indexing bibliography 1 Classification systems ans thesauri, 1950-1982, Francfort, indek Verlag, 1982
  • D'après une source internet, l'appendice de la thèse de Karen Spark Jones, Synonymy and. Semantic Classification (UniversitĂ© de Cambridge, 1968), contiendrait une longue histoire du thesaurus.
  • Alan GILCHRIST : The Thesaurus in retrieval, 1973.
  • H. P. Luhn: Pioneer of Information Science: Seleeted Works. 1968. Edited by Claire. K. Schultz. Spar- tan Press, New York, N.Y International Classification and Indexing
  • Bibliography, 1950-1982: Classification Systems and Thesauri v. 1 - sous la direction de Ingetraut Dahlberg
  • VAN SLYPE Georges DĂ©finition des caractĂ©ristiques essentielles des thesauri Bruxelles : Bureau Marcel van Dijk, 1976
  • La recherche d'informations : du texte intĂ©gral au thĂ©saurus - LEFEVRE Philippe, HermĂ©s, 09-2000

Lire aussi : Historical studies in information science - Par Trudi Bellardo Hahn, Michael Keeble Buckland sur Google Books

Articles

Voir aussi

Articles connexes

Liens externes

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.