AccueilđŸ‡«đŸ‡·Chercher

Recherche plein texte

La recherche (en) plein texte (appelée aussi recherche en texte intégral[1] ou recherche de texte libre) est une technique de recherche dans un document électronique ou une base de données textuelles, qui consiste pour le moteur de recherche à examiner tous les mots de chaque document enregistré et à essayer de les faire correspondre à ceux fournis par l'utilisateur.

Les techniques de recherche sont devenues fréquentes dans les bases de données bibliographiques en ligne dans les années 1970. La plupart des sites Web et des programmes applicatifs (tels que les logiciels de traitement de texte) fournissent des fonctionnalités de recherche plein texte. Des moteurs de recherche dans le Web, comme AltaVista, emploient des techniques de recherche plein texte, alors que d'autres n'indexent qu'une partie des pages Web examinées par son systÚme d'indexation[2].

L'approche la plus frĂ©quente dans la recherche plein texte est de gĂ©nĂ©rer un index complet ou une concordance pour tous les documents pouvant ĂȘtre recherchĂ©s. Pour chaque mot (sauf les mots-outils qui sont trop frĂ©quents pour ĂȘtre utiles) on crĂ©e une entrĂ©e qui liste la position exacte de chaque occurrence du mot dans la base de donnĂ©es de documents. Il est relativement simple de rĂ©cupĂ©rer Ă  l'aide d'une telle liste tous les documents qui correspondent Ă  une requĂȘte, sans avoir Ă  scanner chaque document. Bien que pour des corpus de trĂšs petits documents la recherche plein texte puisse ĂȘtre faite par parcours sĂ©quentiel, l'indexation est la mĂ©thode prĂ©fĂ©rĂ©e pour presque toutes les recherches plein texte.

Le problĂšme des faux positifs

Comme quiconque a effectué une recherche plein texte le reconnaßtra, la recherche plein texte est susceptible de récupérer beaucoup de documents qui ne sont pas pertinents par rapport à la question posée. De tels documents sont appelés faux positifs. La récupération de documents non pertinents est souvent provoquée par l'ambiguïté inhérente au langage naturel ; par exemple, le mot avocat désigne aussi bien un fruit qu'une profession, et les documents traitant de l'un ne sont pas pertinents pour le chercheur qui s'intéresse à l'autre.

Compromis entre précision et retour

En raison des ambiguïtés du langage naturel, une recherche plein texte produit typiquement une liste de récupération qui a une faible précision : la plupart des éléments récupérés ne sont pas pertinents. La recherche avec un vocabulaire contrÎlé cherche à résoudre ce problÚme en étiquetant les documents de telle maniÚre que les ambiguïtés soient éliminées. Cependant, cette méthode peut laisser échapper des documents pertinents qu'une recherche plein texte aurait inclus.

Améliorer la performance de la recherche plein texte

Les insuffisances de la recherche plein texte ont Ă©tĂ© traitĂ©es de deux maniĂšres : en fournissant aux utilisateurs des outils qui leur permettent d'exprimer leurs requĂȘtes plus prĂ©cisĂ©ment, et en dĂ©veloppant de nouveaux algorithmes de recherche qui amĂ©liorent la prĂ©cision des rĂ©cupĂ©rations.

Outils de requĂȘte amĂ©liorĂ©s

  • Mots clĂ©s. On demande aux crĂ©ateurs de documents (ou aux indexeurs formĂ©s) de fournir une liste de mots qui dĂ©crivent le sujet du texte, incluant des synonymes des mots qui dĂ©crivent ce sujet. Les mots clĂ©s amĂ©liorent le retour, particuliĂšrement lorsque la liste de mots clĂ©s inclut un mot de recherche qui n'est pas dans le document texte.
  • La recherche restreinte au champ. Des moteurs de recherche permettent aux utilisateurs de limiter les recherches plein texte Ă  un champ particulier dans un enregistrement de donnĂ©es, comme "Titre" ou "Auteur."
  • Les requĂȘtes boolĂ©ennes. Les recherches qui utilisent des opĂ©rateurs boolĂ©ens (par exemple, "encyclopĂ©die" ET "en ligne" SAUF "Encarta") peuvent accroĂźtre considĂ©rablement la prĂ©cision d'une recherche plein texte. L'opĂ©rateur ET dit, en effet, "Ne rĂ©cupĂšre un document que s'il contient chacun de ces termes." L'opĂ©rateur SAUF dit, en effet, "Ne rĂ©cupĂšre pas un document qui contient ce mot." Si la liste de rĂ©cupĂ©ration retourne trop peu de documents, l'opĂ©rateur OU peut ĂȘtre utilisĂ© pour accroĂźtre les retours ; considĂ©rons, par exemple, "encyclopĂ©die" ET "en ligne" OU "Internet" SAUF "Encarta". Cette recherche rĂ©cupĂ©rera des documents sur les encyclopĂ©dies en ligne qui utilisent le terme "Internet" Ă  la place de "en ligne."
  • Recherche d'expression. Une recherche d'expression ne rĂ©cupĂšre que les documents qui contiennent une expression spĂ©cifiĂ©e, comme "Wikipedia, l'encyclopĂ©die libre."
  • Recherche de proximitĂ©. Une recherche d'expression qui ne rĂ©cupĂšre que les documents qui contiennent, par exemple, deux mots sĂ©parĂ©s par un nombre spĂ©cifiĂ© de mots ; une recherche pour "Wikipedia" AVEC2 "libre" rĂ©cupĂ©rerait seulement les documents dans lesquels les mots "Wikipedia" et "libre" apparaissent sĂ©parĂ©s de deux mots au plus.
  • Recherche floue. Une recherche floue va rĂ©cupĂ©rer les documents qui contiennent les termes de la requĂȘte ou des variations de ceux-ci (en utilisant par exemple une distance d'Ă©dition comme la distance de Levenshtein pour dĂ©finir le concept de proximitĂ©).
  • Expression rationnelle. Une expression rationnelle emploie une syntaxe de requĂȘte complexe mais puissante qui peut ĂȘtre utilisĂ©e pour spĂ©cifier des conditions de recherche avec prĂ©cision.

Algorithmes de recherche améliorés

Les avancées technologiques ont beaucoup amélioré les performances de la recherche plein texte. Par exemple, l'algorithme PageRank de Google fournit plus d'importance aux documents qui sont pointés, au travers de liens hypertextes, par un grand nombre d'autres pages Web. Cet algorithme améliore considérablement la perception de la précision de recherche par les utilisateurs, ce qui explique sa popularité chez les utilisateurs d'Internet. Voir moteur de recherche pour davantage d'exemples.

Notes

  1. Avis de la Commission générale de terminologie et de néologie : Vocabulaire de l'informatique (liste de termes, expressions et définitions adoptés), JORF no 93 du 20 avril 2007, p. 7078, texte no 84, NOR CTNX0710138K, sur Légifrance.
  2. En pratique, il peut ĂȘtre difficile de dĂ©terminer comment un moteur de recherche donnĂ© travaille. Les algorithmes de recherche employĂ©s par les services de recherche Web sont rarement divulguĂ©s de peur que des sociĂ©tĂ©s spĂ©cialisĂ©es dans le Web n'utilisent des techniques d'optimisation pour les moteurs de recherche pour amĂ©liorer leur importance dans les listes de rĂ©cupĂ©ration.

Voir aussi

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.