Accueil🇫🇷Chercher

Bruit et silence

Bruit

Dans les sciences de l'information et des bibliothèques, on parle de bruit lorsque des réponses non-pertinentes sont proposées par le système d’interrogation de la base de données. Ces réponses sont mêlées à des réponses pertinentes, qui risquent alors de ne pas être vues par l’utilisateur. Cela peut arriver notamment avec les catalogues de bibliothèque. Les causes du bruit peuvent être multiples :

  • l’utilisateur se sert de termes de recherche possĂ©dant plus d’un sens, par exemple, la couleur « orange » et le fruit « orange » (problème de polysĂ©mie);
  • l’utilisateur n’utilise pas assez de termes dans sa requĂŞte ;
  • l'utilisateur formule une requĂŞte comprenant trop de termes coordonnĂ©s par ou.

Soit un ensemble N de documents, A est un sous-ensemble de N et comporte les réponses pertinentes pour la recherche d’un usager, B est le sous-ensemble de N constitué des réponses obtenues. Plus A est inférieur à B, plus le bruit est grand et le taux de précision est faible.

Silence

Dans les sciences de l'information et des bibliothèques, on parle de silence lorsque des réponses pertinentes ne sont pas proposées par le système d’interrogation de la base de données, alors qu'elles existent. Cela peut arriver notamment avec les catalogues de bibliothèque. Les causes du silence peuvent être multiples :

  • un mĂŞme concept est reprĂ©sentĂ© par plus d’un terme de recherche, par exemple, « football » et « soccer » (problème de synonymie);
  • l'utilisateur formule une requĂŞte comprenant trop de termes coordonnĂ©s par et ;
  • l'indexation de la base est insuffisante ;
  • l'indexation de la base suit un langage rigide et compliquĂ© que l'utilisateur ne connaĂ®t pas (exemple : indexation et recherche Ă  partir seulement d’un thĂ©saurus documentaire);
  • l’indexation ou la requĂŞte comportent des fautes d’orthographe[1].

Soit un ensemble N de documents, A est un sous-ensemble de N et comporte les réponses pertinentes pour la recherche d’un usager, B est le sous-ensemble de N constitué des réponses obtenues. Plus A est supérieur à B, plus le silence est grand et le taux de rappel est faible.

Bruit et silence

Sur une même requête, on peut rencontrer du bruit et du silence. Des documents intéressants sont mal indexés (silence) et des documents inutiles répondent à l’équation de recherche. Par exemple, si un utilisateur tape Viking, les documents indexés avec le mot Normands peuvent ne pas apparaître (silence) et certains parlant des sondes spatiales apparaître (bruit).

Bruit et silence dans le contexte des recherches sur le Web

Le Web est un terrain particulièrement propice au bruit et au silence. Véronique Mesguich identifie des facteurs de complexité du Web qui influent sur l’efficacité des recherches[2] :

  • Surabondance : En 2016, Google a affirmĂ© avoir indexĂ© plus de 130 000 milliards de pages Web[3]. Une telle quantitĂ© d’information est une cause importante de bruit.
  • HĂ©tĂ©rogĂ©nĂ©itĂ© de l’information/degrĂ© de fragmentation : La variabilitĂ© des ressources Web peut ĂŞtre crĂ©atrice de bruit ou de silence. Les termes de recherche peuvent n’être que mentionnĂ©s (et non traitĂ©s) dans un site, ce qui gĂ©nère du bruit[1]. La description des contenus non textuels en ligne (images, podcasts, vidĂ©os, etc.) peut ĂŞtre absente ou inadĂ©quate, ce qui cause du silence.
  • Renouvellement continuel : La modification et la suppression des contenus Web affectent l’efficacitĂ© du repĂ©rage.
  • FiabilitĂ© des sources : De nombreuses pages Web vĂ©hiculent de fausses informations ou des informations mal sourcĂ©es inutilisables dans le contexte d’une recherche sĂ©rieuse. La prĂ©sence de ces sources dans les rĂ©sultats de recherche gĂ©nère du bruit.
  • ExhaustivitĂ© : La prĂ©cision et la reprĂ©sentativitĂ© des sources devraient ĂŞtre les objectifs de toute recherche, mais les moteurs de recherche tel que Google tendent plutĂ´t Ă  l’exhaustivitĂ©. Une recherche sur le Web repère tous les sites oĂą apparaissent les termes de recherche. Il en rĂ©sulte du bruit : par exemple, une simple publicitĂ© peut causer le repĂ©rage d’un site si elle contient les termes recherchĂ©s.

Références

  1. Hudon, Michèle., Analyse et représentation documentaires : introduction à l'indexation, à la classification et à la condensation des documents, , 276 p. (ISBN 978-2-7605-3744-6, 2-7605-3744-7 et 978-2-7605-3746-0, OCLC 873807457, lire en ligne)
  2. Mesguich, Véronique., Rechercher l'information stratégique sur le web : sourcing, veille et analyse à l'heure de la révolution numérique, Louvain-la-Neuve/Paris/impr. en Belgique, De Boeck supérieur / ADBS, 207 p. (ISBN 978-2-8073-1578-5 et 2-8073-1578-X, OCLC 1045636776, lire en ligne)
  3. « Google's search knows about over 130 trillion pages », sur Search Engine Land, (consulté le )
Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.