AccueilđŸ‡«đŸ‡·Chercher

Okapi BM25

Okapi BM25 est une méthode de pondération utilisée en recherche d'information. Elle est une application du modÚle probabiliste de pertinence, proposé en 1976 par Robertson et Jones[1].

La mĂ©thode est plus simplement dĂ©nommĂ©e BM25, le terme « Okapi » faisant rĂ©fĂ©rence au nom du systĂšme de recherche de l'universitĂ© de Londres oĂč il a Ă©tĂ© implĂ©mentĂ© initialement.

Fonction d'ordonnancement

BM25 est un modĂšle de sac de mots qui ordonne les documents en fonction de la frĂ©quence des termes qui apparaissent dans chaque document, indĂ©pendamment des relations pouvant exister entre ces termes ou de leurs proximitĂ©s relatives au sein du document. Il existe toute une famille de fonctions attribuant un score Ă  chaque document pour une requĂȘte donnĂ©e. L'une des formes les plus connues de cette famille de fonctions est la suivante. Pour une requĂȘte Q, contenant les mots , le score BM25 d'un document D est:

oĂč est la frĂ©quence du terme dans le document D, est la longueur du document D en nombre de mots, et avgdl est la longueur moyenne des documents dans la collection considĂ©rĂ©e. et b sont des paramĂštres libres pouvant ĂȘtre optimisĂ©s selon les cas d'usage mais qui, en l'absence de toute optimisation sont usuellement fixĂ©s Ă  et [2]. est la frĂ©quence inverse de document pondĂ©rant le terme de la requĂȘte. En gĂ©nĂ©ral, cela est calculĂ© par:

oĂč N est le nombre de documents dans la collection et est le nombre de documents contenant .

Voir aussi

Références

  1. (en) Stephen E. Robertson et Karen SpĂ€rck Jones, « Relevance weighting of search terms », Journal of the American Society for Information Science, vol. 27, no 3,‎ , p. 129–146 (lire en ligne)
  2. Christopher D. Manning, Prabhakar Raghavan, Hinrich SchĂŒtze. An Introduction to Information Retrieval, Cambridge University Press, 2009, p. 233.
Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.