Okapi BM25
Okapi BM25 est une méthode de pondération utilisée en recherche d'information. Elle est une application du modÚle probabiliste de pertinence, proposé en 1976 par Robertson et Jones[1].
La mĂ©thode est plus simplement dĂ©nommĂ©e BM25, le terme « Okapi » faisant rĂ©fĂ©rence au nom du systĂšme de recherche de l'universitĂ© de Londres oĂč il a Ă©tĂ© implĂ©mentĂ© initialement.
Fonction d'ordonnancement
BM25 est un modĂšle de sac de mots qui ordonne les documents en fonction de la frĂ©quence des termes qui apparaissent dans chaque document, indĂ©pendamment des relations pouvant exister entre ces termes ou de leurs proximitĂ©s relatives au sein du document. Il existe toute une famille de fonctions attribuant un score Ă chaque document pour une requĂȘte donnĂ©e. L'une des formes les plus connues de cette famille de fonctions est la suivante. Pour une requĂȘte Q, contenant les mots , le score BM25 d'un document D est:
oĂč est la frĂ©quence du terme dans le document D, est la longueur du document D en nombre de mots, et avgdl est la longueur moyenne des documents dans la collection considĂ©rĂ©e. et b sont des paramĂštres libres pouvant ĂȘtre optimisĂ©s selon les cas d'usage mais qui, en l'absence de toute optimisation sont usuellement fixĂ©s Ă et [2]. est la frĂ©quence inverse de document pondĂ©rant le terme de la requĂȘte. En gĂ©nĂ©ral, cela est calculĂ© par:
oĂč N est le nombre de documents dans la collection et est le nombre de documents contenant .
Voir aussi
Références
- (en) Stephen E. Robertson et Karen SpĂ€rck Jones, « Relevance weighting of search terms », Journal of the American Society for Information Science, vol. 27, no 3,â , p. 129â146 (lire en ligne)
- Christopher D. Manning, Prabhakar Raghavan, Hinrich SchĂŒtze. An Introduction to Information Retrieval, Cambridge University Press, 2009, p. 233.