Modèle probabiliste de pertinence
Le modèle probabiliste de pertinence est une méthode probabiliste de représentation du contenu d'un document, proposée en 1976 par Robertson et Jones[1]. Elle est utilisée en recherche d'information pour exprimer une estimation de la probabilité de pertinence d'un document par rapport à une requête, et ainsi classer une liste de documents dans l'ordre décroissant d'utilité probable pour l'utilisateur. L'une des applications directes de ce modèle est la méthode de pondération Okapi BM25, considérée comme l'une des plus performantes dans le domaine.
Modélisation
Étant donné une requête q, il s'agit d'estimer un score s(D) pour chaque document D de la base de données considérée. Ce score doit exprimer la probabilité relative que le document soit pertinent pour la requête considérée. Dans ce modèle, on s'intéresse en effet plus à l'ordre relatif des documents renvoyés qu'à leur pertinence absolue.
Similairement à d'autres modèles, on suppose que :
- il existe des documents pertinents pour cette requête du point de vue de l'utilisateur (ensemble de documents, les documents non pertinents étant le complément de cet ensemble dans la base)
- la pertinence d'un document est indépendante des jugements portés sur les autres documents
- l'utilité d'un document pertinent est indépendante du nombre de documents pertinents précédemment renvoyé
Sous ces conditions, on modélise la pertinence d'un document comme le ratio de probabilité que le document soit pertinent sur celle qu'il ne le soit pas :
Considérant un vocabulaire , un document est caractérisé par la présence (noté abusivement ) ou l'absence () de chaque terme dans son contenu. En utilisant notamment le théorème de Bayes on peut montrer que le score du modèle probabiliste peut se mettre sous la forme:
Où le poids dépend de la probabilité de présence du terme dans l'ensemble des documents pertinent et son complément.
Expression du poids
Considérons une base de documents, dont sont considérés pertinents pour la requête. En notant le nombre de documents contenant le terme , et le nombre de documents pertinents parmi ceux-ci, le poids du modèle probabiliste est donné par :
Pour éviter les poids aberrants (prosaïquement, les divisions par 0), on propose un lissage de la formule :
Si on néglige de considérer les documents pertinents pour la requête (), on retrouve l'expression dite probabiliste de la fréquence inverse de document :
Voir aussi
Références
- (en) Stephen E. Robertson et Karen Spärck Jones, « Relevance weighting of search terms », Journal of the American Society for Information Science, vol. 27, no 3,‎ , p. 129–146 (lire en ligne)