Précision et rappel
Dans les domaines de la reconnaissance de formes, de la recherche d'information et de la classification automatique, la précision[1] (ou valeur prédictive positive) est la proportion des items pertinents parmi l'ensemble des items proposés ; le rappel[1] (ou sensibilité) est la proportion des items pertinents proposés parmi l'ensemble des items pertinents. Ces deux notions correspondent ainsi à une conception et à une mesure de la pertinence.
Lorsqu'un moteur de recherche, par exemple, retourne 30 pages web dont seulement 20 sont pertinentes (les vrais positifs) et 10 ne le sont pas (les faux positifs), mais qu'il omet 40 autres pages pertinentes (les faux négatifs), sa précision est de 20/(20+10) = 2/3 et son rappel vaut 20/(20+40) = 1/3.
La prĂ©cision peut ainsi ĂȘtre comprise comme une mesure de l'exactitude ou de la qualitĂ©, tandis que le rappel est une mesure de l'exhaustivitĂ© ou de la quantitĂ©.
Calcul
Le calcul de ces mesures peut s'établir à partir de la matrice de confusion du systÚme considéré.
Précision
La prĂ©cision est le nombre de documents pertinents retrouvĂ©s rapportĂ© au nombre de documents total proposĂ© pour une requĂȘte donnĂ©e.
Le principe est le suivant : quand un utilisateur interroge une base de donnĂ©es, il souhaite que les documents proposĂ©s en rĂ©ponse Ă son interrogation correspondent Ă son attente. Tous les documents retournĂ©s superflus ou non pertinents constituent du bruit. La prĂ©cision sâoppose Ă ce bruit documentaire. Si elle est Ă©levĂ©e, cela signifie que peu de documents inutiles sont proposĂ©s par le systĂšme et que ce dernier peut ĂȘtre considĂ©rĂ© comme « prĂ©cis ». On calcule la prĂ©cision avec la formule suivante :
En statistique, la précision est appelée valeur prédictive positive.
Rappel
Le rappel est défini par le nombre de documents pertinents retrouvés au regard du nombre de documents pertinents que possÚde la base de données.
Cela signifie que lorsque lâutilisateur interroge la base, il souhaite voir apparaĂźtre tous les documents qui pourraient rĂ©pondre Ă son besoin d'information. Si cette adĂ©quation entre le questionnement de lâutilisateur et le nombre de documents prĂ©sentĂ©s est importante alors le taux de rappel est Ă©levĂ©. Ă lâinverse, si le systĂšme possĂšde de nombreux documents intĂ©ressants mais que ceux-ci nâapparaissent pas dans la liste des rĂ©ponses, on parle de silence. Le silence sâoppose au rappel. Le rappel est donc calculĂ© comme suit :
En statistique, le rappel est appelé sensibilité.
Interprétation des résultats
Un systĂšme de recherche documentaire parfait fournira des rĂ©ponses dont la prĂ©cision et le rappel sont Ă©gaux Ă 1 (l'algorithme trouve la totalitĂ© des documents pertinents - rappel - et ne fait aucune erreur - prĂ©cision). Dans la rĂ©alitĂ©, les algorithmes de recherche sont plus ou moins prĂ©cis et plus ou moins pertinents. Il est possible d'obtenir un systĂšme trĂšs prĂ©cis (par exemple un score de prĂ©cision de 0,99), mais peu sensible (par exemple avec un rappel de 0,10, qui signifiera qu'il n'a trouvĂ© que 10 % des rĂ©ponses possibles). De mĂȘme, un algorithme dont le rappel est fort (par exemple 0,99, soit la quasi-totalitĂ© des documents pertinents), mais la prĂ©cision faible (par exemple 0,10) fournira en guise de rĂ©ponse de nombreux documents erronĂ©s en plus de ceux pertinents : il sera donc difficilement exploitable.
Ainsi, dans les cas limites, un systĂšme de recherche documentaire qui renvoie la totalitĂ© des documents de sa base aura un rappel de 1 mais une mauvaise prĂ©cision, tandis qu'un systĂšme de recherche qui renvoie uniquement la requĂȘte de l'utilisateur aura une prĂ©cision de 1 pour un rappel trĂšs faible. La valeur d'un classifieur ne se rĂ©duit donc pas Ă un bon score en prĂ©cision ou en rappel.
Cadre multi-classe
Dans le cadre multi-classes (oĂč le nombre n de classes de donnĂ©es est supĂ©rieur Ă 1), les moyennes globales de la prĂ©cision et du rappel sur l'ensemble des classes i peuvent ĂȘtre Ă©valuĂ©es par la macro-moyenne qui calcule d'abord la prĂ©cision et le rappel sur chaque classe i suivie d'un calcul de la moyenne des prĂ©cisions et des rappels sur les n classes :
F-mesure
Une mesure qui combine la précision et le rappel est leur moyenne harmonique, nommée F-mesure ou F-score :
Elle est également connue sous le nom de mesure , car précision et rappel sont pondérés de façon égale. Il s'agit d'un cas particulier de la mesure générale (pour des valeurs réelles positives de ):
Exemples
Si une personne recherche « chat siamois » sur l'interface d'une base de donnĂ©es, les documents qui ont Ă©tĂ© indexĂ©s avec pour seul terme le mot « chat » nâapparaĂźtront pas. Or, certains de ces documents pourraient ĂȘtre pertinents. Cela va donc produire un silence documentaire et la valeur du rappel diminuera dâautant.
Inversement, si pour pallier ce risque la personne tape seulement « chat », alors quâelle sâintĂ©resse seulement aux chats siamois, le systĂšme lui prĂ©sentera des documents dans lesquels les chats siamois ne sont pas mentionnĂ©s (ce pourra ĂȘtre les momies de chat en Ăgypte, voire la vie du poisson-chat). La prĂ©cision sera faible et le bruit important.
Articles connexes
Notes et références
- « La précision, le rappel et de la matrice de confusion dans l'apprentissage automatique », sur Bigdata.ma (version du 16 mai 2021 sur Internet Archive).