Divergence (statistiques)
En statistiques, une divergence est une fonction ou une fonctionnelle qui mesure la dissimilarité d'une loi de probabilité par rapport à une autre. Selon le contexte, elles peuvent être définies pour des lois, des mesures positives (non-normalisées), des vecteurs (par exemple sur l'espace des paramètres si l'on considère un modèle paramétrique), ou encore des matrices.
Les divergences sont analogues à des distances au carré et permettent de généraliser la notion de distance aux variétés statistiques, mais il s'agit d'une notion plus faible dans la mesure où elles ne sont en général pas symétriques et ne vérifient pas l'inégalité triangulaire.
Exemple
La divergence χ2 de Pearson[1] est définie par .
Définition générale
Soit une variété topologique et une carte locale. Une divergence est une fonction (également définie sur au moyen de l'homéomorphisme associé), différentiable jusqu'à l'ordre 3 et satisfaisant les propriétés suivantes[2] :
-  ;
-  ;
- Le développement limité de en s'écrit :
- où est définie positive.
Remarques
Les notations ou peuvent également être employées.
Pour une divergence donnée, il est parfois intéressant d'introduire la divergence symétrique associée : .
Exemples
Il existe une grande variété de divergences, dont entre autres :
- La divergence euclidéenne, définie comme la moitié de la racine de la distance euclidéenne ;
- La divergence de Kullback-Leibler, qui est la seule à appartenir à la fois aux classes des f-divergences et des divergences de Bregman ;
- Parmi les autres f-divergences :
- Les -divergences,
- La distance de Hellinger ;
- Autres divergences de Bregman :
- Les -divergences,
- Les -divergences,
- La divergence d'Itakura-Saito.
Pour une bibliographie détaillée, voir Basseville 2013.
Annexes
Notes
- Karl Pearson F.R.S, « X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling », The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, vol. 50, no 302,‎ , p. 157–175 (ISSN 1941-5982, DOI 10.1080/14786440009463897, lire en ligne, consulté le )
- Amari 2016, p. 10
Bibliographie
- (en) Shun-ichi Amari (trad. du japonais), Information Geometry and Its Applications, Springer, coll. « Applied Mathematical Science », , 364 p. (ISBN 978-4-431-55977-1 et 978-4-431-55978-8, ISSN 0066-5452 et 2196-968X)
- (en) Michèle Basseville, « Divergence measures for statistical data processing — An annotated bibliography », Signal Processing, Elsevier, vol. 93, no 4,‎ , p. 621-633