Indice de Davies-Bouldin
En apprentissage automatique, plus précisément en classification automatique, l'indice de Davies-Bouldin est une mesure de qualité d'une partition d'un ensemble de données, introduite par David L. Davies et Donald W. Bouldin en 1979[1].
Définition
C'est la moyenne du rapport maximal entre la distance d'un point au centre de son groupe et la distance entre deux centres de groupes.
Expression
Position du problème
Si l'on note la matrice des données, dont chaque ligne correspond à un individu (ou observation) et chaque colonne correspond à un prédicteur (ou variable). On note le nombre d'individus et le nombre de prédicteurs :
Notons la dissimilarité entre les individus et (respectivement, ligne et de ). Notons le nombre de groupes que l'on souhaite former.
Un algorithme de partitionnement donnera une fonction d'attribution dont on cherche à évaluer la pertinence par un score. L'ensemble des points appartenant à un groupe est alors donné par .
Expression de l'indice de Davies-Bouldin
L'indice (ou score) de Davies-Bouldin, , se base sur les points moyens de chaque groupe et la distance moyenne entre un point et le centre de son groupe .
Il aura pour expression[2] :
Elle peut varier un peu selon les implémentations (distance imposée ou choix limité).
Propriétés
Domaine de variation
L'indice de Davies-Bouldin varie entre 0 (meilleure classification) et (pire classification).
Complexité
Notes et références
- D. L. Davies et D. W. Bouldin, « A Cluster Separation Measure », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. PAMI-1, no 2,‎ , p. 224–227 (ISSN 0162-8828, DOI 10.1109/TPAMI.1979.4766909, lire en ligne, consulté le )
- (en) « Clustering Indices », sur cran.r-project.org (consulté le )