Indice de Calinski-Harabasz
L'indice de Calinski-Harabasz est une mesure de qualité d'une partition d'un ensemble de données en classification automatique
C'est le rapport entre la variance inter-groupes et la variance intra-groupe.
Il se rapproche beaucoup du critère utilisé pour stopper certains algorithmes de partitionnement, comme les K-means. De tels algorithmes vont donc maximiser ce score, par construction.
Une alternative à l'indice de Calinski-Harabasz est l'indice de Dunn ou encore l'indice de Davies-Bouldin.
Expression
Position du problème
Si l'on note la matrice des données, dont chaque ligne correspond à un individu (ou observation) et chaque colonne correspond à un prédicteur (ou variable). On note le nombre d'individus et le nombre de prédicteurs :
Notons la dissimilarité entre les individus et (respectivement, ligne et de ). Notons le nombre de groupes que l'on souhaite former.
Un algorithme de partitionnement donnera une fonction d'attribution dont on cherche à évaluer la pertinence par un score. L'ensemble des points appartenant à un groupe est alors donné par .
Expression de l'indice de Calinski-Harabasz
Notons le point moyen du groupe et le point moyen de tout le nuage. L'indice (ou score) de Calinski-Harabasz, , se base sur la variance inter-groupes et les variances intra-groupes .
Il aura pour expression[1] :
Propriétés
Domaine de variation
L'indice de Calinski-Harabasz varie entre 0 (pire classification) et (meilleure classification). Il dépend fortement de (le nombre de points dans l'échantillon). Toutes choses égales par ailleurs, il croit linéairement avec . Par conséquent, son ordre de grandeur peut varier considérablement d'un jeu de données à l'autre.
Complexité
Notes et références
- (en) « Clustering Indices », sur cran.r-project.org (consulté le )