Centralité

En théorie des graphes et en théorie des réseaux, les indicateurs de centralité sont des mesures censées capturer la notion d'importance dans un graphe, en identifiant les sommets les plus significatifs. Les applications de ces indicateurs incluent l'identification de la ou des personnes les plus influentes dans un réseau social, les nœuds clés dans une infrastructure comme internet ou un réseau urbain, et encore des foyers d'infection, qu'ils soient de nature nosocomiales ou superinfecteurs, pour certaines maladies. Des exemples plus ponctuels incluent les relations de coopération dans les réseaux professionnels, comme les travaux scientifiques menés en commun ou, dans l'industrie cinématographiques, les acteurs ayant joué dans les mêmes film.

Exemples de A) Centralité d'intermédiarité, B) Centralité de proximité, C) Centralité de vecteur propre, D) Centralité de degré, E) Centralité harmonique et F) Centralité de Katz sur le même graphe.

Les concepts et notions autour de la centralité ont été d'abord développés pour l'analyse des réseaux sociaux, et la plupart des termes utilisés pour mesurer la centralité reflètent cette origine sociologique[1].

Définition et caractérisation des indices de centralité

Les indices de centralité se veulent des réponses à la question « Qu'est-ce qui caractérise un sommet important ? ». La réponse est donnée en termes d'une fonction réelle sur les sommets d'un graphe, où les valeurs produites sont censées fournir un classement qui identifie les nœuds les plus importants[2] - [3]. Le qualificatif « important » a un grand nombre d'interprétations variées, conduisant à de nombreuses définitions différentes de la centralité. Deux schémas de catégorisation ont été proposés. L'« importance » peut être conçue en relation avec un certain type de flux ou de transfert à travers le réseau. Cela conduit à classer les centralités selon le type de flux considéré comme important[3]. L'« importance » peut aussi être vue comme le degré de participation à la cohésion du réseau. Cela conduit à classer les centralités en fonction de la façon dont elles mesurent cette cohésion[4]. Ces deux approches divisent les mesures de centralité en catégories distinctes. Une conséquence normale en est qu'une notion de centralité qui est appropriée pour une des catégories peut mener à des conclusions contraires à l'attente et en contradiction avec les autres, lorsqu'elle est employée à une catégorie différente[3].

Les indices de centralités qui mesurent la cohésion d'un réseau font, pour la plupart, partie d'une même catégorie. Ainsi, les centralités qui mesurent le nombre de chemins à partir d'un sommet donné ne diffèrent que par la nature des chemins qui sont pris en compte. Restreindre l'examen à ce groupe de mesures permet une caractérisation souple qui étale les centralités sur un spectre allant des chemins de longueur un (centralité de degré) à des chemins infinis (centralité de vecteur propre)[2] - [5].

Le fait que beaucoup de mesures de centralités partagent des définitions proches explique aussi les corrélations étroites que l'on peut relever entre ces indices.

Caractérisation par un flux de réseau

Un réseau peut être considéré comme une description de voies le long desquelles circulent des données. Cela conduit à une caractérisation basée sur le type du flux et sur le type de chemins appréhendés par la centralité. Un flux peut être basé sur des transferts, où chaque élément indivisible chemine d'un nœud à un autre, comme une livraison de colis qui va de l'entrepôt au domicile du client. Un autre cas est la duplication en série, lorsque c'est une réplique de l'élément qui chemine vers le nœud suivant, de sorte à la fois la source et la cible en possèdent un exemplaire. Un exemple est la propagation de l'information par commérages, où les informations se propagent d'une manière cachée et où la source et les nœuds cibles ont tous deux connaissance de l’information à la fin du processus de transmission. Un dernier cas est la diffusion en parallèle, où la donnée est dupliquée sur plusieurs liens en même temps, comme une émission de radio qui fournit la même information à de nombreux auditeurs simultanément[3].

À la nature du cheminement s'ajoute le choix du vecteur de cheminement, en d'autres termes la nature des chemins qui sont pris en compte dans le réseau. Le type de chemins peut être contraint à être seulement du type des géodésiques ou plus courts chemins, ou des chemins élémentaires (ne passant pas deux fois par le même sommet), ou des chemins simples (ne passant pas deux fois par la même arête), ou enfin des chemins sans contrainte, pouvant passer plusieurs fois par un même sommet ou une même arête[3].

Caractérisation par la structure de chemins

Une autre classification peut être déduite de la manière dont la centralité est construite. Elle se divise encore en deux classes. Les centralités sont « radiales » ou « médianes ». Une centralité radiale dénombre des chemins qui débutent ou finissent en un sommet donné. Les centralités de degré et de vecteur propre sont des exemples de centralités radiales, comptant le nombre de chemins de longueur un respectivement de longueur infinie. Une centralité médiane compte le nombre de chemins qui passent par un sommet donné. L'exemple canonique est la centralité d'intermédiarité (« betweenness centrality ») de Freedman qui compte le nombre de plus courts chemins passant par un sommet donné[4].

De même, le décompte peut capturer ou bien le « volume » ou bien la « longueur » des chemins. Par « volume », on entend le nombre total de chemins du type donné. Les trois exemples du paragraphe précédent sont de cette catégorie. La « longueur » mesure la distance entre le sommet donné et autres sommets dans le graphe. La centralité de proximité (« closeness centralité ») de Freedman qui est la distance géodésique totale à partir d'un sommet donné à tous les autres sommets, est l'exemple le plus connu[4]. Il convient d'observer que cette classification est indépendante du type de chemins dénombré (chemin généraux, élémentaires, simples, géodésiques).

Borgatti et Everett considèrent que cette typologie (centralités radiales ou médianes, volumiques ou de longueur) facilite la comparaison des mesures de centralité. Les centralités qui sont placés dans un même groupe dans ce classement 2 × 2 sont suffisamment semblables pour être des alternatives plausibles ; on peut raisonnablement comparer laquelle est la mieux adaptée pour une application donnée. Des mesures qui se trouvent dans des groupes différents sont par contre de catégories distinctes. Toute évaluation de leur aptitude comparée n'a de sens que dans le cadre de détermination préalable de la catégorie qui est la plus applicable, rendant la comparaison formelle[4].

Centralités radiales volumiques

La caractérisation par la structure des chemins montre que presque toutes les centralités qui sont beaucoup utilisées sont des mesures à la fois radiales et volumiques. Celles-ci codent l'hypothèse que la centralité d'un sommet est une fonction de la centralité des sommets qui lui sont associés. Les centralités se distinguent entre elles par la façon dont l'association est définie.

Bonacich a montré que si l'association est définie en termes de chemins, une famille de centralités peut être définie par la longueur du chemin considéré [2]. La centralité de degré compte les chemins de longueur un, la centralité de vecteur propre compte les chemins de longueur infinie. D'autres définitions de l'association sont également raisonnable. Ainsi la centralité alpha permet aux sommets de prendre en compte une source d'influence externe. La centralité de sous-graphe d'Estrada propose de ne compter que les circuits (triangles, carrés, ...).

L'essence de ces mesures réside dans l'observation que les puissances de la matrice d'adjacence du graphe fournissent le nombre de chemins de longueur donnée par cette puissance. De même, l'exponentielle de la matrice est aussi étroitement liée au nombre de chemins d'une longueur donnée. Une transformation préalable de la matrice d'adjacence permet de définir les différents types de chemins dénombrés. Dans les deux approches, la centralité d'un sommet peut être exprimé par une somme infinie, soit

\sum _{k=0}^{\infty }\beta ^{k}A_{R}^{k}

pour des puissances de matrices, soit

\sum _{k=0}^{\infty }{\frac {(\beta A_{R})^{k}}{k!}}

pour une exponentielle de matrices. Dans ces formules,

$k$ est la longueur du chemin,
$A_{R}$ est la matrice d'adjacence transformée, et
$\beta$ est un paramètre de réduction qui assure la convergence de la somme.

La famille de mesures de Bonacich ne transforme pas la matrice d'adjacence. La centralité alpha remplace la matrice d'adjacence par sa résolvante. La centralité de sous-graphe remplace la matrice par sa trace. Une conclusion surprenante est que, indépendamment de la transformation initiale de la matrice d'adjacence, toutes ces approches ont un comportement limite commun.

Lorsque $\beta$ tend vers zéro, les indices convergent vers le degré de centralité. Quand $\beta$ s'approche de sa valeur maximale, les indices convergent vers la centralité du vecteur propre[5].

Limitations importantes

Les indices de centralité ont deux limites importantes, l'une qui est évidente et l'autre plus subtile. La limitation évidente est qu'une centralité qui est optimale pour une application n'est souvent que sous-optimale pour une application différente. En effet, s'il en était autrement, on n'aurait pas besoin de tant de notions différentes de centralité.

La limitation plus subtile est l'erreur communément commise qui pense que la valeur numérique de la centralité des sommets indique l'importance relative des sommets. Les indices de centralités sont explicitement conçues pour produire uniquement un classement qui permet d'obtenir des indications sur les sommets les plus importants[2] - [3]. Ils le font bien, sous réserve de cette limitation. L'erreur est double.

D'abord, un classement ordonne seulement les sommets par ordre d'importance, il ne quantifie pas la différence d'importance entre les différents valeurs du classement. Ceci peut toutefois être corrigé par l'application de la centralisation de Freeman à la mesure de centralité en question, qui fournit un aperçu de l'importance de nœuds en fonction des différences de leurs scores de centralisation.

Deuxièmement, les caractéristiques qui identifient correctement les sommets les plus importants dans un réseau ou dans une application donnée ne s'étendent pas nécessairement aux autres sommets. Pour la majorité des autres nœuds du réseau les classements peuvent être dénuée de sens. Cela explique par exemple pourquoi, dans une recherche d'images de Google, seuls les premiers résultats apparaissent dans un ordre raisonnable.

Alors que l'impossibilité de généraliser les indices de centralité au reste du réseau peut à première vue sembler contre-intuitive, elle découle directement de la définition donnée plus haut.

Les réseaux complexes ont une topologie hétérogène. Comme la mesure optimale dépend de la structure du réseau des sommets les plus importantes, une mesure qui est optimale pour ces sommets est sous-optimale pour le reste du réseau[6].

Centralité de degré

Le terme de degré de centralité ou centralité de degré (« degree centrality ») est historiquement le premier et conceptuellement le plus simple. Il est défini comme le nombre de liens incidents à un nœud (c'est-à-dire le nombre de voisins que possède un nœud). Le degré peut être interprété en termes de l'aptitude d'un nœud de capter tout ce qui passe à proximité sur le réseau (comme un virus, ou une information). Dans le cas d'un réseau orienté (où les liens ont une direction), on définit habituellement deux mesures distinctes de la centralité de degré, à savoir le degré entrant et le degré sortant. En conséquence, degré entrant compte le nombre de liens dirigés vers le nœud et degré sortant est le nombre de liens qui dirigent le nœud vers d'autres. Lorsque des liens sont associés à certains aspects positifs comme l'amitié ou la collaboration, le degré entrant est souvent interprété comme une forme de popularité, et le degré sortant comme mesure du caractère grégaire. La centralité de degré entrant est aussi appelée centralité de prestige.

Le degré de centralité d'un sommet $v$ d'un graphe donné $G=(V,E)$ avec $N=|V|$ sommets et $M=|E|$ arêtes est défini par :

C_{D}(v)=\deg(v)

Parfois[7], ce degré de centralité est le rapport entre $\deg(v)$ et $\deg(v^{*})$ , où $v^{*}$ est le sommet de degré maximum. Le calcul des degrés de centralité pour tous les nœuds d'un graphe a une complexité en temps en $\Theta (N^{2})$ dans la représentation par matrice d'adjacence dense d'un graphe, et a une complexité en $\Theta (M)$ dans une représentation par arêtes d'une matrice creuse.

La définition de centralité au niveau du nœud peut être étendue à l'ensemble du graphe. Dans ce cas, on parle de centralisation de graphe[8]. Soit $v^{*}$ le nœud de plus grand degré de centralité dans $G$ . Soit $X=(Y,Z)$ le graphe à $N=|Y|=|V|$ sommets qui maximise la quantité $H$ suivante, où $y^{*}$ est le nœud de degré maximum dans $X$ :

H=\sum _{j=1}^{N}[C_{D}(y^{*})-C_{D}(y_{j})]

Alors le degré de centralisation du graphe $G$ est défini par le rapport :

C_{D}(G)={\frac {\displaystyle {\sum _{i=1}^{N}{[C_{D}(v*)-C_{D}(v_{i})]}}}{H}}

La valeur de $H$ est maximale quand le graphe $X$ contient un nœud central auquel tous les autres nœuds sont connectés (un graphe étoile), et dans ce cas $H=(N-1)(N-2)$ .

Centralité de proximité

Dans un graphe connexe il y a une mesure de distance naturelle entre paires de nœuds, définie par la longueur de leur plus courts chemins. L'excentricité d'un nœud x est défini comme la somme des distances à tous les autres nœuds, et la proximité est définie par Bavelas comme l'inverse de l'éloignement[9] - [10], c'est-à-dire par :

C(x)={\frac {1}{\sum _{y}d(y,x)}}.

Ainsi, un nœud plus central a une distance plus faible à tous les autres nœuds. La distinction entre distance vers un nœud ou depuis un nœud, sans importance dans les graphes non orientés, alors que dans les graphes orientés les distances vers un nœud sont considérées comme une mesure plus significative de centralité, puisqu'en général (par exemple dans le web) un nœud a peu de contrôle sur ses liens entrants.

Quand un graphe n'est pas fortement connexe, une méthode répandue est l'utilisation de la somme des distances réciproques, au lieu de l'inverse de la somme des distances, avec la convention $1/\infty =0$ :

H(x)=\sum _{y\neq x}{\frac {1}{d(y,x)}}.

Ce concept a été formulé explicitement, sous le nom centralité harmonique, pour les graphes non orientés par Rochat en 2009[11] et proposé à nouveau par Opsahl en 2010[12]. Il a été étudié plus tard en en toute généralité pour des réseaux orientés par Boldi et Vigna (2014)[13].

La centralité harmonique est une modification des plus naturelles de la définition de Bavelas de proximité suivant le principe général proposé par Massimo Marchiori et Vito Latora (en) en 2000[14] que dans un graphe avec des distances infinies la moyenne harmonique a un meilleur comportement que la moyenne arithmétique. En effet, la proximité de Bavelas peut être décrite comme la réciproque non normalisée de la moyenne arithmétique des distances, alors que la centralité harmonique est la réciproque non normalisée de la moyenne harmonique des distances.

Dangalchev (2006)[15], dans un travail sur la vulnérabilité des réseaux propose pour des graphes non orientés une définition différente, à savoir :

D(x)=\sum _{y\neq x}{\frac {1}{2^{d(y,x)}}}.

La définition originale[15] utilise $d(x,y)$ .

La centralité d'information de Stephenson and Zelen (1989) est une autre mesure de proximité qui calcule la moyenne harmonique distances de résistance vers un sommet x; cette distance est plus petite si x a beaucoup de chemins de faible résistance qui le connecte à d'autres sommets[16].

Dans la définition classique de la centralité de proximité, la diffusion d'informations est modélisé par l'utilisation de plus courts chemins. Ce modèle peut ne pas être le plus réaliste pour tous les types de scénarios de communication. Ainsi, les définitions correspondantes ont été examinées pour mesurer la proximité, comme la centralité de proximité par marche aléatoire (en) introduite par Noh et Rieger (2004). Elle mesure la vitesse avec laquelle les messages envoyés en marche aléatoire atteignent un autre sommet — il s'agit d'une sorte de version « marche aléatoire » de centralité de proximité[17]. La proximité hiérarchique (en) de Tran et Kwon (2014)[18] est une centralité de proximité élargie pour traiter d'une manière encore différente la limitation de la notion de proximité dans les graphes qui ne sont pas fortement connexes. La proximité hiérarchique inclut explicitement des informations sur la gamme des autres nœuds qui peuvent être affectés par le nœud donné.

Centralité d'intermédiarité

La teinte (entre rouge = 0 et bleu = max) indique l'intermédiarité des nœuds.

L'intermédiarité est une mesure de centralité d'un sommet d'un graphe (il existe aussi une intermédiarité d'arêtes qui n'est pas détaillée ici). La centralité d'intermédiarité (« betweenness centrality ») compte le nombre de fois où un nœud agit comme un point de passage le long du plus court chemin entre deux autres nœuds. Elle a été présentée comme une mesure pour quantifier le contrôle d'un humain sur la communication entre d'autres humains dans un réseau social par Linton Freeman (en)[19] Dans sa conception, les sommets qui ont une forte probabilité d'apparaître sur un court chemin choisi au hasard entre deux sommets choisis au hasard ont une haute intermédiarité.

L'intermédiarité d'un sommet $v$ dans $G=(V,E)$ avec $|V]$ sommets est calculé comme suit :

Pour chaque couple (s,t), on calcule les plus courts chemins les reliant.
Pour chaque couple (s,t), on détermine la proportion de plus cours chemins qui passent par le sommet en question, ici v.
On somme cette fraction sur tous les couples (s,t) de sommet.

De façon plus concise, l'intermédiarité peut être représenté par[20]

C_{B}(v)=\sum _{s\neq v\neq t\in V}{\frac {\sigma _{st}(v)}{\sigma _{st}}}

où $\sigma _{st}$ est le nombre total de plus courts chemins du nœud $s$ au nœud $t$ et $\sigma _{st}(v)$ est le nombre de tels chemins qui passent par $v$ . On peut normaliser l'intermédiarité en divisant le résultat par le nombre de couples ne comprenant pas v, nombre qui est égal à $(N-1)(N-2)$ dans un graphe orienté à $N$ sommets et à $(N-1)(N-2)/2$ dans un graphe non orienté. Pour un graphe étoile non orienté par exemple, le sommet central est contenu dans tout plus court chemin a une intermédiarité égale à $(N-1)(N-2)/2$ (ou 1 si normalisé) alors que les feuilles qui ne sont contenues dans aucun plus court chemin ont une intermédiarité égale à 0.

Le calcul des centralités d'intermédiarité et de proximité de tous les sommets dans un graphe requiert le calcul des plus courts chemins entre toutes les paires de sommets d'un graphe, ce qui prend un temps $\Theta (N^{3})$ avec l'algorithme de Floyd-Warshall pour un graphe à $N$ sommets. Toutefois, dans des graphes creux à $M$ arêtes, l'algorithme de Johnson, en temps $O(N^{2}\log N+NM)$ , peut être plus efficace. Pour les graphes non pondérés, les calculs peuvent être réalisés par l'algorithme de Brandes[20] qui prend un temps $O(NM)$ . Normalement, ces algorithmes supposent que les graphes sont non orientés, connexes, avec boucles ou arêtes multiples. Lorsqu'on traite spécifiquement des graphes de réseaux, les graphes sont souvent sans boucles ou arêtes pour conserver des relations simples (où les arêtes représentent les connexions entre deux personnes ou sommets). Dans ce cas, l'usage de l'algorithme de Brandes divise les scores finaux de centralité par 2 pour tenir compte du fait que chaque chemin le plus court est compté deux fois[20].

Centralité de vecteur propre

La centralité de vecteur propre (« eigenvector centrality »), ou centralité spectrale[21], est une mesure de l'influence d'un nœud dans un réseau. Elle attribue des scores relatifs à tous les nœuds du réseau, basé sur le concept que les connexions aux nœuds de scores élevés contribuent davantage au score du nœud en question que les mêmes connexions à des nœuds à faible score. Le PageRank de Google est une variante de la mesure de centralité de vecteur propre[22]. Une autre mesure de centralité qui lui est étroitement liée est la centralité de Katz (en).

Calcul de la centralité de vecteur propre par la matrice d'adjacence

Pour un graphe donné $G=(V,E)$ avec $N=|V|$ sommets, soit $A=(a_{v,t})$ sa matrice d'adjacence, définie par $a_{v,t}=1$ si le sommet $v$ est lié au sommet $t$ , et $a_{v,t}=0$ sinon. Le score de centralité du sommet $v$ est le nombre $x_{v}$ vérifiant la relation :

x_{v}={\frac {1}{\lambda }}\sum _{t\in M(v)}x_{t}={\frac {1}{\lambda }}\sum _{t\in G}a_{v,t}x_{t}

où $M(v)$ est l'ensemble des voisins de $v$ et $\lambda$ est une constante. Après réarrangement, on peut écrire cette équation en notation vectorielle comme une équation au vecteur propre :

\mathbf {Ax} ={\lambda }\mathbf {x}

En général, il existe plusieurs valeurs propres $\lambda$ et plusieurs vecteurs propres solutions. Toutefois, si on impose de plus que les coefficients du vecteur propre doivent être positifs, le Théorème de Perron-Frobenius assure que seule la plus grande valeur propre fournit la mesure de centralité souhaitée[23]. La composante d'indice $v$ du vecteur propre correspondant donne alors le score de centralité du sommet $v$ dans le réseau. La méthode par itération de puissance est un des nombreux algorithmes de calcul des valeurs propres[22]. De plus, ce procédé peut être généralisé pour s'appliquer à des matrices dont les entrées sont des nombres réels représentant des intensités de connexions, comme dans une matrice stochastique.

Centralité de Katz et PageRank

La centralité de Katz (en)[24] est une généralisation de centralité de degré. La centralité de degré mesure le nombre de voisins directs, alors que la centralité de Katz mesure le nombre de tous les nœuds connectés par un chemin, tout en pénalisant les contributions de nœuds éloignés. Mathématiquement, elle est définie par :

x_{i}=\sum _{k=1}^{\infty }\sum _{j=1}^{N}\alpha ^{k}(A^{k})_{ji}

où $\alpha$ est un facteur d'atténuation, pris dans l'intervalle $(0,1)$ .

La centralité de Katz peut être vue comme une variante de la centralité de vecteur propre. Une autre forme de la centralité de Katz est :

x_{i}=\alpha \sum _{j=1}^{N}a_{ij}(x_{j}+1)

Elle s'obtient depuis l'expression de la centralité de vecteur propre en remplaçant $x_{j}$ par $x_{j}+1$ .

On sait prouver[25] que le vecteur propre associé à la plus grande valeur propre de la matrice d'adjacence $A$ est la limite de la centralité de Katz quand $\alpha$ tend vers $1/\lambda$ par valeurs inférieures.

PageRank vérifie l'équation suivante :

x_{i}=\alpha \sum _{j}a_{ji}{\frac {x_{j}}{L(j)}}+{\frac {1-\alpha }{N}}

où $L(j)=\sum _{i}a_{ij}$ est le nombre de voisins du nœud $j$ (ou le nombre de ses prédécesseurs dans un graphe orienté). Par rapport à la centralité de vecteur propre ou la centralité de Katz, une différence majeure réside dans l'introduction du facteur d'échelle $L(j)$ . Une autre différence entre PageRank et la centralité de vecteur propre est que PageRank est un vecteur propre gauche (vecteur ligne), puisque dans les facteurs $a_{ji}$ , les indices sont échangés[26].

Centralité de percolation

Une série de mesures de centralité existe pour déterminer «l'importance» d'un seul nœud dans un réseau complexe. Toutefois, ces mesures quantifient l'importance d'un nœud en termes purement topologiques, et la valeur du nœud ne dépend en aucune façon de «l'état» du nœud. Elle reste constante quelle que soit la dynamique du réseau. Cela est vrai même pour les mesures d'intermédiarité pondérées. Cependant, un nœud peut être très bien placé en termes de centralité d'intermédiarité ou d'une autre mesure de centralité, mais ne peut pas être situé en position centrale dans le cadre d'un réseau dans lequel il y a percolation. La percolation d'une «contagion» se produit dans des réseaux complexes dans un certain nombre de scénarios.

Par exemple, une infection virale ou bactérienne peut se propager sur les réseaux sociaux des personnes, connues sous le nom de réseaux de contacts. La propagation de la maladie peut également être considérée à un niveau d'abstraction plus élevé, en considérant un réseau de villes ou de centres de population, reliés par la route, le train ou des communications aériennes. Les virus informatiques peuvent se propager sur les réseaux informatiques. Les rumeurs ou des nouvelles à propos des propositions ou contrats d'affaires peuvent également se propager via les réseaux sociaux de personnes. Dans tous ces scénarios, une «contagion» se répand sur les liens d'un réseau complexe, en modifiant les «états» des nœuds lorsqu'elle se propage, état qui peut être restauré ou non. Par exemple, dans un scénario épidémiologique, les individus passent de l'état «sensible» à l'état «infecté» lorsque l'infection se propage.

Les valeurs des états que les nœuds individuels peuvent prendre, dans les exemples ci-dessus, sont binaires (comme reçu/ pas reçu pour des informations), discrets (sensibles/infectés/guéris), ou même continus (comme la proportion de personnes infectées dans une ville ), comme la contagion se propage. La caractéristique commune à tous ces scénarios est que la contagion se traduit par le changement d'états de nœuds dans les réseaux. La centralité de percolation (PC) a été proposé dans cet esprit, qui mesure spécifiquement l'importance de nœuds en termes d'avoir aidé la percolation à travers le réseau. Cette mesure a été proposée par Piraveenan et al.[27].

La centralité de percolation est définie pour un nœud donné, à un moment donné, comme la proportion de chemins de percolation qui passent par ce nœud. Un chemin de percolation est un plus court chemin entre une deux nœuds, où le nœud de départ est déjà touché (par exemple, infecté). Le nœud cible peut être touché ou non, ou dans un état partiellement touché.

PC^{t}(v)={\frac {1}{N-2}}\sum _{s\neq v\neq r}{\frac {\sigma _{sr}(v)}{\sigma _{sr}}}{\frac {{x^{t}}_{s}}{{\sum {[{x^{t}}_{i}}]}-{x^{t}}_{v}}}

où $\sigma _{sr}$ est le nombre total de plus courts chemins du nœud $s$ au nœud $r$ et où $\sigma _{sr}(v)$ est le nombre de tels chemins qui passent par $v$ . L'état de percolation du nœud $i$ au temps $t$ est noté ${x^{t}}_{i}$ , et deux cas extrêmes se présentent lorsque ${x^{t}}_{i}=0$ qui indique un état non touché au temps $t$ alors que ${x^{t}}_{i}=1$ indique un état complètement touché au temps $t$ . Les valeurs intermédiaires indiquent des états partiellement touchés (par exemple, dans un réseau de viles, ce serait le pourcentage de personnes infectées dans cette ville).

Les poids attachés aux chemins de percolation dépendent des niveaux de percolation affectés aux nœuds source, affectation basée sur le principe que plus le niveau de percolation d'un nœud source est élevé, plus les chemins qui commencent en ce nœud sont importants. Les nœuds qui se trouvent sur les chemins les plus courts partant de nœuds hautement touchés sont donc potentiellement plus important pour la percolation. La définition de centralité de percolation peut être étendue pour inclure également les poids des nœuds cible. Le calcul de la centralité de percolation, pour un réseau à $N$ nœud et $M$ arcs, est en temps $O(NM)$ avec une implémentation efficaces adoptée de l'algorithme rapide de Brandes. Si l'on prend en compte les poids des nœuds cible, le calcul prend un temps $O(N^{3})$ .

Centralité de clique

La centralité de clique (« cross-clique centrality») d'un nœud dans un graphe détermine la connectivité du nœud à diverses cliques, une clique étant défini comme un groupe de personnes qui interagissent de manière plus ou moins fréquente. Un nœud qui possède une haute centralité de clique facilité la propagation d'informations ou de maladies dans un graphe. Mathématiquement, une clique est un sous-graphe dont les nœuds sont tous connectés les uns aux autres. La centralité de clique d'un nœud $v$ d'un graphe $G=(V,E)$ avec $|V|$ sommets et $|E|$ arêtes est le nombre $X(v)$ de cliques auquel appartient le nœud. Cette mesure a été utilisé par Faghani[28] en 2013, mais déjà annoncée par Everett et Borgatti en 1998 où ils l'appellent la « clique-overlap centrality ».

Centralisation de Freeman

La centralisation d'un réseau mesure le rapport entre la centralité du nœud le plus central par rapport à la centralité des autres nœuds[29]. Les mesures de centralisation opèrent en deux phases : on calcule la somme des différences de centralité entre le nœud le plus central et les autres, puis on divise cette quantité par la plus grande somme de différences qui peut exister dans un réseau de même taille[29]. Ainsi, toute mesure de centralité possède sa propre mesure de centralisation. Formellement, si $C_{x}(p_{i})$ est la mesure de centralité du point $i$ , si $C_{x}(p_{*})$ et la plus grande mesure dans le réseau, et si $\max \sum _{i=1}^{N}C_{x}(p_{*})-C_{x}(p_{i})$ est la plus grande somme de différences de centralité $C_{x}$ parmi tous les graphes de même nombre de nœuds, la centralisation du réseau est[29] :

C_{x}={\frac {\sum _{i=1}^{N}C_{x}(p_{*})-C_{x}(p_{i})}{\max \sum _{i=1}^{N}C_{x}(p_{*})-C_{x}(p_{i})}}

Centralité sur la base de mesures de similitudes

Afin d'obtenir de meilleurs résultats dans le classement des nœuds d'un réseau donné, dans mesures de dissimilarité (spécifiques à la théorie de la classification et l'extraction de données) sont utilisés pour enrichir les mesures de centralité dans les réseaux complexes[30]. Ceci est illustré avec le centralité de vecteur propre, le calcul de la centralité de chaque nœud grâce à la solution du problème aux valeurs propres.

W\mathbf {c} =\lambda \mathbf {c}

où $W_{ij}=A_{ij}D_{ij}$ (coordonnées à coordonner produit) et $D_{ij}$ est une matrice arbitraire de dissimilitude, définie par une mesure de disimilarité, par exemple, Jaccard disimilarity donnée par :

D_{ij}=1-{\dfrac {|V^{+}(i)\cap V^{+}(j)|}{|V^{+}(i)\cup V^{+}(j)|}}

Lorsque cette mesure nous permet de quantifier la contribution topologique (qui est la raison pour laquelle on appelle contribution centralité) de chaque nœud à la centralité d'un nœud donné, ayant plus de poids / pertinence ces nœuds avec une plus grande dissemblance, puisque ceux-ci permettent à l'accès de nœud donné aux nœuds ce qui eux-mêmes peuvent pas accéder directement.

Est à noter que $W$ est non négatif parce $A$ et $D$ sont des matrices non-négatives, de sorte que nous pouvons utiliser le théorème de Perron-Frobenius pour assurer que le problème ci-dessus a une solution unique pour $\lambda =\lambda _{max}$ avec $\mathbf {c}$ non négatif, ce qui nous permet de déduire la centralité de chaque nœud dans le réseau. Par conséquent, le rôle central du nœud i. e. est :

c_{i}={\dfrac {1}{n}}\sum _{j=1}^{n}W_{ij}c_{j},\,\,\,\,\,\,j=1,\cdots ,n

où $n$ est le nombre de nœuds dans le réseau. Plusieurs mesures de dissimilarité et réseaux où testés dans obtenir de meilleurs résultats dans les cas étudiés.

Extensions

Des recherches empiriques et théoriques ont étendu la notion de centralité du contexte des réseaux statiques à celui de centralité dynamique[31] dans le cadre de réseaux dépendant du temps et de réseaux temporels[32] - [33] - [34].

Une généralisation aux réseaux pondérés est étudiée par Opsahl et al. (2010)[35].

La notion de centralité a également été étendue au niveau de groupes. Par exemple, la centralité d'intermédiarité de groupe (« Groupe Betweenness ») centralité montre la proportion de géodésiques reliant des paires de membres hors d'un groupe non-groupe et qui passent par des éléments du groupe[36] - [37].

Notes et références

Notes

Mark E. J. Newman, Networks : An Introduction., Oxford, Oxford University Press, 2010, 772 p. (ISBN 978-0-19-920665-0 et 0-19-920665-1, lire en ligne).
Phillip Bonacich, « Power and Centrality: A Family of Measures », American Journal of Sociology, University of Chicago Press, vol. 92,‎ 1987, p. 1170–1182 (DOI 10.1086/228631).
Stephen P. Borgatti, « Centrality and Network Flow », Social Networks, Elsevier, vol. 27,‎ 2005, p. 55–71 (DOI 10.1016/j.socnet.2004.11.008).
Stephen P. Borgatti et Martin G. Everett, « A Graph-Theoretic Perspective on Centrality », Social Networks, Elsevier, vol. 28,‎ 2006, p. 466–484 (DOI 10.1016/j.socnet.2005.11.005).
Michele Benzi et Christine Klymko, « A matrix analysis of different centrality measures », arXiv,‎ 2013 (lire en ligne, consulté le 11 juillet 2014).
Glenn Lawyer, « Understanding the spreading power of all nodes in a network: a continuous-time perspective », Sci Rep, vol. 5,‎ 2015, p. 8665 (DOI 10.1038/srep08665)
Dans la page analyse des réseaux sociaux par exemple.
Linton C. Freeman, « Centrality in social networks. A conceptual clarification », Social networks, vol. 1, n^o 3,‎ 1979, p. 215–239.
Alex Bavelas, « Communication patterns in task-oriented groups », J. Acoust. Soc. Am., vol. 22, n^o 6,‎ 1950, p. 725–730.
G. Sabidussi, « The centrality index of a graph », Psychometrika, vol. 31,‎ 1966, p. 581–603.
Yannick Rochat « Closeness centralité extended to unconnected graphs: The harmonic centralité index » (lire en ligne)
—Applications of Social Network Analysis, ASNA 2009
Tore Opsahl, « Closeness centrality in networks with disconnected components ».
Paolo Boldi et Sebastiano Vigna, « Axioms for centrality », Internet Mathematics, vol. 10,‎ 2014 (lire en ligne).
Massimo Marchiori et Vito Latora, « Harmony in the small-world », Physica A: Statistical Mechanics and its Applications, vol. 285, n^os 3-4,‎ 2000, p. 539–546 (lire en ligne).
Ch. Dangalchev, « Residual Closeness in Networks », Phisica A, vol. 365,‎ 2006, p. 556.
K. A. Stephenson et M. Zelen, « Rethinking centrality: Methods and examples », Social Networks, vol. 11,‎ 1989, p. 1–37.
J. D. Noh and H. Rieger, Phys. Rev. Lett. 92, 118701 (2004).
T.-D. Tran et Y.-K. Kwon, « Hierarchical closeness efficiently predicts disease genes in a directed signaling network », Computational biology and chemistry,‎ 2014.
Linton Freeman, « A set of measures of centrality based upon betweenness », Sociometry, vol. 40,‎ 1977, p. 35–41 (DOI 10.2307/3033543)
Ulrik Brandes, « A faster algorithm for betweenness centrality », Journal of Mathematical Sociology, vol. 25,‎ 2001, p. 163–177 (DOI 10.1080/0022250x.2001.9990249, lire en ligne [PDF], consulté le 11 octobre 2011)
Nacim Fateh Chikhi, chap. 1.2.4 « Centralité spectrale », dans Calcul de centralité et identification de structures de communautés dans les graphes de documents (lire en ligne), p. 23-25.
(en) « Feature Column from the AMS : Pagerank », sur American Mathematical Society (consulté le 18 avril 2023).
M. E. J. Newman, « The mathematics of networks » [PDF] (consulté le 9 novembre 2006)
L. Katz, « A new status index derived from sociometric index », Psychometrika,‎ 1953, p. 39–43.
P. Bonacich, « Simultaneous group and individual centralities », Social Networks, vol. 13,‎ 1991, p. 155–168.
How does Google rank webpages ? 20Q: About Networked Life
Mahendra Piraveenan, « Percolation Centrality: Quantifying Graph-Theoretic Impact of Nodes during Percolation in Networks », PLoSone, vol. 8, n^o 1,‎ 2013 (DOI 10.1371/journal.pone.0053095).
Mohamamd Reza Faghani, « A Study of XSS Worm Propagation and Detection Mechanisms in Online Social Networks », IEEE Trans. Inf. Forensics and Security,‎ 2013
Linton C. Freeman, « Centrality in social networks: Conceptual clarification », Social Networks, vol. 1, n^o 3,‎ 1979, p. 215–239 (lire en ligne)
(en) A. J. Alvarez-Socorro, G. C. Herrera-Almarza et L. A. González-Díaz, « Eigencentrality based on dissimilarity measures reveals central nodes in complex networks », Scientific Reports, vol. 5,‎ 25 novembre 2015 (PMID 26603652, PMCID 4658528, DOI 10.1038/srep17095, lire en ligne, consulté le 17 février 2016)
D. Braha et Y. Bar-Yam, « From centrality to temporary fame: dynamic centrality in complex networks. », Complexity, vol. 12,‎ 2006, p. 59–63.
S. A. Hill et D. Braha, « Dynamic model of time-dependent complex networks », Physical Review E, vol. 82, n^o 046105,‎ 2010.
T. Gross et H. Sayama (éditeurs), Adaptive Networks : Theory, Models and Applications, Springer, 2009.
P. Holme et J. Saramäki, Temporal Networks, Springer, 2013.
Tore Opsahl, Filip Agneessens et John Skvoretz, « Node centrality in weighted networks: Generalizing degree and shortest paths », Social Networks, vol. 32, n^o 3,‎ 2010, p. 245 (DOI 10.1016/j.socnet.2010.03.006, lire en ligne).
M. G. Everett et S. P. Borgatti, « Extending centrality », dans P. J. Carrington, J. Scott et S. Wasserman (éditeurs), Models and methods in social network analysis, New York, Cambridge University Press, 2005, p. 57–76.
Puzis, R., Yagil, D., Elovici, Y., Braha, D. (2009).Collaborative attack on Internet users’ anonymity, Internet Research 19(1)

Source

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Centrality » (voir la liste des auteurs).

Bibliographie complémentaire

D. Koschützki, K. A. Lehmann, L. Peeters, S. Richter, D. Tenfelde-Podehl et O. Zlotowski, « Centrality Indices », dans U. Brandes, U. et T. Erlebach (éditeurs), Network Analysis: Methodological Foundations, Springer-Verlag, coll. « LNCS » (n^o 3418), 2005, p. 16-61
John Scott et Peter J. Carrington (éditeurs), The SAGE Handbook of Social Network Analysis, SAGE Publications, 2011, 640 p. (ISBN 978-1-84787-395-8, présentation en ligne)
My T. Thai et Panos M. Pardalos (éditeurs), Handbook of Optimization in Complex Networks : Communication and Social Networks, Springer Science & Business Media, coll. « Springer Optimization and Its Applications » (n^o 58), 2011, 544 p. (ISBN 978-1-4614-0857-4, lire en ligne)
(en) John G. Scott, Social Network Analysis, Los Angeles, SAGE Publications Ltd, 2012, 3^e éd., 216 p. (ISBN 978-1-4462-0904-2)
Stephen P Borgatti, Martin G. Everett et Jeffrey C Johnson, Analyzing Social Networks, SAGE Publications Ltd, 2013, 304 p. (ISBN 978-1-4462-4741-9)

Liens externes

PageRank en python
Centrality
R et statnet – revue de détail
Nicolas Carayol, « La structure des réseaux sociaux », Analyse et Modélisation des Réseaux, Université Bordeaux IV (consulté le 9 juillet 2015).
Robert A. Hanneman, « Introduction to social network methods: Centrality and power », sur Université de Californie à Riverside

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.