Représentation d’un grand réseau à partir d’une classification hiérarchique de ses sommets
Journal de la société française de statistique, Tome 152 (2011) no. 3, pp. 34-65

Voir la notice de l'article provenant de la source Numdam

Les graphes (ou réseaux) sont devenus des outils courants de modélisation des données relationnelles dans de nombreuses applications (réseaux sociaux, biologiques, informatiques...). Or, lorsque le nombre de sommets dépasse quelques centaines, la visualisation du graphe dans son ensemble, qui est un outil important de compréhension du réseau, est un problème complexe : les approches traditionnelles, basées sur des algorithmes de forces, s’avèrent coûteuses en temps de calcul et ne mettent pas bien en valeur la structure du réseau en parties denses (souvent appelées « communautés »). Dans cet article, nous proposons une méthode de visualisation basée sur une classification hiérarchique des sommets : cette approche permet d’obtenir des représentations de graphes de plusieurs milliers de sommets en quelques secondes, en produisant des représentations avec des niveaux de simplification plus ou moins grossiers. L’utilisateur a donc accès à des visualisations lui permettant de comprendre la structuration macroscopique du réseau puis, par zooms successifs à des détails de plus en plus fins dans chacune des communautés. La finesse maximale est contrôlée par simulation. La qualité des partitions considérées est évaluée par la mesure classique de modularité et comparée à la qualité obtenue par la méthode proposée sur des graphes aléatoires dont la distribution des degrés est identique à celle du graphe étudié : on obtient ainsi une distribution de la modularité dans le cas sans structure, ce qui permet de ne montrer que les structures significatives. Cette approche est illustrée sur plusieurs jeux de données publics et comparée à d’autres méthodes de visualisation destinées à mettre en valeur les communautés du réseau. Elle est également testée sur un grand réseau issu d’un corpus d’archives du Moyen-Âge.

Graphs (or networks) are widely used to model relational data in various application fields (e.g., social network, biological network, Internet network...). Visualization is an important tool to understand the main features of the network but, when the number of nodes in the graph is greater than a few hundreds, standard visualization methods, such as force directed algorithms, are computationally expensive and almost unworkable. Moreover, force directed algorithms do not help the understanding of the structure of the network into dense communities of nodes, which is often a natural way to better understand a network. In this paper, a new visualization method is proposed, based on a hierarchical clustering of the nodes of the graph. This approach can handle the visualization of graphs having several thousands nodes in a few seconds. Several simplified representations of the graph are accessible, giving the user the opportunity to understand the macroscopic organization of the network and then, to focus with more details on some particular parts of the graph. This refining process is controlled by means of Monte Carlo simulation. Partitions under consideration are evaluated via the classical modularity quality measure. A distribution of the quality measure in the case of graphs without structure is obtained by applying the proposed method to random graphs with the same degree distribution as the graph under study. Then only significant partitions (with respect to this random level) are shown during the refining process. This approach is illustrated on several public datasets and compared with other visualization methods meant to emphasize the graph communities. It is also tested on a large network built from a corpus of medieval land charters.

Mots-clés : réseau, graphe, visualisation, classification, modularité
Keywords: network, graph, visualization, clustering, modularity
@article{JSFS_2011__152_3_34_0,
     author = {Rossi, Fabrice and Villa-Vialaneix, Nathalie},
     title = {Repr\'esentation d{\textquoteright}un grand r\'eseau \`a partir d{\textquoteright}une classification hi\'erarchique de ses sommets},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {34--65},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {152},
     number = {3},
     year = {2011},
     mrnumber = {2871176},
     zbl = {1316.62008},
     language = {fr},
     url = {http://geodesic.mathdoc.fr/item/JSFS_2011__152_3_34_0/}
}
TY  - JOUR
AU  - Rossi, Fabrice
AU  - Villa-Vialaneix, Nathalie
TI  - Représentation d’un grand réseau à partir d’une classification hiérarchique de ses sommets
JO  - Journal de la société française de statistique
PY  - 2011
SP  - 34
EP  - 65
VL  - 152
IS  - 3
PB  - Société française de statistique
UR  - http://geodesic.mathdoc.fr/item/JSFS_2011__152_3_34_0/
LA  - fr
ID  - JSFS_2011__152_3_34_0
ER  - 
%0 Journal Article
%A Rossi, Fabrice
%A Villa-Vialaneix, Nathalie
%T Représentation d’un grand réseau à partir d’une classification hiérarchique de ses sommets
%J Journal de la société française de statistique
%D 2011
%P 34-65
%V 152
%N 3
%I Société française de statistique
%U http://geodesic.mathdoc.fr/item/JSFS_2011__152_3_34_0/
%G fr
%F JSFS_2011__152_3_34_0
Rossi, Fabrice; Villa-Vialaneix, Nathalie. Représentation d’un grand réseau à partir d’une classification hiérarchique de ses sommets. Journal de la société française de statistique, Tome 152 (2011) no. 3, pp. 34-65. http://geodesic.mathdoc.fr/item/JSFS_2011__152_3_34_0/