L'analyse de rseau a pris une place prpondrante dans bon nombre de domaines d'application et notamment dans les sciences du vivant. De faon gnrale un rseau est un graphe dont les noeuds sont identifies des entits (gnes, espces, molcules) et dans lequel la prsence d'une arte indique l'existence d'une interaction entre deux entits. Le terme d'analyse de rseau recouvre un grand nombre de problmes statistiques diffrents dont l'infrence de rseau qui vise, partir d'observations faites sur les noeuds, infrer l'existence des artes et l'analyse topologique qui cherche comprendre l'organisation globale ou locale d'un rseau directement observ. Dans cet expos, on dcrira rapidement ces deux problmes. D'un point de vue statistique, l'infrence de rseau est gnralement formule en terme d'infrence de la structure d'un modle graphique sous-jacent [Lau96] et les modles graphiques gaussiens y sont un cas d'cole. Les mthodes statistiques dveloppes pour l'analyse topologique reposent gnralement sur la dfinition de modles de graphes alatoires htrognes [MaR14]. On prsentera ensuite deux dveloppements ddis l'analyse de rseaux cologiques. Le premier porte sur l'infrence de rseau d'interactions entre espces partir de donnes d'abondance. L'approche propose tire partie de mthodes dveloppes dans le cadre gaussien pour les tendre l'analyse de donnes de comptages dans le cadre du modle Poisson log-normal [AiH89]. L'infrence de ce modle repose sur un approximation variationnelle qui bnficie de la convexit partielle de la fonction objectif [CMR18b]. Le second dveloppement porte sur la prise en compte de covariables pour expliquer la topologie d'un rseau. Plus prcisment, il s'agit de dterminer si les covariables disponibles suffisent expliquer la topologie observe. Ici encore, une premire infrence repose sur une approximation (baysienne) variationnelle. On montrera comment une approche par chantillonnage squentiel permet d'utiliser le rsultat de cette approximation comme point de dpart pour chantillonner efficacement dans la loi a posteriori des paramtres [DoR17]. Co-auteurs: Julien Chiquet, Sophie Donnet et Mahendra Mariadassou.
Random graphs are a useful tool to model all kind of networks, such as biological, ecological or social networks, and a lot of methods have been developed, including clustering methods to account for different connection behaviors. Here, we consider a dynamic version of the stochastic block model, in which the nodes are partitioned into latent classes and the connection between two nodes is drawn from a Bernoulli distribution depending on the classes of these two nodes. The temporal evolution is modeled through a hidden Markov chain on the nodes memberships. In this talk, we prove the consistency of the maximum likelihood estimators of the connection probabilities and the transition matrix of the latent chain.
Leveraging on recent random matrix advances in the performance analysis of kernel methods for classification and clustering, this article proposes a new family of kernel functions theoretically largely outperforming standard kernels in the context of asymptotically large and numerous datasets. These kernels are designed to discriminate statistical means and covariances across data classes at a theoretically minimal rate (with respect to data size). Applied to spectral clustering, we demonstrate the validity of our theoretical findings both on synthetic and real-world datasets (here, the popular MNIST database as well as EEG recordings on epileptic patients).
We consider the problem of sampling $k$-bandlimited graph signals, i.e., linear combinations of the first $k$ graph Fourier modes [shuman_emerging_2013, puy_random_2016, di_lorenzo_2017]. We know that a set of $k$ nodes embedding all $k$-bandlimited signals always exists, thereby enabling their perfect reconstruction after sampling. We propose a novel random sampling strategy based on determinantal point processes, that is more efficient than the state-of-the-art greedy options, while still provably enabling perfect reconstruction [tremblay_gretsi]. All these solutions (whether determinantal or greedy) require the partial diagonalization of the Laplacian matrix. In cases where this partial diagonalization is not an option for computational purposes, we propose an approximated sampling algorithm based on polynomial filtering of random signals.