Proposition de stage (M1/M2/Ingénieur) :
Algorithme PageRank dynamique
Laboratoire d’accueil
UR1404 INRA MaIAGE (Mathématiques en Informatique Appliquées du Génome à l’En-
vironnement) Domaine de Vilvert, 78350 Jouy-en-Josas
Responsables du stage
Patrick Hoscheit,[email protected]
Elisabeta Vergu,[email protected]
Contexte et motivation
Depuis quelques années, l’aux de grands jeux de données (génétiques, interaction so-
ciale,. . .) requiert l’invention de nouvelles méthodes capables de les analyser en un temps
raisonnable. Nous travaillons en particulier sur des données de détention d’animaux, is-
sues de la Base de Données Nationale d’Identification (BDNI), qui rassemble depuis 2005
les mouvements des dizaines de millions de bovins détenus dans plus de 200.000 exploita-
tions agricoles bovines en France. Pour comprendre en particulier la façon dont les maladies
(endémiques ou épidémiques) se propagent sur le territoire national, il est nécessaire de
considérer les mouvements marchands d’animaux. Ces données forment un réseau dont les
noeuds sont les exploitations agricoles et les arêtes les mouvements d’animaux entre ces ex-
ploitations. Ce réseau peut être décrit par les méthodes de l’analyse de réseaux. Une des par-
ticularités du réseau de mouvement d’animaux est son caractère temporel (ou dynamique),
c’est-à-dire le caractère éphémère des liens entre exploitations. Ceci nécessite l’utilisation de
méthodes prenant en compte les caractéristiques temporelles du réseau, essentielles pour
l’étude de la propagation de pathogènes.
Ce stage consiste à étudier les méthodes classiques de l’analyse de réseaux, en particulier
l’algorithme PageRank permettant de mesurer quantitativement la centralité des noeuds du
réseau, ainsi que ses récentes extensions au cadre de réseaux temporels. Dans un deuxième
temps, on étudiera si et comment on peut adapter ces méthodes pour les appliquer de ma-
nière originale aux réseaux de mouvements d’animaux.
Descriptif du projet de stage
Lalgorithme PageRank, inventé par les fondateurs de Google S. Brin et L. Page, repose
sur les propriétés spectrales de la matrice d’adjacence Md’un réseau. Pour un réseau à n
1
noeuds, cette matrice est la matrice carrée n×ntelle que mij = 1 si les noeuds iet jsont reliés
par une arête et mij = 0 sinon. En particulier, les scores PageRank des diérentes pages web
forment un vecteur propre de la matrice d’adjacence, associé à la plus grande valeur propre
ρ > 0 de cette matrice (le rayon spectral). Lobservation fondamentale est alors qu’un tel vec-
teur peut également être trouvé en calculant les probabilités stationnaires (πi, i ~1,n)
d’une chaîne de Markov (marche aléatoire) à valeurs dans le graphe. Il est donc possible de
calculer rapidement une approximation des scores PageRank en simulant un grand nombre
de marches aléatoires sur le réseau. Une page possédant un grand nombre de liens pointant
vers elle sera visitée souvent par la marche aléatoire et aura donc un score élevé, alors qu’une
page isolée aura un score faible. Dans notre contexte applicatif, la détermination des noeuds
centraux dans un réseau est d’une grande importance pour la diusion de pathogènes et
peut constituer une piste pour intervenir rapidement afin d’endiguer la propagation d’une
épidémie, en vaccinant prioritairement les animaux de ces exploitations ou en interdisant
temporairement le commerce transitant par elles.
Lorsque le graphe évolue au cours du temps (les arêtes possèdent une étiquette tem-
porelle t), les noeuds centraux dans le réseau agrégé en temps peuvent ne plus être essen-
tiels dans le réseau temporel. Lalgorithme PageRank appliqué naïvement ne prend pas en
compte cette dimension. Au cours de ce stage, on étudiera comment généraliser cet algo-
rithme à cette situation, et à quoi correspondent les mesures de centralité ainsi obtenues. Le
stage comprendra une partie bibliographique, pour faire l’inventaire de la littérature, no-
tamment concernant l’algorithme PageRank sur des réseaux temporels, ainsi qu’une partie
d’implémentation des méthodes sur les données BDNI. Pour un stage de niveau M2, il est
envisagé d’étendre la recherche méthodologique à d’autres approches connexes de la centra-
lité et de l’étude du seuil de vulnérabilité dans les réseaux temporels, et à une comparaison
des performances de ces méthodes.
Compétences attendues/souhaitées du candidat
M2 Mathématiques / Mathématiques Appliquées / Ingénieur : bonnes connaissances
en probabilités, algèbre linéaire, modélisation mathématique.
Bonne connaissance de la programmation (de préférence C ou C++) et de la program-
mation scientifique (Python, Scilab, R).
Autonomie, curiosité et intérêt pour les approches interdisciplinaires.
Durée et indemnité
De 4 à 6 mois, à débuter entre février et avril 2017. Une gratification de 554/ mois est
prévue.
2
1 / 2 100%