Algorithme PageRank dynamique - MaIAGE

publicité
Proposition de stage (M1/M2/Ingénieur) :
Algorithme PageRank dynamique
Laboratoire d’accueil
UR1404 INRA MaIAGE (Mathématiques en Informatique Appliquées du Génome à l’Environnement) Domaine de Vilvert, 78350 Jouy-en-Josas
Responsables du stage
– Patrick Hoscheit, [email protected]
– Elisabeta Vergu, [email protected]
Contexte et motivation
Depuis quelques années, l’afflux de grands jeux de données (génétiques, interaction sociale,. . .) requiert l’invention de nouvelles méthodes capables de les analyser en un temps
raisonnable. Nous travaillons en particulier sur des données de détention d’animaux, issues de la Base de Données Nationale d’Identification (BDNI), qui rassemble depuis 2005
les mouvements des dizaines de millions de bovins détenus dans plus de 200.000 exploitations agricoles bovines en France. Pour comprendre en particulier la façon dont les maladies
(endémiques ou épidémiques) se propagent sur le territoire national, il est nécessaire de
considérer les mouvements marchands d’animaux. Ces données forment un réseau dont les
noeuds sont les exploitations agricoles et les arêtes les mouvements d’animaux entre ces exploitations. Ce réseau peut être décrit par les méthodes de l’analyse de réseaux. Une des particularités du réseau de mouvement d’animaux est son caractère temporel (ou dynamique),
c’est-à-dire le caractère éphémère des liens entre exploitations. Ceci nécessite l’utilisation de
méthodes prenant en compte les caractéristiques temporelles du réseau, essentielles pour
l’étude de la propagation de pathogènes.
Ce stage consiste à étudier les méthodes classiques de l’analyse de réseaux, en particulier
l’algorithme PageRank permettant de mesurer quantitativement la centralité des noeuds du
réseau, ainsi que ses récentes extensions au cadre de réseaux temporels. Dans un deuxième
temps, on étudiera si et comment on peut adapter ces méthodes pour les appliquer de manière originale aux réseaux de mouvements d’animaux.
Descriptif du projet de stage
L’algorithme PageRank, inventé par les fondateurs de Google S. Brin et L. Page, repose
sur les propriétés spectrales de la matrice d’adjacence M d’un réseau. Pour un réseau à n
1
noeuds, cette matrice est la matrice carrée n×n telle que mij = 1 si les noeuds i et j sont reliés
par une arête et mij = 0 sinon. En particulier, les scores PageRank des différentes pages web
forment un vecteur propre de la matrice d’adjacence, associé à la plus grande valeur propre
ρ > 0 de cette matrice (le rayon spectral). L’observation fondamentale est alors qu’un tel vecteur peut également être trouvé en calculant les probabilités stationnaires (πi , i ∈ ~1, n)
d’une chaîne de Markov (marche aléatoire) à valeurs dans le graphe. Il est donc possible de
calculer rapidement une approximation des scores PageRank en simulant un grand nombre
de marches aléatoires sur le réseau. Une page possédant un grand nombre de liens pointant
vers elle sera visitée souvent par la marche aléatoire et aura donc un score élevé, alors qu’une
page isolée aura un score faible. Dans notre contexte applicatif, la détermination des noeuds
centraux dans un réseau est d’une grande importance pour la diffusion de pathogènes et
peut constituer une piste pour intervenir rapidement afin d’endiguer la propagation d’une
épidémie, en vaccinant prioritairement les animaux de ces exploitations ou en interdisant
temporairement le commerce transitant par elles.
Lorsque le graphe évolue au cours du temps (les arêtes possèdent une étiquette temporelle t), les noeuds centraux dans le réseau agrégé en temps peuvent ne plus être essentiels dans le réseau temporel. L’algorithme PageRank appliqué naïvement ne prend pas en
compte cette dimension. Au cours de ce stage, on étudiera comment généraliser cet algorithme à cette situation, et à quoi correspondent les mesures de centralité ainsi obtenues. Le
stage comprendra une partie bibliographique, pour faire l’inventaire de la littérature, notamment concernant l’algorithme PageRank sur des réseaux temporels, ainsi qu’une partie
d’implémentation des méthodes sur les données BDNI. Pour un stage de niveau M2, il est
envisagé d’étendre la recherche méthodologique à d’autres approches connexes de la centralité et de l’étude du seuil de vulnérabilité dans les réseaux temporels, et à une comparaison
des performances de ces méthodes.
Compétences attendues/souhaitées du candidat
– M2 Mathématiques / Mathématiques Appliquées / Ingénieur : bonnes connaissances
en probabilités, algèbre linéaire, modélisation mathématique.
– Bonne connaissance de la programmation (de préférence C ou C++) et de la programmation scientifique (Python, Scilab, R).
– Autonomie, curiosité et intérêt pour les approches interdisciplinaires.
Durée et indemnité
De 4 à 6 mois, à débuter entre février et avril 2017. Une gratification de 554€ / mois est
prévue.
2
Téléchargement