Proposition de stage (M1/M2/Ingénieur) : Algorithme PageRank dynamique Laboratoire d’accueil UR1404 INRA MaIAGE (Mathématiques en Informatique Appliquées du Génome à l’Environnement) Domaine de Vilvert, 78350 Jouy-en-Josas Responsables du stage – Patrick Hoscheit, [email protected] – Elisabeta Vergu, [email protected] Contexte et motivation Depuis quelques années, l’afflux de grands jeux de données (génétiques, interaction sociale,. . .) requiert l’invention de nouvelles méthodes capables de les analyser en un temps raisonnable. Nous travaillons en particulier sur des données de détention d’animaux, issues de la Base de Données Nationale d’Identification (BDNI), qui rassemble depuis 2005 les mouvements des dizaines de millions de bovins détenus dans plus de 200.000 exploitations agricoles bovines en France. Pour comprendre en particulier la façon dont les maladies (endémiques ou épidémiques) se propagent sur le territoire national, il est nécessaire de considérer les mouvements marchands d’animaux. Ces données forment un réseau dont les noeuds sont les exploitations agricoles et les arêtes les mouvements d’animaux entre ces exploitations. Ce réseau peut être décrit par les méthodes de l’analyse de réseaux. Une des particularités du réseau de mouvement d’animaux est son caractère temporel (ou dynamique), c’est-à-dire le caractère éphémère des liens entre exploitations. Ceci nécessite l’utilisation de méthodes prenant en compte les caractéristiques temporelles du réseau, essentielles pour l’étude de la propagation de pathogènes. Ce stage consiste à étudier les méthodes classiques de l’analyse de réseaux, en particulier l’algorithme PageRank permettant de mesurer quantitativement la centralité des noeuds du réseau, ainsi que ses récentes extensions au cadre de réseaux temporels. Dans un deuxième temps, on étudiera si et comment on peut adapter ces méthodes pour les appliquer de manière originale aux réseaux de mouvements d’animaux. Descriptif du projet de stage L’algorithme PageRank, inventé par les fondateurs de Google S. Brin et L. Page, repose sur les propriétés spectrales de la matrice d’adjacence M d’un réseau. Pour un réseau à n 1 noeuds, cette matrice est la matrice carrée n×n telle que mij = 1 si les noeuds i et j sont reliés par une arête et mij = 0 sinon. En particulier, les scores PageRank des différentes pages web forment un vecteur propre de la matrice d’adjacence, associé à la plus grande valeur propre ρ > 0 de cette matrice (le rayon spectral). L’observation fondamentale est alors qu’un tel vecteur peut également être trouvé en calculant les probabilités stationnaires (πi , i ∈ ~1, n) d’une chaîne de Markov (marche aléatoire) à valeurs dans le graphe. Il est donc possible de calculer rapidement une approximation des scores PageRank en simulant un grand nombre de marches aléatoires sur le réseau. Une page possédant un grand nombre de liens pointant vers elle sera visitée souvent par la marche aléatoire et aura donc un score élevé, alors qu’une page isolée aura un score faible. Dans notre contexte applicatif, la détermination des noeuds centraux dans un réseau est d’une grande importance pour la diffusion de pathogènes et peut constituer une piste pour intervenir rapidement afin d’endiguer la propagation d’une épidémie, en vaccinant prioritairement les animaux de ces exploitations ou en interdisant temporairement le commerce transitant par elles. Lorsque le graphe évolue au cours du temps (les arêtes possèdent une étiquette temporelle t), les noeuds centraux dans le réseau agrégé en temps peuvent ne plus être essentiels dans le réseau temporel. L’algorithme PageRank appliqué naïvement ne prend pas en compte cette dimension. Au cours de ce stage, on étudiera comment généraliser cet algorithme à cette situation, et à quoi correspondent les mesures de centralité ainsi obtenues. Le stage comprendra une partie bibliographique, pour faire l’inventaire de la littérature, notamment concernant l’algorithme PageRank sur des réseaux temporels, ainsi qu’une partie d’implémentation des méthodes sur les données BDNI. Pour un stage de niveau M2, il est envisagé d’étendre la recherche méthodologique à d’autres approches connexes de la centralité et de l’étude du seuil de vulnérabilité dans les réseaux temporels, et à une comparaison des performances de ces méthodes. Compétences attendues/souhaitées du candidat – M2 Mathématiques / Mathématiques Appliquées / Ingénieur : bonnes connaissances en probabilités, algèbre linéaire, modélisation mathématique. – Bonne connaissance de la programmation (de préférence C ou C++) et de la programmation scientifique (Python, Scilab, R). – Autonomie, curiosité et intérêt pour les approches interdisciplinaires. Durée et indemnité De 4 à 6 mois, à débuter entre février et avril 2017. Une gratification de 554€ / mois est prévue. 2