Algorithme PageRank dynamique - MaIAGE

Téléchargement

Proposition de stage (M1/M2/Ingénieur) :

Algorithme PageRank dynamique

Laboratoire d’accueil

UR1404 INRA MaIAGE (Mathématiques en Informatique Appliquées du Génome à l’En-

vironnement) Domaine de Vilvert, 78350 Jouy-en-Josas

Responsables du stage

– Patrick Hoscheit,[email protected]

– Elisabeta Vergu,[email protected]

Contexte et motivation

Depuis quelques années, l’aﬄux de grands jeux de données (génétiques, interaction so-

ciale,. . .) requiert l’invention de nouvelles méthodes capables de les analyser en un temps

raisonnable. Nous travaillons en particulier sur des données de détention d’animaux, is-

sues de la Base de Données Nationale d’Identiﬁcation (BDNI), qui rassemble depuis 2005

les mouvements des dizaines de millions de bovins détenus dans plus de 200.000 exploita-

tions agricoles bovines en France. Pour comprendre en particulier la façon dont les maladies

(endémiques ou épidémiques) se propagent sur le territoire national, il est nécessaire de

considérer les mouvements marchands d’animaux. Ces données forment un réseau dont les

noeuds sont les exploitations agricoles et les arêtes les mouvements d’animaux entre ces ex-

ploitations. Ce réseau peut être décrit par les méthodes de l’analyse de réseaux. Une des par-

ticularités du réseau de mouvement d’animaux est son caractère temporel (ou dynamique),

c’est-à-dire le caractère éphémère des liens entre exploitations. Ceci nécessite l’utilisation de

méthodes prenant en compte les caractéristiques temporelles du réseau, essentielles pour

l’étude de la propagation de pathogènes.

Ce stage consiste à étudier les méthodes classiques de l’analyse de réseaux, en particulier

l’algorithme PageRank permettant de mesurer quantitativement la centralité des noeuds du

réseau, ainsi que ses récentes extensions au cadre de réseaux temporels. Dans un deuxième

temps, on étudiera si et comment on peut adapter ces méthodes pour les appliquer de ma-

nière originale aux réseaux de mouvements d’animaux.

Descriptif du projet de stage

L’algorithme PageRank, inventé par les fondateurs de Google S. Brin et L. Page, repose

sur les propriétés spectrales de la matrice d’adjacence Md’un réseau. Pour un réseau à n

noeuds, cette matrice est la matrice carrée n×ntelle que mij = 1 si les noeuds iet jsont reliés

par une arête et mij = 0 sinon. En particulier, les scores PageRank des diﬀérentes pages web

forment un vecteur propre de la matrice d’adjacence, associé à la plus grande valeur propre

ρ > 0 de cette matrice (le rayon spectral). L’observation fondamentale est alors qu’un tel vec-

teur peut également être trouvé en calculant les probabilités stationnaires (πi, i ∈~1,n)

d’une chaîne de Markov (marche aléatoire) à valeurs dans le graphe. Il est donc possible de

calculer rapidement une approximation des scores PageRank en simulant un grand nombre

de marches aléatoires sur le réseau. Une page possédant un grand nombre de liens pointant

vers elle sera visitée souvent par la marche aléatoire et aura donc un score élevé, alors qu’une

page isolée aura un score faible. Dans notre contexte applicatif, la détermination des noeuds

centraux dans un réseau est d’une grande importance pour la diﬀusion de pathogènes et

peut constituer une piste pour intervenir rapidement aﬁn d’endiguer la propagation d’une

épidémie, en vaccinant prioritairement les animaux de ces exploitations ou en interdisant

temporairement le commerce transitant par elles.

Lorsque le graphe évolue au cours du temps (les arêtes possèdent une étiquette tem-

porelle t), les noeuds centraux dans le réseau agrégé en temps peuvent ne plus être essen-

tiels dans le réseau temporel. L’algorithme PageRank appliqué naïvement ne prend pas en

compte cette dimension. Au cours de ce stage, on étudiera comment généraliser cet algo-

rithme à cette situation, et à quoi correspondent les mesures de centralité ainsi obtenues. Le

stage comprendra une partie bibliographique, pour faire l’inventaire de la littérature, no-

tamment concernant l’algorithme PageRank sur des réseaux temporels, ainsi qu’une partie

d’implémentation des méthodes sur les données BDNI. Pour un stage de niveau M2, il est

envisagé d’étendre la recherche méthodologique à d’autres approches connexes de la centra-

lité et de l’étude du seuil de vulnérabilité dans les réseaux temporels, et à une comparaison

des performances de ces méthodes.

Compétences attendues/souhaitées du candidat

– M2 Mathématiques / Mathématiques Appliquées / Ingénieur : bonnes connaissances

en probabilités, algèbre linéaire, modélisation mathématique.

– Bonne connaissance de la programmation (de préférence C ou C++) et de la program-

mation scientiﬁque (Python, Scilab, R).

– Autonomie, curiosité et intérêt pour les approches interdisciplinaires.

Durée et indemnité

De 4 à 6 mois, à débuter entre février et avril 2017. Une gratiﬁcation de 554€/ mois est

prévue.

1 / 2 100%

Algorithme PageRank dynamique - MaIAGE

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Algorithme PageRank dynamique - MaIAGE

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib