Statistiques de balayage : analyse des « clusters » d’évènements Journée SMAI IMdR : 6 février 2009 Julie BERTHON Aéronautique • Clusters et statistiques de balayage : introduction sur un exemple simple • Méthodes de simulation Monte-Carlo Petri net • Méthodes markoviennes Chaîne de Markov simplifiée, simple fenêtre de balayage Chaîne de Markov simplifiée, double fenêtre de balayage Chaîne de Markov complète • Résultats et Comparaison des méthodes • Conclusion 1 Aéronautique 2 août Le vol 358 d’Air France sort de piste en atterrissant à Toronto 23 août Le vol 204 de la Tans s’écrase à l’approche en Amazonie Une telle série semble très improbable mais… 6 août Le vol 1153 de Tuninter s’abîme en mer près de Palerme Fréquence moyenne des accidents aériens : 0,88 par période de 22 jours. 14 août Le vol 522 d’Hélios s’écrase sur un massif près d’Athènes 16 août Le vol 1153 de la West Caribbean se crashe au Venezuela Les statistiques de balayage permettent d’évaluer ou d’approcher la probabilité d’occurrence d’un tel “cluster” d’évènements. 2 Aéronautique Objectif : évaluer la probabilité d’observer un cluster de k évènements ou plus dans une fenêtre temporelle de longueur w balayant une période de taille donnée T. Difficultés Toute fenêtre de taille w peut contenir un cluster Les fenêtres se chevauchent 3 Aéronautique Exemple: T une année de 365 jours λ ou p correspon dent à 8 évènements par an en moyenne (w, k) (10,3) : 3 évènements en 10 jours Solutions • Simulation de Monte Carlo • directe (implémentée dans un algorithme dédié) • supportée par un réseau de Pétri • Chaînes de Markov Deux modèles de probabilité : • Loi de Bernoulli B( p ) • Loi de Poisson P(λ) 4 Simulation de Monte-Carlo directe • Les dates d’accidents sont générées aléatoirement selon la loi considérée et de manière à recouvrir la période d’observation [0,T[ ε1 ε 2 ... ε S T • La liste des dates est scannée jusqu’à observation d’un cluster • Une variable Nb_Cluster est incrémentée d’une unité La quantité recherchée est donnée par Nb_Cluster N où N est le nombre de répétitions de la simulation. 5 Aéronautique Réseau de Petri animant une simulation de MonteCarlo • Processus de comptage simple (simple counting medium) • 2 places et 2 transitions • Initialement la place 1 est marquée d’une pièce Nb_Cluster est égal à zéro • Les variables εi (i =1 à k) indiquent les dates de k accidents successifs • L’index I permet de calculer en continu le temps écoulé entre les évènements i et (i+k-1) • Nb_Cluster passe à 1 dès que k accidents se produisent dans une fenêtre de longueur w 6 Aéronautique MODELES MARKOVIENS Balayage de la période d’observation Notation N(u,w) Xi T 0 1 2 3 i-1 i u u+w • Xi… variable aléatoire donnant le nombre d’évènements sur [i-1,i[ • N(u,w)… variable aléatoire comptant le number d’évènements sur la fenêtre [u,u+w[ • p la probabilité qu’un évènement se produise sur un sous-intervalle de longueur 1 1 avec la probabilit é p Bernoulli model i.e. X i 0 avec la probabilit é q 1 - p 7 Aéronautique PREMIER MODELE MARKOVIEN Xu+1 Gain de la variable aléatoire Xu+w+1 “Perte” de la variable aléatoire Xu+1 Xu+w+1 De la fenêtre N(u,w) à la fenêtre N(u+1,w) indépendants N(u 1, w ) N(u, w ) X u 1 X u w 1 dépendants P(X u 1 1 N(u , w ) n ) 8 Aéronautique n w P(X u 1 0 N(u, w ) n ) 1 n w PREMIER MODELE MARKOVIEN Etats E0, E1, E2 : respectivement 0, 1 ou 2 évènements dans la fenêtre courante E3 : 3 évènements ou plus dans la fenêtre courante Chaîne de Markov p 1 q 1 w w 1 p 1 w p 2 p 1 w q E1 EE00 q w E2 E3 2q w 2p 2 q 1 w w Probabilité d’un cluster de 3 évènements ou plus dans une fenêtre de taille w=10 9 Aéronautique 1 PREMIER MODELE MARKOVIEN q q M w 0 0 p p w 1 q w w 2q w 0 0 w 1 p w 2p w2 q w w 0 0 0 0 1 Matrice de transition Vecteur des probabilités initiales T 0 w qw w -1 pq X 2 w -2 pq w w -1 2 w -2 1 q pq p q Nombre d’itérations T 0 1 2 3 4 N=T-w+1 10 Aéronautique PREMIER MODELE MARKOVIEN La probabilité d’observer un cluster de k=3 évènements ou plus dans une fenêtre de taille w=10 balayant la période de longueur T=365 est donnée par le produit MNX avec N=356 11 DEUXIEME MODELE MARKOVIEN Problème : le modèle autorise des “chemins” qui ne sont pas réalisables en pratique 12 E0 E1 E0 E0 E1 E1 DEUXIEME MODELE MARKOVIEN Partage de la fenêtre de balayage en deux sous-fenêtres E0 13 E1 E’1 DEUXIEME MODELE MARKOVIEN soit un couple (i,j) si i+j<k Un état est: soit l’état absorbant si i+j=k La matrice de transition est une matrice de taille D×D avec D=k(k-1)+1 Les probabiltés de transition et le vecteur des probabilités initiales sont calculés d’une manière analogue à précédemment 2 0 q 0 0 0 q w 2 2 2 p q 1 2 p 0 q 1 0 w w w w 2 2 2 2 4 0 q q 1 0 q q w w w w w 2 4 2 2 M 0 p 1 0 q 1 p 1 0 w w w w 2 2 2 2 4 2 2 4 q p 1 q p q 1 1 p 0 w w w w w w w w 2 4 2 0 0 0 0 q 1 q 1 w w w 2 4 0 0 0 p p 1 p 1 w w 14 0 0 0 0 0 0 1 2 w b 0, , p 2 w w b 0, 2 , p b1, 2 , p b1, w , p b 0, w , p 2 2 X w w b 0, , p b 2, , p 2 2 w w b1, , p b1, , p 2 2 b 2, w , p b 0, w , p 2 2 1 B2, w, p TROISIEME MODELE MARKOVIEN Modèle “complet” … Xi T 0 1 2 3 i-1 i u u+w soit un w-uplet (X1, X2,…, Xw) si X1 + X2 +…+ Xw <k Un état est: soit l’état absorbant A si X1 + X2 +…+ Xw =k w L’espace d’états est E (X1 , X 2 ,..., X w ) X i 0,1 and X i k A i 1 et sa dimension 1 ... 1 w 1 w 2 w k 1 Notation: état (i1,i2,…,im) pour i1=i2=…=im=1 et il=0 sinon 15 TROISIEME MODELE MARKOVIEN Matrice de transition Transition de l’état (i,j) vers l’état (i-1,j-1) avec la probabilité q: i j i-1 j-1 Transition de l’état (i,j) vers l’état absorbant avec la probabilité p: 16 i j i-1 j-1 TROISIEME MODELE MARKOVIEN Vecteur des probabilités initiales T 0 w 1 1 1 1 X b0,10, p b1,10, p b1,10, p b2,10, p b2,10, p 1 B2,10, p 10 10 45 45 i i 10i 10 with b(i,10, p) C p q and B(i,10, p) t i i i 10i C p 10 q j0 La probabilité d’observer un cluster de k=3 évènements ou plus dans une fenêtre de taille w=10 balayant la période de longueur T=365 est donnée par le produit MNX avec N=356 17 Résultats Discrétisation Heure Méthodes Bernoulli Poisson Bernoulli Poisson Monte Carlo direct 0.1250 0.1329 0.1310 0.1329 RdP, Monte Carlo 0.1225 0.1317 0.1251 0.1317 0.0991 0.1176 0.1274 0.1280 0.1014 NaN 0.1296 NaN 0.1028 0.1217 NaN NaN Premier modèle markovien Double fenêtre de balayage Modèle markovien complet 18 Jour Conclusions Les résultats obtenus dans le cadre du modèle de Bernoulli convergent vers ceux obtenus dans le cadre du modèle de Poisson lorsque le pas de discrétisation tend vers 0. A notre connaissance, il n’existe pas de méthode exacte pour résoudre en un temps « très court » le problème de l’estimation de la probabilité d’occurrence d’un cluster d’évènements… … Les méthodes proposées permettent d’évaluer ou d’approcher cette probabilité en un temps très acceptable. Les méthodes proposées sont très différentes, faisant appel à la simulation, à des approches combinatoires, ou aux chaînes de Markov. Cependant, nous observons qu’elles donnent des résultats quasi identiques lorsque la discrétisation est suffisamment fine. 19