transparents

publicité
Statistiques de balayage : analyse
des « clusters » d’évènements
Journée SMAI IMdR : 6 février 2009
Julie BERTHON
Aéronautique
• Clusters et statistiques de balayage : introduction sur
un exemple simple
• Méthodes de simulation
 Monte-Carlo
 Petri net
• Méthodes markoviennes
 Chaîne de Markov simplifiée, simple fenêtre de balayage
 Chaîne de Markov simplifiée, double fenêtre de balayage
 Chaîne de Markov complète
• Résultats et Comparaison des méthodes
• Conclusion
1
Aéronautique
2 août
Le vol 358 d’Air France
sort de piste en
atterrissant à Toronto
23 août
Le vol 204 de la Tans
s’écrase à l’approche en
Amazonie
Une telle série semble très improbable mais…
6 août
Le vol 1153 de Tuninter
s’abîme en mer près de
Palerme
Fréquence moyenne des
accidents aériens : 0,88
par période de 22 jours.
14 août
Le vol 522 d’Hélios
s’écrase sur un
massif près
d’Athènes
16 août
Le vol 1153 de la West
Caribbean
se crashe au
Venezuela
Les statistiques de balayage permettent d’évaluer ou d’approcher la probabilité
d’occurrence d’un tel “cluster” d’évènements.
2
Aéronautique
Objectif : évaluer la probabilité d’observer un cluster de k évènements ou plus
dans une fenêtre temporelle de longueur w balayant une période de taille
donnée T.
Difficultés
 Toute fenêtre de taille w peut contenir un cluster
 Les fenêtres se chevauchent
3
Aéronautique
Exemple:
T  une année de 365 jours

λ ou p correspon dent à 8 évènements par an en moyenne
 (w, k)  (10,3) : 3 évènements en 10 jours

Solutions
• Simulation de Monte Carlo
• directe (implémentée dans un algorithme dédié)
• supportée par un réseau de Pétri
• Chaînes de Markov
Deux modèles de probabilité :
• Loi de Bernoulli B( p )
• Loi de Poisson P(λ)
4
Simulation de Monte-Carlo directe
• Les dates d’accidents sont générées aléatoirement selon la loi considérée et de
manière à recouvrir la période d’observation [0,T[
ε1  ε 2  ...  ε S  T
• La liste des dates est scannée jusqu’à observation d’un cluster
• Une variable Nb_Cluster est incrémentée d’une unité
La quantité recherchée est donnée
par
Nb_Cluster
N
où N est le nombre de répétitions
de la simulation.
5
Aéronautique
Réseau de Petri animant une simulation de MonteCarlo
• Processus de comptage simple (simple counting medium)
• 2 places et 2 transitions
• Initialement
 la place 1 est marquée d’une pièce
 Nb_Cluster est égal à zéro
• Les variables εi (i =1 à k) indiquent les dates de k
accidents successifs
• L’index I permet de calculer en continu le temps écoulé
entre les évènements i et (i+k-1)
• Nb_Cluster passe à 1 dès que k accidents se
produisent dans une fenêtre de longueur w
6
Aéronautique
MODELES MARKOVIENS
Balayage de la période d’observation
Notation
N(u,w)
Xi
T
0
1
2
3
i-1
i
u
u+w
• Xi… variable aléatoire donnant le nombre
d’évènements sur [i-1,i[
• N(u,w)… variable aléatoire comptant le number
d’évènements sur la fenêtre [u,u+w[
• p la probabilité qu’un évènement se produise
sur un sous-intervalle de longueur 1
 1 avec la probabilit é p
Bernoulli model i.e. X i  
 0 avec la probabilit é q  1 - p
7
Aéronautique
PREMIER MODELE MARKOVIEN
Xu+1
Gain de la variable
aléatoire Xu+w+1
“Perte” de la variable
aléatoire Xu+1
Xu+w+1
De la fenêtre N(u,w) à la fenêtre N(u+1,w)
indépendants
N(u  1, w )  N(u, w )  X u 1  X u  w 1
dépendants
P(X u 1  1 N(u , w )  n ) 
8
Aéronautique
n
w
P(X u 1  0 N(u, w )  n )  1 
n
w
PREMIER MODELE MARKOVIEN
Etats
E0, E1, E2 : respectivement 0, 1 ou 2 évènements dans la fenêtre courante
E3
: 3 évènements ou plus dans la fenêtre courante
Chaîne de Markov
p
1

 q 1  
w
 w
1

p 1  
 w
p
2

p 1  
 w
q
E1
EE00
q
w
E2
E3
2q
w
2p
2

 q 1  
w
 w
Probabilité d’un cluster
de 3 évènements ou
plus dans une fenêtre
de taille w=10
9
Aéronautique
1
PREMIER MODELE MARKOVIEN
q
q

M  w
0

 0
p
p
w 1
q
w
w
2q
w
0
0
w 1
p
w
2p
w2
q
w
w
0
0

0

0

1
Matrice de transition
Vecteur des probabilités initiales
T
0
w


qw


w -1
pq

X
2 w -2


pq

w
w -1
2 w -2 
1  q  pq  p q 
Nombre d’itérations
T
0
1 2
3
4
N=T-w+1
10
Aéronautique
PREMIER MODELE MARKOVIEN
La probabilité d’observer un cluster de k=3 évènements ou plus dans une
fenêtre de taille w=10 balayant la période de longueur T=365 est donnée par
le produit MNX avec N=356
11
DEUXIEME MODELE MARKOVIEN
Problème : le modèle autorise des “chemins” qui ne sont pas réalisables en pratique
12
E0
E1
E0
E0
E1
E1
DEUXIEME MODELE MARKOVIEN
Partage de la fenêtre de balayage en deux sous-fenêtres
E0
13
E1
E’1
DEUXIEME MODELE MARKOVIEN
soit un couple (i,j) si i+j<k
Un état est:
soit l’état absorbant si i+j=k
La matrice de transition est une matrice de taille D×D avec D=k(k-1)+1
Les probabiltés de transition et le vecteur des probabilités initiales sont calculés d’une manière
analogue à précédemment

2
0
q  
0
0
0
q
w

2
2
2 
p q  1  2 
p 
0
q    1  
0

 w
w
w  w

2
2

2 2
4
0
q  
q  1  
0
q   
q  

w
 w
w w
w

2
4
2


2 
M   0 p  1  
0
q  1  
p     1  
0
 w
 w
w  w

2
2 
2

2

4
2 2

4
q  
p  1  
q  
p        q  1    1  
p 
0
w
w
w
w w
w  w





w

2
4
2 

0
0
0
0
q     1  
q  1  

w  w
 w

2
4


0
0
0
p
p  1  
p  1  
w
w





14

0

0


0


0


0

0


1

2


 w 
b 0, , p 


 2 


  w   w 
 b 0, 2 , p b1, 2 , p  
 

 
 b1, w , p b 0, w , p  
  2   2 
X    w   w 
b 0, , p b 2, , p 
  2   2 
  w   w 
 b1, , p b1, , p  
  2   2 
b 2, w , p b 0, w , p 
  2   2 


1  B2, w, p 


TROISIEME MODELE MARKOVIEN
Modèle “complet” …
Xi
T
0
1
2
3
i-1
i
u
u+w
soit un w-uplet (X1, X2,…, Xw) si X1 + X2 +…+ Xw <k
 Un état est:
soit l’état absorbant A si X1 + X2 +…+ Xw =k
w


 L’espace d’états est E  (X1 , X 2 ,..., X w ) X i  0,1 and  X i  k   A
i 1


et sa dimension 1 
    ...    1
w
1
w
2
w
k 1
Notation: état (i1,i2,…,im) pour i1=i2=…=im=1 et il=0 sinon
15
TROISIEME MODELE MARKOVIEN
Matrice de transition
Transition de l’état (i,j) vers l’état
(i-1,j-1) avec la probabilité q:
i
j
i-1
j-1
Transition de l’état (i,j) vers l’état
absorbant avec la probabilité p:
16
i
j
i-1
j-1
TROISIEME MODELE MARKOVIEN
Vecteur des probabilités initiales
T
0
w
1
1
1
1


X  b0,10, p 
b1,10, p   b1,10, p 
b2,10, p   b2,10, p  1  B2,10, p 
10
10
45
45


i
i 10i
10
with b(i,10, p)  C p q
and B(i,10, p) 
t
i
i
i 10i
C
p
 10 q
j0
La probabilité d’observer un cluster de k=3 évènements ou plus dans une
fenêtre de taille w=10 balayant la période de longueur T=365 est donnée par
le produit MNX avec N=356
17
Résultats
Discrétisation
Heure
Méthodes
Bernoulli
Poisson
Bernoulli
Poisson
Monte Carlo direct
0.1250
0.1329
0.1310
0.1329
RdP, Monte Carlo
0.1225
0.1317
0.1251
0.1317
0.0991
0.1176
0.1274
0.1280
0.1014
NaN
0.1296
NaN
0.1028
0.1217
NaN
NaN
Premier modèle
markovien
Double fenêtre de
balayage
Modèle markovien
complet
18
Jour
Conclusions
 Les résultats obtenus dans le cadre du modèle de Bernoulli convergent vers ceux
obtenus dans le cadre du modèle de Poisson lorsque le pas de discrétisation tend vers 0.
 A notre connaissance, il n’existe pas de méthode exacte pour résoudre en un temps
« très court » le problème de l’estimation de la probabilité d’occurrence d’un cluster
d’évènements…
 … Les méthodes proposées permettent d’évaluer ou d’approcher cette probabilité en
un temps très acceptable.
 Les méthodes proposées sont très différentes, faisant appel à la simulation, à des
approches combinatoires, ou aux chaînes de Markov.
Cependant, nous observons qu’elles donnent des résultats quasi identiques lorsque la
discrétisation est suffisamment fine.
19
Téléchargement