Estimateurs MCD de localisation et de dispersion: définition et calcul

publicité
Estimateurs MCD de localisation et de
dispersion:
définition et calcul
Fauconnier Cécile
Université de Liège
1
Plan de l’exposé
z
z
z
z
z
2
z
Introduction:
Pourquoi les estimateurs robustes?
Estimateur MCD : définition
Algorithmes approximatifs les plus connus
Relaxation du problème
Algorithme pour la nouvelle version du
problème
Conclusions
Introduction
Les estimateurs classiques de localisation et de
dispersion sont la moyenne empirique et la
variance empirique:
Soit X = {x1 ,K, x n } , on a
1 n
x = ∑ xi
n i =1
3
1 n
t
S = ∑ ( xi − x )( xi − x )
n i =1
Problèmes posés par les estimateurs
classiques:
Les estimateurs classiques sont fortement vulnérables
dès que l’ensemble des données considéré contient
des données atypiques.
Exemples:
z Localisation d’un ensemble de données
z Détection des points aberrants
4
Localisation
3
2
data\2
1
0
-1
-2
-3
5
-4
-3
-2
-1
0
data\1
1
2
3
4
Localisation
3
2
data\2
1
0
-1
-2
-3
6
-4
-3
-2
-1
0
data\1
1
2
3
4
Localisation
3
2
data\2
1
0
-1
-2
7
-3
-2
-1
0
1
2
3
4
d
5
\1
6
7
8
9
10
Localisation
3
2
data\2
1
0
-1
-2
8
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
11
Détection des points aberrants
Un point est suspecté si sa distance de Mahalanobis
est grande
MDi = ( xi − x ) t S −1 ( xi − x )
De manière équivalente, un point est suspecté s’il est
hors de l’ellipse suivante
ε = {x :( xi − x ) t S −1 ( xi − x ) ≤ χ p2 ,1−α
9
}
Détection : exemple
yti s net nI t hgi L go L
10
Log Temperature
Estimateurs robustes
z
z
{
t ( AX + b) = At ( X ) + b
C ( AX + b) = AC ( X ) A t
11
}
A partir de l’échantillon, X = x1 , K , x n on veut
estimer la dispersion par une matrice C et la
localisation par un vecteur t.
On impose à (t,C) d’être équivariant pour les
transformations affines:
Estimateurs MCD de localisation et de
dispersion : définition
z
z
12
MCD: Minimum Covariance Determinant
Les estimateurs MCD de localisation et de
dispersion sont la moyenne et la matrice de
covariance calculées sur l’échantillon de h points
parmi n qui minimise le déterminant de la matrice de
covariance correspondante
Estimateurs MCD
z
Le but est donc de trouver l’ensemble H* tel que
H* =
z
arg min
H ⊂{x1 ,K, xn }, H = h
det(Σˆ H )
On en déduit alors les estimateurs de localisation
et de dispersion
1
µˆ = ∑ xi , Σˆ = Σˆ H *
h xi ∈H *
13
Estimateurs MCD
z
z
14
Enumérer tous les sous-ensembles de h points
parmi n devient vite infaisable pour de grands
ensembles de données. ( Cnh = n!
possibilités)
h!(n − h)!
Différents algorithmes approximatifs ont été
proposés dans la littérature
Estimateurs MCD: propriétés
z
Habituellement,
En pratique,
z
15
h = ( n + p + 1) / 2
h = 0.75n
Implémenté dans S+, SAS,…
Retour à l’exemple : détection des
points aberrants
yti s net nI t hgi L go L
16
Log Temperature
Retour à l’exemple : détection des
points aberrants
yti s net nI t hgi L go L
17
Log Temperature
Algorithmes basés sur
l’échantillonnage
Sous-ensembles considérés: H , K , H
1
I
z Enumérer tous les sous ensembles possibles de h
points ( I = Cnh )
z Agullό (1998)
Technique ‘branch and bound’
Limitation : n<100 p<10
z Dans la suite, on va considérer un grand nombre
de sous-ensembles (mais pas tous)
18
Algorithmes approximatifs: FSA
Hawkins (1994): FSA - Feasable Subset Algorithm
z Position initiale : choix aléatoire de h points
z Passer en revue tous les SWAPS possibles et
garder l’ensemble qui provoque la meilleure
amélioration
z Critère d’arrêt : aucun swap n’apporte une
amélioration
19
SWAP
2
1
y
0
-1
-2
-3
20
-2
-1
0
1
2
FSA
H 0 , det( H 0 )
x1 ∈ H 0 , x 2 ∉ H 0
H 1 ≡ (H 0 ∪ {x 2 }) \ x1
∃ ? H 1 : det( H 1 ) < det( H 0 )
oui
H 0 ≡ H 1 : min det( H 1 )
21
non
STOP
FSA
z
On considère un certain nombre de positions initiales
et on garde la meilleure des solutions obtenues
H init _1 , K, H init _ I → H fin _1 , K, H fin _ I
z
z
-
22
A chaque vérification, h(n-h) cas à considérer…
Alternatives:
Prendre le premier swap qui provoque un
changement
n’appliquer qu’une fois le swap
Algorithme approximatif: FASTMCD
Rousseuw, Van Driessen (1999)
Algorithme:
z Position initiale aléatoire
z C-step
z Critère d’arrêt: si aucune amélioration n’est apparue
après application du C-step
23
FASTMCD
H 0 , T0 = ave( H 0 )
S 0 = cov( H 0 )
d 0 (i ) = ( xi − T0 ) t S 0−1 ( xi − T0 )
i = 1,K , n
d 0 (π (1)) ≤ d 0 (π (2)) ≤ K ≤ d 0 (π (n))
H1 ≡ {xπ (1) , K , xπ ( h ) }
T1 = ave( H1 ), S1 = cov( H1 )
? : det( S1 ) = 0 ou det( S1 ) = det( S 0 )
non
H 0 ≡ H1
24
oui
STOP
FAST MCD
z
On considère un certain nombre de positions initiales et on
garde la meilleure des solutions obtenues (souvent 500)
Hinit_1,K, Hinit_ I → H fin_1,K, H fin_ I
z
25
Améliorations:
- A partir de chaque position initiale, on ne considère que 2
C-step
- On sélectionne les 10 meilleurs ensembles finaux (parmi
les 500)
- On relance la procédure explicitée sur ces 10 ensembles
jusqu’à la convergence
Redéfinition des estimateurs MCD
et nouvel algorithme
Travail en collaboration avec
- G. Haesbroeck
- M. Schyns
- F. Critchley (The Open University)
Recherches toujours en cours
26
Définition équivalente
z
But : trouver H* tel que
H* =
z
arg min
H ⊂{x1 ,K, xn }, H = h
En en déduit
n
1
µˆ = ∑ xi = ∑ pi xi
h xi ∈H *
i =1
n
Σˆ = ∑ pi ( xi − µˆ )( xi − µˆ ) t
det(Σˆ H )
 1
si xi ∈ H *
pi =  h
 0 si xi ∉ H *
i =1
27
Probabilité associée à
la ième observation
Définition équivalente
z
En termes des n-vecteurs de probabilités, la fonction
objective MCD peut être définie par
n
t ( p ) = det ∑ pi ( xi − µˆ )( xi − µˆ ) t
i =1
‘Espace réalisable’:
1


 p : pi = pour h indices et pi = 0 pour n − h indices 
h


28
Relaxation du problème
Idée: transformer un problème discret en un problème
continu
1


p
p
=
pour
h
indices
et
p
=
pour
n
−
h
indices
:
0


i
i
h


1 

 p n − vecteur de proba : pi ≤ ∀i 
h 

29
Relaxation du problème
Ex: n=3, h=2
(0,0,1)
IP 3
(1/2,0,1/2)
(0,1/2,1/2)
IP-13
30
(1,0,0)
(1/2,1/2,0)
(0,1,0)
Fonction objective MCD
z
Afin d’assurer la concavité de la fonction objective,
nous prenons le logarithme
n
t ( p ) = log det ∑ pi ( xi − µˆ )( xi − µˆ ) t
i =1
z
31
Cette fonction est concave.
Relaxation du problème
z
Problème d’optimisation:
min t ( p )
p
1
tel que 0 ≤ pi ≤ ∀i ∈ {1, K , n}
h
et p1 + p 2 + K + p n = 1
32
Algorithme
z
z
33
Position initiale : différents choix
- aléatoire
- pi = 1 ∀i ∈ {1,K , n}
n
- maximum
- opposé au maximum
Descente dans la direction opposée au gradient
centré
Descente
z
Descente:
p → p + δd avec δ > 0, d = 1, d t 1n = 0
z
t ( p + δd ) = t ( p ) + δd
t
t ( p ) + o(δ )
123
c
gradient centré
34
Gradient centré par la fonction
objective MCD
z
Nous avons obtenu le gradient centré de la
fonction objective MCD
c
t MCD
( p ) = c( Di2 ( p ))
avec D ( p ) = ( xi − µ ( p )) Σ ( p )( xi − µ ( p ))
2
i
et c(ai ) = ai − a
35
t
−1
Algorithme
z
Considérer un grand nombre de positions initiales
p1 , K , pI
z
Suivre la direction opposée au gradient centré en
fixant une coordonnée dès que l’on arrive à une
extrémité
Attention: Le point extrême obtenu n’est peut-être pas
un minimum local de la fonction
36
Condition nécessaire et suffisante
pour être un minimum local
z
Un vecteur p, dont h composantes sont égales à 1/h
et n-h composantes sont égales à 0, réalise un
minimum local de la fonction t(.) ssi
{
}
{
min tic ( p ) ≥ max tic ( p )
i∉H *
z
i∈H *
}
Dans le cas MCD, la condition devient
{
}
{
}
min D ( p ) ≥ max D ( p )
i∉H *
z
37
2
i
i∈H *
2
i
Équivalence du critère d’arrêt de FASTMCD et de la
présence en un minimum local de cet algorithme
Algorithme
z
Considérer un grand nombre de positions initiales
p1 , K , pI
z
z
z
38
Suivre la direction opposée au gradient centré
jusqu’à l’obtention d’un point extrême
Appliquer un swap local afin d’obtenir un minimum
local
Retourner la meilleure des solutions obtenues
Illustration
39
Application
L’algorithme a été lancé sur différents ensembles de
référence
z Phosphor
z Salinity
z Hawkins
z Coleman
z Wood
z Heart
z …
40
Conclusions
z
z
z
41
Simulations en cours
Un nouvel algorithme a été construit mais nous
avons également progressé dans la compréhension
d’un tel problème
L’algorithme peut être appliqué à d’autres fonctions
ayant certaines caractéristiques. Nous nous sommes
intéressé à la fonction objective LTS ou encore à
des problèmes de diagnostiques.
Questions ?
42
Téléchargement