Estimateurs MCD de localisation et de dispersion: définition et calcul Fauconnier Cécile Université de Liège 1 Plan de l’exposé z z z z z 2 z Introduction: Pourquoi les estimateurs robustes? Estimateur MCD : définition Algorithmes approximatifs les plus connus Relaxation du problème Algorithme pour la nouvelle version du problème Conclusions Introduction Les estimateurs classiques de localisation et de dispersion sont la moyenne empirique et la variance empirique: Soit X = {x1 ,K, x n } , on a 1 n x = ∑ xi n i =1 3 1 n t S = ∑ ( xi − x )( xi − x ) n i =1 Problèmes posés par les estimateurs classiques: Les estimateurs classiques sont fortement vulnérables dès que l’ensemble des données considéré contient des données atypiques. Exemples: z Localisation d’un ensemble de données z Détection des points aberrants 4 Localisation 3 2 data\2 1 0 -1 -2 -3 5 -4 -3 -2 -1 0 data\1 1 2 3 4 Localisation 3 2 data\2 1 0 -1 -2 -3 6 -4 -3 -2 -1 0 data\1 1 2 3 4 Localisation 3 2 data\2 1 0 -1 -2 7 -3 -2 -1 0 1 2 3 4 d 5 \1 6 7 8 9 10 Localisation 3 2 data\2 1 0 -1 -2 8 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 Détection des points aberrants Un point est suspecté si sa distance de Mahalanobis est grande MDi = ( xi − x ) t S −1 ( xi − x ) De manière équivalente, un point est suspecté s’il est hors de l’ellipse suivante ε = {x :( xi − x ) t S −1 ( xi − x ) ≤ χ p2 ,1−α 9 } Détection : exemple yti s net nI t hgi L go L 10 Log Temperature Estimateurs robustes z z { t ( AX + b) = At ( X ) + b C ( AX + b) = AC ( X ) A t 11 } A partir de l’échantillon, X = x1 , K , x n on veut estimer la dispersion par une matrice C et la localisation par un vecteur t. On impose à (t,C) d’être équivariant pour les transformations affines: Estimateurs MCD de localisation et de dispersion : définition z z 12 MCD: Minimum Covariance Determinant Les estimateurs MCD de localisation et de dispersion sont la moyenne et la matrice de covariance calculées sur l’échantillon de h points parmi n qui minimise le déterminant de la matrice de covariance correspondante Estimateurs MCD z Le but est donc de trouver l’ensemble H* tel que H* = z arg min H ⊂{x1 ,K, xn }, H = h det(Σˆ H ) On en déduit alors les estimateurs de localisation et de dispersion 1 µˆ = ∑ xi , Σˆ = Σˆ H * h xi ∈H * 13 Estimateurs MCD z z 14 Enumérer tous les sous-ensembles de h points parmi n devient vite infaisable pour de grands ensembles de données. ( Cnh = n! possibilités) h!(n − h)! Différents algorithmes approximatifs ont été proposés dans la littérature Estimateurs MCD: propriétés z Habituellement, En pratique, z 15 h = ( n + p + 1) / 2 h = 0.75n Implémenté dans S+, SAS,… Retour à l’exemple : détection des points aberrants yti s net nI t hgi L go L 16 Log Temperature Retour à l’exemple : détection des points aberrants yti s net nI t hgi L go L 17 Log Temperature Algorithmes basés sur l’échantillonnage Sous-ensembles considérés: H , K , H 1 I z Enumérer tous les sous ensembles possibles de h points ( I = Cnh ) z Agullό (1998) Technique ‘branch and bound’ Limitation : n<100 p<10 z Dans la suite, on va considérer un grand nombre de sous-ensembles (mais pas tous) 18 Algorithmes approximatifs: FSA Hawkins (1994): FSA - Feasable Subset Algorithm z Position initiale : choix aléatoire de h points z Passer en revue tous les SWAPS possibles et garder l’ensemble qui provoque la meilleure amélioration z Critère d’arrêt : aucun swap n’apporte une amélioration 19 SWAP 2 1 y 0 -1 -2 -3 20 -2 -1 0 1 2 FSA H 0 , det( H 0 ) x1 ∈ H 0 , x 2 ∉ H 0 H 1 ≡ (H 0 ∪ {x 2 }) \ x1 ∃ ? H 1 : det( H 1 ) < det( H 0 ) oui H 0 ≡ H 1 : min det( H 1 ) 21 non STOP FSA z On considère un certain nombre de positions initiales et on garde la meilleure des solutions obtenues H init _1 , K, H init _ I → H fin _1 , K, H fin _ I z z - 22 A chaque vérification, h(n-h) cas à considérer… Alternatives: Prendre le premier swap qui provoque un changement n’appliquer qu’une fois le swap Algorithme approximatif: FASTMCD Rousseuw, Van Driessen (1999) Algorithme: z Position initiale aléatoire z C-step z Critère d’arrêt: si aucune amélioration n’est apparue après application du C-step 23 FASTMCD H 0 , T0 = ave( H 0 ) S 0 = cov( H 0 ) d 0 (i ) = ( xi − T0 ) t S 0−1 ( xi − T0 ) i = 1,K , n d 0 (π (1)) ≤ d 0 (π (2)) ≤ K ≤ d 0 (π (n)) H1 ≡ {xπ (1) , K , xπ ( h ) } T1 = ave( H1 ), S1 = cov( H1 ) ? : det( S1 ) = 0 ou det( S1 ) = det( S 0 ) non H 0 ≡ H1 24 oui STOP FAST MCD z On considère un certain nombre de positions initiales et on garde la meilleure des solutions obtenues (souvent 500) Hinit_1,K, Hinit_ I → H fin_1,K, H fin_ I z 25 Améliorations: - A partir de chaque position initiale, on ne considère que 2 C-step - On sélectionne les 10 meilleurs ensembles finaux (parmi les 500) - On relance la procédure explicitée sur ces 10 ensembles jusqu’à la convergence Redéfinition des estimateurs MCD et nouvel algorithme Travail en collaboration avec - G. Haesbroeck - M. Schyns - F. Critchley (The Open University) Recherches toujours en cours 26 Définition équivalente z But : trouver H* tel que H* = z arg min H ⊂{x1 ,K, xn }, H = h En en déduit n 1 µˆ = ∑ xi = ∑ pi xi h xi ∈H * i =1 n Σˆ = ∑ pi ( xi − µˆ )( xi − µˆ ) t det(Σˆ H ) 1 si xi ∈ H * pi = h 0 si xi ∉ H * i =1 27 Probabilité associée à la ième observation Définition équivalente z En termes des n-vecteurs de probabilités, la fonction objective MCD peut être définie par n t ( p ) = det ∑ pi ( xi − µˆ )( xi − µˆ ) t i =1 ‘Espace réalisable’: 1 p : pi = pour h indices et pi = 0 pour n − h indices h 28 Relaxation du problème Idée: transformer un problème discret en un problème continu 1 p p = pour h indices et p = pour n − h indices : 0 i i h 1 p n − vecteur de proba : pi ≤ ∀i h 29 Relaxation du problème Ex: n=3, h=2 (0,0,1) IP 3 (1/2,0,1/2) (0,1/2,1/2) IP-13 30 (1,0,0) (1/2,1/2,0) (0,1,0) Fonction objective MCD z Afin d’assurer la concavité de la fonction objective, nous prenons le logarithme n t ( p ) = log det ∑ pi ( xi − µˆ )( xi − µˆ ) t i =1 z 31 Cette fonction est concave. Relaxation du problème z Problème d’optimisation: min t ( p ) p 1 tel que 0 ≤ pi ≤ ∀i ∈ {1, K , n} h et p1 + p 2 + K + p n = 1 32 Algorithme z z 33 Position initiale : différents choix - aléatoire - pi = 1 ∀i ∈ {1,K , n} n - maximum - opposé au maximum Descente dans la direction opposée au gradient centré Descente z Descente: p → p + δd avec δ > 0, d = 1, d t 1n = 0 z t ( p + δd ) = t ( p ) + δd t t ( p ) + o(δ ) 123 c gradient centré 34 Gradient centré par la fonction objective MCD z Nous avons obtenu le gradient centré de la fonction objective MCD c t MCD ( p ) = c( Di2 ( p )) avec D ( p ) = ( xi − µ ( p )) Σ ( p )( xi − µ ( p )) 2 i et c(ai ) = ai − a 35 t −1 Algorithme z Considérer un grand nombre de positions initiales p1 , K , pI z Suivre la direction opposée au gradient centré en fixant une coordonnée dès que l’on arrive à une extrémité Attention: Le point extrême obtenu n’est peut-être pas un minimum local de la fonction 36 Condition nécessaire et suffisante pour être un minimum local z Un vecteur p, dont h composantes sont égales à 1/h et n-h composantes sont égales à 0, réalise un minimum local de la fonction t(.) ssi { } { min tic ( p ) ≥ max tic ( p ) i∉H * z i∈H * } Dans le cas MCD, la condition devient { } { } min D ( p ) ≥ max D ( p ) i∉H * z 37 2 i i∈H * 2 i Équivalence du critère d’arrêt de FASTMCD et de la présence en un minimum local de cet algorithme Algorithme z Considérer un grand nombre de positions initiales p1 , K , pI z z z 38 Suivre la direction opposée au gradient centré jusqu’à l’obtention d’un point extrême Appliquer un swap local afin d’obtenir un minimum local Retourner la meilleure des solutions obtenues Illustration 39 Application L’algorithme a été lancé sur différents ensembles de référence z Phosphor z Salinity z Hawkins z Coleman z Wood z Heart z … 40 Conclusions z z z 41 Simulations en cours Un nouvel algorithme a été construit mais nous avons également progressé dans la compréhension d’un tel problème L’algorithme peut être appliqué à d’autres fonctions ayant certaines caractéristiques. Nous nous sommes intéressé à la fonction objective LTS ou encore à des problèmes de diagnostiques. Questions ? 42