Parcours OMIS - 3A - École Centrale Marseille Module Informatique Décisionelle Analyse de données et classification bayésienne Stéphane DERRODE [email protected] Version 2.1 - Novembre 2013 Table des matières 1 Les données 4 1.1 Espace de représentation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2 Espace engendré par les variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2.1 Variables numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.2 Variables ordinales et nominales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.3 Espace des modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Distances et similitudes dans les espaces de représentation . . . . . . . . . . . . . . . . . . . . 6 1.3.1 Variables continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3.2 Variables booléenne (présence / absence) . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3 2 Variables à 1 ou 2 dimensions 2.1 2.2 9 Description d’une variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.1 Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.2 Valeurs centrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.1.3 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.1.4 Boîte à moustaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Description de deux variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2.1 Nuage de points et régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2.2 Corrélation linéaire et axe principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3 Analyse en composantes principales 17 3.1 Exemple avec les mains . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.2 Principe de la méthode (sans les mains) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.3 Reformulation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.3.1 19 Matrice de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 3.3.2 Matrices de description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.3.3 Réduction des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.4 Recherche de sous-espaces optimaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.5 Inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.6 Description du nuage des individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4 Décision bayésienne 24 4.1 Introduction et motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.2 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.3 Stratégie bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.4 Exemple : cas gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3 Chapitre 1 Les données Fortement inspiré du cours de F. Brucker, Analyse des données, 2007. 1.1 Espace de représentation des données Ensemble fini X d’objets noté x1 , x2 , . . . , x, y, z (taille N ). Pour analyser les objets dans X, il faut disposer d’informations permettant de les comparer ou de les caractériser à l’aide de paramètres ou de descripteurs. On plonge ainsi les objets dans un espace de représentation, engendré par les variables issues des descripteurs. Les variables peuvent être numériques, ordinales ou nominales. On parlera souvent d’individu pour caractériser les objets de X et de caractères pour les variables associées. Variable ? numérique : discrète (crédit sur un compte en centimes) ou continue (poids, taille). ? ordinale : ne retient que des comparaisons entre des valeurs (Je préfère x à y, x est plus intéressant que y. . . ). ? nominale : ensemble de valeurs non comparables (catégorie socio-professionnelle, couleur, appartenance politique). Comme cas particulier : les variables binaires (présen ce/absence d’un caractère ou 1/2 sexe à la sécurité sociale) 1.2 Espace engendré par les variables Supposons que nos N objets soient décrits par un ensemble de p variables. L’espace de représentation qui leur sera associé sera le produit cartésien des ensembles engendrés par chaque variable. On a ainsi = Rp lorsque les variables sont continues ; tandis dans dans les autres cas on peut poser = N p . Les variables p booléennes correspondant au cas particulier {0, 1} . 4 1.2.1 Variables numériques L’espace euclidien Rp est l’espace de représentation de l’analyse (géométrique) des données. Chaque objet xi ∈ X est ici codé par un p-uplet xi = x1i , x2i , . . . , xpi dans lequel xji est la valeur que prend la j-ième variable (ou descripteur) sur l’objet xi . Le tableau ci-après montre un exemple d’objets (les lignes) décrites par des données numériques (les colonnes). En analyse des données, la démarche diffère de celle adoptée en statistique inférentielle où l’ensemble des objets est souvent vu comme un échantillon d’une population plus vaste et l’on cherche à trouver des informations sur cette population à partir de l’échantillon considéré. Ici, X est la population et les valeurs prises par chaque variable constituent une distribution observée à partir de laquelle on peut calculer des paramètres (la moyenne, la variance, . . . ), expliquer les valeurs prises par certaines variables à partir de valeurs prises par d’autres (régressions), ou encore structurer les données (analyses factorielles). 1.2.2 Variables ordinales et nominales Nous ne parlerons que très peu de ce genre de données par la suite, et nous nous restreindrons aux variables booléennes, dont le tableau suivant donne un exemple. ? A : l’animal pond-t-il des oeufs ? ? B : présence de plumes ? ? C : présence d’écailles ? ? D : présence de dents ? ? E : l’animal vole-t-il ? ? F : l’animal nage-t-il ? ? G : l’animal respire-t-il dans l’air (1) ou dans l’eau (0) ? Table 1.1 – tableau booléen Autruche Canari Canard Requin Saumon Grenouille Crocodile Barracuda A 1 1 1 1 1 1 1 1 B 1 1 1 0 0 0 0 0 C 0 0 0 0 1 0 0 1 D 0 0 0 1 0 0 1 1 E 0 1 1 0 0 0 0 0 F 0 0 1 1 1 1 1 1 G 1 1 1 0 0 1 1 0 Ce genre de données peut être représenté en utilisant une terminologie booléenne. Soit X l’ensemble des N objets décrits par un ensemble A = {A, B, C, . . .} de p attributs ou variables binaires. Chacun, par exemple A, peut prendre les valeurs a (dite forme directe, codée 1) et ā (dite forme indirecte, codée 0). Ceci peut être ramené à un tableau de valeurs 0 ou 1 avec N lignes correspondant aux éléments de X et p colonnes correspondant aux attributs. Le tableau est alors équivalent à la formule Φ ci-après qui est vérifiée par les assignations induites par les lignes : ¯ f¯g ∨ abc̄de ¯ f¯g ∨ abc̄def ¯ g ∨ ab̄c̄dēf ḡ ∨ Φ = abc̄dē ¯ ḡ ∨ ab̄c̄dēf ¯ g ∨ ab̄c̄dēf g ∨ ab̄cdēf ḡ ab̄cdēf 5 La formule Φ est alors vraie si et seulement si les variables binaires correspondent à une ligne du tableau. En effet, chaque ligne du tableau est une suite de variables binaire liée par des ’ET’ (la première ligne du ¯ f¯g qui correspond à l’autruche), chaque ligne étant liée aux autres par des ’OU’ (le tableau est ainsi abc̄dē symbole ∨). En utilisant le calcul dans les algèbres de Boole, on peut simplifier Φ. Par exemple, à chaque fois qu’on a deux monômes du type xµ ∨ x̄µ, on peut utiliser la règle xµ ∨ x̄µ = µ. Après simplification, la formule donne ¯ f¯ ∨ ef ) ∨ b̄c̄ēf (dḡ ∨ g) ∨ b̄cēf ḡ a Φ = bc̄dg( Puis en utilisant la règle x ∨ x̄µ = x ∨ µ, on obtient finalement ¯ f¯ ∨ e) ∨ b̄c̄ēf (d ∨ g) ∨ b̄cēf ḡ a Φ = bc̄dg( La simplification de Φ montre que la variable ’a’ n’est pas pertinente pour décrire les différences entre nos animaux puisqu’ils pondent tous des oeufs (la variable ’a’ est vraie pour toutes les lignes). Cette formule réduite peut se représenter comme dans la figure suivante, qui permet de caractériser les différences entre les individus. Cette figure montre par exemple que les différences entre un canard et une autruche est alors e et f, une autruche ne volant pas et un canard ne nageant pas. Attention, les animaux peuvent se retrouver dans plusieurs branches, ainsi la différence entre une autruche et un canari étant uniquement la variable ’e’ (l’autruche se différenciant du canari par le fait qu’elle ne vole pas). 1.2.3 Espace des modèles Analyser des données revient à les réorganiser selon la méthode choisie. Chaque méthode opère un recodage des données, les plongeant dans un autre espace appelé espace des modèles. Si l’espace de représentation correspond à un espace “naturel” de représentation des données, l’espace des modèles correspond à un espace de travail où les données sont itérativement traitées (re-codées) jusqu’à la fin de l’analyse. On obtiendra ainsi par exemple des classes d’objets, ou encore un ensemble de vecteurs sur lesquels on projette les objets. C’est de cet espace que l’on pourra déduire des connaissances propres aux données, c’est à dire de reconnaître des configurations, des structures, des formes, induites par les caractéristiques propres des objets. Analyser des données est ainsi un processus où l’on commence par choisir les caractéristiques des objets que nous voulons analyser (les placer dans l’espace de représentation), puis une méthode d’analyse (une classification non-hiérarchique, ou une analyse en composantes principales par exemple). Les résultats (dans l’espace des modèles) pouvant alors être interprétés et nous renseigner sur les objets eux-mêmes (ceux du vrai monde). 1.3 Distances et similitudes dans les espaces de représentation Comme vu dans la partie précédente, le choix de caractères permettant de décrire les objets à analyser permet de les situer dans un espace de représentation . Reconnaître des structures induites par cette représentation implique une étape préliminaire qui est de se doter d’outils métriques permettant de mesurer des distances (ou des ressemblances, des dissemblances, . . . ) entre lesdits objets. Pour cela, il nous faut associer à chaque paire d’objets un nombre positif ou nul, d’autant plus petit que les objets sont “semblables” (ou, si cela à un sens dans , que les objets sont “proches” l’un de l’autre). 6 On appelle distance sur un ensemble une application d : × → R+ vérifiant les propriétés suivantes : Nom Propriété symétrie ∀x, y ∈ E, d(x, y) = d(y, x) séparation ∀x, y ∈ E, d(x, y) = 0 ⇔ x = y inégalité triangulaire ∀x, y, z ∈ E, d(x, z) ≤ d(x, y) + d(y, z) Voyons maintenant quelques types particuliers de distances parmi les plus usités, pour des variables continues et des variables booléennes. 1.3.1 Variables continues Nous nous restreignons ici aux distances issues des normes Lq . Les distances de corrélation et la distance du χ2 seront étudiées plus tard, dans le cadre de l’analyse en composantes principales et de l’analyse factorielle des correspondances. On rappelle que pour un espace de représentation = Rp , chaque objet xi ∈ X est un vecteur à p dimensions xi = x1i , . . . xpi . On peut ainsi définir les distances : ? L1 (encore appelée distance de Manhattan, ou “city block distance”) : d(xi , xj ) = X 1 |xk − xkj | p i 1≤k≤p ? L2 (encore appelée distance euclidienne) : s d(xi , xj ) = X 1 (xk − xkj )2 p i 1≤k≤p ? et plus généralement Lq : q1 X 1 d(xi , xj ) = |xk − xkj |q p i 1≤k≤p ? et, finalement L∞ (encore appelée distance du sup ou norme uniforme) : d(xi , xj ) = sup |xki − xkj | 1≤k≤p 1.3.2 Variables booléenne (présence / absence) p Ici, l’espace de représentation est = {0, 1} . Une variable positionnée à 1 (respectivement 0) signifie la présence (respectivement l’absence) de l’attribut. Seule la valeur 1 est ainsi significative. Si l’on considère les variables comme des attributs (présents ou absents), chaque objet xi possède un ensemble Ei de caractères (Ei est donc constitué des variables qui prennent sur xi la valeur 1). En notant E\F l’ensemble des éléments de E qui ne sont pas dans F , la différence symétrique entre Ei et Ej peut s’écrire : Ei 4Ej = (Ei \Ej ) ∪ (Ej \Ei ). De là, on peut déduire un grand nombre de distances dont : ? la distance de la différence symétrique : d(xi , xj ) = |Ei 4Ej | ? la distance de la différence symétrique normalisée (encore appelée distance de Hamming) : d(xi , xj ) = |Ei 4Ej | p ? la distance de Jaccard : d(xi , xj ) = 1 − 7 |Ei ∩ Ej | |Ei ∪ Ej | ? distance de Czekanovski-Dice : d(xi , xj ) = 1 − ? distance de Ochiaï : 2|Ei ∩ Ej | |Ei | + |Ej | |Ei ∩ Ej | 1− p |Ei |.|Ej | ? distance de Braun-Blanquet : 1− |Ei ∩ Ej | max{|Ei |, |Ej |} 1− |Ei ∩ Ej | min{|Ei |, |Ej |} ? distance de Simpson : ? ... Toutes ces distances permettent de mesurer des différences entres objets. Il convient de bien choisir sa distance selon les différences que l’on veut mesurer. De façon classique, lorsque le choix d’une distance à utiliser n’est pas évidente, on a coutume d’utiliser la distance de Jaccard qui est un bon compromis. Exercice Calculer la distance de Jaccard entre une autruche et un crocodile. Eautruche = {a, b, g} , Ecroco = {a, d, f, g} d (autruche, croco) = 1 − 2 3 = 5 5 d (autruche, autruche) = 1 − 5 =0 5 Travaux pratiques chercher classer les animaux dans l’ordre de leur distance à l’autruche. Chaque élève choisi une distance, comme cela nous pourrons comparer les résultats. 8 Chapitre 2 Variables à 1 ou 2 dimensions Fortement inspiré du cours de F. Brucker, Analyse des données, 2007. On s’intéresse dans ce chapitre aux espaces de représentation tels que = R (partie 2.1) et = R2 (partie 2.2). La statistique descriptive permet un pré-traitement efficace des données, en brossant l’allure générale des données (moyenne, écart-type, . . . ) et fournit des représentations graphiques (histogrammes, boîte à moustaches, . . . ) permettant de synthétiser les résultats. L’exemple fil-rouge que nous utiliserons ici est constitué d’une population de 26 étudiants passant un contrôle. Pour chaque candidat, on note : ? le temps mis à effectuer l’épreuve (variable x), ? le nombre d’erreurs commises (variable y). 2.1 Description d’une variable L’espace représentation associé à os objets est ici l’ensemble des nombres réels. 2.1.1 Distribution DÃľfinition 1 On appellera distribution statistique de X la donnée des couples {(c1 , n1 ), . . . , (ci , ni ), . . . , (ck , nk )} tel que les ci forment un partition en k intervalles de l’ensemble des valeurs prises par la variable (c1 = [a0 , a1 ], ci =]ai−1 , ai ], ck =]ak−1 , ak ]) et les ni le nombre de valeurs observées dans l’intervalle ci . Par convention le centre des intervalles est également noté ci . Table 2.1 – Résultats d’examen pour 26 candidats Candidat no x y 1 15 4 2 15 5 3 20 10 4 10 0 5 15 4 6 30 10 7 10 2 8 10 5 9 5 0 10 5 1 11 5 0 12 10 3 13 10 3 Candidat no x y 14 20 6 15 15 3 16 10 2 17 5 0 18 20 6 19 30 8 20 30 5 21 30 10 22 40 12 23 10 3 24 5 0 25 10 2 26 10 3 9 Le nombre d’intervalles dans une distribution statistique est choisi en fonction de n, de manière à représenter P le mieux possible la distribution des valeurs et on a n = 1≤i≤k ni . Il n’existe pas de choix pertinent du nombre et de l’amplitude des intervalles, mais il est plus aisé de prendre des intervalles de même amplitude et, empiriquement, on a coutume d’utiliser la règle de Sturges comme choix de k : k =1+ 10 ln (n) . 3 ln (10) DÃľfinition 2 Pour une distribution statistique donnée, on appellera fréquence de i le rapport fi = P sa fréquence cumulée la somme Fi = f1 + f2 + · · · + fi = 1≤j≤i fj . ni n, et DÃľfinition 3 On appelle histogramme des fréquences pour une distribution statistique donnée ((]aj−1 , aj ], nj ) pour 1 ≤ j ≤ k), le graphique tel que les intervalles sont reportées en abscisse et au-dessus de chacune d’elle un rectangle d’aire égale ou proportionnelle à la fréquence de la classe est tracé. Attention, ce sont les aires des rectangles qui sont importantes. Lorsque les “bases” des rectangles sont identiques, “la hauteur” est alors proportionnelle à l’aire mais dans quelques (rares) cas les bases seront de longueurs différentes et dans ces cas là il faudra faire attention. Remarque 1 Pour le cas d’une distribution statistique associée à une variable discrète ((cj , nj ) pour 1 ≤ j ≤ k), l’histogramme des fréquences est le graphique tel que les modalités cj sont reportées en abscisse et au-dessus de chacun des cj un segment de hauteur égale ou proportionnelle à la fréquence de la modalité est tracé. DÃľfinition 4 On appelle graphique des fréquences cumulées pour une distribution statistique donnée ((]aj−1 , aj ], nj ) pour 1 ≤ j ≤ k), le graphique tel que les intervalles sont reportées en abscisse et au-dessus de chacune d’elle un rectangle de hauteur égal à Fi est tracé. 2.1.2 Valeurs centrales Aussi appelées paramètres de positions, les valeurs centrales sont des nombres autour desquels se répartissent les valeurs observées de la variable considérée. C’est autour d’elles que sont calculés les paramètres de dispersion. Il y a essentiellement deux paramètres de positions pour une variable : la moyenne et la médiane. DÃľfinition 5 La moyenne x̄ d’un ensemble de valeurs x est définie par l’expression : 1 X x̄ = xi n 1≤i≤n Pour définir la médiane, il faut tout d’abord ranger les éléments de X par ordre croissant. Si l’on note x1 , x2 , . . ., xn les n valeurs prises par la variable x, on notera x(1) , x(2) , . . .x(n) ces mêmes éléments rangés par ordre croissant (si, par exemple, x1 = 12, x2 = 1 et x3 = 1 on aura x(1) = 1, x(2) = 1 et x(3) = 12). Par exemple, la médiane de la variable x de la table de notes est 10.0. Cette définition implique des résultats différents selon la taille de n. Si n est impair, d = 0 et la médiane est une des valeurs de la variable et si n est pair, la médiane vaut la moyenne des deux valeurs centrales. Enfin, on définit la classe modale, qui est un paramètre de position associé à une distribution statistique. Pour la distribution statistique des notes d’étudiants, la classe modale est ]7.5, 12.5] DÃľfinition 6 On appelle classe modale mo(x) d’une distribution statistique (]aj−1 , aj ], nj ) (pour 1 ≤ j ≤ k) d’une variable x est égal à un intervalle ]ai−1 , ai ] tel que ni = max1≤j≤k {nj } 10 2.1.3 Paramètres de dispersion Les paramètres de dispersion sont des nombres permettant de mesurer l’amplitude des variations autour d’une valeur centrale. Les paramètres de dispersion que nous définirons dans cette partie sont essentiellement de deux types, ceux liés (de près ou de loin) à la variance, et ceux liés à la répartition des valeurs (les quartiles). DÃľfinition 7 La variance d’un ensemble x est le nombre s2 (x) défini par l’expression : s2 (x) = 1 X (xi − x̄)2 . n 1≤i≤n La racine carrée de s2 (x), notée s(x) est appelé écart-type. On peut (facilement) démontrer que la variance est également égal à s2 (x) = ( n1 plus pratique lorsque l’on doit calculer une variance à la main. P 1≤i≤n x2i ) − (x̄)2 , formule Remarque 2 Attention : il ne faut pas confondre variance et variance corrigée. La variance corrigée s2c (x) définie par l’expression : X 1 n 2 s2c (x) = (xi − x̄)2 = s (x) n−1 n−1 1≤i≤n est un estimateur et non un paramètre de dispersion. Lorsque les (xi ) sont un échantillon d’une population plus grande on a coutume d’utiliser la variance corrigée s2c (x) puisqu’elle est sans biais. Cependant dans le cas qui nous occupe, les (xi ) représentent la population en son entier, sa variance est donc égale à s2 (x) et nous n’avons pas à nous soucier de la variance corrigée. Autres paramètres de dispersion DÃľfinition 8 Le coefficient de variation cv(x) est défini par l’expression : cv(x) = 100 s(x) x̄ Si la population est plus grande que l’échantillon considéré, le coefficient de variation utilise sc (x) et non plus s(x), il est alors défini par l’expression : cv(x) = 100 scx̄(x) . L’étendue d’une variable qui est le paramètre de dispersion e(x) défini par la différence entre la plus grande et la plus petite valeur de la variable étant très sensible aux valeurs extrêmes, on préférera utiliser les quartiles pour calculer la répartition des valeurs. DÃľfinition 9 On défini les quartiles comme suit. Soient m et d les parties entières et décimales de n+1 4 et m0 et d0 les parties entières et décimales de 3(n+1) . On notera, comme en 2.1.2, x(1) , x(2) , . . ., x(n) les 4 valeurs de x rangées par ordre croissant. ? le premier quartile noté q0,25 (x) est défini par l’expression : q0,25 (x) = x( m) + d(x(m+1) − x(m) ), ? le deuxième quartile noté q0,5 (x) est égal à la médiane de x, ? le troisième quartile noté q0,75 (x) est défini par l’expression : q0,75 (x) = x( m0 )+d0 (x(m0 +1) −x(m0 ) ). L’étendue inter-quartile IQR(x) étant défini par IQR(x) = q0,75 − q0,25 . 11 Ces paramètres de dispersion permettent de définir des intervalles où se trouvent un pourcentage donné de valeurs. Par exemple, il y a 25% des valeurs en dessous de q0,25 , entre q0,25 et q0,5 , entre q0,5 et q0,75 , et au-dessus de q0,75 . De même, il y a 50% des valeurs de la variable au-dessous de q0,5 , au-dessus de q0,5 et dans IRQ(x). Si l’on veut raffiner (d’aucun diraient chipoter), on peut de la même manière définir des déciles (on découpe en dixième et non plus en quart) ou des centiles (on découpe en centième). 2.1.4 Boîte à moustaches La boîte à moustache (encore appelée boxplot) est un graphique permettant d’observer globalement les paramètres de position et de dispersion. DÃľfinition 10 Une boîte à moustache est un graphique constitué de deux axes : l’axe vertical, muni d’une échelle numérique qui correspond aux valeurs la variable observée et l’axe horizontal, sans échelle. Un segment horizontal (de longueur arbitraire) est é en regard de la médiane, puis une boîte est reportée avec les côtés supérieur et inférieur en regard de q0,75 et q0,25 respectivement. Enfin, deux segments verticaux sont tracés vers l’extérieur de la boîte (les moustaches) joignant le milieu du côté supérieur (resp. inférieur) à la plus grande (resp. la plus petite) valeur inférieure ou égale (resp. supérieure ou égale) à q0,75 + 32 IQR(x) (resp. q0,25 − 32 IQR(x)). On peut également rajouter deux points marquant les valeurs les plus extrêmes si elles ne sont pas dans les moustaches, et un autre point en regard de la moyenne. Les extrémités de la boîte à moustache sont appelées valeurs adjacentes, et lorsque qu’une valeur se trouve au-delà des valeurs adjacentes, elle peut être considérée comme extrême et peut éventuellement être omise. 2.2 Description de deux variables L’espace de représentation associé à nos objets est ici l’ensemble R2 , tout xi ∈ X est donc un couple de réels xi = (x1i , x2i ). La table étudiant est un exemple de ce type d’espace de représentation. Ceci revient à considérer un ensemble X d’objets par deux variables réelles, x et y par exemple. 2.2.1 Nuage de points et régression linéaire Supposons que l’on cherche à décrire l’ensemble X d’objets décrit par deux variables réelles x et y. On appellera champ du couple (x, y) l’ensemble K = {(xi , yi )|1 ≤ i ≤ n} que l’on peut représenter dans le plan par n points Mi d’abscisse xi et d’ordonnée yi , le centre de gravité du nuage étant bien évidemment le point G = (x̄, ȳ). Le nuage de points de la figure montre le graphique associé à la table étudiant du nombre d’erreurs commises par rapport au temps mis pour effectuer l’examen, le centre gravité du nuage étant représenté par un ’+’. Un simple regard sur le nuage peut informer sur l’existence et la forme d’une éventuelle liaison entre les deux variables. On peut par exemple chercher à déterminer une éventuelle liaison linéaire entre les deux variables (le nuage a tendance à s’étirer le long d’une droite), on peut alors tenter d’expliquer la variable y (appelée variable expliquée) par la variable x (appelée variable explicative). On cherche ainsi à déterminer s’il existe deux réels a et b tels que pour tout 1 ≤ i ≤ n : yi ' a + bxi . La manière la plus courante pour arriver à nos fins est d’utiliser la méthode des moindres carrés, c’est à dire 12 trouver deux réels a et b qui réalisent le minimum de : h(a, b) = n X 1 (yi − a − bxi )2 . n i=1 Le nombre h(a, b) est appelé résidu quadratique. Il quantifie l’écart de nos données par rapport à la droite sensée les représenter. Trouver le minimum de h(a, b) se fait simplement en utilisant la méthode dite “gros bourrin” : on dérive par rapport à a et b. A faire en exercice On a alors : De là, ∂h(a,b) ∂a ∂h(a, b) 1X = −2 (yi − a − bxi ) = −2y + 2a + 2bx ∂a n i = 0 implique que : a = y − bx ∂h(a,b) ∂b (2.1) P = −2 n1 i xi (yi − a − bxi ) P P = −2[ n1 i xi yi − ax − b n1 i x2i ] En remplaçant a par y − bx, on obtient alors : P P ∂h(a,b) = −2[ n1 i xi yi − (y − bx)x − b n1 i x2i ] ∂b P P = −2[ i n1 (xi yi − xy) + b(x2 − n1 i x2i )] P = −2[ n1 i (xi − x)(yi − y) + bs2 (x)] On pose alors cov(x, y) = conduit à : 1 n P 1≤i≤n (xi − x̄)(yi − ȳ) (appelée covariance de x et de y), et l’équation b= ∂h(a,b) ∂b =0 cov(x, y) s2 (x) Remarque 3 La covariance est une généralisation de la variance pour deux variables. Elle permet de voir comment varie une variable par rapport à l’autre. Une valeur positive de covariance entre x et y montre que lorsque x augmente (resp. diminue) y à tendance à augmenter (resp. diminue) également et une valeur négative de la covariance montre qu’en général si x augmente (resp. diminue) y va diminuer (resp. augmenter). On a de plus que cov(x, x) = s2 (x) ≥ 0. La droite obtenue est appelée droite de régression linéaire de y par x et possède la propriété de passer par le centre de gravité du nuage (i.e. ȳ = a + bx̄, cf (2.1)). Le résidu quadratique vaut alors (A faire en exercice) : 2 ! cov(x, y) 2 h(a, b) = s(y) 1 − s(x)s(y) La qualité de la régression sera d’autant meilleure que ce résidu est faible. Pour cela, deux facteurs seront prédominants : ? un faible écart-type de la variable y, (x,y) ? une forte valeur de cov s(x)s(y) La figure suivante reprend le nuage de la figure précédente en y ajoutant la droite de régression linéaire. On a a = −0.85 et b = 0.33. 13 2.2.2 Corrélation linéaire et axe principal Figure 2.1 – les deux droites de régression linéaires de la table 2.1 Dans la partie précédente, on a choisi d’expliquer une variable (la variable y de la table étudiant) par une autre (la variable x de la table étudiant). Ce choix peut paraître arbitraire puisque l’on aurait pût tout aussi bien tenter d’expliquer la variable x par la variable y et obtenir une droite de régression différente, comme le montre la figure ?? où les deux droites de régression sont superposées. Comme vue dans la partie 2.2.1, les deux droites de régressions linéaires passent par le centre de gravité du nuage, les deux droites sont alors égales si et seulement si leurs pentes le sont. Comme x = a0 + b0 y est 0 équivalent à y = − ab0 + b10 x, les pentes des droites de régression y = a + by et x = a0 + b0 y sont égales si et seulement si b = b10 , c’est à dire si et seulement si : cov(x, y) s(x)s(y) 2 =1 (x,y) On note r(x, y) la quantité cov s(x)s(y) = r(x, y) et on l’appelle (fort justement) coefficient de corrélation linéaire. On peut prouver que |r(x, y)| ≤ 1) quelques soient x et y et que |r(x, y)| = 1 si et seulement si les points (xi , yi ) (1 ≤ i ≤ n) sont alignés. Remarque 4 Une valeur de r(x, y) proche de 1 signifie donc que si x augmente, y augmente également de façon linéaire (et que si y augmente, x augmente également) et une valeur de r(x, y) proche de -1 signifie que si x augmente, y décroît (et réciproquement). En fait, plus r2 (x, y) est proche de 1, plus le nuage de points se concentre autour d’une droite passant par 14 le centre de gravité du nuage et ayant une pente intermédiaire entre la droite de régression de y par x et la droite de régression de x par y. Cette droite est appelée axe principal. L’axe principal peut s’obtenir directement en changeant la droite à optimiser. Soit D une droite d’équation y = aD + bD x. Chercher la droite de régression de y par x revient à chercher la droite Dy qui minimise la somme des carrés des écarts |yi − aD − bD xi | (le segment vertical en pointillé sur la figure 2.2). De la même manière chercher la droite de régression de x par y revient à chercher la droite Dx qui minimise la somme D des carrés des écarts |xi + abD − b1D yi | (le segment horizontal en pointillé sur la figure 2.2). (xi,yi) droite D Figure 2.2 – les différentes optimisations par rapport à D On voit bien par là que la régression de y par x et la régression de x par y ne permet d’obtenir la même droite que si les points sont déjà alignés. L’axe principal est le résultat d’une autre forme d’optimisation : on cherche la droite D∗ qui minimise la somme des carrés des distances des points (xi , yi ) à la droite (le segment en gras sur la figure 2.2). La figure 2.3 montre le nuage de points de la table 2.1, les deux droites de régressions (en traits pleins) et l’axe principal (en pointillés). Les quantités que nous venons d’introduire s’interprètent dans Rn muni de la norme euclidienne. cov(x, y) est le produit scalaire de ~v (x) − x̄~i et ~v (y) − ȳ~i. r(x, y) est le cosinus de l’angle de ~v (x) − x̄~i et ~v (y) − ȳ~i. L’alignement dans R2 du nuage correspond à la colinéarité dans Rn des vecteurs définis par les variables, la corrélation nulle correspond à l’orthogonalité, dans ce dernier cas on dit que les variables sont indépendantes. 15 Figure 2.3 – droites de régression linéaires et axe principal de la table 2.1 16 Chapitre 3 Analyse en composantes principales On s’intéressera dans ce chapitre aux objets de X décrits par p variables réelles. L’espace de représentation associé est ainsi Rp . 3.1 Exemple avec les mains Lorsque la population à étudier est décrite par deux variables, la simple lecture de leurs valeurs (du nuage produit) peut éventuellement fournir une idée de la force de la liaison entre les deux variables, comme le montre la figure. L’étude visuelle du nuage ne donne cependant que rarement toute l’information désirée. L’exemple fil rouge du chapitre précédent (base d’étudiants) est à cet égard significatif. Le coefficient de corrélation linéaire élevé (r(x, y) = 0.9) conduisant à une explication linéaire des données. Partant de nos données, on est parvenu à dégager deux variables pertinentes pour décrire le comportement de notre population : l’attitude et l’aptitude. Remarquons que celles-ci décrivent des phénomènes que l’on suppose (au moins intuitivement) indépendant : les deux axes déterminés sont orthogonaux. Appelons facteurs nos deux nouvelles variables (elles remplacent les variables “temps” et “erreurs”), ils seront d’autant plus pertinents avec nos données que nos variables d’origines ont une forte corrélation avec au moins un de nos nouveaux axes (l’autre axe étant obtenu par orthogonalité). Reste à extraire les facteurs. On peut pour cela faire une analogie avec la mécanique. Si l’on assimile nos objets à des points matériels, la droite la plus proche du nuage de points est celle qui correspond à l’axe principal d’inertie du nuage. Cet axe est exactement l’axe principal définie dans le chapitre précédent. Cet exemple à deux variables montre le but de l’analyse en composantes principale : déterminer des axes pertinents pour l’explication des corrélations entre variables. 3.2 Principe de la méthode (sans les mains) Si l’analyse visuelle du nuage peut nous permettre, soit de dégager directement la structure, soit de déterminer des axes pertinents, lorsque les objets sont décrits par plus de trois variables (sinon, on peut toujours représenter le nuage dans l’espace), la représentation graphique devient impossible. Ainsi, les dix catégories socioprofessionnelles de la table 3.1 sont représentables dans un espace à six dimensions (ce qui graphiquement 17 commence à faire mal aux yeux). Si l’on veut cependant obtenir une représentation graphique plane de la table 3.1, on peut projeter les points de l’espace à p dimensions sur un plan (à deux dimensions). Il faut cependant choisir judicieusement le plan de projection pour que les distorsions par rapport à l’espace originel soient minimales. Table 3.1 – Patrimoine selon la catégorie socioprofessionnelle Anciens indépendants non agricoles (AI) Professions libérales (PL) Industriels, artisans commerçants (IAC) Cadres supérieurs (CS) Agriculteurs (AG) Anciens agriculteurs (AA) Anciens salariés (AS) Professions intermédiaires (PI) Employés (EM) Ouvriers (OU) Livrets logement bons,. . . (LIV) Épargne obligatoires (assurances) (ELB) Placements Actions Pierre Terres (POA) (ACT) (PIE) (TER) 8,00 6,00 10,00 23,00 44,00 9,00 6,00 8,00 17,00 25,00 35,00 9,00 5,00 9,00 11,00 6,00 9,00 13,00 13,00 14,00 16,00 36,00 40,00 7,00 34,00 23,00 19,00 6,00 5,00 34,00 14,00 16,00 13,00 14,00 13,00 13,00 6,00 25,00 27,00 26,00 27,00 6,00 17,00 22,00 24,00 15,00 14,00 18,00 17,00 18,00 25,00 20,00 11,00 8,00 26,00 27,00 20,00 5,00 8,00 5,00 Soient xi et xj deux éléments de X et d(xi , xj ) la distance de l’un à l’autre dans Rp . En projetant ces éléments sur un plan, la distance entre les deux projections d(p(xi ), p(xj )) est plus petite que d(xi , xj ), on se fixera donc comme critère de choix de plan, celui qui maximise la moyenne des carrés des distances entre les projections. On peut déterminer un plan par deux droites D1 et D2 orthogonales entre elles. De part la relation de Pythagore, la distance au carré entre deux points projetés sur ce plan est égal à la somme des deux distances au carré des projections des points sur les deux droites : d2 (p(xi ), p(xj )) = d2 (αi , αj ) + d2 (βi , βj ) (avec αk et βk les projetés de xk (1 ≤ k ≤ n) sur D1 et D2 respectivement). Le plan minimisant la moyenne des carrés des distances entre les projections, appelé plan principal peut donc être déterminé itérativement. On commence par chercher la droite D1 maximisant la moyennes des d2 (αi , αj ), puis une droite D2 , orthogonale à D1 maximisant la moyenne des d2 (βi , βj ). On peut alors continuer le processus et trouver p droites orthogonales entre elles formant une nouvelle base de Rp , appelés axe principaux du nuage. La meilleure représentation des données en q < p dimension est alors la projection de l’ensemble X sur les q premiers axes principaux. Ceci est la méthode de l’analyse en composantes principale : remplacer la base canonique de Rp par une base formé des axes principaux, représentant mieux les données (pensez aux axes “aptitudes” et “attitude” du début du chapitre), et permettre ainsi de réduire l’espace de représentation aux q axes les plus représentatifs. L’analyse en composantes principales est une méthode factorielle, car elle réduit le nombre de caractères, non pas en éliminant tel ou tel variable jugée non pertinente, mais en construisant de nouveaux axes, plus pertinents. 18 3.3 3.3.1 Reformulation des données Matrice de données Les n individus xi étant décrits par p variables (xi = (x1i , . . . , xpi )), on peut, par abus de notation, noter X la matrice à n lignes et p colonnes telle l’élément à la ligne i et colonne j soit xji . Si X représente l’espace des individus, t X (la matrice transposée de X) représente l’espace des caractères, chaque caractère étant représenté par les n individus qu’il décrit. On note alors xj (1 ≤ j ≤ p) la ligne j de t X qui décrit le caractère j. Le centre de gravité du nuage g = (x̄1 , . . . , x̄p ) est un individu, la plupart du temps fictif, décrit par les moyennes respectives des différents caractères. Dans l’exemple de la table 3.1, le centre de gravité du nuage vaut par exemple g (13.2, 11.6, 15.6, 20.1, 28.1, 11.4) = On dit qu’une variable est centrée si sa moyenne est nulle. Centrer des variables revient à déplacer le centre du repère vers g et donc à retirer sa moyenne à chaque caractère xi − g. On considérera par la suite que toute les variables sont centrées, ce qui simplifie grandement les notations matricielles. 3.3.2 Matrices de description On appelle matrice de variance la matrice carrée V contenant à la ligne i et la ligne j la covariance entre la variable i et la variable j. Cette matrice est symétrique et sa diagonale contient les variances des différentes variables. Cette matrice peut être calculée par la formule : s21 V = ... .. . s1j s2i ... sij .. . s1p .. . sip .. . s2p Matrice de corrélation R : matrice carrée telle que r(xi , xj ) soit sur la ligne i et la colonne j : R= 1 .. r(xi , xj ) . 1 .. . 1 La matrice de corrélation possède une diagonale de 1 puisqu’il n’y a pas plus corrélé qu’une variable avec elle-même. La matrice de corrélation de la table 3.1 est présentée dans la table 3.2. On peut déjà remarquer que la variable représentant les livrets (LIV) est très fortement corrélée avec la variable représentant l’épargne obligatoire, alors que la pierre (PIE) ne l’est que très peu avec les placements (POA). 19 Table 3.2 – Matrice de corrélation de la table des étudiants. LIV ELB POA ACT PIE TER 3.3.3 1 0.9127151 0.6798236 -0.6262121 -0.5604978 -0.1230438 LIV 1 0.7027894 -0.6785415 -0.7667056 0.1016693 ELB 1 -0.4475890 -0.5806489 -0.1580415 POA 1 0.3698211 -0.5950052 ACT 1 -0.2779655 PIE 1 TER Réduction des données Le choix de la distance à utiliser est primordiale dans toute analyse de données, car elle détermine les résultats obtenus. Un mauvais choix de métrique conduit le plus souvent à de mauvais résultats. Lorsque le repère utilisé est orthonormé, on est tenté d’utiliser une distance euclidienne classique et dans ce cas la distance (ici entre deux individus) est : X d2 (xi , xj ) = (xki − xkj )2 . 1≤k≤p Si ce choix est adapté lorsque toutes les variables ont même unité, il peut être préjudiciable dans notre cas, puisque chaque variable se définit par rapport à sont unité propre (un homme pouvant être défini par son âge, son salaire et bien sur la grosseur de sa voiture). Utiliser une métrique euclidienne revient alors à mélanger les torchons et les serviettes. Il est donc indispensable de trouver une métrique qui permette de comparer des individus décrits par des variables hétérogènes. Pour éviter cet écueil, nos données (supposées centrées) sont réduites. C’est à dire que chaque variable (les xj ) est divisée par son écart-type. Ceci a pour but qu’une fois réduites, l’écart-type de chaque variable est égal à 1. Le principal avantage de cette métrique est que la distance entre individus ne dépend plus des unités choisies j puisque les nombres xsj sont sans unités. De plus, elle accorde la même importance à chaque caractère quelque soit sa dispersion. Ne pas l’utiliser revient à accorder plus d’importance aux caractères de forte dispersion qu’à ceux de faible dispersion. Les écarts-types des différentes variables de la table 3.1 sont représentés dans le tableau ci-après : LIV 6.545567 ELB 4.087923 POA 4.115013 ACT 12.041133 PIE 7.607745 TER 10.319345 Remarque 5 Lorsque des données sont centrées et réduites, les matrices V et R sont identiques. Dans tout ce qui suivra, on supposera nos données centrées et réduites. 3.4 Recherche de sous-espaces optimaux L’idée de l’ACP (aussi appelée transformée de Karhunen-Loeve ou de Hotelling) est de trouver une projection des variables de manière à réduire la redondance de l’information, c’est à dire en annulant la corrélation entre les composantes. 20 Soit Rx , la matrice de corrélation des données de l’ensemble X. On cherche une transformation linéaire des données ci = E xi où les xi sont centrés et réduits telle que Rc , la matrice de corrélation des données transformées C soit diagonale : λ1 · · · O Rc = 0 . . . 0 0 · · · λp = E Rx t E. Les données ainsi transformées sont centrées. Justifier la dernière ligne du calcul. 1 x i x i 2 c i 1 c i u 1 u 2 2 x i Figure 3.1 – facteurs principaux, composantes principales Sachant que Rx , comme toute matrice de covariance, est symétrique et semi-définie positive (ie ses valeurs propres (u1 , · · · , up ) sont positives ou nulles). Et sachant que les vecteurs propres d’une matrice symétrique semi-définie positive forment une base orthonormée, on démontre que la matrice de projection E est constituée des vecteurs propres de Rx rangés par ordre décroissant de ses valeurs propres λ1 ≥ λ2 ≥ . . . ≥ λp . Remarque 6 ? Puisque E est orthonormale, alors t E = E −1 , et la transformation est inversible : xi = t E ci . ? On appelle ie axe principal, la droite engendrée par le vecteur propre ui . Les ui sont les facteur principaux ? Pour l’axe principal k (1 ≤ k ≤ p), on note p(xi ) la projection de xi sur cet axe (égal à la ie ligne P du vecteur colonne X uk ), alors i ||p(xi )||2 = λk . En d’autres mots, les valeurs propres représentent les variances des données projetées (puisque les données C sont centrées). 3.5 Inertie On appelle inertie du nuage la moyenne des carrées des distances des points du nuage à son centre de gravité g. Les données étant centrée, l’inertie I du nuage est alors : X X I= ||xi ||2 = λk . 1≤i≤n k L’inertie est un paramètre de dispersion du nuage, puisqu’elle mesure l’éloignement relatif des points par rapport à son centre de gravité. C’est une variance non normée (on ne divise pas par le nombre de points). L’inertie par rapport à un point différent du centre de gravité est donc toujours supérieure à l’inertie du nuage. De plus, on a que l’inertie totale du nuage est égale à la somme des inerties des axes principaux (cf. 21 ||p(xi )||2 = λk ), ie l’inertie associée à l’axe principal j est égale à λj . De plus, comme la somme des valeurs propres d’une matrice est égale à sa trace, on a également que I = trace(V ). Nos données étant réduites, les éléments diagonaux de V sont tous égaux à 1 et donc trace(V ) = p. P i Chaque axe principal explique donc une part d’inertie étant égale à son inertie divisée par l’inertie totale : λi i j p . La part d’inertie expliquée par le plan formé par les facteurs u et u est égale à l’inertie des projetés sur ce plan divisé par l’inertie totale. Les ui formant une base orthogonale de Rp , cette inertie expliquée vaut : λi +λj p . 3.6 Description du nuage des individus On rappelle que les facteurs principaux u1 , u2 , . . ., up sont les vecteurs propres de la matrice V associés aux valeurs propres λ1 ≥ λ2 ≥ · · · ≥ λp . Comme les ui forment une base orthonormée de Rp , ils tiennent lieu de nouveaux axes. Pour cette nouvelle base, les coordonnées des individus sont alors égales aux projections d’iceux sur les axes principaux. La projection des points sur l’axe principal j étant égal au vecteur colonne Xuj (la projection du ième points sur l’axe principal j est égal à la ième coordonnée de Xuj ). On appelle alors composantes principales les vecteurs colonnes cj = Xuj pour tout 1 ≤ j ≤ p (cf. figure 3.1). La qualité de la représentation de X sur ces axes pourra alors être étudié du point de vue local ou global. Le point de vue global : on évalue la qualité de l’approximation du nuage par un plan ou un axe. Cette qualité sera d’autant meilleure que l’inertie de ce sous-espace est forte (ce qui signifie que les points seront globalement proche de leurs projetés). L’inertie totale du nuage valant trace(V ) = p, on introduit les parts d’inertie expliquée : λ ? par l’axe uj qui vaut pj , λ +λ ? par le plan formé par les facteurs ui et uj et qui vaut i p j ,. En ne retenant qu’un nombre q < p de vecteurs propres (ie on met à 0 les vecteurs propres et donc les valeurs propres comprises entre q + 1 et p), on projette sur un sous-espace, et on réalise ainsi de la réduction de dimensions. Les dimensions retenues sont celles qui maximisent la dispersion des données (puisque ce sont celles qui ont le plus grandes valeurs propres) : x1i c1i x̂1i . . . . . . . . . q (3.1) . . . ⇒ ci ⇒ . . . . . . 0 . . . xpi ... x̂pi On montre que l’erreur de reconstruction entre xi et x̂i s’écrit p X ||xji − x̂ji ||2 = j=1 p X λj . j=q+1 Pour expliquer la part relative de l’erreur on divise le résultat précédent par p (ie l’inertie totale). Le point de vue local : plus le point xi est proche du sous-espace H (le plus souvent un axe ou un plan) sur lequel on le projette, plus pertinente est sa représentation. On a donc coutume de mesurer cette ||projection de xi sur H||2 proximité par le cosinus de l’angle de xi et de H : cos2 θ = (cette formule peut ||xi ||2 22 être aisément expliquée par la figure 3.2 et le fait que le cosinus d’un angle dans un triangle rectangle est égal au côté adjacent de l’angle divisé par l’hypoténuse). Le cosinus carré de l’angle entre xi et le facteur uj est donc égal à cos2 θ = et le cosinus carré de l’angle 2 |cji |2 +|ck i| ||xi ||2 . entre xi et le plan uj ⊕ uk est égal à cos2 θ = x g |cji |2 ||xi ||2 i q cj cj i Figure 3.2 – Angle de projection. Cercle de corrélation : On peut décrire les composantes principales (les nouvelles variables) par les corrélations qu’elles entretiennent avec les anciennes variables. La corrélation entre une composante principale cj et une variable initiale xk est égale à r(xk , cj ) = Après quelques calculs, on obtient r(cj , xk ) = cov(xk , cj ) . s(cj )s(xk ) p λj (uj )k où (uj )k est la kème composante du vecteur uj . 0 0 Comme on a toujours r2 (xj , ck ) + r2 (xj , ck ) ≤ 1. Pour s’en convaincre, remarquez que ck et ck sont orthogonaux, et donc une corrélation linéaire de 1 avec un axe entraîne une corrélation linéaire de 0 avec l’autre. De façon plus formelle, le résultat vient du fait que r(xj , ck ) est le cosinus entre les axes définis par 0 xj et xk ) en projetant les xj sur le plan principal (c1 , c2 ) (ou plus généralement sur le plan (ck , ck )), on obtient des points à l’intérieur d’un cercle de rayon 1 (cf. figure 3.3). c2 xj j r(x ,c2 ) j r(x ,c1) c1 Figure 3.3 – Cercle des corrélations Ce cercle permet de voir d’un seul coup d’oeil les corrélations linéaires de toutes les variables initiales avec deux composantes principales particulières. 23 Chapitre 4 Décision bayésienne 4.1 Introduction et motivations Considérons deux phénomènes « mesurés » par deux réels x et y. Lorsqu’on cherche à étudier des liens entre les deux phénomènes il existe, en dehors de la théorie des probabilités, deux possibilités : soit un lien déterministe y = f (x), soit aucun lien. Le calcul des probabilités permet d’introduire une infinité de « liens intermédiaires » : les deux phénomènes peuvent être plus au moins liés. Lorsqu’on « observe » x, on dispose sur y d’une certaine information, sans pour autant pouvoir le calculer explicitement. Cette information est modélisée par une « mesure de probabilité » notée P Y |x : pour tout A ⊂ R, P Y |x [A] est un nombre dans [0, 1] donnant la « probabilité » pour que y soit dans A. y est ainsi considéré comme réalisation d’une variable aléatoire Y et P Y |x est la loi de Y conditionnelle à x. Si on veut faire des raisonnements généraux, valables pour tout x, on est amené à le considérer également comme une réalisation d’une variable aléatoire X dont le comportement est décrit par la loi de probabilité PX . On arrive ainsi à la loi de probabilité du couple (X, Y ), donnée par PX et la famille P Y |x , x ∈ R, modélisant les « liens stochastiques » entre les deux phénomènes. D’une façon générale X contient l’information que l’on recherche mais n’est pas directement observable (on dit généralement qu’elle est « cachée »). On observe, ou mesure, Y = y et on cherche à retrouver, ou à « estimer », la réalisation cachée x. Considérons, à titre d’exemple, le problème suivant : on cherche à savoir, à partir d’une image satellite, si un certain pixel de l’image représente de la forêt ou de l’eau. X prend ainsi ses valeurs dans un ensemble de deux éléments Ω = {ω1 = "eau", ω2 = "forêt"} et l’observation Y = y est donnée par un nombre représentant un niveau de gris. La loi de X, appelée « a priori », est donc une probabilité sur Ω et modélise, de façon générale, la connaissance que l’on a sur le phénomène modélisé par X « a priori », i.e. sans aucune mesure. Si on sait, dans notre exemple, que l’image a été prise dans une région où il y a trois fois plus d’eau que de forêt, on posera PX (ω1 ) = 0.75 et PX (ω2 ) = 0.25. Les deux lois conditionnelles P Y |ω1 et P Y |ω2 modélisent plusieurs phénomènes différents. Les classes « eau » et « forêt » ne produisent pas une mesure unique (présence de vagues, « variabilité naturelle » de la forêt. . . ), d’où une variation stochastique de la mesure Y = y. À cette variation peuvent s’ajouter divers « bruits », dus à la transmission, l’acquisition. . . L’étape suivante, après la définition de la loi du couple PX,Y modélisant les interactions stochastiques entre les « mesures » décrivant les phénomènes, est la définition d’une règle de calcul de la réalisation cachée X = x à partir de la réalisation observée Y = y. Une fois retenue, la règle, ou « stratégie », y = s(x) est déterministe. Mais, contrairement au cas de lien déterministe entre y et x, on dispose généralement de plusieurs choix possibles. Le choix est opéré à partir d’un « critère de qualité », ce dernier étant fonction des résultats que l’on attend de s. Si on reprend l’exemple ci-dessus on peut considérer comme critère de 24 qualité la « probabilité de se tromper » qui peut, pour s donnée, être calculée à partir de PX,Y . La stratégie s qui optimise ce critère est la stratégie bayésienne avec la fonction de perte « 0 − 1 ». Si pour une raison quelconque on considère que les deux types d’erreurs « décider qu’il y a de l’eau alors qu’il y a de la forêt » et « décider qu’il y a de la forêt alors qu’il y a de l’eau » ne sont pas de gravité égale, on modifie la fonction de perte et on arrive à une stratégie s différente de la précédente. Dans la pratique le calcul explicite optimisant un critère donné est parfois impossible, on est alors amené à rechercher une stratégie s « sous-optimale ». Finalement, lorsque PX,Y est donnée, on choisit un critère correspondant à la nature du problème que l’on veut résoudre et on cherche s optimisant ce critère. En fait, PX,Y est rarement connue avec précision dans la pratique et on doit, dans une phase préalable d’« estimation », rechercher des paramètres dont la connaissance est suffisante pour la détermination de s. Lorsqu’on n’a aucune connaissance sur PX,Y , on est amené à faire de l’estimation « non paramétrique ». Mais le cas le plus fréquent est celui où on a une idée sur la forme générale de PX,Y et on considère qu’elle fait partie d’une famille PX,Y,θ , θ ∈ Θ. On cherche alors à estimer θ. En reprenant notre exemple, supposons que les lois de Y conditionnelles à ω1 et ω2 sont gaussiennes, notons f1 et f2 les densités correspondantes. Nous sommes dans le cas « paramétrique », θ a six composantes : ? les lois « a priori » : π(k) = PX=ωk , k ∈ Ω ; ? les moyennes et écarts-type définissant f1 et f2 : θ k = {µk , σk }, k ∈ Ω. Dans les cas « paramétrique » et « non paramétrique », on distingue deux sous-cas : 1. estimation avec « échantillon d’apprentissage » (supervisée) et 2. estimation « sans échantillon d’apprentissage » (non supervisée). Le premier est celui où on dispose d’un échantillon x01 , x02 , . . . , x0M de réalisations de X. Les réalisations de Y étant toujours observables, on estime alors les paramètres nécessaires à la détermination de s à partir 0 ). Dans notre exemple simple le cas « avec échantillon d’apprentissage » est celui de (x01 , y10 ), . . . , (x0N , yN où on dispose dans l’image de M endroits où la nature du terrain ("eau" ou "forêt") est connue. Notons x = {x1 , . . . , xM } l’échantillon « observé », x1 = {x1 , . . . , xP } et x2 = {x1 , . . . , xQ } les sous-échantillons P "eau" et "forêt" (P + Q = M ). Les lois a priori π(1) et π(2) peuvent être estimées par les fréquences M et Q M , et les paramètres θ k , k ∈ Ω des gaussiennes par les moyennes et écarts-type empiriques calculés à partir des deux sous-échantillons x1 et x2 . Le deuxième est celui où les paramètres nécessaires à la détermination de s doivent être estimés à partir de l’échantillon y de Y , dont la loi est un mélange de lois gaussiennes : on arrive au problème statistique général de reconnaissance de mélange. Le cas le plus général, mais aussi le plus difficile à traiter, est celui de l’estimation non paramétrique sans échantillon d’apprentissage. Finalement la démarche générale, que l’on retrouve dans le traitement de nombreux problèmes (en traitement de signal, économie, médecine, . . . ) est la suivante : ? on définit la forme générale de PX,Y ; ? on définit un critère de qualité de l’« estimation » de X = x (caché) à partir de Y = y (observé). ? on recherche une « stratégie » s optimisant le critère choisi. ? on estime les paramètres nécessaires à la mise en œuvre de s. La démarche générale présentée ci-dessus conduit à plusieurs modélisations stochastiques qui différent selon les hypothèses de dépendance que l’on considère pour modéliser les liens stochastiques entre les données observées et les données cachées. Le cours commence par introduire le principe de la stratégie bayésienne de la décision (chapitre 1). Puis, nous continuons en posant le problème de l’estimation d’un mélange fini dans le cas aveugle, c’est-à-dire celui où les échantillons sont supposés indépendants les uns des autres (variables i.i.d.). Nous détaillons l’algorithme itératif EM (Expectation-Maximization) et les formules de ré-estimation dans le cas gaussien (chapitre 2). 25 4.2 Position du problème Selon le schéma général, on observe une réalisation d’une variable aléatoire Y (une valeur y de R) et on souhaite « estimer » la valeur cachée k du paramètre. L’ensemble des paramètres Ω sera supposé fini, Ω = {1, . . . , K}, ses éléments appelés « classes » et tout estimateur « stratégie de classification » 1 . Supposons maintenant que nous nous trouvons devant un problème de classification des données et que nous connaissons la fréquence d’apparition des classes. Par exemple, on classe les individus en classe « homme » et « femme », uniquement à partir de leur poids. On sait a priori (ce qui signifie ici « avant l’observation ») que la population que nous devons classer contient deux tiers d’hommes et un tiers de femmes. Une telle connaissance a priori peut être modélisée par une probabilité (dite a priori) sur Ω. Cette probabilité peut alors être considérée comme la loi d’une variable aléatoire X et les p (. |X = k ) apparaissent comme les lois de Y conditionnelles à X. Finalement, la loi a priori p (X = k) = p (k) = π(k) sur Ω et les lois conditionnelles p (Y = y |X = k ) = fk (y) sur R définissent une probabilité p (Y = y, X = k) = π(k) fk (y) sur R×Ω 2 , dite loi du couple ou loi conjointe. La loi p (Y = y) est appelée densité mélange ou, plus simplement, mélange p (Y = y) = K X p (Y = y, X = k) = K X π(k) fk (y). (4.1) k=1 k=1 La probabilité conditionnelle p (X = k |Y = y ) sur Ω, dite loi a posteriori s’écrit p (X = k |Y = y ) = p (Y = y, X = k) π(k) fk (y) . = K p (Y = y) X π(i) fi (y) (4.2) i=1 Intuitivement, la différence entre la probabilité a priori p (X = k) et la probabilité a posteriori p (X = k |Y = y ) sur Ω illustre l’apport de l’information (sur l’identité de la classe non observable) contenue dans l’observation (a priori signifie « avant » l’observation, et a posteriori signifie « après » l’observation). On retrouve le fait que si les variables sont indépendantes, l’observation de l’une d’entre elles n’apporte aucune connaissance sur le comportement de l’autre et donc ces deux probabilités sont égales. 4.3 Stratégie bayésienne Considérons une probabilité sur Ω × R qui est une loi d’un couple de variables aléatoires (X, Y ). Ainsi (x, y) ∈ Ω × R étant une réalisation de (X, Y ), le problème de la classification devient celui de l’estimation de la réalisation inobservable de la variable X à partir de la variable observable Y . Considérons une stratégie de classification ŝ : R −→ Ω. Pour chaque réalisation (x, y) = (X, Y ), ŝ peut donner la bonne réponse, i.e. ŝ(y) = x , ou se tromper, i.e. ŝ(y) 6= x. Supposons que les différentes erreurs ne sont pas de gravité équivalente. On le modélise en définissant une application L : Ω × Ω −→ R+ dite fonction de perte : ( 0 si i = j, L(i, j) = (4.3) λi,j sinon. Le nombre réel λi,j modélise la gravité de l’erreur « on a choisi la classe i alors que la vraie classe est j ». Insistons sur le fait que la « perte » modélisée par L ne fait pas partie de la modélisation probabiliste 1. Par abus de notation, et lorsque cela ne peut engendrer de confusion, nous écrirons p (x) à la place de p (X = x), x ∈ Ω et p (y) à la place de p (Y ∈ dy), y ∈ R. 2. par rapport à la mesure δ ⊗ ν, où δ est la mesure de comptage et ν la mesure de Lebesgue sur R. 26 considérée. Par ailleurs, à une erreur donnée, deux utilisateurs peuvent avoir des intérêts différents, et donc les pertes qu’ils associent à une même erreur peuvent être différentes. À stratégie ŝ et fonction de perte L données, comment mesurer la qualité de ŝ ? Supposons que l’on a N observations indépendantes y = {y1 , . . . , yN }, chacune correspondant à une classe inconnue, à classer. En notant x = {x1 , . . . , xN } les classes correspondantes, la perte globale est L (ŝ(y1 ), x1 ) + . . . + L (ŝ(yN ), xN ) . On cherche à minimiser cette perte globale, ce qui revient à minimiser son quotient par N . Par la loi des grands nombres, ce dernier tend vers : L (ŝ(y1 ), x1 ) + . . . + L (ŝ(yN ), xN ) −→ E [L (ŝ(Y ), X)] . N →+∞ N On constate qu’à « long terme », la qualité d’une stratégie ŝ est mesurée par E [L (ŝ(Y ), X)], qui est appelée « perte moyenne ». La stratégie bayésienne ŝB est celle parmi toutes les stratégies pour laquelle la perte moyenne est minimale : E [L (ŝB (Y ), X)] = min E [L (ŝ(Y ), X)]. (4.4) ŝ La qualité de ŝB est ainsi appréhendée via la loi des grands nombres et on ne peut rien dire pour une seule observation (ou même un petit nombre). Montrons que la stratégie bayésienne associée à la fonction de perte définie par l’équation (4.3) est " # K K X X [ŝB (y) = k] ⇐⇒ ∀j ∈ Ω, λk,i p (X = i |y ) ≤ λj,i p (X = i |y ) , i=1 i=1 soit encore ŝB (y) = arg min j∈Ω K X λj,i p (X = i |y ). (4.5) i=1 Démonstration : En appliquant la formule de Fubini 3 à E [L (ŝ(Y ), X)], on peut écrire : E [L (ŝ(Y ), X)] = E E [ L (ŝ(Y ), X)| Y ] . | {z } φ(y) 4 Nous obtenons : φ(y) = K X L (ŝ(y), i) p (X = i |y ). i=1 PK L’élément ŝ(y) = k, qui minimise φ(y), minimise la quantité i=1 λj,i p (X = i |y ), ce qui donne (4.5). Notons R en effet que ŝB ainsi déterminée minimise bien E [L (ŝ(Y ), X)] car on a E [φ(Y )] = R φ(y) p (Y = y) dy, et donc la minimisation de φ en tout point minimise bien l’intégrale (car p(Y = y) > 0). Remarque 1 : Pour calculer la perte moyenne ξ (qui est minimale pour la stratégie bayésienne) associée à la stratégie ŝ et à la fonction de perte L, on utilise toujours le résultat de la note 3 (en conditionnant par X) et celui de la note 4 : Z ξ = E [L (ŝ(Y ), X)] = φ(y) p (Y = y) dy = R K Z X i=1 π(i)fi (y) L (ŝ(y), i) dy. R Nous disposons ainsi de la stratégie qui assure, à long terme, d’avoir une perte minimale et, de plus, il est possible de calculer sa valeur (cf. exemple ci-après). 3. Pour deux variables aléatoires réelles U , V et une fonction quelconque Ψ, la formule de Fubini est E [Ψ(U, V )] = E [E [ Ψ(U, V )| U ]] = E [E [ Ψ(U, V )| V ]]. Z h(u) p (u |v ) du. 4. En utilisant la version discrète du résultat classique suivant : E [ h(U )| V = v] = R 27 Remarque 2 : Ainsi la stratégie bayésienne dépend des λi,j que l’on choisit de façon subjective. Si on souhaite détecter une classe donnée avec une précision , on peut calculer les coefficients λi,j de façon à ce que la stratégie bayésienne correspondante vérifie cette condition. Ce type de possibilités montre la puissance de la modélisation en question. Exemple : Soit Ω = {1, . . . , K} et la fonction de perte L0−1 définie par : L0−1 (i, j) = ( 0 1 si i = j sinon (4.6) L0−1 (ŝ(y), k) désigne alors la valeur, au point (k, y), de la fonction indicatrice du sous-ensemble de Ω × R sur lequel ŝ se trompe et donc E [L0−1 (ŝ(Y ), X)] représente la probabilité pour que ŝ se trompe. Ainsi dans ce cas la stratégie bayésienne ŝB définie par ŝB (y) = i si ∀j ∈ Ω\ {i} , p (X = i |y ) ≥ p (X = j |y ) , (4.7) qui est un cas particulier de (4.5), est celle pour laquelle la probabilité de se tromper est minimale 5 . Sachant qu’en vertu de la loi des grands nombres la probabilité d’un événement peut être vue comme la fréquence de son apparition lorsque le phénomène se reproduit un grand nombre de fois de façon indépendante, la stratégie définie ci-dessus est celle qui produira, lorsqu’on l’utilisera dans un grand nombre de cas indépendants, la plus petite proportion d’erreurs. Ainsi ŝB (y) consiste, dans ce cas, à associer à chaque y ∈ R l’élément de Ω dont la probabilité a posteriori, i.e. conditionnelle à Y = y, est maximale. Cette règle de décision est aussi appelée celle du « maximum de vraisemblance a posteriori ». Notons que les probabilités a posteriori de (4.7) peuvent être remplacées par les « fonctions discriminantes » π(i)fi (y), et la stratégie ŝB (y) s’écrire ŝB (y) = i si ∀j ∈ Ω\ {i} , π(i)fi (y) ≥ π(j)fj (y) (4.8) Cette dernière écriture est intéressante pour son interprétation graphique (cf. question 1 de la section 4.4). La perte minimale définie dans la remarque précédente s’écrit dans le cas de la fonction de perte L0−1 Z ξ= min π(i)fi (y) dy. R i∈Ω (4.9) Ce résultat sera interprété dans la question 2 de la section 4.4. Remarque 3 : Les notions présentées dans le cadre très simple où (X, Y ) est à valeurs dans Ω × R, avec Ω fini, sont très générales et restent valables dans le cas où X et Y sont des processus stochastiques complexes. De façon générale, il s’agit alors d’estimer tout - ou une partie - des variables composant X à partir de toutes -où une partie - des variables composant Y . Le même problème peut alors, pour des raisons généralement historiques, prendre diverses appellations comme « filtrage », « prédiction », « classification », « estimation », . . . Remarque 4 : Pour faciliter la lecture, nous avons pour l’instant considéré le cas scalaire, c’est-à-dire y ∈ R (D = 1). Les résultats énoncés s’étendent sans difficulté au cas vectoriel où les observations sont vectorielles, c’est-à-dire y ∈ RD (D > 1). 5. On le démontre en exprimant l’eq. (4.5) dans ce cas particulier. Dans le cas de deux classe (K = 2), nous sélectionnons la classe 1 si λ1,1 p (X = 1 |y ) + λ1,2 p (X = 2 |y ) = p (X = 2 |y ) est plus petit que λ2,1 p (X = 1 |y ) + λ2,2 p (X = 2 |y ) = p (X = 1 |y ), d’où le résultat. 28 Figure 4.1 – Dessin de deux densités gaussiennes de paramètres θ1 = {100, 6} et θ2 = {110, 3}. 4.4 Exemple : cas gaussien L’expression d’un d.d.p. gaussienne θk = {µk , σk } est donnée par : " 2 # 1 1 y − µk √ fk (y) = exp − . 2 σk σk 2π (4.10) À titre d’exemple, la figure 4.1 montre deux gaussiennes qui serviront pour les exercices suivants. Questions 1. Considérons le cas de deux gaussiennes de paramètres θ1 = {0, σ} et θ2 = {a, σ/2} (a réel) et de proportions π(1) = 1/3 et π(2) = 2/3. Calculer de manière analytique les seuils de décision bayésienne, c’est-à-dire les Υ valeurs {τ1 , . . . , τΥ } qui séparent les deux classes sur R. Calculer les valeurs numériques pour les lois dont les valeurs des paramètres sont données dans la figure 4.1. Réponse. 1 1 √ exp − 2 3 σ 2π 1 exp 2 2 y σ " = 1 4 √ exp − 2 3 σ 2π = 4 3y 2 − 8ay + 4a2 = 4σ 2 ln 2 3y 2 − 8ay + 4a2 − 4σ 2 ln 2 = 0. " 2(y − a) σ 2 − 2 y σ y−a 2 # σ 2 # Le discriminant ∆ = 64a2 − 12 (4a2 − 4σ 2 ln 2) = 16 a2 + 3σ 2 ln 2 est toujours positif et les racines réelles (c’est à dire les seuils de décision) sont données par τ1 = √ 8a+ ∆ 6 et τ2 = √ 8a− ∆ . 6 En utilisant les valeurs numériques de la figure 4.1, nous obtenons τ1 = 104.5 et τ2 = 122.1, ce que l’on peut vérifier sur le graphe (b) de la figure 4.2. Ainsi, les valeurs de y comprises dans ]τ1 ; τ2 [ sont associées à la classe 2, alors que les valeurs en dehors de cet intervalle sont associées à la classe 1. Nous avons autant de chance de commettre une erreur ou de ne pas en commettre en décidant, au niveau des seuils (y = τ1 et y = τ2 ), de classer la donnée dans l’une ou l’autre classe. La graphe (a) de la figure 4.2 représente le mélange des deux classes, cf. eq. (4.1). La courbe cyan du graphe (b) représente, en chaque valeur y, la plus forte valeur π(k)fk (y) pour k ∈ Ω, alors que la courbe magenta représente le minimum. Questions 2. Dans le cas de la fonction de perte L0−1 définie par l’éq. (4.6), calculer de manière analytique 29 (a) (b) Figure 4.2 – (a) Mélange des deux lois gaussiennes de la figure 4.1 dans des proportions données par π(1) = 1/3 et π(2) = 2/3. (b) En couleur cyan (resp. magenta) apparaît la courbe de « π(k) fk (.) » maximum (resp. minimum). la perte moyenne ξ, cf. eq. (4.9), en utilisant les paramètres de la question 1. Calculer les valeurs numériques pour les valeurs des paramètres données dans la figure 4.1. Réponse. La courbe magenta modélise la probabilité de se tromper et la courbe la cyan la probabilité de ne pas commettre d’erreur. La perte moyenne est donc représentée par la surface sous la courbe magenta, et est calculée en intégrant cette fonction. Calcul : Z τ1 Z τ2 Z −∞ π(2)f2 (y) dy . τ1 {z | } A +∞ π(1)f1 (y) dy + π(2)f2 (y) dy + ξ= τ2 | {z } B | {z C Nous obtenons pour le terme A : A Z τ1 y−a 2 dy σ −∞ " √ 2 # Z τ1 2 (y − a) 2 2 √ √ exp − dy. σ 3σ 2 π −∞ 4 √ 3 σ 2π = = exp − 1 2 2 √ En posant z = √ 2 2 (y − a) (ainsi dz = dy), nous avons σ σ 2 En notant erf(x) = √ π Z Z 1 2 √ 3 π A= τ1 −a 2σ exp −z 2 dz. −∞ x exp −z 2 dz avec limx→∞ erf (x) = 1, nous avons 0 A= 1 3 √ 1 + erf 2 (τ1 − a) σ . Par un calcul similaire, nous obtenons pour B et C : B = C = τ2 τ1 √ √ erf − erf σ 2 σ 2 √ 1 2 1 − erf (τ2 − a) . 3 σ 1 6 30 , } (a) (b) (c) (d) Figure 4.3 – Décision bayésienne sur une image bruitée avec paramètres connus. (a) image originale (π(2) ' 0.33 et π(1) ' 0.67). (b) image bruitée avec les paramètres donnés dans le texte et (c) son histogramme normalisé, à rapprocher du mélange des deux lois gaussiennes de la figure 4.2(a). (d) image classée obtenue par décision bayésienne. En utilisant les valeurs numériques, nous obtenons A = 0.023, B = 0.075 et C = 1.71 10−5 , ce qui donne finalement une perte moyenne de ξ = 0.098. Pour illustrer ce résultat, nous avons conduit l’expérience suivante, cf. figure 4.3. Nous avons ajouté un bruit gaussien à chacune des classes de l’image de cible (a) dont la classe noire représente environ 2/3 des pixels de l’image, et la classe blanche 1/3. Nous avons procédé de la manière suivante. Nous avons bruité chacun des pixels noirs avec la loi gaussienne f2 de paramètres {110, 3}. Les pixels de la classe blanche ont quand à eux été bruités avec la loi f1 de paramètres {100, 6}. L’image bruitée et son histogramme sont présentés dans les figures (b) et (c). Nous avons alors appliqué la décision bayésienne avec l’ensemble des paramètres de la simulation, et obtenu l’image classée (d). L’erreur de classification obtenue en comptant le nombre de pixels différents entre (a) et (d) s’élève à 9.76%. Ce résultat est une bonne approximation du calcul théorique (rappel : ξ = 0.098), ce qui est conforme au principe de la loi des grands nombres car l’image a pour dimensions 128 × 128 = 16384 pixels. Il est remarquable de constater que le pourcentage d’erreur dans la classe noire est de α1 = 3.41% (ce qui correspond bien à une erreur de 2.30% par rapport au total des pixels, à rapprocher de A + C), alors que celui dans la classe blanche est de α2 = 22.77% (ce qui correspond bien à une erreur de 7.46% par rapport au total des pixels, à rapprocher de B). Ainsi les erreurs commises entres les deux classes ne sont pas les mêmes : une classe est bien plus erronée que la seconde. 31