Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Chapitre II Approches basées sur un modèle M2 MAS - Université de Bordeaux 2016-2017 Chapitre 2 Apprentissage supervisé 1/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Introduction Deux approches possibles pour constuire une règle de classification g. Approche basée sur un modèle. Apprentissage de Loi(Y |X ) puis déduction de g Exemples : analyse discriminante linéaire, bayésien naïf, régression logistique, etc. Approche de type prototype. Apprentissage direct de la règle classification g Exemples : k-plus proches voisins, arbres de classification, forêts aléatoires, etc. Règle de classification de Bayes : g(x ) = arg min `∈{1,...,K } = K X Ck` P(Y = k|X = x ) k=1 arg max P(Y = `|X = x ) (coût 0-1) `∈{1,...,K } Chapitre 2 Apprentissage supervisé 2/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Dans les approches basées sur un modèle, on distingue : l’approche directe comme en régression logistique : P[Y = 1|X = x ] = exp(X T β) 1 + exp(X T β) Estimation du paramètre β à partir des données d’apprentissage. l’approche indirecte comme en analyse discriminante linéaire ou en bayésien naïf. Cette approche utilise la formule de Bayes : f (x |Y = k)P(Y = k) P(Y = k|X = x ) = PK f (x |Y = j)P(Y = j) j=1 L’approche indirect nécessite donc l’estimation de fk (x ) = f (x |Y = k) et de πk = P(Y = k). - fk (x ) prend une forme paramétrique (e.g. gaussienne, etc.) de paramètre θk : - Estimation des paramètres {θ1 , . . . , θK , π1 , . . . , πK } à partir des données d’apprentissage Chapitre 2 Apprentissage supervisé 3/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Plan 1 Analyse discriminante linéaire et quadratique 2 Bayésien naïf 3 Régression logistique Chapitre 2 Apprentissage supervisé 4/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Analyse discriminante linéaire et quadratique X ∈ Rp et Y ∈ {1, . . . , K } Ensemble d’apprentissage (Xi , Yi ), i = 1, . . . , n Hypothèse paramétrique gaussienne X ∼ N (µk , Σk ) dans chaque groupe k i.e. fk (x ) = 1 1 exp(− (x − µk )T Σ−1 k (x − µk )) 2 (2π)p/2 |Σk |1/2 Paramètres inconnus θk = {µk , Σk } et πk Chapitre 2 Apprentissage supervisé 5/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Chapitre 2 Apprentissage supervisé 6/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Paramètres inconnus estimés par maximum de vraisemblance : θ = (π1 , . . . , πK , µ1 , . . . , µK , Σ1 , . . . , ΣK ). Log-vraissemblance de l’échantillon (X1 , Y1 ), . . . , (Xn , Yn ) `(θ) = log n Y f (xi , yi ) i=1 = n X log(πyi fyi (xi )) i=1 = K X nk log(πk ) + k=1 Estimateurs π bk = K X X log(fk (xi )) k=1 i:yi =k nk 1 X ,µ bk = xi n nk i:yi =k X bk = 1 Σ (xi − µ bk )(xi − µ bk )T nk i:yi =k Chapitre 2 Apprentissage supervisé 7/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Règle de classification g(x ) = arg max P(Y = `|X = x ) `∈{1,...,K } = arg max log (P(Y = `|X = x )) `∈{1,...,K } = arg max δ` (x ) `∈{1,...,K } où 1 b ` | − 1 (x − µ b −1 δ` (x ) = − log |Σ b` )T Σ b` ) + log(π b` ) ` (x − µ 2 2 δ` est appellée fonction discriminante quadratique. -2δ` est appellée dans SAS la distance de Mahalanobis généralisée entre x et µ b` . La frontière de décision entre deux classes k et ` est décrite par une équation quadratique en x {x : δk (x ) = δ` (x )} Chapitre 2 Apprentissage supervisé 8/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Chapitre 2 Apprentissage supervisé 9/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Chapitre 2 Apprentissage supervisé 10/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique On suppose maintenant que Σk = Σ pour tout k L’estimée du maximum de vraisemblance de Σ est la matrice de covariance intra-groupe définie par : b= Σ K 1X b n k Σk n k=1 La règle de classification devient g(x ) = arg max δ` (x ) `∈{1,...,K } où 1 T b −1 µ bk Σ µ bk + log(π bk ) 2 δ` est alors appellée fonction discriminante linéaire. b −1 µ δ` (x ) = x T Σ bk − La frontière de décision entre deux classes k et ` est décrite par une équation linéaire en x {x : δk (x ) = δ` (x )} Chapitre 2 Apprentissage supervisé 11/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Chapitre 2 Apprentissage supervisé 12/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Chapitre 2 Apprentissage supervisé 13/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Les fonctions discriminantes δk permettent : de calculer un un score d’appartenance d’une entrée x à la classe k, de calculer les probabilités à posteriori avec : exp δk (x ) P(Y = k|X = x ) = PK exp δ` (x ) `=1 Lorsque Σk = Σ et π bk = 1/K pour tout k : on fait de l’analyse discriminante linéaire avec probabilités à priori égales, les fonctions discriminantes calculent les distances de Mahalanobis b −1 ) entre x et les centres de gravité µ (métrique Σ bk , on affecte x à la classe la plus proche, on parle de règle géométrique de classement de Mahalanobis-Fisher. Chapitre 2 Apprentissage supervisé 14/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique En analyse discriminante linéaire et K = 2 classes : le score de Fisher est une fonction linéaire qui s’écrit : ∆(x ) = δ1 (x ) − δ2 (x ) b −1 (µ = xT Σ b1 − µ b2 ) − 1 π b b −1 (µ (µ b1 + µ b2 )0 Σ b1 − µ b2 ) + log( 1 ). 2 π b2 la probabilité à posteriori d’appartenir à la classe 1 s’écrit comme une fonction logistique du score de Fisher : P(Y = 1|X = x ) = exp(∆(x )) 1 + exp(∆(x )) La règle de classification de Fisher consiste à comparer le score de Fisher à 0 pour prédire la classe de x . Chapitre 2 Apprentissage supervisé 15/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Il existe un lien entre l’ADL et l’analyse factorielle discriminante. En AFD, on projette les données (centrées) sur le sous-espace vectoriel engendré par la base {v1 , . . . , vK −1 } des vecteurs propres de la matrice b −1 B où B est la matrice de covariance inter-groupe i.e. la matrice de Σ covariance des centres de gravités µ bk pondérés par π bk . On obtient ainsi K − 1 variables discriminantes non corrélées qui sont des combinaisons linéaires Xvk des variables d’entrées centrées. On effectue ainsi une réduction de dimension de p à K − 1 variables. Si K = 3 par exemple, les données peuvent alors être représentées en 2D pour tout p sans perte d’information pour la classification par ADL. Chapitre 2 Apprentissage supervisé 16/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Plan 1 Analyse discriminante linéaire et quadratique 2 Bayésien naïf 3 Régression logistique Chapitre 2 Apprentissage supervisé 17/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Bayésien naïf On se place dans le cadre où les variables d”entrées X = (X1 , . . . , Xp ) sont de type quelconque (quantitatif ou qualitatif) et Y ∈ {1, . . . , K }. Hypothèse : indépendance des variables Xj dans chaque groupe k fk (x ) = p Y fk,j (xj ) j=1 L’approche indirect donne : g(x ) = arg max πk fk (x ) k∈{1,...,K } = arg max πk k∈{1,...,K } p Y fk,j (xj ) j=1 Les paramètres πk et les p densités en dimension 1 fk,j (xj ) sont estimés sur les données d’apprentissage. Chapitre 2 Apprentissage supervisé 18/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Si la variable Xj est qualitative, on estime la probabilité fk,j (x ) = P(Xj = x |Y = k) par la fréquence empirique de la modalité x dans le groupe k. Si la variable Xj est quantitative existe différentes approches pour estimer la densité fk,j : - on peut supposer une forme paramétrique pour fk,j (x ). Par exemple 1 1 fk,j (x ) = p exp − 2 (x − µk,j )2 2 2σk,j 2πσk,j 2 où les estimateurs du maximum de vraissemblance de µk,j et σk,j sont la moyenne et la variance empirique de la variable j dans le groupe k. - fk,j (x ) peut aussi être estimé de façon non paramétrique à l’aide d’un histogramme ou d’un estimateur de densité à noyau. Chapitre 2 Apprentissage supervisé 19/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique L’hypothèse d’indépendance des variables d’entrée dans les groupes est généralement fausse. Pourtant cette approche est très courante : - car elle est simple, rapide et fonctionne pour une variable de sortie non binaire, et des variables d’entrées de type quelconque. - elle permet de traiter des données de grande dimension. Exercice : Un fournisseur d’élécticité veut prédire la demande de puissance éléctrique de ses clients à partir de trois variables binaires : Chauffage électrique ou non, Maison/Appartement, Sèche linge ou non. La variable de sortie a K = 4 modalités correspondant à 3, 6, 9 et 12 kWh. Comment construiriez-vous un classifieur Bayésien naïf ? Chapitre 2 Apprentissage supervisé 20/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Plan 1 Analyse discriminante linéaire et quadratique 2 Bayésien naïf 3 Régression logistique Chapitre 2 Apprentissage supervisé 21/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Régression logistique On se place dans le cadre où les variables d’entrées peuvent être de type quelconque (quantitatif ou qualitatif) et Y ∈ {0, 1}. Après recodage des données qualitatives avec les indicatrices des modalités, les variables d’entrée sont toutes quantitatives ou binaires et on aura X = (X1 , . . . , Xp ) ∈ Rp . En régression logistique, on s’intéresse à la loi de Y |X qui est une loi de Bernoulli de paramètre p avec : P(Y = 1|X = x ) = p P(Y = 0|X = x ) = 1 − p Chapitre 2 Apprentissage supervisé 22/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Régression logistique On fait l’hypothèse que la probabilité p = P(Y = 1|X = x ) est une fonction logistique d’un score linéaire β0 + β1 x1 + . . . + β1 xp ∈ R et la fonction logistique f : R → [0, 1] est définie par : f (u) = Chapitre 2 exp(u) . 1 + exp(u) Apprentissage supervisé 23/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Régression logistique On modélise donc la probabilité à posteriori "de succès" par : P(Y = 1|X = x ) = exp(β0 + Pp βx) j=1 j j P p 1 + exp(β0 + j=1 βj xj ) Le score linéaire est alors : β0 + p X βj xj = f −1 (p) = log j=1 p . 1−p La fonction f −1 est appelée fonction logit avec : logit(p) = log Chapitre 2 p . 1−p Apprentissage supervisé 24/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Régression logistique Paramètres inconnus estimés par maximum de vraisemblance : β = (β0 , . . . , βp ). Log-vraissemblance de l’échantillon (X1 , Y1 ), . . . , (Xn , Yn ) `(β) = log n Y P(Yi = yi |Xi = xi , ) i=1 n = log Y piyi (1 − pi )1−yi i=1 avec pi = P(Yi = 1|Xi = xi ) = Chapitre 2 exp(β0 + Pp βx ) j=1 j i,j P . p 1 + exp(β0 + Apprentissage supervisé j=1 βj xi,j ) 25/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Régression logistique L’estimateur β̂ = (β̂0 , . . . , β̂p ) du maximum de vraissemblance n’a pas de forme explicite. Les logiciels utilisent donc des algorithmes d’optimisation pour estimer les paramètres β0 , . . . , βp sur les données d’apprentissage. L’algorithme souvent utilisé est celui de Newton-Raphson qui est une méthode itérative de type gradient basée sur la relation suivante : β (t) =β (t−1) − ∂ 2 `(β) ∂β∂β T β (t−1) !−1 ∂`(β) ∂β β (t−1) La règle de classification g affecte alors une nouvelle observation x à la classe 1 si Pp exp(β̂0 + j=1 β̂j xj ) pi = Pp 1 + exp(βˆ0 + β̂j xj ) j=1 est supérieur à 0.5. Elle est affectée à la classe 0 sinon. Chapitre 2 Apprentissage supervisé 26/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Régression logistique La régression logistique peut s’étendre au cas de classes multiples. On parle alors de régression logistique multinomiale. On a maintenant Y ∈ {1, . . . , K } et on note X = (1, X1 , . . . , Xp ). Le modèle prend la forme P(Y = 1|X = x ) = x T β1 P(Y = K |X = x ) P(Y = 2|X = x ) = x T β2 log P(Y = K |X = x ) .. . log log P(Y = K − 1|X = x ) = x T βK −1 P(Y = K |X = x ) avec β1 , . . . , βK −1 des vecteurs de Rp+1 . Les K − 1 vecteurs βk sont estimés par maximum de vraisemblance sur les données d’apprentissage. Chapitre 2 Apprentissage supervisé 27/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Régression logistique Les probabilités à posteriori sont alors : P(Y = K |X = x ) = P(Y = 1|X = x ) = 1 1+ PK −1 `=1 exp(x T β` ) exp(x T β1 ) 1+ PK −1 `=1 exp(x T β` ) .. . P(Y = K − 1|X = x ) = exp(x T βK −1 ) 1+ PK −1 `=1 exp(x T β` ) La règle de classification g affecte alors une nouvelle observation x à la classe la plus probable à posteriori. Chapitre 2 Apprentissage supervisé 28/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Régression logistique Exemple : p = 2, K = 3 classes Chapitre 2 Apprentissage supervisé 29/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Régression logistique Comparaison avec l’analyse discriminante linéaire La régression logistique et l’ADL induisent des règles de classification linéaires en x . En effet : - en analyse discriminante linéaire (ADL) : log avec α0 = log π1 π0 P(Y = 1|X = x ) = α0 + x T α P(Y = 0|X = x ) − 21 (µ0 + µ1 )T Σ−1 (µ1 − µ0 ) et α = Σ−1 (µ1 − µ0 ) - en régression logistique : log P(Y = 1|X = x ) = β0 + β1 x1 + . . . + βp xp Pr(Y = 0|X = x ) avec les paramètres βk estimé en utilisant directement la loi conditionnelle. Chapitre 2 Apprentissage supervisé 30/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Régression logistique Comparaison avec l’analyse discriminante linéaire Les deux modélisations induisent des écritures différentes de la vraissemblance et donc des estimations différentes des paramètres : - en ADL, on maximise la loi jointe n Y f (xi , yi ) = i=1 n Y fk (xi ) i=1 n Y P(Y = yi ) i=1 | {z }| gaussien {z } Bernoulli - en régression logistique on maximise directement la loi conditionnelle n Y i=1 f (xi , yi ) = n Y n Y P(Y = yi |X = xi ) | Chapitre 2 pX (xi ) i=1 i=1 {z logistique }| {z inconnu Apprentissage supervisé } 31/32 Analyse discriminante linéaire et quadratique Bayésien naïf Régression logistique Régression logistique Exemple : p = 2, K = 3 classes. Régression logistique (à gauche) versus LDA (à droite). Chapitre 2 Apprentissage supervisé 32/32