Classification binaire Un exemple: l’algorithme du Perceptron pour la classification Classification Séparateurs affines Le Perceptron mono-couche I (X , Y ) couple de v.a. de distribution P inconnue I Y ∈ {−1, +1} est une étiquette binaire I X ∈ Rd modélise une observation permettant de prédire Y Objectif Construire g : Rd → R de façon à minimiser l’erreur de classification L(g ) = P{Y 6= g (X )} Exemples I Diagnostic médical I Ciblage marketing I Risque de crédit Stéphan Clémençon c Télécom ParisTech Fondamentaux pour le Big Data 1/7 Règle optimale I Probabilité a posteriori ∀x ∈ Rd , Un exemple: l’algorithme du Perceptron pour la classification I η(x) = P{Y = +1 | X = x} Règle naïve de Bayes ∀x ∈ Rd , g ∗ (x) = 2I{η(x) > 1/2} − 1 Classification Séparateurs affines Risque minimum L(g ∗ ) = min L(g ) Le Perceptron mono-couche g I L’erreur L(g ) est inconnue... comme P ! Stéphan Clémençon c Télécom ParisTech Fondamentaux pour le Big Data 2/7 Apprentissage statistique Minimisation du Risque Empirique I Données observées (X1 , Y1 ) . . . , (Xn , Yn ) Un exemple: l’algorithme du Perceptron pour la classification I n 1X b I{Yi 6= g (Xi )} Ln (g ) = n Classification Séparateurs affines Le Perceptron mono-couche On cherche à concevoir un algorithme qui "minimise" le risque empirique i=1 sur une collection "pas trop complexe" de règles G I Minimiseur du risque empirique sur G gbn = arg min b Ln (g ) g ∈G Stéphan Clémençon c Télécom ParisTech Fondamentaux pour le Big Data 3/7 Minimisation du Risque Empirique Propriétés Un exemple: l’algorithme du Perceptron pour la classification L(ĝn ) − L(g ∗ ) ≤ 2 sup | Ln (g ) − L(g ) | g ∈G + inf L(g ) − L ∗ g ∈G Classification Séparateurs affines Le Perceptron mono-couche Contrôle de la complexité : " r E sup | Ln (g ) − L(g ) |≤ C g ∈G V n # si la dimension de Vapnik-Chervonenkis de G est finie, égale à V. Stéphan Clémençon c Télécom ParisTech Fondamentaux pour le Big Data 4/7 Hyperplans séparateurs I On cherche à séparer l’espace d’entrée Rd en deux régions par un hyperplan affine : (w , θ) ∈ Rd × R Hw ,θ : Un exemple: l’algorithme du Perceptron pour la classification I t w ·X +θ =0 Règle associée : gw ,θ (X ) = sign(t w · X + θ) Classification Séparateurs affines Le Perceptron mono-couche Stéphan Clémençon c Télécom ParisTech Fondamentaux pour le Big Data 5/7 Le Perceptron de F. Rosenblatt (1957) I On remplace n 1X I{−Yi (t w · Xi + θ) > 0}, n i=1 Un exemple: l’algorithme du Perceptron pour la classification par la fonction lisse n − Classification Séparateurs affines Le Perceptron mono-couche 1X Yi (t w · Xi + θ) n i=1 1. Initialisation : (w , θ) choisi au hasard 2. On tire au hasard (Xi , Yi ) : I I Si la règle courante classe correctement le point choisi, on ne modifie pas l’hyperplan Sinon, on effectue une descente de gradient de pas ρ ( w w yx )←( ) + ρ( i i ) θ θ yi Stéphan Clémençon c Télécom ParisTech Fondamentaux pour le Big Data 6/7 Propriétés Un exemple: l’algorithme du Perceptron pour la classification I L’algorithme converge ssi les données sont linéairement séparables I Cas "linéairement séparable" : le nombre d’itérations de l’algorithme peut être contrôlé (Théorème de Novikoff, ’62) I L’algorithme s’adapte immédiatement au cas séquentiel I Extensions : Réseaux de Neurones, Machines à vecteurs support (SVM) Classification Séparateurs affines Le Perceptron mono-couche Stéphan Clémençon c Télécom ParisTech Fondamentaux pour le Big Data 7/7