Un exemple: l`algorithme du Perceptron pour la - Fun-Mooc

publicité
Classification binaire
Un exemple: l’algorithme du
Perceptron pour la
classification
Classification
Séparateurs affines
Le Perceptron
mono-couche
I
(X , Y ) couple de v.a. de distribution P inconnue
I
Y ∈ {−1, +1} est une étiquette binaire
I
X ∈ Rd modélise une observation permettant de prédire Y
Objectif
Construire g : Rd → R de façon à minimiser l’erreur de
classification
L(g ) = P{Y 6= g (X )}
Exemples
I
Diagnostic médical
I
Ciblage marketing
I
Risque de crédit
Stéphan Clémençon
c Télécom ParisTech
Fondamentaux pour le Big Data 1/7
Règle optimale
I
Probabilité a posteriori
∀x ∈ Rd ,
Un exemple: l’algorithme du
Perceptron pour la
classification
I
η(x) = P{Y = +1 | X = x}
Règle naïve de Bayes
∀x ∈ Rd ,
g ∗ (x) = 2I{η(x) > 1/2} − 1
Classification
Séparateurs affines
Risque minimum
L(g ∗ ) = min L(g )
Le Perceptron
mono-couche
g
I
L’erreur L(g ) est inconnue... comme P !
Stéphan Clémençon
c Télécom ParisTech
Fondamentaux pour le Big Data 2/7
Apprentissage statistique
Minimisation du Risque Empirique
I
Données observées
(X1 , Y1 ) . . . , (Xn , Yn )
Un exemple: l’algorithme du
Perceptron pour la
classification
I
n
1X
b
I{Yi 6= g (Xi )}
Ln (g ) =
n
Classification
Séparateurs affines
Le Perceptron
mono-couche
On cherche à concevoir un algorithme qui "minimise" le
risque empirique
i=1
sur une collection "pas trop complexe" de règles G
I
Minimiseur du risque empirique sur G
gbn = arg min b
Ln (g )
g ∈G
Stéphan Clémençon
c Télécom ParisTech
Fondamentaux pour le Big Data 3/7
Minimisation du Risque Empirique Propriétés
Un exemple: l’algorithme du
Perceptron pour la
classification
L(ĝn ) − L(g ∗ ) ≤ 2 sup | Ln (g ) − L(g ) |
g ∈G
+
inf L(g ) − L
∗
g ∈G
Classification
Séparateurs affines
Le Perceptron
mono-couche
Contrôle de la complexité :
"
r
E sup | Ln (g ) − L(g ) |≤ C
g ∈G
V
n
#
si la dimension de Vapnik-Chervonenkis de G est finie, égale à
V.
Stéphan Clémençon
c Télécom ParisTech
Fondamentaux pour le Big Data 4/7
Hyperplans séparateurs
I
On cherche à séparer l’espace d’entrée Rd en deux régions
par un hyperplan affine : (w , θ) ∈ Rd × R
Hw ,θ :
Un exemple: l’algorithme du
Perceptron pour la
classification
I
t
w ·X +θ =0
Règle associée : gw ,θ (X ) = sign(t w · X + θ)
Classification
Séparateurs affines
Le Perceptron
mono-couche
Stéphan Clémençon
c Télécom ParisTech
Fondamentaux pour le Big Data 5/7
Le Perceptron de F. Rosenblatt (1957)
I
On remplace
n
1X
I{−Yi (t w · Xi + θ) > 0},
n
i=1
Un exemple: l’algorithme du
Perceptron pour la
classification
par la fonction lisse
n
−
Classification
Séparateurs affines
Le Perceptron
mono-couche
1X
Yi (t w · Xi + θ)
n
i=1
1. Initialisation : (w , θ) choisi au hasard
2. On tire au hasard (Xi , Yi ) :
I
I
Si la règle courante classe correctement le point choisi, on
ne modifie pas l’hyperplan
Sinon, on effectue une descente de gradient de pas ρ
(
w
w
yx
)←(
) + ρ( i i )
θ
θ
yi
Stéphan Clémençon
c Télécom ParisTech
Fondamentaux pour le Big Data 6/7
Propriétés
Un exemple: l’algorithme du
Perceptron pour la
classification
I
L’algorithme converge ssi les données sont linéairement
séparables
I
Cas "linéairement séparable" : le nombre d’itérations de
l’algorithme peut être contrôlé (Théorème de Novikoff, ’62)
I
L’algorithme s’adapte immédiatement au cas séquentiel
I
Extensions : Réseaux de Neurones, Machines à vecteurs
support (SVM)
Classification
Séparateurs affines
Le Perceptron
mono-couche
Stéphan Clémençon
c Télécom ParisTech
Fondamentaux pour le Big Data 7/7
Téléchargement