Apprentissage Statistique - Laboratoire d`Informatique de Paris 6

publicité
Apprentissage Statistique
Master IAD - Université Paris 6
P. Gallinari
[email protected]
http://www-connex.lip6.fr/~gallinar/
Année 2013-2014
Partie 1
Introduction
Apprentissage à partir d'exemples
Données {z1, ..., zN}
Machine Fθ
Critère C
But
 extraire de l'information à partir des données, expliquer les
données
 information pertinente pour la tâche étudiée
 information pertinente pour d'autres données du même type
 Utilisation
 inférence sur de nouvelles données
 Type d'apprentissage :
 Supervisé
 Non supervisé
 Semi supervisé
 Renforcement




Apprentissage Statistique
- P. Gallinari
3
Exemples - problèmes d'apprentissage
 Parole / Ecriture
 Données : (signal, (transcription))
 But : reconnaître signal
 Critère : # mots correctement reconnus
 Conduite véhicule autonome
 Données : (images routes, (commande volant)) e.g. S. Thrun Darpa
Challenge + Google car
 But : suivre route
 Critère : distance parcourue
 Extraction d'information dans une base de texte
 Données : (texte + requête, (information pertinente))
 But : extraire l'information correspondant à la requête
 Critère : Rappel / Précision
 Diagnostic dans systèmes complexes
 Données : (état capteurs + alarmes, (diagnostic))
 But : diagnostic correct
 Critère : ?
Apprentissage Statistique
- P. Gallinari
4
 Modélisation d'utilisateur
 Données : (Traces utilisateur - contenu accédé)
 But : analyser/ catégoriser le comportement de l'utilisateur, Ciblage
clientèle, aide navigation, interfaces adaptatives
 Critère : ?
 Evaluation : ?
 Plus difficile :
 Traduction
 Recherche d'information bases textes, images – vidéos
 Extraction d’information (e.g. web)
 Compréhension de texte / scène visuelle – extraction de sens
 Découverte dans data-warehouse ....
 Données : i.e. représenter l'information ??
 But ??
 Critère ??
Apprentissage Statistique
- P. Gallinari
5
Données : diversité
Apprentissage Statistique
- P. Gallinari
6
Données : quantités
Yahoo! Data – A league of its own… U. Fayyad KDD’07
Terrabytes of Warehoused Data
Millions of Events Processed Per Day
14,000
GRAND CHALLENGE PROBLEMS OF DATA PROCESSING
TRAVEL, CREDIT CARD PROCESSING, STOCK EXCHANGE, RETAIL, INTERNET
Y! PROBLEM EXCEEDS OTHERS BY 2 ORDERS OF MAGNITUDE
Apprentissage Statistique
- P. Gallinari
7
warehouse
Y! Main
Walmart
Y! Data
Highway
Warehouse
Y! Panama
100
Y! Panama
NYSE
94
Y! LiveStor
VISA
49
AT&T
SABRE
500
25
Korea
225
1,000
Telecom
120
2,000
Amazon
50
5,000
Petabytes (10^15)
 Google processes about 24 petabytes of data per day
 Google Street View Has Snapped 20 Petabytes of Street
Photos
 Telecoms: AT&T transfers about 30 petabytes of data
through its networks each day
 Physics: The experiments in the Large Hadron Collider
produce about 15 petabytes of data per year
 Neurology: It is estimated that the human brain's ability
to store memories is equivalent to about 2.5 petabytes of
binary data
Apprentissage Statistique
- P. Gallinari
8
Big Data: Volume, Velocity, Variety, and
Veracity
http://www-01.ibm.com/software/data/bigdata/
Volume: terabytes, petabytes
 Turn 12 terabytes of Tweets created each day into improved product sentiment
analysis
 Convert 350 billion annual meter readings to better predict power consumption
 Velocity: streams
 Scrutinize 5 million trade events created each day to identify potential fraud
 Analyze 500 million daily call detail records in real-time to predict customer churn faster
 Variety: Big data is any type of data - structured and unstructured data such as
text, sensor data, audio, video, click streams, log files and more. New insights
are found when analyzing these data types together.
 Monitor 100’s of live video feeds from surveillance cameras to target points of interest
 Exploit the 80% data growth in images, video and documents to improve customer
satisfaction
 Veracity: Establishing trust in big data presents a huge challenge as the variety
and number of sources grows.
Apprentissage Statistique
- P. Gallinari
9
Gartner Hype Cycle: Big Data

Apprentissage Statistique
- P. Gallinari
10
Apprentissage Statistique
- P. Gallinari
11
Données : ce que ca change
 Nouveaux problèmes




Recommandation
CRM
Analyse utilisateur, click through data, …
…
 Utilisation intensive des données
 Là ou on faisait “à la main”
 Traduction
 Scoring moteurs de recherche
 ….
Apprentissage Statistique
- P. Gallinari
12
Données dans la pratique de l’apprentissage
 Ensemble
 D’Apprentissage
 Mettre au point le modèle
 De Test
 Evaluer les performances du modèle appris
 De Validation
 Apprentissage de méta-paramètres
Apprentissage Statistique
- P. Gallinari
13
Place de l’apprentissage
 L’apprentissage constitue une brique dans le processus de fouille /
traitement de données
 qui arrive souvent à la fin du processus
 qui est intégré dans une application ou dans le SI de l’entreprise
 3 points de vue complémentaires
 Recherche : algorithmes et théorie
 Business : $$
 Utilisateur : intégration, puissance et facilité d’utilisation
 Les différentes étapes de l’analyse des données
 Collecte des données / stockage
 Prétraitement des données, étiquetage éventuel
 Analyses des données par des techniques exploratoires
 Mise au point et test de différents modèles d’apprentissage
 Evaluation
Apprentissage Statistique
- P. Gallinari
14
Apprentissage supervisé
 Ensemble d'apprentissage
 Constitué de couples (entrée, sortie désirée)
 (x1, d1) , (x2, d2) , … , (xN, dN)
 But
 Au moyen d'un algorithme d'apprentissage, découvrir
l’association d = Fθ (x)
 En utilisant les données d’appprentissage
 Qui offre une bonne généralisation
i.e.
d = Fθ (x) si x hors de l'ensemble d'apprentissage
mais généré par le même phénomène
 Utilisation
 discrimination, identification, prévision, approximation …
Apprentissage Statistique
- P. Gallinari
15
Apprentissage non supervisé
 Ensemble d'apprentissage
 Uniquement des données d’entrée
 x1, x2,… , xN
 But
 Regrouper les données similaires
 Modéliser les données
 Découvrir des relations non spécifiées à l’avance entre les
données
 Utilisation
 estimation de densité, extraction de similarités
Apprentissage Statistique
- P. Gallinari
16
Apprentissage semi supervisé
 Ensemble d’apprentisage
 étiquetés – faible quantité ((x1, d1) , (x2, d2) , … , (xN, dN)
 non étiquetés – grande quantité xN+1, xN+2, … , xN+M
 But
 Extraire l’information des exemples non étiquetés utile pour
l’étiquetage
 Apprendre conjointement à partir des deux ensembles
d’exemples
 Utilisation
 grandes masses de données où l’étiquetage est possible mais
trop coûteux
 données qui évoluent
 implémentation rapide de systèmes génériques pour différentes
instances d’un problème
Apprentissage Statistique
- P. Gallinari
17
Apprentissage par Renforcement
 Ensemble d'apprentissage
 Couples (entrée, sortie désirée qualitative)
 (x1, d1) , (x2, d2) , … , (xN, dN)
 Les xi peuvent être des séquences (temporal credit
assignment), les di sont des réponses qualitatives (e.g.
0,1), déterministes ou stochastiques.
 But
 Apprendre des actions optimales
 Utilisation
 commande, décision séquentielle, recherche
opérationnelle, jeux, programmation dynamique,
navigation, ...
Apprentissage Statistique
- P. Gallinari
18
Domaines d’application industriels
classiques – à partir de 1990
 Défense : classification signaux, fusion donnée, commande
véhicules, suivi de cibles
 Traitement de documents : compétitions ARPA, systèmes OCR
spécialisés (fax, banque,..)
 Finance - Banque - Assurance : détection fraude (systèmes
commerciaux largement répandus), prévision, trading, gestion
portefeuille
 Prévision - Marketing : consommation (eau - electricité), prévision
trafic, séries financières
 Industrie pétrolière : analyse de données sismiques (traces,
detection de pics), commande (raffineries).
 Télécommunications : diagnostic, routage, traitement signal,
contrôle d'admission (ATM), modélisation trafic
 Capteurs : capteurs gaz, nez électronique, rétines artificielles
 Industrie du transport : modélisation et commande
 VLSI - circuits dédiés : accélérateurs, chips dédiés RN
Apprentissage Statistique
- P. Gallinari
19
Domaines d’application en Data Mining
 Web : recherche d'information, filtrage d'information
 Text mining


catégorisation, filtrage
extraction d'information textuelle : e.g. recherche BD
journaux, bibliothèques virtuelles, veille technologique,
Question Answering , ...
 Multi-média : image + son, indexation d'informations e.g. BD vidéo
 Data mining : BD entreprise (Data-wharehouse), infos produits, infos
clients, ciblage clientèle ...
 Analyse comportement e.g. telecoms : serveurs web, accès services
commerciaux, internet - intranet, aide accès information
 Web2.0 : les communautés
 Mobiles : personnalisation, accès information
 Biologie - analyse de séquences, de structures
 Automobile ...
Apprentissage Statistique
- P. Gallinari
20
Challenges de l’apprentissage
 Passage à l’échelle
 Quantité de données, taille données
 Dynamicité
 Flux
 Distribué
 Complexité des données et des problèmes
 Données structurées
 standards (XML, RDF, SMIL, …), taxonomies
 Web2.0 : découverte / analyse de relations !!
 Nouveaux problèmes, nouveaux usages
Apprentissage Statistique
- P. Gallinari
21
Un exemple : Perceptron (1960 Rosenblatt)
w
Rétine
Cellules d’association x
Cellule de décision F(x)
 Le perceptron est utilisé pour la discrimination
 La cellule de décision calcule une fonction à seuil :
F(x) = sgn [ i wi xi ]
Classe 1 = { x : F[ x ] = 1}
Classe 2 = { x : F[ x ] = -1}
Apprentissage Statistique
- P. Gallinari
22
L'algorithme du perceptron (2 classes)
 Sortie désirée d = ± 1
Initialiser W (0)
Répeter (t)
Pour i = 1 à N
i
Si d (w(t).xi)  0 alors w(t+1) = w(t) + di.xi
Jusqu'à convergence
 Décision :
n
F(x)  sgn( wi xi)
i 1
 C'est un algorithme de correction d'erreur
 si  est constant : règle à incrément fixe
 si  est fonction du temps : règle à incrément variable
Apprentissage Statistique
- P. Gallinari
23
Fonction discriminante linéaire
F(x)  w.x  w 
0
n
 wi xi  w0
i 1
 Surface de décision: hyperplan
 Quelques propriétés
F(x) = 0
w est le vecteur normal de l'hyperplan, il défini son
orientation
 distance de x à H : r = F(x) / || w ||
 w0 = 0 : H passe par l'origine

 Vecteur forme étendu (notation par défaut)
 x' = (1, x)
 w' = (w0, w)
 Fonction de décision : F(x') = w ’.x'
Apprentissage Statistique
- P. Gallinari
24
Géométrie de la discrimination linéaire
F ( x)
w
F(x) > 0
F(x) = 0
W
F(x) < 0
La partie de l'image av ec l'ID de relation rId9 n'a pas été trouv é dans le fichier.
Apprentissage Statistique
- P. Gallinari
25
Le perceptron effectue une descente de gradient
 Fonction de coût et gradient
C
 w.x.d
( x , d ) mal classés
C

x.d

wi
( x , d ) mal classés
grad wC 
C
w1
...
...
C
wn
w  w  grad wC
 Demo
 http://lcn.epfl.ch/tutorial/english/
Apprentissage Statistique
- P. Gallinari
26
Cas multiclasses
 p classes = p " problèmes 2 classes " : Ci contre le reste
 Règle de décision : x  Ci si Fi(x) > 0 et Fj(x) < 0 pour j 
i
 pb : régions indéfinies
 Approche générale




construire p fonctions discriminantes
Fi(x), i = 1 ... p
règle de décision:
x  Ci si Fi(x) > Fj(x) pour ji
crée une partition de l'espace d'entrée
chaque classe est un polygone avec au plus p -1 faces.
 Régions convexes : limitation des classifieurs linéaires
Apprentissage Statistique
- P. Gallinari
27
Propriétés
Probabilité de séparabilité linéaire (Cover 1965)
 Entrée de taille n, m formes classées aléatoirement en 2
classes (dichotomie)
 L(m,n) : nb de "vraies" dichotomies linéairement séparables :
 si m > n aucun sous espace engendré par n + 1 formes n'est de
dimension n - 1.
 si m  n aucun sous espace de dimension m - 2 ne contient les m
formes.
 P(m,n) : probabilité qu'une dichotomie soit linéairement
séparable.
P(m ,n)
n
 m
2

L (m , n )   n i
  Cm 1
 0
1

P ( m , n )   1 m n i
 Cm 1
2

0
si m  n
1
1
10
si m  n
si m  n
0.5
si m  n
m /n+1
0
Apprentissage Statistique
- P. Gallinari
2
4
28
Propriétés
Théorème de convergence du perceptron (Novikov 1962)
 Si
 R / x, x  R
 les données peuvent être séparées avec une marge , i.e.
sup W min i d i ( x i .w )  
 l'ensemble d'apprentissage est présenté au perceptron un
nombre suffisant de fois
 Alors après au plus
converge
 2
 R2 
  
corrections, l'algorithme
Apprentissage Statistique
- P. Gallinari
29
Propriétés
Borne sur l'erreur de généralisation (Aizerman et al. 1964)
 Si
 les données sont séparables
 elles sont en nombre infini
1  2 ln k  ln 
 règle arrêt : après la kème correction, les mk   ln(1  )
données présentées sont reconnues correctement
 alors
1  4 ln R  ln   2 

R
l 
 ln(1  )   2 
 
 le perceptron converge en
étapes
 avec une probabilité 1   , l'erreur de test est < 
Apprentissage Statistique
- P. Gallinari
30
Overtraining / généralisation en regression
 Exemple (Bishop 06)
 Necessité de controler lors de l’apprentissage la complexité des
modèles
 Techniques de régularisation
Apprentissage Statistique
- P. Gallinari
31
Algorithmes d'apprentissage numérique
 Données statiques
 Réseaux de neurones
 Arbres décision / régression
 Méthodes issues de la statistique : estimation de densité paramétrique,
non paramétrique
 Décision k-ppv
 Fonctions noyau, machines à vecteurs supports
…
 Données séquentielles
 AR, ARMA, ARMAX, etc
 Réseaux de neurones récurrents
 Chaines de Markov, Modèles de Markov Cachés, champs conditionnels
de Markov
 Données structurées
 recherche actuelle : modèles relationnels
Apprentissage Statistique
- P. Gallinari
32
Formalisation du problème de
l'apprentissage
Formalisme
 Données : vecteurs aléatoires (z), p(z)
F  F 
 Machine :
θ : paramètres du modèle
Risque théorique :
R  Ez c (z)   c (z) p(z)dz
z
Solution optimale :
F*  argmin R

Apprentissage Statistique
- P. Gallinari
34
Apprentissage à partir d'exemples

i
 Données :
 Risque empirique :
D z
i 1..N
N
i
1
C  c(z , F )
N i1
 Principes inductifs
 Le principe inductif défini le processus d'apprentissage
 Exemple : Minimisation du risque empirique
 La fonction F  * qui minimise le risque théorique est
approximée par F  qui optimise le risque empirique
 Est-ce un bon principe ?
 Généralisation ?
N
Apprentissage Statistique
- P. Gallinari
35
Autres principes inductifs
 Maximum de vraisemblance :
 Equivalent a :
WMV  argmax p(D/)

WMV  argmax logp(D/)

 Cadre Bayesien :
 p(modèle/Données)  p(Données/Modèle)P(Modèle)





P(W) : loi à priori sur le modèle
p(D/W) : vraisemblance
p(W/D) : probabilité a posteriori
p( / D)  p(D / ) p( )
Maximum a posteriori :
WMAP  argmax p( / D)

 !! nécessite une hypothèse a priori sur le modèle
Apprentissage Statistique
- P. Gallinari
36
Problèmes d'apprentissage : exemples
 Discrimination
d  0,1
 z = (x, d)
 F  ensemble des fonctions à seuil
 R : probabilité de mauvaise classification
 C : fréquence des erreurs
 Régression
 z = (x, d) d  R
 F  un ensemble de fonctions réelles
 R : espérance des erreurs quadratiques
 C : somme des erreurs quadratiques
 Estimation de densité
 z=x
 F   ensemble de fonctions réelles
 R : espérance (vraisemblance)
 C : somme
Apprentissage Statistique
- P. Gallinari
0 si d  F (x)
c(x, d, F )  
1 sinon
2
c(x,d,F) dF(x)
c(x, F )  ln p (x)
37
Apprentissage supervisé
Modèles discriminants
Réseaux de neurones
Machines à noyaux
Modèles génératifs
Apprentissage supervisé
Réseaux de neurones
Description informelle
 Caractéristiques
 Eléments simples interconnectés
 Echange d'information au moyen des connexions
 Calcul distribué et coopératif
Apprentissage Statistique
- P. Gallinari
40
Domaine pluridisciplinaire
 Domaines





Neurosciences
Sciences cognitive (AI, psychologie, linguistique)
Informatique
Maths
Physique
 Buts
 Modélisation (neurophysiologie, biologie.....)
 Modèle de calcul (applications, computational theory,
apprentissage...)
Apprentissage Statistique
- P. Gallinari
41
Exemple : réseau linéaire
 Etat (cellule) = ΣcellulesW incident*état(cellules incidentes )
W5
W9
W4
SIGNAL
W
6
W2
DECISION
W
1
W7
W8
W3
 Apprentissage Visible units
 Dynamique
 Caractéristiques :
Hidden units
Visible units
 Architecture : interconnexion + définition unités
 Algorithmes : apprentissage + dynamique
Apprentissage Statistique
- P. Gallinari
42
Fondements biologiques
 Le neurone




Soma
Arbre des dendrites
Axone
Flot d'information
 axone : impulsions électriques
 dendrites : transmission chimique avec le soma via synapses
 Synapses
 contact : émission - réception
 Poids synaptique = modulation de l'information transmise
vers le soma.
 Comportement du neurone + mémoire ?
Apprentissage Statistique
- P. Gallinari
43
Neurones et Types de
neurones
Apprentissage Statistique
- P. Gallinari
44
Composants du neurone
Apprentissage Statistique
- P. Gallinari
45
Historique rapide
 43 Mc Culloch & Pitts : neurone formel
 "A logical calculus of the ideas immanent in nervous activities"
 40 – 45
 Wiener (USA)
 Kolmogorov (URSS)
 Türing (UK)
 Théorie de l'estimation et de la prédiction (contrôle batteries antiaeriennes)
 Boucle de rétro-action
Apprentissage Statistique
- P. Gallinari
46
 48 - 50
 49
 55 - 60
Von Neuman : réseaux d'automates
Hebb : apprentissage dans les réseaux d'automates
Rosenblatt :
Perceptron
Widrow - Hoff : Adaline
 70 – 80 Mémoires associatives, ART, SOM ...
 90 – 95
 Réseaux non linéaires
 Réseaux de Hopfield, Machine de Boltzmann
 Perceptron multicouches ...
 2006 - ..
 Deep neural networks, restricted Boltzmann
machines,…
Apprentissage Statistique
- P. Gallinari
47
Optimisation dans les RN
Algorithmes de gradient
 Principe :
W
t 1
W D
t
t t
 la direction de descente D, le pas de gradient  sont
déterminés à partir d'informations locales sur la fonction de
coût C(W), i.e. approximations au 1er ou 2nd ordre.
 Exemples :
Plus grande pente
Initialiser W0
Itérer
w(t 1)  w(t) C(w(t)
Critère d'arrêt
Gradient adaptatif
Initialiser W0
Itérer Choisir un exemple xt
w(t  1)  w(t )  c(w(t ))
Critère d'arrêt
Apprentissage Statistique
- P. Gallinari
48
Explication :
 Approximation quadratique locale de la fonction
à optimiser :
T
T
 W ) Q(W )  1 (W  W ) H(W  W )
t 1
t
t 1
t
t
t
t 1
t
2 t 1
Q(W )  Q(W )  H(W  W )
Q(W )  Q(W )  (W

t 1
t
H : Hessien de la fonction de coût
t 1
t
 Méthode de Newton :Q(Wt 1)  0
1

W
 W  H Q (W )
t 1
t
t

 En pratique : 1er ordre ou approximations du 2nd ordre
 Exemple 2nd ordre :
H ' Q (W )
t
t
 Méthodes de quasi-Newton : approximation de H-1 itérativement.
 Forme générale :
W
 W  H ' Q (W )
t 1
H'
t 1
t
t
t
 H '  F ( H ' ,W
t
t
t 1
,W , Q (W ), Q (W
t
 H' : approximation de H-1 sans calculer les dérivées secondes
  : minimisation suivant la direction
t
t 1
))
 Méthodes générales
 Convergence vers un optimum local
Apprentissage Statistique
- P. Gallinari
49
 Exemple :
 FW fonction linéaire réelle
 C erreur quadratique
 C

 w1
 C ( w )   ...

 C
 w
 n
C
1

w j N
F ( x)  w.x 
w x
j 1..n
j
j
1 N
C  (F(xi ) di )2
N i1









1
i
i 2
(
w
x

d
)

i w k
k k
N
1 .. n
j
Apprentissage Statistique
( w
i
k 1 .. n
- P. Gallinari
k
x ki  d i )) x ij
50
Le neurone
 C'est un automate caractérisé par


des signaux d'entrée x1 , … , xn
une fonction de transition
y = F ( x 1 , … , xn )
x1
x2
y = F(x)
xn
Apprentissage Statistique
- P. Gallinari
51
Différent types de neurones
x1
y = F(x)
x2
xn
Le neurone produit scalaire
A = k wk xk
g(x)
Le neurone distance
A = || x - w||2
g(x)
a
A
avec différentes fonctions g: Id, g : Id, F(x) = e-(A/k)
seuil,
1
F
(
x
)

sigmoïde :
1 e
e e
F ( x) 
th :
e e
 kA
kA
 kA
kA
 kA
Apprentissage Statistique
- P. Gallinari
52
Adaline (Adaptive Linear Element)
 Architecture
x1
x2
y = F(x)
xn
 Risque empirique : moindres carrés
C(W) = [ 1 / N] . k [ w. xk - dk ] 2
Apprentissage Statistique
- P. Gallinari
53
 Algorithme : Widrow-Hoff - gradient stochastique
Initialiser W(0)
Iterer
Choisir aléatoirement un exemple (xt,dt)
w(t+1) = w(t) - (t) . [ w(t) xt - dt ] xt
Critère d'arrêt
 xt est l'exemple présenté à l'instant t, le gradient est calculé sur le
coût local
 A comparer avec le gradient classique qui calcule le gradient sur
le risque empirique
Initialiser W(0)
Iterer
w(t+1) = w(t) - (t) .  k [ w(t) xk - dk ] xk
Critère d'arrêt
Apprentissage Statistique
- P. Gallinari
54
 Apprentissage hors ligne vs apprentissage adaptatif
 ck erreur sur la forme k de l'ensemble d'apprentissage
C
Gradient sur C
1
ck
N k
q
Q
Gradient adaptatif sur c
k
W
Apprentissage Statistique
W
- P. Gallinari
55
 Extension multidimensionnelle
 Données : x1,…, xN n, d1,…, dN p, y1,…, yN p
 Modèle :
dk = W xk  k  {1,…,N}
 i.e.
D=WX
 Fonction de coût
C(W) = || D - W X ||2
 Algorithme: Widrow-Hoff
W(t+1) = W(t) - (t)[ W x - d].x
Apprentissage Statistique
- P. Gallinari
56
 Calcul de l'association optimale par l'algèbre linéaire
 L'équation
D = W X a une solution ssi D = D X+ X
 où X+ est la matrice pseudo-inverse de X
 La solution générale est donnée par:
 W = D X+ + Z ( I - X X+)
(*)
 où Z est une matrice arbitraire de même dimension que W
 Quand D = W X n'a pas de solution exacte
 (*) est solution de MinW ||D - W X||2
 i.e. (*) est la solution optimale de MinW ||D - W X||2
Apprentissage Statistique
- P. Gallinari
57
Modèles flexibles
 Perceptron Multicouches
 Réseau avec:
 des couches externes: entrée et sortie
 des couches internes ou cachées
d
Les entrées sont présentées sur la
première couche et propagées de
couche en couche:
xi = g [Ai ]
avec Ai = j wij xj
y
Output
hidden
layers
La sortie calculée sur la dernière
couche: yk = F(xk)
est ensuite comparée à la sortie
désirée dk
Input
x
Apprentissage Statistique
- P. Gallinari
58
A w
0

jw
j
x
j
g prend généralement une des deux formes suivantes
g (v ) 
Sigmoïde
tangente hyperbolique
g (v ) 
e
e


yi  Gi (x)  g wi0  j wij g wj 0  k wjk xk
1
1 e
 Kv
Kv
e
 Kv
Kv
e
 Kv

 Fonction de coût :
 C(W) = 1/N k = 1..N ck, avec ck=||dk - yk ||2 =  j=1..p (dkj – ykj )2
 Algorithme : Widrow-Hoff
 wij(t) = wij(t-1) - (t) ct /  wij(t)
Apprentissage Statistique
- P. Gallinari
59
Algorithme gradient adaptatif PMC
Initialiser W(0)
Itérer
•présenter un exemple xt
• propager les états en avant de couche en couche :
xi = g( Ai)
• comparer:
sortie calculée
yt
sortie désirée
dt
• calculer l'erreur sur les cellules de sortie: eti = ( yti - dti)
• rétro-propager l'erreur de la couche de sortie vers la couche
d'entrée:
si i est une cellule de sortie :
zi = 2 . eti. g ' (Ai)
sinon:
zi =(h whi (t) zh ) . g ' (Ai)
où h indexe les cellules vers lesquelles i envoie sa sortie
• modifier les poids en arrière:
 wij (t) = -  (t) . zi . xj
•exemple suivant
Apprentissage Statistique
- P. Gallinari
60
Contrôle de la complexité
 En pratique, on n’optimise jamais le risque empirique seul
 On optimise le risque tout en controlant la complexité
 Tout bon logiciel d’apprentissage incorpore des techniques de contrôle
de la complexité
 Cf partie théorique du cours
 Nombreuses méthodes
 Régularisation (Hadamard …Tikhonov)
 Théorie des problèmes mal posés
 Minimisation du risque structurel (Vapnik)
 Estimateurs algébriques de l’erreur de généralisation (AIC, BIC, LOO,
etc)
 Apprentissage bayesien
 Fournit une interprétation statistique de la régularisation
 Le terme de régularisation apparait comme un a priori sur les paramètres du
modèle
 Méthodes d’ensembles
 Boosting, bagging, etc
 ….
Apprentissage Statistique
- P. Gallinari
61
Regularisation
 Hadamard
 Un problème est bien posé si
 Il existe une solution
 Elle est unique
 La solution est stable
 Exemple de problème mal posé (Goutte 1997)
 Tikhonov
 Propose des méthodes pour transformer un problème mal posé en
problème bien posé
Apprentissage Statistique
- P. Gallinari
62
Régularisation empirique pour les réseaux de
neurones
 Régularisation : Contrôler la variance de la solution en contraignant la
fonctionnelle
 Optimiser C = C1 + C2(F)
 C1 : mesure du but poursuivi e.g. MSE, Entropie, ...
 C2 : contraintes sur la forme de la solution (e.g. distribution des poids)
 Exemples : forcer les poids inutiles à des valeurs faibles

C 2   wi2
–> biaise la solution en diminuant les
poids utiles
i
w i2 / c 2
2
 C2  
i 1  wi /c
–> 2 groupes de poids autour de c
2
2
2
2
 C 2    hi /c    wi /c
2
2
—> cellules cachées + poids
i
1  hi /c
i
1  wi /c
 Utiliser des contraintes différentes suivant le rôle des poids
 Problème : détermination des "hyper-paramètres"
Apprentissage Statistique
- P. Gallinari
63
Autres idées pour le problème de la généralisation
dans les réseaux de neurones
 Arrêt de l'apprentissage
 Elagage : tuer les paramètres inutiles dans un réseau.
Différentes mesures d'utilité ont été proposées
 Bruiter les entrées (Matsuoka 1992 ; Grandvallet et Canu
1994 ; Bishop 1994)
 Réseaux à convolution
Apprentissage Statistique
- P. Gallinari
64
Exemple (Cibas et al, 95, 96)
 Discriminer entre trois classes de "formes d’onde".
 Les trois formes de base pour la génération des formes d'onde :
h3
h1
1
6
5
6
9
6
13
h2
17
21
 3 classes C1, C2, C3 engendrées respectivement par :
x  uh  (1  u ) h  2
1
2
x  uh  (1  u ) h  10
1
3
x  uh  (1  u ) h  26
2
3
u v. a. de densité uniforme sur [0,1],  ~ N(0,I), Classes équiprobables
 Apprentissage = 10 ensembles disjoints, chacun de 300 exemples
 Test = 5000 exemples
 Algorithme : Rétropropagation
Apprentissage Statistique
- P. Gallinari
65
 Evolution des performances pendant l'apprentissage
60
0
60
35
35
5
5
15
15
10
10
 Figure 1 a (left), b (right): evolution of the performances (mean square
error) during training for MLPs with a varying number of hidden units. (a)
corresponds to a stochastic gradient descent and (b) to a conjugate
gardient. Each curve corresponds to a two weight layer MLP, the number
on the curve gives the size of the hidden layer.
Apprentissage Statistique
- P. Gallinari
66
 Effet de la régularisation
h=60- or d
h= 15- or d
h=60-WD
h= 15- estim
h= 60- or d
h= 15- estim
h= 60- estim
h= 15- or d
h=60-WD
h=60- estim
 Comparaison de l’erreur en apprentissage (a) et en généralisation (b) pour
les réseaux h=15 et h=60 en minimisant le coût ordinaire sans terme de
régularisation (...-ord) et le coût avec la régularisation: avec détermination
des paramètres à priori (...-WD) et en les estimant pendant
l’apprentissage (...-estim)
Apprentissage Statistique
- P. Gallinari
67
Fonctions à Base Radiale
 Réseau à deux couches
 Notations
 wi. = poids vers la cellule i, xi sortie de la cellule i, x entrée
y
Couche de sortie
A w
0

jw
j
x
j
g = Id
Couche intermédiaire
A  x w
g ( A)  e

2
A
2
x
y i  G i ( x )  w i 0   j w ij
 Risque : moindres carrés
Apprentissage Statistique

g  x  w

- P. Gallinari
2
j.


68
La fonction sigmoïde
 Distribution de la famille exponentielle :
T
p ( x ,  ,  )  exp (( x  b ( ))/a ( )  c ( x ,  ))
 ,  : paramètres de la loi, (  paramètre de position , 
paramètre de dispersion).
 Ex. de distributions exponentielles : normale, gamma,
binomiale, poisson, hypergéométrique ...
 Hypothèse : la distribution des données conditionnellement
à chaque classe est de la famille exponentielle, avec un
paramètre de dispersion identique pour toutes les classes
i.e. :
p ( x /C )  exp (( T x  b ( ))/a ( )  c ( x ,  ))
i
i
i
1
 Alors
P (C /x ) 
i
1 e
 (w
T
x b )
Apprentissage Statistique
- P. Gallinari
69
Capacités d'approximation des PMC
 Résultats basés sur les théorèmes d'approximation de l'analyse
fonctionnelle.
 (Cybenko (1989))
 Théorème 1: Soit f une fonction saturante continue, alors l'espace
des fonctions de la forme g ( x )   njc1v f (w t x ) est dense dans
j.
j
l’espace des fonctions continues sur le cube
unité
C(I). i.e.  h  C(I)
et  > 0,  g /
g ( x )  h ( x ) <  sur I.
 Théorème 2: Soit f une fonction saturante continue. Soit F une
fonction de décision définissant une partition
de I. Alors
 > 0, il
nc
t
existe une fonction de la forme g ( x )   j 1v j f (w j . x ) et un
g ( x )  F ( x ) <  sur D.
ensemble D  I tel que (D) = 1 -  et
 (Hornik et al., 1989)
 Théorème 3 : Pour toute fonction saturante croissante f, et toute
mesure de probabilité
m sur Rn
, l'espace des fonctions de la forme
nc
t
g ( x )   j 1v f (w x ) est uniformément dense sur les
j.
j
compacts de C(Rn).
Apprentissage Statistique
- P. Gallinari
70
 Fonctions radiales (Park & Sandberg, 1993)
 Théorème 4 : Si f, fonction réelle définie sur Rn est
intégrable, alors l'espace des fonctions de la forme :
g( x)  
N
v .f
j 1 j
(
x  w j.
j
est dense dans L1(Rn) ssi
)
.
 f ( x )dx  0
Rn
Apprentissage Statistique
- P. Gallinari
71
 Résultats basés sur le théorème de Kolmogorov
 Théorème sur la représentation (exacte) des fonctions réelles de Kolmogorov
 Toute fonction h de C(I) peut s'écrire sous la forme
2 n 1
h ( x1 ,..., x n )   q 1 g q (  p 1 f pq ( x p ) )
n
où les fonctions g et f sont des fonctions continues d'une variable.
 Théorème 6 (Kurkova 1992)
 Soit h dans C(I), n 2 et R+, alors quelquesoit m  vérifiant
m = 2n + 1
n/(m-n) + v <  / ||h||
h(1/m) < v(m - n)/(2m - 3n)
v>0
 h peut être approximée à une précision  par un perceptron possédant deux couches
cachées de fonctions saturantes et dont les sorties sont linéaires. La première couche
comprend n.m(m+1) unités et la seconde m2(m+1)n. Les poids sont universels sauf
ceux de la dernière couche, pour toutes les fonctions f vérifiant :
f(d)= sup{|f(x1, ..., xn) - f(y1, ..., yn)|, x, y  I et |xp - yp| <   p}.
Apprentissage Statistique
- P. Gallinari
72
Interprétation probabiliste des sorties
 Risque théorique R = E ( [ d - h(x) ] 2)
 Le min de R est obtenu pour h*(x) = E[d | x ]
C(W)
= E ( [ d - F(x,W) ]2 )
= E ( [ d - h*(x) ]2 ) + E ( [ h*(x) - F(x,W) ] 2)
 h*(x) = E[d | x ] est bien la solution optimale
 Dans l’espace des hypothèses, W* /
minimise simultanément :
 E ( [ d - F(x,W) ]2 )
 E ( [ h*(x) - F(x,W) ]2 )
Apprentissage Statistique
R(W*) = MinW R
LMSE
meilleure approximation LMS
de E[d | x ]
- P. Gallinari
73
 Cas de la Classification
 d = (0,…, 0, 1, 0, …, 0) avec un 1 en ième position si classe i
 hi*= P( Ci/ x )
 i.e. F( . , W*) meilleure approximation LMS de la fonction
discriminante de Bayes (solution optimale).

Sorties binaires
 hi*= P( di = 1| x )

Coût : di =ij pour x  Cj, = coût de la décision i quand la
classe est j
 hi* est le risque conditionnel de la décision i
E [d /x ] 
 Décision : sortie la plus faible.
i
 j 1 ij P ( j/x )
m
 L’importance de la précision sur les sorties : dépend de
l'utilisation (classification OU estimation de probabilité
conditionnelle).
Apprentissage Statistique
- P. Gallinari
74
Fonctions de coût
 Différentes fonctions de coût
sont utilisées, suivant les
problèmes, ou les modèles
 LMSE
 Regression
Figure from
Bishop 2006
 Souvent utilisé en
classification
 Classification, Hinge,
logistique
 Classification
 Exemples
z  y.d (marge)
cMSE(y,d)  (y-d)2
 y  R, d  {-1, 1}
 Hinge, logistique sont ici des
approximations de l’erreur de
classification
chinge ( y, d )  1  yd 
clog istique ( y, d )  ln(1  exp( yd ))
Apprentissage Statistique
- P. Gallinari
75
Apprentissage supervisé
Machines à noyaux
Introduction
 Familles de machines d'apprentissage générales qui
exploitent l'idée suivante :
 Projeter les données dans un espace de grande dimension
- éventuellement infini -où le problème sera facile à traiter
 Utiliser des "projections" non linéaires permettant des
calculs "efficaces"
 Exemples :
 Machines à Vecteurs Support (généralisent : hyperplan
optimal, cadre Vapnik)
 Processus Gaussien (généralisent : régression logistique,
cadre Bayesien)
Apprentissage Statistique
- P. Gallinari
77
Représentation Duale
Exemple introductif : le perceptron
 Hyp : 2 classes linéairement séparables, sortie désirée d = ± 1
Perceptron Primal
W(0) = 0
Répeter (t)
Pour i = 1 à N
Si di(W(t).xi)  0
alors W(t+1) = W(t) + di.xi
Jusqu'à convergence
Perceptron Dual
=0
Répeter (t)
Pour i = 1 à N
N
Si
d i (  j d j x j x i )  0
j 1
alors i = i (t) + 1
Jusqu'à convergence
Apprentissage Statistique
Fonction de décision :
n
W(0) = 0 
F ( x )  sgn ( w i x i )
i 1
N
i i
W    d x
i 1 i
i : mesure de la difficulté à
classifier i
Fonction de décision :
N
i i
F ( x )  sgn (   d x .x )
i 1 i
G = (xi.xj)i,j = 1..N : Matrice de Gram
- P. Gallinari
78
Représentation Duale
 La plupart des machines à apprentissage linéaires ont une
représentation duale
 Exemples
 Adaline, regression, regression ridge, etc
 L’information sur les données est entièrement fournie par la
matrice de Gram : G = (xi.xj) i,j = 1..N, qui joue un rôle central
 La fonction de décision F(x) s’exprime comme une combinaison
linéaire de produits scalaires entre la donnée d’entrée x et les
exemples d’apprentissage
 Les machines à noyau généralisent ces idées
 Une fonction noyau K est définie sur X2, par
K(x,z) = < Φ(x), Φ(z)>
où Φ est une fonction de X dans un espace muni d’un produit
scalaire
Apprentissage Statistique
- P. Gallinari
79
Produit Scalaire et Noyaux
 Projection non linéaire dans un espace de
(éventuellement très) grande dimension H
:R


n
R
p
avec p  n
Machine linéaire dans H - Primal :

F (x ) 
i 1.. p
w i  i (x )  b
Machine linéaire dans H - Dual :
W 

i
i
d  ( x )
i 1..N
i
F (x ) 

i 1..N
i
i
d   ( x ) ( x )  b
i
 Calculer les produits scalaires dans l'espace initial :
choisir F /  ( x ). ( x ' )  K ( x , x ' )
i
i
F (x )   d  K (x , x )  b
i
i 1..N
 avec K : fonction noyau (i.e. symétrique)
Apprentissage Statistique
- P. Gallinari
80
 Généralise le produit scalaire dans l'espace initial
 Le calcul de F ne dépend pas directement de la taille de
H : les calculs sont faits dans l'espace initial.
 La machine linéaire dans H peut être construite à partir
d'une fonction K sans qu'il soit nécessaire de définir
explicitement  : en pratique, on spécifiera directement
K.
 Cette idée permet d'étendre de nombreuses techniques
linéaires au non linéaire: il suffit de trouver des noyaux
appropriés
 Exemples
 ACP, Analyse discriminante, regression, etc
Apprentissage Statistique
- P. Gallinari
81
Caractérisation des noyaux
 Quand peut on utiliser cette idée ?
 Cas d'un espace fini
 Soit X = { x1,…, xN}, K(x,x') une fonction symétrique sur X,
K est une fonction noyau ssi la matrice K  ( K ( x i , x j )) iN, j 1
est positive semi-définie (valeurs propres 0)
 Cas général : Conditions de Mercer (noyaux de Mercer)
 Il existe une application  et un développement
K (x , x ' ) 

 ( x ) i .( x ' ) i
i 1
 ssi
2
g/  g ( x ) dx
est fini
 K ( x , x ' ) g ( x ) g ( x ' )dxdx '  0
Apprentissage Statistique
- P. Gallinari
82
Caractérisation des noyaux
Espace de Hilbert à noyau autoreproduisant
 Une fonction K: X*X  R qui est soit continue soit définie sur un domaine
fini peut s’écrire sous la forme d’un produit scalaire :
K ( x, z )   ( x),  ( z ) 
avec Φ : x  Φ(x)  F espace de Hilbert
ssi c’est une fonction symétrique et toutes les matrices formées par la
restriction de K à un échantillon fini sur X sont semi-définies positives).
 Résultat à la base de la caractérisation effective des fonctions noyaux
 Il permet de caractériser K comme un noyau sans passer par Φ
 C’est une formulation équivalente aux conditions de Mercer
Apprentissage Statistique
- P. Gallinari
83
 L’espace de Hilbert associé à K :
 l

F    i K ( xi ,.) / l  N , xi  X ,  i  R, i  1..l 
 i 1

 Le produit scalaire défini sur cet espace :
l
Soient f (.)    i K ( xi ,.),
i 1
l
n
n
g (.)    j K ( x j ,.)
j 1
l
n
i 1
j 1
 f , g     i  j K ( xi , z j )    i g ( xi )    j f ( zi )
i 1 j 1
Apprentissage Statistique
- P. Gallinari
84
 Noyau auto-reproduisant
 Si on prend g(.) = K(x,.),
alors
l
 f , K ( x,.)     i K ( xi , x )  f ( x)
i 1
Exemples de noyaux
K ( x, z )  x.z  2
2
n

 n
K ( x, z )    xi .zi    ( xi .x j )( zi .z j )
i , j 1

 i 1
K ( x, z )   ( x). ( z )  avec  ( x) /  ( x)i , j  ( xi .x j )i , j 1,n
 n  1

i.e. tous les monomes de d 2 : 
 2 
K ( x, z )  ( x.z   c) 2
K ( x, z )   ( x). ( z )  avec (x) /  ( x)i , j  (( xi .x j )i , j 1,n , ( 2cxi )i 1,n , c)
i.e. ss ensemble des polynomes de d 2
Apprentissage Statistique
- P. Gallinari
86
 Exemples de noyaux
( x.x i  1) d
 polynome d' ordre d


i
i 2
 noyau gaussien
K ( x, x )  exp  x  x

Sigmoïde(vx.x i  c)

Apprentissage Statistique
- P. Gallinari
87
Construction des noyaux en pratique
 Les résultats de Mercer servent à prouver les propriétés
des fonctions noyaux. En pratique, elles sont peu utiles
 Pour construire des noyaux, on procède par
combinaison à partir de noyaux connus
 Si K1 et K2 sont des noyaux sur X2, K3 défini sur F, les
fonctions suivantes sont des noyaux :





K(x, z) = K1 (x, z) + K2 (x, z)
K(x, z) = K1 (x, z) . K2 (x, z)*
K(x, z) = aK1 (x, z)
K(x, z) = K3 (Φ(x), Φ(z))
…..
Apprentissage Statistique
- P. Gallinari
88
Machines à vecteurs support
 Exposé du cours : discrimination 2 classes
 Cas général : discrimination multi-classes, régression,
densité
 Idées
 Projeter -non linéairement- les données dans un espace de
"très" grande taille H
 Faire une séparation linéaire de bonne qualité dans cet
espace
 Raisonner dans H, mais résoudre le problème
d'optimisation dans l'espace de départ (noyaux)
Apprentissage Statistique
- P. Gallinari
89
 Notion de marge
H : F(x) = W.x + b = 0
F ( x)
W
Marge géométrique pour xi :
W
M (xi)  d i(
W
W
xi 
b
)
W
Marge de W pr à ens. D :
Mini(M(xi))
Hyperplan de marge maximale :
MaxW(Mini(M(xi)))
b
W
Apprentissage Statistique
- P. Gallinari
90
Marge géométrique vs marge fonctionnelle
 Marge géométrique
 di.F(xi)/||w||
 Marge fonctionnelle
 di.F(xi)
 Remplacer w par k.w ne change pas la fonction de
décision ou la marge géométrique, mais change la
marge fonctionnelle.
 Pour les SVM, on fixera la marge fonctionnelle à 1 et on
optimisera la marge géométrique.
Apprentissage Statistique
- P. Gallinari
91
Prémisses : Séparation linéaire à hyperplan
optimal (1974)
 Hyp : D linéairement séparable

i
D  x ,d
i

i 1..N
avec d
i
 1
 Fonction de décision : F(x) = W.x + b
 Pb apprentissage :
 trouver l'hyperplan optimal H* qui sépare D i.e.
 di.F(xi)  1 , i
 avec une marge maximale M =
i.e. : Problème Primal :
Apprentissage Statistique
d i .F ( x i ) 1
min

i
w
w
Minimiser W 2

i
i
S .C . d .F ( x )  1
- P. Gallinari
92
 Solution : W* dépend uniquement des points supports
i.e. points sur la marge qui vérifient : di.F*(xi) = 1
i
i
i
i
w *   d i x
F * ( x )   d  i x .x
i support
i support
 Rq: Quelque soit la dimension de l'espace, le nombre de
degrés de liberté est "égal" au nombre de points de support
 F* dépend uniquement du produit scalaire xi.x
Marge
Vecteurs
Supports
Apprentissage Statistique
- P. Gallinari
93
 Apprentissage :
 On résoud le problème d'optimisation dit dual :
Maximiser
L ( ) 
 i 
i
S .C
  i  j d i d x i .x
j
j
i,j
 i  0 et
  id
i
0
i
 Problème minimisation quadratique sous contraintes
Apprentissage Statistique
- P. Gallinari
94
Machines à vecteurs supports
 Faire une séparation à marge max. dans un espace
défini par une fonction noyau.
 Tous les résultats sur le classifieur linéaire à marge max.
se transposent en remplaçant xi .x par K ( xi , x)
:R
W 
i

x V .S .
i
i
d  ( x )
n
R
p
F (x ) 
i
i

i
i
d   ( x ) ( x )  b
x V .S .
i
 ( x ). ( x ' )  K ( x , x ' )
F (x ) 
i

i
i
d  K (x , x )  b
x V .S .
Apprentissage Statistique
i
- P. Gallinari
95
 Apprentissage :
 On résoud le problème d'optimisation dual :
Maximiser
L( )    i    i j d i d j K ( x i , x j )
i
i, j
S .C  i  0 et   i d i  0
i
 Problème minimisation quadratique sous contraintes dans
l ’espace de départ
 Difficile en pratique : différents algorithmes.
 Dans la solution optimale i > 0 uniquement pour les points
support.
 Seuls les produits scalaires K apparaissent, et pas les .
Apprentissage Statistique
- P. Gallinari
96
Propriétés de généralisation -exemples
E [ P (erreur ( x ))] 
 Th 1
E [# vecteurs supports]
# exemples apprentissage  1
 peu de points support  meilleure généralisation
 indépendant de la taille de l'espace de départ
 Th 2
 q /i  1..N , x
i
q
 Si
 l'hyperplan optimal passe par l'origine et a pour marge 
E[
 Alors
E [ P (erreur ( x ))] 
q

2
2
]
N
 Dans les 2 cas, E[P()] est l'espérance sur tous les ensembles de
taille l-1, et E[membre droit] est l'espérance sur tous les
ensembles d'apprentissage de taille l (leave one out).
Apprentissage Statistique
- P. Gallinari
97
Cas non linéairement séparable
 Marges molles
 L'algorithme est instable
 Dans les cas non linéairement séparables
 Dans le cas de données réelles même linéairement séparables
 Solution adoptée en pratique
 autoriser des erreurs, i.e. prendre pour contraintes :
i
d





i
i
(W . ( x )  b )  1  
i
 0
ηi = 0, xi est correctement classifié et est du bon coté de la marge
0 < ηi <= 1, xi est correctement classifié, est à l’intérieur de la marge
ηi > 1, xi est mal classé
ηi : slack variable
Apprentissage Statistique
- P. Gallinari
98
 But
 Maximiser la marge tout en pénalisant les points qui sont mal
classés
 Formalisation
 Plusieurs expressions possibles du problème
 L’une des plus courantes :
N
Min( w.w)  C  i
(i.e. max la marge)
i 1
S .C.
d i ( w.x i  b)  1   i , i  1..N
 i  0, i  1..N
 C fixé par validation croisée joue le rôle de paramètre de
régularisation
Apprentissage Statistique
- P. Gallinari
99
 Marges molles – formulation duale
Maximiser
L( )  i  i j d i d j K ( xi , x j )
i
i, j
S.C 0  i  C et
Apprentissage Statistique
id i  0
i
- P. Gallinari
100
Algorithmes d’optimisation
 Algorithmes d’optimisation standard pour la programmation
quadratique sous contrainte
 e.g. Sequential Minimal Optimization (SMO)
 Algorithmes stochastiques - SVM Results –(Bottou 2007)
 Task : Document classification - RCV1 documents belonging to
the class CCAT (2 classes classification task)

Programs SVMLight and SVMPerf are well known SVM solvers written by Thorsten
Joachims. SVMLight is suitable for SVMs with arbitrary kernels. Similar results could be
achieved using Chih-Jen Lin‘s LibSVM software. SVMPerf is a specialized solver for linear
SVMs. It is considered to be one of the most efficient optimizer for this particular problem.
Algorithm (hinge loss)
Training Time
Primal cost
Test Error
SVMLight
23642 secs
0.2275
6.02%
SVMPerf
66 secs
0.2278
6.03%
Stochastic Gradient (svmsgd)
1.4 secs
0.2275
6.02%
Stochastic Gradient (svmsgd2
1.4 secs
0.2275
6.01%
Apprentissage Statistique
- P. Gallinari
101
Annexe : Optimisation
Problèmes sous contraintes égalités, inégalités
 Soient f, gi, i = 1..k, hj, j = 1 ..n des fonctions définies sur Rn à valeur dans
R
 On considère le problème primal suivant (Pb. 0) :
Min( f ( w)), w    R n
Sous Contraintes
 g i ( w)  0, i  1..k

h j ( w)  0, j  1..m
Apprentissage Statistique
- P. Gallinari
102
Optimisation non contrainte
 Fermat
 Une C.N. pour que w* soit un min. de f(w) est
f ( w*)
0
w
 Si f est convexe c’est une Condition Suffisante
F est convexe si ∀ ∈ 0,1 ,
1
1
Apprentissage Statistique
- P. Gallinari
103
Optimisation
Lagrangien
 On considère le (Pb. 1) :
Min( f ( w)), w    R n
S .C.
h j ( w)  0, j  1..m
 On définit le Lagrangien L pour (Pb. 1) par
m
L( w,  )  f ( w)    j h j ( w)
i 1
 les βi sont les coefficients de Lagrange
Apprentissage Statistique
- P. Gallinari
104
Optimisation
Th. Lagrange
 Une CN pour que w*, * soit solution de (Pb. 1) est que en ce
point
 L( w*,  *)
0

w
 L( w*,  *)

0


 Si L(w, *) est une fonction convexe de w, c’est une C.S.
Apprentissage Statistique
- P. Gallinari
105
Optimisation
Lagrangien augmenté
 De même, on définit le Lagrangien augmenté pour (Pb. 0) :
k
m
i 1
j 1
L( w,  )  f ( w)    i g i ( w)    j h j ( w)
Optimisation
Th. Kuhn et Tucker
 On considère (Pb. 0) avec Ω convexe et f  C1 convexe, gi, hj
affines (hi = A.w – b)
 1 CNS pour que w* soit un optimum est qu’il existe α* et β* /
 L( w*,  *,  *)
Rq :
0

w

Soit une contrainte est active (αi* ≠
L
w



(
*,
*,
*)

0) et gi(w*) = 0), w* est un point
0


frontière de la région admissible

 i * g i ( w*)  0, i  1..k Soit elle est inactive ((αi* = 0) et w*
 g ( w*)  0, i  1..k
est dans la région admissible
 i
 i *  0, i  1..k



Apprentissage Statistique
- P. Gallinari
107
 Formulation duale du problème d’optimisation
 Le (Pb. 0 _ formulation primale) est équivalent à la forme duale
suivante :
Maximiser ,  ( inf w L( w,  ,  ))
S.C.
 0
 Rq : inf w L( w,  ,  )
est une fonction de ,  uniquement
Apprentissage Statistique
- P. Gallinari
108
SVM – formulations primale et duale
 SVM
 Ω, f, contraintes sont convexes, L est quadratique
 On étudie le cas, D = {(xi ,di)}i = 1..N linéairement séparables
 Formulation similaire pour le cas non linéairement séparable
 Pb. Primal
Min( w.w)
(i.e. max la marge)
S .C.
d i ( w.x i  b)  1, i  1..N
 Lagrangien primal
N
1
L( w, b,  )  w.w    i (d i ( w.x i  b)  1)
2
i 1
i  0
 Lagrangien dual
N
1 N i j
L( w, b,  )    i   d d  i j ( x i .x j )
2 i 1
i 1
Apprentissage Statistique
- P. Gallinari
109
SVM – formulations primale et duale
 Pb. Dual
N
1 N i j
L( w, b,  )    i   d d  i j ( x i .x j )
2 i 1
i 1
S .C.
N i
 d  i  0
 i 1

 i  0, i  1..N
 Fonction de décision
F ( x,  *,  *) 
i
i
d

*
(
x
.x )  b *

i
iS .V
Apprentissage Statistique
- P. Gallinari
110
Apprentissage non
supervisé
Algorithme EM et mélange de densités
Probabilistic Latent Semantic Analysis
Latent Dirichlet Allocation
Spectral clustering
Non Negative Matrix Factorization
Applications
 analyse des données quand il n'y a pas de connaissance
sur la classe.
 e.g. pas d'étiquetage des données (problème nouveau)
 trop de données ou étiquetage trop compliqué
 e.g. traces utilisateur (web), documents web, parole, etc
 réduction de la quantité d'information
 e.g. quantification
 découverte de régularités sur les données ou de
similarités.
Apprentissage Statistique
- P. Gallinari
112
Apprentissage non
supervisé
Algorithme Espérance Maximisation (EM)
Application aux mélanges de densités
Algorithme E. M. (Espérance Maximisation)
 On dispose
 de données D = {xi}i = 1..N
 On n’a pas d’étiquette di
 d’un modèle génératif, de paramètres W : FW
 Le modèle « explique » la génération des données
 On veut trouver les paramètres du modèle qui expliquent au mieux la
génération des données
 On se donne un critère
 Ici on considère la vraisemblance des données qui est le critère le plus
fréquent
 P(D| W) = P(x1, …, xN| W)
 D’autres critères sont également couramment utilisés
 On va essayer de déterminer les paramètres W de façon à maximiser la
vraisemblance
Apprentissage Statistique
- P. Gallinari
114
Exemple
 On recueille des données sur deux populations
 e.g. taille d’individus D = {xi}i = 1..N
 Hypothèse
 les données de chaque population sont gaussiennes
 Elles ont la même variance 2
N ( 1 ,  2 Id ), N (  2 ,  2 Id )
 Problème
 estimer les i et les  à partir des données
 Si les di sont connus, i.e. D = {(xi, di}i = 1..N la solution est simple
 On a deux population séparées (2 classes) C1, C2
 La maximisation de la vraisemblance donne l’estimateur classique de la moyenne
j  1
C
 Difficulté : les di sont inconnus
Apprentissage Statistique
- P. Gallinari
x
i
i
j x C j
115
Cas où l’appartenance est connue
 Vraisemblance
∏

∏
|
∈
∈
|
 En pratique on maximise la log-vraisemblance
∑
log

∑
∈
∈
 Cas des gaussiennes
exp


0⇔
|
|
∑
∈
Apprentissage Statistique
- P. Gallinari
116
Cas où la probabilité d’appartenance est
connue
 On connait
| ,k 1,2

 Log-vraisemblance
log

∑ log
 Cas des gaussiennes

0⇔
∑
∑
 Rq : si on ne connait les
.
|
| ,k 1,2
 leséquationsformentunsystèmenonlinéairecouplé,insoluble.
Apprentissage Statistique
- P. Gallinari
117
Variables cachées (ou latentes)
 On postule
 l’existence de variables cachées h responsables de la
génération des données
 À chaque xi, on associe sa classe cachée hi
 H = {hi}I = 1..N
 l’existence d’une fonction densité jointe sur les données
observées et cachées p(x, h)
 P(D, H| W) sera appelé vraisemblance complète des
données pour le modèle W.
 Remarque
 Les variables h sont inconnues et sont considérées comme
des variables aléatoires
 P(D, H| W) sera elle même une variable aléatoire
Apprentissage Statistique
- P. Gallinari
118
Algorithme EM
 On veut maximiser P(D/W)à partir de l'observation des données visibles
 Problème
 la maximisation directe de P(D/W) ne conduit pas à des formules calculatoires
(algorithme)
 Solution : on maximise de façon itérative une fonction auxiliaire Q
 L’espérance de la vraisemblance des données complètes connaissant le modèle
courant
 L’espérance est calculée par rapport à la distribution des variables cachées h
 Le modèle courant à l’étape t est noté W(t)


Q (W/W (t ) )  E log p ( D, H/W )/D, W (t )   p ( H/D, W (t ) ) log p ( D, H/W )
H
 Remarque : dans cette expression
 D et W(t) sont des constantes
 h est une variable aléatoire de densité p(h|x, W(t))
 W est les paramètres du modèle que l’on veut estimer
Apprentissage Statistique
- P. Gallinari
119
Algorithme EM
Initialiser W = W(0)
1. Etape E : Espérance
(t )
On calcule
p ( H/D ,W
)
On en déduit Q (W/W (t ) )
L'espérance est calculée par rapport à la distribution de H
2. Etape M : Maximisation
Etant donnée la distribution courante sur H, trouver les paramètres qui
maximisent Q
W
( t  1)

 arg max E log p ( D , H / W )/ D , W
(t )

W
 L’algorithme converge vers un maximum local de la fonction Q et
de P(D/W)
Apprentissage Statistique
- P. Gallinari
120
 Remarques
(t )
 Lors de l'étape E, on estime la distribution de H, p ( H/D ,W ) à
partir des valeurs courantes des paramètres W(t).
 Au lieu d'essayer de maximiser directement, p ( D/W ) on utilise
la fonction auxiliaire Q.
 On peut montrer la convergence de l'algorithme par :
t
t
Q (W /W )  Q (W /W
t
)  p ( D / W )  p ( D /W
t
)
 L'algorithme est utilisé pour
 les algorithmes non supervisés, semi - supervisés
 les données manquantes ou les composantes manquantes dans les
données
 les HMM ...
Apprentissage Statistique
- P. Gallinari
121
Exemple
 Mélange de densités - Cas de deux classe gaussiennes,  connu
i
 But (MV) : trouver 1, 2  arg max p(D / 1, 2)
D  (x ) i 1..N
i
i i
 On considère
D  H  (x , h ) i 1..N , les h sont les données
cachées
 Algorithme
 
 
( 0)
(0)
1 ,  2
 Initialisation
 itérer
 Etape E
i
i
calculer p(h  j / x ) i = 1..N, j = 1,2
Q( 1 ,  2 ,  1t ,  2t ,  t )  E[ P ( D  H / 1t ,  2t ,  t )]
 Etape M
calculer
(t 1)
j

 p(h 
i 1..N
 p(h 
i 1..N
j / xi)xi
Trouver les μ1, μ2 qui maximisent Q
j / xi)
Apprentissage Statistique
- P. Gallinari
122
 Remarques
 Etape E : calcul de la responsabilité de chaque gaussienne pour
chaque point
i
i
i
i
i
p(h  j / x ) 
p(h  j)p(x / h  j)
i
i
i
p
(
h

k
)
p
(
x
/
h
 k)

k
 Etape M : chaque centre est défini comme le centre de toutes les
données, chacune étant pondérée par cette responsabilité
 Cas limite :  = 0 : algorithme des k-moyennes
Apprentissage Statistique
- P. Gallinari
123
Mélange de densités – cas gaussien
 On suppose que le modèle génératif des données est un
mélange de densités gaussiennes
 On fixe a priori le nombre de composantes du mélange à k
 on suppose que les données x sont unidimensionnelles
p (x ) 
k

p ( l ) p ( x /l )
p( x / l ) 
l 1
1
( 2 )
2 1/ 2
l

e
( x  l ) 2
2 l2
 Paramètres
 Coefficients du mélange p(l| x), moyennes et écarts types

W  p (l ),  , 
l
Apprentissage Statistique

l l 1..k
- P. Gallinari
124
 Vraisemblance
p ( D /W ) 
N
k

i
p ( l/W ) p ( x /l ,W )
i 1 l 1
 Vraisemblance complète
 variables cachées : hi classe de xi
log p (D , H/W ) 

N
i
i
i
 log( p (h /W ) p (x /h ,W ))
i 1
N k
 
i 1l 1 lh
i
i
Apprentissage Statistique
log( p (l/W ) p (x /l ,W ))
- P. Gallinari
125
Mélange de densité – Etapes E et M
 Etape E
p(h  j/xi ,W (t ) ) 
p( xi /h  j,W (t ) ) p(h  j W (t ) )

l 1..k
Q (W/W
(t )
)  E H/X ,W ( t ) [log p ( D, H W )] 
p( xi /h  l ,W (t ) ). p(h  l W (t ) )
k
k
 ... 
h1 1 h N 1
N
N
log p ( D , H/W ) p ( h i /x i ,W ( t ) )
i 1

k
   p (l/x i ,W ( t ) ) log p (l/W ) p ( x i /l ,W )
i 1 l 1
 Etape M

Min ( Q )
k

k
 Min ( Q   ( p (l/W )  1))

l 1
sous contrainte  p (l/W )  1
l

1

Apprentissage Statistique
- P. Gallinari
126
Mélange de densités – Reestimation dans
l’étape M
 p ( j / x i , W (t ) ) x i
 (jt 1)  i
 p ( j / x i , W (t ) )
i


 p ( j / x ,W
i
(t 1) 2 1 i

j
n
(t )
(t 1) 2
) x j
i
 p ( j / x i , W (t ) )
i
p ( j )(t 1) 
1
p ( j / x i , W (t ) )

N i
Apprentissage Statistique
- P. Gallinari
127
Apprentissage non
supervisé
Mélange de densités
Apprentissage par échantillonnage de Gibbs
Les méthodes MCMC
Markov Chain Monte Carlo
 Méthodes de calcul intensif basées sur la simulation
pour
 Echantillonnage de variables aléatoires
 {x(t)}t=1..T qui suivent une certaine distribution p(x)
 Calcul de l’espérance de fonctions suivant cette distribution
 E[f(x)] sera estimé par 1/T .
Σt=1..Tf(x(t))
 e.g. moyenne, marginales, …
 Maximisation de fonctions
 Argmaxxp(x)
Apprentissage Statistique
- P. Gallinari
129
Echantillonneur de Gibbs
 On veut estimer une densité p(x) avec x = (x1,..,xn)
 Hyp
 On connait les lois conditionnelles
 p(xi| x1,.., xi -1, xi+1,..., xn) = p(xi| x - i)
 Algorithme
 Initialiser {xi, i = 1..n}
 Pour t = 1 …T faire
Echantillonner
x1t 1 ~ p ( x1 xt 1 )
........
Echantillonner
xnt 1 ~ p ( xn xt n )
Apprentissage Statistique
- P. Gallinari
130
 Propriétés
 Sous certaines conditions de régularité, la procédure
converge vers la distribution cible p(x)
 Les échantillons résultants sont des échantillons de la loi
jointe p(x)
 On n’a pas besoin de connaitre la forme analytique des
p(xi| x - i) mais uniquement de pouvoir échantillonner à
partir de ces distributions
 Mais la forme analytique permet d’avoir de meilleurs estimés
 Avant de retenir les points échantillons, on autorise
souvent une période de “burn-in” pendant laquelle on fait
simplement tourner l’algorithme “à vide”
 Gibbs facile à implémenter, adapté aux modèles
hierarchiques (cf LDA)
Apprentissage Statistique
- P. Gallinari
131
Cas du mélange de deux lois gaussiennes
 Modèle
2
p( x)   p(l ) p ( x / l )
l 1
 On va considérer un modèle augmenté en ajoutant une variable cachée
h
 Les données complètes sont les (xi, hi)
 Les paramètres à estimer sont :
W  p(l ), l , l l 1..2

 On va utiliser Gibbs en échantillonnant sur les densités conditionnelles
 Pour simplifier on suppose dans l’example que les proportions p(l) et
les variances σ sont fixées, on estime juste les moyennes μ1 et μ2
 Pour cela, on va échantillonner suivant la distribution jointe (h(t), μ1(t),
μ2(t))
Apprentissage Statistique
- P. Gallinari
132
Echantillonneur de Gibbs pour le modèle de
mélange de deux gaussiennes
Choisir des valeurs initiales 1( 0) ,  2( 0 )
Répéter t  1...T
Pour i  1...N
1. générer hi(t )  0,1 selon
p(hi  j ) 
p (jt 1) p( xi  (jt 1) , j )
( t 1)
1
p
( t 1)
1
p ( xi 
, 1 )  p
( t 1)
2
p ( xi 
( t 1)
2
, 2 )
, j  1,2
calculer
N
ˆ j 
 (1  hi(t ) ).xi
i 1
N
 (1  hi(t ) )
, j  1,2
i 1
2. générer  j(t) ~ N ( ˆ j , j ), j  1,2
Apprentissage Statistique
- P. Gallinari
133
Lien avec l’algorithme EM
 Les étapes pour cet exemple sont les mêmes que avec
EM
 Différence
 Au lieu de maximiser la vraisemblance, aux étapes 1 et 2,
on échantillonne
 Etape 1 : on simule les variables cachées h au lieu de calculer
E(h|W, D)
 Etape 2 : on simule à partir de p(μ1, μ2|h, D) au lieu de calculer
le max. vraisemblance p(μ1, μ2| D) dans EM
Apprentissage Statistique
- P. Gallinari
134
Apprentissage non
supervisé
Algorithmes à variables latentes
 Probabilistic Latent Semantic Analysis
 Latent Dirichlet Allocation
Preliminaries : unigram model
 Generative model of a document
p(d )   p(wi d )
i
 Select document length
 Pick a word w with probability p(w)
 Continue until the end of the document
 Applications
 Classification
 Clustering
 Ad-hoc retrieval (language models)
Apprentissage Statistique
- P. Gallinari
136
Preliminaries - Unigram model – geometric
interpretation
P(w3|d)
Document d
doc d representation
p( w1 d )  1 / 4
Word simplex
p( w2 d )  1 / 4
p( w3 d )  1 / 2
P(w1|d)
P(w2|d)
Apprentissage Statistique
- P. Gallinari
137
Latent models for document generation
 Several factors influence the creation of a document
(authors, topics, mood, etc).
 They are usually unknown
 Generative statistical models
 Associate the factors with latent variables
 Identifying (learning) the latent variables allows us to
uncover (inference) complex latent structures
Apprentissage Statistique
- P. Gallinari
138
Probabilistic Latent Semantic Analysis PLSA (Hofmann 99)
 Motivations
 Several topics may be present in a document or in a
document collection
 Learn the topics from a training collection
 Applications
 Identify the semantic content of documents, documents
relationships, trends, …
 Segment documents, ad-hoc IR, …
Apprentissage Statistique
- P. Gallinari
139
PLSA
 The latent structure is a set of topics
 Each document is generated as a set of words chosen from
selected topics
 A latent variable z (topic) is associated to each word occurrence
in the document
 Generative Process
 Select a document d, P(d)
 Iterate
 Choose a latent class z, P(z|d)
 Generate a word w according to P(w| z)
 Note : P(w| z) and P(z|d) are multinomial distributions over the V
words and the T topics
Apprentissage Statistique
- P. Gallinari
140
PLSA - Topic
 A topic is a distribution over words
P(w|z)
words
word
P(w|z)
machine
0.04
learning
0.01
information
0.09
retrieval
0.02
……
…….
 Remark
 A topic is shared by several words
 A word is associated to several topics
Apprentissage Statistique
- P. Gallinari
141
PLSA as a graphical model
Document
level
d
P(z|d)
z
P(w|z)
Corpus
level
w
Boxes represent
repeated
sampling
Nd
D
 P(d , w)  P(d ) * P ( w d )

P( w d )  P( w z ) P( z d )
z

Apprentissage Statistique
- P. Gallinari
142
PLSA model
 Hypothesis
 # values of z is fixed a priori
 Bag of words
 Documents are independent
 No specific distribution on the documents

Conditional independence
 z being known, w and d are independent
 Learning
 Maximum Likelihood : p(Doc-collection)
 EM algorithm and variants
Apprentissage Statistique
- P. Gallinari
143
PLSA - geometric interpretation
 Topici is a point on the word simplex
 Documents are constrained to lie on the topic simplex
 Creates a bottleneck in document representation
w3
Word simplex
Topic simplex
topic1
Document d
P( w d )   P( w z ) P( z d )
topic2
w2
topic3
Apprentissage Statistique
- P. Gallinari
z
w1
144
Applications
 Thematic segmentation
 Creating documents hierarchies
 IR : PLSI model
 Clustering and classification
 Image annotation
 Learn and infer P(w|image)
 Collaborative filtering
 Note : #variants and extensions
 E.g. Hierarchical PLSA (see Gaussier et al.)
Apprentissage Statistique
- P. Gallinari
145
Latent Dirichlet Allocation - LDA (Blei et al. 2003)
 LDA is also a topic model
 Extends PLSA
 Motivations
 Generalization over unseen documents
 Define a probabilistic model over documents
 Not present in PLSA
 Allows to generate (model) unseen documents
 Overtraining
 In PLSA, the number of parameters grows with the corpus
size
 LDA constrains the distribution of topics for each document
and words for each topic
Apprentissage Statistique
- P. Gallinari
146
LDA - model
 Similar to PLSA with the addition of a prior distribution on
the topic distribution
 Generative process
 For a document
 Topic distribution
 Choose θ ~ Dirichlet () a distribution over topics
 Words
 For each document word w
 Choose a topic z ~ multinomial (θ)
 Choose a word w from p(w | θ, ) multinomial probability
conditioned on topic z
Apprentissage Statistique
- P. Gallinari
147
LDA - model
Dirichlet
Multinomial
Ф(z)
β
Dirichlet

Document
level
T
Corpus
level
Multinomial
θ
z
w
Nd
D
Nd
p ( ,  , Z ,W  ,  )  p (  ) p (  ) p( zi  ) p( wi zi ,  )
i 1
 Nd


p (W  ,  )   p (  ) p(  )  p ( zi  ) p( wi zi ,  ) dd


 i 1 zi

Apprentissage Statistique
- P. Gallinari
148
LDA – model - unfolded
P(z|1)

Doc1
Doc2
1
topics
2

Z1,1
Z1,2
Z2,1
words
w1,1
w1,2
w2,1
………
P(w|z1,1)
Apprentissage Statistique
- P. Gallinari
149
PLSA vs LDA - geometric interpretation
 PLSA provides a sampling of the document distribution on the topic
simplex
 LDA provides an estimate of the document distribution on the topic
simple
w3
Observed
documents
w3
topic1
Document
distribution
topic2
w2
topic1
topic2
topic3
w1
w2
Apprentissage Statistique
- P. Gallinari
topic3
w1
150
Dirichlet etc…
 ,  are priors on the distributions  and 
 Perform a smoothing of  and  distributions
 ,  control the amount of smoothing
 Dirichlet and multinomial
 Dirichlet is a conjugate prior for multinomial
 Allows to compute closed forms for posterior distributions
Apprentissage Statistique
- P. Gallinari
151
LDA applications
 Exploratory analysis
 Discovering topics
 Topic evolution
 Document tagging by most relevant topic words
 Classification
 Collaborative filtering
 Image annotation
 IR
 All latent models
 Inference on latent variables
Apprentissage Statistique
- P. Gallinari
152
LDA tagging (Blei et al 2003)
Apprentissage Statistique
- P. Gallinari
153
Finding topics in PNAS (Griffith et al. 2004)

PNAS
categories
Mean θi value for the
most significant
topic i on this
category
LDA topics
Apprentissage Statistique
- P. Gallinari
154
Peer to Peer document download analysis
(Denoyer 2008)
 Nodes are files
 Two nodes are connected if they have been dowloaded
by at least 20 peers (500 K peers in total and 2.5 K files)
 Colors indicate the thematic clustering performed by
LDA using the key words associated to files
 Results
 Strong correspondance between download (connections)
and thematic communities
Apprentissage Statistique
- P. Gallinari
155
Peer to Peer document download analysis
(Denoyer 2008)

Apprentissage Statistique
- P. Gallinari
156
Author-recipient topic model (McCallum et al. 2004)
Learning from Enron
data
Identify
•Topic
•Author-recipient
Apprentissage Statistique
- P. Gallinari
157
LDA – learning and inference
 Exact learning and inference are intractable
 Approximate models
 Variational models
 Gibbs sampling
 Expectation propagation…
Apprentissage Statistique
- P. Gallinari
158
Other latent models
 Image annotation
 Author-topic model
 Author-Recipient-Topic
…
Apprentissage Statistique
- P. Gallinari
159
Example: Discovering e-communities (Zhou et al
2006)
 Usual methods
 Rely mostly on graph and connectivity analysis
 Machine learning
 Introduce semantic relationships
 e.g. shared documents in e-mails or linked documents for the
web
 Common interests
 Example : e-mail analysis
 Recipient list (connectivity)
 Message body (Semantic information)
 Identify communities of users based on their exchanges,
and topics
Apprentissage Statistique
- P. Gallinari
160
 A document is characterized by 3 latent variables
 Content t
 Author u
 Community c
 Goal
 Compute p(c, u, z | w)
 Message generation d
 Choose a community c
 Choose an author in the community
 Choose a topic t
 Choose a word according to topic distribution w
Apprentissage Statistique
- P. Gallinari
161
Community-user-topic model
Distribution of users
over communities


c
C
di


U
β
z
Ф
w
Document
level
T
Corpus
level
Nd
D
Apprentissage Statistique
- P. Gallinari
162
Example ( Zhou 06)
Apprentissage Statistique
- P. Gallinari
163
Apprentissage non supervisé
Spectral Clustering
Apprentissage Statistique
- P. Gallinari
164
Spectral Clustering (after Von Luxburg 2007)
 Intuition
 x1, …, xn data points, wij similarity between xi and xj
 G = (V, E) graph
 vertex vi corresponds to data point xi
 Edges are weighted by wij
 Clustering amounts at finding a graph partition such that
 Edges between clusters have low weights
 Edges among points inside a cluster have high values
Apprentissage Statistique
- P. Gallinari
165
 Graphs notations
 G = (V, E) undirected graph
 V = {v1, …, vn)
 Edges are weighted, W = (wij)I, j = 1…n , wij ≥ 0 is the weight
matrix
 D : diagonal matrix with
Apprentissage Statistique
∑
- P. Gallinari
166
 Building similarity graphs from data points
 Different ways to build a similarity graph
 Locally connected graphs: k-nearest neighbor graphs
 Two vertices are connected if one of them is among the knearest neighbor of the other
 Or two vertices are connected if both are in the kneighborhood of the other
 Edges are then weighted using the similarity of the vertices
 Fully connected graphs

exp
/2
)
Apprentissage Statistique
- P. Gallinari
167
 Graph Laplacians
 Unnormalized graph Laplacian

 Normalized graph Laplacians

I
symmetric
interpretation : random
walk on the graph

Apprentissage Statistique
- P. Gallinari
168
 Properties of the unnormalized graph Laplacian
 L satisfies:
 ∀ ∈
, ∑,
 L is symmetric, positive semi-definite
 The smallest eigenvalue of L is 0, the corresponding
eigenvector is 1 (vector with n 1)
 L has n non negative eigenvalues 0
Apprentissage Statistique
- P. Gallinari
…
169
 Properties of the normalized graph Laplacians
 ∀ ∈
∑,
,  Lsym and Lrw are positive semi-definite and have n non
negative eigenvalues 0
…
  is an eigenvalue of Lrw with eigenvector u iff  is an
eigenvalue of Lsym with eigenvector D1/2u
Apprentissage Statistique
- P. Gallinari
170
Unnormalized spectral clustering
 Idée
 Projeter les points x ∈
, i 1 … n, dans un espace de
dimension k dans lequel le clustering se fait facilement
Apprentissage Statistique
- P. Gallinari
171
Unnormalized spectral clustering
 Input: n points x1, …, xn, similarity matrix S
 Output: clusters
 Construct similarity graph and corresponding weight matrix W
 Compute unnormalized Laplacian L
 Compute first eigenvectors of L (corresponding to smallest
eigenvalues): u1, …, uk
 U: n x k matrix with columns u1, …, uk
 For i = 1…n, ∈
i-th row of U
 Cluster yi, i = 1…n with k-means into clusters C1, …, Ck
 k clusters in the initial space: C’1, …, C’k / C’i = {xj / yj  Ci}
 Note: Similar algorithms with normalized Laplacians
Apprentissage Statistique
- P. Gallinari
172
Apprentissage non supervisé
Non Negative Matrix Factorization
Apprentissage Statistique
- P. Gallinari
173
Non Negative Matrix Factorization
 Idea
 Project data vectors in a latent space of dimension k < m
size of the original space
 Axis in this latent space represent a new basis for data
representation
 Each original data vector will be approximated as a linear
combination of k basis vectors in this new space
 Data are assigned to the nearest axis
 This provide a clustering of the data
Apprentissage Statistique
- P. Gallinari
174
 {x1,…, xn}, ∈
,
0
 X m x n non negative matrix with columns the xi s
 Find non negative factors U, V, /
 With U an m x k matrix, U a k x n matrix, k < m, n
U
X
mxn
x
mxk
V
kxn
vv
Apprentissage Statistique
- P. Gallinari
175

,

∑
 Columns ofU,uj arebasisvectors,the
xi inthis basis
arethecoefficientof
Loss function
 Solve
,
Underconstraints , 0
 Convex loss function inUandinV,butnotinboth UandV
Apprentissage Statistique
- P. Gallinari
176
 Algorithm
 Constrained optimization problem
 Can be solved by a Lagrangian formulation
 Iterative multiplicative algorithm (Xu et al. 2003)
 U, V initialized at random values
 Iterate until convergence
←
←
 Or by projected gradient formulations
 The solution U, V is not unique, if U, V is solution, then UD,
D-1V for D diagonal positive is also solution
Apprentissage Statistique
- P. Gallinari
177
 Using NMF for Clustering
 Normalize U as a column stochastic matrix (each column
vector is of norm 1)

←

←
∑
∑
 Under the constraint “U normalized” the solution U, V is
unique
 Associate xi to cluster j if
Apprentissage Statistique
- P. Gallinari
178
 Note
 many different versions and extensions of NMF
 Different loss functions
 e.g. different constraints on the decomposition
 Different algorithms
 Applications




Clustering
Recommendation
Link prediction
Etc
 Specific forms of NMF can be shown equivalent to
 PLSA
 Spectral clustering
Apprentissage Statistique
- P. Gallinari
179
Illustration (Lee & Seung 1999)
 Basis images for
 NMF
 Vector Quantization
 Principal Component Analysis
Apprentissage Statistique
- P. Gallinari
180
Apprentissage Semi
supervisé
Méthodes génératives et discriminantes
Méthodes basées sur les graphes
Problématique
 Cadre
 Problème de discrimination, i.e. on veut estimer P(C| x)
pour toutes les classes C
 Motivation
 Apprendre à classifier des données en utilisant un faible
nombre de données étiquetées et un grand nombre de
données non étiquetées
 L’etiquetage coûte cher, les données non étiquetées sont
souvent largement disponibles
 Utilisation
 Nombreux problèmes du web
 Ressources (temps, moyens humains etc) non disponibles
pour construire des ensembles annotés
Apprentissage Statistique
- P. Gallinari
182
Méthodes
 Très nombreuses méthodes
 Self learning
 Méthodes génératives
 Méthodes discriminantes
 SVM, CEM
 Méthodes à base de graphes
 …
Apprentissage Statistique
- P. Gallinari
183
Apprentissage semi-supervisé
Modèles génératifs
 Approche générale :
 Maximiser la vraisemblance jointe des données étiquetées
et non étiquetées
 Utiliser un algorithme EM
 On en déduit P(C|x) pour tout x
 On regarde ici le cas à 2 classes
 Notations
 D = DLU DU
 DL : Labeled data
 DU : Unlabeled data
 C1 et C2 sont les deux classes considérées
 p1 et p2 sont les probabilités a priori des deux classes C1 et
C2
Apprentissage Statistique
- P. Gallinari
184
Apprentissage semi-supervisé
Modèles génératifs
 Log Vraisemblance des données
Vraisemblance
des données
étiquetées
LM  log p(x)
xD
LM  log p(x)  log p(x)
xDL
Vraisemblance des
données non
étiquetées.
C’est un modèle de
mélange
xDU
log p(x)  log p(x, C )  log p(x, C )
xDL
1
xDL C1
2
xDL C2
2
log p(x)   log( . p(x / C ))
xDU
xi Du
Apprentissage Statistique
- P. Gallinari
k 1
k
i
k
185
Apprentissage semi-supervisé
Modèles génératifs
 La vraisemblance totale s’écrit
2
LM  
 log(
k 1 xi C k
Somme sur les
données
étiquetées
k
. p ( xi / Ck )) 
2
 log ( 
xi Du
Somme sur les
données non
étiquetées
k 1
k
. p ( xi / Ck ))
Modèle de mélange
 Important
 Les modèles pour les densités p(x| C) sont les mêmes pour
les données supervisées et non supervisées
 C’est ce qui permet de capturer dans une même fonction
nles informations supervisées et non supervisées
Apprentissage Statistique
- P. Gallinari
186
Apprentissage semi-supervisé
Modèles dicriminants (Amini 2004)
 Au lieu de maximiser la vraisemblance, on va maximiser
la vraisemblance classifiante (Symons et al. 71).
 But
 classifier les exemples en c groupes en prenant une
décision “dure”.
x  Ck  t k  1 et h  k , t h  0
 avec T=(t1,…,tc) le vecteur des indicateurs de classe:
 Vraisemblance classifiante
 vraisemblance des données complètes
(donnée, classe) :
c
N
LC ( C ,  ,  ) 
t
ki . log(  k . p ( x i
/ C k ,  k ,  k ))
k 1 i 1
Apprentissage Statistique
- P. Gallinari
187
8
 Comparer avec la vraisemblance usuelle pour un
mélange de densités :
LC ( C ,  ,  ) 
N
c
11
k 1
 log  t
ki .( k . p ( x i
Apprentissage Statistique
- P. Gallinari
/ C k ,  k ,  k ))
188
Vraisemblance classifiante pour le cas semisupervisé
 Pour un classifieur discriminant maximiser LC est
equivalent à maximiser
c
~
LC (C ,  , )  
c nm
 log( p(Ck / xi ,  k , k ))    tki . log( p(Ck / xi , k , k ))
k 1 xiCk
k 1 i n 1
 n étiquetés, m non étiquetés
 Algorithme : CEM
Apprentissage Statistique
- P. Gallinari
189
9
Mesures d’évaluation
 Caractéristique des ensembles de données
Classification
Text summarization
 Critère de performance
Decision du système
Precision =
Pertinent
PGC =
+
+
+
Non pertinent
Apprentissage Statistique
IJCAI’03
- P. Gallinari
190
Exemple : Email spam
82%
73%
65%
5%
Apprentissage Statistique
IJCAI’03
- P. Gallinari
191
Exemple : Résumé de texte
Apprentissage Statistique
IJCAI’03
- P. Gallinari
192
Apprentissage semi-supervisé
Modèles de graphes
 Les modèles génératifs ou discriminants précédants ne
prennent pas en compte la densité locale des données.
 Ils ne considèrent que la cohérence globale des données
 Vraisemblance
 Sans considérer la cohérence locale
 Voisinage des points, densité locale
 Cela peut conduire à des erreurs importantes si les
densités ne sont pas bien séparées
 Plusieurs familles de modèles ont été proposées pour
prendre en compte à la fois les cohérences globales et
locales des données
 Parmi elles, les méthodes à base de graphes
Apprentissage Statistique
- P. Gallinari
193
Data consistency (Zhou et al. 2003)
 SSL rely on local (neighbors share the same label) and global (data
structure) data consistency
Fig. from Zhou
et al. 2003
Apprentissage Statistique
- P. Gallinari
194
 Graph methods general idea
 Create a graph G = (V, E)
 Compute a similarity matrix W: Wij is the similarity between
nodes i and j
 Propagate observed labels to unlabeled nodes
Apprentissage Statistique
- P. Gallinari
195
Example (Zhou et al 2003)
 Compute
 an affinity matrix W
W : Wij  exp(
 a normalized affinity matrix S

1
2
S  D WD

xi  x j
2
2
2
),Wii  0
1
2
D is a diagonal matrix whose ith
element is the sum of ith row of W
 Iterate
Y (t  1)  S.Y (t )  (1   )Y (0)
 Converges to Y* final labels on
unlabeled data
Apprentissage Statistique
Y(0) matrix of initial labels and
0 for unlabeled data
- P. Gallinari
196
Iterations

Fig. from Zhou
et al. 2003
Apprentissage Statistique
- P. Gallinari
197
Apprentissage en présence de données
positives uniquement
 Problème
 Discrimination avec des étiquetages dans une seule classe
-positifs- et en faible nombre
 Nombreuses instances dans la réalité
 Méthode pratique générale
 On considère que les exemples les plus éloignés des
exemples étiquetés sont négatifs
 On applique un algorithme d’apprentissage semi-supervisé
Apprentissage Statistique
- P. Gallinari
198
Quelques liens utiles
 Livres
 Cornuéjols, A and Miclet L.: Apprentissage Artificiel. Concepts et
algorithmes (2nd Ed.with revisions and additions - 2006 Eyrolles, 650 p
 Christopher M. Bishop, Pattern Recognition and Machine Learning,
Springer (2006).
 David Barber, 2012, Bayesian Reasoning and Machine Learning,
Cambridge Univ. Press.
 Software
 General
 Weka 3: Data Mining Software in Java

http://www.cs.waikato.ac.nz/ml/weka/

http://lush.sourceforge.net)
 Lush (Leon Bottou)
 SVM
 http://www.csie.ntu.edu.tw/~cjlin/libsvm/
http://svmlight.joachims.org/
http://www.torch.ch/
 Test sets
 UCI machine learning repository
 …..
Apprentissage Statistique
- P. Gallinari
199
Téléchargement