Tr-M2-1-2006

publicité
Cornuéjols
1- Introduction à l’apprentissage
1
Introduction à
l’Apprentissage Artificiel
Antoine Cornuéjols
INA-PG
et L.R.I., Université de Paris-Sud, Orsay (France)
[email protected]
http://www.lri.fr/~antoine/
11/12/06
Le cours
Cornuéjols
1- Introduction à l’apprentissage
2
• 1-2-3-4-5-6-7-8
• Documents


Le livre
"L'apprentissage artificiel. Concepts et algorithmes"
A. Cornuéjols & L. Miclet. Eyrolles. 2002.
Les transparents sur www.lri.fr/~antoine/ …cours apprentissage
11/12/06
Cours : plan prévu
Cornuéjols
1-
Introduction à l’induction (AC)
2-
Apprentissage statistique (BK)
3-
Apprentissage par méthodes d’ensemble (BK)
4-
Apprentissage non supervisé (BK)
5-
Réseaux de neurones / Validation (AC)
6-
Apprentissage de séquences (AC)
7-
Fouille de données (MS)
8-
Fouille de données relationnelles (MS)
1- Introduction à l’apprentissage
3
11/12/06
Cours 1: plan
1-
Cornuéjols
1- Introduction à l’apprentissage
4
Introduction à l’induction
1.1-
Visages de l’apprentissage
1.2-
Des algorithmes
1.3-
Approche plus formelle de l’induction
1.4-
Apprentissage par exploration
11/12/06
Cornuéjols
1.1 Applications : Analyse de puces à ADN
1- Introduction à l’apprentissage
5
Analyse de l’expression des gènes dans un phénomène biologique
Combien de gènes ?
Quels gènes ?
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
6
1.1 Applications : Prédiction de la bioactivité de molécules
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
7
1.1 Applications : Prédiction du risque cardio-vasculaire
11/12/06
Cornuéjols
1.1 Applications : Analyse de grilles de calcul
1- Introduction à l’apprentissage
8
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
9
1.1 Applications : Grand DARPA challenge (2005)
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
10
1.1 Applications : Grand DARPA challenge (2005)
150 mile off-road robot race
across the Mojave desert
Natural and manmade hazards
No driver, no remote control
No dynamic passing
Fastest vehicle wins the race
(and 2 million dollar prize)
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
11
1.1 Applications : Grand DARPA challenge (2005)
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
12
1.1 Applications : Grand DARPA challenge (2005)
11/12/06
1.1 Applications : SKY SURVEY
Cornuéjols
1- Introduction à l’apprentissage
13
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
14
1.1 Applications : Apprendre à étiqueter des images
• Reconnaissance de visages
“Face Recognition: Component-based versus Global Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),
Computer Vision and Image Understanding, Vol. 91, No. 1/2, 6-21, 2003.
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
15
1.1 Applications : Apprendre à étiqueter des images
• Reconnaissance de visages
11/12/06
1.1 Applications : Robot sur Mars
Cornuéjols
1- Introduction à l’apprentissage
16
11/12/06
1.1 Applications : Robots
Cornuéjols
1- Introduction à l’apprentissage
17
• Robot wowwee
11/12/06
Cornuéjols
1.1 Applications : Agent virtuel sur la Toile
1- Introduction à l’apprentissage
18
11/12/06
1.1- Autres apprentissages
Cornuéjols
1- Introduction à l’apprentissage
19
• Association
• Imitation
• Apprentissage de comportement :

Apprendre à marcher (insectoïdes de Brooks)

Apprendre à se comporter sur une planète
• Apprendre à mieux jouer

S'adapter à l'adversaire

Ne pas répéter ses fautes

Apprendre à jouer en équipe
QuickTime™ and a
Video decompressor
are needed to see this picture.
– Équipes de robots
11/12/06
1.1- Autres apprentissages
Cornuéjols
1- Introduction à l’apprentissage
20
• Apprentissage pour la navigation

Apprentissage de trajets (fourmis, abeilles)

Robots
• Discrimination

Identification de sous-marins vs. bruits naturels

Identification de locuteur / de signature

Reconnaissance de l'écriture manuscrite, de la parole

Code postal
• Catégorisation

SKY SURVEY
11/12/06
1. 1- Autres apprentissages
Cornuéjols
1- Introduction à l’apprentissage
21
• Systèmes autonomes avec apprentissage
11/12/06
1.1- Autres apprentissages
Cornuéjols
1- Introduction à l’apprentissage
22
• Révision de théorie
• Découverte scientifique

Découverte de régularités (en biochimie, …)
• Apprendre à filtrer l'information
• Apprendre les préférences d'un utilisateur
• Apprendre à faire des résumés
• Apprendre à communiquer (e.g. Steels, …)
• ...
11/12/06
1. 1- Quel objectif ? (5)
Cornuéjols
1- Introduction à l’apprentissage
23
Et aussi
Mieux comprendre l'apprentissage :
• Pour ne pas avoir à programmer

Programmation par la démonstration

Programmation par l'exemple (e.g. l'EBL)

Programmation par échantillon d'apprentissage : induction
• Pour mieux enseigner
• Pour savoir ce que d'autres intelligences pourraient apprendre :
théorie générale de l'apprentissage
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
24
1.1- C'est quoi la science de l'apprentissage artificiel ?
On étudie les apprentissages :


naturels

artificiels
des théories
(s'appliquant à tout système apprenant)

des méthodes et des algorithmes d'apprentissage
Implémentables sur machines
11/12/06
1. 1- Des scénarios
Cornuéjols
1- Introduction à l’apprentissage
25
• Induction

1 2 3 5…

111211211111221312211…

Comment ?

Pourquoi serait-il possible de faire de l’induction ?


Est-ce qu’un exemple supplémentaire doit augmenter la confiance dans la
règle induite ?
Combien faut-il d’exemples ?
11/12/06
1. 1- Des scénarios
Cornuéjols
1- Introduction à l’apprentissage
26
QuickTime™ et un
décompresseur TIFF (non compressé)
sont requis pour visionner cette image.
• Est-ce de l’apprentissage ?

Phénomène de mémoire, sans mémoire !?
11/12/06
Cornuéjols
1. 1- Des scénarios
abc
1- Introduction à l’apprentissage
27
aababc
ijjkkk
abd
?
?
• Séquences d’analogies

Quelles situations sélectionner ?

Dans quel ordre ?

Est-ce de l’apprentissage ?
11/12/06
Cornuéjols
1. 1- Des scénarios
1- Introduction à l’apprentissage
28
E2
E1
A
C
B
D
• Soient deux exemples dont les descriptions pourraient être :

E1 : Un triangle rayé au-dessus d’un carré uni noir

E2 : Un carré uni blanc au-dessus d’un cercle rayé

Formuler une description générale de ces deux exemples
11/12/06
1. 1- Des scénarios
Cornuéjols
1- Introduction à l’apprentissage
29
Problème
Quel est le nombre a qui prolonge la séquence :
1 2 3 5…a
?
11/12/06
Cornuéjols
1. 1- Des scénarios
1- Introduction à l’apprentissage
30
• Solution(s). Quelques réponses valides :

a = 6.
Argument : c’est la suite des entiers sauf 4.

a = 7.
Argument : c’est la suite des nombres premiers.

a = 8.
Argument : c’est la suite de Fibonacci
a = 2 p. (a peut être n’importe quel nombre réel supérieur ou égal à 5)
Argument : la séquence présentée est la liste ordonnée des racines du polynôme :

P = x 5 - (11 + a)x 4 + (41 + 11a)x 3 - (61 - 41a)x 2 + (30 + 61a)x - 30a
qui est le développement de : (x - 1) . (x - 2) . (x - 3) . (x - 5) . (x - a)
• Généralisation
Il est facile de démontrer ainsi que n’importe quel nombre est une prolongation correcte de
n’importe quelle suite de nombre
Mais alors …
comment faire de l’induction ?
et que peut-être une science de l’induction ?
11/12/06
Cornuéjols
1. 1- Des scénarios
1- Introduction à l’apprentissage
31
• Exemples décrits par :

nombre (1 ou 2); taille (petit ou grand); forme (cercle ou carré); couleur (rouge ou vert)
• Les objets appartiennent soit à la classe + soit à la classe Description
Votre réponse
Vraie réponse
1 grand carré rouge
-
1 grand carré vert
+
2 petits carrés rouges
+
2 grands cercles rouges
-
1 grand cercle vert
+
1 petit cercle rouge
+
1 petit carré vert
-
1 petit carré rouge
+
2 grands carrés verts
+
11/12/06
1. 1- Des scénarios
Cornuéjols
1- Introduction à l’apprentissage
32
Quick Time™e tun d écomp res seur TIFF (n on comp res sé) s ont req uis pour visionne r cette image.
• Oui
Quick Time™e tun d écomp res seur TIFF (n on comp res sé) s ont req uis pour visionne r cette image.
• Oui
QuickT ime ™et un dé compr ess eur T IF F (no n compr ess é) so ntr equ is p our v is io nner cette ima ge.
• Non
11/12/06
1. 1- Des scénarios
Cornuéjols
1- Introduction à l’apprentissage
33
Quick Time™e tun d écomp res seur TIFF (n on comp res sé) s ont req uis pour visionne r cette image.
• Est-ce une tâche de reconnaissance de forme ? de caractères ?
• Comment coder les exemples ?
01111110111001000000100000010111111 11101111001110
• Le choix de la représentation peut rendre l’apprentissage trivial

Mais comment faire ce choix ?
11/12/06
Cornuéjols
1. 1- Des scénarios
1- Introduction à l’apprentissage
34
Apprendre par coeur ? IMPOSSIBLE
 Généraliser
Comment coder les formes ?
b
11/12/06
1. 1- Des scénarios
Cornuéjols
1- Introduction à l’apprentissage
35
• Extraction de caractéristiques (descripteurs, attributs)

Eliminer les descripteurs non pertinents

Introduction de nouveaux descripteurs
– Utilisation de connaissances a priori
• Invariance par translation
• Invariance par changement d’échelle
– Histogrammes
– Combinaisons de descripteurs

Ajouter des descripteurs (beaucoup) !!
11/12/06
Cornuéjols
1. 1- Des scénarios
1- Introduction à l’apprentissage
36
• Quel critère de performance (de succès) ?

Probabilité de misclassification

Risque

Nombre d’erreurs
• Apprentissage sur un échantillon d'apprentissage
• Test sur une base de test
"Erreur"
Courbe d'apprentissage
Taille échantillon
11/12/06
Introduction à l’induction
Cornuéjols
1- Introduction à l’apprentissage
37
• Induction :
Proposer des lois générales à partir de l’observation de cas
particuliers
11/12/06
Comment définir l’apprentissage ?
Cornuéjols
1- Introduction à l’apprentissage
38
• « Learning is any change in a system that allows it to perform better the second time on
repetition of the same task or another task drawn from the same population »
[Herbert Simon, 1983]
• « Learning is making useful changes in mind »
[Marvin Minsky, 1985]
• « Learning is the organization of experience »
[Scott, 1983]
• « Learning is constructing or modifying representations of what is being experienced »
[Riszard Michalski, 1986]
11/12/06
1.1- Ingrédients de l’apprentissage
Cornuéjols
1- Introduction à l’apprentissage
39
• Espace des hypothèses H
• Espace des entrées X
• Mesure de performance
• Optimisation / exploration de H
• Protocole
11/12/06
1.1- Premières notions
Cornuéjols
1- Introduction à l’apprentissage
40
• Protocole

Passif ou actif ?

Incrémental (on-line) ou « tout ensemble » (off-line) ?

Réponses immédiates ou après votre estimation ?
• Critère de succès

Nombre de mauvaises réponses ?

Taux de mauvaises réponses (taux d’erreur) ?

Nombre d’essais avant d’avoir « identifié la solution » ?

Taux d’erreur de votre estimation finale (qui peut être erronée)
(« Taux d’erreur en généralisation »)
11/12/06
1.1- Notion de protocole
Cornuéjols
1- Introduction à l’apprentissage
41
Le protocole règle les interactions entre les acteurs

Environnement :
– Données fournies incrémentalement ou non (apprentissage en-ligne / batch)
– Dans un ordre indifférent / hostile / favorable

Oracle :
– Données semi-supervisées
– Apprentissage multi-instances
– Étiquettes vraies fournies avec les exemples ou seulement après prédiction de l’apprenant
(risque mesuré par le nombre d’erreurs de l’apprenant : mistake-bound learning) (ou
relativement au meilleur expert d’un comité : relative loss-bound models)
– Peut fournir un contre-exemple quand l’apprenant propose une hypothèse candidate h non
équivalente à la fonction cible (equivalence queries)

Apprenant :
– Complètement passif : données i.i.d.
– Peut poser des questions : fournir un exemple et demander son étiquette (membership
queries)
– Peut poser des questions sur les statistiques des exemples étiquetés (statistical queries)
– Apprentissage actif : organise son exploration du monde
11/12/06
1.1- Questions essentielles
Cornuéjols
1- Introduction à l’apprentissage
42
• Données et connaissances a priori

Quelles données sont disponibles ?

Que sait-on du problème ?
• Représentation

Comment représenter les exemples ?

Comment représenter les hypothèses ?
• Méthode et estimation

Quel est l’espace des hypothèses ?

Comment évaluer une hypothèse en fonction des exemples connus ?
• Évaluation de la performance après apprentissage ?
• Comment reconsidérer l’espace des hypothèses ?
11/12/06
1.1- Types d’apprentissages
Cornuéjols
1- Introduction à l’apprentissage
43
1. Apprentissage supervisé
À partir de l’échantillon d’apprentissage S = {(xi, ui)}1,m
on cherche une loi de dépendance sous-jacente
– Par exemple une fonction h aussi proche possible de f (fonction cible)
tq : ui = f(xi)
– Ou bien une distribution de probabilités P(xi, ui)
afin de prédire l’avenir
11/12/06
1.1 - L'induction supervisée
Cornuéjols
1- Introduction à l’apprentissage
44
• Si f est une fonction continue

Régression

Estimation de densité
• Si f est une fonction discrète

Classification
• Si f est une fonction binaire (booléenne)

Apprentissage de concept
11/12/06
1.1- Types d’apprentissages
Cornuéjols
1- Introduction à l’apprentissage
45
2. Apprentissage non supervisé
De l’échantillon d’apprentissage S = {(xi)}1,m
on cherche des régularités sous-jacentes
–
Sous forme d’une fonction : régression
–
Sous forme de nuages de points (e.g. mixture de gaussiennes)
–
Sous forme d’un modèle complexe (e.g. réseau bayésien)
afin de résumer, détecter des régularités, comprendre …
11/12/06
Cornuéjols
1.1- Types d’apprentissages
1- Introduction à l’apprentissage
46
3. Apprentissage par renforcement
Les données d’apprentissage

Une séquence de perceptions, d’actions et
de récompenses : (st, at, rt)t = 1, 
–
Avec un renforcement rt
–
rt peut sanctionner des actions très
antérieures à t
Environnement
Perception
Le problème : inférer une application :
Action
Récompense
situation perçue  action
afin de maximiser un gain sur le long terme
Apprentissage de réflexes ... -> … apprentissage de planification
11/12/06
1.1- Plusieurs niveaux d’analyse ?
Cornuéjols
1- Introduction à l’apprentissage
47
1. Analyse de principe, de faisabilité :
que peut-on apprendre ? Sous quelles conditions ?
sans référence à un algorithme particulier !!

Théories mathématiques en particulier de nature statistique
2. Niveau de la réalisation / simulation
Comment apprendre ?

Algorithmes

Programmes

Réalisations et tests empiriques
11/12/06
Cours 1: plan
1-
Cornuéjols
1- Introduction à l’apprentissage
48
Introduction à l’induction
1.1-
Visages de l’apprentissage
1.2-
Des algorithmes
1.3-
Approche plus formelle de l’induction
1.4-
Apprentissage par exploration
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
49
1.2- Algorithme des k-plus proches voisins
• K-Nearest Neighbours
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
50
1.2- Discrimination linéaire : le Perceptron
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
51
1.2- Discrimination linéaire : le Perceptron
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
52
1.2- Discrimination linéaire : le Perceptron
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
53
1.2- Discrimination linéaire : le Perceptron
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
54
1.2- Discrimination linéaire : le Perceptron
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
55
1. 2- Le perceptron : critère de performance
• Critère d’optimisation (fonction d’erreur) :


Nb total d’erreurs de classification : NON
Critère du Perceptron :
REmp(w)  

x j M
wTx j . u j
Car nous voulons pour toutes les formes d’apprentissage :
  0
w x 
 < 0
T

  1
x  
  2
 Proportionnel, pour toutes les formes mal classées, à la distance à la surface de
décision
 Fonction continue et linéaire par morceaux
11/12/06
1. 2- Le perceptron : algorithme
Cornuéjols
1- Introduction à l’apprentissage
56
• Méthode d’exploration de H

Recherche par gradient
– Minimisation de la fonction d’erreur
– Principe : procédure d'apprentissage dans l'esprit de la règle de Hebb : ajouter à
chaque connexion quelque chose de proportionnel à l'entrée et à la sortie.
– Apprentissage seulement si erreur de classification

Algorithme :
si la forme est correctement classée : ne rien faire
sinon :
w(t  1)  w(t)   xi ui
boucler sur les formes d’apprentissage jusqu’à critère d’arrêt

Convergence ?
11/12/06
1. 2- Le perceptron : Illustration
Cornuéjols
1- Introduction à l’apprentissage
57
• Justification de l’algorithme

Réduction de l’erreur
w(t 1) T (x j uj )   w(t 1)T (x j u j )   (x j uj )T (x j u j )   w(t)T (x j uj )
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
58
1. 2- Le perceptron : convergence et capacité mémoire
• Questions :

Qu’est-ce qui est apprenable ?
– Résultat de [Minsky & Papert,68] : séparatrices linéaires

Garantie de convergence ?
– Théorème de convergence du Perceptron [Rosenblatt,62]

Fiabilité de l’apprentissage et nombre d’exemples
– Combien faut-il d’exemples d’apprentissage pour avoir une certaine garantie
sur ce qui est appris ?
11/12/06
Cornuéjols
1.3- Le scénario de base
1- Introduction à l’apprentissage
59
x1, x2, ..., xm
Environnement X :
distribution de prob. F(x)
“Oracle”
Sm = (x1,u1), (x2,u2), ..., (xm,um)
x1, x2, ..., xm
Apprenant : h (x)
y1, y2, ..., ym
11/12/06
Cornuéjols
1.3 - Définition formelle du problème
1- Introduction à l’apprentissage
60
• Hypothèse :
les données empiriques caractérisent une dépendance probabiliste P entre l’espace X
des descriptions et l’espace Y des étiquettes

Z = (X, Y) : variable aléatoire sur (, B, P), où P est inconnue

S = {(x1,u1), (x2,u2), … (xm,um)} (X  Y)m
– Échantillon d’apprentissage
– Les observation sont i.i.d. suivant P
– H : famille (éventuellement infinie) de fonctions h définies sur X
• Objectif : prédire l’étiquette y connaissant l’observation x
11/12/06
Cornuéjols
1.3 - Apprendre  prédiction dans X
+/-
-
-
-
+
-
+
+
+
+
1- Introduction à l’apprentissage
?
+
• Méthodes par plus
proches voisins
-
• Nécessité d’une
notion de distance
+
-
-
Espace des exemples :

61
X
Hypothèse de continuité dans X
11/12/06
Cornuéjols
1.3- Apprendre = un jeu entre espaces
1- Introduction à l’apprentissage
62
• Cas particulier de l’apprentissage de concepts
LH
-
-
-
+
+
+
xh
-
+
+
+
+
-
-
-
Espace des exemples : X

Espace des hypothèses : H
Comment choisir l’espace des hypothèses (i.e. le langage LH ) ?
11/12/06
Cornuéjols
1.3- Le critère inductif
1- Introduction à l’apprentissage
63
LH
-
-
+
+
+
+
+
h
-
+
+
-
x
-
-
-
X
H
 Quel critère inductif ?
 Qu’est-ce qu’une hypothèse optimale étant donné
l’échantillon d’apprentissage ?
11/12/06
Cornuéjols
1.3- L’exploration de H
1- Introduction à l’apprentissage
64
LH
-
-
-
+
-
+
+
+
+
+
+
-
?
x
hx
h
?
xh
-
-
X
H
 Quelle méthode d’exploration de H ?
11/12/06
Cornuéjols
1.3- Les interrogations fondamentales
1- Introduction à l’apprentissage
65
1. Théorique : Sous quelles conditions est-il possible de
résoudre le problème de l’induction ?

De quelle information doit-on disposer ?
– Dans les entrées (les exemples)
– Dans l'espace d'hypothèse

Quel principe inductif doit-on utiliser ?
2. Pratique : Comment explorer effectivement l’espace
d’hypothèses ?
11/12/06
Cornuéjols
1.3- Trois ingrédients : trois questions
1- Introduction à l’apprentissage
66
1. Quel critère inductif ?
•
Quelle hypothèse devrait-on choisir étant donné l’échantillon d’apprentissage ?
2. Quel espace d’hypothèses ?
•
Quel espace d’hypothèses est approprié ?
3. Comment explorer l’espace des hypothèses ?
•
Résolution d’un problème d’optimisation
11/12/06
Cornuéjols
1.3- Critère de performance
•
1- Introduction à l’apprentissage
67
Objectif : trouver une hypothèse h  H minimisant le risque réel (espérance de
risque, erreur en généralisation)
R(h) 

l h(x),u dP(x, y)
XY
Loi de probabilité
jointe sur X  Y
Fonction de perte
Étiquette
prédite
Étiquette vraie
(ou désirée)
11/12/06
Cornuéjols
1.3- Exemples de fonctions de perte
1- Introduction à l’apprentissage
68
• Discrimination
0 si ui  h(xi )
l (h(xi ),ui )  
1 si ui  h(xi )
• Régression
l (h(xi ),ui )  h(xi )  ui 
2
• Estimation de densité
l (h(xi ))   ln h(xi )
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
69
1. Principe de minimisation du risque empirique (ERM)
2. Principe du maximum de vraisemblance
(approche bayésienne)
3. Principe de compression maximale
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
70
1.3- (i) Le principe inductif ERM
R(h) 

l h(x),u dP(x, y)
XY
• On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y).
• Le principe ERM (minimisation du risque empirique) prescrit de chercher
l’hypothèse h  H minimisant le risque empirique
REm p (h) 
m
 l h(x ),u 
i  1
i
i
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
71
1.3- (ii) Approche bayésienne
• On suppose qu’il existe une distribution de probabilités a priori sur l’espace H : pH(h)
Principe du Maximum A Posteriori (MAP):
• On cherche l’hypothèse h la plus probable après observation des données S
h *  ArgMax pH (h) p (S | h)

H
Exemple : le 11 septembreh2001
m
X
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
72
1.3- (iii) Principe de compression maximale
• Inspiration : la théorie du codage de l’information

Rasoir d’Occam

On suppose qu’il existe :
– un coût associé à la transmission d’un codage (modèle des données) : L(h)
– un coût associé à la transmission des données brutes (E.D. h) : L(x|h)

On cherche le modèle (ou hypothèse) permettant la transmission la plus
économique de l’échantillon de données
11/12/06
Cornuéjols
1.3- Choix de l’espace d’hypothèses
1- Introduction à l’apprentissage
73
• Apprendre (pour prédire) est impossible …
… sans limitation sur l’espace des hypothèses
+/-
-
-
-
+
-
+
+
+
+
+
+
-
-
-
?
hih xhi
x
h
h
h
i
x ih x hi x ihi x ih
x
x ih
x ih x
h
i
x h x i
x ih
h
x ih
x ih
x ih
x ih
x ih
x ih
ih
x i
x x
x i
x
i hk
x
hj
hih
x
h
x ih
x ih
i
x ih
x h
i
x i
x
-
Espace des exemples : X
Espace des hypothèses : H
11/12/06
1.3- Notion de biais
Cornuéjols
1- Introduction à l’apprentissage
74
Toute connaissance qui restreint le champ des hypothèses que
l'apprenant doit considérer à un instant donné.
• On ne peut pas apprendre sans biais
• Plus le biais est fort, plus l’apprentissage est facile

Bien choisir le biais
11/12/06
Cornuéjols
1.3- Choix de l’espace d’hypothèses

1- Introduction à l’apprentissage
75
Il faut contrôler l’expressivité de l’espace d’hypothèses
• Analyse statistique de l’induction
[Vapnik, …]
Terme dépendant de
la « richesse » de H
11/12/06
1.3- Réponses … qualitatives
Cornuéjols
1- Introduction à l’apprentissage
76
1. De quelle information doit-on disposer ?

Compromis entre taille de l'échantillon d'apprentissage nécessaire ET
"richesse" de l'espace d'hypothèses
1'. Quel principe inductif ?

Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en
pariant que l'erreur sera également minimisée sur les exemples non vus

Un nouveau principe : minimiser à la fois

l'erreur sur l'échantillon d'apprentissage

ET une mesure de la richesse de H
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
77
1.3- Résumé : définition d’un problème d’apprentissage
• Des acteurs

L’environnement

L’oracle

L’apprenant
un protocole
d’apprentissage
• Une tâche d’apprentissage

Discrimination (ou classification multiclasses) / régression / estimation de densité
• Un principe inductif

ERM (et dérivés) / Bayésien / compression d’information
• Un espace d’hypothèses (avec sélection automatique)
 Choix d’une méthode d’apprentissage (et d’un algorithme)
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
78
1.4- Relation d’inclusion et relation de généralité
Vers la généralisation
couverture(h t+1)
0
ht+1
+
0
0
+
+
+
0
ht
+
+
0
+
+
0
0
couverture(h t)
X
H
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
79
1.4- La relation de généralité induite dans H
Relation de généralité dans H
induite par
la relation d'inclusion dans X
couverture(h 1)
h1
couverture(h2)
h2
h3
couverture(h3)
X
H
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
80
1.4- Le choix d’une méthode d’apprentissage
Dépend fondamentalement de l’espace des hypothèses H

Structuré par une relation de généralité (ordre partiel)

Toutes les méthodes guidées par cette relation
•
•
•
•

hi
H
Méthodes de « gradient »
•
•
•
Réseaux de neurones / SVMs
Recuit simulé / algorithmes d’évolution simulée
Réseaux bayésiens / HMMs
h
x
Pas d’espace d’hypothèses

hj
smg(hi, hj )
Seulement une notion de voisinage dans H


Espace des versions
PLI (Programmation Logique Inductive)
EBL, reformulation en général et révision de théorie
Inférence grammaticale
gms(hi, hj )
H
Méthodes de plus proches voisins (Raisonnement par cas / Instance-based learning)
11/12/06
1.4- Autres critères de choix
Cornuéjols
1- Introduction à l’apprentissage
81
• Intelligibilité des résultats (hypothèses produites)

E.g. exit les réseaux de neurones
• Performances en généralisation

Pas toujours en adéquation totale avec le point précédent
• Coûts

de préparation (des données)

coût computationnel (coût d’une passe et nombre de passes nécessaires, …)

coût de l’expertise en apprentissage

coût de l’expertise sur le domaine
11/12/06
Cours 1: plan
1-
Cornuéjols
1- Introduction à l’apprentissage
82
Introduction à l’induction
1.1-
Visages de l’apprentissage
1.2-
Des algorithmes
1.3-
Approche plus formelle de l’induction
1.4-
Apprentissage par exploration
11/12/06
Cornuéjols
2.1- Le principe inductif ERM

R(h) 
1- Introduction à l’apprentissage
83
l h(x),u dP(x, y)
XY
• On ne connaît pas le risque réel, en particulier pas la loi de probabilité
P(X,Y).
• Le principe ERM (minimisation du risque empirique) prescrit de
chercher l’hypothèse h  H minimisant le risque empirique
REm p (h) 
m
 l h(x ),u 
i  1
i
i
11/12/06
Cornuéjols
2.2- Le principe ERM est-il pertinent ?
1- Introduction à l’apprentissage
84
• h* : hypothèse optimale dans H suivant le risque réel
• hSm : hypothèse optimale dans H suivant le risque empirique
mesuré sur l’échantillon Sm
Risque
RRŽ
el (h*)
m
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
2.2- Analyse du principe de minimisation du risque empirique
• Rappel : a-t-on des garanties sur le risque réel lorsque l’on choisit
l’hypothèse minimisant le risque empirique sur un échantillon Sm ?
Risque
RRŽ
el (h*)
m
11/12/06
85
Cornuéjols
1- Introduction à l’apprentissage
86
2.3- Les facteurs : le compromis biais-variance
Erreur d'estimation
(Variance)
H
Erreur d'approximation
(Biais )
{hS}S
hS 
h*
F
Erreur totale

f

fb = f + bruit
Erreur intrinsque
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
87
2.3- Les facteurs : le compromis biais-variance
H
H'
^
{h}S
^
Erre urd' e st im a t ion
( V a ria nc e )
h
h*
F
Erre urt ot a le


Erre urd' a pprox im a t ion
( Bia is)
f
fb = f + bruit
Erre urint rinsè que
Fonction cible
11/12/06
Cornuéjols
3- Analyse statistique du principe ERM
1- Introduction à l’apprentissage
88
• Étude de la corrélation entre :
et
• Cette corrélation fait intervenir :

RRéel(hS) - RRéel (h*)
nécessairement ≥ 0 (pourquoi ?)

La probabilité que cette différence soit supérieure à une borne donnée
– car hS dépend de la représentativité de l’échantillon d’apprentissage Sm
 0  ,   1 :
P(| R(hS )  R(h*) |)   )  
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
89
3- Analyse statistique du principe ERM (suite)
Risque r
el
Risque empirique
Erreur
d'approximation
^
hS
h*
H
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
90
3- Analyse statistique du principe ERM (suite)
Risque r
el

2
Risque empirique
^
hS
h*
H
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
91
3- Analyse statistique du principe ERM (suite)
 0  ,   1 :
 m, tq. P(| R(hS )  R(h*) |)   )  
Risque r
el
m
m/2
m/3
Risque empirique m/4
(fonction de S)
^
hS
h*
H
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
92
3- Pertinence (consistance) du principe ERM
• On dit que le principe ERM est pertinent (ou consistant) si le risque
réel inconnu R(hS) et le risque empirique REmp(hS) convergent vers la
même limite R(h*) lorsque la taille m de l’échantillon S tend vers .
Risque
R(hS )



 R(h*)
m 
REmp (hS ) 


m
  R(h*)
RRŽ
el (h*)
m
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
93
3.1- Le cas de la discrimination : l’analyse PAC
• Contexte :
• Discrimination
• Fonction de perte l : {0,1}
•
F=H
•
H : espace fini
 L’apprentissage consiste alors à éliminer toutes les hypothèses non
cohérentes avec les données et à en choisir une parmi les restantes
Quelle est la probabilité qu’une hypothèse de risque empirique nul
soit de fait de risque réel ≥  ?
(0 ≤  ≤ 1)
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
94
3.2- Le cas de la discrimination : l’analyse PAC
• Le risque réel d’une hypothèse herr est égal à la probabilité qu’un exemple tombe
dans la zone d’erreur entre herr et la fonction cible f
R (herr )  PDX (herr  f )
X
herr
Zone
d'erreur
f
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
95
3.2- Le cas de la discrimination : l’analyse PAC
Raisonnement par l’absurde
• Supposons une hypothèse de risque réel > 
• Quelle est la probabilité que son risque empirique soit nul après
observation d’un échantillon de m exemples tirés i.i.d. suivant la
distribution DX ?

Après observation d’un exemple, la probabilité de « survie » de herr est : 1 - 

Après observation de m exemples i.i.d., elle est : (1 - )m
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
96
3.2- Le cas de la discrimination : l’analyse PAC
Quelle est la probabilité qu’une hypothèse au moins dans H « survive » ?
• Événements disjoints :

Donc borné par : |H| (1 - )m < | H | e-m
• Il suffit donc d’avoir un échantillon de taille
m 
1

ln
|H |

• pour que le risque réel de l’hypothèse hS minimisant le risque
empirique soit borné par  avec une probabilité 1 - 
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
97
3.2- Le cas de la discrimination : l’analyse PAC
Pourquoi PAC ?


Les hypothèses qui « survivent » sont approximativement
correctes (i.e. à moins de  de la fonction cible)
Avec une certitude qui dépend de l’échantillon d’apprentissage tiré
aléatoirement (taux 1 - )

Probablement Approximativement Correct
11/12/06
3.3- Les leçons
Cornuéjols
1- Introduction à l’apprentissage
98
1. La cardinalité de H (en un certain sens la « richesse » de H) intervient
directement dans la borne d’erreur
2. Le raisonnement implique l’ensemble des hypothèses H :
argument de convergence uniforme
3. L’idée directrice de la démonstration consiste à borner la probabilité
qu’une zone d’erreur de poids >  ne soit pas atteinte par un exemple
au moins de l’échantillon d’apprentissage
11/12/06
Cornuéjols
3.4- Extension : l’analyse de Vapnik
1- Introduction à l’apprentissage
99
• Contexte : une généralisation
• N’importe quel type de fonctions hypothèses
• N’importe quel type de fonction de perte (> 0 et bornée)
• F éventuellement ≠ H
(apprentissage agnostique)
• H : espace infini
• Ici, on va cependant se limiter au cas de la discrimination

Risque empirique :
1
REmp (h) 
m
m

i1
1
l01(h(xi )  ui ) 
{(xi ,ui )  S / h(xi )  ui}
m
11/12/06
Cornuéjols
3.4- Extension : l’analyse de Vapnik
1- Introduction à l’apprentissage
100
• Définition (Fonction de croissance) :
La fonction de croissance GH d’une famille H de fonctions h à valeurs
dans {0,1} associe à tout entier positif m le nombre maximal de
dichotomies réalisées par les fonctions de H sur un ensemble de m
points de X.
h1
h2
x2
x1
x4
x3
11/12/06
Cornuéjols
3.4- Extension : l’analyse de Vapnik
1- Introduction à l’apprentissage
101
• Théorème (Vapnik, 98) :
Pour toute valeur de  dans ]0,1], simultanément pour toutes les
fonctions h de H, avec une probabilité au moins de 1 - , on a :
Terme dépendant de
la « richesse » de H
11/12/06
Cornuéjols
3.4- Extension : l’analyse de Vapnik
1- Introduction à l’apprentissage
102
• Problème angoissant : comment croît la fonction de croissance GH(m) ?

Si elle croît exponentiellement : il ne peut pas y avoir de garantie sur les
hypothèses sélectionnées par l’apprentissage sur la base du risque empirique
(ERM) !!!
• Définition (Dimension de Vapnik-Chervonenkis, 1971)
La dimension de Vapnik-Chervonenkis dVC(H) est le plus grand entier d
vérifiant GH(d) = d, si un tel entier existe, l’infini sinon.
Si la dimension de Vapnik-Chervonenkis est finie, elle correspond à la
taille du plus grand sous-ensemble de X pulvérisé par H.
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
3.4- Extension : l’analyse de Vapnik
(a)
(c)
(b)
+
+
+
+
-
-
-
-
+
103
+
+
+
(a)
(b)
+
(c)
+
+
(d)
+
+
+
-
-
+
+
+
+
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
104
3.4- Un lemme sauveur : le lemme de Sauer (1972)
• Si H est de dimension de Vapnik-Chervonenkis finie dH = dVC(H), alors,
pour m supérieur à dH, sa fonction de croissance est bornée :
log 2 {GH (m)}
Cro”t en 2m :
croissance exponentielle
Cro”t en mdH :
croissance en fonction polynomiale
dH
m
11/12/06
3.4- Qu’est-ce que cela signifie ?
Cornuéjols
1- Introduction à l’apprentissage
105
• Cas de fonctions de discrimination et H = F
 La convergence du risque empirique vers le risque réel est
exponentiellement rapide, et ceci pour toutes les fonctions de H

E.g. la taille de l’échantillon suffisante pour que la probabilité ci-dessus soit
bornée par  est :
linéaire en dH !!
11/12/06
3.4- Le « take-home » message
Cornuéjols
1- Introduction à l’apprentissage
106
• Pour que le principe ERM soit pertinent, il faut que la dimension de
Vapnik-Chervonenkis dH soit finie
• Alors, l’erreur d’estimation entre RRéel(h) et REmp(h) converge vers 0
comme:

dans le cas général

dans le cas où H = F
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
107
3.4- Quelques exemples de dimensions de VC
11/12/06
Cornuéjols
3.5- Vers d’autres principes inductifs
1- Introduction à l’apprentissage
108
• Reconsidérons l’équation (valable pour la discrimination et H = F)
 Plutôt que de chercher seulement l’hypothèse minimisant le risque
empirique (valable seulement si m/dH très grand), il faut aussi tenir
compte des caractéristiques de l’espace des hypothèses H, et chercher
une hypothèse satisfaisant au mieux un compromis entre :

un risque empirique faible : bonne adéquation aux données

et un espace d’hypothèse d’expressivité bien réglée
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
109
3.5- Les méthodes par « sélection de modèles »
• Méthodes cherchant à régler le compromis par réglage automatique de
l’espace d’hypothèses (modèles)

Le SRM (Structural Risk Minimization)

La théorie de la régularisation

Le MDLp

Les approches bayésiennes
11/12/06
Cornuéjols
3.5- Le SRM
1- Introduction à l’apprentissage
110
Risque
Risque r
el
Optimum
Intervalle
de confiance
Risque
empirique
H
H1
H2
H3
H4
• La procédure s’appuie sur une structure sur H définie a priori
11/12/06
3.5- La théorie de la régularisation
Cornuéjols
1- Introduction à l’apprentissage
111
• Issue de l’étude des problèmes « mal posés » (plusieurs solutions)
• Il faut imposer des conditions supplémentaires

Contraindre l’espace des paramètres si H = {fonctions paramétrées}

Imposer des conditions de régularité (e.g. dynamique limitée)

…
RPén.(h)  REmp (h)   G(h)
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
112
3.5- Le MDLp (Minimum Description Length principle)

On suppose qu’il existe :
– un coût associé à la transmission des données brutes (mesuré en bits) : L(x)
– un coût associé à la transmission d’un codage (modèle des données) : L(h)

On cherche le modèle (ou hypothèse) permettant la transmission la plus
économique de l’échantillon de données
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
113
3.6- En d’autres mots … Notion de biais
Toute connaissance qui restreint le champ des hypothèses que
l'apprenant doit considérer à un instant donné.
• Biais de représentation

On ne peut pas apprendre sans biais

Plus le biais est fort, plus l’apprentissage est facile

Bien choisir le biais
• Biais de préférence



Dû au contrôle de la recherche
Critère de choix entre hypothèses
– Simplicité, complétude, intelligibilité, facilité d’évaluation, ...
Dû au protocole
– Stratégie éducative (si apprentissage incrémental)
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
114
3.6- En d’autres mots … Réponses qualitatives
1. De quelle information doit-on disposer ?

Compromis entre taille de l'échantillon d'apprentissage nécessaire ET
"richesse" de l'espace d'hypothèses
1'. Quel principe inductif ?

Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en
pariant que l'erreur sera également minimisée sur les exemples non vus

Un nouveau principe : minimiser à la fois

l'erreur sur l'échantillon d'apprentissage

ET une mesure de la richesse de H
11/12/06
Cornuéjols
3.7- Le no-free-lunch theorem
Systèmes d'apprentissage
possibles
-
-
+
-
-
-
-
+
+
impossibles
+
+
-
0
Systèmes d'apprentissage
0
-
+
0
+
0
0
0
0
-
0
0
0
0
+
0
0
0
0
0
115
0
-
+
-
1- Introduction à l’apprentissage
+
0
0
11/12/06
3.7- Le no-free-lunch theorem
Performance en
généralisation
Cornuéjols
1- Introduction à l’apprentissage
116
Performance en
généralisation
Taille de l'échantillon
d'apprentissage
Taille de l'échantillon
d'apprentissage
11/12/06
Cours 1: plan
1-
Cornuéjols
1- Introduction à l’apprentissage
117
Introduction à l’induction
1.1-
Visages de l’apprentissage
1.2-
Des algorithmes
1.3-
Approche plus formelle de l’induction
1.4-
Apprentissage par exploration
11/12/06
1.4- Trois questions fondamentales
Cornuéjols
1- Introduction à l’apprentissage
118
1. Quel critère inductif ?
Quelle hypothèse devrait-on choisir étant donné l’échantillon d’apprentissage ?
2. Quel espace d’hypothèses ?
Quel espace d’hypothèses est approprié :
•
Pour la tâche
•
Pour que l’induction soit possible
3. Comment explorer l’espace des hypothèses ?
Résolution d’un problème d’optimisation :
•
recherche d’une bonne hypothèse dans un espace de possibilités afin de
satisfaire le critère inductif
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
119
1.4- Apprendre = explorer un espace d’hypothèses
-
+
-
+
+
+
+
x
-
+
hi
+
-
Espace des exemples :X
Espace des hypothèses :H
• Comment choisir une (des) hypothèse(s) ?
• Notion de biais de représentation
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
120
1.4- Apprendre = explorer un espace d’hypothèses
Nouvel
exemple
-
+
+
+
+
+
h
x i
-
+
+
-
-
-
-
?
x
hj
?
x
hk
-
Espace des exemples : X
Espace des hypothèses : H
• Exploration de l’espace d’hypothèses
• Mesure de l’adéquation de l’hypothèse (critère de succès)
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
121
1.4- Apprendre = explorer un espace d’hypothèses
Nouvel
exemple
-
+
+
+
+
+
h
x i
-
+
+
-
-
-
-
?
x
hj
?
x
hk
-
Espace des exemples : X
Espace des hypothèses : H
• Exploration de l’espace d’hypothèses

guidée par les relations de généralités dans H
11/12/06
Cornuéjols
1.4- Induction et généralisation
1- Introduction à l’apprentissage
122
Comment corriger une hypothèse défectueuse
Nouvel exemple : (xm+1 ,-1)
Nouvel exemple : (xm+1 ,+1)
0
0
+
0
hm
0
+
hm
0
+
+
h m+1
0
0
+
h m+1
+
0
+
+
0
+
+
+
0
0
+
+
+
0
+
0
0
0
X
(a)
X
(b)
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
123
1.4- Couverture des exemples par une hypothèse
• h1 : complète mais incorrecte
• h2 : correcte mais incomplète
• h3 : complète et correcte : cohérente
0
0
0
+
0
+
+
0
+
+
0
h2
+
+
0
h3
0
h1
X
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
124
1.4- Relation d’inclusion et relation de généralité
Vers la généralisation
couverture(h t+1)
0
ht+1
+
0
0
+
+
+
0
ht
+
+
0
+
+
0
0
couverture(h t)
X
H
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
125
1.4- Relation d’inclusion et relation de généralité
Vers la spécialisation
0
couverture(ht)
0
ht
0
0
+
+
+
0
ht+1
+
+
0
+
+
0
0
couverture(ht+1)
X
H
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
126
1.4- La relation de généralité induite dans H
Relation de généralité dans H
induite par
la relation d'inclusion dans X
couverture(h 1)
h1
couverture(h2)
h2
h3
couverture(h3)
X
H
11/12/06
Cornuéjols
1.4- Treillis de généralisation dans H
1- Introduction à l’apprentissage
127
Ordre partiel dans H
gms(hi, hj )
hi
hj
smg(hi, hj )
H
11/12/06
1.4- Les opérateurs
Cornuéjols
1- Introduction à l’apprentissage
128
• Généralisation

Transforme une description en une description plus générale
• Spécialisation


Duale de la généralisation
(En général : produit une description qui est une conséquence logique de la
description initiale)
• Reformulation

Transforme une description en une description logiquement équivalente
11/12/06
1.4- Opérateurs de généralisation
Cornuéjols
1- Introduction à l’apprentissage
129
• Règle d’abandon de conjonction

A&B C
=>
AC
ferrari & rouge  coûteux =>
ferrari  coûteux
• Règle d’ajout d’alternative

A C
=>
AB  C
ferrari  coûteux =>
ferrari  rouge  coûteux
• Règle d’extension du domaine de référence

A & [B = R]  C
=> A & [B = R’]  C
grand & [couleur = rouge]  coûteux
=> grand & [couleur rouge  bleu]  coûteux
11/12/06
1.4- Opérateurs de généralisation
Cornuéjols
1- Introduction à l’apprentissage
130
• Règle de clôture d’intervalle

A & [B=v1]  C & A & [B = v2]  C
=> A & [B = v1 ... v2]  C
grand & [coût = 100]  à acheter && grand & [coût = 150]  à acheter
=> grand & [coût = 100 .. 150]  à acheter
• Règle de l’ascension dans l’arbre de hiérarchie

A & [B= n1]  C
&& A & [B= n2]  C => A & [B= N]  C
corrosif & [élément = chlorine]  toxique
Halogène
corrosif & [élément = bromine]  toxique
=> corrosif & [élément = halogène]  toxique
Chlorine
Bromine
11/12/06
1.4- Opérateurs de généralisation
Cornuéjols
1- Introduction à l’apprentissage
131
• Règle de variabilisation

F(a) & F(b) & ...  C
=>
 v, F(v)  C
grand(sommet_objet) & grand(fond_objet) & ...  C
=>
 partie, grand(partie)  C
• Règle de changement de conjonction en disjonction

A&B  C
=>
AB  C
grand & rouge  coûteux
=>
grand rouge coûteux
• Règle d’extension du domaine de quantification

 v, F(v)C
=>
 partie, grand(partie)C
v, F(v)  C
=>
partie, grand(partie) C
11/12/06
Cornuéjols
1.4- Opérateurs de généralisation
1- Introduction à l’apprentissage
132
• Inversion de la résolution

A & B  C && ¬A & D  C
=>
BD  C
vieux & grand  C && ¬ vieux & rouge  C
=> grandrouge  C
• Règle anti-extension

A & [B=v1]  C && D & [B=v2]  ¬C
=> [B ≠ v2]  C
• Règle constructive de généralisation (modifiant les descripteurs)

A & B  C && D  C
=>
A & DC
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
133
1.4- Représentation de l'espace des versions
Observation fondamentale :
L'espace des versions structuré par une relation
d'ordre partiel peut être représenté par :
G
hi


hj
sa borne supérieure : le G-set
sa borne inférieure : le S-set
S
H
• G-set = Ensemble de toutes les hypothèses les plus générales
cohérentes avec les exemples connus
• S-set = Ensemble de toutes les hypothèses les plus spécifiques
cohérentes avec les exemples connus
11/12/06
1.4- Apprentissage ...
Cornuéjols
1- Introduction à l’apprentissage
134
… par mise à jour de l'espace des versions
Idée :
maintenir le S-set
et le G-set
après chaque nouvel exemple

Algorithme d'élimination des candidats
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
135
1.4- Algorithme d'élimination des candidats
Initialiser S et G par (resp.) :

l'ensemble des hypothèses les plus spécifiques (les plus générales) cohérentes
avec le 1er exemple positif connu.
Pour chaque nouvel exemple (positif ou négatif)

mettre à jour S

mettre à jour G
Jusqu'à convergence
ou jusqu'à ce que S = G = Ø
11/12/06
1.4- Mise à jour de S
Cornuéjols
1- Introduction à l’apprentissage
136
• xi est négatif

Eliminer les hypothèses de S couvrant (indûment) xi
• xi est positif

Généraliser les hypothèses de S ne couvrant pas xi juste assez pour qu'elles le
couvrent

Puis éliminer les hypothèses de S
– couvrant un ou plusieurs exemples négatifs
– plus générales que des hypothèses de S
11/12/06
1.4- Mise à jour de G
Cornuéjols
1- Introduction à l’apprentissage
137
• xi est positif

Eliminer les hypothèses de G ne couvrant pas xi
• xi est négatif

Spécialiser les hypothèses de G couvrant xi juste assez pour qu'elles ne le
couvrent plus

Puis éliminer les hypothèses de G
– n'étant pas plus générales qu'au moins un élément de S
– plus spécifiques qu'au moins une autre hypothèse de G
11/12/06
Cornuéjols
1- Introduction à l’apprentissage
1.4- Algorithme d'élimination des candidats
138
Mise à jour des bornes S et G
G
(b)
x
x
x
x (d')
(a'
)
(c)
(a)x
x
x
S
(d)
x
(b')
H
11/12/06
1.4- Propriétés de l'AEC
Cornuéjols
1- Introduction à l’apprentissage
139
• Incrémentalité
• Complexité ?
• Utilisation si non convergence ?
• Que signifie S = G = Ø ?
• Possibilité d'"apprentissage actif" ?
• Que faire si les données sont bruitées ?
11/12/06
1.4- Exemple : le système LEX (1)
Cornuéjols
1- Introduction à l’apprentissage
140
Génération
de problèmes
Heuristiques
partiellement
apprises
Exercice
Résolution
de problèmes
Généralisation
Trace détaillée de la
tentative de résolution
de l'exercice
Exemple
d'apprentissage
Critique
11/12/06
1.4- Exemple : le système LEX (2)
Génération
de problèmes
Cornuéjols
1- Introduction à l’apprentissage
141
Espace des versions pour l'utilisation de
l'opérateur OP2 :
S ={  3x cos(x) dx  Appliquer OP2
avec : u = 3x
dv = cos(x) dx}
G ={  f1(x) f2(x) dx  Appliquer OP2
avec : u = f1(x)
dv = f2(x) dx}
Calculer la primitive de :
3x cos(x) dx
Résolution
de problèmes
Généralisation
3x cos(x) dx
OP2 avec :
u =3 x
dv = cos( x) d x
Un des exemples positifs proposés :
3x cos(x) dx
3x sin(x) - 3x sin(x) dx
 Appliquer OP2 avec :
u = 3x
dv = cos(x) dx
OP1
3x sin(x) - 3 x sin(x) dx
OP5
Critique
3x sin(x) - 3x cos(x) dx + C
11/12/06
Cornuéjols
Ce qu'il faut retenir
1- Introduction à l’apprentissage
142
• C'est surtout l'induction supervisée qui est étudiée
• Jeu entre espace des exemples et espace des hypothèses
• On ne peut apprendre sans biais
• La réalisation de l'apprentissage dépend de la structuration de
l'espace des hypothèses

sans structure :
méthodes par interpolation

notion de distance :
méthodes par gradient (approximation)

relation d'ordre partiel : exploration guidée (exploration)
11/12/06
1.5- Approche actuelle : les limites
Cornuéjols
1- Introduction à l’apprentissage
143
• L’état de l’art actuel en apprentissage:

Données i.i.d. (indépendant et identiquement distribué)

Distribution statique

Données étiquetées

Classes approximativement équilibrées
• Versus e.g. les besoins de la robotique

Données résultant :
– De séquences
– D’un apprentissage actif

Contexte changeant

Pauvrement étiquetées
Données non i.i.d.
11/12/06
1.5- Perspective historique (1)
Cornuéjols
1- Introduction à l’apprentissage
144
Perceptron
Expériences :
tortues cybernétiques
20s
1936
50s
Reconnaissance des Formes :
Théorie de la décision bayésienne
60s
11/12/06
Cornuéjols
1.5- Perspective historique (2)
1- Introduction à l’apprentissage
145
Apprentissage artificiel :
une explosion
Systèmes dédiés à une tâche :
inspiration psychologique
Induction supervisée
Arbres de décision
Algorithmes génétiques
Explanation-Based Learning
Raisonnement par cas
2ème connexionnisme
1970
1976
70s
1978
80s
11/12/06
1.5- Perspective historique (2')
Cornuéjols
1- Introduction à l’apprentissage
146
• Systèmes à usage industriels
11/12/06
1.5- Perspective historique (3)
Cornuéjols
1- Introduction à l’apprentissage
147
Apprentissage artificiel :
une théorisation
et une mise à l'épreuve
Nouvelles méthodes :
- SVMs
- Boosting
Data mining
Text mining
1995
90s
00s
11/12/06
1.5- Perspective historique (4)
Cornuéjols
1- Introduction à l’apprentissage
148
• Maintenant

Domination sans partage du paradigme dominant
– Apprentissage comme estimation / approximation de fonction
– Données supposées tirées aléatoirement
– Nouveau principe inductif : toujours prendre en compte l'espace d'hypothèses

Nouvelles techniques d'apprentissage issues de la théorie
– Séparateurs à Vastes Marges (SVM : Support Vector Machines)
– Boosting

Prépondérance des applications de fouille dans les grandes bases de données
– Peu structurées
– Données fournies en vrac

Nouvelles mesures de performance
11/12/06
Cornuéjols
1.5- Perspective historique : l'avenir ?
1- Introduction à l’apprentissage
149
• Demain … ?

Retour vers des problèmes à données plus structurées
– Exploration automatique de la toile (structure à tous les niveaux : grammatical,
séquence, texte, discours, culture)

Nouveaux aspects
– Nouvelles demandes :
• Systèmes à longue durée de vie
• Aide à l'éducation
• Apprentissage collectif
– Incrémentalité
– Transferts d'une tâche à une autre, d'un domaine à un autre, d'un agent à un autre

Nouveaux problèmes

Nouvelles techniques
11/12/06
Cornuéjols
1.5 - Où en est-on ?
supervisé
non supervisé
d'efficacité
par renforcement
de K. complexes
stades ...
1- Introduction à l’apprentissage
150
Bien maîtrisé
mais ...
Encore beaucoup à faire
Travaux pionniers, ...
Encore beaucoup à faire
Etendre le domaine
Quasi rien
Rien
11/12/06
1.5- Questions ...
Cornuéjols
1- Introduction à l’apprentissage
151
• Peut-on apprendre n'importe quoi ?
• Peut-on apprendre à partir de rien (tabula rasae) ?
• Suffit-il d'avoir plus de neurones pour apprendre mieux ?
• Quel lien entre généralisation et abstraction ?
• …
11/12/06
5- ... et programmes de recherche
Cornuéjols
1- Introduction à l’apprentissage
152
• Phénomènes de transition de phase en induction
• Vers une science du dynamique :
– Quels sont les systèmes dépendants de l'ordre des entrées ?
– Pour ceux-là, quel est l'ordre optimal de présentation des données ?
• Apprentissage et … oubli
– L'oubli peut-il être utile ?
• Y a-t-il des passages obligés dans l'apprentissage de connaissances
complexes ?
– Ex : la notion d'impetus avant celle de force et d'inertie ?
11/12/06
Téléchargement