Tr-evaluation

publicité
Évaluation de l’apprentissage:
méthodes
A. Cornuéjols
LRI
(basé sur Sebastian Thrun CMU class)
Questions
L’induction est une forme d’inférence faillible,
il faut donc savoir évaluer sa qualité

Questions types:
– Quelle est la performance d’un système sur un type de tâche ?
– Est-ce que mon système est meilleur que l’autre ?
– Comment dois-je régler mon système ?
A. Cornuéjols
Évaluation 2
Approches

Évaluation théorique a priori
– Dimension de Vapnik-Chervonenkis
– Critères sur la complexité des modèles : MDL / AIC / BIC
• Estimer l’optimisme de la méthode et ajouter ce terme au taux
d’erreur

Évaluation empirique
– E.g. taux d’erreur : (dans le cas d’un classifieur binaire avec une
fonction de coût lié au nombre derreurs)
A. Cornuéjols
Évaluation 3
Plan
1.
Mesurer la performance
2.
Méthodes de validation
3.
Matrices de confusion et courbe ROC
4.
La comparaison de méthodes d’apprentissage
5.
Autres mesures de performance
A. Cornuéjols
Évaluation 4
Évaluation des hypothèses produites
beaucoup
de donnés
très peu
de données
données
illimitées
A. Cornuéjols
Évaluation 5
Ensembles de données
(collections)
Toutes les données disponibles
Ensemble
d’apprentissage
A. Cornuéjols
Ensemble
de test
Ensemble
de validation
Évaluation 6
Prédiction asymptotique
(le cas idéal)

Useful for very large data sets
A. Cornuéjols
Évaluation 7
Le sur-apprentissage (over-learning)
Erreur
Sur-apprentissage
erreur sur base
de test
erreur sur base
d'apprentissage
t
Arrêt de l'apprentissage
A. Cornuéjols
Évaluation 8
Utilisation de l’ensemble de validation

On règle les paramètres de l’algorithme
d’apprentissage
• E.g. : nb de couches cachées, nb de neurones, ...
– en essayant de réduire l’erreur de test

Pour avoir une estimation non optimiste de
l’erreur, il faut recourir à une base d’exemples non
encore vus : la base de validation
A. Cornuéjols
Évaluation 9
Évaluation des hypothèses produites
beaucoup
A. Cornuéjols
peu de données
Évaluation 10
Évaluation de l’erreur

Erreur vraie:
(Risque réel)
eD   y  f ( x, ) p( x, y) dx, y
D
D = toutes les données possibles

Erreur de test: eˆ  1
S
(Risque empirique)
m

y  f ( x, )
x , y ST
T = données test
m = # de données test
A. Cornuéjols
Évaluation 11
Exemple:

L’hypothèse classe mal 12 des 40 exemples dans
l’ensemble de test T.

Q : Quelle sera l’erreur sur des exemples non vus ?

R : ???
A. Cornuéjols
Évaluation 12
Intervalle de confiance (1)

Définition : un intervalle de confiance à N% pour une
variable p est l’intervalle dans lequel sa valeur est attendue
avec une probabilité de N%

Soit une probabilité d’erreur (pour 2 classes) de p, la probabilité
d’avoir r erreurs sur n évènements est :
(loi binomiale)
Espérance du
nombre d’erreurs
Variance
Ecart-type
A. Cornuéjols
Évaluation 13
Intervalles de confiance (2)

La loi binomiale peut être estimée par la loi normale
si n p (1 - p) ≥ 5 de même moyenne m et même variance s
A. Cornuéjols
Évaluation 14
Intervalles de confiance (3)

Je voudrais évaluer erreurD(h).

Je l’estime en utilisant erreurT(h) qui est régie par une loi binomiale
– De moyenne
– D’écart-type

Que l’on estime par la loi normale
– De moyenne :
– D’écart-type :
A. Cornuéjols
Évaluation 15
Intervalles de confiance (4)

Loi normale
A. Cornuéjols

Loi normale
Évaluation 16
Intervalles de confiance (5)
Avec une probabilité de N%, l’erreur vraie erreurD est dans l’intervalle :
N%
50%
68%
80%
90%
95%
98%
99%
zN
0.67
1.0
1.28
1.64
1.96
2.33
2.58
A. Cornuéjols
Évaluation 17
Intervalles de confiance (cf. Mitchell 97)
Si
– T contient m exemples tirés indépendamment
– m  30
Alors
– Avec une probabilité de 95%, l’erreur vraie eD est dans
l’intervalle :
eˆS  1.96
A. Cornuéjols
eˆS (1  eˆS )
m
Évaluation 18
Exemple:

L’hypothèse classe mal 12 des40 exemples dans la base de test T.

Q: Quelle sera l’erreur vraie sur les exemples non vus ?

A: Avec 95% de confiance, l’erreur vraie sera dans l’intervalle :
[0.16;0.44]
m  40
A. Cornuéjols
eˆS 
eˆS (1  eˆS )
 eˆS  1.96
m
12
 0.3
40
eˆS (1  eˆS )
1.96
 0.14
m
Évaluation 19
Intervalles de confiance à 95%
A. Cornuéjols
Évaluation 20
Courbes de performance
intervalle de confiance à 95%
Erreur de test
Erreur d’apprentissage
A. Cornuéjols
Évaluation 21
Comparaison de différentes hypothèses

On cherche la différence vraie:
d  eD (1 )  eD ( 2 )

On estime par :
dˆ  eˆS (1 )  eˆS ( 2 )

Qui est une loi normale différence de 2 lois normales

Intervalle de confiance à 95% :
eˆS (1 ) (1  eˆS (1 )) eˆS ( 2 ) (1  eˆS ( 2 ))
ˆ
d  1.96

m1
m2
Rq : il faudrait normalement ne pas tester les deux hypothèses sur le même ensemble de test.
La variance obtenue avec un même ensemble de test est un peu plus faible (cf. paired t
tests).
A. Cornuéjols
Évaluation 22
Évaluation des hypothèses produites
Beaucoup
de données
A. Cornuéjols
peu
Évaluation 23
Différents ensembles
Données
apprentissage test  erreur
A. Cornuéjols
Évaluation 24
Validation croisée à k plis (k-fold)
Données
Apprend sur jaune, test sur rose  erreur1
Apprend sur jaune, test sur rose  erreur2
Apprend sur jaune, test sur rose  erreur3
k-way split
Apprend sur jaune, test sur rose  erreur4
Apprend sur jaune, test sur rose  erreur5
Apprend sur jaune, test sur rose  erreur6
Apprend sur jaune, test sur rose  erreur7
Apprend sur jaune, test sur rose  erreur8
erreur =  erreuri / k
A. Cornuéjols
Évaluation 25
Procédure “leave-one-out”
Données

Faible biais

Haute variance

Tend à sous-estimer
l’erreur si les données
ne sont pas vraiment
i.i.d.
[Guyon & Elisseeff, jMLR, 03]
A. Cornuéjols
Évaluation 26
Le Bootstrap
Données
 Apprend sur jaune, test sur rose  erreur
 Répéter et faire la moyenne
A. Cornuéjols
Évaluation 27
Problème

Le calcul des intervalles de confiance suppose
l’indépendance des estimations.

Mais nos estimations sont dépendantes. 
Estimation du risque
réel pour h finale
A. Cornuéjols
Moy. du risque sur
les k ens. de test
Moy. du risque sur
l’ens. des données
Évaluation 28
La comparaison de différentes hypothèses :
Paired t test

Vraie différence:
d  eD (1 )  eD ( 2 )

Pour chaque partition k:
dˆk  eˆS ,k (1 )  eˆS ,k ( 2 )

Moyenne:
k
1
dˆ   dˆi
k i 1

Intervalle de confiance à N% :
dˆ  t N ,k 1
N : intervalle de confiance
A. Cornuéjols
k
1
ˆ  ˆ) 2
(

 i
k (k  1) i 1
erreur de test
pour la partition k
tN, n
90%
95%
98%
99%
n=2
2.92
4.30
6.96
9.92
n=5
2.02
2.57
3.36
4.03
n=10
1.81
2.23
2.76
3.17
n=20
1.72
2.09
2.53
2.84
n=30
1.70
2.04
2.46
2.75
n=120
1.66
1.98
2.36
2.62
n=
1.64
1.96
2.33
2.58
k-1 degrés de liberté
Évaluation 29
Les types d’erreurs
A. Cornuéjols
Évaluation 30
Matrice de confusion
Réel
Estimé
A. Cornuéjols
+
-
+
VP
FP
-
FN
VN
Évaluation 31
Matrice de confusion
14% des poissons sont pris pour des
papillons
A. Cornuéjols
Évaluation 32
Types d’erreurs

Erreur de type 1 (alpha) : faux positifs
– Probabilité d’accepter l’hypothèse alors qu’elle est
fausse

Erreur de type 2 (beta) : faux négatifs
– Probabilité de rejeter l’hypothèse alors qu’elle est vraie

Comment arbitrer entre ces types
d’erreurs ?
A. Cornuéjols
Évaluation 33
Courbe ROC
Probabilité
de la classe
ROC = Receiver Operating Characteristic
Classe '-'
Classe '+'
Critère de décision
A. Cornuéjols
Évaluation 34
Probabilité
de la classe
La courbe ROC
Classe '+'
Faux
négatifs
Vrais
positifs
(10%)
(90%)
Probabilité
de la classe
Critère de décision
Classe '-'
Vrais
négatifs
Faux
positifs
(50%)
(50%)
Critère de décision
A. Cornuéjols
Évaluation 35
La courbe ROC
PROPORTION DE VRAIS NEGATIFS
0,1
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,0
1,0
0,9
0,9
0,8
PROPORTION DE VRAIS POSITIFS
0,2
0,8
Courbe ROC
(pertinence = 0,90)
0,7
0,7
0,6
0,6
0,5
0,5
Ligne de hasard
(pertinence = 0,5)
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
PROPORTION DE FAUX NEGATIFS
0
0
0
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
PROPORTION DE FAUX POSITIFS
A. Cornuéjols
Évaluation 36
La courbe ROC
PROPORTION DE VRAIS NEGATIFS
0,6
0,7
0,8
PROPORTION DE VRAIS NEGATIFS
0,9
1,0
0
1,0
0,9
0,9
0,9
0,8
0,8
Courbe ROC
(pertinence = 0,90)
0,7
0,7
0,6
0,6
0,5
0,5
Ligne de hasard
(pertinence = 0,5)
0,4
0,4
PROPORTIONDEFAUXNEGATIFS
PROPORTIONDEVRAISPOSITIFS
1,0
0,1
0,1
0,1
0
0,4
0,5
0,6
0,7
0,8
PROPORTION DE FAUX POSITIFS
A. Cornuéjols
0,9
1,0
0,6
0,7
0,8
0,9
1,0
0,9
0,8
Classe '+'
Faux
négatifs
Vr ais
pos itifs
(10%)
(90%)
0,7
Seuil "sévère"
Critère de décis ion
Classe ''
0,6
Faux
pos itifs
Vr ais
négatifs
(50%)
Classe '+'
0,5
(50%)
Critère de décis ion
Vr ais
pos itifs
0,4
0,4
0,2
0,3
0,5
Faux
négatifs
0,2
0,2
0,4
Seuil "laxiste"
0,5
0,2
0,1
0,3
1,0
0,6
0,3
0
0,2
0,7
0,3
0
0,1
0,3
Critère de décis ion
Classe ''
0,3
Faux
pos itifs
Vr ais
négatifs
0,2
Critère de décis ion
0,1
0
0
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
PROPORTION DE FAUX POSITIFS
Évaluation 37
PROPORTIONDEFAUXNEGATIFS
0,5
P
dreolb
aacb
lailsitsée
0,4
P
dreolb
aacb
lailsitsée
0,3
1,0
0,8
PROPORTIONDEVRAISPOSITIFS
0,2
P
dreolb
aacb
lailsitsée
0,1
P
dreolb
aacb
lailsitsée
0
Courbe ROC


Spécificité
VP
VP + FN
Sensibilité
Rappel

VP
VP + FN
VN
Précision

VP
VP + FP
FP + VN
Réel
+
-
+
VP
FP
-
FN
VN
Estimé
A. Cornuéjols
Évaluation 38
Résumé

Attention à votre fonction de coût :
– qu’est-ce qui importe pour la mesure de performance ?

Données en nombre fini:
– calculez les intervalles de confiance

Données rares :
– Attention à la répartition entre données d’apprentissage et données
test. Validation croisée.

N’oubliez pas l’ensemble de validation

L’évaluation est très importante
– Ayez l’esprit critique
– Convainquez-vous vous même !
A. Cornuéjols
Évaluation 39
Problèmes particuliers

Distribution des exemples + / - très déséquilibrée (e.g. 1%
ou 1%O )

Existence de « zones grises » (étiquettes peu informées)

Tâche multi-objectif
A. Cornuéjols
Évaluation 40
Autres critères d’évaluation

Intelligibilité des résultats (hypothèses produites)
– E.g. exit les réseaux de neurones

Performances en généralisation
– Pas toujours en adéquation totale avec le point précédent

Coûts
– de préparation (des données)
– coût computationnel (e.g. coût d’une passe et nombre de
passes nécessaires, …)
– coût de l’expertise en apprentissage
– coût de l’expertise sur le domaine
A. Cornuéjols
Évaluation 41
Références
Littérature très vaste sur les tests statistiques

Dietterich, T. G., (1998). Approximate Statistical Tests for Comparing Supervised
Classification Learning Algorithms. Neural Computation, 10 (7) 1895-1924.

Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of
Machine Learning Research, 3, 1157-1182.
A. Cornuéjols
Évaluation 42
Téléchargement