Évaluation de l`apprentissage

publicité
Questions
Évaluation de l’apprentissage:
L’induction est une forme d’inférence faillible,
il faut donc savoir évaluer sa qualité
méthodes
!
Questions types:
– Quelle est la performance d’un système sur un type de tâche ?
A. Cornuéjols
– Est-ce que mon système est meilleur que l’autre ?
LRI
– Comment dois-je régler mon système ?
(basé sur Sebastian Thrun CMU class)
A. Cornuéjols
Approches
!
Plan
Évaluation théorique a priori
– Dimension de Vapnik-Chervonenkis
– Critères sur la complexité des modèles : MDL / AIC / BIC
• Estimer l’optimisme de la méthode et ajouter ce terme au taux
d’erreur
!
Évaluation 2
Évaluation empirique
1.
Mesurer la performance
2.
Méthodes de validation
3.
Matrices de confusion et courbe ROC
4.
La comparaison de méthodes d’apprentissage
5.
Autres mesures de performance
– E.g. taux d’erreur : (dans le cas d’un classifieur binaire avec une
fonction de coût lié au nombre derreurs)
A. Cornuéjols
Évaluation 3
A. Cornuéjols
Évaluation 4
Évaluation des hypothèses produites
Ensembles de données
(collections)
Toutes les données disponibles
beaucoup
de donnés
très peu
de données
Ensemble
d’apprentissage
Ensemble
de test
Ensemble
de validation
données
illimitées
A. Cornuéjols
Évaluation 5
Prédiction asymptotique
A. Cornuéjols
Évaluation 6
Le sur-apprentissage (over-learning)
(le cas idéal)
Erreur
erreur sur base
de test
!
Sur-apprentissage
erreur sur base
d'apprentissage
Useful for very large data sets
t
Arrêt de l'apprentissage
A. Cornuéjols
Évaluation 7
A. Cornuéjols
Évaluation 8
Utilisation de l’ensemble de validation
!
Évaluation des hypothèses produites
On règle les paramètres de l’algorithme
d’apprentissage
• E.g. : nb de couches cachées, nb de neurones, ...
– en essayant de réduire l’erreur de test
!
Pour avoir une estimation non optimiste de
beaucoup
l’erreur, il faut recourir à une base d’exemples non
peu de données
encore vus : la base de validation
A. Cornuéjols
Évaluation de l’erreur
!
A. Cornuéjols
Évaluation 9
Exemple:
Erreur vraie:
eD = ! y " f ( x,# ) p ( x, y ) dx, y
(Risque réel)
!
L’hypothèse classe mal 12 des 40 exemples dans
l’ensemble de test T.
!
Q : Quelle sera l’erreur sur des exemples non vus ?
!
R : ???
D
D = toutes les données possibles
!
Évaluation 10
Erreur de test: ˆ 1
eS =
(Risque empirique)
m
!
y # f ( x, $ )
x , y "ST
T = données test
m = # de données test
A. Cornuéjols
Évaluation 11
A. Cornuéjols
Évaluation 12
Intervalle de confiance (1)
Intervalles de confiance (2)
Définition : un intervalle de confiance à N% pour une
variable p est l’intervalle dans lequel sa valeur est attendue
avec une probabilité de N%
!
!
La loi binomiale peut être estimée par la loi normale
si n p (1 - p) ! 5 de même moyenne ! et même variance "
Soit une probabilité d’erreur (pour 2 classes) de p, la probabilité
d’avoir r erreurs sur n évènements est :
!
(loi binomiale)
Espérance du
nombre d’erreurs
Variance
Ecart-type
A. Cornuéjols
Évaluation 13
Intervalles de confiance (3)
A. Cornuéjols
Évaluation 14
Intervalles de confiance (4)
!
Je voudrais évaluer erreur!(h).
!
Je l’estime en utilisant erreurT(h) qui est régie par une loi binomiale
!
Loi normale
!
Loi normale
– De moyenne
– D’écart-type
!
Que l’on estime par la loi normale
– De moyenne :
– D’écart-type :
A. Cornuéjols
Évaluation 15
A. Cornuéjols
Évaluation 16
Intervalles de confiance (5)
Intervalles de confiance (cf. Mitchell 97)
Si
Avec une probabilité de N%, l’erreur vraie erreurD est dans l’intervalle :
– T contient m exemples tirés indépendamment
– m ! 30
Alors
– Avec une probabilité de 95%, l’erreur vraie eD est dans
l’intervalle :
N%
50%
68%
80%
90%
95%
98%
99%
zN
0.67
1.0
1.28
1.64
1.96
2.33
2.58
A. Cornuéjols
Évaluation 17
Exemple:
L’hypothèse classe mal 12 des40 exemples dans la base de test T.
!
Q: Quelle sera l’erreur vraie sur les exemples non vus ?
!
A: Avec 95% de confiance, l’erreur vraie sera dans l’intervalle :
[0.16;0.44]
A. Cornuéjols
eˆS =
eˆS (1 ! eˆS )
m
A. Cornuéjols
Évaluation 18
Intervalles de confiance à 95%
!
m = 40
eˆS ± 1.96
" eˆS ± 1.96
12
= 0.3
40
eˆS (1 ! eˆS )
m
1.96
eˆS (1 " eˆS )
! 0.14
m
Évaluation 19
A. Cornuéjols
Évaluation 20
Courbes de performance
Comparaison de différentes hypothèses
intervalle de confiance à 95%
Erreur de test
!
On cherche la différence vraie:
d = eD (!1 ) " eD (! 2 )
!
On estime par :
dˆ = eˆS (!1 ) " eˆS (! 2 )
!
Qui est une loi normale différence de 2 lois normales
!
Intervalle de confiance à 95% :
eˆ (! ) (1 " eˆS (!1 )) eˆS (! 2 ) (1 " eˆS (! 2 ))
dˆ ± 1.96 S 1
+
m1
m2
Erreur d’apprentissage
A. Cornuéjols
Évaluation 21
Évaluation des hypothèses produites
Rq : il faudrait normalement ne pas tester les deux hypothèses sur le même ensemble de test.
La variance obtenue avec un même ensemble de test est un peu plus faible (cf. paired t
tests).
A. Cornuéjols
Évaluation 22
Différents ensembles
Données
Beaucoup
de données
A. Cornuéjols
apprentissage test !erreur
peu
Évaluation 23
A. Cornuéjols
Évaluation 24
Validation croisée à k plis
(k-fold)
Procédure “leave-one-out”
Données
Données
Apprend sur jaune, test sur rose ! erreur1
k-way split
Apprend sur jaune, test sur rose ! erreur2
!
Faible biais
Apprend sur jaune, test sur rose ! erreur3
!
Haute variance
!
Tend à sous-estimer
l’erreur si les données
ne sont pas vraiment
i.i.d.
Apprend sur jaune, test sur rose ! erreur4
Apprend sur jaune, test sur rose ! erreur5
Apprend sur jaune, test sur rose ! erreur6
Apprend sur jaune, test sur rose ! erreur7
[Guyon & Elisseeff, jMLR, 03]
Apprend sur jaune, test sur rose ! erreur8
erreur = " erreuri / k
A. Cornuéjols
Évaluation 25
Le Bootstrap
A. Cornuéjols
Évaluation 26
Problème
Données
!
Le calcul des intervalles de confiance suppose
l’indépendance des estimations.
!
Mais nos estimations sont dépendantes. #
" Apprend sur jaune, test sur rose ! erreur
" Répéter et faire la moyenne
A. Cornuéjols
Estimation du risque
réel pour h finale
Évaluation 27
A. Cornuéjols
Moy. du risque sur
les k ens. de test
Moy. du risque sur
l’ens. des données
Évaluation 28
La comparaison de différentes hypothèses :
Paired t test
!
Vraie différence:
d = eD (!1 ) " eD (! 2 )
!
Pour chaque partition k:
dˆk = eˆS ,k (!1 ) " eˆS ,k (! 2 )
!
Moyenne:
1 k
dˆ = ! dˆi
k i =1
!
Intervalle de confiance à N% :
dˆ ± t N ,k "1
N : intervalle de confiance
k
1
(#ˆi " #ˆ ) 2
!
k (k " 1) i =1
Les types d’erreurs
erreur de test
pour la partition k
tN, #
90%
95%
98%
99%
#=2
2.92
4.30
6.96
9.92
#=5
2.02
2.57
3.36
4.03
#=10
1.81
2.23
2.76
3.17
#=20
1.72
2.09
2.53
2.84
#=30
1.70
2.04
2.46
2.75
#=120
1.66
1.98
2.36
2.62
#="
1.64
1.96
2.33
2.58
k-1 degrés de liberté
A. Cornuéjols
Évaluation 29
Matrice de confusion
A. Cornuéjols
Évaluation 30
Matrice de confusion
14% des poissons sont pris pour des
papillons
Réel
Estimé
A. Cornuéjols
+
-
+
VP
FP
-
FN
VN
Évaluation 31
A. Cornuéjols
Évaluation 32
Types d’erreurs
Courbe ROC
ROC = Receiver Operating Characteristic
Erreur de type 1 (alpha) : faux positifs
– Probabilité d’accepter l’hypothèse alors qu’elle est
fausse
!
Erreur de type 2 (beta) : faux négatifs
Probabilité
de la classe
!
Classe '-'
Classe '+'
– Probabilité de rejeter l’hypothèse alors qu’elle est vraie
!
Comment arbitrer entre ces types
d’erreurs ?
Critère de décision
A. Cornuéjols
Évaluation 33
La courbe ROC
PROPORTION DE VRAIS NEGATIFS
Classe '+'
(10%)
(90%)
0,8
(50%)
(50%)
0,5
0,6
0,7
0,8
0,9
1,0
0,8
Courbe ROC
(pertinence = 0,90)
0,7
0,7
0,6
0,6
0,5
0,5
Ligne de hasard
(pertinence = 0,5)
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0
0
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
PROPORTION DE FAUX POSITIFS
Critère de décision
A. Cornuéjols
0,4
0,9
0,9
Faux
positifs
0,3
1,0
Vrais
positifs
Vrais
négatifs
0,2
1,0
Faux
négatifs
Classe '-'
0,1
PROPORTION DE FAUX NEGATIFS
0
Critère de décision
Probabilité
de la classe
Évaluation 34
PROPORTION DE VRAIS POSITIFS
Probabilité
de la classe
La courbe ROC
A. Cornuéjols
Évaluation 35
A. Cornuéjols
Évaluation 36
La courbe ROC
Indicateurs de performances
P ROPORTION DE VRAIS NEGATIFS
0,6
0,7
0,8
0
1,0
0,9
0,9
0,9
0,8
0,8
0,8
Courbe ROC
(pertinence = 0,90)
0,7
0,7
0,6
0,6
0,5
0,5
Ligne de hasard
(pertinence = 0,5)
0,4
PROPORTIONDEVRAISPOSITIFS
1,0
0,4
0,5
0,6
0,7
0,8
0,9
0,6
0,7
0,8
0,9
0,9
0,8
Classe '+'
Vrais
positifs
(90%)
0,7
Critère de décision
Classe ''
0,6
Faux
positifs
Vrais
négatifs
(50%)
Classe '+'
0,5
(50%)
Critère de décision
Vrais
positifs
0,4
0,3
Critère de décision
Classe ''
0,3
Faux
positifs
Vrais
négatifs
0
0,1
0,2
VP
VP + FP
Réel
Estimé
0,3
0,4
0,5
0,6
0,7
0,8
0,9
+
-
+
VP
FP
-
FN
VN
1,0
Évaluation 37
FN
FP-rate
!
VP + FN
A. Cornuéjols
2 x rappel x précision
rappel + précision
=
Évaluation 38
Résumé
FP
!
Attention à votre fonction de coût :
– qu’est-ce qui importe pour la mesure de performance ?
FP + VN
!
F-measure
Précision
VP + FN
P ROPORTION DE FAUX POSITIFS
Indicateurs de performances
!
!
VP
0,1
A. Cornuéjols
FN-rate
VN
FP + VN
0
0
1,0
Rappel
0,2
Critère de décision
P ROPORTION DE FAUX POSITIFS
!
Sensibilité
VP + FN
!
1,0
0,4
0,1
0,3
Seuil "sévère"
Faux
négatifs
0,1
0,2
0,5
Seuil "laxiste"
0,5
0,2
0,1
0,4
VP
1,0
0,6
0,2
0
0,3
(10%)
0,2
0
0,2
Faux
négatifs
0,3
0,1
0,1
0,7
0,3
0
!
P ROPORTION DE VRAIS NEGATIFS
0,9
1,0
0,4
Spécificité
PROPORTIONDEFAUXNEGATIFS
0,5
P
acab
laislistée
derolb
0,4
ba
P
dreola
cb
lailsistée
0,3
P
cb
laislitsée
derolb
aa
0,2
P
derolb
acab
lailsistée
0,1
1,0
PROPORTIONDEFAUXNEGATIFS
PROPORTIONDEVRAISPOSITIFS
0
!
2 VP
Données en nombre fini:
– calculez les intervalles de confiance
2 VP + FP + FN
!
Données rares :
– Attention à la répartition entre données d’apprentissage et données
test. Validation croisée.
Réel
Estimé
+
+
-
VP
FP
!
N’oubliez pas l’ensemble de validation
!
L’évaluation est très importante
– Ayez l’esprit critique
A. Cornuéjols
FN
– Convainquez-vous vous même !
VN
Évaluation 39
A. Cornuéjols
Évaluation 40
Problèmes ouverts
Problèmes particuliers
!
Apprentissage sensible au coût avec > 2 classes
!
Incorporation des estimations de probabilités avec des méthodes nonprobabilistes
!
Obtenir des évaluation de probabilité avec des méthodes nonprobabilistes
!
Apprendre et classer quand les descripteurs ont des coûts différents
A. Cornuéjols
Intelligibilité des résultats (hypothèses produites)
Performances en généralisation
– Pas toujours en adéquation totale avec le point précédent
!
!
Existence de «!zones grises!» (étiquettes peu informées)
!
Tâche multi-objectif
A. Cornuéjols
Évaluation 42
Références
– E.g. exit les réseaux de neurones
!
Distribution des exemples + / - très déséquilibrée (e.g. 1%
ou 1%O )
Évaluation 41
Autres critères d’évaluation
!
!
Littérature très vaste sur les tests statistiques
!
Dietterich, T. G., (1998). Approximate Statistical Tests for Comparing Supervised
Classification Learning Algorithms. Neural Computation, 10 (7) 1895-1924.
!
Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection.
Journal of Machine Learning Research, 3, 1157-1182.
Coûts
– de préparation (des données)
– coût computationnel (e.g. coût d’une passe et nombre de
passes nécessaires, …)
– coût de l’expertise en apprentissage
– coût de l’expertise sur le domaine
A. Cornuéjols
Évaluation 43
A. Cornuéjols
Évaluation 44
Boîte à outils Weka
!
Boîte à outils Weka
http://www.cs.waikato.ac.nz/ml/weka/
A. Cornuéjols
Évaluation 45
Boîte à outils Weka
A. Cornuéjols
Évaluation 47
A. Cornuéjols
Évaluation 46
Téléchargement