Évaluation de l’apprentissage: méthodes A. Cornuéjols LRI (basé sur Sebastian Thrun CMU class) Questions L’induction est une forme d’inférence faillible, il faut donc savoir évaluer sa qualité Questions types: – Quelle est la performance d’un système sur un type de tâche ? – Est-ce que mon système est meilleur que l’autre ? – Comment dois-je régler mon système ? A. Cornuéjols Évaluation 2 Approches Évaluation théorique a priori – Dimension de Vapnik-Chervonenkis – Critères sur la complexité des modèles : MDL / AIC / BIC • Estimer l’optimisme de la méthode et ajouter ce terme au taux d’erreur Évaluation empirique – E.g. taux d’erreur : (dans le cas d’un classifieur binaire avec une fonction de coût lié au nombre derreurs) A. Cornuéjols Évaluation 3 Plan 1. Mesurer la performance 2. Méthodes de validation 3. Matrices de confusion et courbe ROC 4. La comparaison de méthodes d’apprentissage 5. Autres mesures de performance A. Cornuéjols Évaluation 4 Évaluation des hypothèses produites beaucoup de donnés très peu de données données illimitées A. Cornuéjols Évaluation 5 Ensembles de données (collections) Toutes les données disponibles Ensemble d’apprentissage A. Cornuéjols Ensemble de test Ensemble de validation Évaluation 6 Prédiction asymptotique (le cas idéal) Useful for very large data sets A. Cornuéjols Évaluation 7 Le sur-apprentissage (over-learning) Erreur Sur-apprentissage erreur sur base de test erreur sur base d'apprentissage t Arrêt de l'apprentissage A. Cornuéjols Évaluation 8 Utilisation de l’ensemble de validation On règle les paramètres de l’algorithme d’apprentissage • E.g. : nb de couches cachées, nb de neurones, ... – en essayant de réduire l’erreur de test Pour avoir une estimation non optimiste de l’erreur, il faut recourir à une base d’exemples non encore vus : la base de validation A. Cornuéjols Évaluation 9 Évaluation des hypothèses produites beaucoup A. Cornuéjols peu de données Évaluation 10 Évaluation de l’erreur Erreur vraie: (Risque réel) eD y f ( x, ) p( x, y) dx, y D D = toutes les données possibles Erreur de test: eˆ 1 S (Risque empirique) m y f ( x, ) x , y ST T = données test m = # de données test A. Cornuéjols Évaluation 11 Exemple: L’hypothèse classe mal 12 des 40 exemples dans l’ensemble de test T. Q : Quelle sera l’erreur sur des exemples non vus ? R : ??? A. Cornuéjols Évaluation 12 Intervalle de confiance (1) Définition : un intervalle de confiance à N% pour une variable p est l’intervalle dans lequel sa valeur est attendue avec une probabilité de N% Soit une probabilité d’erreur (pour 2 classes) de p, la probabilité d’avoir r erreurs sur n évènements est : (loi binomiale) Espérance du nombre d’erreurs Variance Ecart-type A. Cornuéjols Évaluation 13 Intervalles de confiance (2) La loi binomiale peut être estimée par la loi normale si n p (1 - p) ≥ 5 de même moyenne m et même variance s A. Cornuéjols Évaluation 14 Intervalles de confiance (3) Je voudrais évaluer erreurD(h). Je l’estime en utilisant erreurT(h) qui est régie par une loi binomiale – De moyenne – D’écart-type Que l’on estime par la loi normale – De moyenne : – D’écart-type : A. Cornuéjols Évaluation 15 Intervalles de confiance (4) Loi normale A. Cornuéjols Loi normale Évaluation 16 Intervalles de confiance (5) Avec une probabilité de N%, l’erreur vraie erreurD est dans l’intervalle : N% 50% 68% 80% 90% 95% 98% 99% zN 0.67 1.0 1.28 1.64 1.96 2.33 2.58 A. Cornuéjols Évaluation 17 Intervalles de confiance (cf. Mitchell 97) Si – T contient m exemples tirés indépendamment – m 30 Alors – Avec une probabilité de 95%, l’erreur vraie eD est dans l’intervalle : eˆS 1.96 A. Cornuéjols eˆS (1 eˆS ) m Évaluation 18 Exemple: L’hypothèse classe mal 12 des40 exemples dans la base de test T. Q: Quelle sera l’erreur vraie sur les exemples non vus ? A: Avec 95% de confiance, l’erreur vraie sera dans l’intervalle : [0.16;0.44] m 40 A. Cornuéjols eˆS eˆS (1 eˆS ) eˆS 1.96 m 12 0.3 40 eˆS (1 eˆS ) 1.96 0.14 m Évaluation 19 Intervalles de confiance à 95% A. Cornuéjols Évaluation 20 Courbes de performance intervalle de confiance à 95% Erreur de test Erreur d’apprentissage A. Cornuéjols Évaluation 21 Comparaison de différentes hypothèses On cherche la différence vraie: d eD (1 ) eD ( 2 ) On estime par : dˆ eˆS (1 ) eˆS ( 2 ) Qui est une loi normale différence de 2 lois normales Intervalle de confiance à 95% : eˆS (1 ) (1 eˆS (1 )) eˆS ( 2 ) (1 eˆS ( 2 )) ˆ d 1.96 m1 m2 Rq : il faudrait normalement ne pas tester les deux hypothèses sur le même ensemble de test. La variance obtenue avec un même ensemble de test est un peu plus faible (cf. paired t tests). A. Cornuéjols Évaluation 22 Évaluation des hypothèses produites Beaucoup de données A. Cornuéjols peu Évaluation 23 Différents ensembles Données apprentissage test erreur A. Cornuéjols Évaluation 24 Validation croisée à k plis (k-fold) Données Apprend sur jaune, test sur rose erreur1 Apprend sur jaune, test sur rose erreur2 Apprend sur jaune, test sur rose erreur3 k-way split Apprend sur jaune, test sur rose erreur4 Apprend sur jaune, test sur rose erreur5 Apprend sur jaune, test sur rose erreur6 Apprend sur jaune, test sur rose erreur7 Apprend sur jaune, test sur rose erreur8 erreur = erreuri / k A. Cornuéjols Évaluation 25 Procédure “leave-one-out” Données Faible biais Haute variance Tend à sous-estimer l’erreur si les données ne sont pas vraiment i.i.d. [Guyon & Elisseeff, jMLR, 03] A. Cornuéjols Évaluation 26 Le Bootstrap Données Apprend sur jaune, test sur rose erreur Répéter et faire la moyenne A. Cornuéjols Évaluation 27 Problème Le calcul des intervalles de confiance suppose l’indépendance des estimations. Mais nos estimations sont dépendantes. Estimation du risque réel pour h finale A. Cornuéjols Moy. du risque sur les k ens. de test Moy. du risque sur l’ens. des données Évaluation 28 La comparaison de différentes hypothèses : Paired t test Vraie différence: d eD (1 ) eD ( 2 ) Pour chaque partition k: dˆk eˆS ,k (1 ) eˆS ,k ( 2 ) Moyenne: k 1 dˆ dˆi k i 1 Intervalle de confiance à N% : dˆ t N ,k 1 N : intervalle de confiance A. Cornuéjols k 1 ˆ ˆ) 2 ( i k (k 1) i 1 erreur de test pour la partition k tN, n 90% 95% 98% 99% n=2 2.92 4.30 6.96 9.92 n=5 2.02 2.57 3.36 4.03 n=10 1.81 2.23 2.76 3.17 n=20 1.72 2.09 2.53 2.84 n=30 1.70 2.04 2.46 2.75 n=120 1.66 1.98 2.36 2.62 n= 1.64 1.96 2.33 2.58 k-1 degrés de liberté Évaluation 29 Les types d’erreurs A. Cornuéjols Évaluation 30 Matrice de confusion Réel Estimé A. Cornuéjols + - + VP FP - FN VN Évaluation 31 Matrice de confusion 14% des poissons sont pris pour des papillons A. Cornuéjols Évaluation 32 Types d’erreurs Erreur de type 1 (alpha) : faux positifs – Probabilité d’accepter l’hypothèse alors qu’elle est fausse Erreur de type 2 (beta) : faux négatifs – Probabilité de rejeter l’hypothèse alors qu’elle est vraie Comment arbitrer entre ces types d’erreurs ? A. Cornuéjols Évaluation 33 Courbe ROC Probabilité de la classe ROC = Receiver Operating Characteristic Classe '-' Classe '+' Critère de décision A. Cornuéjols Évaluation 34 Probabilité de la classe La courbe ROC Classe '+' Faux négatifs Vrais positifs (10%) (90%) Probabilité de la classe Critère de décision Classe '-' Vrais négatifs Faux positifs (50%) (50%) Critère de décision A. Cornuéjols Évaluation 35 La courbe ROC PROPORTION DE VRAIS NEGATIFS 0,1 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,0 1,0 0,9 0,9 0,8 PROPORTION DE VRAIS POSITIFS 0,2 0,8 Courbe ROC (pertinence = 0,90) 0,7 0,7 0,6 0,6 0,5 0,5 Ligne de hasard (pertinence = 0,5) 0,4 0,4 0,3 0,3 0,2 0,2 0,1 0,1 PROPORTION DE FAUX NEGATIFS 0 0 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 PROPORTION DE FAUX POSITIFS A. Cornuéjols Évaluation 36 La courbe ROC PROPORTION DE VRAIS NEGATIFS 0,6 0,7 0,8 PROPORTION DE VRAIS NEGATIFS 0,9 1,0 0 1,0 0,9 0,9 0,9 0,8 0,8 Courbe ROC (pertinence = 0,90) 0,7 0,7 0,6 0,6 0,5 0,5 Ligne de hasard (pertinence = 0,5) 0,4 0,4 PROPORTIONDEFAUXNEGATIFS PROPORTIONDEVRAISPOSITIFS 1,0 0,1 0,1 0,1 0 0,4 0,5 0,6 0,7 0,8 PROPORTION DE FAUX POSITIFS A. Cornuéjols 0,9 1,0 0,6 0,7 0,8 0,9 1,0 0,9 0,8 Classe '+' Faux négatifs Vr ais pos itifs (10%) (90%) 0,7 Seuil "sévère" Critère de décis ion Classe '' 0,6 Faux pos itifs Vr ais négatifs (50%) Classe '+' 0,5 (50%) Critère de décis ion Vr ais pos itifs 0,4 0,4 0,2 0,3 0,5 Faux négatifs 0,2 0,2 0,4 Seuil "laxiste" 0,5 0,2 0,1 0,3 1,0 0,6 0,3 0 0,2 0,7 0,3 0 0,1 0,3 Critère de décis ion Classe '' 0,3 Faux pos itifs Vr ais négatifs 0,2 Critère de décis ion 0,1 0 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 PROPORTION DE FAUX POSITIFS Évaluation 37 PROPORTIONDEFAUXNEGATIFS 0,5 P dreolb aacb lailsitsée 0,4 P dreolb aacb lailsitsée 0,3 1,0 0,8 PROPORTIONDEVRAISPOSITIFS 0,2 P dreolb aacb lailsitsée 0,1 P dreolb aacb lailsitsée 0 Courbe ROC Spécificité VP VP + FN Sensibilité Rappel VP VP + FN VN Précision VP VP + FP FP + VN Réel + - + VP FP - FN VN Estimé A. Cornuéjols Évaluation 38 Résumé Attention à votre fonction de coût : – qu’est-ce qui importe pour la mesure de performance ? Données en nombre fini: – calculez les intervalles de confiance Données rares : – Attention à la répartition entre données d’apprentissage et données test. Validation croisée. N’oubliez pas l’ensemble de validation L’évaluation est très importante – Ayez l’esprit critique – Convainquez-vous vous même ! A. Cornuéjols Évaluation 39 Problèmes particuliers Distribution des exemples + / - très déséquilibrée (e.g. 1% ou 1%O ) Existence de « zones grises » (étiquettes peu informées) Tâche multi-objectif A. Cornuéjols Évaluation 40 Autres critères d’évaluation Intelligibilité des résultats (hypothèses produites) – E.g. exit les réseaux de neurones Performances en généralisation – Pas toujours en adéquation totale avec le point précédent Coûts – de préparation (des données) – coût computationnel (e.g. coût d’une passe et nombre de passes nécessaires, …) – coût de l’expertise en apprentissage – coût de l’expertise sur le domaine A. Cornuéjols Évaluation 41 Références Littérature très vaste sur les tests statistiques Dietterich, T. G., (1998). Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms. Neural Computation, 10 (7) 1895-1924. Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3, 1157-1182. A. Cornuéjols Évaluation 42