Questions Évaluation de l’apprentissage: L’induction est une forme d’inférence faillible, il faut donc savoir évaluer sa qualité méthodes ! Questions types: – Quelle est la performance d’un système sur un type de tâche ? A. Cornuéjols – Est-ce que mon système est meilleur que l’autre ? LRI – Comment dois-je régler mon système ? (basé sur Sebastian Thrun CMU class) A. Cornuéjols Approches ! Plan Évaluation théorique a priori – Dimension de Vapnik-Chervonenkis – Critères sur la complexité des modèles : MDL / AIC / BIC • Estimer l’optimisme de la méthode et ajouter ce terme au taux d’erreur ! Évaluation 2 Évaluation empirique 1. Mesurer la performance 2. Méthodes de validation 3. Matrices de confusion et courbe ROC 4. La comparaison de méthodes d’apprentissage 5. Autres mesures de performance – E.g. taux d’erreur : (dans le cas d’un classifieur binaire avec une fonction de coût lié au nombre derreurs) A. Cornuéjols Évaluation 3 A. Cornuéjols Évaluation 4 Évaluation des hypothèses produites Ensembles de données (collections) Toutes les données disponibles beaucoup de donnés très peu de données Ensemble d’apprentissage Ensemble de test Ensemble de validation données illimitées A. Cornuéjols Évaluation 5 Prédiction asymptotique A. Cornuéjols Évaluation 6 Le sur-apprentissage (over-learning) (le cas idéal) Erreur erreur sur base de test ! Sur-apprentissage erreur sur base d'apprentissage Useful for very large data sets t Arrêt de l'apprentissage A. Cornuéjols Évaluation 7 A. Cornuéjols Évaluation 8 Utilisation de l’ensemble de validation ! Évaluation des hypothèses produites On règle les paramètres de l’algorithme d’apprentissage • E.g. : nb de couches cachées, nb de neurones, ... – en essayant de réduire l’erreur de test ! Pour avoir une estimation non optimiste de beaucoup l’erreur, il faut recourir à une base d’exemples non peu de données encore vus : la base de validation A. Cornuéjols Évaluation de l’erreur ! A. Cornuéjols Évaluation 9 Exemple: Erreur vraie: eD = ! y " f ( x,# ) p ( x, y ) dx, y (Risque réel) ! L’hypothèse classe mal 12 des 40 exemples dans l’ensemble de test T. ! Q : Quelle sera l’erreur sur des exemples non vus ? ! R : ??? D D = toutes les données possibles ! Évaluation 10 Erreur de test: ˆ 1 eS = (Risque empirique) m ! y # f ( x, $ ) x , y "ST T = données test m = # de données test A. Cornuéjols Évaluation 11 A. Cornuéjols Évaluation 12 Intervalle de confiance (1) Intervalles de confiance (2) Définition : un intervalle de confiance à N% pour une variable p est l’intervalle dans lequel sa valeur est attendue avec une probabilité de N% ! ! La loi binomiale peut être estimée par la loi normale si n p (1 - p) ! 5 de même moyenne ! et même variance " Soit une probabilité d’erreur (pour 2 classes) de p, la probabilité d’avoir r erreurs sur n évènements est : ! (loi binomiale) Espérance du nombre d’erreurs Variance Ecart-type A. Cornuéjols Évaluation 13 Intervalles de confiance (3) A. Cornuéjols Évaluation 14 Intervalles de confiance (4) ! Je voudrais évaluer erreur!(h). ! Je l’estime en utilisant erreurT(h) qui est régie par une loi binomiale ! Loi normale ! Loi normale – De moyenne – D’écart-type ! Que l’on estime par la loi normale – De moyenne : – D’écart-type : A. Cornuéjols Évaluation 15 A. Cornuéjols Évaluation 16 Intervalles de confiance (5) Intervalles de confiance (cf. Mitchell 97) Si Avec une probabilité de N%, l’erreur vraie erreurD est dans l’intervalle : – T contient m exemples tirés indépendamment – m ! 30 Alors – Avec une probabilité de 95%, l’erreur vraie eD est dans l’intervalle : N% 50% 68% 80% 90% 95% 98% 99% zN 0.67 1.0 1.28 1.64 1.96 2.33 2.58 A. Cornuéjols Évaluation 17 Exemple: L’hypothèse classe mal 12 des40 exemples dans la base de test T. ! Q: Quelle sera l’erreur vraie sur les exemples non vus ? ! A: Avec 95% de confiance, l’erreur vraie sera dans l’intervalle : [0.16;0.44] A. Cornuéjols eˆS = eˆS (1 ! eˆS ) m A. Cornuéjols Évaluation 18 Intervalles de confiance à 95% ! m = 40 eˆS ± 1.96 " eˆS ± 1.96 12 = 0.3 40 eˆS (1 ! eˆS ) m 1.96 eˆS (1 " eˆS ) ! 0.14 m Évaluation 19 A. Cornuéjols Évaluation 20 Courbes de performance Comparaison de différentes hypothèses intervalle de confiance à 95% Erreur de test ! On cherche la différence vraie: d = eD (!1 ) " eD (! 2 ) ! On estime par : dˆ = eˆS (!1 ) " eˆS (! 2 ) ! Qui est une loi normale différence de 2 lois normales ! Intervalle de confiance à 95% : eˆ (! ) (1 " eˆS (!1 )) eˆS (! 2 ) (1 " eˆS (! 2 )) dˆ ± 1.96 S 1 + m1 m2 Erreur d’apprentissage A. Cornuéjols Évaluation 21 Évaluation des hypothèses produites Rq : il faudrait normalement ne pas tester les deux hypothèses sur le même ensemble de test. La variance obtenue avec un même ensemble de test est un peu plus faible (cf. paired t tests). A. Cornuéjols Évaluation 22 Différents ensembles Données Beaucoup de données A. Cornuéjols apprentissage test !erreur peu Évaluation 23 A. Cornuéjols Évaluation 24 Validation croisée à k plis (k-fold) Procédure “leave-one-out” Données Données Apprend sur jaune, test sur rose ! erreur1 k-way split Apprend sur jaune, test sur rose ! erreur2 ! Faible biais Apprend sur jaune, test sur rose ! erreur3 ! Haute variance ! Tend à sous-estimer l’erreur si les données ne sont pas vraiment i.i.d. Apprend sur jaune, test sur rose ! erreur4 Apprend sur jaune, test sur rose ! erreur5 Apprend sur jaune, test sur rose ! erreur6 Apprend sur jaune, test sur rose ! erreur7 [Guyon & Elisseeff, jMLR, 03] Apprend sur jaune, test sur rose ! erreur8 erreur = " erreuri / k A. Cornuéjols Évaluation 25 Le Bootstrap A. Cornuéjols Évaluation 26 Problème Données ! Le calcul des intervalles de confiance suppose l’indépendance des estimations. ! Mais nos estimations sont dépendantes. # " Apprend sur jaune, test sur rose ! erreur " Répéter et faire la moyenne A. Cornuéjols Estimation du risque réel pour h finale Évaluation 27 A. Cornuéjols Moy. du risque sur les k ens. de test Moy. du risque sur l’ens. des données Évaluation 28 La comparaison de différentes hypothèses : Paired t test ! Vraie différence: d = eD (!1 ) " eD (! 2 ) ! Pour chaque partition k: dˆk = eˆS ,k (!1 ) " eˆS ,k (! 2 ) ! Moyenne: 1 k dˆ = ! dˆi k i =1 ! Intervalle de confiance à N% : dˆ ± t N ,k "1 N : intervalle de confiance k 1 (#ˆi " #ˆ ) 2 ! k (k " 1) i =1 Les types d’erreurs erreur de test pour la partition k tN, # 90% 95% 98% 99% #=2 2.92 4.30 6.96 9.92 #=5 2.02 2.57 3.36 4.03 #=10 1.81 2.23 2.76 3.17 #=20 1.72 2.09 2.53 2.84 #=30 1.70 2.04 2.46 2.75 #=120 1.66 1.98 2.36 2.62 #=" 1.64 1.96 2.33 2.58 k-1 degrés de liberté A. Cornuéjols Évaluation 29 Matrice de confusion A. Cornuéjols Évaluation 30 Matrice de confusion 14% des poissons sont pris pour des papillons Réel Estimé A. Cornuéjols + - + VP FP - FN VN Évaluation 31 A. Cornuéjols Évaluation 32 Types d’erreurs Courbe ROC ROC = Receiver Operating Characteristic Erreur de type 1 (alpha) : faux positifs – Probabilité d’accepter l’hypothèse alors qu’elle est fausse ! Erreur de type 2 (beta) : faux négatifs Probabilité de la classe ! Classe '-' Classe '+' – Probabilité de rejeter l’hypothèse alors qu’elle est vraie ! Comment arbitrer entre ces types d’erreurs ? Critère de décision A. Cornuéjols Évaluation 33 La courbe ROC PROPORTION DE VRAIS NEGATIFS Classe '+' (10%) (90%) 0,8 (50%) (50%) 0,5 0,6 0,7 0,8 0,9 1,0 0,8 Courbe ROC (pertinence = 0,90) 0,7 0,7 0,6 0,6 0,5 0,5 Ligne de hasard (pertinence = 0,5) 0,4 0,4 0,3 0,3 0,2 0,2 0,1 0,1 0 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 PROPORTION DE FAUX POSITIFS Critère de décision A. Cornuéjols 0,4 0,9 0,9 Faux positifs 0,3 1,0 Vrais positifs Vrais négatifs 0,2 1,0 Faux négatifs Classe '-' 0,1 PROPORTION DE FAUX NEGATIFS 0 Critère de décision Probabilité de la classe Évaluation 34 PROPORTION DE VRAIS POSITIFS Probabilité de la classe La courbe ROC A. Cornuéjols Évaluation 35 A. Cornuéjols Évaluation 36 La courbe ROC Indicateurs de performances P ROPORTION DE VRAIS NEGATIFS 0,6 0,7 0,8 0 1,0 0,9 0,9 0,9 0,8 0,8 0,8 Courbe ROC (pertinence = 0,90) 0,7 0,7 0,6 0,6 0,5 0,5 Ligne de hasard (pertinence = 0,5) 0,4 PROPORTIONDEVRAISPOSITIFS 1,0 0,4 0,5 0,6 0,7 0,8 0,9 0,6 0,7 0,8 0,9 0,9 0,8 Classe '+' Vrais positifs (90%) 0,7 Critère de décision Classe '' 0,6 Faux positifs Vrais négatifs (50%) Classe '+' 0,5 (50%) Critère de décision Vrais positifs 0,4 0,3 Critère de décision Classe '' 0,3 Faux positifs Vrais négatifs 0 0,1 0,2 VP VP + FP Réel Estimé 0,3 0,4 0,5 0,6 0,7 0,8 0,9 + - + VP FP - FN VN 1,0 Évaluation 37 FN FP-rate ! VP + FN A. Cornuéjols 2 x rappel x précision rappel + précision = Évaluation 38 Résumé FP ! Attention à votre fonction de coût : – qu’est-ce qui importe pour la mesure de performance ? FP + VN ! F-measure Précision VP + FN P ROPORTION DE FAUX POSITIFS Indicateurs de performances ! ! VP 0,1 A. Cornuéjols FN-rate VN FP + VN 0 0 1,0 Rappel 0,2 Critère de décision P ROPORTION DE FAUX POSITIFS ! Sensibilité VP + FN ! 1,0 0,4 0,1 0,3 Seuil "sévère" Faux négatifs 0,1 0,2 0,5 Seuil "laxiste" 0,5 0,2 0,1 0,4 VP 1,0 0,6 0,2 0 0,3 (10%) 0,2 0 0,2 Faux négatifs 0,3 0,1 0,1 0,7 0,3 0 ! P ROPORTION DE VRAIS NEGATIFS 0,9 1,0 0,4 Spécificité PROPORTIONDEFAUXNEGATIFS 0,5 P acab laislistée derolb 0,4 ba P dreola cb lailsistée 0,3 P cb laislitsée derolb aa 0,2 P derolb acab lailsistée 0,1 1,0 PROPORTIONDEFAUXNEGATIFS PROPORTIONDEVRAISPOSITIFS 0 ! 2 VP Données en nombre fini: – calculez les intervalles de confiance 2 VP + FP + FN ! Données rares : – Attention à la répartition entre données d’apprentissage et données test. Validation croisée. Réel Estimé + + - VP FP ! N’oubliez pas l’ensemble de validation ! L’évaluation est très importante – Ayez l’esprit critique A. Cornuéjols FN – Convainquez-vous vous même ! VN Évaluation 39 A. Cornuéjols Évaluation 40 Problèmes ouverts Problèmes particuliers ! Apprentissage sensible au coût avec > 2 classes ! Incorporation des estimations de probabilités avec des méthodes nonprobabilistes ! Obtenir des évaluation de probabilité avec des méthodes nonprobabilistes ! Apprendre et classer quand les descripteurs ont des coûts différents A. Cornuéjols Intelligibilité des résultats (hypothèses produites) Performances en généralisation – Pas toujours en adéquation totale avec le point précédent ! ! Existence de «!zones grises!» (étiquettes peu informées) ! Tâche multi-objectif A. Cornuéjols Évaluation 42 Références – E.g. exit les réseaux de neurones ! Distribution des exemples + / - très déséquilibrée (e.g. 1% ou 1%O ) Évaluation 41 Autres critères d’évaluation ! ! Littérature très vaste sur les tests statistiques ! Dietterich, T. G., (1998). Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms. Neural Computation, 10 (7) 1895-1924. ! Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3, 1157-1182. Coûts – de préparation (des données) – coût computationnel (e.g. coût d’une passe et nombre de passes nécessaires, …) – coût de l’expertise en apprentissage – coût de l’expertise sur le domaine A. Cornuéjols Évaluation 43 A. Cornuéjols Évaluation 44 Boîte à outils Weka ! Boîte à outils Weka http://www.cs.waikato.ac.nz/ml/weka/ A. Cornuéjols Évaluation 45 Boîte à outils Weka A. Cornuéjols Évaluation 47 A. Cornuéjols Évaluation 46