Cornuéjols 1- Introduction à l’apprentissage 1 Introduction à l’Apprentissage Artificiel Antoine Cornuéjols INA-PG et L.R.I., Université de Paris-Sud, Orsay (France) [email protected] http://www.lri.fr/~antoine/ 11/12/06 Le cours Cornuéjols 1- Introduction à l’apprentissage 2 • 1-2-3-4-5-6-7-8 • Documents Le livre "L'apprentissage artificiel. Concepts et algorithmes" A. Cornuéjols & L. Miclet. Eyrolles. 2002. Les transparents sur www.lri.fr/~antoine/ …cours apprentissage 11/12/06 Cours : plan prévu Cornuéjols 1- Introduction à l’induction (AC) 2- Apprentissage statistique (BK) 3- Apprentissage par méthodes d’ensemble (BK) 4- Apprentissage non supervisé (BK) 5- Réseaux de neurones / Validation (AC) 6- Apprentissage de séquences (AC) 7- Fouille de données (MS) 8- Fouille de données relationnelles (MS) 1- Introduction à l’apprentissage 3 11/12/06 Cours 1: plan 1- Cornuéjols 1- Introduction à l’apprentissage 4 Introduction à l’induction 1.1- Visages de l’apprentissage 1.2- Des algorithmes 1.3- Approche plus formelle de l’induction 1.4- Apprentissage par exploration 11/12/06 Cornuéjols 1.1 Applications : Analyse de puces à ADN 1- Introduction à l’apprentissage 5 Analyse de l’expression des gènes dans un phénomène biologique Combien de gènes ? Quels gènes ? 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 6 1.1 Applications : Prédiction de la bioactivité de molécules 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 7 1.1 Applications : Prédiction du risque cardio-vasculaire 11/12/06 Cornuéjols 1.1 Applications : Analyse de grilles de calcul 1- Introduction à l’apprentissage 8 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 9 1.1 Applications : Grand DARPA challenge (2005) 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 10 1.1 Applications : Grand DARPA challenge (2005) 150 mile off-road robot race across the Mojave desert Natural and manmade hazards No driver, no remote control No dynamic passing Fastest vehicle wins the race (and 2 million dollar prize) 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 11 1.1 Applications : Grand DARPA challenge (2005) 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 12 1.1 Applications : Grand DARPA challenge (2005) 11/12/06 1.1 Applications : SKY SURVEY Cornuéjols 1- Introduction à l’apprentissage 13 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 14 1.1 Applications : Apprendre à étiqueter des images • Reconnaissance de visages “Face Recognition: Component-based versus Global Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Computer Vision and Image Understanding, Vol. 91, No. 1/2, 6-21, 2003. 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 15 1.1 Applications : Apprendre à étiqueter des images • Reconnaissance de visages 11/12/06 1.1 Applications : Robot sur Mars Cornuéjols 1- Introduction à l’apprentissage 16 11/12/06 1.1 Applications : Robots Cornuéjols 1- Introduction à l’apprentissage 17 • Robot wowwee 11/12/06 Cornuéjols 1.1 Applications : Agent virtuel sur la Toile 1- Introduction à l’apprentissage 18 11/12/06 1.1- Autres apprentissages Cornuéjols 1- Introduction à l’apprentissage 19 • Association • Imitation • Apprentissage de comportement : Apprendre à marcher (insectoïdes de Brooks) Apprendre à se comporter sur une planète • Apprendre à mieux jouer S'adapter à l'adversaire Ne pas répéter ses fautes Apprendre à jouer en équipe QuickTime™ and a Video decompressor are needed to see this picture. – Équipes de robots 11/12/06 1.1- Autres apprentissages Cornuéjols 1- Introduction à l’apprentissage 20 • Apprentissage pour la navigation Apprentissage de trajets (fourmis, abeilles) Robots • Discrimination Identification de sous-marins vs. bruits naturels Identification de locuteur / de signature Reconnaissance de l'écriture manuscrite, de la parole Code postal • Catégorisation SKY SURVEY 11/12/06 1. 1- Autres apprentissages Cornuéjols 1- Introduction à l’apprentissage 21 • Systèmes autonomes avec apprentissage 11/12/06 1.1- Autres apprentissages Cornuéjols 1- Introduction à l’apprentissage 22 • Révision de théorie • Découverte scientifique Découverte de régularités (en biochimie, …) • Apprendre à filtrer l'information • Apprendre les préférences d'un utilisateur • Apprendre à faire des résumés • Apprendre à communiquer (e.g. Steels, …) • ... 11/12/06 1. 1- Quel objectif ? (5) Cornuéjols 1- Introduction à l’apprentissage 23 Et aussi Mieux comprendre l'apprentissage : • Pour ne pas avoir à programmer Programmation par la démonstration Programmation par l'exemple (e.g. l'EBL) Programmation par échantillon d'apprentissage : induction • Pour mieux enseigner • Pour savoir ce que d'autres intelligences pourraient apprendre : théorie générale de l'apprentissage 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 24 1.1- C'est quoi la science de l'apprentissage artificiel ? On étudie les apprentissages : naturels artificiels des théories (s'appliquant à tout système apprenant) des méthodes et des algorithmes d'apprentissage Implémentables sur machines 11/12/06 1. 1- Des scénarios Cornuéjols 1- Introduction à l’apprentissage 25 • Induction 1 2 3 5… 111211211111221312211… Comment ? Pourquoi serait-il possible de faire de l’induction ? Est-ce qu’un exemple supplémentaire doit augmenter la confiance dans la règle induite ? Combien faut-il d’exemples ? 11/12/06 1. 1- Des scénarios Cornuéjols 1- Introduction à l’apprentissage 26 QuickTime™ et un décompresseur TIFF (non compressé) sont requis pour visionner cette image. • Est-ce de l’apprentissage ? Phénomène de mémoire, sans mémoire !? 11/12/06 Cornuéjols 1. 1- Des scénarios abc 1- Introduction à l’apprentissage 27 aababc ijjkkk abd ? ? • Séquences d’analogies Quelles situations sélectionner ? Dans quel ordre ? Est-ce de l’apprentissage ? 11/12/06 Cornuéjols 1. 1- Des scénarios 1- Introduction à l’apprentissage 28 E2 E1 A C B D • Soient deux exemples dont les descriptions pourraient être : E1 : Un triangle rayé au-dessus d’un carré uni noir E2 : Un carré uni blanc au-dessus d’un cercle rayé Formuler une description générale de ces deux exemples 11/12/06 1. 1- Des scénarios Cornuéjols 1- Introduction à l’apprentissage 29 Problème Quel est le nombre a qui prolonge la séquence : 1 2 3 5…a ? 11/12/06 Cornuéjols 1. 1- Des scénarios 1- Introduction à l’apprentissage 30 • Solution(s). Quelques réponses valides : a = 6. Argument : c’est la suite des entiers sauf 4. a = 7. Argument : c’est la suite des nombres premiers. a = 8. Argument : c’est la suite de Fibonacci a = 2 p. (a peut être n’importe quel nombre réel supérieur ou égal à 5) Argument : la séquence présentée est la liste ordonnée des racines du polynôme : P = x 5 - (11 + a)x 4 + (41 + 11a)x 3 - (61 - 41a)x 2 + (30 + 61a)x - 30a qui est le développement de : (x - 1) . (x - 2) . (x - 3) . (x - 5) . (x - a) • Généralisation Il est facile de démontrer ainsi que n’importe quel nombre est une prolongation correcte de n’importe quelle suite de nombre Mais alors … comment faire de l’induction ? et que peut-être une science de l’induction ? 11/12/06 Cornuéjols 1. 1- Des scénarios 1- Introduction à l’apprentissage 31 • Exemples décrits par : nombre (1 ou 2); taille (petit ou grand); forme (cercle ou carré); couleur (rouge ou vert) • Les objets appartiennent soit à la classe + soit à la classe Description Votre réponse Vraie réponse 1 grand carré rouge - 1 grand carré vert + 2 petits carrés rouges + 2 grands cercles rouges - 1 grand cercle vert + 1 petit cercle rouge + 1 petit carré vert - 1 petit carré rouge + 2 grands carrés verts + 11/12/06 1. 1- Des scénarios Cornuéjols 1- Introduction à l’apprentissage 32 Quick Time™e tun d écomp res seur TIFF (n on comp res sé) s ont req uis pour visionne r cette image. • Oui Quick Time™e tun d écomp res seur TIFF (n on comp res sé) s ont req uis pour visionne r cette image. • Oui QuickT ime ™et un dé compr ess eur T IF F (no n compr ess é) so ntr equ is p our v is io nner cette ima ge. • Non 11/12/06 1. 1- Des scénarios Cornuéjols 1- Introduction à l’apprentissage 33 Quick Time™e tun d écomp res seur TIFF (n on comp res sé) s ont req uis pour visionne r cette image. • Est-ce une tâche de reconnaissance de forme ? de caractères ? • Comment coder les exemples ? 01111110111001000000100000010111111 11101111001110 • Le choix de la représentation peut rendre l’apprentissage trivial Mais comment faire ce choix ? 11/12/06 Cornuéjols 1. 1- Des scénarios 1- Introduction à l’apprentissage 34 Apprendre par coeur ? IMPOSSIBLE Généraliser Comment coder les formes ? b 11/12/06 1. 1- Des scénarios Cornuéjols 1- Introduction à l’apprentissage 35 • Extraction de caractéristiques (descripteurs, attributs) Eliminer les descripteurs non pertinents Introduction de nouveaux descripteurs – Utilisation de connaissances a priori • Invariance par translation • Invariance par changement d’échelle – Histogrammes – Combinaisons de descripteurs Ajouter des descripteurs (beaucoup) !! 11/12/06 Cornuéjols 1. 1- Des scénarios 1- Introduction à l’apprentissage 36 • Quel critère de performance (de succès) ? Probabilité de misclassification Risque Nombre d’erreurs • Apprentissage sur un échantillon d'apprentissage • Test sur une base de test "Erreur" Courbe d'apprentissage Taille échantillon 11/12/06 Introduction à l’induction Cornuéjols 1- Introduction à l’apprentissage 37 • Induction : Proposer des lois générales à partir de l’observation de cas particuliers 11/12/06 Comment définir l’apprentissage ? Cornuéjols 1- Introduction à l’apprentissage 38 • « Learning is any change in a system that allows it to perform better the second time on repetition of the same task or another task drawn from the same population » [Herbert Simon, 1983] • « Learning is making useful changes in mind » [Marvin Minsky, 1985] • « Learning is the organization of experience » [Scott, 1983] • « Learning is constructing or modifying representations of what is being experienced » [Riszard Michalski, 1986] 11/12/06 1.1- Ingrédients de l’apprentissage Cornuéjols 1- Introduction à l’apprentissage 39 • Espace des hypothèses H • Espace des entrées X • Mesure de performance • Optimisation / exploration de H • Protocole 11/12/06 1.1- Premières notions Cornuéjols 1- Introduction à l’apprentissage 40 • Protocole Passif ou actif ? Incrémental (on-line) ou « tout ensemble » (off-line) ? Réponses immédiates ou après votre estimation ? • Critère de succès Nombre de mauvaises réponses ? Taux de mauvaises réponses (taux d’erreur) ? Nombre d’essais avant d’avoir « identifié la solution » ? Taux d’erreur de votre estimation finale (qui peut être erronée) (« Taux d’erreur en généralisation ») 11/12/06 1.1- Notion de protocole Cornuéjols 1- Introduction à l’apprentissage 41 Le protocole règle les interactions entre les acteurs Environnement : – Données fournies incrémentalement ou non (apprentissage en-ligne / batch) – Dans un ordre indifférent / hostile / favorable Oracle : – Données semi-supervisées – Apprentissage multi-instances – Étiquettes vraies fournies avec les exemples ou seulement après prédiction de l’apprenant (risque mesuré par le nombre d’erreurs de l’apprenant : mistake-bound learning) (ou relativement au meilleur expert d’un comité : relative loss-bound models) – Peut fournir un contre-exemple quand l’apprenant propose une hypothèse candidate h non équivalente à la fonction cible (equivalence queries) Apprenant : – Complètement passif : données i.i.d. – Peut poser des questions : fournir un exemple et demander son étiquette (membership queries) – Peut poser des questions sur les statistiques des exemples étiquetés (statistical queries) – Apprentissage actif : organise son exploration du monde 11/12/06 1.1- Questions essentielles Cornuéjols 1- Introduction à l’apprentissage 42 • Données et connaissances a priori Quelles données sont disponibles ? Que sait-on du problème ? • Représentation Comment représenter les exemples ? Comment représenter les hypothèses ? • Méthode et estimation Quel est l’espace des hypothèses ? Comment évaluer une hypothèse en fonction des exemples connus ? • Évaluation de la performance après apprentissage ? • Comment reconsidérer l’espace des hypothèses ? 11/12/06 1.1- Types d’apprentissages Cornuéjols 1- Introduction à l’apprentissage 43 1. Apprentissage supervisé À partir de l’échantillon d’apprentissage S = {(xi, ui)}1,m on cherche une loi de dépendance sous-jacente – Par exemple une fonction h aussi proche possible de f (fonction cible) tq : ui = f(xi) – Ou bien une distribution de probabilités P(xi, ui) afin de prédire l’avenir 11/12/06 1.1 - L'induction supervisée Cornuéjols 1- Introduction à l’apprentissage 44 • Si f est une fonction continue Régression Estimation de densité • Si f est une fonction discrète Classification • Si f est une fonction binaire (booléenne) Apprentissage de concept 11/12/06 1.1- Types d’apprentissages Cornuéjols 1- Introduction à l’apprentissage 45 2. Apprentissage non supervisé De l’échantillon d’apprentissage S = {(xi)}1,m on cherche des régularités sous-jacentes – Sous forme d’une fonction : régression – Sous forme de nuages de points (e.g. mixture de gaussiennes) – Sous forme d’un modèle complexe (e.g. réseau bayésien) afin de résumer, détecter des régularités, comprendre … 11/12/06 Cornuéjols 1.1- Types d’apprentissages 1- Introduction à l’apprentissage 46 3. Apprentissage par renforcement Les données d’apprentissage Une séquence de perceptions, d’actions et de récompenses : (st, at, rt)t = 1, – Avec un renforcement rt – rt peut sanctionner des actions très antérieures à t Environnement Perception Le problème : inférer une application : Action Récompense situation perçue action afin de maximiser un gain sur le long terme Apprentissage de réflexes ... -> … apprentissage de planification 11/12/06 1.1- Plusieurs niveaux d’analyse ? Cornuéjols 1- Introduction à l’apprentissage 47 1. Analyse de principe, de faisabilité : que peut-on apprendre ? Sous quelles conditions ? sans référence à un algorithme particulier !! Théories mathématiques en particulier de nature statistique 2. Niveau de la réalisation / simulation Comment apprendre ? Algorithmes Programmes Réalisations et tests empiriques 11/12/06 Cours 1: plan 1- Cornuéjols 1- Introduction à l’apprentissage 48 Introduction à l’induction 1.1- Visages de l’apprentissage 1.2- Des algorithmes 1.3- Approche plus formelle de l’induction 1.4- Apprentissage par exploration 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 49 1.2- Algorithme des k-plus proches voisins • K-Nearest Neighbours 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 50 1.2- Discrimination linéaire : le Perceptron 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 51 1.2- Discrimination linéaire : le Perceptron 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 52 1.2- Discrimination linéaire : le Perceptron 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 53 1.2- Discrimination linéaire : le Perceptron 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 54 1.2- Discrimination linéaire : le Perceptron 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 55 1. 2- Le perceptron : critère de performance • Critère d’optimisation (fonction d’erreur) : Nb total d’erreurs de classification : NON Critère du Perceptron : REmp(w) x j M wTx j . u j Car nous voulons pour toutes les formes d’apprentissage : 0 w x < 0 T 1 x 2 Proportionnel, pour toutes les formes mal classées, à la distance à la surface de décision Fonction continue et linéaire par morceaux 11/12/06 1. 2- Le perceptron : algorithme Cornuéjols 1- Introduction à l’apprentissage 56 • Méthode d’exploration de H Recherche par gradient – Minimisation de la fonction d’erreur – Principe : procédure d'apprentissage dans l'esprit de la règle de Hebb : ajouter à chaque connexion quelque chose de proportionnel à l'entrée et à la sortie. – Apprentissage seulement si erreur de classification Algorithme : si la forme est correctement classée : ne rien faire sinon : w(t 1) w(t) xi ui boucler sur les formes d’apprentissage jusqu’à critère d’arrêt Convergence ? 11/12/06 1. 2- Le perceptron : Illustration Cornuéjols 1- Introduction à l’apprentissage 57 • Justification de l’algorithme Réduction de l’erreur w(t 1) T (x j uj ) w(t 1)T (x j u j ) (x j uj )T (x j u j ) w(t)T (x j uj ) 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 58 1. 2- Le perceptron : convergence et capacité mémoire • Questions : Qu’est-ce qui est apprenable ? – Résultat de [Minsky & Papert,68] : séparatrices linéaires Garantie de convergence ? – Théorème de convergence du Perceptron [Rosenblatt,62] Fiabilité de l’apprentissage et nombre d’exemples – Combien faut-il d’exemples d’apprentissage pour avoir une certaine garantie sur ce qui est appris ? 11/12/06 Cornuéjols 1.3- Le scénario de base 1- Introduction à l’apprentissage 59 x1, x2, ..., xm Environnement X : distribution de prob. F(x) “Oracle” Sm = (x1,u1), (x2,u2), ..., (xm,um) x1, x2, ..., xm Apprenant : h (x) y1, y2, ..., ym 11/12/06 Cornuéjols 1.3 - Définition formelle du problème 1- Introduction à l’apprentissage 60 • Hypothèse : les données empiriques caractérisent une dépendance probabiliste P entre l’espace X des descriptions et l’espace Y des étiquettes Z = (X, Y) : variable aléatoire sur (, B, P), où P est inconnue S = {(x1,u1), (x2,u2), … (xm,um)} (X Y)m – Échantillon d’apprentissage – Les observation sont i.i.d. suivant P – H : famille (éventuellement infinie) de fonctions h définies sur X • Objectif : prédire l’étiquette y connaissant l’observation x 11/12/06 Cornuéjols 1.3 - Apprendre prédiction dans X +/- - - - + - + + + + 1- Introduction à l’apprentissage ? + • Méthodes par plus proches voisins - • Nécessité d’une notion de distance + - - Espace des exemples : 61 X Hypothèse de continuité dans X 11/12/06 Cornuéjols 1.3- Apprendre = un jeu entre espaces 1- Introduction à l’apprentissage 62 • Cas particulier de l’apprentissage de concepts LH - - - + + + xh - + + + + - - - Espace des exemples : X Espace des hypothèses : H Comment choisir l’espace des hypothèses (i.e. le langage LH ) ? 11/12/06 Cornuéjols 1.3- Le critère inductif 1- Introduction à l’apprentissage 63 LH - - + + + + + h - + + - x - - - X H Quel critère inductif ? Qu’est-ce qu’une hypothèse optimale étant donné l’échantillon d’apprentissage ? 11/12/06 Cornuéjols 1.3- L’exploration de H 1- Introduction à l’apprentissage 64 LH - - - + - + + + + + + - ? x hx h ? xh - - X H Quelle méthode d’exploration de H ? 11/12/06 Cornuéjols 1.3- Les interrogations fondamentales 1- Introduction à l’apprentissage 65 1. Théorique : Sous quelles conditions est-il possible de résoudre le problème de l’induction ? De quelle information doit-on disposer ? – Dans les entrées (les exemples) – Dans l'espace d'hypothèse Quel principe inductif doit-on utiliser ? 2. Pratique : Comment explorer effectivement l’espace d’hypothèses ? 11/12/06 Cornuéjols 1.3- Trois ingrédients : trois questions 1- Introduction à l’apprentissage 66 1. Quel critère inductif ? • Quelle hypothèse devrait-on choisir étant donné l’échantillon d’apprentissage ? 2. Quel espace d’hypothèses ? • Quel espace d’hypothèses est approprié ? 3. Comment explorer l’espace des hypothèses ? • Résolution d’un problème d’optimisation 11/12/06 Cornuéjols 1.3- Critère de performance • 1- Introduction à l’apprentissage 67 Objectif : trouver une hypothèse h H minimisant le risque réel (espérance de risque, erreur en généralisation) R(h) l h(x),u dP(x, y) XY Loi de probabilité jointe sur X Y Fonction de perte Étiquette prédite Étiquette vraie (ou désirée) 11/12/06 Cornuéjols 1.3- Exemples de fonctions de perte 1- Introduction à l’apprentissage 68 • Discrimination 0 si ui h(xi ) l (h(xi ),ui ) 1 si ui h(xi ) • Régression l (h(xi ),ui ) h(xi ) ui 2 • Estimation de densité l (h(xi )) ln h(xi ) 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 69 1. Principe de minimisation du risque empirique (ERM) 2. Principe du maximum de vraisemblance (approche bayésienne) 3. Principe de compression maximale 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 70 1.3- (i) Le principe inductif ERM R(h) l h(x),u dP(x, y) XY • On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y). • Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèse h H minimisant le risque empirique REm p (h) m l h(x ),u i 1 i i 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 71 1.3- (ii) Approche bayésienne • On suppose qu’il existe une distribution de probabilités a priori sur l’espace H : pH(h) Principe du Maximum A Posteriori (MAP): • On cherche l’hypothèse h la plus probable après observation des données S h * ArgMax pH (h) p (S | h) H Exemple : le 11 septembreh2001 m X 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 72 1.3- (iii) Principe de compression maximale • Inspiration : la théorie du codage de l’information Rasoir d’Occam On suppose qu’il existe : – un coût associé à la transmission d’un codage (modèle des données) : L(h) – un coût associé à la transmission des données brutes (E.D. h) : L(x|h) On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données 11/12/06 Cornuéjols 1.3- Choix de l’espace d’hypothèses 1- Introduction à l’apprentissage 73 • Apprendre (pour prédire) est impossible … … sans limitation sur l’espace des hypothèses +/- - - - + - + + + + + + - - - ? hih xhi x h h h i x ih x hi x ihi x ih x x ih x ih x h i x h x i x ih h x ih x ih x ih x ih x ih x ih ih x i x x x i x i hk x hj hih x h x ih x ih i x ih x h i x i x - Espace des exemples : X Espace des hypothèses : H 11/12/06 1.3- Notion de biais Cornuéjols 1- Introduction à l’apprentissage 74 Toute connaissance qui restreint le champ des hypothèses que l'apprenant doit considérer à un instant donné. • On ne peut pas apprendre sans biais • Plus le biais est fort, plus l’apprentissage est facile Bien choisir le biais 11/12/06 Cornuéjols 1.3- Choix de l’espace d’hypothèses 1- Introduction à l’apprentissage 75 Il faut contrôler l’expressivité de l’espace d’hypothèses • Analyse statistique de l’induction [Vapnik, …] Terme dépendant de la « richesse » de H 11/12/06 1.3- Réponses … qualitatives Cornuéjols 1- Introduction à l’apprentissage 76 1. De quelle information doit-on disposer ? Compromis entre taille de l'échantillon d'apprentissage nécessaire ET "richesse" de l'espace d'hypothèses 1'. Quel principe inductif ? Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en pariant que l'erreur sera également minimisée sur les exemples non vus Un nouveau principe : minimiser à la fois l'erreur sur l'échantillon d'apprentissage ET une mesure de la richesse de H 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 77 1.3- Résumé : définition d’un problème d’apprentissage • Des acteurs L’environnement L’oracle L’apprenant un protocole d’apprentissage • Une tâche d’apprentissage Discrimination (ou classification multiclasses) / régression / estimation de densité • Un principe inductif ERM (et dérivés) / Bayésien / compression d’information • Un espace d’hypothèses (avec sélection automatique) Choix d’une méthode d’apprentissage (et d’un algorithme) 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 78 1.4- Relation d’inclusion et relation de généralité Vers la généralisation couverture(h t+1) 0 ht+1 + 0 0 + + + 0 ht + + 0 + + 0 0 couverture(h t) X H 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 79 1.4- La relation de généralité induite dans H Relation de généralité dans H induite par la relation d'inclusion dans X couverture(h 1) h1 couverture(h2) h2 h3 couverture(h3) X H 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 80 1.4- Le choix d’une méthode d’apprentissage Dépend fondamentalement de l’espace des hypothèses H Structuré par une relation de généralité (ordre partiel) Toutes les méthodes guidées par cette relation • • • • hi H Méthodes de « gradient » • • • Réseaux de neurones / SVMs Recuit simulé / algorithmes d’évolution simulée Réseaux bayésiens / HMMs h x Pas d’espace d’hypothèses hj smg(hi, hj ) Seulement une notion de voisinage dans H Espace des versions PLI (Programmation Logique Inductive) EBL, reformulation en général et révision de théorie Inférence grammaticale gms(hi, hj ) H Méthodes de plus proches voisins (Raisonnement par cas / Instance-based learning) 11/12/06 1.4- Autres critères de choix Cornuéjols 1- Introduction à l’apprentissage 81 • Intelligibilité des résultats (hypothèses produites) E.g. exit les réseaux de neurones • Performances en généralisation Pas toujours en adéquation totale avec le point précédent • Coûts de préparation (des données) coût computationnel (coût d’une passe et nombre de passes nécessaires, …) coût de l’expertise en apprentissage coût de l’expertise sur le domaine 11/12/06 Cours 1: plan 1- Cornuéjols 1- Introduction à l’apprentissage 82 Introduction à l’induction 1.1- Visages de l’apprentissage 1.2- Des algorithmes 1.3- Approche plus formelle de l’induction 1.4- Apprentissage par exploration 11/12/06 Cornuéjols 2.1- Le principe inductif ERM R(h) 1- Introduction à l’apprentissage 83 l h(x),u dP(x, y) XY • On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y). • Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèse h H minimisant le risque empirique REm p (h) m l h(x ),u i 1 i i 11/12/06 Cornuéjols 2.2- Le principe ERM est-il pertinent ? 1- Introduction à l’apprentissage 84 • h* : hypothèse optimale dans H suivant le risque réel • hSm : hypothèse optimale dans H suivant le risque empirique mesuré sur l’échantillon Sm Risque RR el (h*) m 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 2.2- Analyse du principe de minimisation du risque empirique • Rappel : a-t-on des garanties sur le risque réel lorsque l’on choisit l’hypothèse minimisant le risque empirique sur un échantillon Sm ? Risque RR el (h*) m 11/12/06 85 Cornuéjols 1- Introduction à l’apprentissage 86 2.3- Les facteurs : le compromis biais-variance Erreur d'estimation (Variance) H Erreur d'approximation (Biais ) {hS}S hS h* F Erreur totale f fb = f + bruit Erreur intrinsque 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 87 2.3- Les facteurs : le compromis biais-variance H H' ^ {h}S ^ Erre urd' e st im a t ion ( V a ria nc e ) h h* F Erre urt ot a le Erre urd' a pprox im a t ion ( Bia is) f fb = f + bruit Erre urint rinsè que Fonction cible 11/12/06 Cornuéjols 3- Analyse statistique du principe ERM 1- Introduction à l’apprentissage 88 • Étude de la corrélation entre : et • Cette corrélation fait intervenir : RRéel(hS) - RRéel (h*) nécessairement ≥ 0 (pourquoi ?) La probabilité que cette différence soit supérieure à une borne donnée – car hS dépend de la représentativité de l’échantillon d’apprentissage Sm 0 , 1 : P(| R(hS ) R(h*) |) ) 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 89 3- Analyse statistique du principe ERM (suite) Risque r el Risque empirique Erreur d'approximation ^ hS h* H 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 90 3- Analyse statistique du principe ERM (suite) Risque r el 2 Risque empirique ^ hS h* H 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 91 3- Analyse statistique du principe ERM (suite) 0 , 1 : m, tq. P(| R(hS ) R(h*) |) ) Risque r el m m/2 m/3 Risque empirique m/4 (fonction de S) ^ hS h* H 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 92 3- Pertinence (consistance) du principe ERM • On dit que le principe ERM est pertinent (ou consistant) si le risque réel inconnu R(hS) et le risque empirique REmp(hS) convergent vers la même limite R(h*) lorsque la taille m de l’échantillon S tend vers . Risque R(hS ) R(h*) m REmp (hS ) m R(h*) RR el (h*) m 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 93 3.1- Le cas de la discrimination : l’analyse PAC • Contexte : • Discrimination • Fonction de perte l : {0,1} • F=H • H : espace fini L’apprentissage consiste alors à éliminer toutes les hypothèses non cohérentes avec les données et à en choisir une parmi les restantes Quelle est la probabilité qu’une hypothèse de risque empirique nul soit de fait de risque réel ≥ ? (0 ≤ ≤ 1) 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 94 3.2- Le cas de la discrimination : l’analyse PAC • Le risque réel d’une hypothèse herr est égal à la probabilité qu’un exemple tombe dans la zone d’erreur entre herr et la fonction cible f R (herr ) PDX (herr f ) X herr Zone d'erreur f 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 95 3.2- Le cas de la discrimination : l’analyse PAC Raisonnement par l’absurde • Supposons une hypothèse de risque réel > • Quelle est la probabilité que son risque empirique soit nul après observation d’un échantillon de m exemples tirés i.i.d. suivant la distribution DX ? Après observation d’un exemple, la probabilité de « survie » de herr est : 1 - Après observation de m exemples i.i.d., elle est : (1 - )m 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 96 3.2- Le cas de la discrimination : l’analyse PAC Quelle est la probabilité qu’une hypothèse au moins dans H « survive » ? • Événements disjoints : Donc borné par : |H| (1 - )m < | H | e-m • Il suffit donc d’avoir un échantillon de taille m 1 ln |H | • pour que le risque réel de l’hypothèse hS minimisant le risque empirique soit borné par avec une probabilité 1 - 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 97 3.2- Le cas de la discrimination : l’analyse PAC Pourquoi PAC ? Les hypothèses qui « survivent » sont approximativement correctes (i.e. à moins de de la fonction cible) Avec une certitude qui dépend de l’échantillon d’apprentissage tiré aléatoirement (taux 1 - ) Probablement Approximativement Correct 11/12/06 3.3- Les leçons Cornuéjols 1- Introduction à l’apprentissage 98 1. La cardinalité de H (en un certain sens la « richesse » de H) intervient directement dans la borne d’erreur 2. Le raisonnement implique l’ensemble des hypothèses H : argument de convergence uniforme 3. L’idée directrice de la démonstration consiste à borner la probabilité qu’une zone d’erreur de poids > ne soit pas atteinte par un exemple au moins de l’échantillon d’apprentissage 11/12/06 Cornuéjols 3.4- Extension : l’analyse de Vapnik 1- Introduction à l’apprentissage 99 • Contexte : une généralisation • N’importe quel type de fonctions hypothèses • N’importe quel type de fonction de perte (> 0 et bornée) • F éventuellement ≠ H (apprentissage agnostique) • H : espace infini • Ici, on va cependant se limiter au cas de la discrimination Risque empirique : 1 REmp (h) m m i1 1 l01(h(xi ) ui ) {(xi ,ui ) S / h(xi ) ui} m 11/12/06 Cornuéjols 3.4- Extension : l’analyse de Vapnik 1- Introduction à l’apprentissage 100 • Définition (Fonction de croissance) : La fonction de croissance GH d’une famille H de fonctions h à valeurs dans {0,1} associe à tout entier positif m le nombre maximal de dichotomies réalisées par les fonctions de H sur un ensemble de m points de X. h1 h2 x2 x1 x4 x3 11/12/06 Cornuéjols 3.4- Extension : l’analyse de Vapnik 1- Introduction à l’apprentissage 101 • Théorème (Vapnik, 98) : Pour toute valeur de dans ]0,1], simultanément pour toutes les fonctions h de H, avec une probabilité au moins de 1 - , on a : Terme dépendant de la « richesse » de H 11/12/06 Cornuéjols 3.4- Extension : l’analyse de Vapnik 1- Introduction à l’apprentissage 102 • Problème angoissant : comment croît la fonction de croissance GH(m) ? Si elle croît exponentiellement : il ne peut pas y avoir de garantie sur les hypothèses sélectionnées par l’apprentissage sur la base du risque empirique (ERM) !!! • Définition (Dimension de Vapnik-Chervonenkis, 1971) La dimension de Vapnik-Chervonenkis dVC(H) est le plus grand entier d vérifiant GH(d) = d, si un tel entier existe, l’infini sinon. Si la dimension de Vapnik-Chervonenkis est finie, elle correspond à la taille du plus grand sous-ensemble de X pulvérisé par H. 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 3.4- Extension : l’analyse de Vapnik (a) (c) (b) + + + + - - - - + 103 + + + (a) (b) + (c) + + (d) + + + - - + + + + 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 104 3.4- Un lemme sauveur : le lemme de Sauer (1972) • Si H est de dimension de Vapnik-Chervonenkis finie dH = dVC(H), alors, pour m supérieur à dH, sa fonction de croissance est bornée : log 2 {GH (m)} Cro”t en 2m : croissance exponentielle Cro”t en mdH : croissance en fonction polynomiale dH m 11/12/06 3.4- Qu’est-ce que cela signifie ? Cornuéjols 1- Introduction à l’apprentissage 105 • Cas de fonctions de discrimination et H = F La convergence du risque empirique vers le risque réel est exponentiellement rapide, et ceci pour toutes les fonctions de H E.g. la taille de l’échantillon suffisante pour que la probabilité ci-dessus soit bornée par est : linéaire en dH !! 11/12/06 3.4- Le « take-home » message Cornuéjols 1- Introduction à l’apprentissage 106 • Pour que le principe ERM soit pertinent, il faut que la dimension de Vapnik-Chervonenkis dH soit finie • Alors, l’erreur d’estimation entre RRéel(h) et REmp(h) converge vers 0 comme: dans le cas général dans le cas où H = F 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 107 3.4- Quelques exemples de dimensions de VC 11/12/06 Cornuéjols 3.5- Vers d’autres principes inductifs 1- Introduction à l’apprentissage 108 • Reconsidérons l’équation (valable pour la discrimination et H = F) Plutôt que de chercher seulement l’hypothèse minimisant le risque empirique (valable seulement si m/dH très grand), il faut aussi tenir compte des caractéristiques de l’espace des hypothèses H, et chercher une hypothèse satisfaisant au mieux un compromis entre : un risque empirique faible : bonne adéquation aux données et un espace d’hypothèse d’expressivité bien réglée 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 109 3.5- Les méthodes par « sélection de modèles » • Méthodes cherchant à régler le compromis par réglage automatique de l’espace d’hypothèses (modèles) Le SRM (Structural Risk Minimization) La théorie de la régularisation Le MDLp Les approches bayésiennes 11/12/06 Cornuéjols 3.5- Le SRM 1- Introduction à l’apprentissage 110 Risque Risque r el Optimum Intervalle de confiance Risque empirique H H1 H2 H3 H4 • La procédure s’appuie sur une structure sur H définie a priori 11/12/06 3.5- La théorie de la régularisation Cornuéjols 1- Introduction à l’apprentissage 111 • Issue de l’étude des problèmes « mal posés » (plusieurs solutions) • Il faut imposer des conditions supplémentaires Contraindre l’espace des paramètres si H = {fonctions paramétrées} Imposer des conditions de régularité (e.g. dynamique limitée) … RPén.(h) REmp (h) G(h) 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 112 3.5- Le MDLp (Minimum Description Length principle) On suppose qu’il existe : – un coût associé à la transmission des données brutes (mesuré en bits) : L(x) – un coût associé à la transmission d’un codage (modèle des données) : L(h) On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 113 3.6- En d’autres mots … Notion de biais Toute connaissance qui restreint le champ des hypothèses que l'apprenant doit considérer à un instant donné. • Biais de représentation On ne peut pas apprendre sans biais Plus le biais est fort, plus l’apprentissage est facile Bien choisir le biais • Biais de préférence Dû au contrôle de la recherche Critère de choix entre hypothèses – Simplicité, complétude, intelligibilité, facilité d’évaluation, ... Dû au protocole – Stratégie éducative (si apprentissage incrémental) 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 114 3.6- En d’autres mots … Réponses qualitatives 1. De quelle information doit-on disposer ? Compromis entre taille de l'échantillon d'apprentissage nécessaire ET "richesse" de l'espace d'hypothèses 1'. Quel principe inductif ? Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en pariant que l'erreur sera également minimisée sur les exemples non vus Un nouveau principe : minimiser à la fois l'erreur sur l'échantillon d'apprentissage ET une mesure de la richesse de H 11/12/06 Cornuéjols 3.7- Le no-free-lunch theorem Systèmes d'apprentissage possibles - - + - - - - + + impossibles + + - 0 Systèmes d'apprentissage 0 - + 0 + 0 0 0 0 - 0 0 0 0 + 0 0 0 0 0 115 0 - + - 1- Introduction à l’apprentissage + 0 0 11/12/06 3.7- Le no-free-lunch theorem Performance en généralisation Cornuéjols 1- Introduction à l’apprentissage 116 Performance en généralisation Taille de l'échantillon d'apprentissage Taille de l'échantillon d'apprentissage 11/12/06 Cours 1: plan 1- Cornuéjols 1- Introduction à l’apprentissage 117 Introduction à l’induction 1.1- Visages de l’apprentissage 1.2- Des algorithmes 1.3- Approche plus formelle de l’induction 1.4- Apprentissage par exploration 11/12/06 1.4- Trois questions fondamentales Cornuéjols 1- Introduction à l’apprentissage 118 1. Quel critère inductif ? Quelle hypothèse devrait-on choisir étant donné l’échantillon d’apprentissage ? 2. Quel espace d’hypothèses ? Quel espace d’hypothèses est approprié : • Pour la tâche • Pour que l’induction soit possible 3. Comment explorer l’espace des hypothèses ? Résolution d’un problème d’optimisation : • recherche d’une bonne hypothèse dans un espace de possibilités afin de satisfaire le critère inductif 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 119 1.4- Apprendre = explorer un espace d’hypothèses - + - + + + + x - + hi + - Espace des exemples :X Espace des hypothèses :H • Comment choisir une (des) hypothèse(s) ? • Notion de biais de représentation 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 120 1.4- Apprendre = explorer un espace d’hypothèses Nouvel exemple - + + + + + h x i - + + - - - - ? x hj ? x hk - Espace des exemples : X Espace des hypothèses : H • Exploration de l’espace d’hypothèses • Mesure de l’adéquation de l’hypothèse (critère de succès) 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 121 1.4- Apprendre = explorer un espace d’hypothèses Nouvel exemple - + + + + + h x i - + + - - - - ? x hj ? x hk - Espace des exemples : X Espace des hypothèses : H • Exploration de l’espace d’hypothèses guidée par les relations de généralités dans H 11/12/06 Cornuéjols 1.4- Induction et généralisation 1- Introduction à l’apprentissage 122 Comment corriger une hypothèse défectueuse Nouvel exemple : (xm+1 ,-1) Nouvel exemple : (xm+1 ,+1) 0 0 + 0 hm 0 + hm 0 + + h m+1 0 0 + h m+1 + 0 + + 0 + + + 0 0 + + + 0 + 0 0 0 X (a) X (b) 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 123 1.4- Couverture des exemples par une hypothèse • h1 : complète mais incorrecte • h2 : correcte mais incomplète • h3 : complète et correcte : cohérente 0 0 0 + 0 + + 0 + + 0 h2 + + 0 h3 0 h1 X 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 124 1.4- Relation d’inclusion et relation de généralité Vers la généralisation couverture(h t+1) 0 ht+1 + 0 0 + + + 0 ht + + 0 + + 0 0 couverture(h t) X H 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 125 1.4- Relation d’inclusion et relation de généralité Vers la spécialisation 0 couverture(ht) 0 ht 0 0 + + + 0 ht+1 + + 0 + + 0 0 couverture(ht+1) X H 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 126 1.4- La relation de généralité induite dans H Relation de généralité dans H induite par la relation d'inclusion dans X couverture(h 1) h1 couverture(h2) h2 h3 couverture(h3) X H 11/12/06 Cornuéjols 1.4- Treillis de généralisation dans H 1- Introduction à l’apprentissage 127 Ordre partiel dans H gms(hi, hj ) hi hj smg(hi, hj ) H 11/12/06 1.4- Les opérateurs Cornuéjols 1- Introduction à l’apprentissage 128 • Généralisation Transforme une description en une description plus générale • Spécialisation Duale de la généralisation (En général : produit une description qui est une conséquence logique de la description initiale) • Reformulation Transforme une description en une description logiquement équivalente 11/12/06 1.4- Opérateurs de généralisation Cornuéjols 1- Introduction à l’apprentissage 129 • Règle d’abandon de conjonction A&B C => AC ferrari & rouge coûteux => ferrari coûteux • Règle d’ajout d’alternative A C => AB C ferrari coûteux => ferrari rouge coûteux • Règle d’extension du domaine de référence A & [B = R] C => A & [B = R’] C grand & [couleur = rouge] coûteux => grand & [couleur rouge bleu] coûteux 11/12/06 1.4- Opérateurs de généralisation Cornuéjols 1- Introduction à l’apprentissage 130 • Règle de clôture d’intervalle A & [B=v1] C & A & [B = v2] C => A & [B = v1 ... v2] C grand & [coût = 100] à acheter && grand & [coût = 150] à acheter => grand & [coût = 100 .. 150] à acheter • Règle de l’ascension dans l’arbre de hiérarchie A & [B= n1] C && A & [B= n2] C => A & [B= N] C corrosif & [élément = chlorine] toxique Halogène corrosif & [élément = bromine] toxique => corrosif & [élément = halogène] toxique Chlorine Bromine 11/12/06 1.4- Opérateurs de généralisation Cornuéjols 1- Introduction à l’apprentissage 131 • Règle de variabilisation F(a) & F(b) & ... C => v, F(v) C grand(sommet_objet) & grand(fond_objet) & ... C => partie, grand(partie) C • Règle de changement de conjonction en disjonction A&B C => AB C grand & rouge coûteux => grand rouge coûteux • Règle d’extension du domaine de quantification v, F(v)C => partie, grand(partie)C v, F(v) C => partie, grand(partie) C 11/12/06 Cornuéjols 1.4- Opérateurs de généralisation 1- Introduction à l’apprentissage 132 • Inversion de la résolution A & B C && ¬A & D C => BD C vieux & grand C && ¬ vieux & rouge C => grandrouge C • Règle anti-extension A & [B=v1] C && D & [B=v2] ¬C => [B ≠ v2] C • Règle constructive de généralisation (modifiant les descripteurs) A & B C && D C => A & DC 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 133 1.4- Représentation de l'espace des versions Observation fondamentale : L'espace des versions structuré par une relation d'ordre partiel peut être représenté par : G hi hj sa borne supérieure : le G-set sa borne inférieure : le S-set S H • G-set = Ensemble de toutes les hypothèses les plus générales cohérentes avec les exemples connus • S-set = Ensemble de toutes les hypothèses les plus spécifiques cohérentes avec les exemples connus 11/12/06 1.4- Apprentissage ... Cornuéjols 1- Introduction à l’apprentissage 134 … par mise à jour de l'espace des versions Idée : maintenir le S-set et le G-set après chaque nouvel exemple Algorithme d'élimination des candidats 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 135 1.4- Algorithme d'élimination des candidats Initialiser S et G par (resp.) : l'ensemble des hypothèses les plus spécifiques (les plus générales) cohérentes avec le 1er exemple positif connu. Pour chaque nouvel exemple (positif ou négatif) mettre à jour S mettre à jour G Jusqu'à convergence ou jusqu'à ce que S = G = Ø 11/12/06 1.4- Mise à jour de S Cornuéjols 1- Introduction à l’apprentissage 136 • xi est négatif Eliminer les hypothèses de S couvrant (indûment) xi • xi est positif Généraliser les hypothèses de S ne couvrant pas xi juste assez pour qu'elles le couvrent Puis éliminer les hypothèses de S – couvrant un ou plusieurs exemples négatifs – plus générales que des hypothèses de S 11/12/06 1.4- Mise à jour de G Cornuéjols 1- Introduction à l’apprentissage 137 • xi est positif Eliminer les hypothèses de G ne couvrant pas xi • xi est négatif Spécialiser les hypothèses de G couvrant xi juste assez pour qu'elles ne le couvrent plus Puis éliminer les hypothèses de G – n'étant pas plus générales qu'au moins un élément de S – plus spécifiques qu'au moins une autre hypothèse de G 11/12/06 Cornuéjols 1- Introduction à l’apprentissage 1.4- Algorithme d'élimination des candidats 138 Mise à jour des bornes S et G G (b) x x x x (d') (a' ) (c) (a)x x x S (d) x (b') H 11/12/06 1.4- Propriétés de l'AEC Cornuéjols 1- Introduction à l’apprentissage 139 • Incrémentalité • Complexité ? • Utilisation si non convergence ? • Que signifie S = G = Ø ? • Possibilité d'"apprentissage actif" ? • Que faire si les données sont bruitées ? 11/12/06 1.4- Exemple : le système LEX (1) Cornuéjols 1- Introduction à l’apprentissage 140 Génération de problèmes Heuristiques partiellement apprises Exercice Résolution de problèmes Généralisation Trace détaillée de la tentative de résolution de l'exercice Exemple d'apprentissage Critique 11/12/06 1.4- Exemple : le système LEX (2) Génération de problèmes Cornuéjols 1- Introduction à l’apprentissage 141 Espace des versions pour l'utilisation de l'opérateur OP2 : S ={ 3x cos(x) dx Appliquer OP2 avec : u = 3x dv = cos(x) dx} G ={ f1(x) f2(x) dx Appliquer OP2 avec : u = f1(x) dv = f2(x) dx} Calculer la primitive de : 3x cos(x) dx Résolution de problèmes Généralisation 3x cos(x) dx OP2 avec : u =3 x dv = cos( x) d x Un des exemples positifs proposés : 3x cos(x) dx 3x sin(x) - 3x sin(x) dx Appliquer OP2 avec : u = 3x dv = cos(x) dx OP1 3x sin(x) - 3 x sin(x) dx OP5 Critique 3x sin(x) - 3x cos(x) dx + C 11/12/06 Cornuéjols Ce qu'il faut retenir 1- Introduction à l’apprentissage 142 • C'est surtout l'induction supervisée qui est étudiée • Jeu entre espace des exemples et espace des hypothèses • On ne peut apprendre sans biais • La réalisation de l'apprentissage dépend de la structuration de l'espace des hypothèses sans structure : méthodes par interpolation notion de distance : méthodes par gradient (approximation) relation d'ordre partiel : exploration guidée (exploration) 11/12/06 1.5- Approche actuelle : les limites Cornuéjols 1- Introduction à l’apprentissage 143 • L’état de l’art actuel en apprentissage: Données i.i.d. (indépendant et identiquement distribué) Distribution statique Données étiquetées Classes approximativement équilibrées • Versus e.g. les besoins de la robotique Données résultant : – De séquences – D’un apprentissage actif Contexte changeant Pauvrement étiquetées Données non i.i.d. 11/12/06 1.5- Perspective historique (1) Cornuéjols 1- Introduction à l’apprentissage 144 Perceptron Expériences : tortues cybernétiques 20s 1936 50s Reconnaissance des Formes : Théorie de la décision bayésienne 60s 11/12/06 Cornuéjols 1.5- Perspective historique (2) 1- Introduction à l’apprentissage 145 Apprentissage artificiel : une explosion Systèmes dédiés à une tâche : inspiration psychologique Induction supervisée Arbres de décision Algorithmes génétiques Explanation-Based Learning Raisonnement par cas 2ème connexionnisme 1970 1976 70s 1978 80s 11/12/06 1.5- Perspective historique (2') Cornuéjols 1- Introduction à l’apprentissage 146 • Systèmes à usage industriels 11/12/06 1.5- Perspective historique (3) Cornuéjols 1- Introduction à l’apprentissage 147 Apprentissage artificiel : une théorisation et une mise à l'épreuve Nouvelles méthodes : - SVMs - Boosting Data mining Text mining 1995 90s 00s 11/12/06 1.5- Perspective historique (4) Cornuéjols 1- Introduction à l’apprentissage 148 • Maintenant Domination sans partage du paradigme dominant – Apprentissage comme estimation / approximation de fonction – Données supposées tirées aléatoirement – Nouveau principe inductif : toujours prendre en compte l'espace d'hypothèses Nouvelles techniques d'apprentissage issues de la théorie – Séparateurs à Vastes Marges (SVM : Support Vector Machines) – Boosting Prépondérance des applications de fouille dans les grandes bases de données – Peu structurées – Données fournies en vrac Nouvelles mesures de performance 11/12/06 Cornuéjols 1.5- Perspective historique : l'avenir ? 1- Introduction à l’apprentissage 149 • Demain … ? Retour vers des problèmes à données plus structurées – Exploration automatique de la toile (structure à tous les niveaux : grammatical, séquence, texte, discours, culture) Nouveaux aspects – Nouvelles demandes : • Systèmes à longue durée de vie • Aide à l'éducation • Apprentissage collectif – Incrémentalité – Transferts d'une tâche à une autre, d'un domaine à un autre, d'un agent à un autre Nouveaux problèmes Nouvelles techniques 11/12/06 Cornuéjols 1.5 - Où en est-on ? supervisé non supervisé d'efficacité par renforcement de K. complexes stades ... 1- Introduction à l’apprentissage 150 Bien maîtrisé mais ... Encore beaucoup à faire Travaux pionniers, ... Encore beaucoup à faire Etendre le domaine Quasi rien Rien 11/12/06 1.5- Questions ... Cornuéjols 1- Introduction à l’apprentissage 151 • Peut-on apprendre n'importe quoi ? • Peut-on apprendre à partir de rien (tabula rasae) ? • Suffit-il d'avoir plus de neurones pour apprendre mieux ? • Quel lien entre généralisation et abstraction ? • … 11/12/06 5- ... et programmes de recherche Cornuéjols 1- Introduction à l’apprentissage 152 • Phénomènes de transition de phase en induction • Vers une science du dynamique : – Quels sont les systèmes dépendants de l'ordre des entrées ? – Pour ceux-là, quel est l'ordre optimal de présentation des données ? • Apprentissage et … oubli – L'oubli peut-il être utile ? • Y a-t-il des passages obligés dans l'apprentissage de connaissances complexes ? – Ex : la notion d'impetus avant celle de force et d'inertie ? 11/12/06