Apprentissage Statistique Master IAD - Université Paris 6 P. Gallinari [email protected] http://www-connex.lip6.fr/~gallinar/ Année 2013-2014 Partie 1 Introduction Apprentissage à partir d'exemples Données {z1, ..., zN} Machine Fθ Critère C But extraire de l'information à partir des données, expliquer les données information pertinente pour la tâche étudiée information pertinente pour d'autres données du même type Utilisation inférence sur de nouvelles données Type d'apprentissage : Supervisé Non supervisé Semi supervisé Renforcement Apprentissage Statistique - P. Gallinari 3 Exemples - problèmes d'apprentissage Parole / Ecriture Données : (signal, (transcription)) But : reconnaître signal Critère : # mots correctement reconnus Conduite véhicule autonome Données : (images routes, (commande volant)) e.g. S. Thrun Darpa Challenge + Google car But : suivre route Critère : distance parcourue Extraction d'information dans une base de texte Données : (texte + requête, (information pertinente)) But : extraire l'information correspondant à la requête Critère : Rappel / Précision Diagnostic dans systèmes complexes Données : (état capteurs + alarmes, (diagnostic)) But : diagnostic correct Critère : ? Apprentissage Statistique - P. Gallinari 4 Modélisation d'utilisateur Données : (Traces utilisateur - contenu accédé) But : analyser/ catégoriser le comportement de l'utilisateur, Ciblage clientèle, aide navigation, interfaces adaptatives Critère : ? Evaluation : ? Plus difficile : Traduction Recherche d'information bases textes, images – vidéos Extraction d’information (e.g. web) Compréhension de texte / scène visuelle – extraction de sens Découverte dans data-warehouse .... Données : i.e. représenter l'information ?? But ?? Critère ?? Apprentissage Statistique - P. Gallinari 5 Données : diversité Apprentissage Statistique - P. Gallinari 6 Données : quantités Yahoo! Data – A league of its own… U. Fayyad KDD’07 Terrabytes of Warehoused Data Millions of Events Processed Per Day 14,000 GRAND CHALLENGE PROBLEMS OF DATA PROCESSING TRAVEL, CREDIT CARD PROCESSING, STOCK EXCHANGE, RETAIL, INTERNET Y! PROBLEM EXCEEDS OTHERS BY 2 ORDERS OF MAGNITUDE Apprentissage Statistique - P. Gallinari 7 warehouse Y! Main Walmart Y! Data Highway Warehouse Y! Panama 100 Y! Panama NYSE 94 Y! LiveStor VISA 49 AT&T SABRE 500 25 Korea 225 1,000 Telecom 120 2,000 Amazon 50 5,000 Petabytes (10^15) Google processes about 24 petabytes of data per day Google Street View Has Snapped 20 Petabytes of Street Photos Telecoms: AT&T transfers about 30 petabytes of data through its networks each day Physics: The experiments in the Large Hadron Collider produce about 15 petabytes of data per year Neurology: It is estimated that the human brain's ability to store memories is equivalent to about 2.5 petabytes of binary data Apprentissage Statistique - P. Gallinari 8 Big Data: Volume, Velocity, Variety, and Veracity http://www-01.ibm.com/software/data/bigdata/ Volume: terabytes, petabytes Turn 12 terabytes of Tweets created each day into improved product sentiment analysis Convert 350 billion annual meter readings to better predict power consumption Velocity: streams Scrutinize 5 million trade events created each day to identify potential fraud Analyze 500 million daily call detail records in real-time to predict customer churn faster Variety: Big data is any type of data - structured and unstructured data such as text, sensor data, audio, video, click streams, log files and more. New insights are found when analyzing these data types together. Monitor 100’s of live video feeds from surveillance cameras to target points of interest Exploit the 80% data growth in images, video and documents to improve customer satisfaction Veracity: Establishing trust in big data presents a huge challenge as the variety and number of sources grows. Apprentissage Statistique - P. Gallinari 9 Gartner Hype Cycle: Big Data Apprentissage Statistique - P. Gallinari 10 Apprentissage Statistique - P. Gallinari 11 Données : ce que ca change Nouveaux problèmes Recommandation CRM Analyse utilisateur, click through data, … … Utilisation intensive des données Là ou on faisait “à la main” Traduction Scoring moteurs de recherche …. Apprentissage Statistique - P. Gallinari 12 Données dans la pratique de l’apprentissage Ensemble D’Apprentissage Mettre au point le modèle De Test Evaluer les performances du modèle appris De Validation Apprentissage de méta-paramètres Apprentissage Statistique - P. Gallinari 13 Place de l’apprentissage L’apprentissage constitue une brique dans le processus de fouille / traitement de données qui arrive souvent à la fin du processus qui est intégré dans une application ou dans le SI de l’entreprise 3 points de vue complémentaires Recherche : algorithmes et théorie Business : $$ Utilisateur : intégration, puissance et facilité d’utilisation Les différentes étapes de l’analyse des données Collecte des données / stockage Prétraitement des données, étiquetage éventuel Analyses des données par des techniques exploratoires Mise au point et test de différents modèles d’apprentissage Evaluation Apprentissage Statistique - P. Gallinari 14 Apprentissage supervisé Ensemble d'apprentissage Constitué de couples (entrée, sortie désirée) (x1, d1) , (x2, d2) , … , (xN, dN) But Au moyen d'un algorithme d'apprentissage, découvrir l’association d = Fθ (x) En utilisant les données d’appprentissage Qui offre une bonne généralisation i.e. d = Fθ (x) si x hors de l'ensemble d'apprentissage mais généré par le même phénomène Utilisation discrimination, identification, prévision, approximation … Apprentissage Statistique - P. Gallinari 15 Apprentissage non supervisé Ensemble d'apprentissage Uniquement des données d’entrée x1, x2,… , xN But Regrouper les données similaires Modéliser les données Découvrir des relations non spécifiées à l’avance entre les données Utilisation estimation de densité, extraction de similarités Apprentissage Statistique - P. Gallinari 16 Apprentissage semi supervisé Ensemble d’apprentisage étiquetés – faible quantité ((x1, d1) , (x2, d2) , … , (xN, dN) non étiquetés – grande quantité xN+1, xN+2, … , xN+M But Extraire l’information des exemples non étiquetés utile pour l’étiquetage Apprendre conjointement à partir des deux ensembles d’exemples Utilisation grandes masses de données où l’étiquetage est possible mais trop coûteux données qui évoluent implémentation rapide de systèmes génériques pour différentes instances d’un problème Apprentissage Statistique - P. Gallinari 17 Apprentissage par Renforcement Ensemble d'apprentissage Couples (entrée, sortie désirée qualitative) (x1, d1) , (x2, d2) , … , (xN, dN) Les xi peuvent être des séquences (temporal credit assignment), les di sont des réponses qualitatives (e.g. 0,1), déterministes ou stochastiques. But Apprendre des actions optimales Utilisation commande, décision séquentielle, recherche opérationnelle, jeux, programmation dynamique, navigation, ... Apprentissage Statistique - P. Gallinari 18 Domaines d’application industriels classiques – à partir de 1990 Défense : classification signaux, fusion donnée, commande véhicules, suivi de cibles Traitement de documents : compétitions ARPA, systèmes OCR spécialisés (fax, banque,..) Finance - Banque - Assurance : détection fraude (systèmes commerciaux largement répandus), prévision, trading, gestion portefeuille Prévision - Marketing : consommation (eau - electricité), prévision trafic, séries financières Industrie pétrolière : analyse de données sismiques (traces, detection de pics), commande (raffineries). Télécommunications : diagnostic, routage, traitement signal, contrôle d'admission (ATM), modélisation trafic Capteurs : capteurs gaz, nez électronique, rétines artificielles Industrie du transport : modélisation et commande VLSI - circuits dédiés : accélérateurs, chips dédiés RN Apprentissage Statistique - P. Gallinari 19 Domaines d’application en Data Mining Web : recherche d'information, filtrage d'information Text mining catégorisation, filtrage extraction d'information textuelle : e.g. recherche BD journaux, bibliothèques virtuelles, veille technologique, Question Answering , ... Multi-média : image + son, indexation d'informations e.g. BD vidéo Data mining : BD entreprise (Data-wharehouse), infos produits, infos clients, ciblage clientèle ... Analyse comportement e.g. telecoms : serveurs web, accès services commerciaux, internet - intranet, aide accès information Web2.0 : les communautés Mobiles : personnalisation, accès information Biologie - analyse de séquences, de structures Automobile ... Apprentissage Statistique - P. Gallinari 20 Challenges de l’apprentissage Passage à l’échelle Quantité de données, taille données Dynamicité Flux Distribué Complexité des données et des problèmes Données structurées standards (XML, RDF, SMIL, …), taxonomies Web2.0 : découverte / analyse de relations !! Nouveaux problèmes, nouveaux usages Apprentissage Statistique - P. Gallinari 21 Un exemple : Perceptron (1960 Rosenblatt) w Rétine Cellules d’association x Cellule de décision F(x) Le perceptron est utilisé pour la discrimination La cellule de décision calcule une fonction à seuil : F(x) = sgn [ i wi xi ] Classe 1 = { x : F[ x ] = 1} Classe 2 = { x : F[ x ] = -1} Apprentissage Statistique - P. Gallinari 22 L'algorithme du perceptron (2 classes) Sortie désirée d = ± 1 Initialiser W (0) Répeter (t) Pour i = 1 à N i Si d (w(t).xi) 0 alors w(t+1) = w(t) + di.xi Jusqu'à convergence Décision : n F(x) sgn( wi xi) i 1 C'est un algorithme de correction d'erreur si est constant : règle à incrément fixe si est fonction du temps : règle à incrément variable Apprentissage Statistique - P. Gallinari 23 Fonction discriminante linéaire F(x) w.x w 0 n wi xi w0 i 1 Surface de décision: hyperplan Quelques propriétés F(x) = 0 w est le vecteur normal de l'hyperplan, il défini son orientation distance de x à H : r = F(x) / || w || w0 = 0 : H passe par l'origine Vecteur forme étendu (notation par défaut) x' = (1, x) w' = (w0, w) Fonction de décision : F(x') = w ’.x' Apprentissage Statistique - P. Gallinari 24 Géométrie de la discrimination linéaire F ( x) w F(x) > 0 F(x) = 0 W F(x) < 0 La partie de l'image av ec l'ID de relation rId9 n'a pas été trouv é dans le fichier. Apprentissage Statistique - P. Gallinari 25 Le perceptron effectue une descente de gradient Fonction de coût et gradient C w.x.d ( x , d ) mal classés C x.d wi ( x , d ) mal classés grad wC C w1 ... ... C wn w w grad wC Demo http://lcn.epfl.ch/tutorial/english/ Apprentissage Statistique - P. Gallinari 26 Cas multiclasses p classes = p " problèmes 2 classes " : Ci contre le reste Règle de décision : x Ci si Fi(x) > 0 et Fj(x) < 0 pour j i pb : régions indéfinies Approche générale construire p fonctions discriminantes Fi(x), i = 1 ... p règle de décision: x Ci si Fi(x) > Fj(x) pour ji crée une partition de l'espace d'entrée chaque classe est un polygone avec au plus p -1 faces. Régions convexes : limitation des classifieurs linéaires Apprentissage Statistique - P. Gallinari 27 Propriétés Probabilité de séparabilité linéaire (Cover 1965) Entrée de taille n, m formes classées aléatoirement en 2 classes (dichotomie) L(m,n) : nb de "vraies" dichotomies linéairement séparables : si m > n aucun sous espace engendré par n + 1 formes n'est de dimension n - 1. si m n aucun sous espace de dimension m - 2 ne contient les m formes. P(m,n) : probabilité qu'une dichotomie soit linéairement séparable. P(m ,n) n m 2 L (m , n ) n i Cm 1 0 1 P ( m , n ) 1 m n i Cm 1 2 0 si m n 1 1 10 si m n si m n 0.5 si m n m /n+1 0 Apprentissage Statistique - P. Gallinari 2 4 28 Propriétés Théorème de convergence du perceptron (Novikov 1962) Si R / x, x R les données peuvent être séparées avec une marge , i.e. sup W min i d i ( x i .w ) l'ensemble d'apprentissage est présenté au perceptron un nombre suffisant de fois Alors après au plus converge 2 R2 corrections, l'algorithme Apprentissage Statistique - P. Gallinari 29 Propriétés Borne sur l'erreur de généralisation (Aizerman et al. 1964) Si les données sont séparables elles sont en nombre infini 1 2 ln k ln règle arrêt : après la kème correction, les mk ln(1 ) données présentées sont reconnues correctement alors 1 4 ln R ln 2 R l ln(1 ) 2 le perceptron converge en étapes avec une probabilité 1 , l'erreur de test est < Apprentissage Statistique - P. Gallinari 30 Overtraining / généralisation en regression Exemple (Bishop 06) Necessité de controler lors de l’apprentissage la complexité des modèles Techniques de régularisation Apprentissage Statistique - P. Gallinari 31 Algorithmes d'apprentissage numérique Données statiques Réseaux de neurones Arbres décision / régression Méthodes issues de la statistique : estimation de densité paramétrique, non paramétrique Décision k-ppv Fonctions noyau, machines à vecteurs supports … Données séquentielles AR, ARMA, ARMAX, etc Réseaux de neurones récurrents Chaines de Markov, Modèles de Markov Cachés, champs conditionnels de Markov Données structurées recherche actuelle : modèles relationnels Apprentissage Statistique - P. Gallinari 32 Formalisation du problème de l'apprentissage Formalisme Données : vecteurs aléatoires (z), p(z) F F Machine : θ : paramètres du modèle Risque théorique : R Ez c (z) c (z) p(z)dz z Solution optimale : F* argmin R Apprentissage Statistique - P. Gallinari 34 Apprentissage à partir d'exemples i Données : Risque empirique : D z i 1..N N i 1 C c(z , F ) N i1 Principes inductifs Le principe inductif défini le processus d'apprentissage Exemple : Minimisation du risque empirique La fonction F * qui minimise le risque théorique est approximée par F qui optimise le risque empirique Est-ce un bon principe ? Généralisation ? N Apprentissage Statistique - P. Gallinari 35 Autres principes inductifs Maximum de vraisemblance : Equivalent a : WMV argmax p(D/) WMV argmax logp(D/) Cadre Bayesien : p(modèle/Données) p(Données/Modèle)P(Modèle) P(W) : loi à priori sur le modèle p(D/W) : vraisemblance p(W/D) : probabilité a posteriori p( / D) p(D / ) p( ) Maximum a posteriori : WMAP argmax p( / D) !! nécessite une hypothèse a priori sur le modèle Apprentissage Statistique - P. Gallinari 36 Problèmes d'apprentissage : exemples Discrimination d 0,1 z = (x, d) F ensemble des fonctions à seuil R : probabilité de mauvaise classification C : fréquence des erreurs Régression z = (x, d) d R F un ensemble de fonctions réelles R : espérance des erreurs quadratiques C : somme des erreurs quadratiques Estimation de densité z=x F ensemble de fonctions réelles R : espérance (vraisemblance) C : somme Apprentissage Statistique - P. Gallinari 0 si d F (x) c(x, d, F ) 1 sinon 2 c(x,d,F) dF(x) c(x, F ) ln p (x) 37 Apprentissage supervisé Modèles discriminants Réseaux de neurones Machines à noyaux Modèles génératifs Apprentissage supervisé Réseaux de neurones Description informelle Caractéristiques Eléments simples interconnectés Echange d'information au moyen des connexions Calcul distribué et coopératif Apprentissage Statistique - P. Gallinari 40 Domaine pluridisciplinaire Domaines Neurosciences Sciences cognitive (AI, psychologie, linguistique) Informatique Maths Physique Buts Modélisation (neurophysiologie, biologie.....) Modèle de calcul (applications, computational theory, apprentissage...) Apprentissage Statistique - P. Gallinari 41 Exemple : réseau linéaire Etat (cellule) = ΣcellulesW incident*état(cellules incidentes ) W5 W9 W4 SIGNAL W 6 W2 DECISION W 1 W7 W8 W3 Apprentissage Visible units Dynamique Caractéristiques : Hidden units Visible units Architecture : interconnexion + définition unités Algorithmes : apprentissage + dynamique Apprentissage Statistique - P. Gallinari 42 Fondements biologiques Le neurone Soma Arbre des dendrites Axone Flot d'information axone : impulsions électriques dendrites : transmission chimique avec le soma via synapses Synapses contact : émission - réception Poids synaptique = modulation de l'information transmise vers le soma. Comportement du neurone + mémoire ? Apprentissage Statistique - P. Gallinari 43 Neurones et Types de neurones Apprentissage Statistique - P. Gallinari 44 Composants du neurone Apprentissage Statistique - P. Gallinari 45 Historique rapide 43 Mc Culloch & Pitts : neurone formel "A logical calculus of the ideas immanent in nervous activities" 40 – 45 Wiener (USA) Kolmogorov (URSS) Türing (UK) Théorie de l'estimation et de la prédiction (contrôle batteries antiaeriennes) Boucle de rétro-action Apprentissage Statistique - P. Gallinari 46 48 - 50 49 55 - 60 Von Neuman : réseaux d'automates Hebb : apprentissage dans les réseaux d'automates Rosenblatt : Perceptron Widrow - Hoff : Adaline 70 – 80 Mémoires associatives, ART, SOM ... 90 – 95 Réseaux non linéaires Réseaux de Hopfield, Machine de Boltzmann Perceptron multicouches ... 2006 - .. Deep neural networks, restricted Boltzmann machines,… Apprentissage Statistique - P. Gallinari 47 Optimisation dans les RN Algorithmes de gradient Principe : W t 1 W D t t t la direction de descente D, le pas de gradient sont déterminés à partir d'informations locales sur la fonction de coût C(W), i.e. approximations au 1er ou 2nd ordre. Exemples : Plus grande pente Initialiser W0 Itérer w(t 1) w(t) C(w(t) Critère d'arrêt Gradient adaptatif Initialiser W0 Itérer Choisir un exemple xt w(t 1) w(t ) c(w(t )) Critère d'arrêt Apprentissage Statistique - P. Gallinari 48 Explication : Approximation quadratique locale de la fonction à optimiser : T T W ) Q(W ) 1 (W W ) H(W W ) t 1 t t 1 t t t t 1 t 2 t 1 Q(W ) Q(W ) H(W W ) Q(W ) Q(W ) (W t 1 t H : Hessien de la fonction de coût t 1 t Méthode de Newton :Q(Wt 1) 0 1 W W H Q (W ) t 1 t t En pratique : 1er ordre ou approximations du 2nd ordre Exemple 2nd ordre : H ' Q (W ) t t Méthodes de quasi-Newton : approximation de H-1 itérativement. Forme générale : W W H ' Q (W ) t 1 H' t 1 t t t H ' F ( H ' ,W t t t 1 ,W , Q (W ), Q (W t H' : approximation de H-1 sans calculer les dérivées secondes : minimisation suivant la direction t t 1 )) Méthodes générales Convergence vers un optimum local Apprentissage Statistique - P. Gallinari 49 Exemple : FW fonction linéaire réelle C erreur quadratique C w1 C ( w ) ... C w n C 1 w j N F ( x) w.x w x j 1..n j j 1 N C (F(xi ) di )2 N i1 1 i i 2 ( w x d ) i w k k k N 1 .. n j Apprentissage Statistique ( w i k 1 .. n - P. Gallinari k x ki d i )) x ij 50 Le neurone C'est un automate caractérisé par des signaux d'entrée x1 , … , xn une fonction de transition y = F ( x 1 , … , xn ) x1 x2 y = F(x) xn Apprentissage Statistique - P. Gallinari 51 Différent types de neurones x1 y = F(x) x2 xn Le neurone produit scalaire A = k wk xk g(x) Le neurone distance A = || x - w||2 g(x) a A avec différentes fonctions g: Id, g : Id, F(x) = e-(A/k) seuil, 1 F ( x ) sigmoïde : 1 e e e F ( x) th : e e kA kA kA kA kA Apprentissage Statistique - P. Gallinari 52 Adaline (Adaptive Linear Element) Architecture x1 x2 y = F(x) xn Risque empirique : moindres carrés C(W) = [ 1 / N] . k [ w. xk - dk ] 2 Apprentissage Statistique - P. Gallinari 53 Algorithme : Widrow-Hoff - gradient stochastique Initialiser W(0) Iterer Choisir aléatoirement un exemple (xt,dt) w(t+1) = w(t) - (t) . [ w(t) xt - dt ] xt Critère d'arrêt xt est l'exemple présenté à l'instant t, le gradient est calculé sur le coût local A comparer avec le gradient classique qui calcule le gradient sur le risque empirique Initialiser W(0) Iterer w(t+1) = w(t) - (t) . k [ w(t) xk - dk ] xk Critère d'arrêt Apprentissage Statistique - P. Gallinari 54 Apprentissage hors ligne vs apprentissage adaptatif ck erreur sur la forme k de l'ensemble d'apprentissage C Gradient sur C 1 ck N k q Q Gradient adaptatif sur c k W Apprentissage Statistique W - P. Gallinari 55 Extension multidimensionnelle Données : x1,…, xN n, d1,…, dN p, y1,…, yN p Modèle : dk = W xk k {1,…,N} i.e. D=WX Fonction de coût C(W) = || D - W X ||2 Algorithme: Widrow-Hoff W(t+1) = W(t) - (t)[ W x - d].x Apprentissage Statistique - P. Gallinari 56 Calcul de l'association optimale par l'algèbre linéaire L'équation D = W X a une solution ssi D = D X+ X où X+ est la matrice pseudo-inverse de X La solution générale est donnée par: W = D X+ + Z ( I - X X+) (*) où Z est une matrice arbitraire de même dimension que W Quand D = W X n'a pas de solution exacte (*) est solution de MinW ||D - W X||2 i.e. (*) est la solution optimale de MinW ||D - W X||2 Apprentissage Statistique - P. Gallinari 57 Modèles flexibles Perceptron Multicouches Réseau avec: des couches externes: entrée et sortie des couches internes ou cachées d Les entrées sont présentées sur la première couche et propagées de couche en couche: xi = g [Ai ] avec Ai = j wij xj y Output hidden layers La sortie calculée sur la dernière couche: yk = F(xk) est ensuite comparée à la sortie désirée dk Input x Apprentissage Statistique - P. Gallinari 58 A w 0 jw j x j g prend généralement une des deux formes suivantes g (v ) Sigmoïde tangente hyperbolique g (v ) e e yi Gi (x) g wi0 j wij g wj 0 k wjk xk 1 1 e Kv Kv e Kv Kv e Kv Fonction de coût : C(W) = 1/N k = 1..N ck, avec ck=||dk - yk ||2 = j=1..p (dkj – ykj )2 Algorithme : Widrow-Hoff wij(t) = wij(t-1) - (t) ct / wij(t) Apprentissage Statistique - P. Gallinari 59 Algorithme gradient adaptatif PMC Initialiser W(0) Itérer •présenter un exemple xt • propager les états en avant de couche en couche : xi = g( Ai) • comparer: sortie calculée yt sortie désirée dt • calculer l'erreur sur les cellules de sortie: eti = ( yti - dti) • rétro-propager l'erreur de la couche de sortie vers la couche d'entrée: si i est une cellule de sortie : zi = 2 . eti. g ' (Ai) sinon: zi =(h whi (t) zh ) . g ' (Ai) où h indexe les cellules vers lesquelles i envoie sa sortie • modifier les poids en arrière: wij (t) = - (t) . zi . xj •exemple suivant Apprentissage Statistique - P. Gallinari 60 Contrôle de la complexité En pratique, on n’optimise jamais le risque empirique seul On optimise le risque tout en controlant la complexité Tout bon logiciel d’apprentissage incorpore des techniques de contrôle de la complexité Cf partie théorique du cours Nombreuses méthodes Régularisation (Hadamard …Tikhonov) Théorie des problèmes mal posés Minimisation du risque structurel (Vapnik) Estimateurs algébriques de l’erreur de généralisation (AIC, BIC, LOO, etc) Apprentissage bayesien Fournit une interprétation statistique de la régularisation Le terme de régularisation apparait comme un a priori sur les paramètres du modèle Méthodes d’ensembles Boosting, bagging, etc …. Apprentissage Statistique - P. Gallinari 61 Regularisation Hadamard Un problème est bien posé si Il existe une solution Elle est unique La solution est stable Exemple de problème mal posé (Goutte 1997) Tikhonov Propose des méthodes pour transformer un problème mal posé en problème bien posé Apprentissage Statistique - P. Gallinari 62 Régularisation empirique pour les réseaux de neurones Régularisation : Contrôler la variance de la solution en contraignant la fonctionnelle Optimiser C = C1 + C2(F) C1 : mesure du but poursuivi e.g. MSE, Entropie, ... C2 : contraintes sur la forme de la solution (e.g. distribution des poids) Exemples : forcer les poids inutiles à des valeurs faibles C 2 wi2 –> biaise la solution en diminuant les poids utiles i w i2 / c 2 2 C2 i 1 wi /c –> 2 groupes de poids autour de c 2 2 2 2 C 2 hi /c wi /c 2 2 —> cellules cachées + poids i 1 hi /c i 1 wi /c Utiliser des contraintes différentes suivant le rôle des poids Problème : détermination des "hyper-paramètres" Apprentissage Statistique - P. Gallinari 63 Autres idées pour le problème de la généralisation dans les réseaux de neurones Arrêt de l'apprentissage Elagage : tuer les paramètres inutiles dans un réseau. Différentes mesures d'utilité ont été proposées Bruiter les entrées (Matsuoka 1992 ; Grandvallet et Canu 1994 ; Bishop 1994) Réseaux à convolution Apprentissage Statistique - P. Gallinari 64 Exemple (Cibas et al, 95, 96) Discriminer entre trois classes de "formes d’onde". Les trois formes de base pour la génération des formes d'onde : h3 h1 1 6 5 6 9 6 13 h2 17 21 3 classes C1, C2, C3 engendrées respectivement par : x uh (1 u ) h 2 1 2 x uh (1 u ) h 10 1 3 x uh (1 u ) h 26 2 3 u v. a. de densité uniforme sur [0,1], ~ N(0,I), Classes équiprobables Apprentissage = 10 ensembles disjoints, chacun de 300 exemples Test = 5000 exemples Algorithme : Rétropropagation Apprentissage Statistique - P. Gallinari 65 Evolution des performances pendant l'apprentissage 60 0 60 35 35 5 5 15 15 10 10 Figure 1 a (left), b (right): evolution of the performances (mean square error) during training for MLPs with a varying number of hidden units. (a) corresponds to a stochastic gradient descent and (b) to a conjugate gardient. Each curve corresponds to a two weight layer MLP, the number on the curve gives the size of the hidden layer. Apprentissage Statistique - P. Gallinari 66 Effet de la régularisation h=60- or d h= 15- or d h=60-WD h= 15- estim h= 60- or d h= 15- estim h= 60- estim h= 15- or d h=60-WD h=60- estim Comparaison de l’erreur en apprentissage (a) et en généralisation (b) pour les réseaux h=15 et h=60 en minimisant le coût ordinaire sans terme de régularisation (...-ord) et le coût avec la régularisation: avec détermination des paramètres à priori (...-WD) et en les estimant pendant l’apprentissage (...-estim) Apprentissage Statistique - P. Gallinari 67 Fonctions à Base Radiale Réseau à deux couches Notations wi. = poids vers la cellule i, xi sortie de la cellule i, x entrée y Couche de sortie A w 0 jw j x j g = Id Couche intermédiaire A x w g ( A) e 2 A 2 x y i G i ( x ) w i 0 j w ij Risque : moindres carrés Apprentissage Statistique g x w - P. Gallinari 2 j. 68 La fonction sigmoïde Distribution de la famille exponentielle : T p ( x , , ) exp (( x b ( ))/a ( ) c ( x , )) , : paramètres de la loi, ( paramètre de position , paramètre de dispersion). Ex. de distributions exponentielles : normale, gamma, binomiale, poisson, hypergéométrique ... Hypothèse : la distribution des données conditionnellement à chaque classe est de la famille exponentielle, avec un paramètre de dispersion identique pour toutes les classes i.e. : p ( x /C ) exp (( T x b ( ))/a ( ) c ( x , )) i i i 1 Alors P (C /x ) i 1 e (w T x b ) Apprentissage Statistique - P. Gallinari 69 Capacités d'approximation des PMC Résultats basés sur les théorèmes d'approximation de l'analyse fonctionnelle. (Cybenko (1989)) Théorème 1: Soit f une fonction saturante continue, alors l'espace des fonctions de la forme g ( x ) njc1v f (w t x ) est dense dans j. j l’espace des fonctions continues sur le cube unité C(I). i.e. h C(I) et > 0, g / g ( x ) h ( x ) < sur I. Théorème 2: Soit f une fonction saturante continue. Soit F une fonction de décision définissant une partition de I. Alors > 0, il nc t existe une fonction de la forme g ( x ) j 1v j f (w j . x ) et un g ( x ) F ( x ) < sur D. ensemble D I tel que (D) = 1 - et (Hornik et al., 1989) Théorème 3 : Pour toute fonction saturante croissante f, et toute mesure de probabilité m sur Rn , l'espace des fonctions de la forme nc t g ( x ) j 1v f (w x ) est uniformément dense sur les j. j compacts de C(Rn). Apprentissage Statistique - P. Gallinari 70 Fonctions radiales (Park & Sandberg, 1993) Théorème 4 : Si f, fonction réelle définie sur Rn est intégrable, alors l'espace des fonctions de la forme : g( x) N v .f j 1 j ( x w j. j est dense dans L1(Rn) ssi ) . f ( x )dx 0 Rn Apprentissage Statistique - P. Gallinari 71 Résultats basés sur le théorème de Kolmogorov Théorème sur la représentation (exacte) des fonctions réelles de Kolmogorov Toute fonction h de C(I) peut s'écrire sous la forme 2 n 1 h ( x1 ,..., x n ) q 1 g q ( p 1 f pq ( x p ) ) n où les fonctions g et f sont des fonctions continues d'une variable. Théorème 6 (Kurkova 1992) Soit h dans C(I), n 2 et R+, alors quelquesoit m vérifiant m = 2n + 1 n/(m-n) + v < / ||h|| h(1/m) < v(m - n)/(2m - 3n) v>0 h peut être approximée à une précision par un perceptron possédant deux couches cachées de fonctions saturantes et dont les sorties sont linéaires. La première couche comprend n.m(m+1) unités et la seconde m2(m+1)n. Les poids sont universels sauf ceux de la dernière couche, pour toutes les fonctions f vérifiant : f(d)= sup{|f(x1, ..., xn) - f(y1, ..., yn)|, x, y I et |xp - yp| < p}. Apprentissage Statistique - P. Gallinari 72 Interprétation probabiliste des sorties Risque théorique R = E ( [ d - h(x) ] 2) Le min de R est obtenu pour h*(x) = E[d | x ] C(W) = E ( [ d - F(x,W) ]2 ) = E ( [ d - h*(x) ]2 ) + E ( [ h*(x) - F(x,W) ] 2) h*(x) = E[d | x ] est bien la solution optimale Dans l’espace des hypothèses, W* / minimise simultanément : E ( [ d - F(x,W) ]2 ) E ( [ h*(x) - F(x,W) ]2 ) Apprentissage Statistique R(W*) = MinW R LMSE meilleure approximation LMS de E[d | x ] - P. Gallinari 73 Cas de la Classification d = (0,…, 0, 1, 0, …, 0) avec un 1 en ième position si classe i hi*= P( Ci/ x ) i.e. F( . , W*) meilleure approximation LMS de la fonction discriminante de Bayes (solution optimale). Sorties binaires hi*= P( di = 1| x ) Coût : di =ij pour x Cj, = coût de la décision i quand la classe est j hi* est le risque conditionnel de la décision i E [d /x ] Décision : sortie la plus faible. i j 1 ij P ( j/x ) m L’importance de la précision sur les sorties : dépend de l'utilisation (classification OU estimation de probabilité conditionnelle). Apprentissage Statistique - P. Gallinari 74 Fonctions de coût Différentes fonctions de coût sont utilisées, suivant les problèmes, ou les modèles LMSE Regression Figure from Bishop 2006 Souvent utilisé en classification Classification, Hinge, logistique Classification Exemples z y.d (marge) cMSE(y,d) (y-d)2 y R, d {-1, 1} Hinge, logistique sont ici des approximations de l’erreur de classification chinge ( y, d ) 1 yd clog istique ( y, d ) ln(1 exp( yd )) Apprentissage Statistique - P. Gallinari 75 Apprentissage supervisé Machines à noyaux Introduction Familles de machines d'apprentissage générales qui exploitent l'idée suivante : Projeter les données dans un espace de grande dimension - éventuellement infini -où le problème sera facile à traiter Utiliser des "projections" non linéaires permettant des calculs "efficaces" Exemples : Machines à Vecteurs Support (généralisent : hyperplan optimal, cadre Vapnik) Processus Gaussien (généralisent : régression logistique, cadre Bayesien) Apprentissage Statistique - P. Gallinari 77 Représentation Duale Exemple introductif : le perceptron Hyp : 2 classes linéairement séparables, sortie désirée d = ± 1 Perceptron Primal W(0) = 0 Répeter (t) Pour i = 1 à N Si di(W(t).xi) 0 alors W(t+1) = W(t) + di.xi Jusqu'à convergence Perceptron Dual =0 Répeter (t) Pour i = 1 à N N Si d i ( j d j x j x i ) 0 j 1 alors i = i (t) + 1 Jusqu'à convergence Apprentissage Statistique Fonction de décision : n W(0) = 0 F ( x ) sgn ( w i x i ) i 1 N i i W d x i 1 i i : mesure de la difficulté à classifier i Fonction de décision : N i i F ( x ) sgn ( d x .x ) i 1 i G = (xi.xj)i,j = 1..N : Matrice de Gram - P. Gallinari 78 Représentation Duale La plupart des machines à apprentissage linéaires ont une représentation duale Exemples Adaline, regression, regression ridge, etc L’information sur les données est entièrement fournie par la matrice de Gram : G = (xi.xj) i,j = 1..N, qui joue un rôle central La fonction de décision F(x) s’exprime comme une combinaison linéaire de produits scalaires entre la donnée d’entrée x et les exemples d’apprentissage Les machines à noyau généralisent ces idées Une fonction noyau K est définie sur X2, par K(x,z) = < Φ(x), Φ(z)> où Φ est une fonction de X dans un espace muni d’un produit scalaire Apprentissage Statistique - P. Gallinari 79 Produit Scalaire et Noyaux Projection non linéaire dans un espace de (éventuellement très) grande dimension H :R n R p avec p n Machine linéaire dans H - Primal : F (x ) i 1.. p w i i (x ) b Machine linéaire dans H - Dual : W i i d ( x ) i 1..N i F (x ) i 1..N i i d ( x ) ( x ) b i Calculer les produits scalaires dans l'espace initial : choisir F / ( x ). ( x ' ) K ( x , x ' ) i i F (x ) d K (x , x ) b i i 1..N avec K : fonction noyau (i.e. symétrique) Apprentissage Statistique - P. Gallinari 80 Généralise le produit scalaire dans l'espace initial Le calcul de F ne dépend pas directement de la taille de H : les calculs sont faits dans l'espace initial. La machine linéaire dans H peut être construite à partir d'une fonction K sans qu'il soit nécessaire de définir explicitement : en pratique, on spécifiera directement K. Cette idée permet d'étendre de nombreuses techniques linéaires au non linéaire: il suffit de trouver des noyaux appropriés Exemples ACP, Analyse discriminante, regression, etc Apprentissage Statistique - P. Gallinari 81 Caractérisation des noyaux Quand peut on utiliser cette idée ? Cas d'un espace fini Soit X = { x1,…, xN}, K(x,x') une fonction symétrique sur X, K est une fonction noyau ssi la matrice K ( K ( x i , x j )) iN, j 1 est positive semi-définie (valeurs propres 0) Cas général : Conditions de Mercer (noyaux de Mercer) Il existe une application et un développement K (x , x ' ) ( x ) i .( x ' ) i i 1 ssi 2 g/ g ( x ) dx est fini K ( x , x ' ) g ( x ) g ( x ' )dxdx ' 0 Apprentissage Statistique - P. Gallinari 82 Caractérisation des noyaux Espace de Hilbert à noyau autoreproduisant Une fonction K: X*X R qui est soit continue soit définie sur un domaine fini peut s’écrire sous la forme d’un produit scalaire : K ( x, z ) ( x), ( z ) avec Φ : x Φ(x) F espace de Hilbert ssi c’est une fonction symétrique et toutes les matrices formées par la restriction de K à un échantillon fini sur X sont semi-définies positives). Résultat à la base de la caractérisation effective des fonctions noyaux Il permet de caractériser K comme un noyau sans passer par Φ C’est une formulation équivalente aux conditions de Mercer Apprentissage Statistique - P. Gallinari 83 L’espace de Hilbert associé à K : l F i K ( xi ,.) / l N , xi X , i R, i 1..l i 1 Le produit scalaire défini sur cet espace : l Soient f (.) i K ( xi ,.), i 1 l n n g (.) j K ( x j ,.) j 1 l n i 1 j 1 f , g i j K ( xi , z j ) i g ( xi ) j f ( zi ) i 1 j 1 Apprentissage Statistique - P. Gallinari 84 Noyau auto-reproduisant Si on prend g(.) = K(x,.), alors l f , K ( x,.) i K ( xi , x ) f ( x) i 1 Exemples de noyaux K ( x, z ) x.z 2 2 n n K ( x, z ) xi .zi ( xi .x j )( zi .z j ) i , j 1 i 1 K ( x, z ) ( x). ( z ) avec ( x) / ( x)i , j ( xi .x j )i , j 1,n n 1 i.e. tous les monomes de d 2 : 2 K ( x, z ) ( x.z c) 2 K ( x, z ) ( x). ( z ) avec (x) / ( x)i , j (( xi .x j )i , j 1,n , ( 2cxi )i 1,n , c) i.e. ss ensemble des polynomes de d 2 Apprentissage Statistique - P. Gallinari 86 Exemples de noyaux ( x.x i 1) d polynome d' ordre d i i 2 noyau gaussien K ( x, x ) exp x x Sigmoïde(vx.x i c) Apprentissage Statistique - P. Gallinari 87 Construction des noyaux en pratique Les résultats de Mercer servent à prouver les propriétés des fonctions noyaux. En pratique, elles sont peu utiles Pour construire des noyaux, on procède par combinaison à partir de noyaux connus Si K1 et K2 sont des noyaux sur X2, K3 défini sur F, les fonctions suivantes sont des noyaux : K(x, z) = K1 (x, z) + K2 (x, z) K(x, z) = K1 (x, z) . K2 (x, z)* K(x, z) = aK1 (x, z) K(x, z) = K3 (Φ(x), Φ(z)) ….. Apprentissage Statistique - P. Gallinari 88 Machines à vecteurs support Exposé du cours : discrimination 2 classes Cas général : discrimination multi-classes, régression, densité Idées Projeter -non linéairement- les données dans un espace de "très" grande taille H Faire une séparation linéaire de bonne qualité dans cet espace Raisonner dans H, mais résoudre le problème d'optimisation dans l'espace de départ (noyaux) Apprentissage Statistique - P. Gallinari 89 Notion de marge H : F(x) = W.x + b = 0 F ( x) W Marge géométrique pour xi : W M (xi) d i( W W xi b ) W Marge de W pr à ens. D : Mini(M(xi)) Hyperplan de marge maximale : MaxW(Mini(M(xi))) b W Apprentissage Statistique - P. Gallinari 90 Marge géométrique vs marge fonctionnelle Marge géométrique di.F(xi)/||w|| Marge fonctionnelle di.F(xi) Remplacer w par k.w ne change pas la fonction de décision ou la marge géométrique, mais change la marge fonctionnelle. Pour les SVM, on fixera la marge fonctionnelle à 1 et on optimisera la marge géométrique. Apprentissage Statistique - P. Gallinari 91 Prémisses : Séparation linéaire à hyperplan optimal (1974) Hyp : D linéairement séparable i D x ,d i i 1..N avec d i 1 Fonction de décision : F(x) = W.x + b Pb apprentissage : trouver l'hyperplan optimal H* qui sépare D i.e. di.F(xi) 1 , i avec une marge maximale M = i.e. : Problème Primal : Apprentissage Statistique d i .F ( x i ) 1 min i w w Minimiser W 2 i i S .C . d .F ( x ) 1 - P. Gallinari 92 Solution : W* dépend uniquement des points supports i.e. points sur la marge qui vérifient : di.F*(xi) = 1 i i i i w * d i x F * ( x ) d i x .x i support i support Rq: Quelque soit la dimension de l'espace, le nombre de degrés de liberté est "égal" au nombre de points de support F* dépend uniquement du produit scalaire xi.x Marge Vecteurs Supports Apprentissage Statistique - P. Gallinari 93 Apprentissage : On résoud le problème d'optimisation dit dual : Maximiser L ( ) i i S .C i j d i d x i .x j j i,j i 0 et id i 0 i Problème minimisation quadratique sous contraintes Apprentissage Statistique - P. Gallinari 94 Machines à vecteurs supports Faire une séparation à marge max. dans un espace défini par une fonction noyau. Tous les résultats sur le classifieur linéaire à marge max. se transposent en remplaçant xi .x par K ( xi , x) :R W i x V .S . i i d ( x ) n R p F (x ) i i i i d ( x ) ( x ) b x V .S . i ( x ). ( x ' ) K ( x , x ' ) F (x ) i i i d K (x , x ) b x V .S . Apprentissage Statistique i - P. Gallinari 95 Apprentissage : On résoud le problème d'optimisation dual : Maximiser L( ) i i j d i d j K ( x i , x j ) i i, j S .C i 0 et i d i 0 i Problème minimisation quadratique sous contraintes dans l ’espace de départ Difficile en pratique : différents algorithmes. Dans la solution optimale i > 0 uniquement pour les points support. Seuls les produits scalaires K apparaissent, et pas les . Apprentissage Statistique - P. Gallinari 96 Propriétés de généralisation -exemples E [ P (erreur ( x ))] Th 1 E [# vecteurs supports] # exemples apprentissage 1 peu de points support meilleure généralisation indépendant de la taille de l'espace de départ Th 2 q /i 1..N , x i q Si l'hyperplan optimal passe par l'origine et a pour marge E[ Alors E [ P (erreur ( x ))] q 2 2 ] N Dans les 2 cas, E[P()] est l'espérance sur tous les ensembles de taille l-1, et E[membre droit] est l'espérance sur tous les ensembles d'apprentissage de taille l (leave one out). Apprentissage Statistique - P. Gallinari 97 Cas non linéairement séparable Marges molles L'algorithme est instable Dans les cas non linéairement séparables Dans le cas de données réelles même linéairement séparables Solution adoptée en pratique autoriser des erreurs, i.e. prendre pour contraintes : i d i i (W . ( x ) b ) 1 i 0 ηi = 0, xi est correctement classifié et est du bon coté de la marge 0 < ηi <= 1, xi est correctement classifié, est à l’intérieur de la marge ηi > 1, xi est mal classé ηi : slack variable Apprentissage Statistique - P. Gallinari 98 But Maximiser la marge tout en pénalisant les points qui sont mal classés Formalisation Plusieurs expressions possibles du problème L’une des plus courantes : N Min( w.w) C i (i.e. max la marge) i 1 S .C. d i ( w.x i b) 1 i , i 1..N i 0, i 1..N C fixé par validation croisée joue le rôle de paramètre de régularisation Apprentissage Statistique - P. Gallinari 99 Marges molles – formulation duale Maximiser L( ) i i j d i d j K ( xi , x j ) i i, j S.C 0 i C et Apprentissage Statistique id i 0 i - P. Gallinari 100 Algorithmes d’optimisation Algorithmes d’optimisation standard pour la programmation quadratique sous contrainte e.g. Sequential Minimal Optimization (SMO) Algorithmes stochastiques - SVM Results –(Bottou 2007) Task : Document classification - RCV1 documents belonging to the class CCAT (2 classes classification task) Programs SVMLight and SVMPerf are well known SVM solvers written by Thorsten Joachims. SVMLight is suitable for SVMs with arbitrary kernels. Similar results could be achieved using Chih-Jen Lin‘s LibSVM software. SVMPerf is a specialized solver for linear SVMs. It is considered to be one of the most efficient optimizer for this particular problem. Algorithm (hinge loss) Training Time Primal cost Test Error SVMLight 23642 secs 0.2275 6.02% SVMPerf 66 secs 0.2278 6.03% Stochastic Gradient (svmsgd) 1.4 secs 0.2275 6.02% Stochastic Gradient (svmsgd2 1.4 secs 0.2275 6.01% Apprentissage Statistique - P. Gallinari 101 Annexe : Optimisation Problèmes sous contraintes égalités, inégalités Soient f, gi, i = 1..k, hj, j = 1 ..n des fonctions définies sur Rn à valeur dans R On considère le problème primal suivant (Pb. 0) : Min( f ( w)), w R n Sous Contraintes g i ( w) 0, i 1..k h j ( w) 0, j 1..m Apprentissage Statistique - P. Gallinari 102 Optimisation non contrainte Fermat Une C.N. pour que w* soit un min. de f(w) est f ( w*) 0 w Si f est convexe c’est une Condition Suffisante F est convexe si ∀ ∈ 0,1 , 1 1 Apprentissage Statistique - P. Gallinari 103 Optimisation Lagrangien On considère le (Pb. 1) : Min( f ( w)), w R n S .C. h j ( w) 0, j 1..m On définit le Lagrangien L pour (Pb. 1) par m L( w, ) f ( w) j h j ( w) i 1 les βi sont les coefficients de Lagrange Apprentissage Statistique - P. Gallinari 104 Optimisation Th. Lagrange Une CN pour que w*, * soit solution de (Pb. 1) est que en ce point L( w*, *) 0 w L( w*, *) 0 Si L(w, *) est une fonction convexe de w, c’est une C.S. Apprentissage Statistique - P. Gallinari 105 Optimisation Lagrangien augmenté De même, on définit le Lagrangien augmenté pour (Pb. 0) : k m i 1 j 1 L( w, ) f ( w) i g i ( w) j h j ( w) Optimisation Th. Kuhn et Tucker On considère (Pb. 0) avec Ω convexe et f C1 convexe, gi, hj affines (hi = A.w – b) 1 CNS pour que w* soit un optimum est qu’il existe α* et β* / L( w*, *, *) Rq : 0 w Soit une contrainte est active (αi* ≠ L w ( *, *, *) 0) et gi(w*) = 0), w* est un point 0 frontière de la région admissible i * g i ( w*) 0, i 1..k Soit elle est inactive ((αi* = 0) et w* g ( w*) 0, i 1..k est dans la région admissible i i * 0, i 1..k Apprentissage Statistique - P. Gallinari 107 Formulation duale du problème d’optimisation Le (Pb. 0 _ formulation primale) est équivalent à la forme duale suivante : Maximiser , ( inf w L( w, , )) S.C. 0 Rq : inf w L( w, , ) est une fonction de , uniquement Apprentissage Statistique - P. Gallinari 108 SVM – formulations primale et duale SVM Ω, f, contraintes sont convexes, L est quadratique On étudie le cas, D = {(xi ,di)}i = 1..N linéairement séparables Formulation similaire pour le cas non linéairement séparable Pb. Primal Min( w.w) (i.e. max la marge) S .C. d i ( w.x i b) 1, i 1..N Lagrangien primal N 1 L( w, b, ) w.w i (d i ( w.x i b) 1) 2 i 1 i 0 Lagrangien dual N 1 N i j L( w, b, ) i d d i j ( x i .x j ) 2 i 1 i 1 Apprentissage Statistique - P. Gallinari 109 SVM – formulations primale et duale Pb. Dual N 1 N i j L( w, b, ) i d d i j ( x i .x j ) 2 i 1 i 1 S .C. N i d i 0 i 1 i 0, i 1..N Fonction de décision F ( x, *, *) i i d * ( x .x ) b * i iS .V Apprentissage Statistique - P. Gallinari 110 Apprentissage non supervisé Algorithme EM et mélange de densités Probabilistic Latent Semantic Analysis Latent Dirichlet Allocation Spectral clustering Non Negative Matrix Factorization Applications analyse des données quand il n'y a pas de connaissance sur la classe. e.g. pas d'étiquetage des données (problème nouveau) trop de données ou étiquetage trop compliqué e.g. traces utilisateur (web), documents web, parole, etc réduction de la quantité d'information e.g. quantification découverte de régularités sur les données ou de similarités. Apprentissage Statistique - P. Gallinari 112 Apprentissage non supervisé Algorithme Espérance Maximisation (EM) Application aux mélanges de densités Algorithme E. M. (Espérance Maximisation) On dispose de données D = {xi}i = 1..N On n’a pas d’étiquette di d’un modèle génératif, de paramètres W : FW Le modèle « explique » la génération des données On veut trouver les paramètres du modèle qui expliquent au mieux la génération des données On se donne un critère Ici on considère la vraisemblance des données qui est le critère le plus fréquent P(D| W) = P(x1, …, xN| W) D’autres critères sont également couramment utilisés On va essayer de déterminer les paramètres W de façon à maximiser la vraisemblance Apprentissage Statistique - P. Gallinari 114 Exemple On recueille des données sur deux populations e.g. taille d’individus D = {xi}i = 1..N Hypothèse les données de chaque population sont gaussiennes Elles ont la même variance 2 N ( 1 , 2 Id ), N ( 2 , 2 Id ) Problème estimer les i et les à partir des données Si les di sont connus, i.e. D = {(xi, di}i = 1..N la solution est simple On a deux population séparées (2 classes) C1, C2 La maximisation de la vraisemblance donne l’estimateur classique de la moyenne j 1 C Difficulté : les di sont inconnus Apprentissage Statistique - P. Gallinari x i i j x C j 115 Cas où l’appartenance est connue Vraisemblance ∏ ∏ | ∈ ∈ | En pratique on maximise la log-vraisemblance ∑ log ∑ ∈ ∈ Cas des gaussiennes exp 0⇔ | | ∑ ∈ Apprentissage Statistique - P. Gallinari 116 Cas où la probabilité d’appartenance est connue On connait | ,k 1,2 Log-vraisemblance log ∑ log Cas des gaussiennes 0⇔ ∑ ∑ Rq : si on ne connait les . | | ,k 1,2 leséquationsformentunsystèmenonlinéairecouplé,insoluble. Apprentissage Statistique - P. Gallinari 117 Variables cachées (ou latentes) On postule l’existence de variables cachées h responsables de la génération des données À chaque xi, on associe sa classe cachée hi H = {hi}I = 1..N l’existence d’une fonction densité jointe sur les données observées et cachées p(x, h) P(D, H| W) sera appelé vraisemblance complète des données pour le modèle W. Remarque Les variables h sont inconnues et sont considérées comme des variables aléatoires P(D, H| W) sera elle même une variable aléatoire Apprentissage Statistique - P. Gallinari 118 Algorithme EM On veut maximiser P(D/W)à partir de l'observation des données visibles Problème la maximisation directe de P(D/W) ne conduit pas à des formules calculatoires (algorithme) Solution : on maximise de façon itérative une fonction auxiliaire Q L’espérance de la vraisemblance des données complètes connaissant le modèle courant L’espérance est calculée par rapport à la distribution des variables cachées h Le modèle courant à l’étape t est noté W(t) Q (W/W (t ) ) E log p ( D, H/W )/D, W (t ) p ( H/D, W (t ) ) log p ( D, H/W ) H Remarque : dans cette expression D et W(t) sont des constantes h est une variable aléatoire de densité p(h|x, W(t)) W est les paramètres du modèle que l’on veut estimer Apprentissage Statistique - P. Gallinari 119 Algorithme EM Initialiser W = W(0) 1. Etape E : Espérance (t ) On calcule p ( H/D ,W ) On en déduit Q (W/W (t ) ) L'espérance est calculée par rapport à la distribution de H 2. Etape M : Maximisation Etant donnée la distribution courante sur H, trouver les paramètres qui maximisent Q W ( t 1) arg max E log p ( D , H / W )/ D , W (t ) W L’algorithme converge vers un maximum local de la fonction Q et de P(D/W) Apprentissage Statistique - P. Gallinari 120 Remarques (t ) Lors de l'étape E, on estime la distribution de H, p ( H/D ,W ) à partir des valeurs courantes des paramètres W(t). Au lieu d'essayer de maximiser directement, p ( D/W ) on utilise la fonction auxiliaire Q. On peut montrer la convergence de l'algorithme par : t t Q (W /W ) Q (W /W t ) p ( D / W ) p ( D /W t ) L'algorithme est utilisé pour les algorithmes non supervisés, semi - supervisés les données manquantes ou les composantes manquantes dans les données les HMM ... Apprentissage Statistique - P. Gallinari 121 Exemple Mélange de densités - Cas de deux classe gaussiennes, connu i But (MV) : trouver 1, 2 arg max p(D / 1, 2) D (x ) i 1..N i i i On considère D H (x , h ) i 1..N , les h sont les données cachées Algorithme ( 0) (0) 1 , 2 Initialisation itérer Etape E i i calculer p(h j / x ) i = 1..N, j = 1,2 Q( 1 , 2 , 1t , 2t , t ) E[ P ( D H / 1t , 2t , t )] Etape M calculer (t 1) j p(h i 1..N p(h i 1..N j / xi)xi Trouver les μ1, μ2 qui maximisent Q j / xi) Apprentissage Statistique - P. Gallinari 122 Remarques Etape E : calcul de la responsabilité de chaque gaussienne pour chaque point i i i i i p(h j / x ) p(h j)p(x / h j) i i i p ( h k ) p ( x / h k) k Etape M : chaque centre est défini comme le centre de toutes les données, chacune étant pondérée par cette responsabilité Cas limite : = 0 : algorithme des k-moyennes Apprentissage Statistique - P. Gallinari 123 Mélange de densités – cas gaussien On suppose que le modèle génératif des données est un mélange de densités gaussiennes On fixe a priori le nombre de composantes du mélange à k on suppose que les données x sont unidimensionnelles p (x ) k p ( l ) p ( x /l ) p( x / l ) l 1 1 ( 2 ) 2 1/ 2 l e ( x l ) 2 2 l2 Paramètres Coefficients du mélange p(l| x), moyennes et écarts types W p (l ), , l Apprentissage Statistique l l 1..k - P. Gallinari 124 Vraisemblance p ( D /W ) N k i p ( l/W ) p ( x /l ,W ) i 1 l 1 Vraisemblance complète variables cachées : hi classe de xi log p (D , H/W ) N i i i log( p (h /W ) p (x /h ,W )) i 1 N k i 1l 1 lh i i Apprentissage Statistique log( p (l/W ) p (x /l ,W )) - P. Gallinari 125 Mélange de densité – Etapes E et M Etape E p(h j/xi ,W (t ) ) p( xi /h j,W (t ) ) p(h j W (t ) ) l 1..k Q (W/W (t ) ) E H/X ,W ( t ) [log p ( D, H W )] p( xi /h l ,W (t ) ). p(h l W (t ) ) k k ... h1 1 h N 1 N N log p ( D , H/W ) p ( h i /x i ,W ( t ) ) i 1 k p (l/x i ,W ( t ) ) log p (l/W ) p ( x i /l ,W ) i 1 l 1 Etape M Min ( Q ) k k Min ( Q ( p (l/W ) 1)) l 1 sous contrainte p (l/W ) 1 l 1 Apprentissage Statistique - P. Gallinari 126 Mélange de densités – Reestimation dans l’étape M p ( j / x i , W (t ) ) x i (jt 1) i p ( j / x i , W (t ) ) i p ( j / x ,W i (t 1) 2 1 i j n (t ) (t 1) 2 ) x j i p ( j / x i , W (t ) ) i p ( j )(t 1) 1 p ( j / x i , W (t ) ) N i Apprentissage Statistique - P. Gallinari 127 Apprentissage non supervisé Mélange de densités Apprentissage par échantillonnage de Gibbs Les méthodes MCMC Markov Chain Monte Carlo Méthodes de calcul intensif basées sur la simulation pour Echantillonnage de variables aléatoires {x(t)}t=1..T qui suivent une certaine distribution p(x) Calcul de l’espérance de fonctions suivant cette distribution E[f(x)] sera estimé par 1/T . Σt=1..Tf(x(t)) e.g. moyenne, marginales, … Maximisation de fonctions Argmaxxp(x) Apprentissage Statistique - P. Gallinari 129 Echantillonneur de Gibbs On veut estimer une densité p(x) avec x = (x1,..,xn) Hyp On connait les lois conditionnelles p(xi| x1,.., xi -1, xi+1,..., xn) = p(xi| x - i) Algorithme Initialiser {xi, i = 1..n} Pour t = 1 …T faire Echantillonner x1t 1 ~ p ( x1 xt 1 ) ........ Echantillonner xnt 1 ~ p ( xn xt n ) Apprentissage Statistique - P. Gallinari 130 Propriétés Sous certaines conditions de régularité, la procédure converge vers la distribution cible p(x) Les échantillons résultants sont des échantillons de la loi jointe p(x) On n’a pas besoin de connaitre la forme analytique des p(xi| x - i) mais uniquement de pouvoir échantillonner à partir de ces distributions Mais la forme analytique permet d’avoir de meilleurs estimés Avant de retenir les points échantillons, on autorise souvent une période de “burn-in” pendant laquelle on fait simplement tourner l’algorithme “à vide” Gibbs facile à implémenter, adapté aux modèles hierarchiques (cf LDA) Apprentissage Statistique - P. Gallinari 131 Cas du mélange de deux lois gaussiennes Modèle 2 p( x) p(l ) p ( x / l ) l 1 On va considérer un modèle augmenté en ajoutant une variable cachée h Les données complètes sont les (xi, hi) Les paramètres à estimer sont : W p(l ), l , l l 1..2 On va utiliser Gibbs en échantillonnant sur les densités conditionnelles Pour simplifier on suppose dans l’example que les proportions p(l) et les variances σ sont fixées, on estime juste les moyennes μ1 et μ2 Pour cela, on va échantillonner suivant la distribution jointe (h(t), μ1(t), μ2(t)) Apprentissage Statistique - P. Gallinari 132 Echantillonneur de Gibbs pour le modèle de mélange de deux gaussiennes Choisir des valeurs initiales 1( 0) , 2( 0 ) Répéter t 1...T Pour i 1...N 1. générer hi(t ) 0,1 selon p(hi j ) p (jt 1) p( xi (jt 1) , j ) ( t 1) 1 p ( t 1) 1 p ( xi , 1 ) p ( t 1) 2 p ( xi ( t 1) 2 , 2 ) , j 1,2 calculer N ˆ j (1 hi(t ) ).xi i 1 N (1 hi(t ) ) , j 1,2 i 1 2. générer j(t) ~ N ( ˆ j , j ), j 1,2 Apprentissage Statistique - P. Gallinari 133 Lien avec l’algorithme EM Les étapes pour cet exemple sont les mêmes que avec EM Différence Au lieu de maximiser la vraisemblance, aux étapes 1 et 2, on échantillonne Etape 1 : on simule les variables cachées h au lieu de calculer E(h|W, D) Etape 2 : on simule à partir de p(μ1, μ2|h, D) au lieu de calculer le max. vraisemblance p(μ1, μ2| D) dans EM Apprentissage Statistique - P. Gallinari 134 Apprentissage non supervisé Algorithmes à variables latentes Probabilistic Latent Semantic Analysis Latent Dirichlet Allocation Preliminaries : unigram model Generative model of a document p(d ) p(wi d ) i Select document length Pick a word w with probability p(w) Continue until the end of the document Applications Classification Clustering Ad-hoc retrieval (language models) Apprentissage Statistique - P. Gallinari 136 Preliminaries - Unigram model – geometric interpretation P(w3|d) Document d doc d representation p( w1 d ) 1 / 4 Word simplex p( w2 d ) 1 / 4 p( w3 d ) 1 / 2 P(w1|d) P(w2|d) Apprentissage Statistique - P. Gallinari 137 Latent models for document generation Several factors influence the creation of a document (authors, topics, mood, etc). They are usually unknown Generative statistical models Associate the factors with latent variables Identifying (learning) the latent variables allows us to uncover (inference) complex latent structures Apprentissage Statistique - P. Gallinari 138 Probabilistic Latent Semantic Analysis PLSA (Hofmann 99) Motivations Several topics may be present in a document or in a document collection Learn the topics from a training collection Applications Identify the semantic content of documents, documents relationships, trends, … Segment documents, ad-hoc IR, … Apprentissage Statistique - P. Gallinari 139 PLSA The latent structure is a set of topics Each document is generated as a set of words chosen from selected topics A latent variable z (topic) is associated to each word occurrence in the document Generative Process Select a document d, P(d) Iterate Choose a latent class z, P(z|d) Generate a word w according to P(w| z) Note : P(w| z) and P(z|d) are multinomial distributions over the V words and the T topics Apprentissage Statistique - P. Gallinari 140 PLSA - Topic A topic is a distribution over words P(w|z) words word P(w|z) machine 0.04 learning 0.01 information 0.09 retrieval 0.02 …… ……. Remark A topic is shared by several words A word is associated to several topics Apprentissage Statistique - P. Gallinari 141 PLSA as a graphical model Document level d P(z|d) z P(w|z) Corpus level w Boxes represent repeated sampling Nd D P(d , w) P(d ) * P ( w d ) P( w d ) P( w z ) P( z d ) z Apprentissage Statistique - P. Gallinari 142 PLSA model Hypothesis # values of z is fixed a priori Bag of words Documents are independent No specific distribution on the documents Conditional independence z being known, w and d are independent Learning Maximum Likelihood : p(Doc-collection) EM algorithm and variants Apprentissage Statistique - P. Gallinari 143 PLSA - geometric interpretation Topici is a point on the word simplex Documents are constrained to lie on the topic simplex Creates a bottleneck in document representation w3 Word simplex Topic simplex topic1 Document d P( w d ) P( w z ) P( z d ) topic2 w2 topic3 Apprentissage Statistique - P. Gallinari z w1 144 Applications Thematic segmentation Creating documents hierarchies IR : PLSI model Clustering and classification Image annotation Learn and infer P(w|image) Collaborative filtering Note : #variants and extensions E.g. Hierarchical PLSA (see Gaussier et al.) Apprentissage Statistique - P. Gallinari 145 Latent Dirichlet Allocation - LDA (Blei et al. 2003) LDA is also a topic model Extends PLSA Motivations Generalization over unseen documents Define a probabilistic model over documents Not present in PLSA Allows to generate (model) unseen documents Overtraining In PLSA, the number of parameters grows with the corpus size LDA constrains the distribution of topics for each document and words for each topic Apprentissage Statistique - P. Gallinari 146 LDA - model Similar to PLSA with the addition of a prior distribution on the topic distribution Generative process For a document Topic distribution Choose θ ~ Dirichlet () a distribution over topics Words For each document word w Choose a topic z ~ multinomial (θ) Choose a word w from p(w | θ, ) multinomial probability conditioned on topic z Apprentissage Statistique - P. Gallinari 147 LDA - model Dirichlet Multinomial Ф(z) β Dirichlet Document level T Corpus level Multinomial θ z w Nd D Nd p ( , , Z ,W , ) p ( ) p ( ) p( zi ) p( wi zi , ) i 1 Nd p (W , ) p ( ) p( ) p ( zi ) p( wi zi , ) dd i 1 zi Apprentissage Statistique - P. Gallinari 148 LDA – model - unfolded P(z|1) Doc1 Doc2 1 topics 2 Z1,1 Z1,2 Z2,1 words w1,1 w1,2 w2,1 ……… P(w|z1,1) Apprentissage Statistique - P. Gallinari 149 PLSA vs LDA - geometric interpretation PLSA provides a sampling of the document distribution on the topic simplex LDA provides an estimate of the document distribution on the topic simple w3 Observed documents w3 topic1 Document distribution topic2 w2 topic1 topic2 topic3 w1 w2 Apprentissage Statistique - P. Gallinari topic3 w1 150 Dirichlet etc… , are priors on the distributions and Perform a smoothing of and distributions , control the amount of smoothing Dirichlet and multinomial Dirichlet is a conjugate prior for multinomial Allows to compute closed forms for posterior distributions Apprentissage Statistique - P. Gallinari 151 LDA applications Exploratory analysis Discovering topics Topic evolution Document tagging by most relevant topic words Classification Collaborative filtering Image annotation IR All latent models Inference on latent variables Apprentissage Statistique - P. Gallinari 152 LDA tagging (Blei et al 2003) Apprentissage Statistique - P. Gallinari 153 Finding topics in PNAS (Griffith et al. 2004) PNAS categories Mean θi value for the most significant topic i on this category LDA topics Apprentissage Statistique - P. Gallinari 154 Peer to Peer document download analysis (Denoyer 2008) Nodes are files Two nodes are connected if they have been dowloaded by at least 20 peers (500 K peers in total and 2.5 K files) Colors indicate the thematic clustering performed by LDA using the key words associated to files Results Strong correspondance between download (connections) and thematic communities Apprentissage Statistique - P. Gallinari 155 Peer to Peer document download analysis (Denoyer 2008) Apprentissage Statistique - P. Gallinari 156 Author-recipient topic model (McCallum et al. 2004) Learning from Enron data Identify •Topic •Author-recipient Apprentissage Statistique - P. Gallinari 157 LDA – learning and inference Exact learning and inference are intractable Approximate models Variational models Gibbs sampling Expectation propagation… Apprentissage Statistique - P. Gallinari 158 Other latent models Image annotation Author-topic model Author-Recipient-Topic … Apprentissage Statistique - P. Gallinari 159 Example: Discovering e-communities (Zhou et al 2006) Usual methods Rely mostly on graph and connectivity analysis Machine learning Introduce semantic relationships e.g. shared documents in e-mails or linked documents for the web Common interests Example : e-mail analysis Recipient list (connectivity) Message body (Semantic information) Identify communities of users based on their exchanges, and topics Apprentissage Statistique - P. Gallinari 160 A document is characterized by 3 latent variables Content t Author u Community c Goal Compute p(c, u, z | w) Message generation d Choose a community c Choose an author in the community Choose a topic t Choose a word according to topic distribution w Apprentissage Statistique - P. Gallinari 161 Community-user-topic model Distribution of users over communities c C di U β z Ф w Document level T Corpus level Nd D Apprentissage Statistique - P. Gallinari 162 Example ( Zhou 06) Apprentissage Statistique - P. Gallinari 163 Apprentissage non supervisé Spectral Clustering Apprentissage Statistique - P. Gallinari 164 Spectral Clustering (after Von Luxburg 2007) Intuition x1, …, xn data points, wij similarity between xi and xj G = (V, E) graph vertex vi corresponds to data point xi Edges are weighted by wij Clustering amounts at finding a graph partition such that Edges between clusters have low weights Edges among points inside a cluster have high values Apprentissage Statistique - P. Gallinari 165 Graphs notations G = (V, E) undirected graph V = {v1, …, vn) Edges are weighted, W = (wij)I, j = 1…n , wij ≥ 0 is the weight matrix D : diagonal matrix with Apprentissage Statistique ∑ - P. Gallinari 166 Building similarity graphs from data points Different ways to build a similarity graph Locally connected graphs: k-nearest neighbor graphs Two vertices are connected if one of them is among the knearest neighbor of the other Or two vertices are connected if both are in the kneighborhood of the other Edges are then weighted using the similarity of the vertices Fully connected graphs exp /2 ) Apprentissage Statistique - P. Gallinari 167 Graph Laplacians Unnormalized graph Laplacian Normalized graph Laplacians I symmetric interpretation : random walk on the graph Apprentissage Statistique - P. Gallinari 168 Properties of the unnormalized graph Laplacian L satisfies: ∀ ∈ , ∑, L is symmetric, positive semi-definite The smallest eigenvalue of L is 0, the corresponding eigenvector is 1 (vector with n 1) L has n non negative eigenvalues 0 Apprentissage Statistique - P. Gallinari … 169 Properties of the normalized graph Laplacians ∀ ∈ ∑, , Lsym and Lrw are positive semi-definite and have n non negative eigenvalues 0 … is an eigenvalue of Lrw with eigenvector u iff is an eigenvalue of Lsym with eigenvector D1/2u Apprentissage Statistique - P. Gallinari 170 Unnormalized spectral clustering Idée Projeter les points x ∈ , i 1 … n, dans un espace de dimension k dans lequel le clustering se fait facilement Apprentissage Statistique - P. Gallinari 171 Unnormalized spectral clustering Input: n points x1, …, xn, similarity matrix S Output: clusters Construct similarity graph and corresponding weight matrix W Compute unnormalized Laplacian L Compute first eigenvectors of L (corresponding to smallest eigenvalues): u1, …, uk U: n x k matrix with columns u1, …, uk For i = 1…n, ∈ i-th row of U Cluster yi, i = 1…n with k-means into clusters C1, …, Ck k clusters in the initial space: C’1, …, C’k / C’i = {xj / yj Ci} Note: Similar algorithms with normalized Laplacians Apprentissage Statistique - P. Gallinari 172 Apprentissage non supervisé Non Negative Matrix Factorization Apprentissage Statistique - P. Gallinari 173 Non Negative Matrix Factorization Idea Project data vectors in a latent space of dimension k < m size of the original space Axis in this latent space represent a new basis for data representation Each original data vector will be approximated as a linear combination of k basis vectors in this new space Data are assigned to the nearest axis This provide a clustering of the data Apprentissage Statistique - P. Gallinari 174 {x1,…, xn}, ∈ , 0 X m x n non negative matrix with columns the xi s Find non negative factors U, V, / With U an m x k matrix, U a k x n matrix, k < m, n U X mxn x mxk V kxn vv Apprentissage Statistique - P. Gallinari 175 , ∑ Columns ofU,uj arebasisvectors,the xi inthis basis arethecoefficientof Loss function Solve , Underconstraints , 0 Convex loss function inUandinV,butnotinboth UandV Apprentissage Statistique - P. Gallinari 176 Algorithm Constrained optimization problem Can be solved by a Lagrangian formulation Iterative multiplicative algorithm (Xu et al. 2003) U, V initialized at random values Iterate until convergence ← ← Or by projected gradient formulations The solution U, V is not unique, if U, V is solution, then UD, D-1V for D diagonal positive is also solution Apprentissage Statistique - P. Gallinari 177 Using NMF for Clustering Normalize U as a column stochastic matrix (each column vector is of norm 1) ← ← ∑ ∑ Under the constraint “U normalized” the solution U, V is unique Associate xi to cluster j if Apprentissage Statistique - P. Gallinari 178 Note many different versions and extensions of NMF Different loss functions e.g. different constraints on the decomposition Different algorithms Applications Clustering Recommendation Link prediction Etc Specific forms of NMF can be shown equivalent to PLSA Spectral clustering Apprentissage Statistique - P. Gallinari 179 Illustration (Lee & Seung 1999) Basis images for NMF Vector Quantization Principal Component Analysis Apprentissage Statistique - P. Gallinari 180 Apprentissage Semi supervisé Méthodes génératives et discriminantes Méthodes basées sur les graphes Problématique Cadre Problème de discrimination, i.e. on veut estimer P(C| x) pour toutes les classes C Motivation Apprendre à classifier des données en utilisant un faible nombre de données étiquetées et un grand nombre de données non étiquetées L’etiquetage coûte cher, les données non étiquetées sont souvent largement disponibles Utilisation Nombreux problèmes du web Ressources (temps, moyens humains etc) non disponibles pour construire des ensembles annotés Apprentissage Statistique - P. Gallinari 182 Méthodes Très nombreuses méthodes Self learning Méthodes génératives Méthodes discriminantes SVM, CEM Méthodes à base de graphes … Apprentissage Statistique - P. Gallinari 183 Apprentissage semi-supervisé Modèles génératifs Approche générale : Maximiser la vraisemblance jointe des données étiquetées et non étiquetées Utiliser un algorithme EM On en déduit P(C|x) pour tout x On regarde ici le cas à 2 classes Notations D = DLU DU DL : Labeled data DU : Unlabeled data C1 et C2 sont les deux classes considérées p1 et p2 sont les probabilités a priori des deux classes C1 et C2 Apprentissage Statistique - P. Gallinari 184 Apprentissage semi-supervisé Modèles génératifs Log Vraisemblance des données Vraisemblance des données étiquetées LM log p(x) xD LM log p(x) log p(x) xDL Vraisemblance des données non étiquetées. C’est un modèle de mélange xDU log p(x) log p(x, C ) log p(x, C ) xDL 1 xDL C1 2 xDL C2 2 log p(x) log( . p(x / C )) xDU xi Du Apprentissage Statistique - P. Gallinari k 1 k i k 185 Apprentissage semi-supervisé Modèles génératifs La vraisemblance totale s’écrit 2 LM log( k 1 xi C k Somme sur les données étiquetées k . p ( xi / Ck )) 2 log ( xi Du Somme sur les données non étiquetées k 1 k . p ( xi / Ck )) Modèle de mélange Important Les modèles pour les densités p(x| C) sont les mêmes pour les données supervisées et non supervisées C’est ce qui permet de capturer dans une même fonction nles informations supervisées et non supervisées Apprentissage Statistique - P. Gallinari 186 Apprentissage semi-supervisé Modèles dicriminants (Amini 2004) Au lieu de maximiser la vraisemblance, on va maximiser la vraisemblance classifiante (Symons et al. 71). But classifier les exemples en c groupes en prenant une décision “dure”. x Ck t k 1 et h k , t h 0 avec T=(t1,…,tc) le vecteur des indicateurs de classe: Vraisemblance classifiante vraisemblance des données complètes (donnée, classe) : c N LC ( C , , ) t ki . log( k . p ( x i / C k , k , k )) k 1 i 1 Apprentissage Statistique - P. Gallinari 187 8 Comparer avec la vraisemblance usuelle pour un mélange de densités : LC ( C , , ) N c 11 k 1 log t ki .( k . p ( x i Apprentissage Statistique - P. Gallinari / C k , k , k )) 188 Vraisemblance classifiante pour le cas semisupervisé Pour un classifieur discriminant maximiser LC est equivalent à maximiser c ~ LC (C , , ) c nm log( p(Ck / xi , k , k )) tki . log( p(Ck / xi , k , k )) k 1 xiCk k 1 i n 1 n étiquetés, m non étiquetés Algorithme : CEM Apprentissage Statistique - P. Gallinari 189 9 Mesures d’évaluation Caractéristique des ensembles de données Classification Text summarization Critère de performance Decision du système Precision = Pertinent PGC = + + + Non pertinent Apprentissage Statistique IJCAI’03 - P. Gallinari 190 Exemple : Email spam 82% 73% 65% 5% Apprentissage Statistique IJCAI’03 - P. Gallinari 191 Exemple : Résumé de texte Apprentissage Statistique IJCAI’03 - P. Gallinari 192 Apprentissage semi-supervisé Modèles de graphes Les modèles génératifs ou discriminants précédants ne prennent pas en compte la densité locale des données. Ils ne considèrent que la cohérence globale des données Vraisemblance Sans considérer la cohérence locale Voisinage des points, densité locale Cela peut conduire à des erreurs importantes si les densités ne sont pas bien séparées Plusieurs familles de modèles ont été proposées pour prendre en compte à la fois les cohérences globales et locales des données Parmi elles, les méthodes à base de graphes Apprentissage Statistique - P. Gallinari 193 Data consistency (Zhou et al. 2003) SSL rely on local (neighbors share the same label) and global (data structure) data consistency Fig. from Zhou et al. 2003 Apprentissage Statistique - P. Gallinari 194 Graph methods general idea Create a graph G = (V, E) Compute a similarity matrix W: Wij is the similarity between nodes i and j Propagate observed labels to unlabeled nodes Apprentissage Statistique - P. Gallinari 195 Example (Zhou et al 2003) Compute an affinity matrix W W : Wij exp( a normalized affinity matrix S 1 2 S D WD xi x j 2 2 2 ),Wii 0 1 2 D is a diagonal matrix whose ith element is the sum of ith row of W Iterate Y (t 1) S.Y (t ) (1 )Y (0) Converges to Y* final labels on unlabeled data Apprentissage Statistique Y(0) matrix of initial labels and 0 for unlabeled data - P. Gallinari 196 Iterations Fig. from Zhou et al. 2003 Apprentissage Statistique - P. Gallinari 197 Apprentissage en présence de données positives uniquement Problème Discrimination avec des étiquetages dans une seule classe -positifs- et en faible nombre Nombreuses instances dans la réalité Méthode pratique générale On considère que les exemples les plus éloignés des exemples étiquetés sont négatifs On applique un algorithme d’apprentissage semi-supervisé Apprentissage Statistique - P. Gallinari 198 Quelques liens utiles Livres Cornuéjols, A and Miclet L.: Apprentissage Artificiel. Concepts et algorithmes (2nd Ed.with revisions and additions - 2006 Eyrolles, 650 p Christopher M. Bishop, Pattern Recognition and Machine Learning, Springer (2006). David Barber, 2012, Bayesian Reasoning and Machine Learning, Cambridge Univ. Press. Software General Weka 3: Data Mining Software in Java http://www.cs.waikato.ac.nz/ml/weka/ http://lush.sourceforge.net) Lush (Leon Bottou) SVM http://www.csie.ntu.edu.tw/~cjlin/libsvm/ http://svmlight.joachims.org/ http://www.torch.ch/ Test sets UCI machine learning repository ….. Apprentissage Statistique - P. Gallinari 199