livre 20 décembre 2014 11:28 Page viii
Apprentissage machine, de la théorie à la pratique
C
Algorithmes d’optimisation convexe sans contrainte ...................... 37
2.1 Algorithme du gradient .......................... 41
2.1.1 Mode batch ............................... 41
2.1.2 Mode en-ligne ............................. 43
2.2 Méthode de quasi-Newton ........................ 45
2.2.1 Direction de Newton .......................... 45
2.2.2 Formule de Broyden-Fletcher-Goldfarb-Shanno ............. 46
2.3 Recherche linéaire ............................. 50
2.3.1 Conditions de Wolfe ........................... 50
2.3.2 Algorithme de recherche linéaire basé sur une stratégie de retour en arrière .56
2.4 Méthode du gradient conjugué ...................... 57
2.4.1 Directions conjuguées .......................... 58
2.4.2 Algorithme du gradient conjugué ..................... 60
C
Classification bi-classes ........................................................... 63
3.1 Perceptron ................................. 64
3.1.1 éorème de convergence du perceptron ................. 67
3.1.2 Perceptron à marge et lien avec le principe MRE ............. 69
3.2 Adaline ................................... 71
3.2.1 Lien avec la régression linéaire et le principe MRE ............ 71
3.3 Régression logistique ........................... 73
3.3.1 Lien avec le principe MRE ........................ 74
3.4 Séparateurs à vaste marge ......................... 76
3.4.1 Marge dure ............................... 76
3.4.2 Marge souple .............................. 82
3.4.3 Borne de généralisation à base de marge ................. 84
3.5 Adaboost .................................. 88
3.5.1 Lien avec le principe MRE ........................ 90
3.5.2 Échantillonnage par rejet ......................... 92
3.5.3 Étude théorique ............................. 93
C
Classification multi-classes ....................................................... 99
4.1 Formalisme ................................ 100
4.1.1 Erreurs de classification ......................... 100
4.1.2 Borne sur l’erreur de généralisation .................... 101
4.2 Approches pures ou non agrégées ..................... 104
4.2.1 Séparateurs à vaste marge multi-classes .................. 105
4.2.2 AdaBoost multi-classes ......................... 110
4.2.3 Perceptron multi-couches ........................ 113
4.3 Modèles combinés à base des algorithmes binaires ............ 118
viii