Mais la fonction F(x,W*)ne minimise pas nécessairement
l’erreur en généralisation qui est définie par :
On suppose que :
• Les données sont des réalisations d’un vecteur aléatoire Xdans Rn qui est
défini par la densité de probabilité p(x).
•A chaque observation xest associée un vecteur Ydans Rpqui se réalise
suivant la densité de probabilité conditionnelle p(y/x).
• L’apprentissage consiste à ajuster les paramètres W, pour une famille de
fonctions F(x,W)
w, en minimisant l’erreur d’apprentissage calculée sur
un ensemble de Nexemples : D = (x1, y1), (x2, y2), …, (xN, yN)
N
iiiD WxFy
N
WE 1
2
,
1
)(
dxdyxypxpWxFyWEgene 2
,)(
Définition