SY19 Apprentissage supervisé et théorie de la décision

Téléchargement

SY19

Apprentissage supervisé et théorie de la décision

T. Denœux

1 Introduction

Dans beaucoup d’applications, chaque individu d’une population (objet, en-

tité, état d’un système) peut être décrit par pvariables explicatives (entrées)

x1, . . . , xpet une variable explicative (sortie) y. Le problème considéré consiste

alors à prédire la valeur de yà partir du vecteur xdes pvariables explicatives

x1, . . . , xp. Lorsque la variable yest quantitative, on dit que l’on a un problème

de régression. Dans le où yest une qualitative à cmodalités, on a un problème

de discrimination en cclasses.

Pour résoudre un problème de régression ou de discrimination, il faut dis-

poser d’un ensemble d’apprentissage L={(x1, y1),...,(xn, yn)}composé des

observations des variables xet ypour nindividus de la population considérée.

Les données peuvent être disposées dans un tableau de la forme suivante :







x11 . . . x1py1

x21 . . . x2py2

xi1. . . xip yi

xn1. . . xnp yn







L’apprentissage supervisé consiste à trouver à partir de Lune fonction de

décision g:X → Y,Xet Yétant les domaines respectifs de xet de y, telle que

g(x)≈ypour tout couple (x, y)∈ X × Y (problème 1).

Une façon de résoudre ce problème est de trouver gtelle que g(xi)≈yipour

tout i∈ {1, . . . , n}(problème 2). Cependant, cette méthode a ses limites, car

une fonction gsolution exacte du problème 2 n’est pas forcément une solution

du problème 1. Il faut imposer une contrainte de “régularité” à la solution du

problème 2 pour espérer qu’elle soit une bonne solution du problème 1.

2 Formalisation

On peut formaliser le problème d’apprentissage supervisé de la manière sui-

vante :

– Un générateur Gtire au hasard des entrées xselon une loi de probabilité

f(x), constante mais inconnue.

– Un superviseur Stire pour chaque xune sortie yselon une loi de proba-

bilité conditionnelle f(y|x), également constante mais inconnue.

– Une machine Mfournit pour chaque xune décision d=g(x)à valeurs

dans un ensemble D, ce qui engendre un coût L(d, y).

Chaque couple (x, y)est donc une réalisation d’un couple de variables aléa-

toires (X, Y ), de loi jointe f(x, y) = f(x)f(y|x). On appelle risque conditionnel

de la fonction gsachant X=xﬁxé l’espérance conditionnelle du coût :

R(g|x) = EY[L(g(x), Y )|x].

Le risque moyen de gest

R(g) = EX,Y [L(g(X), Y )] = EX[R(g|X)] .

La fonction de décision optimale g∗est celle qui minimise le risque, pour

f(x),f(y|x)et Ldonnés.

3 Fonctions de décision optimales

3.1 Coût quadratique

Considérons tout d’abord un problème de régression : Y ⊆ R, et supposons

D=Y. Soit la fonction de coût suivante (coût quadratique) :

L(d, y) = (y−d)2.

On a

R(g|x) = EY2−2Y g(x) + g(x)2|x

= Var(Y|x)+(E(Y|x)−g(x))2.

Toute fonction gtelle que g(x) = E(Y|x)minimise donc le risque conditionnel

sachant x. Par conséquent, la fonction g∗optimale pour ce problème est la

fonction de régression, déﬁnie par

g∗(x) = E(Y|x).

Supposons maintenant que l’on ait un problème de discrimination à deux

classes, avec Y={0,1}et D= [0,1]. La fonction de décision optimale pour la

fonction de coût quadratique est alors

g∗(x) = E(Y|x) = P(Y= 1|x).

Dans ce cas, la décision optimale pour une entrée xest donc la probabilité a

posteriori de la classe 1 sachant X=x.

3.2 Coûts 0/1

Restons dans le cadre de la discrimination à deux classes, et supposons main-

tenant que l’espace des décisions est D={0,1}. La fonction de coût quadratique

précédente se réduit à

L(d, y) = 0si d=y,

1si d6=y

et le risque conditionnel s’écrit

R(g|x) = L(g(x),0)P(Y= 0|x) + L(g(x),1)P(Y= 1|x)

=P(Y= 1|x)si g(x)=0,

P(Y= 0|x)si g(x)=1.

On voit que le risque conditionnel n’est autre dans ce cas que la probabilité

d’erreur sachant x. Pour xﬁxé, le risque est minimisé pour g∗(x)déﬁni par :

g∗(x) = 0si P(Y= 0|x)≥P(Y= 1|x),

1sinon.

La fonction de décision g∗minimisant le risque (c’est-à-dire, dans ce cas, la

probabilité d’erreur), consiste donc à choisir la classe de plus grande probabilité

a posteriori. Cette règle est appelée règle de Bayes minimisant la probabilité

d’erreur. Cette règle peut également s’exprimer à l’aide du rapport de vrai-

semblance f0(x)/f1(x),fk(x)désignant la densité conditionnelle de xsachant

Y=k,k∈ {0,1}. En eﬀet, en notant πk=P(Y=k), on peut écrire :

g∗(x) = 0 ⇔P(Y= 0|x)>P(Y= 1|x)

⇔f0(x)π0

f(x)>f1(x)π1

f(x)

⇔f0(x)

f1(x)>π1

π0

Le risque de la règle de Bayes, appelé dans ce cas probabilité d’erreur de Bayes,

est égal à :

R(g∗) = ZR(g∗|x)f(x)dx

=Zmin (P(Y= 0|x),P(Y= 1|x)) f(x)dx

=Zmin (f0(x)π0, f1(x)π1)dx.

3.3 Discrimination avec coûts quelconques

Généralisons maintenant le cadre précédent, en supposant que la fonction de

coût est déﬁnie par la matrice suivante :

d/y 0 1

0L00 L01

1L10 L11

Dans ce cas, la règle décision optimale s’écrit :

g∗(x)=0 ⇔L00P(Y= 0|x) + L01P(Y= 1|x)< L10P(Y= 0|x) + L11 P(Y= 1|x)

⇔(L00 −L10)f0(x)π0

f(x)<(L11 −L01)f1(x)π1

f(x)

⇔f0(x)

f1(x)>L01 −L11

L10 −L00

π1

π0

3.4 Discrimination avec rejet

Supposons maintenant que l’espace de décision soit D={0,1,−1}, où -1

s’interprète comme une décision de rejet, qui correspond à une hésitation entre

les deux classes. Supposons que la fonction de coût soit déﬁnie par la matrice

suivante : d/y 0 1

0 0 1

1 1 0

−1L0L0

Le coût est donc supposé nul en cas de bonne décision, égal à 1 en cas d’erreur,

et égal à une valeur constante L0∈[0,1] en cas de rejet. La fonction de décision

optimale s’écrit

g∗(x) = 





0si P(Y= 0|x)≥P(Y= 1|x)et P(Y= 0|x)≥1−L0,

1si P(Y= 1|x)≥P(Y= 0|x)et P(Y= 1|x)≥1−L0,

−1sinon.

Soit R∗

r={x∈ X |g∗(x) = −1}la région de rejet. La probabilité d’erreur

conditionnelle associée à la fonction de la fonction de décision g∗est

(g∗|x) = (0si x∈ R∗

min(P(Y= 0|x),P(Y= 1|x)) si x∈ R∗

La probabilité d’erreur s’écrit donc :

(g∗) = ZR∗

min (π0f0(x), π1f1(x)) dx,

la probabilité de rejet étant

pr(g∗) = ZR∗

f(x)dx.

L’introduction de l’option de rejet permet donc de réduire la probabilité d’erreur.

1 / 4 100%

Documents connexes

Enoncé - Probabilités - e1045 Quatre amateurs d`astrologie se

3 - stgcfe.fr

Correction Fiche TP 12 On lance deux dés à quatre faces et on

Densité de probabilité

Les indispensables en lois de probabilités continues Densité La

02692Q - 16ouplus

Probabilité conditionnelle P(AnB) Règle L: La somme des

UNIFR – département de mathématiques 22 Mars 2017

exercice

L2 Probabilités - Formulaire 3 VA à une dimension

Score de Wells

DM7b_2015_2016_1S1 Ex1. La probabilité pour qu`un français soit

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

SY19 Apprentissage supervisé et théorie de la décision

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

SY19 Apprentissage supervisé et théorie de la décision

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib