L`APPRENTISSAGE DU RESEAU BAYESIEN NAÏF POUR LA

publicité
L ’ APP RENTISS AGE DU RESE A U BA YESI EN N AÏF
P OUR LA CLA SSI FI CA TI ON
INTRODUCTION
Les réseaux bayésiens s’appuient sur un théorème : Le théorème de Bayes. C’est un résultat de base en
théorie des probabilités, issu des travaux du révérend Thomas Bayes (1702-1761), présenté à titre
posthume en 1763. Voici ces résultats :
Le terme P(A) est la probabilité a priori de A. Elle est « antérieure » au sens qu’elle précède toute
information sur B. P(A) est aussi appelée la probabilité marginale de A. Le terme P(A|B) est appelée la
probabilité a posteriori de A sachant B (ou encore de A sachant B). Elle est « postérieure », au sens qu’elle
dépend directement de B. Le terme P(B|A), pour un B connu, est appelée la fonction de vraisemblance de
A. De même, le terme P(B) est appelé la probabilité marginale ou a priori de B. Cependant, certains
considèrent qu’il n'y a pas toujours de rapprochement entre un modèle de type "réseau bayésien" et la
"statistique bayésienne". Le terme diagramme d'influence, plus général et dénué de connotation est
donc parfois préféré à réseau bayésien.
INFERENCE BAYESIENNE :
L'inférence Bayésienne est une méthode d'inférence permettant de déduire
la probabilité d'un événement à partir de celles d'autres événements déjà évalués. Elle s'appuie
principalement sur le théorème de Bayes.
-EVENEMENT :
On considère une expérience (par exemple le jet d'un dé). L'ensemble de tous les résultats possibles est
supposé fini et noté U (dans l'exemple, Ω = {1, 2, 3, 4, 5, 6}).
Alors l’événement est l'ensemble de tous les résultats caractérisés par une même propriété lors d'une
expérience. C’est une partie A de Ω.
1
LA PROBABILITE :
Est la branche des mathématiques qui calcule la probabilité d'un événement, c'est-à-dire la fréquence
d'un événement par rapport à l'ensemble des cas possibles.
Considérons une expérience dont l’ensemble fondamental est Ω, On définit sur l’ensemble des
événements une fonction qui à chaque événement associe un poids, appelé probabilité, compris entre 0
et 1 : plus le poids est proche de 0 moins l’événement risque de se réaliser, plus le poids est proche de 1
plus l’événement se réalisera souvent.
THEOREME DE BAYES :
Est une conséquence immédiate des probabilités conditionnelles et des probabilités totales.
Formule de Bayes :
 On considère Le réseau bayésien suivant :
Et Soit P(C/J=V, M=V) Une requête, Alors :
 X={C} : l’ensemble de variables pour lesquelles on fait une requête.
 E= {J, M} : l’ensemble des Variables d’observation.
 Y= {A, S} : l’ensemble des variables cachées.
 L’inférence : la requête P(X/e), où e est une assignation de valeurs aux
variables dans E.
Exemple : Inférence par énumération :
Tel que : eϵE, yϵY et α est le facteur de normalisation.
2
 P(X, e, y) s’écrire comme le produit des probabilités conditionnelles du réseau.
 On peut donc calculer la réponse à une requête P(X/e) dans un RB, simplement en :
1. Calculant les sommes des produits des probabilités conditionnelles du RB.
2. Normalisant ces sommes de façon à obtenir une distribution qui somme a 1.
Exemple (Requête : P(C/J=V, M=V)) :
RESEAU BAYESIEN
DEFINITION
Un réseau bayésien est un système représentant la connaissance et permettant de calculer des
probabilités conditionnelles apportant des solutions à différentes sortes de problématiques. La structure
de ce type de réseau est simple : un graphe dans lequel les noeuds représentent des variables aléatoires,
et les arcs (le graphe est donc orienté) reliant ces dernières sont rattachées à des probabilités
conditionnelles. Notons que le graphe est acyclique : il ne contient pas de boucle. Les arcs représentent
des relations entre variables qui sont soit déterministes, soit probabilistes. Ainsi, l'observation d'une ou
plusieurs causes n'entraîne pas systématiquement l'effet ou les effets qui en dépendent, mais modifie
seulement la probabilité de les observer.
3
ESPACE DE RECHERCHE
L’espace de recherche est relatif aux nombre de variables bien sûr, mais aussi au nombre d’arcs et de
valeurs. Au pire des cas, cet espace peut mesurer 2nb variables, lorsque toutes les variables sont binaires.
De plus, il augmente si les variables ont de multiples valeurs (exemple : une variable fumeur peut avoir en
valeurs : non, léger, gros).
Calcul de probabilités conjointes
4
Exemple : probabilité conjointe
LA CLASSIFICATION NAÏVE BAYESIENNE :
La classification naïve bayésienne (méthodes les plus simples en apprentissage supervisé -Découverte de
règles ou formules pour affecter les données en fonction de ses caractéristiques X1, X2, …, Xn à des
classes prédéfinies- ) est un type de classification Bayésienne probabiliste simple basée sur le théorème
de Bayes avec une forte indépendance (dite naïve) des hypothèses. Elle met en œuvre un classifieur
bayésien naïf, ou classifieur naïf de Bayes (Le terme naïf désigne ici le fait que les descripteurs sont
conditionnellement indépendants. Ce qui en pratique n'est presque jamais vrai).
Il est peu utilisé par les praticiens du data mining au détriment des méthodes traditionnelles que sont les
arbres de décision ou les régressions logistiques.
Un avantage de cette méthode est la simplicité de programmation, la facilité d'estimation des paramètres
et sa rapidité (même sur de très grandes bases de données). Malgré ses avantages, son peu d'utilisation
en pratique vient en partie du fait que ne disposant pas d'un modèle explicite simple (l'explication de
probabilité conditionnelle à priori), l'intérêt pratique d'une telle technique et remise en question.
LE CLASSIFIEUR NAÏF BAYESIEN : L'INDEPENDANCE CONDITIONNELLE
On considère deux variables aléatoires X et Y. Et on essaye de prédire Y à partir de X. Imaginons par
exemple que :
Y = “Acheter” ou “ Ne pas acheter” X = “Cher” ou “ Moins cher”
Acheter
Ne pas acheter
5
Cher
50
60
Pas cher
120
90
La règle de Bayes indique que :
\(P( Y = Acheter | X =cher ) =P( Y = Acheter et X = cher ) / P( X = cher)\) ou encore \[P( Y = Ne pas acheter |
X = cher ) = P( Y = Ne pas acheter et X = cher )/ P( X = cher )\]
La règle de décision sera de dire : Si la première probabilité est plus grande, alors l'achat sera effectué.
Le classifieur naïf bayésien découle directement de cette formule. Ainsi donc, \(P( Y = Acheter | X =cher )
=P(X= cher et Y = Acheter ) * P( Y= Acheter) P( X = cher)\)
Donc pour mettre en place un classifieur naïf de Bayes :




On détermine un ensemble d'apprentissage
On détermine des probabilités à priori de chaque classe (par exemple en observant les
effectifs)
On applique la règle de Bayes : \(P(y=c/X=x)= P(X=x/Y=c) * P(Y=c) /(PX=x)\) pour obtenir la
probabilité à posteriori des classes au point x.
On choisit la classe la plus probable.
Et on a la formule de Bayes :
\(P(Y=c)\) : La probabilité à priori
\(P(X=x/Y=c)\) : La probabilité conditionnelle d'appartenance à la classe c, qui peut être interprété comme
la vraisemblance de cette classe.
6
Téléchargement