L ’ APP RENTISS AGE DU RESE A U BA YESI EN N AÏF P OUR LA CLA SSI FI CA TI ON INTRODUCTION Les réseaux bayésiens s’appuient sur un théorème : Le théorème de Bayes. C’est un résultat de base en théorie des probabilités, issu des travaux du révérend Thomas Bayes (1702-1761), présenté à titre posthume en 1763. Voici ces résultats : Le terme P(A) est la probabilité a priori de A. Elle est « antérieure » au sens qu’elle précède toute information sur B. P(A) est aussi appelée la probabilité marginale de A. Le terme P(A|B) est appelée la probabilité a posteriori de A sachant B (ou encore de A sachant B). Elle est « postérieure », au sens qu’elle dépend directement de B. Le terme P(B|A), pour un B connu, est appelée la fonction de vraisemblance de A. De même, le terme P(B) est appelé la probabilité marginale ou a priori de B. Cependant, certains considèrent qu’il n'y a pas toujours de rapprochement entre un modèle de type "réseau bayésien" et la "statistique bayésienne". Le terme diagramme d'influence, plus général et dénué de connotation est donc parfois préféré à réseau bayésien. INFERENCE BAYESIENNE : L'inférence Bayésienne est une méthode d'inférence permettant de déduire la probabilité d'un événement à partir de celles d'autres événements déjà évalués. Elle s'appuie principalement sur le théorème de Bayes. -EVENEMENT : On considère une expérience (par exemple le jet d'un dé). L'ensemble de tous les résultats possibles est supposé fini et noté U (dans l'exemple, Ω = {1, 2, 3, 4, 5, 6}). Alors l’événement est l'ensemble de tous les résultats caractérisés par une même propriété lors d'une expérience. C’est une partie A de Ω. 1 LA PROBABILITE : Est la branche des mathématiques qui calcule la probabilité d'un événement, c'est-à-dire la fréquence d'un événement par rapport à l'ensemble des cas possibles. Considérons une expérience dont l’ensemble fondamental est Ω, On définit sur l’ensemble des événements une fonction qui à chaque événement associe un poids, appelé probabilité, compris entre 0 et 1 : plus le poids est proche de 0 moins l’événement risque de se réaliser, plus le poids est proche de 1 plus l’événement se réalisera souvent. THEOREME DE BAYES : Est une conséquence immédiate des probabilités conditionnelles et des probabilités totales. Formule de Bayes : On considère Le réseau bayésien suivant : Et Soit P(C/J=V, M=V) Une requête, Alors : X={C} : l’ensemble de variables pour lesquelles on fait une requête. E= {J, M} : l’ensemble des Variables d’observation. Y= {A, S} : l’ensemble des variables cachées. L’inférence : la requête P(X/e), où e est une assignation de valeurs aux variables dans E. Exemple : Inférence par énumération : Tel que : eϵE, yϵY et α est le facteur de normalisation. 2 P(X, e, y) s’écrire comme le produit des probabilités conditionnelles du réseau. On peut donc calculer la réponse à une requête P(X/e) dans un RB, simplement en : 1. Calculant les sommes des produits des probabilités conditionnelles du RB. 2. Normalisant ces sommes de façon à obtenir une distribution qui somme a 1. Exemple (Requête : P(C/J=V, M=V)) : RESEAU BAYESIEN DEFINITION Un réseau bayésien est un système représentant la connaissance et permettant de calculer des probabilités conditionnelles apportant des solutions à différentes sortes de problématiques. La structure de ce type de réseau est simple : un graphe dans lequel les noeuds représentent des variables aléatoires, et les arcs (le graphe est donc orienté) reliant ces dernières sont rattachées à des probabilités conditionnelles. Notons que le graphe est acyclique : il ne contient pas de boucle. Les arcs représentent des relations entre variables qui sont soit déterministes, soit probabilistes. Ainsi, l'observation d'une ou plusieurs causes n'entraîne pas systématiquement l'effet ou les effets qui en dépendent, mais modifie seulement la probabilité de les observer. 3 ESPACE DE RECHERCHE L’espace de recherche est relatif aux nombre de variables bien sûr, mais aussi au nombre d’arcs et de valeurs. Au pire des cas, cet espace peut mesurer 2nb variables, lorsque toutes les variables sont binaires. De plus, il augmente si les variables ont de multiples valeurs (exemple : une variable fumeur peut avoir en valeurs : non, léger, gros). Calcul de probabilités conjointes 4 Exemple : probabilité conjointe LA CLASSIFICATION NAÏVE BAYESIENNE : La classification naïve bayésienne (méthodes les plus simples en apprentissage supervisé -Découverte de règles ou formules pour affecter les données en fonction de ses caractéristiques X1, X2, …, Xn à des classes prédéfinies- ) est un type de classification Bayésienne probabiliste simple basée sur le théorème de Bayes avec une forte indépendance (dite naïve) des hypothèses. Elle met en œuvre un classifieur bayésien naïf, ou classifieur naïf de Bayes (Le terme naïf désigne ici le fait que les descripteurs sont conditionnellement indépendants. Ce qui en pratique n'est presque jamais vrai). Il est peu utilisé par les praticiens du data mining au détriment des méthodes traditionnelles que sont les arbres de décision ou les régressions logistiques. Un avantage de cette méthode est la simplicité de programmation, la facilité d'estimation des paramètres et sa rapidité (même sur de très grandes bases de données). Malgré ses avantages, son peu d'utilisation en pratique vient en partie du fait que ne disposant pas d'un modèle explicite simple (l'explication de probabilité conditionnelle à priori), l'intérêt pratique d'une telle technique et remise en question. LE CLASSIFIEUR NAÏF BAYESIEN : L'INDEPENDANCE CONDITIONNELLE On considère deux variables aléatoires X et Y. Et on essaye de prédire Y à partir de X. Imaginons par exemple que : Y = “Acheter” ou “ Ne pas acheter” X = “Cher” ou “ Moins cher” Acheter Ne pas acheter 5 Cher 50 60 Pas cher 120 90 La règle de Bayes indique que : \(P( Y = Acheter | X =cher ) =P( Y = Acheter et X = cher ) / P( X = cher)\) ou encore \[P( Y = Ne pas acheter | X = cher ) = P( Y = Ne pas acheter et X = cher )/ P( X = cher )\] La règle de décision sera de dire : Si la première probabilité est plus grande, alors l'achat sera effectué. Le classifieur naïf bayésien découle directement de cette formule. Ainsi donc, \(P( Y = Acheter | X =cher ) =P(X= cher et Y = Acheter ) * P( Y= Acheter) P( X = cher)\) Donc pour mettre en place un classifieur naïf de Bayes : On détermine un ensemble d'apprentissage On détermine des probabilités à priori de chaque classe (par exemple en observant les effectifs) On applique la règle de Bayes : \(P(y=c/X=x)= P(X=x/Y=c) * P(Y=c) /(PX=x)\) pour obtenir la probabilité à posteriori des classes au point x. On choisit la classe la plus probable. Et on a la formule de Bayes : \(P(Y=c)\) : La probabilité à priori \(P(X=x/Y=c)\) : La probabilité conditionnelle d'appartenance à la classe c, qui peut être interprété comme la vraisemblance de cette classe. 6