Rapport_de_recherche_p1

publicité
Université Sidi Mohamed Ben Abdellah
Faculté des Science et Techniques
Fès
Rapport de recherche
Encadré par :
Pr : A.MAJDA
TADMSIR15
SOMMAIRE :
Introduction ...................................................................................................................................................................... 2
Inférence dans les réseaux bayésiens .............................................................................................................................. 2
Définition de l’inférence ................................................................................................................................................ 2
Inférence dans les réseaux bayésiens ............................................................................................................................ 2
Théorème de bayes........................................................................................................................................................ 2
Apprentissage des réseaux bayésiens .............................................................................................................................. 4
Apprentissage des paramètres ...................................................................................................................................... 4
Apprentissage de la structure ........................................................................................................................................ 5
Le classifieur bayésien naïf ............................................................................................................................................... 5
Définition de La classification naïve bayésienne ........................................................................................................... 5
Avantages et inconvénients ........................................................................................................................................... 6
Conclusion ......................................................................................................................................................................... 6
Références ......................................................................................................................................................................... 7
1
Introduction :
Les réseaux bayésiens sont des outils puissants pour le raisonnement et la décision sous incertitude. Une
forme très simplifiée de ces réseaux est appelée réseaux bayésiens naïfs, qui disposent d’un mécanisme
d’inférence particulièrement efficace. Et parmi les simplifications de ces réseaux l’utilisation de classificateur
bayésien naïf.
Inférence dans les réseaux bayésiens:
Définition de l'inférence:
L’inférence est l’acte où le processus de tirer des conclusions logiques de locaux connus où supposés être
vraie.
Inférence dans les réseaux bayésiens:
L'inférence dans un réseau bayésien est le calcul des probabilités a posteriori dans le réseau, étant donné
des nouvelles informations observées. Il s'agit d'un problème de calcul car, grâce aux opérations sur les
probabilités et au théorème de Bayes, toutes les probabilités a posteriori possibles dans un réseau peuvent
être calculées. Ainsi, étant donné un ensemble d'évidences (de variables instanciées) Y, le problème de
l'inférence dans G=(V, E) est de calculer P(X | Y) avec X est inclus dans V, et Y est inclus dans V. Si Y est vide
(aucune évidence), cela revient à calculer P(X). Intuitivement, il s'agit de répondre à une question de
probabilité sur le réseau.
Théorème de Bayes :
C’est un résultat de base en théorie des probabilités, issu des travaux du révérend
Thomas Bayes (1702-1761), présenté à titre posthume en 1763. Voici ces résultats :
P(A)
: désigne la probabilité à priori de A
P(A|B) : désigne la probabilité a posteriori de A sachant B (ou encore de A sous condition B)
P(A∩ 𝐵) : désigne la probabilité que A et B aient tous les deux lieu.
Le théorème de Bayes permet d'inverser les probabilités. C'est-à-dire que si l'on connaît les conséquences
d'une cause, l'observation des effets permet de remonter aux causes, c'est l'effet d'induction « bottom-up ».
Sachant aussi qu'une lecture littéral du théorème de Bayes permet une induction « top-down », c'est à dire à
partir des causes en déduire les conséquences.
Deux grandes catégories d'algorithmes d'inférence viennent naturellement :
 Algorithmes exacts
 Bucket Elimination
 Message Passing (Pearl 88) pour les arbres
 Junction tree(Jensen 90)
 Algorithmes approchés
 Echantillonnage :Markov Chain Monte Carlo

Méthodes variationnelles
2
Message Passing

Chaque nœud envoie des messages à ses voisins

L’algorithme ne marche que dans le cas des arbres (généralisé au cas des poly-arbres)
Junction Tree

Message Passing ne s’applique bien qu’aux arbres

Besoin d’un algorithme plus général
 Principe :

Transformer le graphe en un arbre (non orienté)...
 Arbre = arbre de jonction des cliques maximales du graphe moralisé et triangulé
Moralisation = marier les parents et "désorienter" le graphe
Triangulation = éviter les cycles dans le graphe non orienté.
 Moralisation : marier les parents de chaque nœud

Triangulation : tout cycle de longueur au moins 4 doit contenir une corde (arête reliant deux sommets
non consécutifs sur le cycle).
 aucun sous-graphe cyclique de longueur > 3

Triangulation optimale pour des graphes non-dirigés = NP-difficile

Clique = sous-graphe du RB dont les nœuds sont complétement connectés

Clique maximale = l’ajout d’un autre nœud à cette clique ne donne pas une clique.
Théorème :
Si le graphe est moralisé et triangulé, alors les cliques peuvent être organisées en un arbre de jonction.
3
L’inférence se fait au niveau de
Apprentissage des réseaux bayésiens
Un réseau bayésien est constitué à la fois d’un graphe (aspect qualitatif) et d’un ensemble de probabilités
conditionnelles (aspect quantitatif). L’apprentissage d’un réseau bayésien doit donc répondre aux deux
questions suivantes :
• Comment estimer les lois de probabilités conditionnelles ?
• Comment trouver la structure du réseau bayésien ?
Nous allons donc séparer le problème de l’apprentissage en deux parties :
 L’apprentissage des paramètres : où nous supposerons que la structure du réseau a été
fixée, et où il faudra estimer les probabilités conditionnelles de chaque nœud du réseau.
 L’apprentissage de la structure : où le but est de trouver le meilleur graphe représentant la
tâche à résoudre.
Apprentissage des paramètres
 À partir de données complètes :
Nous cherchons ici à estimer les distributions de probabilités (ou les paramètres des lois correspondantes) à partir de
données disponibles! Nous décrirons ici les méthodes les plus utilisées dans le cadre des réseaux bayésiens, selon que
les données à notre disposition sont complètes ou non.
Dans le cas où toutes les variables sont observées, la méthode la plus simple et la plus utilisée est l'estimation
statistique qui consiste à estimer la probabilité d'un événement par la fréquence d'apparition de l'événement dans la
base de données. Cette approche, appelée maximum de vraisemblance (MV), nous donne alors :
Dans la formule précédente Ni,j,k est le nombre d'événements dans la base de données pour lesquels la variable Xi est dans l'état xk
et ses parents sont dans la configuration cj.

À partir de données incomplètes :
Dans les applications pratiques, les bases de données sont très souvent incomplètes. Certaines variables ne sont observées que
partiellement ou même jamais. La méthode d'estimation de paramètres avec des données incomplètes la plus couramment utilisée
est fondée sur l'algorithme itératif EM (Expectation Maximisation) proposé par Dempster.
Soit :
: N l'ensemble des données observées (visibles).
4
: les paramètres du réseau bayésien à l'itération t.
L'algorithme EM s'applique à la recherche des paramètres en répétant jusqu'à convergence les deux étapes Espérance et
Maximisation décrites ci-dessous : • Espérance : estimation des Ni,j,k manquants en calculant leur moyenne
conditionnellement aux données et aux paramètres courants du réseau.
Cette étape revient à réaliser une série d'inférences (exactes ou approchées) en utilisant les paramètres courants du réseau,
puis à remplacer les valeurs manquantes par les probabilités obtenues par inférence.
• Maximisation : en remplaçant les Ni,j,k manquants par leur valeur moyenne calculée précédemment, il devient possible
de calculer de nouveaux paramètres θ (t+1) par maximum de vraisemblance =>
Apprentissage de la structure :
Une première approche consiste à rechercher les différentes relations causales qui existent entre les variables. Les
autres approches essaient de quantifier l'adéquation d'un réseau bayésien au problème à résoudre, c'est-à-dire d'associer
un score à chaque réseau bayésien. Puis elles recherchent la structure qui donnera le meilleur score dans l'espace des
graphes acycliques dirigés.
 Algorithmes basés sur un score :
Pour que ces approches à base de score soient réalisables en pratique, nous verrons que le score doit être
décomposable localement, c'est-à-dire s'exprimer comme la somme de scores locaux au niveau de chaque nœud. Se
pose aussi le problème de parcours de l'espace B des réseaux bayésiens à la recherche de la meilleure structure.
Comme une recherche exhaustive est impossible à effectuer, les algorithmes proposés travaillent sur un espace réduit
(espace des arbres, ordonnancement des nœuds) ou effectuent une recherche gloutonne dans cet espace.
Le classifieur bayésien naïf :
Définition de la classification naïve bayésienne :
La classification naïve bayésienne est un type de classification Bayésienne probabiliste simple basée sur
le théorème de Bayes avec une forte indépendance (dite naïve) des hypothèses. Elle met en œuvre un classifieur
bayésien naïf, ou classifieur naïf de Bayes. En termes simples, un classifieur bayésien naïf suppose que l'existence
d'une caractéristique pour une classe, est indépendante de l'existence d'autres caractéristiques.
Quelque utilisation de la classification bayésienne naïve :

Classification bayésienne naïve des textes :
La classification bayésienne est utilisée comme une méthode d’apprentissage probabiliste. Les classificateur
bayésiens naïfs sont parmi les meilleurs algorithmes implémentés pour l’apprentissage de la classification des
documents texte.
5

Filtrage de Spam :
Le classificateur bayésien naïf est connu aussi par sa vaste utilisation dans le domaine de la
détection des spam. Aujourd’hui tous les programmes modernes comme DSPAM,
SPAMASSASIN, SpamBayes, Bogofilter, ASSP utilisent les techniques de la classification bayésienne.
Types de classifieurs :


Classifieurs qui utilisent directement les exemples pour prédire la classe d’une donnée.
Classifieurs pour lesquels on a d’abords construit un modèle et ensuite on utilise ce modèle pour
effectuer leurs classification/prédiction
Avantages et inconvénients :
>> Simplicité, rapidité de calcul, capacité à traiter de très grandes bases (lignes , colonnes) (aucun
risque de « plantage », cf. la régression logistique ou l’ADL)
>> C’est un modèle linéaire même niveau de performances (cf. les nombreuses expérimentations
dans les publications scientifiques)
>> Incrémentalité (table des probas conditionnelles à maintenir)
>> Robustesse (performant même si hypothèse non-respectée)
>>Pas de sélection (mise en évidence) des variables pertinentes.
>> Nombre de règles égal au nombre de combinaisons de descripteurs (dans la pratique, les règles ne
sont pas formées, nous conservons les probas conditionnelles que nous appliquons pour chaque
individu à classer ;
>> Pas de modèle explicite (sûr, sûr ?) Très utilisé en recherche, peu en marketing.
Conclusion :
La plupart des algorithmes développés pour l’inférence et l’apprentissage dans les réseaux bayésiens, aussi bien que
les outils disponibles sur le marché pour mettre en œuvre ces algorithmes utilisent des variables discrètes. En effet,
les algorithmes d’inférence sont essentiellement fondés sur une algèbre de tables de probabilités. De même, les
algorithmes d’apprentissage modélisent en général les distributions de probabilités discrètes. Même s’il est
théoriquement possible de généraliser les techniques développées aux variables continues, il semble que la
communauté de recherche travaillant sur les réseaux bayésiens n’a pas encore vraiment intégré ces problèmes.
6
Réferences:
-https://fr.scribd.com/doc/117299832/Reseaux-bayesiens#scribd
-http://software.ucv.ro/~cmihaescu/ro/teaching/AIR/docs/Lab4-NaiveBayes.pdf
-http://www.theses.fr/s121647
-http://www.dmi.usherb.ca/~larocheh/university_fr.html
-http://eric.univ-lyon2.fr/~ricco/cours/slides/naive_bayes_classifier.pdf
-http://www.ifi.vnu.edu.vn/site_data/rapports/tpe-promo10/tipe-nguyen_trung_thanh.pdf
-https://www.lri.fr/~aze/enseignements/polytechParisSud/apprentissage/docs/bayes-naif.pdf
-http://ofrancois.tuxfamily.org/Docs/EGC05.pdf
7
Téléchargement