République Algérienne Démocratique et Populaire

Minisre de lEnseignement Supérieur et de la Recherche Scientifique
Université des Sciences et de la Technologie d’Oran Mohamed Boudiaf
Faculté des Mathématiques et Informatique

THESE
Présentée par
Mr Salim KHIAT
Pour l’obtention du diplôme de Doctorat en Sciences
Spécialité : Informatique
Option : Systèmes, Réseaux et Bases de données
Thème
Soutenue publiquement le :
Devant le jury :
Mr Djebbar Bachir
Professeur
Président
USTO-MB
Mme Belbachir hafida
Professeur
Rapporteur
USTO-MB
Mr Rahal Sid Ahmed
Maitre de Conférence-A
Co-Rapporteur
USTO-MB
Mr Alla Hassane
Professeur
Examinateur
Univ. Grenoble
Mr Beldjilali Bouziane
Professeur
Examinateur
Univ. Oran
Mr Amine Abdelmalek
Maître de Conférence-A
Examinateur
Univ. Saïda
Année universitaire : 2014/2015
LA FOUILLE MULTI-SOURCES DE DONNEES MULTI-NIVEAUX
Remerciements
Avant tout début  
tout donné la volonté, le courage et surtout la patience pour réaliser ce modeste
travail.
        ux, Systèmes et Données
(LSSD) et au sein de la société SONATRACH     
universitaire.
Je ne trouve pas de mots assez forts pour exprimer mon sentiment de
reconnaissance de profonde gratitude à Mme Belbachir Hafida, mon encadreur. Les
          
moments de doute, pour ne citer que ceux là, resteront à jamais gravés dans ma
mémoire.
Je tiens à remercier très chaleureusement M. Rahal Sidi Ahmed, mon co-encadreur,
ses et essentielles tout au long du chemin qui



    eur Beldjilali
Bouziane 


Que monsieur Amine Abdelmalek Maî     ïda,
           
examinateur.
Mes remerciements vont aussi à toute      
(MNT) AVAL de la société SONATRACH pour leur contribution dans
la partie application de ma thèse.
   parents pour leur soutien moral et
ma femme qui ma soutenu durant cette thèse.
... A tous ceux qui ont contribué de près ou de loin à l'aboutissement de ce travail
par leur confiance et leur soutien.
Cette thèse est dédiée à mes deux enfants Karima et Youcef.
Résumé
         
organisation est en passe de devenir un enjeu industriel important. En effet, la prise
de décisions fait partie des compétences des dirigeants des entreprises et de ceux

            
cond
Cependant dans le monde réel, la structure d'une société multi-branches est
habituellement plus complexe dont chaque branche peut également avoir des sous
branches, ce qui va donner    multi-niveaux. Pour
pouvoir explorer toutes ces données la fouille multi-bases de données multi-
niveaux, plus précisément la technique de la fouille de Rè 
     riches, utiles et potentiellement
inconnues qui peuvent aider les décideurs à différents niveaux à prendre des
décisions.
Le défi que tente de relever la fouille multi-sources de données dans une
organisation multi-niveaux est de pouvoir prendre en compte la totalité des
informations recueillie       
les centres de décisions qui constituent les unités taxinomiques élémentaires. Cela
        
sans perte .
Dans ce contexte nous abordons deux thèmes principaux qui sont ntégration des
       e des règles
         
          
formalisme 
et de façon flexible et sans perte de connaissances en utilisant les ontologies et les
schémas de règles avec les opérateurs. Les résultats expérimentaux montrent que
 osée     décideurs des différents
niveaux          
décisions, sans avoir besoin de recourir à une refouille des données. L
    nalyse des motifs locaux permet de réduire au
maximum la perte de connaissances. Les expérimentations effectuées sur une base
e cette approche.
Mots-clefs : La fouille multi-bases de données, Analyse des motifs locaux,
Schéma de règles multi-niveaux, R, Ontologie.
Abstract
The data exploitation collected from different branches of an organization is on the
way to become a significant industrial challenge. The decision making belongs to
the leaders of the companies and whose which exert a power in the company.
Many decisions are taken in the companies, not all have the same incidence but
they ensure the correct operation of the company and the performances carried out.
However in real world, the interstate company structure is usually more complex
where each branch can also have sub-branches and so onwhich gives birth to the
multi-levels organization.
The challenge is to be able to take part the totality of information collected from
several levels of organization for the decision making. That supposes to be able to
integrate information of different level of abstraction and synthesize them without
lossless with the same semantic category.
In this context, we address two main issues: the integration of the user knowledge
in the discovery process and the integration of the probabilistic model in the
synthesizing process. The first issue requires defining an adapted formalism to
express user lossless knowledge with accuracy and flexibility and such as ontology
and rule schema with operators. Results show that our approach can effectively
help decision making of Petroleum Company at different levels to make good
decision without lossless knowledge. Second, the integration of the probabilistic
model in the local patterns analysis reduces the knowledge lossless. Experiments
show the efficiency of our approach.
Keywords: Multi-databases mining, Local pattern analysis, Synthesizing pattern,
Rules schema multi-levels, Association rules, Ontology.
Table des matières
INTRODUCTION GENERALE
DE ............................................................................................ 1
2 MOTIVATIONS .............................................................................................................. 2
3 PROBLEMES IDENTIFIES ........................................................................................... 5
4 CONTRIBUTIONS ......................................................................................................... 6
5 ORGANISATION DE LA THESE ................................................................................. 7
CHAPITRE 1: VERS LA FOUILLE MULTI-BASES DE DONNEES
1 INTRODUCTION ........................................................................................................... 9
2 EXTRACTION DE CONNAISSANCES A PARTIR DES DONNEES (ECD)........... 10
3 EXTRACTION DE REG ........................................................ 12
3.1 PROCESSUS DEXTRACTION DE REGLES DASSOCIATION .............................................................. 13
3.1.1 Sélection et nettoyage des donnée ...................................................................................... 15
3.1.2 Recherche des itemsets fréquents ....................................................................................... 15
 .................................................................................. 16
3.1.4 Visualisation et interprétation ........................................................................................... 17
3.2 ALGORITHME GENERAL DE RECHERCHE DE REGLES DASSOCIATION ........................................... 18
3.3 ALGORITHME APRIORI ......................................................................................................... 19
3.3.1 Extraction des Itemsets fréquents ....................................................................................... 19
 ................................................................................... 21
3.4 LES LIMITES DE LA FOUILLE MONOBASE DE DONNEES .................................................................. 23
4 LA FOUILLE MULTI-BASES DE DONNEES ........................................................... 24
4.1 DEFINITION ................................................................................................................................ 24
4.2 APPLICATIONS ............................................................................................................................ 25
4.3 LE PROCESSUS DE LA FOUILLE MULTI-BASES DE DONNEES A DEUX NIVEAUX ................................ 25
4.3.1 Phase intra-site .................................................................................................................. 26
4.3.2 Phase inter-site .................................................................................................................. 27
5 CONCLUSION .............................................................................................................. 27
CHAPITRE 2: LES ALGORITHMES DE LA FOUILLE MULTI-BASES DE
DONNEES
1 INTRODUCTION ......................................................................................................... 29
2 LES CRITERES DE L .................................................................................... 29
3 LES ALGORITHMES ETUDIES ................................................................................. 30
3.1 SYNTHETISATION DES REGLES DE FREQUENCE ELEVEE A PARTIR DE PLUSIEURS SOURCES DE
DONNEES [XINDONG.W ET AL. 2003] ......................................................................................... 31
3.1.1 Méthode ............................................................................................................................ 31
3.1.2 Discussion ......................................................................................................................... 33
3.2 ALGORITHME MODIFIE POUR LA SYNTHETISATION DES REGLES DE FREQUENCE ELEVEE A PARTIR DE
SOURCES DE DONNEES DE TAILLES DIFFERENTES [RAMKUMAR.T ET AL. 2008] ............................ 33
3.2.1 Méthode ............................................................................................................................ 33
3.2.2 Discussion ......................................................................................................................... 35
3.3 EFFET DU FACTEUR DE CORRECTION DANS LA SYNTHETISATION DES REGLES GLOBALES
1 / 176 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !