doc num

U.S.T.O − 2010

République Algérienne Démocratique et Populaire

Ministère de l’Enseignement Supérieur et de la Recherche Scientifique

Université des Sciences et de la Technologie d’Oran



Mohamed Boudiaf



Faculté des Sciences

Département d’Informatique

MEMOIRE EN VUE DE L’OBTENTION DU DIPLÔME DE

MAGISTER

Spécialité : Informatique

Option : Systèmes, Réseaux et Bases de Données

Présenté par : Mr Sadek Reguieg Yssaad

EXTRACTION DE MOTIFS SÉQUENTIELS :

Application à la Maintenance Industrielle

AVAL / SONATRACH

Soutenu le 21 / 05 / 2010 devant le jury composé de :

Président :

Rapporteur :

Examinatrice :

Examinateur :

Invitée :

Mr Bachir Djebbar

Mr Sid Ahmed Rahal

Mme Lynda Zaoui

Mr Belhadri Messabih

Melle Djamila Mokadem

Professeur à l’USTO

Maître de conférences à l’USTO

Maître assistant à l’USTO

« Ne restez pas indéfiniment sur la route qui ne mène qu’à

des endroits connus, abandonnez parfois les sentiers battus et

entrez dans la forêt, vous découvrirez certainement quelque

chose que vous n’avez jamais vu, bien sur ce ne sera qu’une

petite chose, mais prêtez y attention, suivez la, explorer la,

une découverte en amènera une autre, et avant même de vous

rendre compte, vous aurez mis à jour une idée intéressante »

Alexander Graham Bell

Remerciements

Je remercie tout d’abord dieu le tout puissant pour la patience, le courage et la volonté qu’il

m’a donné pour commencer, réaliser, et arriver à bout de ce travail.

Cette thèse a été réalisée au sein du laboratoire



Systèmes, Réseaux et Bases de Données



au

niveau du département d’informatique de l’Université des Sciences et de la Technologie

d’Oran



U.S.T.O − Mohamed Boudiaf



en collaboration avec l’entreprise nationale

AVAL/SONATRACH. Je tiens à remercier toutes les personnes qui ont contribué de manière

directe ou indirecte, de loin ou de près, à l’aboutissement de ce travail.

En premier lieu, je remercie profondément Madame Hafida Belbachir qui m’a accueilli à bras

ouverts dans son laboratoire. Ceci m’a beaucoup aidé à initier ce travail dans les meilleures

conditions. J’ai apprécié sa disponibilité, son enthousiasme, et sa gentillesse.

Je remercie tout particulièrement Monsieur Sid Ahmed Rahal d’avoir accepté d’être

l’encadreur et le rapporteur de ce travail. Je tiens à le remercier profondément pour son

soutient à des moments difficiles et l’attention particulière avec laquelle il a lu et évalué ce

mémoire ainsi que pour toutes les remarques constructives qu’il n’a hésité à très gentiment

m’adresser. Elles ont été pour moi d’extrême valeur scientifique et morale enrichissante.

Je remercie profondément Monsieur le professeur Bachir Djebbar d’avoir honoré d’accepter

de juger mon travail. J’exprime également mes remerciements spéciaux et grand respect à

Madame Lynda Zaoui ainsi qu’à Monsieur Belhadri Messabih qui ont accepté d’être membres

particulièrement importants du jury. Je tiens aussi à remercier Melle Djamila Mokadem pour

avoir aimablement accepté l’invitation de ce jury.

Une partie de mes travaux sur la base de données GMAO (Gestion de la Maintenance Assistée

par Ordinateur) du système d’information intégré AVL/SH n’aurait pas pu aboutir sans une

collaboration avec mon collègue d’université Monsieur Salim Khiat, qu’il retrouve ici

l’expression de toute mon amitié et grande considération.

Je n’oublierai jamais d’exprimer mes remerciements à Monsieur Kamel Belkadi qui m’a

soutenu à plusieurs reprises par ses petits conseils très ciblés.

Un grand MERCI à toutes mes enseignantes et enseignants de notre post-graduation



Systèmes, Réseaux et Bases de Données



. Ils ont vraiment tenu à nous encadrer avec les

meilleurs de leurs expériences. Ils nous ont transmis la volonté de continuer sur le chemin de

la recherche. Qu’ils retrouvent ici l’expression de ma reconnaissance éternelle.

Je n’oublierais pas de remercier et saluer mes collègues de ma promotion : Mustapha Ali

Hassoune, Zouaoui Guellil, Amel Turki, Karima et Sabria Hadj Tayeb, et Mohamed Moussa,

pour leur coopération, bonne humeur de tous les jours, et soutient illimités.

Ces remerciements ne seraient pas complets si je ne citais pas le département d’informatique

de l’université USTO qui m’a permis de réaliser mon rêve de continuer mes études, sans

oublier l’institut d’informatique de Sidi Bel Abbès et tous ses enseignants inoubliables, plus

particulièrement, Monsieur Mustapha Tounsi et Monsieur Mimoun Malki.

Enfin, je remercie mes parents, ma grande famille et ma femme pour tous ce qu’ils ont enduré

pour moi pendant cette période, et je dédie cette thèse à mes trois enfants : Feriel (5 ans),

Amel (2 ans) et Mohamed Abdelkader (6 mois) et à un frère très cher pour moi.

Sadek Reguieg Yssaad

Résumé

De nombreux travaux se sont intéressés ces dernières années à l’extraction à partir du sous-

système GMAO relatif à la fonction de maintenance industrielle au niveau de l’activité

AVAL−SONATRACH, de motifs représentant les pannes qui vont fréquemment ensemble. Ceci a

été de grande utilité dans l’optimisation de cette tâche, seulement, ne permettait pas de définir un

délai d’action ou un ordre temporel sur les pannes découvertes. Cette thèse se situe dans ce

nouveau cadre où nous proposons d’enrichir le processus de la maintenance par l’intégration de la

technique des motifs séquentiels. Dans cette technique, l’extraction des connaissances se fait en

recherchant des enchaînements appelés séquences de pannes fréquentes. L’objectif est alors de

trouver toutes les séquences apparaissant avec une certaine certitude afin d’anticiper des types de

pannes particulières, de réduire les temps d’arrêts souvent très coûteux et de sauver des vies

humaines dans le cas extrême. Dans l’ensemble des travaux relatifs existants, les algorithmes sont

de deux principales approches selon leur exploration (en largeur ou en profondeur) de l’espace

recherche. Une sélection de ces algorithmes est présentée dans ce mémoire tout en complétant

chaque description de méthode par une discussion à base de critères que nous avons défini à cet

effet. Nous aboutissons à une étude comparative approfondie qui constitue notre contribution

analytique dans ce domaine. Quant à l’extraction de séquences de pannes fréquentes, nous

proposons une nouvelle solution appelée PSBI (Prefix tree for Sequential pattern mining using

BItmap representation) s’inscrivant comme une extension d’une méthode existante à la

considération de contraintes temporelles sur les motifs extraits tout en réduisant le nombre de

parcours de la base de données avec une utilisation raisonnable de l’espace mémoire. Une

démarche expérimentale est menée en fin de cette étude pour aboutir à des résultats intéressants et

exploitables dans le domaine de la maintenance industrielle.

Mots Clés : Base de données temporelle, Seuil de support minimum, Contraintes temporelles,

Séquence fréquente maximale, Motifs séquentiels, Recherche en largeur, Recherche en profondeur,

Optimisation, Maintenance industrielle anticipée.

Abstract

Many studies have focused in recent years to extract from the sub-information system GMAO for

the industrial maintenance function at the level of the AVAL−SONATRACH activity, patterns

representing failures that frequently go together. This has been very useful in optimizing this task,

but, did not define action delay or a temporal order on the discovered failures. This thesis is in this

new framework, where we propose to enrich the maintenance process by integration of the

sequential patterns technique. In this technique, the knowledge extraction is done by searching for

frequent failure sequences. The purpose is then to find all sequences appearing with some certainty

to anticipate specific types of failures, reduce downtimes often very expensive and to save human

lives in the extreme case. In all of the relative existing works, algorithms are from two main

approaches in their exploration (Width−first or Depth−first) of the research space. A selection of

these algorithms is then presented in this paper while complementing each description with a

discussion based on criteria that we defined for this purpose. We arrive at a depth comparative

study which constitutes our analytical contribution in this field. As for mining frequent failure

sequences, we propose a new solution called PSBI (Prefix tree for Sequential pattern mining using

BItmap representation) registering as an extension of an existing method to the consideration of

time constraints on the extracted patterns while reducing the number of scans of the database with a

reasonable cost of memory consumption. An experimental demarche was conducted lead to

interesting results in the industrial maintenance field.

Keywords : Temporal database, Minimum support threshold, Temporal constraints, Maximal

frequent sequence, Sequential patterns, Breadth-first research, Depth-first research, Optimization,

Anticipated industrial maintenance.

Sommaire

Introduction générale

1. FOUILLE DE DONN ÉES ET MOTIFS SÉQUENTIELS.............................................................................. 1

2. LE SYSTÈME D’INFORMATION AVAL/SONATRACH ..................................................................................... 2

3. NOTRE CHAMP D’INTÉRRÊT : LA MAINTENANCE PRÉVENTIVE (MPV)......................................... 4

4. NOTRE OBJECTIF : LA MAINTENANCE ANTICIPÉE (MA) ....................................................................... 7

5. SUJET DE LA THÈSE ET CONTRIBUTIONS ................................................................................................. 8

6. ORGANISATION DU MÉMOIRE.......................................................................................................................... 10

Chapitre I : Data mining

1. INTRODUCTION.......................................................................................................................................................... 12

2. LE CERCLE VERTUEUX DU DATA MINING ............................................................................................... 13

3. PETIT HISTORIQUE.................................................................................................................................................. 13

4. DÉFINITION DU DATA MINING ........................................................................................................................ 14

5. DOMAINES D’APPLICATION DU DAT A MINING ..................................................................................... 15

6. LE DAT A MINING AU CENT RE DE L’ECD ................................................................................................... 19

6.1. IDENTIFICATION DU PROBLEME ET DEFINITION DES OBJECTIFS ............................................. 20

6.2. SELECTION DES DONNEES .................................................................................................. 20

6.3. NETTOYAGE ET ENRICHISSEMENT DES DONNEES.................................................................. 21

6.4. TRANSFORMATION ET REDUCTION DE LA DIMENSION............................................................ 21

6.5. DATA MINING ................................................................................................................... 22

6.6. ÉVALUATION, VALIDATION ET VISUALISATION DES RESULTATS .............................................. 22

7. LES TÂCHES DU DATA MINING........................................................................................................................ 24

7.1. CLASSIFICATION................................................................................................................ 24

7.2. ÉSTIMATION...................................................................................................................... 24

7.3. PREDICTION ...................................................................................................................... 25

7.4. GROUPEMENT SELON LES AFFINITES .................................................................................. 25

7.5. CLUSTERING ..................................................................................................................... 26

7.6. DESCRIPTION .................................................................................................................... 26

8. LES OUTILS DU DATA MINING ......................................................................................................................... 26

8.1. LE RAISONNEMENT A BASE DE CAS ...................................................................................... 27

8.2. LA DETECTION DE CLUSTERS .............................................................................................. 27

8.3. L'ANALYSE DE LIENS.......................................................................................................... 29

8.4. LES ARBRES DE DECISION................................................................................................... 29

8.5. LES RESEAUX NEURONAUX ARTIFICIELS .............................................................................. 30

8.6. LES ALGORITHMES GENETIQUES ......................................................................................... 31

8.7. LES REGLES D'ASSOCIATION ............................................................................................... 32

8.8. LES MOTIFS SEQUENTIELS.................................................................................................. 32

9. CONCLUSION ............................................................................................................................................................... 33

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

doc num

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

doc num

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib