Contribution à l`apprentissage automatique symbolique par

Téléchargement

DEPARTEMENT INFORMATIQUE

THESE DE DOCTORAT EN SCIENCES

Spécialité : Informatique

Option : Informatique & Automatique

Intitulée :

Contribution à l'apprentissage

automatique symbolique par automates

d'arbre et mesures de sélection

Présentée par

TALEB ZOUGGAR Souad

Présentée et soutenue publiquement le 16/12/2014.

Composition du Jury :

– BOUAMRANE Karim, Professeur Université d’Oran, Président du jury

– ATMANI Baghdad, Professeur Université d’Oran, Encadreur

– AMINE Abdelmalek, MCA Université de Saida Examinateur

– BENYETTOU Abdelkader, Professeur Université USTO, Examinateur

– HAMDADOU Djamila, MCA Université d’Oran Examinatrice

– LEHIRECHE Ahmed, Professeur Université Bel Abbès Examinateur

2014/2015

Je dédie ce travail à toute ma famille, En particulier:

Mes parents,

Ma fille Aya,

Mes soeurs et leurs enfants,

Mon frère si kaddour Said.

REMER C IEM E N TS

Dans l’espoir que ces quelques mots parviennent tout ce que nous leurs sommes

redevables, non moins que la profondeur de notre gratitude, nous souhaitons remercier

ALLAH pour l’accomplissement de ce travail.

Le Professeur Baghdad ATMANI pour la confiance qu’il m’a témoignée en acceptant la

direction scientifique de mes travaux. Je lui suis reconnaissante de m’avoir fait bénéficier tout

au long de ce travail de sa grande compétence, de sa rigueur intellectuelle, de son dynamisme,

et de son efficacité certaine que je n’oublierai jamais.

Le Professeur Abdelkader ADLA pour sa disponibilité, pour l’aide précieuse et les

conseils qu’il m’a donnée ainsi que pour son soutien dans les situations les plus difficiles.

Le Professeur Stéphane Lallich de l’Université Lumière Lyon II et membre du laboratoire

ERIC, pour ses multiples conseils, ses orientations, et pour toutes les heures de travail qu'il

m’a consacrée malgré son emploi du temps chargé.

Je suis très honorée de la présence à mon jury de thèse et je tiens à remercier :

Le Professeur Karim BOUAMRANE président du jury, le Professeur Abdelkader

BENYETTOU, le Professeur Ahmed LEHIRECHE, Dr Abdelmalek AMINE, et Dr Djamila

HAMDADOU.

Je tiens aussi à les remercier pour l’intérêt particulier qu’ils ont porté à ce travail en

acceptant de le juger.

Mon travail de recherche sur le terrain a été particulièrement facilité par les maîtres

assistants et les résidents du service de Diabétologie Endocrinologie de l’hôpital

BENZERDJEB de la wilaya d'AIN TEMOUCHENT, à qui je tiens à exprimer ma

reconnaissance.

Résumé :

Les arbres de décision et les graphes d’induction répondent à la propriété

d’intelligibilité à savoir la production de procédures de classification compréhensibles par

l’utilisateur. Ces méthodes permettent de représenter graphiquement un ensemble de règles

aisément interprétables. Toutefois, elles présentent deux inconvénients majeurs : complexité

et instabilité. Ces deux problèmes sont respectivement résolus par des méthodes d’élagage et

des méthodes d’ensembles. L’élagage peut se faire en pré ou post construction de l’arbre pour

réduire sa complexité. Les méthodes d’ensembles consistent à améliorer les performances

d’un classifieur faible « instable » en le générant plusieurs fois.

Notre Recherche s’inscrit dans le domaine de l'apprentissage automatique à partir des

données et utilise comme base de travail les méthodes à base d’arbres ou de graphes

d’induction.

Le premier objectif est la conception et l’expérimentation de techniques de génération

et particulièrement d’optimisation d’arbres ou de graphes par le biais d'une méthode formelle

de modélisation. Un arbre ou un graphe est transcrit dans le formalisme d’automate pour

pouvoir par la suite le simplifier en utilisant les propriétés des automates.

Le deuxième objectif vise la proposition d’une nouvelle mesure de sélection de

variables pour la construction d’arbres de décision. La mesure est intégrée dans une méthode

de partitionnement gloutonne qui permet de segmenter l’échantillon jusqu’à la partition la

plus fine. Comparée à des mesures de l’état de l’art, la mesure proposée requiert moins de

calculs et génère des arbres de tailles moins complexes.

Le pruning ou la sélection d’ensembles permet de réduire le nombre de modèles dans

un comité dans le but d’économiser l’espace de stockage et réduire le temps de prédiction.

Plusieurs travaux ont été proposés dans le domaine de simplification d’ensembles dont

plusieurs reposent sur des fonctions d’évaluation basée soit sur la diversité de l’ensemble soit

sur sa performance.

Enfin, pour un troisième objectif, nous proposons une fonction multi - objectifs pour la

sélection dans un ensemble d’arbres de décision qui utilise conjointement les propriétés de

diversité et de performance. La méthode comparée à un état de l’art des méthodes de sélection

permet de donner de bons résultats en sélectionnant des ensembles de tailles plus réduites. Les

sous ensembles obtenus, dans la plus part des cas étudiés, surpassent les performances de

l’ensemble initial.

Mots clés: Extraction de connaissances à partir de données, Apprentissage supervisé, Arbres de

décision, Mesures de sélection, Automates d’arbres, Méthodes d’ensembles, Sélection d’ensembles.

Abstract :

Decision trees and induction graphs satisfy the property of intelligibility, ie production

of classification procedures understandable by the user. These methods allow to graphically

represent a set of easily interpretable rules. However, they have two major drawbacks:

complexity and instability. These two problems are solved respectively by pruning and

ensemble methods. Pruning can be done before or after construction of the tree to reduce its

complexity. The ensemble methods are used to improve the performance of a weak "unstable"

classifier.

Our Research is in the field of machine learning is based on decision trees or graphs

induction methods.

The first objective is the design and the test of techniques for generating and especially

optimizing trees or graphs through a formal modeling approach. A tree or a graph is

transcribed in the automata formalism and then is simplified by using automata properties as

simplification tools.

The second objective is the proposal of a new measure for selecting variables for the

construction of decision trees. The measure is integrated in a greedy method that allows

partitioning the sample into the finest partition. Compared to measures of the state of the art,

the proposed measure requires fewer calculations and generates less complex tree sizes.

Ensemble pruning or ensemble selection allows reducing the number of models

comosing a committee in order to save storage space and reduce prediction time. Several

works have been proposed in the area of ensemble simplification, many of which are based on

the diversity or the performance of the ensemble.

Finally, for the third objective, we propose a multi-objective function for selection in a set of

decision trees that jointly uses the properties of diversity and performance. The comparison

with a state of the art of selection method gives good results by selecting sets of smaller sizes

and high precision.

Key words: Knowledge discovery from data bases, Supervised learning, Decision trees, Selection

measures, Tree automata, Ensemble Methods, Ensemble selection.

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

1 / 224 100%

Documents connexes

3 À la croisée des chemins - Conseil de l`industrie forestière du

Presentazione standard di PowerPoint

Phylogénie moléculaire

Les arbres

L`augmentation de gaz carbonique dans l`air, à cause du

TES DM : CONVEXITE pour le 5 janvier 2015. REVISION POUR LE

ARBRE 1

Un été magnifique mais… sûrement pas pour les arbres!

Chaque hiver, pendant les périodes de vent fort, des branches ou

Projet d'animation environnementale pour enfants

Conférence-débat - Syndicat mixte forestier

Découvrez la nature au bord des chemins

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Contribution à l`apprentissage automatique symbolique par

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Contribution à l`apprentissage automatique symbolique par

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib