EXPLOITATION DES ARBRES FREQUENTS DE DEPENDANCE POUR LA REPRESENTATION ET LA

EXPLOITATION DES ARBRES FREQUENTS DE
DEPENDANCE POUR LA REPRESENTATION ET LA
CLASSIFICATION AUTOMATIQUE DE TEXTES
par
Ali Meghaoui
Memoire presente au Departement d'informatique
en vue de l'obtention du grade de maitre es sciences (M.Sc.)
FACULTE DES SCIENCES
UNIVERSITE DE SHERBROOKE
Sherbrooke, Quebec, Canada, Janvier 2008
7t5i
1*1 Library and
Archives Canada
Published Heritage
Branch
395 Wellington Street
Ottawa ON K1A0N4
Canada
Bibliotheque et
Archives Canada
Direction du
Patrimoine de
I'edition
395,
rue Wellington
Ottawa ON K1A0N4
Canada
Your file Votre reference
ISBN: 978-0-494-42994-5
Our file Notre reference
ISBN: 978-0-494-42994-5
NOTICE:
The author has granted a
non-
exclusive license allowing Library
and Archives Canada to reproduce,
publish,
archive, preserve, conserve,
communicate to the public by
telecommunication or on the Internet,
loan,
distribute and sell theses
worldwide, for commercial or
non-
commercial purposes, in microform,
paper, electronic and/or any other
formats.
AVIS:
L'auteur a accorde une licence non exclusive
permettant a la Bibliotheque et Archives
Canada de reproduire, publier, archiver,
sauvegarder, conserver, transmettre au public
par telecommunication ou par Plntemet, prefer,
distribuer et vendre des theses partout dans
le monde, a des fins commerciales ou autres,
sur support microforme, papier, electronique
et/ou autres formats.
The author retains copyright
ownership and moral rights in
this thesis. Neither the thesis
nor substantial extracts from it
may be printed or otherwise
reproduced without the author's
permission.
L'auteur conserve la propriete du droit d'auteur
et des droits moraux qui protege cette these.
Ni la these ni des extraits substantiels de
celle-ci ne doivent etre imprimes ou autrement
reproduits sans son autorisation.
In compliance with the Canadian
Privacy Act some supporting
forms may have been removed
from this thesis.
Conformement a la loi canadienne
sur la protection de la vie privee,
quelques formulaires secondaires
ont ete enleves de cette these.
While these forms may be included
in the document page count,
their removal does not represent
any loss of content from the
thesis.
Canada
Bien que ces formulaires
aient inclus dans la pagination,
il n'y aura aucun contenu manquant.
Le
17
Janvier 2008
lejury a accepte le memoire de
M.
Ali Meghaoui dans sa version finale.
Membres dujury
M. Shengrui Wang
Directeur
Departement d'informatique
M. Ernest Monga
Membre
Departement de mathematiques
M. Andre Mayers
President-rapporteur
Departement d'informatique
Sommaire
L'integration de l'information syntaxique dans la representation vectorielle des docu-
ments
s'est
averee une source d'amelioration de la performance des systemes de classi-
fication automatique de documents textuels. Cette information est souvent representee
sous forme d'arbres de dependance qui peuvent etre generes automatiquement par un
analyseur syntaxique de la langue naturelle.
Dans ce travail, nous proposons un nouveau modele de representation des documents
basee sur l'extraction des sous-arbres frequents d'arbres de dependance en utilisant l'al-
gorithme de fouille d'arbres FREQT, que nous avons adapte a nos besoins. Dans ce
modele, un document est represente par l'ensemble de ses phrases, et chaque phrase est
representee a l'aide d'un ensemble de sous-arbres frequents.
Afin d'appliquer efficacement cette representation a la classification automatique non
supervisee (ou clustering) de documents, nous proposons une nouvelle mesure de simila-
rite entre documents basee sur notre methode de representation. Ainsi, nous construisons
un systeme de clustering de documents qui englobe notre methode de representation,
notre mesure de similarite et l'algorithme de clustering hierarchique par agglomeration.
Nous evaluons notre systeme sur des collections de textes bien connues dans la com-
munaute de la classification de textes : la collection Reuters-21578, 20Newsgroups et
OHSUMED. Nous montrons sur ces donnees que notre methode ameliore le clustering
de documents. Nous presentons egalement une evaluation des approches existantes de
representation des documents.
n
Remerciements
Je voudrais premierement remercier mon directeur de recherche M. Shengrui Wang
pour le suivi permanent de revolution de ce travail. Je tiens a lui exprimer mes profondes
gratitudes pour ses conseils et ses suggestions judicieuses qu'il m'a prodigues durant toute
la periode du projet.
Je remercie egalement toute l'equipe du laboratoire MOIVRE (MOdelisation en Ima-
gerie, Vision et REseaux de neurones) pour toute l'aide qu'ils m'ont apportee sans faillir
quand
j
'en avais besoin.
J'adresse un remerciement particulier pour ma famille pour son soutien moral.
Que tous ceux qui ont contribue de pres ou de loin a la realisation de ce travail
regoivent ma profonde gratitude.
Enfln, mes remerciements vont aux professeurs qui m'ont fait l'honneur de participer
au jury de ce memoire.
in
1 / 101 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !