RESUME : Cette thèse aborde le thème d’exploitation automatique de l’information textuelle
dans un processus de veille technologique.
La première partie de ce mémoire présente les diverses facettes de la veille technologique, à
savoir sa matière première et ses caractéristiques, son schéma méthodologique ainsi que les
outils sur lesquels elle s’appuie.
La seconde partie constitue l’état de l’art, sur lequel est fondée notre étude, pour la mise en
place d’une méthodologie d’analyse automatique de l’information textuelle, sans dépendance
de la langue. Dans cette partie, nous exposerons, dans un premier temps, les différentes
techniques d’analyse de données bibliographiques (bibliométrie, scientométrie, infométrie).
Ensuite, nous décrivons les différentes approches de lemmatisation et d’extraction
terminologique.
La troisième partie présente notre contribution à la mise en place d’un système informatique
modulaire d’analyse automatique de l’information textuelle sans dépendance de la langue. Les
modules conçus puis développés concernent les opérations de lemmatisation, d’extraction
terminologique et de classement automatique des documents. Les approches employées
dispensent surtout de la construction de grammaires génériques et spécifiques pour être
indépendantes de la langue, et des référentiels de base pour éviter le problème de la non-
exhaustivité des dictionnaires dans un domaine précis.
Mots Clés : Veille technologique / information scientifique et technique / Méthodes d’analyse
/ Lemmatisation / Extraction terminologique / Classement automatique des documents /
reconnaissance du vocabulaire spécifique
Abstract : This Thesis broaches the theme of automatic exploitation of the textual
information in Competitive Technical Intelligence.
The first part of this thesis presents the various facets of Competitive Technical Intelligence,
to know its first matter and its characteristics, its methodological diagram as well as the tools
on which it leans.
The second part constitutes the state of the art, on which is founded our study, for the
implementation of an automatic analysis methodology of the textual information, without
dependence of the language. In this part, we will expose, in a first time, the different
techniques of bibliographic data analysis (bibliométrie, scientométrie, infométrie). Then, we
describe the different approaches of lemmatisation and terminological extraction.
The third part presents our contribution to the implementation of a modular computer system
of automatic analyse of the textual information without dependence of the language. The
modules conceived then developed concern the operations of lemmatisation, terminological
extraction and automatic classification of documents. The used approaches especially
dispense the generic and specific grammar construction to be independent of the language,
and of the referential of basis to avoid the problem of the dictionary no-exhaustiveness in a
precise domain.
Key words: Competitive Technical Intelligence / Scientific and Technique Information /
Methods of Analysis / Lemmatisation / Terminological Extraction / Automatic Classification
of Documents / Recognition of The Specific Vocabulary