de ressources terminologiques telles que thesaurus, vocabulaires d'indexation, bases de
termes, etc. L'outil de fouille de textes réalise la fonction générale de l'acquisition de
connaissances à partir des données textuelles qui ont été collectées, formatées et indexées
préalablement. Et enfin, l'outil de visualisation doit fournir à l'utilisateur les moyens
hypertexte et graphiques pour explorer et analyser les résultats.
Les propriétés interactives et itératives de cette architecture s'avèrent être d'une extrême
importance dans la fouille de textes comme dans tout autre système destiné à l'analyse de
l'information, où l'intervention des experts du domaine est nécessaire, et les retours en arrière
dans le processus sont des décisions fréquentes. D'où la nécessité d'une architecture
informatique modulaire et flexible du système.
Cette présentation va par la suite se concentrer (ci-dessous sections 4, 5 et 6) sur la nature des
outils [3] et surtout [4], parce qu’ils représentent les éléments les plus spécifiques d’un
système de fouille des données textuelles.
Quant aux produits commerciaux de fouille de données ou data mining, une remarque
générale est qu'ils ne sont au fond que des outils statistiques (Ultsch, 1999) : "The terms Data
Mining and Knowledge Discovery are often used in those systems in an inflationary way for
statistical tools enhanced with a fancy visualization interface. The difference between
exploratory statistical analysis and Data Mining lies in the aim which is sought. Data Mining
aims at Knowledge Discovery". Un système de data mining ne se réduit pas à un simple outil
d'analyse statistique des données. L'intention finale de la fouille des données est donc
l'extraction de connaissance (en anglais knowledge discovery).
3 – Techniques et méthodes très diverses
Selon l'appel au Text Mining Workshop de l'International Joint Conference on Artificial
Intelligence (IJCAI 99), http://ijcai.org/, les techniques utilisées par le text mining sont celles
de la fouille des données (ou data mining), de l'apprentissage automatique, de la recherche
d'information, de la compréhension du langage naturel, du raisonnement à partir de cas, des
statistiques, et enfin de la gestion de connaissances. Le but étant d'aider les personnes à
obtenir de la connaissance à partir de grandes quantités de textes semi-structurés.
Comme le montre Text Mining Workshop IJCAI 99, la fouille de données textuelles est un
terme recouvrant des activités très diverses. Selon Toussaint, Simon et Cherfi (2000), une
première différence entre les méthodes vient des données qui sont fournies à l'algorithme de
fouille et de la qualité de ces données selon la capacité des algorithmes à prendre en compte
des données de qualité "inférieure". Le second aspect de différenciation porte sur l'algorithme
de fouille, sur le type de données qui sont fournies à l'utilisateur final, qui, dans tous les cas,
doit être un expert.
Nous avons vu ci-dessus, dans la section 1, que le texte mining se distingue du data mining
par les moyens techniques qu'il le faut employer pour traiter les données textuelles. Ces
données sont des textes et aussi des données non structurées ou semi-structurées. De là donc
deux tâches : traiter automatiquement le langage naturel dans sa forme écrite, manipuler des