![](//s1.studylibfr.com/store/data-gzf/619ebb159638c5889194350acc7d0642/1/004440649.htmlex.zip/bg3.jpg)
Introduction générale
2
Définition :
L’ECD est un nouveau domaine de recherche. Par rapport à ses domaines parents,
elle est caractérisée par le fait qu’elle extrait des connaissances pertinentes
(“intéressantes” dans la terminologie US) et intelligibles à partir des données en
utilisant (aussi) des techniques inductives et où toutes données fournies par
l’utilisateur peuvent être fouillées. Son but est de mesurer la pertinence et
l’intelligibilité de la connaissance engendrée. L’état actuel de l’art n’illustre
encore qu’incomplètement cette définition puisqu’il y a très peu de systèmes
d’ECD existants et capables de mesurer la pertinence et l’intelligibilité. Le succès
même des logiciels existants montre que l’espoir d’améliorer l’ECD selon ces
directions n’est pas du tout chimérique.
Notre définition utilise trois termes eux-mêmes mal définis : connaissance,
intelligible et pertinent. Essayons de montrer comment ils sont définis en ECD.
La connaissance en ECD peut alors être définie comme une phrase d’un langage
formel permettant de modifier le comportement d’un agent (de préférence : de
l’améliorer). Une connaissance pertinente est telle que :
1- sa valeur de vérité est assez élevée
2- on sait comment l’utiliser
3- elle s’accorde bien aux buts de l’utilisateur.
Il faut bien avouer que la pertinence est encore presque complètement définie par
l’utilisateur, dans l’état actuel de l’art de l’ECD, sauf dans les travaux précurseurs
de Piatetsky-Shapiro [Pia 94] et de Bhandari [Bha 92]. Enfin, une connaissance
est dite intelligible quand elle est exprimée dans le langage de l’utilisateur et avec
la sémantique de l’utilisateur. Nous n’incluons pas dans notre définition, au
contraire de [Fay 96], le fait que la connaissance découverte devrait être implicite
dans les données et auparavant inconnue. Cela limite les buts de l’utilisateur qui
pourrait, par exemple, être heureux (ce serait une forme spéciale d’intelligibilité)
de retrouver quelque chose qu’il connaissait déjà.
Enfin, l’usage des nouvelles connaissances découvertes peut être une contribution
dans la réalisation des Systèmes Experts. En effet, le coût de réalisation d’un
Système Expert, en utilisant des techniques traditionnelles d’acquisition des
connaissances, à partir d’experts humains, constitue un obstacle à son utilisation
et à sa large diffusion. Une solution à ce problème est de concevoir des
programmes informatiques capables d’apprendre et de découvrir leurs propres
connaissances, et ce, partant de cas pratiques (exemples). Dans ce type de
système, l’expertise n’est plus fournie par l’expert humain, mais doit être
construite à partir de données dont on dispose sur le domaine.
Les Phases De L’ECD :
Le Processus Cross Industry Standard Process for Data Mining, ou CRISP-DM, était
un projet pour développer des outils neutres et d’industrie pour modéliser l’ECD [Cri
06]. Le concept de CRISP-DM a été conçu par DaimlerChrysler (puis Daimler-Benz),
SPSS (puis ISL), et NCR, en 1996 et a évolué sur plusieurs années, construit autour
de l’expérience de différentes compagnies industrielles, des engagements de
consultants, ainsi que des exigences d'utilisateurs spécifiques. Bien que la plupart des
ECD aient été, traditionnellement, à base d’efforts personnels de conception et
d'implémentation de spécialistes hautement qualifiés, ils ont, pourtant, souffert
d’épuisement de budget et de dépassement de délai de réalisation. CRISP-DM a eu