Une confusion subsiste encore entre data mining, que nous appelons en
français « fouille de données », et knowledge discovery in data bases (KDD),
que nous appelons en français « extraction des connaissances à partir des
données » (ECD). Le data mining est l’un des maillons de la chaîne de
traitement pour la découverte des connaissances à partir des données. Sous
forme imagée, nous pourrions dire que l’ECD est un véhicule dont le data
mining est le moteur.
Le data mining est l’art d’extraire des connaissances à partir des données. Les
données peuvent être stockées dans des entrepôts (data warehouse), dans
des bases de données distribuées ou sur Internet. Le data mining ne se limite
pas au traitement des données structurées sous forme de tables
numériques ; il offre des moyens pour aborder les corpus en langage naturel
(text mining), les images (image mining), le son (sound mining) ou la vidéo et
dans ce cas, on parle alors plus généralement de multimedia mining.
L’ECD, par le biais du data mining, est alors vue comme une ingénierie pour
extraire des connaissances à partir des données.
L’ECD est un processus complexe qui se déroule suivant une série
d’opérations. Des étapes de pré-traitement ont lieu avant le data mining en
tant que tel. Le pré-traitement porte sur l’accès aux données en vue de
construire des datamarts, des corpus de données spécifiques. Le pré-
traitement concerne la mise en forme des données entrées selon leur type
(numériques, symboliques, images, textes, sons), ainsi que le nettoyage des
données, le traitement des données manquantes, la sélection d’attributs ou
la sélection d’instances. Cette première phase est cruciale car du choix des
descripteurs et de la connaissance précise de la population va dépendre la
mise au point des modèles de prédiction. L’information nécessaire à la
construction d’un bon modèle de prévision peut être disponible dans les
données mais un choix inapproprié de variables ou d’échantillon
d’apprentissage peut faire échouer l’opération.
Le data mining, dans sa définition restreinte, opère sur des tables
bidimensionnelles, appelées datamarts, et fait appel à trois grandes familles
de méthodes issues de la statistique, de l’analyse des données, de la
reconnaissance de formes ou de l’apprentissage automatique. Il est possible
de regrouper les méthodes couramment utilisées ou présentées comme
faisant partie de l’arsenal du « data miner » en trois catégories :
- les méthodes de description uni, bi et multidimensionnelles : numériques,
pour la plupart, elles sont issues de la statistique descriptive et de
l’analyse des données, ainsi que des techniques de visualisation
graphiques dont certaines font appel à la réalité virtuelle et à des
métaphores de représentation assez élaborées ;
- les méthodes de structuration qui regroupent toutes les techniques
d’apprentissage non supervisé et de classification automatique provenant