FI 10 – 18 décembre 2007 – page 5
l’Homme enseigne à la machine à effectuer des tâches humaines
(d’après M.C. Escher – Drawing Hands, 1948)
D’après Han et Kamber (2001), le terme data mining
se réfère à l’extraction de connaissances à partir de grandes
quantités de données. Le data mining est un domaine récent
qui se situe à l’intersection des statistiques, de l’apprentissage
automatique et des bases de données.
Le data mining se situe à l’intersection des statistiques, de
l’apprentissage automatique et des bases de données.
br e F h i S to r i qU e S U r l e d a t a m i n i n g
D’après Pal et Jain (2005), les origines du data mining re-
montent à 1989, lors du premier workshop KDD (Knowledge
Discovery in Databases). En statistiques, la procédure habi-
tuelle est de faire des hypothèses sur les données et ensuite
de tester ces hypothèses. Quand les ensembles de données
contiennent plusieurs centaines ou milliers d’attributs,
cette tâche devient difficile. Avec la facilité grandissante
qu’ont les ordinateurs à stocker et traiter les données en
un temps raisonnable, les approches ont évolué en tests et
hypothèses. Le domaine du data mining a émergé dans les
années 1990. Cependant, l’usage du terme data mining est
bien plus ancien.
En médecine, Harris utilise un certain type de régres-
sion pour déterminer le risque lié aux angiocardiographies
dès 1984. Dans son travail, il utilise le terme data mining
comme un synonyme d’exploration des données. En 1983,
Lovell écrit un article dont le titre est Data Mining. En
économétrie, le terme data mining a même une connotation
négative. L’article le plus ancien contenant le terme data mi-
ning est certainement celui de Jorgenson en 1970. Cela dit,
c’est seulement dans le début des années 1990 que ce terme
est adopté avec son sens actuel. Un bref historique du data
mining peut être lu dans l’article de Smyth (2000).
ex e m P l e S D’a P P l i c a t i o n S P o S S i b l e S
Plusieurs livres récents décrivent en détails le domaine
du data mining, ses algorithmes, ses applications et même
les nombreux pièges qu’il recèle (Hand 2001, Webb 2002,
Tan 2006). Les applications les plus connues concernant le
data mining sont la reconnaissance d’images, de textes et du
langage. Le data mining a aussi été utilisé dans l’analyse de
séquences ADN, la finance, le Web, la reconnaissance du
spam ou encore les recommandations comme celles faites
par Amazon ou Ebay pour ne citer qu’eux. Des entreprises
telles que KDnuggets aux Etats-Unis, mais aussi Statoo
Consulting en Suisse, entièrement dédiées au data mining,
sont de plus en plus présentes. Il est clair que ce domaine en
pleine croissance va intéresser la plupart des entreprises qui
travaillent avec de grandes quantités de données. Quelle en-
treprise ne voudrait pas de prédictions sur la consommation
de ses clients ou de recommandations automatiques pour
que le client achète plus?
Certains auteurs ont aussi relevé les limites des techni-
ques de data mining, comme par exemple dans le domaine
du contre-terrorisme. Finalement, le lecteur intéressé par
une introduction plus détaillée sur le data mining, pourra
consulter le très bon article de Fayyad et Uthurusamy (2002)
ou l’excellent livre de Witten et Frank (2005).
ré F é r e n c e S
z Blog de l’auteur: www.dataminingblog.com
z Fayyad U. & Uthurusamy R. (2002), Evolving data
mining solutions for insights, Communications of the
ACM, 45(8), 28-31.
z Han J. & Kamber M. (2001), Data Mining: Concepts
and Techniques, Morgan Kaufmann Publishers.
z Kdkeys, Forums sur le data mining, www.kdkeys.com
z Pal N. & Jain L. (2005), Advanced Techniques in
Knowledge Discovery and Data Mining, chapter Preface,
Springer.
z Piatestky-Shapiro G., KDnuggets: data mining software,
jobs, consulting, www.kdnuggets.com
z Piatetsky-Shapiro G. (2007), Data mining and knowled-
ge discovery 1996 to 2005: overcoming the hype and mo-
ving from «university» to «business» and «analytics», Data
mining and Knowledge Discovery, 15(1), 99-105.
z Smyth P. (2000), Data mining: Data analysis on a grand
scale? Technical Report CA 92697-3425, Information
and Computer Science, University of California.
z Statoo Consult A.G., www.statoo.ch
z Tan P.-N., Steinbach M., & Kumar V. (2006), Intro-
duction to Data Mining, Addison Wesley.
z Witten I. & Frank E. (2005), Data Mining: Practical
machine learning tools and techniques with Java implemen-
tations, Morgan Kaufmann Publishers. n
Data Mining: des données à la connaissance