FI 10 – 18 décembre 2007 – page 4
Data Mining
des données à la connaissance
Sandro.Saitta@epfl.ch, EPFL/IMAC (Laboratoire d’informatique et de mécanique appliquées à la construction)
Cet article a pour but de présenter le data mining, un
domaine de recherche particulièrement impor-
tant de nos jours puisqu’il sert à fournir un sens aux données.
Il est aussi passionnant, puisqu’il se base sur la capacité des
ordinateurs à apprendre et à s’améliorer avec le temps, pour,
par exemple, effectuer des prédictions.
Il ne s’agit en aucun cas d’un tutoriel sur ce sujet, mais
plutôt d’une introduction, porte d’entrée, sur ce domaine.
La dernière publication conséquente sur le data mining parue
dans le FI est l’excellent article de Kuonen et Furrer sur le
langage R (Data mining avec R dans un monde libre, FI/
SP/01, dit.epfl.ch/publications-spip/spip.php?article284). On
peut aussi noter l’article de Rajman et Faltings sur l’analyse
des données textuelles (A la poursuite de l’information:
techniques de recherche et d’analyse pour données
textuelles, FI/SP/97, ditwww.epfl.ch/SIC/SA/publications/
FI97/fi-sp-97/sp-97-page34.html).
De S D o n n é e S à l a c o n n a i S S a n c e
Les données seules n’ont presque aucune valeur. Alors que
la quantité de données augmente de manière exponentielle,
les gens sont en fait assoiffés de connaissance. La connaissance
est obtenue par la compréhension des données. Le fossé entre
les données brutes et la connaissance peut être énorme. Plus
on a de données, plus il est difficile d’en tirer de la connais-
sance. Il est parfois assumé que plus de données signifie plus
de connaissance. La raison d’une telle assertion est générale-
ment le manque d’appréciation de la différence entre le fait
d’obtenir des données et le fait de les comprendre.
in t r o D U c t i o n a U d a t a m i n i n g
Dans notre société, il y a de plus en plus de capteurs me-
surant n’importe quels changements de notre environnement.
Par conséquent, une tâche importante est la compréhension
de ces données. Comme noté par Piatestky-Shapiro (2007),
«[…] as long as the world keeps producing data of all kinds
[…] at an ever increasing rate, the demand for data mining
will continue to grow». Le data mining, textuellement minage
de données (mais souvent traduit en français par fouille de
données) est un domaine qui consiste à comprendre les don-
nées, généralement par le moyen de méthodes statistiques.
En d’autres termes, le data mining cherche à identifier des
tendances parmi les données. Comme ce processus peut être
très difficile, il est souvent comparé au minage de l’or dans les
rivières1: le gravier des alluvions représente l’énorme quantité
de données et les pépites d’or représentent la connaissance
cachées que l’on veut trouver.
le data mining peut être comparé au minage de l’or dans les
rivières
En simplifiant légèrement, on peut diviser les différentes
techniques de data mining suivant deux objectifs principaux:
la prédiction et la description. La plupart des applications de
data mining ont pour but la prédiction: pour un ensemble
d’apprentissage dont on connaît les entrées et la sortie, on
aimerait prédire la sortie d’un ensemble de test. Prenons
l’exemple de la reconnaissance de caractères. On entraîne
l’algorithme choisi sur une base de données qui contient
les entrées (par exemple une matrice de pixels correspon-
dant au chiffre écrit) et la sortie (par exemple le chiffre
représenté par ces pixels). Ensuite, on utilise l’algorithme
entraîné pour prédire, c’est-à-dire deviner selon les pixels,
la sortie, autrement dit, le chiffre écrit. Aussi magique que
cela puisse paraître, tout ceci est possible grâce à l’utilisation
de méthodes statistiques. Dans le cas de la description, le
but est de trouver de la connaissance à partir des données
brutes, sans connaître la sortie. L’exemple le plus connu est
le clustering. Cela consiste à chercher des groupes distincts
parmi les données. Imaginons par exemple que l’on mesure
une série de paramètres sur plusieurs plantes (taille, type de
feuilles, etc.). Avec le clustering, on peut essayer de grouper
ces plantes en classes qui correspondent par exemple à des
espèces différentes.
Dans la littérature sur le sujet, le terme d’apprentissage
automatique (machine learning) est souvent utilisé. La prin-
cipale différence entre l’apprentissage automatique et le data
mining est l’usage que l’on en fait. Alors que le domaine de
l’apprentissage automatique se concentre sur les algorithmes
d’apprentissage, le data mining met l’accent sur le processus
d’extraction de la connaissance. L’apprentissage automatique
consiste à programmer l’ordinateur pour qu’il apprenne à
effectuer des tâches humaines, par exemple.
1 En français, on utilise généralement le terme orpaillage.
FI 10 – 18 décembre 2007 – page 5
l’Homme enseigne à la machine à effectuer des tâches humaines
(d’après M.C. Escher – Drawing Hands, 1948)
D’après Han et Kamber (2001), le terme data mining
se réfère à l’extraction de connaissances à partir de grandes
quantités de données. Le data mining est un domaine récent
qui se situe à l’intersection des statistiques, de l’apprentissage
automatique et des bases de données.
Le data mining se situe à l’intersection des statistiques, de
l’apprentissage automatique et des bases de données.
br e F h i S to r i qU e S U r l e d a t a m i n i n g
D’après Pal et Jain (2005), les origines du data mining re-
montent à 1989, lors du premier workshop KDD (Knowledge
Discovery in Databases). En statistiques, la procédure habi-
tuelle est de faire des hypothèses sur les données et ensuite
de tester ces hypothèses. Quand les ensembles de données
contiennent plusieurs centaines ou milliers d’attributs,
cette tâche devient difficile. Avec la facilité grandissante
qu’ont les ordinateurs à stocker et traiter les données en
un temps raisonnable, les approches ont évolué en tests et
hypothèses. Le domaine du data mining a émergé dans les
années 1990. Cependant, l’usage du terme data mining est
bien plus ancien.
En médecine, Harris utilise un certain type de régres-
sion pour déterminer le risque lié aux angiocardiographies
dès 1984. Dans son travail, il utilise le terme data mining
comme un synonyme d’exploration des données. En 1983,
Lovell écrit un article dont le titre est Data Mining. En
économétrie, le terme data mining a même une connotation
négative. L’article le plus ancien contenant le terme data mi-
ning est certainement celui de Jorgenson en 1970. Cela dit,
c’est seulement dans le début des années 1990 que ce terme
est adopté avec son sens actuel. Un bref historique du data
mining peut être lu dans l’article de Smyth (2000).
ex e m P l e S Da P P l i c a t i o n S P o S S i b l e S
Plusieurs livres récents décrivent en détails le domaine
du data mining, ses algorithmes, ses applications et même
les nombreux pièges qu’il recèle (Hand 2001, Webb 2002,
Tan 2006). Les applications les plus connues concernant le
data mining sont la reconnaissance d’images, de textes et du
langage. Le data mining a aussi été utilisé dans l’analyse de
séquences ADN, la finance, le Web, la reconnaissance du
spam ou encore les recommandations comme celles faites
par Amazon ou Ebay pour ne citer qu’eux. Des entreprises
telles que KDnuggets aux Etats-Unis, mais aussi Statoo
Consulting en Suisse, entièrement dédiées au data mining,
sont de plus en plus présentes. Il est clair que ce domaine en
pleine croissance va intéresser la plupart des entreprises qui
travaillent avec de grandes quantités de données. Quelle en-
treprise ne voudrait pas de prédictions sur la consommation
de ses clients ou de recommandations automatiques pour
que le client achète plus?
Certains auteurs ont aussi relevé les limites des techni-
ques de data mining, comme par exemple dans le domaine
du contre-terrorisme. Finalement, le lecteur intéressé par
une introduction plus détaillée sur le data mining, pourra
consulter le très bon article de Fayyad et Uthurusamy (2002)
ou l’excellent livre de Witten et Frank (2005).
ré F é r e n c e S
z Blog de l’auteur: www.dataminingblog.com
z Fayyad U. & Uthurusamy R. (2002), Evolving data
mining solutions for insights, Communications of the
ACM, 45(8), 28-31.
z Han J. & Kamber M. (2001), Data Mining: Concepts
and Techniques, Morgan Kaufmann Publishers.
z Kdkeys, Forums sur le data mining, www.kdkeys.com
z Pal N. & Jain L. (2005), Advanced Techniques in
Knowledge Discovery and Data Mining, chapter Preface,
Springer.
z Piatestky-Shapiro G., KDnuggets: data mining software,
jobs, consulting, www.kdnuggets.com
z Piatetsky-Shapiro G. (2007), Data mining and knowled-
ge discovery 1996 to 2005: overcoming the hype and mo-
ving from «university» to «business» and «analytics», Data
mining and Knowledge Discovery, 15(1), 99-105.
z Smyth P. (2000), Data mining: Data analysis on a grand
scale? Technical Report CA 92697-3425, Information
and Computer Science, University of California.
z Statoo Consult A.G., www.statoo.ch
z Tan P.-N., Steinbach M., & Kumar V. (2006), Intro-
duction to Data Mining, Addison Wesley.
z Witten I. & Frank E. (2005), Data Mining: Practical
machine learning tools and techniques with Java implemen-
tations, Morgan Kaufmann Publishers. n
Data Mining: des données à la connaissance
1 / 2 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !