Data Mining - Flash informatique

Téléchargement

FI 10 – 18 décembre 2007 – page 4

Data Mining

des données à la connaissance

Sandro.Saitta@epﬂ.ch, EPFL/IMAC (Laboratoire d’informatique et de mécanique appliquées à la construction)

Cet article a pour but de présenter le data mining, un

domaine de recherche particulièrement impor-

tant de nos jours puisqu’il sert à fournir un sens aux données.

Il est aussi passionnant, puisqu’il se base sur la capacité des

ordinateurs à apprendre et à s’améliorer avec le temps, pour,

par exemple, effectuer des prédictions.

Il ne s’agit en aucun cas d’un tutoriel sur ce sujet, mais

plutôt d’une introduction, porte d’entrée, sur ce domaine.

La dernière publication conséquente sur le data mining parue

dans le FI est l’excellent article de Kuonen et Furrer sur le

langage R (Data mining avec R dans un monde libre, FI/

SP/01, dit.epﬂ.ch/publications-spip/spip.php?article284). On

peut aussi noter l’article de Rajman et Faltings sur l’analyse

des données textuelles (A la poursuite de l’information:

techniques de recherche et d’analyse pour données

textuelles, FI/SP/97, ditwww.epﬂ.ch/SIC/SA/publications/

FI97/ﬁ-sp-97/sp-97-page34.html).

De S D o n n é e S à l a c o n n a i S S a n c e

Les données seules n’ont presque aucune valeur. Alors que

la quantité de données augmente de manière exponentielle,

les gens sont en fait assoiffés de connaissance. La connaissance

est obtenue par la compréhension des données. Le fossé entre

les données brutes et la connaissance peut être énorme. Plus

on a de données, plus il est difﬁcile d’en tirer de la connais-

sance. Il est parfois assumé que plus de données signiﬁe plus

de connaissance. La raison d’une telle assertion est générale-

ment le manque d’appréciation de la différence entre le fait

d’obtenir des données et le fait de les comprendre.

in t r o D U c t i o n a U d a t a m i n i n g

Dans notre société, il y a de plus en plus de capteurs me-

surant n’importe quels changements de notre environnement.

Par conséquent, une tâche importante est la compréhension

de ces données. Comme noté par Piatestky-Shapiro (2007),

«[…] as long as the world keeps producing data of all kinds

[…] at an ever increasing rate, the demand for data mining

will continue to grow». Le data mining, textuellement minage

de données (mais souvent traduit en français par fouille de

données) est un domaine qui consiste à comprendre les don-

nées, généralement par le moyen de méthodes statistiques.

En d’autres termes, le data mining cherche à identiﬁer des

tendances parmi les données. Comme ce processus peut être

très difﬁcile, il est souvent comparé au minage de l’or dans les

rivières1: le gravier des alluvions représente l’énorme quantité

de données et les pépites d’or représentent la connaissance

cachées que l’on veut trouver.

le data mining peut être comparé au minage de l’or dans les

rivières

En simpliﬁant légèrement, on peut diviser les différentes

techniques de data mining suivant deux objectifs principaux:

la prédiction et la description. La plupart des applications de

data mining ont pour but la prédiction: pour un ensemble

d’apprentissage dont on connaît les entrées et la sortie, on

aimerait prédire la sortie d’un ensemble de test. Prenons

l’exemple de la reconnaissance de caractères. On entraîne

l’algorithme choisi sur une base de données qui contient

les entrées (par exemple une matrice de pixels correspon-

dant au chiffre écrit) et la sortie (par exemple le chiffre

représenté par ces pixels). Ensuite, on utilise l’algorithme

entraîné pour prédire, c’est-à-dire deviner selon les pixels,

la sortie, autrement dit, le chiffre écrit. Aussi magique que

cela puisse paraître, tout ceci est possible grâce à l’utilisation

de méthodes statistiques. Dans le cas de la description, le

but est de trouver de la connaissance à partir des données

brutes, sans connaître la sortie. L’exemple le plus connu est

le clustering. Cela consiste à chercher des groupes distincts

parmi les données. Imaginons par exemple que l’on mesure

une série de paramètres sur plusieurs plantes (taille, type de

feuilles, etc.). Avec le clustering, on peut essayer de grouper

ces plantes en classes qui correspondent par exemple à des

espèces différentes.

Dans la littérature sur le sujet, le terme d’apprentissage

automatique (machine learning) est souvent utilisé. La prin-

cipale différence entre l’apprentissage automatique et le data

mining est l’usage que l’on en fait. Alors que le domaine de

l’apprentissage automatique se concentre sur les algorithmes

d’apprentissage, le data mining met l’accent sur le processus

d’extraction de la connaissance. L’apprentissage automatique

consiste à programmer l’ordinateur pour qu’il apprenne à

effectuer des tâches humaines, par exemple.

1 En français, on utilise généralement le terme orpaillage.

FI 10 – 18 décembre 2007 – page 5

l’Homme enseigne à la machine à effectuer des tâches humaines

(d’après M.C. Escher – Drawing Hands, 1948)

D’après Han et Kamber (2001), le terme data mining

se réfère à l’extraction de connaissances à partir de grandes

quantités de données. Le data mining est un domaine récent

qui se situe à l’intersection des statistiques, de l’apprentissage

automatique et des bases de données.

Le data mining se situe à l’intersection des statistiques, de

l’apprentissage automatique et des bases de données.

br e F h i S to r i qU e S U r l e d a t a m i n i n g

D’après Pal et Jain (2005), les origines du data mining re-

montent à 1989, lors du premier workshop KDD (Knowledge

Discovery in Databases). En statistiques, la procédure habi-

tuelle est de faire des hypothèses sur les données et ensuite

de tester ces hypothèses. Quand les ensembles de données

contiennent plusieurs centaines ou milliers d’attributs,

cette tâche devient difﬁcile. Avec la facilité grandissante

qu’ont les ordinateurs à stocker et traiter les données en

un temps raisonnable, les approches ont évolué en tests et

hypothèses. Le domaine du data mining a émergé dans les

années 1990. Cependant, l’usage du terme data mining est

bien plus ancien.

En médecine, Harris utilise un certain type de régres-

sion pour déterminer le risque lié aux angiocardiographies

dès 1984. Dans son travail, il utilise le terme data mining

comme un synonyme d’exploration des données. En 1983,

Lovell écrit un article dont le titre est Data Mining. En

économétrie, le terme data mining a même une connotation

négative. L’article le plus ancien contenant le terme data mi-

ning est certainement celui de Jorgenson en 1970. Cela dit,

c’est seulement dans le début des années 1990 que ce terme

est adopté avec son sens actuel. Un bref historique du data

mining peut être lu dans l’article de Smyth (2000).

ex e m P l e S D’a P P l i c a t i o n S P o S S i b l e S

Plusieurs livres récents décrivent en détails le domaine

du data mining, ses algorithmes, ses applications et même

les nombreux pièges qu’il recèle (Hand 2001, Webb 2002,

Tan 2006). Les applications les plus connues concernant le

data mining sont la reconnaissance d’images, de textes et du

langage. Le data mining a aussi été utilisé dans l’analyse de

séquences ADN, la ﬁnance, le Web, la reconnaissance du

spam ou encore les recommandations comme celles faites

par Amazon ou Ebay pour ne citer qu’eux. Des entreprises

telles que KDnuggets aux Etats-Unis, mais aussi Statoo

Consulting en Suisse, entièrement dédiées au data mining,

sont de plus en plus présentes. Il est clair que ce domaine en

pleine croissance va intéresser la plupart des entreprises qui

travaillent avec de grandes quantités de données. Quelle en-

treprise ne voudrait pas de prédictions sur la consommation

de ses clients ou de recommandations automatiques pour

que le client achète plus?

Certains auteurs ont aussi relevé les limites des techni-

ques de data mining, comme par exemple dans le domaine

du contre-terrorisme. Finalement, le lecteur intéressé par

une introduction plus détaillée sur le data mining, pourra

consulter le très bon article de Fayyad et Uthurusamy (2002)

ou l’excellent livre de Witten et Frank (2005).

ré F é r e n c e S

z Blog de l’auteur: www.dataminingblog.com

z Fayyad U. & Uthurusamy R. (2002), Evolving data

mining solutions for insights, Communications of the

ACM, 45(8), 28-31.

z Han J. & Kamber M. (2001), Data Mining: Concepts

and Techniques, Morgan Kaufmann Publishers.

z Kdkeys, Forums sur le data mining, www.kdkeys.com

z Pal N. & Jain L. (2005), Advanced Techniques in

Knowledge Discovery and Data Mining, chapter Preface,

Springer.

z Piatestky-Shapiro G., KDnuggets: data mining software,

jobs, consulting, www.kdnuggets.com

z Piatetsky-Shapiro G. (2007), Data mining and knowled-

ge discovery 1996 to 2005: overcoming the hype and mo-

ving from «university» to «business» and «analytics», Data

mining and Knowledge Discovery, 15(1), 99-105.

z Smyth P. (2000), Data mining: Data analysis on a grand

scale? Technical Report CA 92697-3425, Information

and Computer Science, University of California.

z Statoo Consult A.G., www.statoo.ch

z Tan P.-N., Steinbach M., & Kumar V. (2006), Intro-

duction to Data Mining, Addison Wesley.

z Witten I. & Frank E. (2005), Data Mining: Practical

machine learning tools and techniques with Java implemen-

tations, Morgan Kaufmann Publishers. n

Data Mining: des données à la connaissance

1 / 2 100%

Documents connexes

titre sur 1 ou 2 lignes maximum

Stage en Data Mining - Machine Learning Group

Fiche-UE_CODE_CR_OPT_DM - LIRIS

Glossaire

8INF954 : Forage de données -Data mining

Data/Pattern Analysis

Télécharger le programme de la formation

Systèmes Artificiels Complexes

Data Mining : Techniques et Applications

Extraction de connaissance

Initiation à la science des données-data science

Application bancaire du data mining Prédiction du chiffre d`affaires

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Data Mining - Flash informatique

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Data Mining - Flash informatique

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib