Data Mining
Pourquoi le data mining ?
Disponibilité croissante de quantité énorme de données
Données sur les clients
Numérisation de textes, images, vidéo, voix, etc.
World Wide Web et catalogue en ligne
Données en trop grandes quantités pour être traitées
manuellement ou par des algo. classiques
Nombre d’enregistrements en million ou milliard
Donnee de grande dimension (trop de
champs/attributs/caractéristiques)
Souvent trop clairsemée
Sources de données hétérogènes
Nécessité économique
e-commerce
Haut degré de concurrence
personalisation, fidélisation de la clientèle, market segmentation
Pourquoi le data mining ?
Qu’est-ce qui a conduit à l’explosion des données ?
La technologie est disponible pour aider à collecter les données :
code barre, scanners, satellites, logs des serveurs, etc.
La technologie est disponible (et bon marché) pour aider à stocker :
base de données, data warehouses, bibliothèques nulériques, www
Gavés de données mais en manque de connaissances
“The greatest problem of today is how to teach people to ignore the
irrelevant, how to refuse to know things, before they are
suffocated. For too many facts are as bad as none at all.” (W.H.
Auden)
De quoi a-t-on besoin ?
Extraire des connaissances intéressantes et utiles à partir des
données
Règles, régularités, irrégularités, motifs, contraintes
Sources de données
Business Transactions
Large utilisation des codes barre => stockage de millions de
transactions quotidiennes (Walmart : 2000 magasins => 20M
transactions par jour)
Le problème le plus important : utilisation efficace des données en
un temps raisonnable pour des prises de décision compétitives
e-commerce
Données Scientifiques
Données engendrées par une multitude d’expériences et
d’observations
Exemples : données géologiques, images satellitaires, bio-puces
Données Financières
company information
economic data (GNP, price indexes, etc.)
stock markets
Sources de données
Données personnelles / statistiques
recensement
Dossier médical
Profil de client
Données démographiques
Données et statistiques dans le sport
World Wide Web et Répertoires Online
email, news
Web documents, images, video, etc.
link structure of the hypertext from millions of Web sites
Web usage data (from server logs, network traffic, and user
registrations)
online databases, and digital libraries
dynamically generated data
difficulties primarily emanate from the unstructured, unstable,
heterogeneous characteristics of data (such as Web data)
1 / 26 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !