Datamining

publicité
Le forage de données ou data mining
Customer information
Définition de l’exploitation des
données (data mining)
L’exploration et l’analyse de grandes quantités de
données afin de découvrir des formes et des règles
significatives en utilisant des moyens automatiques
ou semi-automatiques.
Le data mining est utilisé
b
par plusieurs entreprises
• pour mieux connaître leur clientèle et accroître les
profits:
– Quel client restera fidèle et qui partira?
– Quels produits proposés à quels clients?
– Qu’est-ce qui détermine si une personne répondra à une offre
donnée?
– Quel est le prochain produit ou service qu’un client particulier
désirera?
• pour mieux gérer:
– la distribution
– la production
– les ressources humaines
L’exploitation des données devenue une
réalité industrielle
b
b
Les techniques d’exploitation des données existent
depuis des années.
L’utilisation de ces techniques dans l’industrie est
cependant beaucoup plus récente parce que:
•
•
•
•
•
Les données sont produites,
Les données sont archivées,
La puissance de calcul nécessaire est abordable,
Le contexte est ultra-concurrentiel,
Des produits commerciaux pour l’exploitation des
données sont devenus disponibles.
Entreprises courtiers en informations
(données = $$$)
b
b
b
b
b
b
IMS
AC Nielson
Equifax
Info Canada
Statistique Canada
ICOM
Data Mining: nouveauté ou marketing?
Modèles prédictifs:
–
–
–
–
–
b
b
Analyse discriminante
Régression logistique
Autres méthodes de régression
Arbres de régression (CHAID,CART,…)
Réseaux Neuronneaux (Neural networks)
Segmentation traditionnelle
Domaines de recherche
Principales méthodes multivariées
utilisées pour la modélisation
Technique
1- Régression multiple
2- Analyse discriminante
3- Régression logistique
4- Modèles log-lineaires
5- CHAID (arbres de rég.)
Date
1888
1936
1944,1955
1968
1980
Data Mining: nouveauté ou
marketing?
b
b
Nouveauté: logiciels informatiques.
2 méthodes ont moins de dix ans:
•
•
b
Réseaux neuronneaux
M.A.R.S.
Les deux principales méthodes utilisées
dans la majorité des industries existent
depuis plus de vingt ans.
Première étape: accès et qualité
de l’information disponible
b
Avant de pouvoir parler de data mining, on
doit avoir une base de données structurée.
•
•
•
Accès à l’information
données manquantes
données aberrantes
Accès à l’information
b
Il existe plusieurs types de structure de
bases de données:
•
`flat file`
–
•
Toute l’information du client est contenue dans un
même ficher qui peut être de longueur variable
Relationelle
–
L’information du client est contenu dans plusieurs
fichiers unis par une ‘clé’ commune, par exemple le
numéro du client
Données manquantes
•
Certaines information qui sont nécessaire
pour comprendre la clientèle sont
manquantes.
•
•
Ex: âge
Que faire ?
Données manquantes: solutions
possibles
 Remplacement par la moyenne
 Calculer la moyenne de la variable qui nous
intéresse parmis les enregistrements qui ont
une valeur. Cette valeur sera ensuite attribuée
à tous les enregistrements où la valeur est
manquante
 Avantages: rapide et facile d’exécution
 Désavantages: imprécis et perte de la
variabilité dans les données
Données manquantes: solutions
possibles
b
Remplacement aléatoire
•
•
•
Pour chacune des valeurs manquantes, ont attribuera
au hasard une des valeurs parmis l’ensemble des
valeurs des enregistrements non-manquants
Avantages: Permet de garder la variabilité dans les
données et la moyenne de la population
Désavantages: plus complexe à implanter et la valeur
imputée pour chacun des clients n’est pas plus
précise que le remplacement par la moyenne.
Données manquantes: solutions
possibles
b
Utilisation de la régression
•
•
•
On utilise la régression pour obtenir un estimé de la
valeur possible en utilisant les données des
enregistrement complets et de toutes l’information
disponible.
Avantages: méthode la plus précise (meilleure)
Désavantages: pas toujours possible (variables
explicatives) et la plus complexe à implanter.
Téléchargement