Conservatoire National des
Data Mining sur Internet
Version 1
Arts et Métiers de Lille
Le 15.12.1998
C:\CNAM\Probatoire.doc
Probatoire en Ingénierie des systèmes décisionnels
Page 1
SOMMAIRE
Page
1 - PREAMBULE ................................................................................................................................................................... 3
2 - INTRODUCTION ............................................................................................................................................................. 3
2.1 - PRESENTATION D'INTERNET ................................................................................................................................. 3
2.1.1 - Internet n'est pas récent ......................................................................................................................................... 3
2.1.2 - Les différentes sphères d'Internet .......................................................................................................................... 3
2.1.3 - Internet est un phénomène à tres forte croissance ................................................................................................ 4
2.1.4 - Internet est riche d'informations ............................................................................................................................ 4
2.2 - PRESENTATION DU DATA MINING ....................................................................................................................... 4
2.2.1 - Présentation générale ............................................................................................................................................ 4
2.2.2 - Définition ............................................................................................................................................................... 6
2.3 - INTERNET ET DATA MINING .................................................................................................................................. 6
3 - LE DATA MINING COTE SERVEUR .......................................................................................................................... 7
3.1 - PRESENTATION GENERALE ................................................................................................................................... 7
3.2 - METHODOLOGIE ...................................................................................................................................................... 8
3.2.1 - Acquérir les données ............................................................................................................................................. 8
3.2.2 - Les cookies ............................................................................................................................................................ 8
3.2.3 - Nettoyer les données .............................................................................................................................................. 9
3.2.4 - Identifier les transactions ...................................................................................................................................... 9
3.2.5 - Intégration et formatage des données.................................................................................................................. 10
3.2.6 - Traitement de data mining ................................................................................................................................... 10
3.2.6.1 - Analyse de chemins .......................................................................................................................................................... 10
3.2.6.2 - Les règles d'associations................................................................................................................................................... 11
3.2.6.3 - Les règles de séquences .................................................................................................................................................... 11
3.2.6.4 - Les règles de classification (clusterisation) ...................................................................................................................... 12
3.2.7 - Synoptique général .............................................................................................................................................. 13
3.3 - EXPLOITATION ET ANALYSE DES RESULTATS ............................................................................................................... 14
3.3.1 - Les outils OLAP ................................................................................................................................................... 14
3.3.2 - Les outils de visualisation et de cartographie ..................................................................................................... 14
4 - LE DATA MINING COTE CLIENT ............................................................................................................................ 15
4.1 - LE DATA WEB .......................................................................................................................................................... 15
4.1.1 - Présentation du data warehouse ......................................................................................................................... 15
4.1.2 - Définition du data web ........................................................................................................................................ 15
4.1.3 - Présentation ......................................................................................................................................................... 16
4.1.4 - Accès à des pages statiques ................................................................................................................................. 17
4.1.5 - Accès à des pages dynamiques ............................................................................................................................ 17
4.1.6 - Conclusion ........................................................................................................................................................... 18
4.2 - LES AGENTS INTELLIGENTS OU KNOWBOT .................................................................................................... 19
4.2.1 - Présentation ......................................................................................................................................................... 19
4.2.2 - Utilisation ............................................................................................................................................................ 19
5 - LE DATA MINING ENTRE LE CLIENT ET LE SERVEUR ................................................................................... 21
5.1 - OPTIMISATION DES TELECOMMUNICATIONS ................................................................................................ 21
5.1.1 - Améliorer le routage ......................................................................................................................................... 21
5.1.2 - Améliorer la conception, la supervision et la maintenance ................................................................................. 21
5.2 - LA RECHERCHE D'INFORMATIONS SUR INTERNET ....................................................................................... 22
5.2.1 - Etudes diverses .................................................................................................................................................... 22
5.2.2 - Le text mining ...................................................................................................................................................... 22
5.2.3 - Le multimédia mining .......................................................................................................................................... 24
5.3 - AUTRES ASPECTS ......................................................................................................................................................... 24
5.3.1 - Paver les autoroutes de l'information .................................................................................................................. 24
5.3.2 - Activités de veille ................................................................................................................................................. 25
6 - L'ETHIQUE .................................................................................................................................................................... 26
Conservatoire National des
Data Mining sur Internet
Version 1
Arts et Métiers de Lille
Le 15.12.1998
C:\CNAM\Probatoire.doc
Probatoire en Ingénierie des systèmes décisionnels
Page 2
7 - CONCLUSION ................................................................................................................................................................ 27
8 - REMERCIEMENTS ....................................................................................................................................................... 27
9 - GLOSSAIRE .................................................................................................................................................................... 28
10 - INDEX ............................................................................................................................................................................ 41
11 - BIBLIOGRAPHIE ET REFERENCES UTILISEES ................................................................................................ 43
11.1 - OUVRAGES ET VIDEO ............................................................................................................................................... 43
11.2 - ETUDES ET RAPPORTS ................................................................................................................................................ 43
11.3 - REVUES - HORS SERIES - ARTICLES............................................................................................................................. 45
11.4 - ADRESSES INTERNET .......................................................................................................................................... 45
11.5 - SALONS KDD ......................................................................................................................................................... 45
12 - TABLE DES ILLUSTRATIONS ................................................................................................................................. 46
Conservatoire National des
Data Mining sur Internet
Version 1
Arts et Métiers de Lille
Le 15.12.1998
C:\CNAM\Probatoire.doc
Probatoire en Ingénierie des systèmes décisionnels
Page 3
1 - PREAMBULE
L'objet de cette étude est de voir comment il est possible d'utiliser les techniques de data
mining sur internet. A ma connaissance, aucun ouvrage ne traite actuellement de ce sujet.
Aussi, la principale source de renseignements a consisté à trouver sur internet des informations
fiables sur le sujet. La majorité des références ne sont pas bibliographiques mais des adresses
électroniques. La méthodologie utilisée pour la recherche est reprise en annexe 1.
La vocation de ce sujet n'est pas de faire un exposé sur les méthodes de data mining ou sur la
technologie internet mais de voir comment on peut les utiliser ensembles.
2 - INTRODUCTION
2.1 - PRESENTATION D'INTERNET
2.1.1 - Internet n'est pas récent
Contrairement aux idées reçues, Internet n'est pas un phénomène récent. C'est en 1969 que le
gouvernement américain (plus précisément le DOD : Department Of Defense, soit le ministère
de la défense) décide de mettre en place un système (Arpanet) pour relier les ordinateurs entre
eux à des fins de défense nationale. En 1986, la NSF (National Science Foundation) et la
NASA décident d'interconnecter les universités américaines. Très rapidement, ce système sera
étendu à de nombreuses universités étrangères. Depuis 1992, Internet est devenu accessible au
grand public.
2.1.2 - Les différentes sphères d'Internet
Internet repose sur trois principaux types de services :
La messagerie (e-mail ou mél en français) qui permet l'échange de documents et courriers
électroniques. Un aspect intéressant de la messagerie est la possibilité de s'inscrire à une
mailing list, c'est à dire émettre et recevoir des messages à une communauté de personnes
ayant des centres d'intérêt communs.
Les forums de discussions (newsgroups) qui permettent à plusieurs individus de se
regrouper autour d'un même thème.
Le Web permet d'accéder à des pages via un navigateur (browser). Ces pages contiennent
du texte, des données, des fichiers, des images, du son,
Conservatoire National des
Data Mining sur Internet
Version 1
Arts et Métiers de Lille
Le 15.12.1998
C:\CNAM\Probatoire.doc
Probatoire en Ingénierie des systèmes décisionnels
Page 4
2.1.3 - Internet est un phénomène à tres forte croissance
Depuis son début, Internet connaît une croissance très forte. Le nombre de serveurs a presque
doublé sur un an (source : http://www.nw.com/zone/host-count-history - Voir annexe 2),
passant de 19 à 38 millions en juillet 1998. Selon IDC, les dépenses liées au développement de
sites passeront de 211 milliards de dollars cette année à un montant estimé de 954 Milliards de
dollars en 2002. Les dépenses spécifiques au commerce en ligne passeront, toujours sur la
même période, de 17 à 167 Milliards de dollars. Enfin, selon le groupe Forrester
(http://www.forrester.com), le nombre de sites doublerait tous les 53 jours.
2.1.4 - Internet est riche d'informations
Toutes les activités informationnelles de la vie courante peuvent être réalisées sur Internet :
Consulter des bibliothèques, des rapports, des études, voir des expositions, visiter des écoles,
contacter des experts, écouter la radio, voir la télévision, lire un journal ou un livre,
"rencontrer" des gens et échanger des idées, L'information sur Internet est très, voire trop
abondante.
2.2 - PRESENTATION DU DATA MINING
2.2.1 - Présentation générale
Il semble aujourd'hui difficile de donner une définition rigoureuse du data mining. Ce terme
subit un effet de mode et tout devient data mining. Le terme de Data Mining est souvent
employé pour désigner l’ensemble des outils permettant à l’utilisateur d’accéder aux données
de l’entreprise, de les analyser. Nous restreindrons ici le terme de Data Mining aux outils et
méthodes ayant pour objet de générer des informations riches, de préférence à partir de
données historisées, de découvrir des modèles implicites dans les données.
Les outils d’aide à la décision, qu’ils soient relationnels ou OLAP, laissent l’initiative à
l’utilisateur, qui choisit les éléments qu’il veut observer ou analyser. Au contraire, dans le cas
du Data Mining, le système a l’initiative et découvre lui-même les associations entre données,
sans que l’utilisateur ait à lui dire de rechercher plutôt dans telle ou telle direction ou à poser
des hypothèses. Il est alors possible de prédire l’avenir, par exemple le comportement d’un
client, et de détecter, dans le passé, les données inusuelles, exceptionnelles.
Ces outils ne sont plus destinés aux seuls experts statisticiens mais doivent pouvoir être
employés par des utilisateurs connaissant leur métier et voulant l’analyser, l’explorer. Seul un
utilisateur connaissant le métier peut déterminer si les modèles, les règles, les tendances
trouvées par l’outil sont pertinentes, intéressantes et utiles à l’entreprise. Ces utilisateurs n’ont
donc pas obligatoirement un bagage statistique important, du moins est-ce l’objectif visé.
Conservatoire National des
Data Mining sur Internet
Version 1
Arts et Métiers de Lille
Le 15.12.1998
C:\CNAM\Probatoire.doc
Probatoire en Ingénierie des systèmes décisionnels
Page 5
L’outil doit donc soit être ergonomique, facile à utiliser et rendant transparentes toutes les
formules mathématiques et termes techniques utilisés, soit permettre de construire une
application “clé en main”, rendant à l’utilisateur transparentes toutes les techniques utilisées.
On pourrait définir le DATA MINING comme une démarche ayant pour objet de découvrir des
relations et des faits, à la fois nouveaux et significatifs, sur de grands ensembles de données.
On devrait ajouter que la pertinence et l'intérêt du data mining sont conditionnés par les enjeux
attachés à la marche entreprise, qui doit être guidée par des objectifs directeurs clairement
explicités ("améliorer la performance commerciale", "mieux cibler les prospects", "fidéliser la
clientèle", "mieux comprendre les performances de production"...).
Le succès du concept de DATA WAREHOUSE et le nombre croissant de bases de données
décisionnelles disponibles dans les entreprises, dynamise fortement l'offre data mining.
Cette offre tend à se démocratiser, en cherchant à rendre accessible au plus grand nombre, les
divers outils du data mining. Pour cela, elle adopte de plus en plus un caractère "moderne" et
"convivial", parfois "boîte noire" pour ne pas dire "boîte magique".
Pour qui connaît depuis longtemps les outils de statistique et d'analyse de données, ce
phénomène peut paraître curieux. On sait depuis longtemps procéder à des classifications
automatiques, construire et exploiter des modèles performants, rechercher des corrélations
entre variables... On connaît même dans bien des cas l'incertitude attachée aux prévisions
réalisées, ce qui permet de relativiser ou pondérer les prises de décisions correspondantes (ce
dernier point est aussi essentiel que de déterminer les décisions elles-mêmes...).
On peut cependant faire aux méthodes "traditionnelles" le reproche de ne pas avoir é
vulgarisées. Le jargon qu'elles utilisent, les outils mathématiques (mal connus du grand public)
sur lesquels elles s'appuient, les hypothèses préalables et validations requises pour une mise en
œuvre rigoureuse... sont autant de freins à un usage répandu de ces méthodes.
Si des outils plus "récents", comme les réseaux de neurones ou les arbres de décisions,
connaissent un certain succès, ils le doivent à leurs performances, mais probablement aussi à
leurs qualités de convivialité, liées à une terminologie souvent plus accessible, à leur
présentation résolument "pratique" et à l'occultation des mécanismes et algorithmes internes
qui les régissent.
Pour autant, les problèmes de mise en œuvre, de compréhension des phénomènes et de
validation des résultats subsistent. Ils sont même dans une certaine mesure amplifiés par la
simplicité apparente de ces outils, qui n'incite pas toujours à la rigueur.
Une synthèse positive et optimiste des différents outils et courants pourrait consister à
améliorer la convivialides méthodes traditionnelles et à proposer un cadre méthodologique
rendant plus fiable et rigoureuse l'utilisation des outils plus récents.
1 / 46 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !