DISCUSSION ET COMMENTAIRES
Data mining et analyse des données
Dans les années 80-90 le développement des moyens de stockage et de
calcul a permis de mettre en œuvre de nouvelles méthodes en analyse de
données mais c'est l'approche data mining qui a, par la structuration de
l'information (utilisation de la méthodologie des bases de données dans la
définition de l'architecture et la construction des relations), introduit les
méthodes d'analyse des données dans les entreprises en y ajoutant quelques
approches originales. Et c'est cette modélisation de l'information qui a permis
d'interfacer facilement, avec un contrôle renforcé de la qualité de l'information,
les données aux outils de statistique ou d'analyse de données. Les bases de
données relationnelles et le langage SQL permettent au statisticien de ne plus
perdre de temps dans la phase de définition de la représentation des données,
et par suite, j'y crois personnellement, une possibilité réelle de consacrer plus
de temps à la construction et au choix de modèles.
Le data mining a remis en lumière l'approche exploratoire dans le processus de
modélisation. Par ce fait, l'utilisation de cette approche exploratoire, proposée
dans le data mining, inclut naturellement l'approche statistique en tant que
principale démarche de traitement de l'information, notamment dans sa phase
confirmatoire.
Automatisation des procédures
Il est à noter que le data mining n'a pas commis les même erreurs que
les systèmes experts qui ont confondu automatisation et expertise. On ne
peut qu'encourager l'automatisation des procédures, proposée par le data
mining, car elle devrait permettre, à court terme, une recherche efficace de
modèles statistiques. De même, il faut amplifier la formation en statistique
afin d'améliorer l'expertise statistique qui est indispensable dans toute modéli-
sation. L'inférence des modèles et de changement de méthodes au cours d'une
analyse en data mining demande effectivement une bonne formation à la sta-
tistique. A ce sujet, on ne peut que regretter que l'enseignement de la sta-
tistique ne soit pas illustré plus fréquemment par des exemples issus du data
mining.
A l'inverse des systèmes experts l'approche data mining valorise le savoir
faire du statisticien en lui demandant d'émettre un jugement (analyse explo-
ratoire) ou de prendre une décision (analyse confirmatoire) sur la nature d'un
phénomène à partir des données expérimentales.
Dans l'enseignement actuel de la statistique, ce problème inverse (la distribu-
tion de la population est inconnue, ou bien «learning
from
data» ou «what
the
data says» nouveaux slogans des statisticiens américains) est trop sou-
vent jugé moins important que le problème direct incluant ainsi la statisti-
que dans la théorie des probabilités. Avec l'accroissement de la précision des
expériences, la multiplication des appareils de mesure et de calcul, le rôle du
78