Le data mining

publicité
DESS ID
JUIN 2004
Tinseaux Benoit
Concept
Données – Data
« Ce qui est donné, connu, déterminé à l’avance dans l’énoncé d’un problème, et qui sert à découvrir ce qui est inconnu »
« Ce qui est admis, connu ou reconnu et qui sert de base à un raisonnement, de point de départ pour une recherche, une étude »
Source : Le Petit Robert
Le concept de datamining est né de la nécessité de rechercher dans des bases de données toujours plus importante, des informations pertinentes
mais aussi non triviales.
Le datamining n’est ni une technologie, ni un outil informatique, il s’agit véritablement d’un concept. L’émergence de l’informatique au sein des
entreprises ainsi que la chute du prix des modules de stockage ont convaincu les sociétés de se constituer des bases de données clientes.
Ces bases de données se révèlent être de véritables mines d’or pour peu qu’on sache les exploiter convenablement, c’est de ce besoin qu’est né le
concept de datamining.
Présentation
Introduction
Le datamining ou « fouille de données » est une étape de l’ECD (Extraction de Connaissances à partir de données) ou KDD (Knowledge
Discovery in Databases), l’ECD est un processus qui inclut des étapes préalables à la fouille elle même :
- Accès aux données, souvent disséminées dans plusieurs bases de données,
- Nettoyage pour corriger les erreurs, les doublons,…
- Mise en forme et codage des données souvent diverses : numériques, symboliques, images, textes, sons, …
- Sélection, ou construction, d’attributs (variables) et d’instances.
L’ECD inclut aussi des étapes ultérieures de valorisation et de communication des résultats, telles que la visualisation.
La fouille elle même (le datamining) opère sur des tableaux bi-dimensionnels ad hoc, souvent appelés datamarts.
Le datamining est un sujet qui dépasse aujourd’hui le cercle restreint de la communauté scientifique pour susciter un vif intérêt dans le monde
des affaires. Plusieurs définitions du datamining sont désormais employées :
-
« L’extraction d’informations originales, auparavant inconnues, potentiellement utiles à partir de données »
« La découverte de nouvelles corrélations, tendances et modèles par le tamisage d’un large volume de données »
« Un processus d’aide à la décision où les utilisateurs cherchent des modèles d’interprétation dans les données »
ou bien encore des choses plus poétiques mais poins explicites du style « torturer l’information disponible jusqu’à ce qu’elle avoue »
Le processus du datamining
Plus précisément, le datamining peut se décomposer en 8 étapes :
1.
2.
3.
4.
5.
6.
7.
8.
Poser le problème
Rechercher des données
Sélectionner les données pertinentes
Nettoyer des données
Transformer les variables
Rechercher le modèle
Evaluer le résultat
Intégrer la connaissance
Les principaux algorithmes du datamining
On dénombre sept techniques principales dans le domaine du datamining :
1. Apprentissage fondé sur l’explication (EBL ou Explanation Based Learning) : Apprentissage formé sur des explications dérivées
d’une théorie (généralement incomplète) fournie en entrée. Cette forme d’apprentissage repose sur des déductions pour expliquer les
données à partir de la théorie et sur des arbres de décision pour générer de la nouvelle connaissance.
2. Apprentissage statistique (STL pour Statistical Learning) : Cet apprentissage repose sur des opérations statistiques telles que la
classification bayésienne ou la régression pour apprendre à partir de données.
3. Apprentissage par réseaux neuronaux (NNL pour Neural Network Learning) : Un réseau de neurones est défini par un ensemble
d’unités de traitement qui peuvent être des unités soit d’entrée, soit de sortie, soit cachées. L’apprentissage s’effectue par l’injection
de cas en entrée et par la mesure des conclusions en sortie.
4. Apprentissage algorithme génétique (GAL pour Genetic Algorithm Learning) : Les algorithmes génétiques sont des procédures de
recherche fondées sur la dynamique de la génétique biologique. Ils comportent trois opérateurs, la sélection, la combinaison et la
mutation, qui sont appliqués à des générations successives d’ensemble de données. Les meilleures combinaisons survivent et
produisent, par exemple, des plannings, des règles…
5. Apprentissage par similarité (SBL pour Similarity Based Learning) : Ces techniques utilisent des indicateurs de similarité pour
regrouper des données ou des observations et pour définir des règles.
6. Apprentissage symbolique empirique (SEL pour Symbolic Empirical Learning) : Cette forme d’apprentissage extrait des règles
symboliques compréhensibles par l’utilisateur à partir de données. On retrouve dans cette catégorie les algorithmes ID3/C4.5 et CN2
notamment.
7. Apprentissage par analogie (ANL pour Analogy Learning) : L’apprentissage s’appuie sur l’analogie entre un nouveau cas et des cas
ressemblants soumis préalablement.
Les domaines d’application
Voici un liste non exhaustive des applications possibles du datamining par secteur d’activités :
-
-
-
Grande distribution et VPC : Analyse des comportements des consommateurs, recherche des similarités des consommateurs en
fonction de critères géographiques ou socio-démographiques, prédiction des taux de réponse en marketing direct, vente croisée et
activation sélective dans le domaine des cartes de fidélité, optimisation des réapprovisionnements.
Laboratoires pharmaceutiques : Modélisation comportementale et prédiction de médications ou de visites, optimisation des plans
d’action des visiteurs médicaux pour le lancement de nouvelles molécules, identification des meilleures thérapies pour différentes
maladies.
Banques : Modélisation prédictive des clients partants, détermination de pré-autorisations de crédit.
Assurance : Modèles de sélection et de tarification, analyse des sinistres, recherche des critères explicatifs du risque ou de la fraude,
prévision d’appel sur les plates-formes d’assurance directe.
-
Aéronautique, automobile et industries : Contrôle qualité et anticipation des défauts, prévision des ventes, dépouillement
d’enquêtes de satisfaction.
Transport et voyagistes : Optimisation des tournées, prédiction de carnets de commande, marketing relationnel dans le cadre de
programmes de fidélité.
Télécommunications, eau, énergie : Simulation de tarifs, détection de formes de consommation frauduleuses, classification des
clients selon la forme de l’utilisation des services, prévision de ventes.
Comme on peut le voir, le datamining peut s’appliquer à tous les domaines.
Enjeux
En préambule, les résultats du datamining doivent, s’ils veulent prouver leur rentabilité, être intégrés selon les cas, soit dans l’informatique de
l’entreprise, soit dans ses procédures. Ainsi, après avoir, par exemple, élaboré un modèle prédictif du départ d’un client à la concurrence, il
faudra soit mettre en place des programmes pour calculer le risque de départ, de chaque client, soit diffuser une procédure pour que les
commerciaux appliquent manuellement ces règles et prennent les mesures adaptées. Cela étant posé, les opérations de datamining se soldent
généralement par des gains significatifs tant en termes absolus (les gains) qu’en termes relatifs (les retours sur investissement). A titre indicatif, il
n’est pas rare que les premières applications de datamining génèrent plus de 10 fois l’investissement qu’elles auront nécessité, soit un retour sur
investissement de l’ordre du mois !
Afin d’illustrer ce potentiel, voici deux cas concrets :
-
Une banque veut améliorer son taux de transformation de rendez vous commerciaux en vente de produits financiers : 60 millions de
retour pour un investissement de 2 millions, soit une durée de retour sur investissement de l’opération de datamining en 12 jours
-
Une entreprise de vente par correspondance (VPC) cherche à améliorer le taux de rendement sur l’envoi de catalogue spécialisé : 1
millions de retour sur un investissement de 80 000 francs soit une durée de retour sur investissement d’environ 30 jours.
Comme on peut le voir le datamining permet de générer des gains important avec finalement peu de moyens. De plus, le datamining qui traite
sur des grands volumes de données permet de découvrir des pépites impossibles à dénicher par d’autres moyens, il est donc devenu un outil
indispensable aux entreprises.
Du datamining à l’analyse de données symboliques
Présentation de l’analyse de données symboliques
L’augmentation de la taille des bases de données, la diversité de formats des données ainsi que la précision de celles ci dans tous les domaines
d’activité sont de véritables gisements dans lesquelles les entreprises ont la possibilité de puiser pour en retirer de la connaissance. Ces
connaissances sont disponibles mais ne sont pas toujours évidentes à extraire et à représenter. Résumer ces données grâce à des concepts sous
jacents comme des pays, des marques, des catégorie socioprofessionnelles etc…) représente un enjeu très important pour les industrie. En effet,
ces concepts, contrairement à des données individuelles, peuvent être décrits par des données plus complexes que celle utilisées dans l’analyse de
données classique.
Ces données sont dites symboliques car elles expriment la variation interne inéluctable des concepts et sont structurées. L’a nalyse de données
symbolique est basée sur la vision du monde telle qu’il est réellement, ainsi, le monde est constitué d’individus (par exemple des produits, ou
bien encore des employés ou des clients) et de concepts (par exemple, les concepts correspondant aux individus précédents pourraient être des
catégorie de produit (boissons gazeuses, eau minérales plates,…), des statuts d’employés (cadres, techniciens, ouvriers,…) ou bien encore des
localisations géographiques des clients (pays, département, …).
"L'extension" d'un concept est l'ensemble des individus qui satisfont ses propriétés caractéristiques appelées "intention". Par exemple, l’extension
du concept « eau minérale plate » décrit l’ensemble des individus possédant les caractéristiques du concept (un certain taux de minéraux, pas de
nitrates, pas de bulles,…). Tous les individus possèdent un certain nombre d’attributs qui les décrivent, par exemple, dans le cas de personnes, la
taille, le poids, le sexe, la catégorie socioprofessionnelle etc…
Une description est constituée d'un ou plusieurs produits cartésiens exprimant ces propriétés par leur domaine de variation pour l'individu
considéré. Une classe d'individus est modélisée dans l'espace des descriptions à l'aide d'un opérateur utilisant les descriptions des individus qui la
constituent (l'intervalle de variation ou l'histogramme de leur âge, de leur taille, etc.). Chaque individu est considéré comme un cas particulier de
classe d'individus et donc aussi bien les classes que les individus peuvent être modélisés dans le même espace de description. Les concepts sont
modélisés dans un espace dit des "objets symboliques". Ainsi, chaque concept est modélisé par "un objet symbolique" qui représente son
intention et se définit par un triplet: la "description" d'une classe d'individus appartenant à l'extension du concept, un "opérateur de comparaison"
entre deux descriptions, une "fonction de reconnaissance". Comme les concepts, les objets symboliques ont une extension qui se calcule à l'aide
de leur fonction de reconnaissance.
Le premier grand principe de l'ADS consiste à analyser un ensemble d'individus tout en prenant en compte la statistique propre, les données
répétées, la variation interne de chacun d'entre eux, considéré d'abord comme un cas unique. Ainsi, quand cette variation n'est pas prise en
compte on se trouve dans le cas de l'Analyse des Données (AD) classique. Il en résulte, que toute méthode d'ADS doit avoir comme cas
particulier une méthode d'AD classique.
Le second grand principe qui dérive naturellement du premier est que les résultats obtenus doivent eux-mêmes s'interpréter en termes de données
symboliques ou d'objets symboliques, autrement dit, dans des termes plus riches que ceux utilisés en AD classique mais aussi intelligibles par
l'expert puisque ce sont ceux qu'il a utilisé en entrée. Le premier principe conduit à utiliser en entrée d'une ADS la définition de données dites
"symboliques" (i.e. "non purement numériques") qui prennent en compte la variation interne aux individus et leur complexité. Ainsi, un "tableau
de données symboliques" autorise plusieurs valeurs par case, ces valeurs étant parfois pondérées et liées entre elles par des règles et des
taxonomies. On peut montrer que de telles données ne sont pas réductibles, sans perte d'informations, à des données standard. Plusieurs grandes
sources d'unités statistiques (i.e. "individus de second ordre") munies de variation interne sont évoquées comme les bases de données, les
données stochastiques, les séries chronologiques, les données confidentielles. En sortie d'une ADS on peut obtenir des objets symboliques. On les
définit, on introduit les trois opérateurs de généralisation, de comparaison et d'agrégation qui permettent de les construire.
Apports de l’analyse de données symboliques
L’analyse de données symboliques est intéressante à plus d’un titre :
-
-
Les objets symboliques permettent la description d’objets plus complexes que la structure standard de tableau de données, et d’y
ajouter de la connaissance a priori sur les données (par exemple en définissant des hiérarchies sur les domaines de valeurs des
caractéristiques décrites).
La structure proposée n’est pas trop complexe, et permet d ‘étendre sans problème les méthodes standard d’analyse statistique des
données.
Les objets symboliques constituent en eux mêmes des résumés d’un tableau de données, puisqu’ils décrivent des groupes d’individus
au lieu d’individus élémentaires.
Le logiciel d’analyse de données symboliques SODAS
Présentation générale
La méthodologie proposée est basée sur les principes suivants :
• Chaque objet symbolique permettant de décrire un groupe d’individus, hypothèse est faite que la base de données contient à la fois la
description des individus élémentaires, leur appartenance aux groupes définissant les objets symboliques, ainsi que les connaissances a priori sur
les données (hiérarchies sur les domaines des attributs).
• La présence d’un schéma conceptuel (par exemple en entité-relation) aurait grandement facilité la spécification de l’extraction des objets
symboliques à partir d’une base de données relationnelle. Cependant, ce schéma conceptuel n’étant que rarement disponible (et les outils de
rétro-engineering étant lourds à mettre en œuvre), le choix s’est porté sur la spécification de requêtes type, associées à une sémantique
particulière, que l’utilisateur doit écrire en fonction de sa connaissance du schéma relationnel de la base de données. Un exemple de requête type
est la requête où la première colonne représente l’identifiant des individus, la seconde l’identifiant des groupes, et les autres colonnes
représentent des caractéristiques des individus. Ainsi, la spécification de la sémantique des données est reportée sur les connaissances de
l’utilisateur.
Exemples d’objets symboliques générés à partir de cette base de données
• Une fois les différentes requêtes spécifiées par l’utilisateur, des fonctions de généralisation sont appliquées pour construire les
descriptions des groupes d’individus à partir des descriptions des individus extraits de la base de donnée.
• Les objets symboliques générés par généralisation sont ensuite simplifiés en éliminant les individus atypiques qui conduisent à des
descriptions peu interprétables. Cette méthodologie a été mise en oeuvre sous la forme d’un module (DB2SO) du logiciel SODAS, qui s’est
avéré essentiel. Une attention particulière a été portée aux performances de ce module en terme de temps de réponse. En particulier, les objets
symboliques peuvent être construits à partir d’un échantillon des individus extraits de la base au lieu de l’ensemble des individus, si la taille du
résultat de la requête est importante.
Ces travaux contribuent à valoriser les informations stockées dans les bases de données relationnelles pour les raisons suivantes :
• Les objets symboliques construits constituent des résumés des bases de données, en supprimant les informations individuelles qui sont
souvent sensibles et difficiles à diffuser. Ils sont donc des objets de diffusion de la connaissance contenue dans les systèmes d’information des
entreprises.
• Les objets symboliques peuvent être analysés par les méthodes d’analyse statistique de données étendues aux objets symboliques dans le
projet SODAS. Par leurs capacités de synthèse et de prédiction de comportements, ces méthodes permettent de donner une valeur aux données de
l’entreprise.
Présentation DB2SO
DB2SO est le module d’importation et de transformation de base de données de SODAS, il est accessible par le menu « SODAS File » ->
« Import » -> « Importation (DB2SO) »
Vue générale :
Dans ce menu, il faut choisir la source de données, pour en créer une nouvelle, il faut continuer en cliquant sur le bouton « Nouveau », s’ouvre
alors une 2ème fenêtre dans laquelle il faut choisir le type de base de données que l’on souhaite importer dans DB2SO. Dans le cas présent, il
s’agira d’une base Access.
Il faut ensuite indiquer le nom dans laquelle la nouvelle base de données sera sauvée, ici elle sera sauvée sous le nom « Tennis1.mdb.dsn »
Il faut ensuite choisir la base de données à partir de laquelle DB2SO va créer la nouvelle base de données.
Il ne reste alors plus qu’à faire la requête SQL pour récupérer les données voulues à partir de la base de données, ici on récupérera toutes les
données de la table tennis dans la base de données.
DB2SO nous donnes alors quelques infos sur les données qu’il a importé, ici il a récupéré 50 individus ayant chacun 23 attributs : 9 qualitatifs et
14 quantitatifs.
Ajout d’une variable à expliquer
Pour ajouter une variable à expliquer, il existe une fonction spéciale dans DB2SO appelée « Add Single », cette fonction va permettre de créer
une requête SQL et ainsi d’importer la variable à expliquer.
Analyse d’une base de données à l’aide de SODAS
Présentation de la base de données à étudier
Nous allons faire une étude à l’aide du logiciel SODAS afin de mieux appréhender le concept d’objet symbolique.
La base de données étudiée a été constituée entièrement à la main sous access, à partir de site donnant des statistiques sur les joueurs de tennis,
les principaux sites utilisés ont été ceux de la fédération internationale de tennis et le site de l’ATP.
Cette base de données contient des informations sur les 50 premiers joueurs au classement « the race » de décembre 2002.
On pourra noter que par souci de simplicité pour les requêtes, seul la table « tennis » qui contient toutes informations nécessaires est utilisée dans
ce rapport, ainsi que la table pays pour l’ajout d’une variable « add single » ; de même on pourra remarquer que certains attributs présents dans la
table ne sont pas utilisés, ils ont néanmoins servi a nombreux tests même s’ils ne sont pas présents dans cette étude.
Les requêtes ne sont pas données car elles sont très simples, le choix des variables se faisant principalement au niveau de SODAS lui-même, ce
qui permet une plus grande flexibilité dans ce même choix des variables, ainsi que de faire de plus nombreuses analyses sans avoir a recharger
une base de données.
Utilisation des différentes méthodes présentes dans SODAS
SOE
La méthode SOE ( Symbolic Object Editor) permet de voir les objets symboliques crées, et cela sous forme de tableau ou bien d’étoile, les étoiles
permettent notamment de voir et de comparer des répartitions entre différents objet symboliques.
Un exemple de tableau, on y voit notamment que les concepts sont les pays et les écarts de quelques variables sur ces différents concepts comme
la taille, le poids etc…
Voici quelques exemples d’étoiles et qui nous donnent des informations intéressantes :
On voit par exemple sur ces 2 étoiles qui nous permettent de comparer le poids, la taille, le nombre de titres, les gains et la surface de prédilection
des joueurs Américains faces aux joueurs Espagnols. Il en ressort tout de suite que les joueurs Américains sont globalement plus grands et
surtout plus lourds que les Espagnols, le nombre de titres gagnés est a peu près similaire puisqu’il va de 0 à 5 chez les Américains et de 0 à 4
chez les Espagnols, de la même manière, les gains sont à peu près similaires. Par contre on voit que chez 100% des Espagnols la surface de
prédilection est terre battue alors que les Américains privilégient plutôt les surfaces dites « rapides » que sont l’herbe et le dur. On peut donc
trouver une corrélation entre la surface de prédilection et le rapport poids/taille : les surfaces rapides sont plutôt destinées aux joueurs puissants
que sont les « frappeurs » alors que la terre battue qui est la surface la plus lente privilégie plutôt les joueurs techniques et moins puissants.
Sur ces étoiles on peu tout de suite faire une comparaison de la taille, du poids, du classement et de l’age des joueurs des pays qui ont le plus de
joueurs classés dans le top 50.
Concernant l’age, on voit tout de suite que l’Argentine est le pays qui a le plus de jeunes talents, vient ensuite la Russie alors que les américains
et les Espagnols sont beaucoup plus âgés, la France est le pays où l’âge des joueurs est le plus réparti.
Concernant la taille, les russes, les espagnols et surtout les américains sont les plus grands, la France est le pays où les joueurs sont les plus petits.
Ensuite, il est intéressant de noter que malgré une répartition de taille assez similaire chez les russes, les espagnols et l es américains, les
espagnols sont beaucoup plus légers que les américains et les russes.
Concernant le classement ATP, bien que la répartition soit à peu près la même partout, on peut noter que seul l’Argentine et la France ne
possèdent pas de joueur dans le top 10.
STAT
La méthode STAT ( Elementary Statistics On Symbolic Objects) étend aux objets symboliques, représentés par leur description, plusieurs
méthodes de statistique élémentaire limitées aux données. C’est un composant de SODAS et donc il fonctionne dans SODAS avec les bases de
données de SODAS.
Les méthodes dépendent du type des variables de la base et sont filtrées en fonction de la méthode de travail :
- fréquences relatives pour variables multimodales (a)
- fréquences relatives pour variables intervalles (b)
- capacités et min/max/mean pour variables multimodales probabilistes
- biplot pour variables intervalles (d)
- objet central.
On voit par exemple sur ce graphique que la plupart des joueurs remportent entre 1 et 2 titres, les joueurs remportant plus de 2 titre ne représentent que 22% des joueurs, et
seuls 5 % des joueurs ont remportés plus de 4 titres.
Concernant la date de professionnalisation des joueurs, on remarque que presque 60% des joueurs classés au top 50 on commencé leur carrière professionnelle entre 1992 et
1996, ce qui veut dire qu’ils ont entre 6 et 10 ans de carrière professionnelle, l’expérience semble donc être in facteur essentiel de la réussite au tennis.
Par contre on voit que au delà de 11 années de carrière, le nombre de joueurs bien classés diminue très fortement, et de la même manière, le nombre de joueurs bien classés
ayant moins de 2 ans de carrière est très faible, on peut donc considérer que le tennis est un sport dans lequel l’apogée de la carrière se fait au bout de 6 à 10 ans mais que ce
succès est très éphémère et ne dure pas plus de 4-5 ans.
sur ce biplot on voit que les espagnols sont un peu moins grands mais ont un pourcentage de victoire sur herbe beaucoup plus faible que les anglais, on peut supposer que cela
est du au fait la majorité des courts de tennis en Angleterre est en herbe alors qu’en Espagne, le climat ne favorise pas ce genre de terrain dont l’entretien serait très couteux.
DIV
La méthode DIv (Divisive Clustering) est une méthode de classification hiérarchique qui effectue des division successives sur tous
les objets d’une classe. A chaque nœud, les classes sont divisées en 2 nouvelles classes selon qu’elles répondent ou on à la
« question » du nœud.. Cette question binaire induit le meilleur partage en deux classes selon une extension du critère de l’inertie.
L’algorithme se termine après k-1 divisions, où k représente le nombre de classes données comme inputs par l’utilisateur.
------------------------------------------------------BASE=C:\SODAS\Tmp\BKEU1W01.CMD nind=24 nvar=23 nvarsel=2
METHOD=DIVISIVE CLUSTERING
------------------------------------------------------VARIANCE OF THE SELECTED VARIABLES :
-----------------------------------Taille
: 46.625000
Poids
: 59.578125
------------------------------------------------------PARTITION IN 2 CLUSTERS :
-------------------------:
Cluster 1 (n=14) :
"Australie" "Russie" "Espagne" "Suisse" "Allemagne" "Argentine" "Suede" "France" "Chili" "Thailande"
"Belgique" "Bresil" "Finlande" "Autriche"
Cluster 2 (n=10) :
"USA" "Rep. Tcheque" "Royaume-Uni" "Pays Bas" "Maroc" "Roumanie" "Equateur" "Afrique du sud" "Bielorussie" "Croatie"
Explicated inertia : 43.072924
PARTITION IN 3 CLUSTERS :
-------------------------:
Cluster 1 (n=2) :
"France" "Autriche"
Cluster 2 (n=10) :
"USA" "Rep. Tcheque" "Royaume-Uni" "Pays Bas" "Maroc" "Roumanie" "Equateur" "Afrique du sud" "Bielorussie" "Croatie"
Cluster 3 (n=12) :
"Australie" "Russie" "Espagne" "Suisse" "Allemagne" "Argentine" "Suede" "Chili" "Thailande" "Belgique"
"Bresil" "Finlande"
Explicated inertia : 56.529842
PARTITION IN 4 CLUSTERS :
-------------------------:
Cluster 1 (n=2) :
"France" "Autriche"
Cluster 2 (n=5) :
"USA" "Royaume-Uni" "Roumanie" "Equateur" "Afrique du sud"
Cluster 3 (n=12) :
"Australie" "Russie" "Espagne" "Suisse" "Allemagne" "Argentine" "Suede" "Chili" "Thailande" "Belgique"
"Bresil" "Finlande"
Cluster 4 (n=5) :
"Rep. Tcheque" "Pays Bas" "Maroc" "Bielorussie" "Croatie"
Explicated inertia : 62.253936
THE CLUSTERING TREE :
--------------------- the number noted at each node indicates
the order of the divisions
- Ng <-> yes and Nd <-> no
+---- Classe 1 (Ng=2)
!
!----2- [Poids <= 71.000000]
!
!
!
+---- Classe 3 (Nd=12)
!
!----1- [Poids <= 81.250000]
!
!
+---- Classe 2 (Ng=5)
!
!
!----3- [Taille <= 189.500000]
!
+----
Classe 4 (Nd=5)
Les variables utilisées sont la taille et le poids, on voit que 14 pays ont des joueurs dont le poids moyen est inférieur à 81,25 kilos et parmis ces
pays, seuls 2 ont des joueurs dont le poids moyen est inférieur à 71 kilos.
Parmis les autres pays (ceux dont les joueurs font plus de 81 kilos) on voit que la moitié de ceux-ci ont des joueurs très grands, dont la taille
dépasse 190.
Pour cet exemple, peu de partition (4) a été sélectionné, car le fichier résultat devient vite très grand.
PCM
La méthode PCM (Principal Component Analisys), c’est une extension de la méthode d’analyse en composante principale classique
Dans cette analyse, la variable choisie est le pourcentage de victoire sur terre battue, on y voit tout de suite les disparités entre les différents pays.
TREE
La méthode TREE est une méthode qui crée un arbre de décision. Dans l’exemple qui suit, la « variable class identifier » est la surface de
prédilection de chaque pays et les variables prédictives sont la taille et le poids des joueurs.
RESULTS BY SYMBOLIC OBJECT
====================================================================================================
| No |
Nom
|Leaf
| Class
| Herbe | Terre | Moquet | Dur
| criterion|
|
|
| No
| true | assig.| ( 1) | ( 2) | ( 3) | ( 4) |
|
====================================================================================================
| 1 | "Australie"
|
9 |
1 | 2 (*)| 21.60 | 59.73 |
6.67 | 12.00 |
0.31 |
| 2 | "USA"
|
5 |
1 | 3 (*)| 38.62 | 15.84 | 39.06 |
6.48 |
0.37 |
| 3 | "Russie"
|
5 |
1 | 2 (*)| 15.30 | 51.81 | 32.89 |
0.00 |
0.31 |
| 4 | "Espagne"
|
9 |
2 | 2
|
7.50 | 72.50 | 12.50 |
7.50 |
0.50 |
| 5 | "Suisse"
|
5 |
3 | 3
|
0.00 |
0.00 | 100.00 |
0.00 |
0.65 |
| 6 | "Rep. Tcheque"
|
15 |
4 | 1 (*)| 100.00 |
0.00 |
0.00 |
0.00 |
0.36 |
| 7 | "Royaume-Uni"
|
57 |
1 | 1
| 100.00 |
0.00 |
0.00 |
0.00 |
0.56 |
| 8 | "Allemagne"
|
56 |
4 | 2 (*)|
0.00 | 69.05 | 16.67 | 14.29 |
0.16 |
| 9 | "Argentine"
|
5 |
2 | 2
|
0.00 | 56.51 | 35.71 |
7.78 |
0.41 |
| 10 | "Suede"
|
57 |
1 | 1
| 80.00 |
0.00 |
0.00 | 20.00 |
0.48 |
| 11 | "France"
|
6 |
4 | 2 (*)|
4.62 | 56.92 |
0.00 | 38.46 |
0.31 |
| 12 | "Chili"
|
6 |
2 | 2
|
0.00 | 40.00 | 20.00 | 40.00 |
0.33 |
| 13 | "Thailande"
|
8 |
3 | 2 (*)|
0.00 | 100.00 |
0.00 |
0.00 |
0.31 |
| 14 | "Pays Bas"
|
56 |
1 | 2 (*)|
0.00 | 100.00 |
0.00 |
0.00 |
0.54 |
| 15 | "Maroc"
|
29 |
2 | 2
|
0.00 | 100.00 |
0.00 |
0.00 |
0.92 |
| 16 | "Belgique"
|
9 |
2 | 2
|
0.00 | 100.00 |
0.00 |
0.00 |
0.74 |
| 17 | "Roumanie"
|
6 |
4 | 4
|
0.00 |
0.00 |
0.00 | 100.00 |
0.62 |
| 18 | "Equateur"
|
56 |
2 | 2
|
0.00 | 100.00 |
0.00 |
0.00 |
0.39 |
| 19 | "Bresil"
|
56 |
2 | 2
|
0.00 | 100.00 |
0.00 |
0.00 |
0.39 |
| 20 | "Afrique du sud"
|
15 |
1 | 1
| 100.00 |
0.00 |
0.00 |
0.00 |
0.64 |
| 21 | "Bielorussie"
|
5 |
3 | 3
|
0.00 |
0.00 | 100.00 |
0.00 |
0.65 |
| 22 | "Finlande"
|
9 |
2 | 2
|
0.00 | 100.00 |
0.00 |
0.00 |
0.74 |
| 23 | "Croatie"
|
5 |
3 | 3
|
0.00 |
0.00 | 100.00 |
0.00 |
0.65 |
| 24 | "Autriche"
|
8 |
2 | 2
|
0.00 | 100.00 |
0.00 |
0.00 |
0.53 |
====================================================================================================
==================================
| EDITION OF DECISION TREE
|
==================================
PARAMETERS :
Learning Set
:
24
Number of variables :
3
Max. number of nodes:
15
Soft Assign
: ( 1 ) FUZZY
Criterion coding
: ( 3 ) LOG-LIKELIHOOD
Min. number of object by node
:
5
Min. size of no-majority classes :
2
Min. size of descendant nodes
:
1.00
Frequency of test set
:
0.00
+ --- IF ASSERTION IS TRUE (up)
!
--- x [ ASSERTION ]
!
+ --- IF ASSERTION IS FALSE (down)
+---- [ 8 ]Terre Battue (
0.07
1.72
1.00
0.48 )
!
!----4[ Taille <= 182.000000]
!
!
!
+---- [ 9 ]Terre Battue (
0.59
2.65
0.00
0.35 )
!
!----2[ Poids <= 78.000000]
!
!
!
+---- [ 5 ]Moquette (
0.79
0.68
3.00
0.17 )
!
!----1[ Age <= 25.000000]
!
!
+---- [ 6 ]Dur (
0.38
0.55
0.00
1.53 )
!
!
!----3[ Taille <= 182.000000]
!
!
+---- [ 56 ]Terre Battue (
1.53
2.31
0.00
0.43 )
!
!
!
!---28[ Age <= 26.000000]
!
!
!
!
!
+---- [ 57 ]Herbe (
1.76
0.08
0.00
0.05 )
!
!
!
!---14[ Age <= 30.000000]
!
!
!
!
!
+---- [ 29 ]Terre Battue (
0.09
1.00
0.00
0.00 )
!
!
!----7[ Poids <= 84.000000]
!
+---- [ 15 ]Herbe (
1.79
0.00
0.00
1.00 )
Conclusion
Téléchargement