Rapport F1 - Lamsade - Université Paris

publicité
Tan Christophe
Data Mining
Tran Kinh Julienne
Mr Diday
PROJET SODAS
Quels sont les facteurs qui font gagner une écurie en Formule1 ?
Master MIDO
Université de PARIS-DAUPHINE
Spécialité ISF
SOMMAIRE
I) Présentation du Data Mining et du logiciel SODAS……………………………………. p3
A/ Émergence du Data Mining ……………………………………………………... p3
B/ Analyse des données symboliques………………………………………………... p3
1) Individus de premier ordre et de second ordre ……………………….... p4
2) Le tableau de données symboliques ……………………………………... p4
3) Les objets symboliques …………………………………………………… p5
4) Les apports de l’analyse de données symboliques …………………….... p5
C/ Présentation du logiciel SODAS ………………………………………………… p7
1) Fonctionnement du logiciel ……………………………………………….. p7
2) Interface du logiciel ………………………………………………………. p8
II) Construction Base de données…………..………………………………………………. p9
A) Structure de la base ……………………………………………………………… p9
B) Variables et requêtes…………………………………………………………….... p10
1) Explication des champs de description…………………………………... p10
2) Création des requêtes……………………………………………………… p12
3) Démarrage de SODAS : DB2SO………………………………………….. p13
III) Les Méthodes……………………………………………………………………………. p18
A) SOE (Symbolic Objects Editors)………………………………………………… p18
1) Principe…………………………………………………………………….. p18
2) Application…………………………………………………………………. p18
B) STAT.……………………………………………………………………………… p24
C) DIV………………………………………………………………………………… p27
D) PYR (Pyramidal Clustering on Symbolic Objects)……………………………... p30
E) Synthèse……………………………………………………………………………. p32
CONCLUSION……………………………………………………………………………….. p35
BIBLIOGRAPHIE…………………………………………………………………………… p34
2
I) Présentation du Data Mining et du logiciel SODAS
A/ Émergence du Data Mining
Les entreprises subissent aujourd’hui une intensification de la concurrence ou de la pression des
clients. Ces facteurs les poussent à améliorer constamment la qualité de leurs produits et à
accélérer de manière générale leurs processus de mise sur le marché de nouveaux produits et
services.
Parallèlement, les systèmes d’informations se sont développés pour contribuer à améliorer la
productivité des traitements. Depuis deux décennies environ, l’attention des entreprises s’est
progressivement détournée des systèmes opérationnels pour se porter sur des systèmes
décisionnels qui contribuent véritablement à la différenciation stratégique de l’entreprise.
Les fournisseurs de solutions informatiques ont donc développé des offres nouvelles autour du
concept de « Data Warehouse » ou « entrepôt de données », vastes bases de données
décisionnelles détaillées, orientées sujet et historisées. Ces entrepôts de données disposent bien
sûr de capacités de reporting, c’est-à-dire de présentation de données ou d’agrégats sous forme de
tableaux ou de graphiques, mais ils permettent rarement de découvrir des associations ou des
tendances qui se nichent dans les tréfonds d’une base de données, d’où l’émergence du Data
Mining.
En effet, le Data Mining est une réponse au besoin croissant qu’ont les entreprises d’un surcroît
de productivité dans l’analyse de leurs données.
L'objectif est alors de synthétiser des informations stockées dans une base de données
relationnelle (BDR) de manière à effectuer des analyses ultérieures non pas sur les données
initiales mais sur les résultats obtenus.
B/ Analyse des données symboliques
Résumer les bases de données de taille parfois gigantesques par leurs concepts sous-jacents de
façon à en extraire des connaissances nouvelles constitue une tâche d'importance grandissante.
Savoir représenter ces connaissances par des expressions à la fois symboliques et numériques,
savoir manipuler et utiliser ces expressions dans le but d'aider à décider, de mieux analyser,
3
synthétiser et organiser les observations, tel est l'objectif que s'assigne l'analyse des données
symboliques.
Les concepts qu'ils soient fournis (une région, un groupe socio-économique, un type
d'entreprise…) ou obtenus par classification automatique (nuées dynamiques, hiérarchie,
pyramide, treillis de concepts) peuvent être modélisés par des données plus complexes dites «
symboliques » où les propriétés peuvent s'exprimer par des valeurs qualitatives ou quantitatives
mais aussi par des intervalles, des histogrammes ou des valeurs multiples munies de règles et de
taxonomies.
Ces objets symboliques booléens ou modaux permettent non seulement de décrire les concepts
par leurs propriétés communes (booléennes, probabilistes...) mais aussi de calculer leur extension
dans l'ensemble des individus qu'ils représentent (des habitants, des employés, des entreprises…).
1) Individus de premier ordre et de second ordre
Les bases de données qui se développent partout dans le monde prenant parfois des tailles
gigantesques possèdent deux niveaux d'informations. Le premier concerne les entités de base
appelées parfois « tuples » ou « individus ». Le second concerne des entités d'un niveau plus
élevé que l'on peut appeler « concepts » pouvant représenter de grandes quantités d'informations,
obtenues par classification automatique ou par une requête.
2) Le tableau de données symboliques
Un « tableau de données symboliques » autorise plusieurs valeurs par case, ces valeurs étant
parfois pondérées et liées entre elles par des règles et des taxonomies. Plusieurs sources d'unités
statistiques (« individus ») munies de variation interne sont évoquées comme les bases de
données, les données stochastiques, les séries chronologiques, les données confidentielles...
L'Analyse des données symboliques a pour objectif d'étendre l'analyse des données
traditionnelles aux tableaux de données symboliques pour en extraire des objets symboliques.
Différents types d'objets symboliques sont considérés selon que les variables décrivant les
individus sont à valeur « intervalle », « histogramme » ou « variable aléatoire ». On propose en
particulier une modélisation stochastique où pour chaque variable, chaque individu est décrit par
4
une variable aléatoire, ces variables aléatoires pouvant être dépendantes et de lois différentes d'un
individu à l'autre. Les treillis constituent la structure sous-jacente des objets symboliques. Les «
pyramides classifiantes » permettent de réduire les classes de ce treillis et d'en donner une
représentation graphique.
3) Les objets symboliques
Afin de résumer le contenu d’une base de donnée, les méthodes d’analyse de données
symboliques fournissent généralement en sortie des « descriptions » de classes d’individus
obtenues par « généralisation ». Partant de ces descriptions, il est important de pouvoir retrouver
les classes qu’elles résument. Les objets symboliques permettent d’effectuer ce retour. Elles
permettent de décrire les concepts par leurs propriétés communes mais aussi de calculer leurs
extensions dans l’ensemble des individus qu’ils représentent.
4) Les apports de l’analyse de données symboliques
Par rapport aux approches classiques, l'Analyse des données symboliques présente les
caractéristiques et ouvertures suivantes :
- Elle s'applique à des données plus complexes. En entrée, elle part de données symboliques
(variables à valeurs multiples, intervalle, histogramme, distribution de probabilité…) munies de
règles et de taxonomies et peut fournir en sortie des connaissances nouvelles sous forme d'objets
symboliques.
- Elle utilise des outils adaptés à la manipulation d'objets symboliques de généralisation et
spécialisation, d'ordre et de treillis, de calcul d'extension, d'intention et de mesures de
ressemblance tenant compte des connaissances sous-jacentes basées sur les règles et taxonomies.
- Elle fournit des représentations graphiques exprimant entre autres la variation interne des
descriptions symboliques. Par exemple, en analyse factorielle, un objet symbolique sera
5
représenté par une zone, elle-même exprimable sous forme d'objet symbolique, et pas seulement
par un point.
Les principaux avantages des objets symboliques peuvent se résumer comme suit :
- Ils fournissent un résumé de la base plus riche que les données agrégées habituelles car ils
tiennent compte de la variation interne et des règles sous-jacentes aux classes décrites, ainsi que
des taxonomies fournies.
- Ils sont explicatifs puisqu'ils s'expriment sous forme de propriétés des variables initiales ou de
variables significatives obtenues (axes factoriels).
- En utilisant leur partie descriptive, ils permettent de construire un nouveau tableau de données
de plus haut niveau sur lequel une analyse de données symbolique de second niveau peut
s'appliquer.
- Afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés joignant des
variables provenant de plusieurs tableaux associés à différentes populations. Par exemple, pour
construire un objet symbolique associé à une ville, on peut utiliser des propriétés issues d'une
relation décrivant les habitants de chaque ville et une autre relation décrivant les foyers de chaque
ville.
- Ils peuvent être facilement transformés sous forme de requête d'une Base de Données. Ceci a au
moins les deux conséquences suivantes :
1) Ils peuvent propager les concepts qu'ils représentent d'une base à une autre (par exemple,
d'un pays à l'autre de la communauté européenne).
2) Les objets symboliques formés à partir de la base par les outils de l'Analyse des données
symboliques permettent de définir des requêtes et donc de fournir des questions qui
peuvent être pertinentes.
6
C/ Présentation du logiciel SODAS
1) Fonctionnement du logiciel
Il s'agit d'un logiciel prototype public (accessible à www.ceremade.dauphine.fr). Il est issu de la
collaboration de 17 équipes dans le cadre d'un projet de EUROSTAT appelé SODAS comme le
logiciel qui en est issu pour fournir un cadre aux différentes avancées récentes et futures du
domaine.
Il permet l'extension des méthodes de l'Analyse des données classiques (Statistiques descriptives,
Analyse factorielle, Classification Automatique, Arbres de décisions...) à des données
symboliques.
Son idée générale est la suivante : à partir d'une base de données, construire un tableau de
données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des
concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire des
connaissances par des méthodes d'analyse de données symboliques.
Les principales étapes d'une analyse des données dans SODAS, sont les suivantes :
- Partir d'une base de données relationnelle (ORACLE, ACCESS...)
- Définir ensuite un contexte par des unités statistiques de premier niveau (habitants, familles,
entreprises, accidents...), les variables qui les décrivent, des concepts (villes, groupes socioéconomiques, scénario d'accident...).
- Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque
habitant est associé à sa ville).
- Ce contexte est défini par une requête de la base.
- On construit alors un tableau de données symboliques dont les nouvelles unités statistiques sont
les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui
leur sont associées.
7
Le logiciel SODAS permet alors d’analyser les données symboliques sous forme
d’histogrammes, d’étoiles..., de les comparer par des calculs de dissimilarité, de les classifier, de
donner une représentation graphique et une description symbolique des classes obtenues
(hiérarchie divisive, hiérarchie ou pyramide ascendante de concepts), d'en donner une
représentation graphique plane (analyse en composantes principales), de les discriminer (analyse
factorielle discriminante, arbres de décision)...
2) Interface du logiciel
Application des
méthodes
Les différentes
méthodes proposées
8
II) Construction Base de données
A) Structure de la base
La base de donnée F1.mdb est celle qui nous servira pour notre étude. Il s’agit d’une base de
données relationnelles sous format Access. Elle a été créée entièrement à partir de du site
Internet : www.lequipe.fr
Cette base de donnée regroupe 22 pilotes et 11 écuries. Les informations concernant les pilotes et
les écuries sont notamment le nom, l’age, le nombre de victoire…
Dans le but d’avoir une vision plus précise de cette base de données et de son organisation, le
schéma suivant permet de montrer les différentes tables créées ainsi que leurs relations entre
elles.
Schéma relationnel de la base de données :
9
Notre base est donc constituée de deux tables. Nous allons donc présenter en détail chacune des
tables composant la base de donnée :
-
La table Team pour les concepts, qui contient toutes les informations concernant les
écuries de Formule 1.
-
La table Pilotes pour les individus, stocke le profil des pilotes.
Pour définir la structure de notre base, il a fallu au préalable établir des critères qui sont
susceptibles d’influencer le résultat d’une course tels que l’expérience des pilotes et la catégorie
de la voiture.
Chacun des critères est évalué grâce à l’un des attributs que nous avons inclus dans les tables de
la base. En établissant la description des individus et des concepts, nous gardons à l’esprit qu’il
s’agit ici de déceler les facteurs qui permettent de gagner en Formule 1.
B) Variables et requêtes
1) Explication des champs de description
Les individus sont les pilotes et sont décrits par les variables suivantes :
- Nom : c’est le nom du pilote
- Nationalité : pays d’origine du pilote
- Age : age du pilote
- Début_en_F1 : année où le pilote a débuté sa carrière en Formule 1.
- Expérience : caractérise l’expérience du pilote en Formule 1.
- NbGP : nombre de Grand Prix couru par le pilote.
- NbVictoire : nombre de victoire obtenue par le pilote.
- NbPoduim : nombre de fois où le pilote est monté sur le podium.
- Nb_dans_les_points : nombre de fois où le pilote a terminé la course dans les points.
- Nb_Pole : nombre de pole position obtenu par le pilote.
- Nb_meilleur_Tour : nombre de fois où le pilote a terminé la course avec le meilleur tour.
- Nb_Pts_marqués : nombre total de points marqués par le pilote durant sa carrière.
10
- Ratio_pts : c’est le ratio points du pilotes, obtenu en divisant le nombre de points total marqués
par le nombre total de Grand prix.
- Champion_du_monde : Oui si le pilote a déjà été champion du monde.
- Team : écurie avec lequel le pilote est sous contrat.
- ClTeam : caractérise la catégorie de l’écurie.
La classe Expérience est déterminée en fonction du nombre de Grand Prix. On a donc réparti les
pilotes selon 3 catégories :
-
Débutant : le pilote compte mois de 21 Grand Prix à son actif (c'est-à-dire moins d’une
saison complète à son actif).
-
Confirmé : le pilote compte plus de 21 Grand Prix à son actif (c'est-à-dire que le pilote
compte plus d’une saison complète à son actif).
-
Expérimenté : le pilote compte plus de 100 Grand Prix à son actif.
La classe ClTeam est déterminée en fonction du classement des derniers championnats et du
budget de l’écurie. Ainsi on obtient la répartition suivante pour les 11 écuries :
-
Top : Ferrari, McLaren et BMW Sauber, qui sont considérés comme les favoris.
-
Bon : Renault, Williams et Toyota, qui sont considérés comme des outsiders.
-
Correct : Red Bull Racing, Honda.
-
Petite : Toro Rosso, Super Aguri et Force India, qui sont considérés comme les écuries les
plus faibles du plateau.
Les concepts sont donc les 11 écuries engagées en Formule 1. Les variables de description des
concepts sont les suivantes :
-
Nom : nom de l’écurie.
-
Age : ancienneté de l’écurie (calculé à partir de sa date de création).
-
NbGP : nombre total de Grand Prix auquel l’écurie a participé.
-
NbVictoire : nombre total de victoire de l’écurie.
-
NbTitres : nombre de titre de champion du monde des constructeurs.
-
Classement2007 : classement de l’écurie lors de la saison précédente (2007).
11
2) Création des requêtes
Les requêtes utilisées sont au nombre de deux.
La requête individu_concept renvoie les individus du premier ordre et leur description. Elle
permet ainsi de ressortir de la base les individus, les concepts puis les caractéristiques des
individus sous la forme suivante :
Au travers de DB2SO et ODBC, SODAS va pouvoir transformer ces tuples en tableau
symbolique. On passe ainsi au niveau du dessus en matière d’information puisque SODAS
présente une description des concepts en agrégeant les caractéristiques des individus (ordinal,
nominal) en champ symboliques (intervalles, probabiliste...)
La construction de la requête individu_concept :
12
La requête concept_description permet d’ajouter des colonnes de description du concept dans
SODAS. Elle permet ainsi de réaliser ce que l’on appelle des « add single ».
Elle est constituée de la manière suivante :
La construction de la requête concept_description :
3) Démarrage de SODAS : DB2SO
DB2SO est un élément du logiciel SODAS qui permet à l’utilisateur de construire un ensemble
d’assertions à partir de données stockées dans une base de données relationnelle. Il est supposé
qu’un ensemble d’individus et stocké dans une base de données et que ces individus sont
distribués dans des groupes. Alors, DB2SO peut construire une assertion pour chaque groupe
13
d’individus. Dans ce processus, les variables mère/fille et les taxonomies sur des domaines de
variables peuvent aussi être associées à des assertions générées.
Pour que SODAS puisse exploiter les données de notre base, il convient de préparer la structure
des tables en fonctions de convention propres aux données symboliques. Pour ce faire, nous
avons crée deux requêtes : individu_concept et concept_description.
Ces deux requêtes nous ont donc permis de disposer les données de manières exploitables pour
DB2SO, et par la même SODAS.
DB2SO est invoqué à partir Import dans SODAS file.
14
Dans DB2SO, cliquer sur new, puis Source de données machine et Ms Access Database.
15
Après avoir défini la base de données F1.mdb, il s’agit d’exécuter chaque requête, que nous
avons vu précédemment, de la façon suivante :
16
Dans Modify, cliquer sur Add single permet ainsi d’ajouter la deuxième requête qui nous donne
les concepts ainsi que leurs descriptions.
Après les avoir toutes exécutées, DB2SO nous fournit un récapitulatif reprenant toutes les
variables et tous les concepts définis.
17
Il s’agit ensuite d’enregistrer la session en un fichier *.gaj par l’intermédiaire de la commande
File/Save.
Ensuite, il faut exporter ce fichier (File/Export) pour créer un nouveau fichier SODAS de type
*.sds. Ce fichier sera la base de toutes les applications SODAS.
III) Les Méthodes
A) SOE (Symbolic Objects Editors)
1) Principe
La méthode SOE permet de représenter les variables sous la forme de tableaux ou de graphes
selon le concept sélectionné, cet éditeur permet donc aux utilisateurs de visualiser tous les objets
symboliques présents dans SODAS et éventuellement d’effectuer des modifications basiques des
données.
Par ailleurs il permet aussi de visualiser des représentations graphiques en 2D ou en 3D, ainsi
qu’une représentation SOL (Symbolic Object Language) de chaque objet symbolique.
2) Application
Nous avons retenu ici les 2 meilleures écuries et les 2 dernières écuries du dernier championnat
(2007), afin de pouvoir déterminer ce qui les différencient le plus.
Les Objets que nous analysons sont donc : Ferrari, BMW Sauber, Toro Rosso et Super Aguri.
Les variables descriptives que nous analyserons pour chaque objet sont :
-
Age
-
Début_en_F1
-
Expérience
-
NbGP
-
NbVictoire
-
NbPodium
-
Nb_dans_les_points
18
-
Nb_Pts_marqués
-
Ratio_pts
-
Champion_du_monde
-
ClTeam
Représentation 2D : une variable qualitative est représentée par un point de taille proportionnelle
au nombre d’occurrences rencontrées dans l’étude. Si on souhaite avoir une vue plus précise de la
répartition de la variable considérée, on peut faire appel à l’autre représentation, le graphique en
3D.
19
Représentation 3D : ce graphique représente les variables qualitatives sous formes
d’histogrammes et les variables quantitatives par intervalle, matérialisé par un trait sur un axe.
On observe que l’écurie Ferrari fait partie des Top Team en Formule 1, qu’elle possède un
champion du monde dans ses rangs, qui plus est le tenant du tire, des pilotes ayant plus de 5
saisons de F1 dans leurs bagages, gagnant des grand prix et marquant des points (ratio point
compris entre 2.4 et 3.3 points).
20
BMW Sauber qui est actuellement deuxième au classement des constructeurs, fait également parti
des Top Team en Formule 1, avec des pilotes expérimenté et confirmé, ayant un ratio point
compris entre 1.1 et 2.5 par Grand Prix.
21
L’écurie Super Aguri fait parti des petites écuries courant au championnat du monde de Formule
1. On observe que malgré le fait que ses deux pilotes titulaires soient des pilotes confirmés, ils
n‘ont jamais remporté de Grand Prix, marquent très peu de point voire quasiment jamais (ratio
points compris entre 0 et 0.5).
22
On observe que Toro Rosso, l’une des petites écuries du plateau, compte parmi ses rangs deux
pilotes novices, et par conséquent des pilotes ayant très peu de Grand Prix à leurs actifs, mais
surtout un ratio point quasi nul.
23
Interprétation générale :
Les quatre représentations graphiques que SODAS nous fournit, présentent des éléments de
similarité entre les écuries bien classées et mal classées au championnat du monde. En effet, on
peut voir que les variables expérience, classement team et ratio point sont déterminantes dans la
réussite en Formule 1. On constate bien que les deux premières écuries au classement des
constructeurs possèdent dans leurs rangs des pilotes expérimentés ou confirmés, ayant un ratio
point supérieur à un point par Grand Prix et surtout, elles sont cataloguées comme des Top Team.
Alors que les deux écuries en bas du classement, catégorisées comme des petites écuries,
possèdent eux en revanche, des pilotes débutants ou confirmés, ayant un ratio point nul.
D’après ces premières observations, on peut donc dire que pour gagner, il faut un pilote
expérimenté ou confirmé, qui soient également talentueux afin d’être capable de remporter des
courses et une voiture capable de gagner.
B) STAT
La méthode STAT (Elementary Statistics On Symbolic Objects) étend aux objets symboliques,
représentés par leur description, plusieurs méthodes de statistique élémentaire limitées aux
données.
La méthode appliquée dépend du type des variables présentes dans la base et sont filtrées selon
leur nature :
-
fréquences relatives pour les variables multi nominales : dans cette méthode, la fréquence
relative des différentes modalités de la variable multi nominale est étudiée en prenant
compte des éventuelles règles relatives à la base sur laquelle l’étude est réalisée.
-
fréquences relatives pour les variables intervalles : deux paramètres sont nécessaires à
l’entrée de cette méthode : une variable intervalle, noté i et un nombre de classe, noté k.
Un histogramme est construit pour la variable i sur un intervalle [a, b] découpé en k
classes et où a représente la borne inférieure de i et b sa borne supérieure. Cette méthode
permet de calculer la fréquence relative associée à la classe Ck tout en tenant compte du
recouvrement de cette classe Ck par les valeurs intervalles de i et ceci pour tous les objets
symboliques.
24
-
capacités et min/max/mean pour variables multi nationales probabilistes : cette méthode
permet de construire un histogramme des capacités des différentes modalités de la
variable considérée. Dans cet histogramme, la capacité d’une modalité est représentée par
l’union des différentes capacités.
-
biplot pour les variables intervalles : cette méthode permet de construire un objet
symbolique par un rectangle dans le plan de deux variables sélectionnées par l’utilisateur.
La dimension de chaque coté du rectangle correspond à l’étendue de la variation de
l’objet symbolique relativement à la variable de l’axe considéré.
STAT est donc un ensemble de méthodes permettant de voir sous forme de listing ou de graphe
les statistiques élémentaires relatives à nos données symboliques. Cette méthode va nous
permettre de préciser et de confirmer les interprétations de la méthode SOE.
La variable étudiée ici est le ratio points. Le nombre de classes choisi est 6. On observe que la
classe [0,1] prédomine et que plus le ratio point augmente, plus la fréquence des classes diminue.
25
La variable étudiée est le nombre de victoire et le nombre de classes choisi est 6. On peut voir
qu’il y a qu’une poignée de pilote capable de remporter au moins 4 courses. Ces pilotes font
partis des grosses écuries tels que Ferrari, McLaren, Renault…
On remarque que les deux écuries Super Aguri et Toro Rosso ont dans leur rang des pilotes ayant
un ratio point compris entre 0 et 1. Et que Ferrari et BMW Sauber, eux possèdent des pilotes
ayant un ratio point supérieur à 1. On retrouve donc bien le lien entre le ratio points et le succès
en Formule 1, qui confirme les résultats obtenus avec SOE. Pour réussir en Formule 1, il faut
donc une voiture qui permet aux pilotes de gagner et ainsi engranger des points.
26
C) DIV
DIV (Divisive Clustering) est une méthode de classification hiérarchique qui commence avec
tous les objets et procède par divisions successives de chaque classe. A chaque étape, une classe
est divisée en deux classes selon une question binaire. Cette question binaire induit le meilleur
partage en deux classes selon une extension du critère de l’inertie. L’algorithme se termine après
k-1 divisions, où k représente le nombre de classes données comme inputs par l’utilisateur.
Application :
Les variables utilisées ici sont le nombre de victoire et le ratio points. Ainsi il sera possible de
voir la répartition entre le nombre de victoire et le ratio points.
Le nombre de classes choisi est de 5.
Le résultat obtenu est le suivant :
PARTITION IN 2 CLUSTERS :
-------------------------:
Cluster 1 (n=7) :
BMW Sauber Williams Toyota Toro Rosso Super Aguri Force India McLaren
Cluster 2 (n=4) :
Ferrari Renault Red Bull Racing Honda
Explicated inertia : 77.780177
PARTITION IN 3 CLUSTERS :
-------------------------:
27
Cluster 1 (n=7) :
BMW Sauber Williams Toyota Toro Rosso Super Aguri Force India McLaren
Cluster 2 (n=2) :
Red Bull Racing Honda
Cluster 3 (n=2) :
Ferrari Renault
Explicated inertia : 86.397146
PARTITION IN 4 CLUSTERS :
-------------------------:
Cluster 1 (n=6) :
BMW Sauber Williams Toyota Toro Rosso Super Aguri Force India
Cluster 2 (n=2) :
Red Bull Racing Honda
Cluster 3 (n=2) :
Ferrari Renault
Cluster 4 (n=1) :
McLaren
Explicated inertia : 93.034756
PARTITION IN 5 CLUSTERS :
-------------------------:
Cluster 1 (n=6) :
BMW Sauber Williams Toyota Toro Rosso Super Aguri Force India
28
Cluster 2 (n=2) :
Red Bull Racing Honda
Cluster 3 (n=1) :
Renault
Cluster 4 (n=1) :
McLaren
Cluster 5 (n=1) :
Ferrari
Explicated inertia : 96.716229
THE CLUSTERING TREE :
---------------------
+----
Classe 1 (Ng=6)
!
!----3- [Ratio_pts <= 2.957518]
!
!
!
+----
Classe 4 (Nd=1)
!
!----1- [NbVictoire <= 3.750000]
!
!
+----
!
!
Classe 2 (Ng=2)
!----2- [NbVictoire <= 8.000000]
!
!
+----
!
!
Classe 3 (Ng=1)
!----4- [NbVictoire <= 10.500000]
!
+----
Classe 5 (Nd=1)
29
On peut voir qu’il y a 4 écuries (Ferrari, Renault, Red Bull Racing et Honda) dont la moyenne de
victoire de leurs pilotes soit supérieur à 3.75, et que parmi ces 4 écuries, il y en a 2 (Ferrari et
Renault), qui ont une moyenne supérieure à 8 victoires dont une écurie (Ferrari) où la moyenne
de victoire des 2 pilotes est supérieur à 10.5.
Parmi les 7 autres écuries dont la moyenne du nombre de victoire de leurs pilotes est inférieure à
3.75, il y en a 6 qui ont un ratio points inférieur à 2.96 (moyenne des ratio points des 2 pilotes).
D) PYR (Pyramidal Clustering on Symbolic Objects)
Après avoir étudié les classes de nos variables symboliques avec STAT, nous allons utiliser la
méthode PYR de SODAS qui permet de caractériser les classes en les organisant sous forme de
paliers. La pyramide est outil intéressant pour représenter les classes empiétantes et situer les
écuries les unes par rapport aux autres en fonction de critères définis.
Les variables sélectionnées sont : le nombre de victoire, le ratio points, le classe de l’écurie et
l’expérience des pilotes. Ces variables là sont celles qui ont été mise en avant par les méthodes
précédentes comme facteur de victoire en Formule 1.
30
La pyramide semble bien nous indiquer que le nombre de victoire obtenu par les pilotes des
écuries, le ratio points, la catégorie de l’écurie et l’expérience de ses pilotes sont des variables
décisives dans la réussite en Formule 1. En effet, on peut voir que les trois petites écuries du
plateau sont regroupées dans le bas de la pyramide alors que la plupart des écuries faisant parti du
haut du classement 2008 sont regroupées dans le haut de la pyramide.
31
E) Synthèse
Cette étude nous a permis de trouver quelques facteurs source de succès en Formule 1, tels que la
performance de la voiture, l’expérience et le talent des pilotes.
Cependant, grâce à la pyramide, on a aussi pu voir les limites de notre étude. En effet, McLaren
qui est pourtant une Top Team se retrouve en bas de cette pyramide, alors qu’elle possède en ses
rangs des pilotes ayant un ratio points supérieur à 2 points par Grand Prix (dont Lewis Hamilton
qui possède un ratio point de 6.14).
Ainsi il y a donc d’autre facteur entrant en jeu. En effet, on ne tient pas compte dans cette étude
des points marqués par les pilotes pour leurs écuries actuelles mais on prend en compte les points
marqués dans la totalité de leurs carrières. Par le biais des transferts, on retrouve ainsi des pilotes
totalisant un nombre important de point marqué durant leur carrière dans des petites écuries.
Giancarlo Fisichella en est le parfait exemple. En effet, il a été longtemps pilote chez Renault, là
où il a marqué la majorité de ses points, alors qu’il est aujourd’hui chez Force India et ne marque
plus aucun point. Ainsi, on ne peut pas vraiment juger une écurie sur le total des points de ses
pilotes.
Pour McLaren, leurs pilotes possèdent un ratio points important, mais ont à peine une saison de
Formule 1 dans leurs bagages ce qui explique ce ratio important. Ces deux pilotes que sont Lewis
Hamilton et Heikki Kovalainen ont eu la chance de débuter leur carrière dans des écuries de
premier rang et par conséquent, leurs probabilités de marquer des points en Grand Prix étaient
donc plus grandes. On peut voir qu’un pilote comme Kimi Raikkonen, le champion du monde en
titre possède un ratio point inférieur de moitié à celui de Lewis Hamilton. Ceci s’explique par le
fait que Raikkonen a commencé sa carrière dans une petite écurie et a eu pour conséquence de lui
faire participer à un certain nombre de Grand Prix sans qu’il ait une chance de marquer un point.
Ce qui réduit considérablement son ratio points. On peut donc dire que le plan de carrière d’un
pilote peut aussi influencer ce ratio et donc lui donne finalement une importance moindre.
Au final, le critère qui importe le plus serait donc la voiture. Sans une bonne voiture, l’écurie aura
très peu de chance de gagner, peu importe le talent du pilote, qu’il soit champion du monde ou
non. On peut prendre par exemple Damon Hill qui a été sacrée champion du monde en 1996 et
qui a ensuite rejoint en 1997 Arrows, une petite écurie qui n’existe plus aujourd’hui, pour ne
marquer que 7 points contre 97 points lors de son sacre en 1996.
32
CONCLUSION
Suite à ce projet, on constate que le logiciel SODAS est un outil très intéressant pour l’extraction
de données symboliques. Il permet non seulement de faire des analyses statistiques très poussées,
mais en plus, permet de comparer les différents concepts enter eux.
C’est donc un logiciel qui peut conduire à des informations très intéressantes, à condition que la
base de données de départ tienne compte de tous les paramètres pouvant influencer la
problématique de notre sujet.
Pour notre problématique, il s’est avéré que les données utilisées étaient trop générales, et qu’il
aurait fallu faire une recherche plus approfondie, afin de trouver des données plus détaillées
concernant les pilotes et les écuries. Ces données là nous auraient sûrement permises de faire une
étude plus approfondie, et obtenir plus de certitude concernant les facteurs favorisant la réussite
en Formule 1. En effet, on aurait pu rajouté dans notre base de données, des informations
concernant les éléments de la voiture comme le moteur, la boîte de vitesse,…
33
BIBLIOGRAHIE
Cours Data Mining Supervisé 2008, E. Diday, Université Paris Dauphine.
Site Internet :
www.lequipe.fr
www.ceremade.dauphine.fr/%7Etouati/sodas-pagegarde.htm
34
Téléchargement