II-2 - Ceremade

publicité
2007 - 2008
Master MIAGE & DECISION
Spécialité : Informatique décisionnelle
PROJET DATAMINING
Recherche des profils patients dépassant la durée
normale de séjour au centre hospitalier de
Poissy-St Germain en Laye
Etudiants :
Alpha Oumar BAH
Aurel CRECIUN
Tuteur : Professeur Edwin DIDAY
1
SOMMAIRE
Sommaire __________________________________________________________________ 2
INTRODUCTION ________________________________________________________________ 3
Première Partie4:Présentation du datamining et du logiciel sodas ________________________ 4
1 - Objectifs généraux du DATAMINING ____________________________________________ 4
1-1 Caractéristiques et ouvertures l’analyse des données symboliques ______________________________ 4
1-2 Avantages des objets symboliques ______________________________________________________ 5
2- Etude de marché des outils Datamining ____________________________________________ 6
2-1 Panorama des outils existant sur le marché (Benchmark) _____________________________________ 6
2-2 Le logiciel SODAS (Symbolic Official Data Analysis System) ________________________________ 7
3- Description sommaire du mode opératoire _________________________________________ 9
3-1 Les principaux onglets de Sodas ________________________________________________________ 9
3-2 Sélection d’une base d’étude __________________________________________________________ 10
3-3 Choix des méthodes à appliquer _______________________________________________________ 10
Partie 2 : ETUDE STATISTIQUE _________________________________________________ 14
II –1 Présentation de l’étude ______________________________________________________ 14
II –1-1 Contexte de l’étude et présentation des données ________________________________________ 14
II –1-2 L’analyse ______________________________________________________________________ 16
1. DB2SO : extraction de données symboliques de la base de données relationnelles _______________ 16
II-2 Présentation des méthodes et résultats __________________________________________ 21
II-2 -1 Méthode View __________________________________________________________________ 21
a- Présentation de la méthode __________________________________________________________ 21
b. Mise en oeuvre de la méthode View ___________________________________________________ 22
II-2 -2 La méthode STAT _______________________________________________________________ 25
a- Présentation de la méthode STAT_____________________________________________________ 25
b. Mise en oeuvre de la méthode STAT __________________________________________________ 26
II-2 -3 La méthode DIV : Divisive Clustering on Symbolic Objects _______________________________ 30
a- Présentation de la méthode DIV ______________________________________________________ 30
b- Mise en oeuvre de la méthode DIV ___________________________________________________ 31
II-2-4 La méthode TREE : Decision Tree ___________________________________________________ 34
a-Présentation de la méthode TREE _____________________________________________________ 34
b-Mise en oeuvre de la méthode TREE __________________________________________________ 34
II-2-5. La méthode PYR : Pyramical Clustering on Symbolic Objects _____________________________ 35
a- Présentation de la méthode PYR ______________________________________________________ 35
b- Mise en oeuvre de la méthode PYR ___________________________________________________ 36
II-2-6 PCA : Principal Component Analysis _________________________________________________ 36
a- Présentation de la méthode PCA ______________________________________________________ 36
b. Mise en oeuvre de la méthode PCA ___________________________________________________ 37
II-2-7 La méthode DISS/MATCH _________________________________________________________ 39
aPrésentation de la méthode _______________________________________________________ 39
b-Mise en oeuvre de la méthode ________________________________________________________ 39
II-2-8 Les méthodes clustering (SCLUST) __________________________________________________ 40
aPrésentation de la méthode _______________________________________________________ 40
b- Mise en œuvre de la méthode ________________________________________________________ 40
II-2-9 La méthode de SYKSOM __________________________________________________________ 42
Conclusion_______________________________________________________________45
2
INTRODUCTION
Désormais, le Datamining est au coeur de toutes les préoccupations du monde des
affaires. C’est un processus qui permet de découvrir, dans de grosses bases de données
consolidées, des informations jusque là inconnues mais qui peuvent être utiles et lucratives et
d'utiliser ces informations pour soutenir des décisions commerciales tactiques et stratégiques.
Les approches traditionnelles de la statistique ont des limites avec de grosses bases de
données, car en présence de milliers ou de millions d’individus et de centaines ou de milliers de
variables, on trouvera forcément un niveau élevé de redondance parmi ces variables. Les
techniques de datamining interviennent et offrent des réponses à l’analyse de données
volumineuse et nous permettra d’extraire des informations intéressantes et apportent de
nouvelles connaissances jusque là inconnues, que les méthodes statistiques classiques n’ont pas
mit en avant.
L’exploitation de ces nouvelles informations peut présenter un intérêt pour analyser et
interpréter les comportements d’individus et ensemble d’individus. Les résultats obtenus
s’insérant dans un dispositif d’analyse globale permettent alors de dresser dans des plans
stratégiques ou politiques les axes d’effort à respecter.
Les techniques du datamining sont regroupées dans deux principales catégories :
Les méthodes descriptives qui visent à structurer et à simplifier les données issues de
plusieurs variables, sans privilégier l'une d'entre elles en particulier, il s’agit notamment
de l'analyse en composantes principales (ACP), l'analyse factorielle des
correspondances (AFC), l'analyse des correspondances multiples (ACM) et des
méthodes de classification automatiques.
Les méthodes explicatives qui visent à expliquer une variable à l'aide de deux ou
plusieurs variables explicatives, les principales méthodes utilisées dans les enquêtes sont
la régression multiple, l'analyse discriminante et la segmentation (arbres de décision).
L’analyse des données symboliques prend actuellement de plus en plus d’importance, comme
en témoigne le développement du logiciel spécifique SODAS. C’est ce logiciel qui va être
utilisé dans le cadre de ce projet afin d’extraire les données concentrées dans une base de
donnée relationnelle de type ACCESS, SQL Server, BO et d’y appliquer les principales
méthodes d’analyse proposées dans SODAS.
L’étude datamining que nous réaliserons ici porte sur la recherche des profils patients
qui dépassent la durée normale de séjour dans un centre hospitalier
Le présent rapport est constitué de deux parties. La première est une présentation
générale du datamining et du logiciel SODAS. La deuxième partie portera sur la présentation de
méthodes, l’analyse et l’interprétation des résultats obtenus.
3
PREMIERE PARTIE
PRESENTATION DU DATAMINING ET DU LOGICIEL SODAS
1 - OBJECTIFS GENERAUX DU DATAMINING
Les progrès de la technologie informatique dans le recueil et le transport de données font
que dans tous les grands domaines de l’activité humaine, des données de toutes sortes
(numériques, textuelles, graphiques…) peuvent maintenant être réunies et en quantité souvent
très importante.
Les systèmes d’interrogation des données, qui n’étaient autrefois réalisables que via des
langages informatiques nécessitant l’intervention d’ingénieurs informaticiens de haut niveau,
deviennent de plus en plus simples d’accès et d’utilisation.
Résumer ces données à l’aide de concepts sous-jacents (une ville, un type de chômeur,
un produit industriel, une catégorie de panne …), afin de mieux les appréhender et d’en extraire
de nouvelles connaissances constitue une question cruciale. Ces concepts sont décrits par des
données plus complexes que celles habituellement rencontrées en statistique. Ces données sont
dites « symboliques », car elles expriment la variation interne inéluctable des concepts et sont
structurées.
Dans ce contexte, l’extension des méthodes de l’Analyse des Données Exploratoires et
plus généralement, de la statistique multidimensionnelle à de telles données, pour en extraire
des connaissances d’interprétation aisée, devient d’une importance grandissante.
L’analyse porte sur des « atomes », ou « unités » de connaissances (les individus ou
concepts munis de leur description) considérés au départ comme des entités séparées les unes
des autres et qu’il s’agit d’analyser et d’organiser de façon automatique.
1-1 Caractéristiques et ouvertures de l’analyse des données
symboliques
Par rapport aux approches classiques, l’analyse des données symboliques présente les
caractéristiques et ouvertures suivantes :
Elle s’applique à des données plus complexes. En entrée elle part de données
symboliques (variables à valeurs multiples, intervalle, histogramme, distribution de probabilité,
de possibilité, capacité …) munies de règles et de taxonomies et peut fournir en sortie des
connaissances nouvelles sous forme d’objets symboliques présentant les avantages qui sont
développés supra :
 Elle utilise des outils adaptés à la manipulation d’objets symboliques de
généralisation et de spécialisation, d’ordre et de treillis, de calcul d’extension,
d’intention et de mesures de ressemblances ou d’adéquation tenant compte des
connaissances sous-jacentes basées sur les règles de taxonomies ;
 Elle fournit des représentations graphiques exprimant, entre autres, la variation
interne des descriptions symboliques. Par exemple, en analyse factorielle, un objet
symbolique sera représenté par une zone (elle-même exprimable sous forme d’objet
symbolique) et pas seulement par un point ;
4
1-2 Avantages des objets symboliques
Les principaux avantages des objets symboliques peuvent se résumer comme suit :
 Ils fournissent un résumé de la base, plus riche que les données agrégées habituelles
car ils tiennent compte de la variation interne et des règles sous-jacentes aux classes
décrites, mais aussi des taxonomies fournies. Nous sommes donc loin des simples
centres de gravité ;
 Ils sont explicatifs, puisqu’ils s’expriment sous forme de propriétés des variables
initiales ou de variables significatives obtenues (axes factoriels), donc en termes
proches de l’utilisation ;
 En utilisant leur partie descriptive, ils permettent de construire un nouveau tableau
de données de plus haut niveau sur lequel une analyse de données symboliques de
second niveau peut s’appliquer ;
 Afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés
joignant des variables provenant de plusieurs tableaux associés à différentes
populations. Par exemple, pour construire un objet symbolique associé à une ville,
on peut utiliser des propriétés issues d’une relation décrivant les habitants de chaque
ville et une autre relation décrivant les foyers de chaque ville.
 Plutôt que de fusionner plusieurs bases pour étudier ensuite la base synthétique
obtenue, il peut être plus avantageux d’extraire d’abord des objets symboliques de
chaque base puis d’étudier l’ensemble des objets symboliques ainsi obtenus ;
 Ils peuvent facilement être transformés sous forme de requête sur une Base de
Données.
 Ils peuvent donc propager les concepts qu’ils représentent d’une base à une autre
(par exemple, d’un pays à l’autre de la communauté européenne, EUROSTAT ayant
fait un grand effort de normalisation des différents types d’enquête
sociodémographiques).
 Alors qu’habituellement on pose des questions sous forme de requête à la base de
données pour fournir des informations intéressant l’utilisateur, les objets
symboliques formés à partir de la base par les outils de l’analyse des données
symboliques permettent à l’inverse de définir des requêtes et donc de fournir des
questions qui peuvent être pertinentes à l’utilisateurs.
5
2- ETUDE DE MARCHE DES OUTILS DUDATAMINING
2-1 Panorama des outils existant sur le marché (Benchmark)
Le datamining est une discipline assez récente, mais le marché est en très forte
croissance. Il occupe une place primordiale au sein des entreprises. Les logiciels (outils) phares
du datamining sont présentés dans le tableau ci-dessous, on retrouve dans cette liste différentes
catégories d’outils.
Tout d’abord la catégorie des petits outils open source ou à moins de 2 000 € comme
Solo, Weka, et Alice, puis les outils intermédiaires du marché comme Clementine, Knowledge ,
Spad et DataMind Pro, qui sont de l’ordre de 10 fois plus chers que les petits outils. Et enfin la
catégorie des plus connus et les plus performants en terme d’algorithme et dont l’utilisation
nécessitent des solides connaissances en datamining mais avec des prix encore plus élevés, ils
sont principalement IMB Intelligent Miner et SAS entreprise Miner.
Liste des principaux logiciels du marché
Source Wikipedia.org
Editeur
Progiciel
IBM
Intelligent Miner
ISoft
Alice
KXEN
SAS
SPAD
SPSS
Weka
Autres
outils
KXEN Analytic
Framework
Commentaires
Pas de volume limite, est son utilisation est destiné aux
experts en datamining.
Travaille sur quelques milliers d’enregistrements et
modélise les extractions sous forme d’arbre de décision
Outil de datamining
Plateforme décisionnelle complète : Intégration de données
(ETL, qualité de données...), stockage, métadonnées
uniques, portail web, reporting de masse, intéractif ou non,
SAS9 et Entreprise
analyse de type OLAP, analyse prédictive, datamining,
Miner
textmining, applications métiers (marketing, ressources
humaines, achats, grande distribution, finance, risque...) et
pilotage stratégique de type balanced scorecard
Suite logicielle de data mining et text mining : traite
quelques milliers d’enregistrements mais utilise plusieurs
méthodes de modélisation. Ils possèdent des techniques
SPAD
statistiques comme la description automatique de variables,
et les analyses multidimensionnelles comme l’ACP et
l’AFC
Outils de datamining et textmining : fonctionne avec des
volumes de données qui peuvent être immenses et a de
Clementine
multiples méthodes de modélisation
Logiciel libre dédié au Data Mining qui fonctionne
Weka
également avec quelques milliers d’enregistrements.
Solo, Knowledge, DataMind Pro, Knowledge Seeker, Neo Vista, Silicon
Graphics, 4Thougth.
6
2-2 Le logiciel SODAS (Symbolic Official Data Analysis System)
Sodas est un logiciel libre (gratuit) développé dans le cadre du projet Européen
EUROSTAT entre des établissements éducatifs et certaines sociétés commerciales. Il permet
l’extraction des connaissances à partir d’une base de données et l’analyse de données
symboliques définies par généralisation des propriétés des unités statistiques de premier ordre.
Il est téléchargeable à l’adresse suivante :
http://www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm
L’idée générale de SODAS est de construire, à partir d’une base de données
relationnelle, un tableau de données symboliques muni éventuellement de règles de taxonomies.
Le but étant de décrire des concepts résumant un vaste ensemble de données et d’analyser
ensuite ce tableau pour en extraire des connaissances par des méthodes d’analyse de données
symboliques.
SODAS est un logiciel polyvalent, permettant de faire aussi bien de l’analyse
symbolique et statistique que de classer les données par hiérarchie ou encore par arbre de
décision. Même s’il offre des richesses analytiques d’un niveau équivalent, SODAS n’est pas
un logiciel de statistiques classique dans la mesure où il manipule des données de type
complexe et permet de les représenter graphiquement. De plus, il est destiné à des utilisateurs
métiers, sans compétences statistiques ou informatiques, ce qui permet de se concentrer sur ce
qui est recherché et non sur la manière d’y parvenir.
On utilise SODAS afin d’extraire des informations à partir d’une base de données
(ACCESS….), ensuite on applique sur le fichier SODAS crée certaines méthodes d’analyse de
données symboliques tel que : l’analyse factorielle (AFC, ACP) la visualisations graphiques
(DStat, View), l’analyse discriminante (Tree), classification automatique, …etc..
Les différentes étapes d’analyse symbolique sous SODAS est résumée comme suit :
- Partir d’une base de données relationnelles (Access, Oracle, Sql Server…) ;
- Définir un contexte par :
-
les individus, unités statistiques de premier niveau;
-
les variables qui les décrivent ;
-
les concepts, unités statistiques de second niveau.
- Construire le tableau de données symboliques sous forme d’un fichier sodas.
- Application des différentes méthodes SODAS et interprétation des résultats.
Chaque unité statistique de premier ordre est associée à un concept (unité statistique de second
ordre). Ce contexte est défini par une requête sur la base de données relationnelle.
Les nouvelles unités statistiques sont les concepts décrits par généralisation des
propriétés des unités statistiques de premier ordre qui leur sont associées.
Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des
diagrammes de fréquences (variables qualitatives), des intervalles (variables numériques), des
valeurs uniques (éventuellement munies de règles et de taxonomies) selon le type de variables
7
et le choix de l’utilisateur. Une fois que le fichier de données symboliques est crée, on pourra
lui appliquer les différentes méthodes d’analyse de données symboliques de SODAS.
La figure ci-dessous illustre les différentes étapes successives d’une étude réalisée sous
SODAS :
Fig : Etapes d’une étude statistiques avec SODAS
8
3- DESCRIPTION SOMMAIRE DU MODE OPERATOIRE
3-1 Les principaux onglets de Sodas
Au lancement du logiciel SODAS (version 2.50), la fenêtre principale s’affiche (voir cidessous), elle se compose de trois principaux éléments, qui sont :
1- La barre d’outils qui comporte 5 menus (Sadas file, Chaining, Options, Window, Help)
2- La fenêtre Methods de la fenêtre principale propose, par groupe les différentes méthodes
disponibles sous SODAS, (exemple la méthode Descriptives Statistic (DStat, View))
3- La fenêtre Chaining de la fenêtre principale gère l’enchaînement des méthodes appliquées
à la base choisie (fichier SODAS d’extension .sds).
 En tête de la fenêtre chaining, figure l’icône BASE représentant le fichier SODAS (.sds)
sur lequel les calculs vont être effectués.
 A la suite de cette icône BASE, on peut placer les icônes des méthodes qui sont
regroupées dans la fenêtre « Methods ».
 Une fois que les méthodes sont paramétrées, il faut sauvegarder le fichier chaining
d’extension « .Fil » avant l’exécution de méthodes. Les résultats de chacune des méthodes
figureront sous forme d’icônes à droit de chaque méthode (voire la figure suivante). Pour
visualiser les résultats de chaque méthode, il suffit de cliquer sur l’icône.
9
3-2 Sélection d’une base d’étude
Tout fichier SODAS possède l’extension .sds. C’est un fichier de ce type qui va constituer la
BASE de notre étude.
Pour sélectionner un tel fichier, il faut :
- double-cliquer sur l’icône BASE
- sélectionner notre fichier dans la liste de bases disponibles
- cliquer sur OK.
Notre filière a été modifiée et maintenant nous pouvons lire le nom de la base associée à
notre filière ainsi que son chemin d’accès sur le disque dur
3-3 Choix de la méthode à appliquer
Nous allons enrichir la filière définie précédemment grâce à des méthodes (Methods)
afin d’analyser les données de notre base.
Pour cela nous pouvons utiliser des filières prédéfinies (Model \ Predefined chaining) ou
bien composer nous-mêmes une filière en enchaînant des méthodes issues de la fenêtre
Methods.
10
Pour insérer de nouvelles méthodes, il suffit de choisir le menu Method et de cliquer sur
Insert Method. Un carré vide apparaît alors sous l’icône BASE ; nous sélectionnons ensuite
la méthode que nous souhaitons appliquer, dans la fenêtre Methods et nous la faisons glisser
jusqu’à l’emplacement vide.
Les méthodes constituant maintenant la filière sont affichées à la suite de l’icône BASE,
selon l’ordre défini par l’utilisateur, dans lequel elles vont s’enchaîner. Chaque méthode est
représentée par une icône à gauche de laquelle se trouve son nom ainsi qu’une description
sommaire.
11
Par défaut, les méthodes qui viennent d’être insérée sont grisées.
Chaque Méthodes est numérotées dans la filière : ce numéro apparaît dans une petite boîte
située à gauche de la méthodes.
La couleur de cette boîte indique le statut de la méthode :
- gris : la méthode ne peut être exécutée car elle n’est pas paramétrée
- vert : la méthode est exécutable car elle est paramétrée
- rouge : la méthode est désactivée. Elle est exécutable mais l’utilisateur en interdit
l’exécution (menu Methods puis Desactivate method).
Ensuite, il faut paramétrer la méthode. Il suffit de double cliquer sur l’icône de la
méthode. Alors, une fenêtre structurée en fiches à onglets s’ouvre ; elle regroupe l’ensemble des
différents paramètres de la méthode.
Après le paramétrage des diverses méthodes, l’affichage de la filière a changé. Toutes
les méthodes sont maintenant exécutables, car paramétrées (les icônes sont rouges).
Le paramétrage de toutes les méthodes de la filière étant terminé, nous pouvons l’exécuter.
Par contre, toute exécution d’une filière doit être obligatoirement précédée de sa sauvegarde
(Menu Chaining puis Save chaining as et saisie d’un nom dont l’extension est .FIL).
Une fois cette opération effectuée, nous exécutons la filière en cliquant sur les sous menus
Run chaining du menu Chaining.
12
Suite à l’exécution de la filière PROJET.FIL (dont le nom apparaît en haut à gauche de
la fenêtre), de nouvelles icônes sont apparues dans la fenêtre Chaining, à droite des icônes
Méthodes. Ces nouvelles icônes permettent d’accéder aux résultats numériques et, le cas
échéant, aux résultats graphiques de chaque Méthode exécutée.
1. un double-clic sur cette icône permet de d’accéder aux résultats numériques
(dans l’éditeur de texte, Wordpad) de la méthode SOE
2. cette icône permet d’accéder à l’éditeur graphique de la méthode SOE
3. un double-clic sur cette icône affiche une représentation graphique de la méthode
STAT suivant les paramètres saisis précédemment
4. cette icône entraîne l’affichage de la représentation graphique de la classification
pyramidale
Toutes ces méthodes, ainsi que d’autres, seront expliquées plus en détails dans la partie
suivante du présent rapport.
13
PARTIE 2 : ETUDE STATISTIQUE
II –1 PRESENTATION DE L’ETUDE
II –1-1 Contexte de l’étude et présentation des données
L’étude porte sur des données réelles du centre hospitalier de Poissy-Saint Germain
Laye, se sont des données de l’exercice 2007, on a procédé à un échantillonnage, les noms et
prénoms des patients on été supprimés pour des raisons de confidentialité et le modèle initial a
été simplifié pour réaliser cette étude.
Objectif de l’étude
Il s’agit d’étudier les caractéristiques des différentes groupes des malades par rapport à
leur durée de séjour, afin d’établir le lien entre les groupes et les malades, qui les composent.
Tous les malades ont été répartis en 11 groupes selon leur indice de performance de la durée de
séjour (IP_DMS). Cet indice se calcule comme le rapport de la durée de séjour d’un malade et
la durée de séjour de référence pour la même pathologie.
Ainsi, les groupes de séjours des malades ont été définies comme suit:
1. LONG_5 : dépassement de la DMS de référence plus de 3 fois
2. LONG_4 : dépassement de la DMS de référence entre 2 et 3 fois
3. LONG_3 : dépassement de la DMS de référence entre 50% et 200%
4. LONG_2 : dépassement de la DMS de référence entre 25% et 50%
5. LONG_1 : dépassement de la DMS de référence entre 10% et 25%
6. NORMAL : durée de séjour égale à la DMS de référence à 10% près
7. COURT_1 : durée de séjour inférieure à la DMS de référence de 10% à 25%
8. COURT_2 : durée de séjour inférieure à la DMS de référence de 25% à 50%
9. COURT_3 : durée de séjour inférieure à la DMS de référence de 50% à 200%
10. COURT_4 : durée de séjour inférieure à la DMS de référence de 2 à 3 fois
11. COURT_5 : durée de séjour inférieure à la DMS de référence de plus de 3 fois
Les individus sont représentés par les séjours.
Les concepts sont les 11 groupes de séjours cités précédemment.
Compte tenu de l’impossibilité d’utilisation directe de la base de données de l’hôpital et
du fait de la protection du modèle de données par les droits d’auteurs, nous avons procédé à une
extraction des données jugées pertinentes et les organiser sous forme d’étoile. Et donc ce
modèle est présenté ci-dessous.
- DimVILLE contient le nom et le département du domicile d’un patient
- Dim GHM contient le groupe homogène des maladies
- GHM le groupe homogène de maladie
- CMD_LIB libellé des catégories majeures de diagnostic
- N_DMS la durée normale (durée de référence en France) de séjours en nombre
jours.
14
- factSEJOURS : contient les séjours et leur caractéristique (NBR_PASS, N_DMS Age.
Sexe.. ……)
- dimUM : contient les libellés des unités médicales où le séjour à été effectué.
- dimIP_DMS : contient les libellés des groupes de séjours que nous considéré comme
concepts.
La variable d’insertion (single) se trouve dans la table VAR
15
II –1-2 L’analyse
1. DB2SO : extraction de données symboliques de la base de données
relationnelles
a. Généralités
DB2SO est le module du logiciel SODAS qui permet à l’utilisateur de créer un ensemble de
concepts à partir de données stockées dans une base de données relationnelles.
On présuppose bien évidemment qu’une série d’individus est stockée dans la base de données et
que ces individus sont répartis entre plusieurs groupes. Ainsi, DB2SO va pouvoir construire un
concept pour chaque groupe d’individus. Dans ce processus, les variables mères / filles ainsi
que les taxonomies sur les variables pourront également être associées avec les concepts créés.
b. Présentation de DB2SO
Le système de liaisons ODBC de SODAS lui permet d’accéder directement aux bases de
données et en particulier aux bases Microsoft Access.
Pour importer notre base, il faut sélectionner la commande Importation (DB2SO) dans le
sous menu Import du menu SODAS file.
Un premier écran d’importation apparaît alors dans lequel il faut sélectionner le menu File
puis New
16
L’écran suivant nous invite à sélectionner une source de données machine. Dans notre
cas, il s’agit d’une base Microsoft Access.
Notre projet a en effet, pour objet l’étude d’une base de données Microsoft Access. Ce
SGBD inclut le driver ODBC permettant l’accès de DB2SO à la base de données
relationnelles.
SODAS ne propose aucun menu de connexion à la base de données car l’utilisateur est
automatiquement invité à s’y connecter quand cela est nécessaire, c’est-à-dire lorsqu’il
souhaite exécuter une requête. A tout moment, l’utilisateur peut décider de changer de base de
données en choisissant le menu File\Disconnect de l’écran ci-dessus. Il sera alors invité à
spécifier une nouvelle base de données.
17
Une fois, le bon driver choisi, il faut indiquer le fichier .mdb. Pour ce faire, nous cliquons sur
OK.
L’étape suivante consiste à rechercher la base de travail et à la sélectionner
18
Lorsque ces étapes préliminaires ont été exécutées, nous allons procéder à l’extraction des
individus. Pour ce faire, il faut choisir la table qui est le résultat d’une requête préalablement
exécuté sous Access.
Résultat :
1ère colonne = individus
2nde colonne = concepts
3ème colonne et suivante = description des individus
Une fois que nous avons effectué toutes les manipulations dans le module DB2SO. Un résumé
de toutes les opérations apparaît dans l’écran principal suivant :
19
20
2-Présentation des méthodes et de l’analyse
Les filières des méthodes appliquées sont présentées dans la figure ci-dessous, la deuxième
filière utilise le fichier .sds résultat de DISS.
II-2 PRESENTATION DES METHODES ET RESULTATS
II-2 -1 Méthode View
a- Présentation de la méthode
L’éditeur d’objets symboliques View permet aux utilisateurs de visualiser, dans un
tableau, tous les objets symboliques présents dans un fichier SODAS et d’effectuer quelques
modifications sur les données. Cet éditeur permet aussi de visualiser des représentations
graphiques en 2 et 3 dimensions et une représentation SOL (Symbolic Object Language) de
chaque objet symbolique se trouvant dans le tableau.
21
Dans la table, il faut alors sélectionner les concepts (au moins 1) et les variables (au moins
3) que nous souhaitons voir représentés à l’écran. Ensuite, suivant notre choix nous voyons
apparaître à l’écran une étoile zoom, en 2 ou 3 dimensions.
Nous pouvons noter que les variables quantitatives sont représentées par des intervalles
et que les variables qualitatives sont représentées par des histogrammes.
Le bouton SOL, lui, renvoie une description SOL des objets symboliques sélectionnés
dans le tableau.
b. Mise en oeuvre de la méthode View
On remarque l’intervalle d’age dans les groupes est presque identique : 0-91(97) ans, ce
que ne permet pas de les distinguer. Par contre, la répartition par tranche d’âge et par sexe,
permet de remarquer qu’il y a plus d’hommes dans des séjours très longs (LONG_5) et plus des
femmes dans les séjours, qui dépassent 25% - 300% la durée moyenne de séjour de référence.
22
L’image suivante permet de comparer le groupe de séjours de durée normale (±10%) avec le
groupe des séjours LONG_5.
On remarque que ce sont plutôt des hommes âgés (>75 ans), qui peuvent avoir plus des
journées de réanimation (NBR_REA), plus de passage dans les services (NBR_PASS), plus
d’actes (NBR_ACTES) et des diagnostiques (NBR_DIAGS)
En transformant les nombres absolus des actes, diagnostics, journées de réanimation en
tranches, on remarque que les séjours de durée normale sont caractérisés par un nombre de
diagnostic inférieur aux séjours longs. Les séjours longs se caractérisent par plus d’actes. Cela
peut témoigné des raisons médicales pour lesquels les malades sont restés plus long temps en
hospitalisation. D’autre côté cela peut être interprété comme une difficulté de prise en charge
des malades chroniques par des structures spécialisées.
La description SOL caractérise les malades qui ont une durée de séjour normale :
NORMAL =
SEXE = M (0.43), F (0.57)
And NBR_PASS = 1 (0.68), 2 (0.30), 4 (0.02)
And CMD_LIB = diges (0.28), nerve (0.04), circu (0.23), obste (0.04), endoc (0.04), VIH
(0.02), muscu (0.08), respi (0.06), urolo (0.02), gynec (0.04), derma (0.04), hepat (0.08), orl
(0.04), cance (0.02)
And TR_AGE = 48_60 (0.15), 61_75 (0.19), 75plu (0.30), 18_25 (0.02), 26_37 (0.26), 38_47
(0.08)
And TR_ACTES = 12plu (0.04), 1 (0.43), 7_12 (0.09), 2_3 (0.32), 4_6 (0.11)
And TR_DIAG = 7plus (0.26), 4_6 (0.22), 1 (0.14), 2_3 (0.38)
And TR_REA = 12plu (0.04), 0 (0.94), 1_5 (0.02)
23
Ce sont des femmes de 26-37 ans (26%) et plus de 75 ans (30%), appartiennent aux catégories
majeures de diagnostics (CMD) : maladies de l’appareil digestif (28%) et circulatoire (23%).
Le diagramme suivant le montre visuellement.
On remarque que les malades, avec des séjours qui dépassent la durée de référence, ont
eu plus d’actes et la tranche de nombre d’actes augmente avec le groupe de dépassement de
DMS.
Exemple : le groupe de durée normale de séjour, ont bénéficié dans la plupart de cas d’un seul
acte ; le groupe LONG_3 (dépassement de 50% à 200%) ont bénéficié de 4-6 actes ; en même
temps le groupe LONG_5 (dépassement de plus de 300%) ont bénéficié de plus de 12 actes.
24
II-2 -2 La méthode STAT
a- Présentation de la méthode STAT
STAT permet d’appliquer des méthodes, habituellement utilisées pour des données
conventionnelles, à des objets symboliques représentés par leur description.
Ces méthodes dépendent du type des variables présentes dans la base SODAS avec
laquelle nous travaillons.
1. les fréquences relatives pour les variables multi nominales
2. les fréquences relatives pour les variables intervalles
3. les capacités et min/max/mean pour les variables multi nominales probabilistes
4. biplot pour les variables intervalles
Le format de sortie des données sera, suivant le choix de l’utilisateur, un listing ou bien un
graphique. Les graphiques peuvent être modifiés et personnalisés (figures, formes, couleurs,
texte, commentaires ...) par l’utilisateur et ils peuvent également être copiés et sauvegardés.
 Les fréquences relatives pour les variables multi-nominales
Dans cette méthode, nous étudions la fréquence relative des différentes modalités de la
variable multi nominale en prenant en compte les éventuelles règles relatives à la base sur
laquelle nous travaillons. Le graphique associé à la distribution de la variable pourra, suivant le
choix de l’utilisateur, être soit un diagramme bâton, soit un diagramme en camembert.
 Les fréquences relatives pour les variables intervalles
Cette méthode a besoin, en entrée, de 2 paramètres :
- une variable intervalle I
- un nombre de classes k
Nous pouvons construire un histogramme pour la variable I sur un intervalle [a,b] découpé en k
classes et où a représente la borne inférieure de I et b sa borne supérieure. La méthode va
permettre le calcul de la fréquence relative associée à la classe Ck tout en tenant compte du
recouvrement de cette classe Ck par les valeurs intervalles de I et ceci pour tous les objets
symboliques.
 Les capacités et min/max/mean pour les variables multi nominales probabilistes
La méthode permet de construire un histogramme des capacités des différentes
modalités de la variable considérée. Dans l’histogramme capacité, la capacité d’une modalité
est représentée par l’union des différentes capacités. En ce qui concerne le graphique
min/max/mean, il associe un diagramme représentant l’étendue et la moyenne de la probabilité
de chaque modalité.
 Biplot pour les variables intervalles
Ce graphique représente un objet symbolique par un rectangle dans le plan de 2
variables sélectionnées par l’utilisateur. La dimension de chaque côté du rectangle correspond à
l’étendue de la variation de l’objet symbolique relativement à la variable de l’axe considéré
25
b. Mise en oeuvre de la méthode STAT
Méthode DSTAT pour les variables intervalles
Les intervalles de nombre des actes représentés sur le diagramme suivant montre qu’un
nombre d’actes au delà de 66 est réservé aux séjours de longueur extrême (LONG_5). Vu que
celle ne concerne que 2 séjours, on s’obtiendra de conclusions avant une vérification sur un
échantillon plus large.
Les catégories majeures de diagnostic sont différentes elles aussi (figure ci-dessous).
Dans le groupe normale, sont affectés plutôt les appareilles digestif (28%) et circulatoire (23%).
Dans le groupe LONG_3 : circulatoire (20%) et musculo-squeletic (17%) Dans LONG_4 :
circulatoire (22%) et dans LONG_5 : nerveux (25%). Cella peut également indiquer les services
correspondants, qui ont besoin d’un accompagnement dans l’étude des flux de patients et une
optimisation d’utilisation du lit. Cette hypothèse se confirme quand on compare les durées
réelles (en bordeaux) et les durées de références (en bleue)
26
Le diagramme suivant montre que dans 85% des cas les séjours ne contiennent pas plus
de 18-20 jours de réanimation. La diagramme peut intéressant car on trouve des séjours courts
(COURT_2) et extrêmement longues (LONG_5) qui peuvent avoir plus de 18-20 journées de
réanimation. Cela est du, probablement à une différence de la catégorie majeure de diagnostic
(CMD) entre les séjours de type COURT_2 et LONG_5.
27
Méthode DSTAT pour les variables modales
Cette méthode permet de repérer visuellement les catégories majeures de diagnostics
(CMD) dans lesquelles on trouve des séjours longues, et par département. La hauteur des
barrettes dans le biplot permet de comparer visuellement les nombres de séjours ainsi identifiés.
Donc, on peut dire que dans notre échantillon il n’y a pas de séjours d’obstétrique de durée
normale, ou plus courte que la référence, venant de Somme, Val d’Oise, ou encore Loire
Atlantique.
28
Pour justifier, on peut vérifier s’il y avait des séjours de durée normale ou courte. Les barrettes
bleues dans la ligne « obstétrique » nous révèlent l’existence des séjours extrêmement courts
(COURT_5). Une autre diagramme nous confirme, que c’est une pratique courante chez les
obstétriciens de Poissy, de raccourcir la durée de séjour (proba/min=7.55, proba=0.58)
29
II-2 -3 La méthode DIV : Divisive Clustering on Symbolic Objects
a- Présentation de la méthode DIV
DIV est une méthode de classification hiérarchique qui part de tous les objets
symboliques réunis dans une seule classe et procède ensuite par division successive de chaque
classe. A chaque étape, une classe est divisée en deux classes suivant une question binaire ; ceci
permet d’obtenir le meilleur partitionnement en deux classes, conformément à l’extension du
critère d’inertie.
L’algorithme s’arrête après avoir effectuer k-1 division ; k étant le nombre de classes
donné, en entrée, à la méthode par l’utilisateur. Il ne s’agit pas du seul paramètre à saisir, en
entrée de la méthode. L’utilisateur doit également choisir les variables qui seront utilisées pour
calculer la matrice de dissimilarité, l’extension du critère d’inertie et pour définir l’ensemble
des questions binaires utiles pour effectuer le découpage.
Au moment de choisir nos variables, il faut être attentif à deux choses principales :
- le domaine de définition des variables doit être ordonné car dans le cas contraire, les
résultats obtenus seront totalement faux
- il n’est pas possible de mélanger des variables dont le domaine de définition est
continu avec des variables dont le domaine de définition est discret. Dans la fenêtre
de définition des paramètres de la méthode DIV du logiciel SODAS, l’utilisateur doit
choisir entre des variables qualitatives et des variables continues.
Trois paramètres doivent également être définis :
1 - la dissimilarité entre 2 objets peut être normalisée ou non. Elle peut être normalisée
en choisissant l’inverse de la dispersion ou bien l’inverse du maximum de la
déviation. La dispersion des variables est, ici, une extension aux objets symboliques
de la notion de variance.
2 - le nombre k de classes de la dernière partition. La division s’arrêtera après k-1
itérations et la méthode DIV aura calculer des partitions de la classe 2 à la classe k.
3 - la méthode DIV offre également la possibilité de créer un fichier partition ; il s’agit
d’un fichier texte contenant une matrice (aij) dans laquelle, chaque ligne i∈ [1,n]
correspond à un objet et chaque rangée j∈ [2,k-1] correspond à une partition en j
classes. Ainsi, (aij) signifie que l’objet j appartient à la classe k, dans la partition en j
classes.
Une fois ces différents paramètres définis, nous pouvons exécuter la méthode DIV. Nous
obtenons, en sortie, un listing contenant les informations suivantes :
- une liste de la « variance » des variables sélectionnées, à condition que ces variables
soient continues
- pour chaque partitions de 2 à k classes, une liste des objets contenus dans chaque
classe ainsi que l’inertie expliquée relative à la partition
30
- l’arbre de classification.
b- Mise en oeuvre de la méthode DIV
La méthode DIV va nous permettre de réaliser une classification hiérarchique des
Groupes de séjours par division successive de chaque classe, en partant d’une seule classe
réunissant tous les groupes de séjours.
Cette méthode ne permet pas d’étudier à la fois les variables qualitatives et les variables
quantitatives. Nous procéderons alors en deux temps correspondant à chacun des types de
variables
La classification divise propose une classification en 5 clausters avec une inertie expliqué de
96.779573.
Cluster 1 :
IF
4- [AGE <= 59.000000] IS TRUE
AND
2- [NBR_ACTES <= 20.750000] IS TRUE
AND
1- [NBR_REA <= 51.750000] IS TRUE
Cluster 2 :
IF
1- [NBR_REA <= 51.750000] IS FALSE
Cluster 3 :
IF
3- [AGE <= 57.750000] IS TRUE
AND
2- [NBR_ACTES > 20.750000] IS FALSE
AND
1- [NBR_REA <= 51.750000] IS TRUE
Cluster 4 :
IF
3- [AGE <= 57.750000] IS FALSE
AND
2- [NBR_ACTES <= 20.750000] IS FALSE
AND
1- [NBR_REA <= 51.750000] IS TRUE
Cluster 5 :
IF
4- [AGE <= 59.000000] IS FALSE
AND
2- [NBR_ACTES <= 20.750000] IS TRUE
AND
1- [NBR_REA <= 51.750000] IS TRUE
+---- Classe 1 (Ng=5)
!
!----4- [AGE <= 59.000000]
!
!
!
+---- Classe 5 (Nd=3)
!
!----2- [NBR_ACTES <= 20.750000]
!
!
!
!
+---- Classe 3 (Ng=1)
!
!
!
!
!----3- [AGE <= 57.750000]
!
!
!
+---- Classe 4 (Nd=1)
!
!----1- [NBR_REA <= 51.750000]
!
+---- Classe 2 (Nd=1)
On constate que les séjours avec >20 actes et >51 journées de réanimation appartiennent au
concept LONG_5 (dépassent > 3 fois la durée de référence)
Les individus caractérisés par AGE <= 57.75; NBR_ACTES > 20.75 ; NBR_REA <= 51.75
appartiennent au concept NORMAL ou COURT_2. Le reste n’est pas divisible avec les
variables actuelles.
31
La méthode DIV appliquée aux variables modales propose la division suivante :
+---- Classe 1 (Ng=1)
!
!----3- [SEXE = 01]
!
!
!
+---- Classe 4 (Nd=1)
!
!----2- [TR_DIAG = 0001]
!
!
!
!
+---- Classe 3 (Ng=4)
!
!
!
!
!----4- [TR_DIAG = 0010]
!
!
!
+---- Classe 5 (Nd=4)
!
!----1- [TR_AGE = 000011]
!
+---- Classe 2 (Nd=1)
32
On remarque les classes 1 et 4, qui regroupent les séjour LONG_4 et LONG_5 (qui dépassent 2
fois la durée de référence)
Leurs caractéristiques sont :
Cluster 1
IF
3AND
2AND
1Cluster 4
IF
3AND
2AND
1-
:
[SEXE = M]
[TR_DIAG = 7plus]
[TR_AGE = 61_75 OR
:
[SEXE =
48_60]
F]
[TR_DIAG = 7plus]
[TR_AGE = 61_75 OR
48_60]
Donc ce sont des hommes et femmes de 48 à 75 ans respectivement, avec plus de 7 diagnostics.
33
II-2-4 La méthode TREE : Decision Tree
a-Présentation de la méthode TREE
La méthode Tree nous propose un algorithme par agrandissement d’arbres, appliqué à des
données imprécises décrites par des concepts probabilistes. La procédure récursive de
partitionnement peut être vue comme une recherche itérative d’un ensemble organisé d’objets
symboliques, répondant au mieux aux données initiales. A chaque étape, le découpage optimal
est obtenu en utilisant une mesure générale, donnée en paramètre.
En sortie, nous obtenons une nouvelle liste d’objets symboliques qui permet éventuellement
d’assigner de nouveaux objets à une classe.
Avant d’exécuter la méthode, l’utilisateur doit choisir l’ensemble des variables prédictives
parmi :
- un ensemble de variables quantitatives ou de variables intervalles
- un ensemble de variables qualitative, multi valuées ou modales
Ensuite, nous obtenons en sortie un listing contenant les informations suivantes :
- la liste des variables utilisées
- la liste des objets symboliques appartenant à un « training set »
- la liste des objets symboliques appartenant à un « test set»
- la liste des noeuds ; chaque noeud étant décrit par une règle
- la liste des noeuds terminaux
b-Mise en oeuvre de la méthode TREE
Ci-dessous un extrait des sorties de l’exécution de la méthode TREE.
=======================================================================
| No |
Nom
|Leaf
| Class
| pas_lo | long
| criterion|
|
|
| No
| true | assig.| ( 1) | ( 2) |
|
=======================================================================
| 1 | LONG_5
|
2 |
2 | 1 (*)| 100.00 |
0.00 |
0.36 |
| 2 | COURT_2
|
2 |
1 | 1
| 100.00 |
0.00 |
0.64 |
| 3 | NORMAL
|
2 |
1 | 1
| 100.00 |
0.00 |
0.64 |
| 4 | COURT_3
|
2 |
1 | 1
| 100.00 |
0.00 |
0.64 |
| 5 | LONG_1
|
2 |
1 | 1
| 100.00 |
0.00 |
0.64 |
| 6 | COURT_5
|
2 |
1 | 1
| 100.00 |
0.00 |
0.64 |
| 7 | LONG_4
|
2 |
2 | 1 (*)| 100.00 |
0.00 |
0.36 |
| 8 | COURT_4
|
2 |
1 | 1
| 100.00 |
0.00 |
0.64 |
| 9 | COURT_1
|
2 |
1 | 1
| 100.00 |
0.00 |
0.64 |
| 10 | LONG_3
|
2 |
2 | 1 (*)| 100.00 |
0.00 |
0.36 |
| 11 | LONG_2
|
2 |
2 | 1 (*)| 100.00 |
0.00 |
0.36 |
=======================================================================
R(T)=
0.3636
34
CONFUSION MATRIX FOR TRAINNING SET
=================================================
|
| pas_long | long
| Total
|
=================================================
| pas_long |
7 |
0 |
7 |
| long
|
4 |
0 |
4 |
=================================================
| Total
|
11 |
0 |
11 |
=================================================
L’arbre de décision
+ --- IF ASSERTION IS TRUE (up)
!
--- x [ ASSERTION ]
!
+ --- IF ASSERTION IS FALSE (down)
+---- < 2 >pas_long (
!
!----1[ N_DMS <= 22.360001]
!
+---- < 3 >pas_long (
5.87
4.00 )
1.13
0.00 )
II-2-5. La méthode PYR : Pyramical Clustering on Symbolic
Objects
a- Présentation de la méthode PYR
Il s’agit d’une classification pyramidale qui généralise la hiérarchisation en autorisant les
classes non disjointes à un niveau donné.
La pyramide constitue un modèle intermédiaire entre les arbres et les structures en
treillis. Cette méthode permet de classer des données plus complexes que ce que nous autorisait
le modèle tabulaire et ceci en considérant la variation des valeurs prises par les variables. La
pyramide est construite par un algorithme d’agglomération opérant du bas (les objets
symboliques) vers le haut (à chaque niveau, des classes sont agglomérées).
Dans une classification pyramidale, chaque classe formée est définie non seulement par
son extension (l’ensemble de ses éléments) mais aussi par un objet symbolique qui décrit ses
propriétés (l’intension de la classe). L’intension est héritée d’un prédécesseur vers son
successeur et nous obtenons ainsi une structure d’héritage.
La structure d’ordre permet l’identification de concepts intermédiaires ; c’est-à-dire de
concepts qui comblent un vide entre des classes bien identifiées. En entrée de cette méthode,
l’utilisateur doit choisir les variables qui seront utilisées pour construire la pyramide. Ces
variables peuvent être continues (des valeurs réelles), des intervalles de valeurs réelles ou bien
des histogrammes. L’utilisateur sera invité à choisir entre des variables qualitatives et continues
mais il lui est également possible de les mélanger.
35
b- Mise en oeuvre de la méthode PYR
Cette méthode montre aussi la ressemblance des profils LONG_4 et LONG_5
0,
13.8441,
13.8441,
13.8441,
13.8441,
13.8441,
13.8441,
15.382,
16.9725,
17.882,
18.4871,
0,
13.1887,
13.1887,
13.1887,
13.1887,
13.1887,
13.1887,
16.7634,
17.882,
18.4871,
0,
4.68094,
4.68094,
6.31735,
6.31735,
8.11931,
11.5802,
12.3058,
5.90625,
0,
3.60516,
6.31735,
6.31735,
8.11931,
11.5802,
12.3058,
5.90625,
0,
4.23315,
4.60315,
8.11931,
11.5802,
12.3058,
14.6661,
0,
3.89009,
8.11931,
11.5802,
12.3058,
14.6661,
0,
4.53376,
11.1116,
12.3058,
14.6661,
0,
6.00278,
12.3058,
14.6661,
0,
8.87768,
8.87768,
0,
5.2056,
0,
II-2-6 PCA : Principal Component Analysis
a- Présentation de la méthode PCA
La méthode PCA correspond à l’analyse en composante principale classique. Mais au
lieu d’obtenir une représentation par points sur un plan factoriel, PCA propose une visualisation
de chaque concept par des rectangles. L’objectif est d’étudier l’intensité des liaisons entre les
variables et de repérer les concepts présentant des caractéristiques voisines.
La PCA est donc une méthode factorielle de réduction du nombre de caractères
permettant des représentations géométriques des individus et des variables. La réduction se fait
par la construction de nouveaux caractères synthétiques obtenus en combinant les variables
initiales au moyen des « facteurs ».
Les éléments de la matrice de données sont des intervalles et chacun décrit la variation
de la variable observée (minimum et maximum). La méthode n’accepte que les variables
continues. Pour chacune, l’utilisateur choisit ainsi son maximum et son minimum.
36
L’exécution de la méthode nous donne deux résultats :
1 - Le listing qui contient
- La description de la matrice de données par une table : chaque ligne correspond à une classe.
- Les valeurs propres, le pourcentage d’inertie et les premières composantes principales.
Chaque classe est caractérisée d’abord par deux composantes principales et visualisée dans un
plan factoriel par un rectangle.
- Les corrélations entre chaque variable descriptive et les composantes principales.
2 - Une représentation graphique des objets symboliques.
b. Mise en oeuvre de la méthode PCA
La méthode accepte seulement les variables continues, en entrée, et les sorties sont
présentées ci-dessous :
Corrélation entre variables et facteurs:
Var.
Factor 1
Factor 2
Factor 3
AGE
0.48178
0.83659
0.96573
NBR_ACTES
0.28311
0.85143
0.68380
NBR_DIAGS
0.42866
0.79257
0.93141
PI_DMS
-0.24888
0.31858
0.22126
NBR_REA
0.12778
0.68575
0.46858
N_DMS
0.51070
0.79866
0.96629
Contributions des objets symboliques aux axes (11 objs,3 fact)=
Objects
Factor 1
Factor 2
Factor 3
LONG_5
0.83037
0.14827
0.09239
COURT_2
0.03150
0.32732
0.07828
NORMAL
0.01383
0.05343
0.12755
COURT_3
0.01760
0.03565
0.09853
LONG_1
0.01009
0.00992
0.06415
COURT_5
0.02877
0.01044
0.13129
LONG_4
0.00989
0.21906
0.05557
COURT_4
0.02376
0.02251
0.05684
COURT_1
0.01727
0.00478
0.12249
LONG_3
0.00906
0.16534
0.10732
LONG_2
0.00785
0.00329
0.06560
Qualité de représentation
Objects
LONG_5
COURT_2
NORMAL
COURT_3
LONG_1
COURT_5
LONG_4
COURT_4
COURT_1
LONG_3
LONG_2
des objets symboliques (11 objs,3 fact)=
Factor 1 Factor 2
Factor 3
0.86183
0.01809
0.08244
0.17327
0.21170
0.37026
0.08573
0.03894
0.67978
0.11772
0.02803
0.56651
0.11219
0.01296
0.61329
0.17020
0.00726
0.66768
0.09218
0.23998
0.44518
0.22224
0.02475
0.45712
0.12303
0.00401
0.75017
0.06008
0.12889
0.61174
0.08332
0.00411
0.59843
Le concept LONG_5 a une contribution de 83% au facteur 1. Le facteur 3 a bénéficié de la
contribution de reste des concepts. Les 3 premières axes cumulent 97.84% d’inertie.
37
Encore une fois on constate, que les concepts ne sont pas bien séparés, sauf le concept LONG_5
38
II-2-7 La méthode DISS/MATCH
a- Présentation de la méthode
“Several data analysis techniques are based on defining and quantifying a dissimilarity
measure between the underlying objects. The method DI (Dissimilarities & Matching)
implements several dissimilarity measures between Boolean symbolic objects. The method DI
also implements a canonical and a flexible matching operator. Matching is the process of
comparing two or more structures to discover their likeness or difference. The definition of
matching operators for BSO is deemed important for the development of several symbolic data
analysis techniques, such as factor analysis”. Wikipedia
b-Mise en oeuvre de la méthode
On présente la matrice de dissimilarité qui sera utilisé pour la construction de la
pyramide. et
La représentation graphique de la matrice de dissimilarité
39
II-2-8 Les méthodes clustering (SCLUST)
a- Présentation de la méthode
Dans le cadre d’un problème de clustering, on dispose d’un ensemble de données qui
reprend une collection d’objets non étiquetés. Les classes sont encore inexistantes. L’objectif
est alors d’obtenir des clusters d’objets homogènes, en favorisant l’hétérogénéité entre ces
différents groupes.
La plupart des méthodes de clustering se basent sur une mesure de distance entre deux
objets. Ceux-ci étant caractérisés par les attributs, cette notion de distance devra se baser sur des
distinctions entre les valeurs prises par les attributs pour les différents objets.
On peut donc dire que toutes les techniques de clustering suivent un même principe général qui
consiste à minimiser la distance entre deux objets d’un même cluster et à maximiser la distance
entre deux objets de clusters distincts.
b- Mise en œuvre de la méthode
Extrait de description du concept:
Prototype_1/5 =
AGE = [ 31.00 : 94.00 ]
And
SEXE = M (0.54), F (0.46)
And
NBR_ACTES = [ 1.00 : 111.00 ]
And
NBR_DIAGS = [ 2.00 : 30.00 ]
And
PI_DMS = [ 3.09 : 8.66 ]
40
And
And
And
And
And
And
And
And
And
NBR_PASS = 5 (0.13), 1 (0.38), 2 (0.25), 3 (0.25)
NBR_REA = [ 0.00 : 159.00 ]
N_DMS = [ 3.69 : 19.77 ]
CMD_LIB = digestif (0.13), psychiatri (0.04), nerveux (0.25), traumatism (0.04), autres mot (0.08),
circulatoi (0.17), endocrinie (0.04), respiratoi (0.04), urologie (0.08), hepatobili (0.08), andrologie (0.04)
TR_AGE = 48_60 (0.17), 61_75 (0.29), 75plus (0.38), 26_37 (0.04), 38_47 (0.13)
TR_ACTES = 12plus (0.38), 1 (0.13), 7_12 (0.17), 2_3 (0.17), 4_6 (0.17)
TR_DIAG = 7plus (0.67), 4_6 (0.24), 2_3 (0.10)
TR_REA = 12plus (0.17), 0 (0.75), 6_12 (0.04), 1_5 (0.04)
IP_DMS_ID = 10 (1.00)
Sur l’axe PI_DMS on voie que les prototypes sont bien isolés, le prototype 1/5 regroupe les
séjours qui dépassent plus de trois fois la durée normale de séjour, et se sont généralement les
hommes qui une maladie du système nerveux, et ils peuvent rester plus longtemps en
réanimation (NBR_REA).
41
Comme le montre les diagrammes, précédent, une partition en 5 classes n’a pas permis de
bien isoler les classes : les prototypes se chevauchent. Seul le prototype_1/5 se distingue par un
intervalle plus large de nombre d’actes et des journées de réanimation. Il se caractérise par un
l’indice PI_DMS compris entre 0.67 et 0.8, ce que veut dire que les durées de séjour, qui font
partie de cette classe constituent 67% - 80% de la durée de séjour de référence – ce sont des
séjours courtes. Il est composé principalement de malades avec pathologie digestive et musculo
– squelettique.
II-2-9 La méthode de SYKSOM
La méthode nous a proposé 25 prototypes ci-dessous un extrait.
Cluster 3 ( 1x3)
List of objects:
( 5) LONG_1
( 8) COURT_4
( 11) LONG_2
Size 3
Cluster 8 ( 2x3)
List of objects:
( 4) COURT_3
( 6) COURT_5
( 7) LONG_4
( 9) COURT_1
( 10) LONG_3
Size 5
Cluster 9 ( 2x4)
List of objects:
( 2) COURT_2
Size 1
Cluster 10 ( 2x5)
List of objects:
( 1) LONG_5
Size 1
Cluster 13 ( 3x3)
Size 1
42
List of objects:
( 3) NORMAL
Les concepts ne sont pas bien isolés, on peut constater qu’il est difficile de faire la distinction
entre les différents concepts lorsque le nombre d’actes est inférieur à 50 et le nombre de
diagnostic inférieur à 22. Au-delà de ces limites le patient aura plutôt un profil d’un séjour
rallongé.
Ses caractéristiques sont représentées sur les diagrammes suivants :
43
Cluster 2x5
Cluster 3x3
Le cluster 2x5 représente la plus longue durée de dépassement de séjours et le cluster
3x3 représente les séjours de durée normal. On peut bien observer la différence entre les deux
représentations. Sur l’axe N_DMS (qui représente la durée de référence) la différence est
probablement due au fait qu’il est plus facile de dépasser un séjour plus court qu’un séjour plus
long.
44
CONCLUSION
La réalisation de ce projet a été pour nous l’occasion de découvrir un logiciel puissant
d’analyse de données symboliques : le logiciel SODAS. Cet outil nous a permis d’extraire des
connaissances d’une importante base de données relationnelles.
La grande flexibilité de ce logiciel associée à la puissance de ses diverses représentations
graphiques a mis en évidence des résultats pertinents et facilement interprétables :
1- En utilisant les méthodes de datamining, sur un échantillon des individus extraits
de la base des données des dossiers médicaux, on a réussi d’établir le profil de
malades, qui dépassent la durée de séjour de référence.
2- Donc ce sont des hommes et femmes de 48 à 75 ans, avec plus de 7 diagnostics,
avec des maladies du système nerveux. Ils peuvent rester plus de temps en
réanimation et avoir plus d’actes que les autres catégories. Cella peut indiquer, que
le séjour est rallongé pour des raisons médicales, ou au cause d’insuffisance de
prise en charge des malades avec des maladies multiples et chroniques par des
structures spécialisés, comme le soin de suite.
3- La catégorie de malade âgés de plus de 59 ans, avec plus de 20 actes et plus de 51
jour de réanimation, dépasse toujours leur duré de séjour de référence.
4- Pour discriminer les autres catégories de malades, il sera nécessaire d’introduire
d’autres variables.
5- Il est possible, que le rallongement des séjours inférieur à 200% n’est pas du à un
profile de malades, mais est aléatoire et n’a pas des raisons médicales. Une étude
des flux de malades pourra relever les véritables causes de pétard dans leur durée
de séjour.
6- Le nombre d’actes et de diagnostics augmente avec l’age.
Enfin, réaliser ce projet en équipe a été tout à fait intéressant et productif. En effet, nous avons
pu confronter nos idées sur l’étude et effectuer ainsi une analyse plus détaillée
45
Bibliographie
- Stéphane Tuffery, Data Mining et Statistique Décisionnelle Nouv Edition, Technip, 2007,
ISBN-13: 978-2710808886
- Les logiciels de statistique et de data mining, http://data.mining.free.fr/cours/Logiciels.pdf , vu
le 18 mars 2008
- Étude statistique et préparation des données, http://data.mining.free.fr/cours/Donnees.pdf, vu
le 16 mars 2008
- De Hans Hermann Bock, E. Diday, Analysis of Symbolic Data Exploratory Methods for
Extracting, Springer, 2000, ISBN 3540666192, vu le 20 mars 2008 sur books.google.fr
www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm
-
Téléchargement de SODAS
Présentation des Méthodes
Exemples des rapports et données
www.wikipedia.org
46
Téléchargement