PROGRAMME de formation en Analyse de Données Symboliques organisé par Laboratoire CEREMADE - Université PARIS - Dauphine 6 & 7 décembre 2004 ORGANISATEURS: OBJECTIFS: METHODES: Edwin Diday, Myriam Touati Le logiciel SODAS peut apporter des informations complémentaires à celles qui sont fournies par les logiciels classiques de Statistiques, Analyse des données ou Data Mining. Issu des efforts conjoints de 17 équipes européennes dans le cadre d’un projet soutenu par EUROSTAT, il permet d’analyser les catégories ou "concepts" issues de données classiques et pas seulement les unités statistiques habituelles. Pour décrire ces catégories (villes, types de consommateurs, de patients, d'usager du web,…) qui proviennent de domaines les plus divers (données d'enquêtes, données de statistiques officielles, démographie, épistémologie, bio-technologie, web mining, text mining, etc.), on doit utiliser des données plus complexes que les données habituelles. Ces données sont dites symboliques (i.e. non purement numériques) car les variables qui décrivent les concepts peuvent être à valeur intervalle, distribution, suite de valeurs, etc… munies de règles et de taxonomies, afin de prendre en compte la variation des valeurs des unités statistiques à l'intérieur de chaque catégorie. Le logiciel SODAS permet d'abord de construire les description des catégories par un processus de généralisation automatique. Il permet ensuite, d'analyser les données symboliques ainsi obtenues en étendant les grands outils de l'Analyse des données Exploratoires et du Data Mining à ce type de données plus complexes: statistiques descriptives et représentations graphiques, classification automatique, arbres de décision, analyse factorielle, extraction de règles etc. À partir de données observées, qui peuvent être de très grande taille, l’Analyse de Données Symboliques et son logiciel SODAS constituent un nouvel outil pour extraire des connaissances, résumer les bases de données, les concaténer, protéger leur confidentialité, en extraire une vue concise et structurée, ainsi que des représentations facilement interprétables par l'utilisateur. Les thèmes privilégiés étant la recherche d'une structure de classification, l'extraction de nouveaux concepts et leur description qui peuvent à leur tour être analysés ou comparés d'une base à une autre. A l’issue de cette formation, les participants sont capables de : Comprendre la terminologie, les concepts et la logique interne de l’analyse de données symboliques D’effectuer une analyse sur des données complexes Exposé général sur les méthodes de l’A.D.S. Présentation d’applications de ces méthodes Atelier sur PC pour l’apprentissage de la prise en main de ce logiciel sur des données des participants. PERSONNES CONCERNEES: COMPETENCES REQUISES: CONTENU: LECTURES CONSEILLEES: LIEU TARIFS LANGUE Ingénieurs ou chercheurs, enseignants désirant acquérir des connaissances sur les aspects techniques de l’extraction de connaissances à partir des grandes bases de données grâce à l’Analyse de Données Symboliques. Niveau universitaire avec des connaissances de bases en Statistiques et bases de données Habitude de maniement du PC et d’applications sur PC Introduction Présentation générale de l’Analyse de Données Symboliques et du logiciel SODAS Exemples d’applications Méthodes d'Analyse de données symboliques Statistiques descriptives et visualisation de données symboliques Extraction des données symboliques à partir des bases de données Extraction des données symboliques à partir des fichiers de données natives Classification d’objets symboliques Dissimilarités entre objets symboliques munis de règles et de taxonomies Extension des méthodes factorielles, de discrimination et de régression aux données symboliques Exercices pratiques avec le logiciel SODAS Livre général sur l’Analyse de Données Symboliques H.-H. Bock, E. Diday (eds.): Analysis of Symbolic Data: Exploratory Methods for Extracting Statistical Information from Complex Data , Springer Verlag, 2000. L. Billard, E. Diday (2003) "From the statistic of Data to the statistic of Knowledge". JASA. Journal of the American Statistical Association. Juin. Informations supplémentaires sur les sites suivants: o ASSO project: www.assoproject.be o SODAS project: www.ceremade.dauphine.fr/~touati/sodaspagegarde.htm o Journal on Symbolic Data Analysis: www.jsda.unina2.it/JSDA.htm Université PARIS IX- Dauphine Place du Mal de Lattre de Tassigny 75016 PARIS France 800 € H.T. pour les deux jours de formation des bourses peuvent être accordées aux étudiants Nombre de participants limités Les exposés seront en français Les explications sur les applications seront en français Le logiciel est en anglais