Revue des Nouvelles Technologies de l’Information Sous la direction de Djamel A. Zighed et Gilles Venturini RNTI-E-3 Extraction et Gestion des Connaissances EGC 2005 Sous la direction de : Suzanne Pinson (Lamsade, Université Dauphine Paris IX), Nicole Vincent (Crip5, Université René Descartes Paris 5) Volume I CÉPADUÈS-ÉDITIONS 111, rue Vauquelin 31100 TOULOUSE – France Tél. : 05 61 40 57 36 – Fax : 05 61 41 79 89 (de l’étranger ) + 33 5 61 40 57 36 – Fax : + 33 5 61 41 79 89 www.cepadues.com courriel: [email protected] Chez le même éditeur RNTI-Revue des Nouvelles Technologies de l'Information Sous la direction de Djamel A. Zighed et Gilles Venturini n°1 : entreposage fouille de données E-1 : Mesures de qualité pour la fouille de données E2 :Extraction et gestion des connaissances EGC 2004 C-1 : Classification et fouille de données Ensemble composé de 2 volumes : 2 85428 682 0 (volume I) 2 85428 683 9 (volume II) ISBN : 2.85428.677.4 © CEPAD 2005 Le code de la propriété intellectuelle du 1 juillet 1992 interdit expressément la photocopie à usage collectif sans autorisation des ayants droit. Or, cette pratique en se généralisant provoquerait une baisse brutale des achats de livres, au point que la possibilité même pour les auteurs de créer des œuvres nouvelles et de les faire éditer correctement serait alors menacée. er Nous rappelons donc que toute reproduction, partielle ou totale, du présent ouvrage est interdite sans autorisation de l'éditeur ou du Centre français d'exploitation du droit de copie (CFC – 3, rue d'Hautefeuille – 75006 Paris). Dépôt légal : janvier2005 N° éditeur : 67700 LE MOT DES DIRECTEURS DE LA COLLECTION RNTI Chères Lectrices, Chers Lecteurs, La Revue des Nouvelles Technologies de l’Information a été créée en mars 2003. Après le numéro ”‘Entreposage et Fouille des Données”’ édité par Omar Boussaid et Stéphane Lallich, 4 numéros de notre revue ont été préparé dont celui-ci qui est consacré aux actes de la prestigieuse conférence EGC’2004. 5 A l’image de ce numéro, nous vous rappelons que les thématiques générales couvertes par RNTI concernent tous les domaines liés à l’Extraction de connaissances à partir des Données (ECD), la Fouille de données (FD), la Gestion des connaissances (GC). Compte tenu des numéros en préparation, et afin de mieux distinguer les thématiques, nous avons défini des appellations spécifiques pour chacun des domaines suivants : – RNTI - A : Apprentissage – RNTI - B : Bases de données – RNTI - C : Classification – RNTI - E : Extraction et Gestion des Connaissances – RNTI - S : Statistiques – RNTI - W : Web RNTI a pour objectif d’être un outil de communication de très grande qualité et ouvert à tous. Nous vous rappelons également que deux types de numéros sont publiés dans RNTI : – des actes de conférences sélectives garantissant une haute qualité des articles (par exemple, nous demandons à ce que trois relecteurs émettent un avis sur les articles soumis). C’est le cas par exemple dans ce numéro avec les actes de la conférence EGC’2005 qui remporte depuis plusieurs années un très grand succès, – des numéros à thème faisant l’objet d’un appel à communication. Chaque numéro à thème est édité par un ou plusieurs rédacteurs en chef invités. Un comité de programme spécifique d’une quinzaine de personne est formé à cette occasion. Nous sommes à votre écoute pour toute proposition de numéros spéciaux. Les thématiques abordées sont susceptibles également à moyen terme d’être élargies à d’autres domaines connexes. Nous espérons vivement que ce numéro vous donnera à tous une entière satisfaction. Pour tout renseignement, nous vous invitons à consulter notre site Web et à nous contacter. Djamel A. Zighed et Gilles Venturini. http://www.antsearch.univ-tours.fr/rnti ! " ) #$ %# & * . % '( + . , . . % #+ % / & . . 1 + , . . . 8 3 . * 3 * 5 * 2 , !+ 92 ;1 * ( & & + 1 7 *!+ & & & + . * 1 *!+ . , 8 *1 . + & & + " * + " 3 " & & ( * 3 , + . & * (7 * , + + * + 7 *!+ 7 & + . . - ( . 6 7 +: . / * 8 8 1 * + < - +" ( ) , : - & + . . + , 4 . & * * * 7 #+ ( . + 0 , . . * " & ( ) * * + & ,, 8 + ;1 + & . , , - + * ( 4 - 5 4* 5 + * * + - ,, + " , ? * - - = . & * & 6 + * + & & = & + + ( , & ( & !4 " - 3 ( v & , . 5( : * > . ,, & 6 4 + , / 92 . 5 2 . * / + + * ! 6 + + - @& + * * " . #A$ ? . & , 9 4* !( 1 * & - 2 & * + %$ ,, * #B + * " * + . , ,, " + . 0 &, - * -3 , . ( & ( * ( , . " + 'A ( ,, . + * * + 5 + ( & & + * + + ( C 3 D D . & 7 D . + < D + 1 D + 0 D E. + 7 + D + E D + 7 D * + 7 D * + D .F *+ G D + . + 1 . . + H 2 + + ) 2 38 + C 7 + 92 & + F 7 2+ 7 *+ . 7 + 7 + C 3 + + 1 * + . & -+ C 3 + . 2+ * + & + * + + 0 . 37 + . + 1 . 39 G + G 2+ * G +7 G + 31 I ,+ H& I ,,+ I >+ 9 . .+ > > > + & + H& . & + . +) J3 +9 . + E 1 3 +D 1 E + E 1 + D 1 + 0 + 1 0 . 3 + 92 & 0 * + C 31 K* + C 31 +C . + 92 & . 3 * + . + 7 + + ? + . + . . . + . 39 -+ 1 3 . + C 37 & & + > 9 + 9 +1 . 9 . + 1 . 9 *+ 9 + 7 9 & + . 9 > E + 92 & 9> + 1 * : + D * : + 9 , : 31 + < + . < + 1 L E +7 L *. ( 1 D G * C + G +1 . + )& I >> *+ :. D & + D( 7 & + . . & + + vi * + C D * + . +< . + 2 & + 7( + +K 1 G 3: 29 >+ * + C 6 D 2+ 0 + 7 + + 1 . . + + , + 92 & + 7 +D E 9. ( 0 M 7 >+ * 7 + ( O + 1 . ( N + , ) , O & O & , + . . < + - 3D ( 9 > 0 * 2 7 G E 39. +I < ** O & O & . D * + 1K7 1 + O & 2 A + )0 + O & 0 ! * + )0 + O & 0 + )0 + O & 0 1 . 39 G + ) )9+ O & 2 # 7 G + ) 11+ O & 1 % H& IK7 :K + )+ O & 9 & + 0 9+ 09:+ C 31 + )1K9+ OD + 3 C . + )0 + O & 0 7 L *. + ) +O & 2 % D vii 7 ! . 7 + ! + ! ! ! ' " # $ ! ( * !( ! , $ # & ! ) ! - " ! ' ! ! / ! $ / 0 !( #!+ , ! % $ & )! ! ( ) $ $ ) 3 ! *! . !/ 4 ! 55 / !! ) / ! & 6+ 4 / & +. ! / ! & ( ( / . ! / 80 3 ! - 3 & -- -- " ) " % !# 5 & % 9+ * % ! .3 .& ( 3 0 !! 20 " $ ( / % ( ) * 7 ! # ! ' # ( / , & !" & -$ " # ( " . & % # ! & & ' " ! / !" + ) 3 ( & ! # ! & . ! " 1 !( % !! ( % * !( " !( ! / & , / 00 9 ! ! . ' : ! . ! !$ $ ( #!+ , ! % !! * !# & ix " & 05 !! 1 " & * !! / ! ! 2 " !* ! #! * " 3 ! ! $ !! & 0 0 , 0 % 3 ) ! ! & ( ! 4 0 0 $ 3 ! ( !! # & 0 % , - % 6 7$ $ 0 / ! ! ! & , & $ & / !! * !( / !! ( & ) ! % ! ( ! #! ! ) ! $ ! !* ! 9-0 $ > & & ( 0 !" $ !( ! ?:@ A ? : & 6 01 !! 3 ! % & : 3 ( , $ ( ! & . ! $ , % ! &% $ , C / C * & ; / 0 ! 3 #! " 3 > & < , 4! ( D # ! ( ! ! 7 0 3 ! ! ! ! ' " # ( *! / " ! ! / 0 1 8 ? !! 5. 65 5 ; ++ 8 <0 <. =- ( 98 & 9 0 9 . ) ' / "B& 998 3 3 # 2+ & ! 3 - " ( 3$ $ 9 99 ! + 99+ ( ! $ & 90. !( ( ( 3 925 ( ! ! ! 95+ ! !! - ! ! 3 & 960 ! & 9+5 " % & 3 x 9< C ! !" & )( ; ! C ) 3 !! * 0) 5 3 ! ! 3 ( ! ! ! / ( & 9.0 ! !( / ! 3 & 8 085 ! !( !" ! $ ! !! & ! ! ! 3 A & $ % . # ' ! & ! B ! , $ $ /! 0 + & 9 0 < 2) ! : ) ! 3 & () $ 1 $ 0 7 " ! 0 : . ! $ 1 ( % 1 !! ()! !) H & $ % )' ; ! 5J ! F % , ( G 5 9 $ 0 ! ;) ! ! I = # ! ! ( - EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE0 . & &-% &%EEEEEEEEEEEEEEEEEEEEEEEEEEEEE00 ! H & EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE020 !! & ! 9 * EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE02. / ! ! H & ! EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE055 !! ! : & % EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE056 ! : ) ! $ & ! . 9 EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE05+ ( G - ! !& EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE05< $ ! $ ( ( : ! & ( # ! % ! $ K & ; ! 0 & / & ! * & EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE05. !! !( & ! 7 EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE065 ! ( ! ( & - ! , 3 ;) & EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE0++ ! ) !( ( ! & ! & =! ; !EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE0<. !( 1& ! & =! ; ! EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE0.5 $ ; ! 3& xi & = ;) 3 ' ! - ! ; ! $ ; ! ) ! !( ! EEEEEEEEEEEEEEEEEEE28+ #! & ,/ ! ! ; & ! !EEEEEEEEEEEEEEEEEEEEEEEEEEEEE2 . ( / ! ! > > & # " ! EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE298 ' * " 6) L 3 / 6 ! 8 ! " ; & 0 %< 0 > , ! !M 8 $ ? %# ( 7$ ( 1 !! ( # ! )' ( ! / I / $ & EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE29 > & , 5 EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE200 #! ! ( G $ & ) EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE225 ( K ! & 8 EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE25 / # ! ( ) ! * !( !" & ;) / 6 &) ! ! ** . ! # 0 - EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE260 ! ?- & / ! EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE26. ! % ? ! ! & 0 ; + # ! 3 " #!+ # ! 3 * EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE2< ( !( ! !$ - * . # ! ( 3 / !! & , ! %EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE2<0 N $ / L ! * ! & (% *& ! ! $ ) 0 !!% 0 & 6 & 0 () !" / ( 6 / ! " )' ( ; / ! & ! ! ( ! ) ( ) ( @ -- 8 ! - ! ; ! & !( 8 EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE2.5 & EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE58+ # ! ( ! & EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE5 . # ! & ! EEEEEEEEEEEEEEEEEEEEEEEEEEEEEE50 ! !( ! # ! ; ! xii ) EEEEEEEEEEEEEEEEEEEEE509 <7 ! J ! ! ( - ( ! 7 / ! 0 , ! 7 ! / ! @ / ! 7$ $ . " # ! !! !! / ! 3 & !! EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE500 ! & EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE525 / ! 0 & 6 ! ( A EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE55+ ( I ! & = # EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE560 ( L: ! 8 " # # - ") B & 9 3 ! EEEEEEEEEEEEEEEEEEEEEEEE5+5 & # ? ! ! ; ; $ ! !( % ( , & ( ! $ / / !( @ ! EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE5<+ !( * ( ) ! ; ! & 6( $ !( !) ) 3 ! EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE5.0 * !( &3! EEEEEEEEEEEEEEE5.. !( $ & = ! " & . ! EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6 ! ! L !( ! & @C EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6 9 8) $ / ! / / ' & , $ ; ! ! ! 8 --)EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6 0 4 ) ( $ / ! ( #! ! ! & ; & EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE695 ! ( ! ' 1& ;) 3 , ! ! ; ! 8 --)EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE60+ !" " !$ ( & -- ( #!+ , ! % EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE620 & )- xiii ! 8 ( ! -- ( 3 ! ) )$) ( 3 $ 3 # ) ! , ) ! , % @ 0 - EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE62. 3 !!#! ! % O & &% + ! + EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE655 * & !# 9 () $ @ !$ % EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE66+ ! ! N * !N $ - " 3$ 3 ! & ! ") ) 7$ . ! ** EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6+0 D ) / !N !" ! / & - 1 ( ) EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6+. 3 !N 3 & 0 ; 7$ . ! ** EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6<5 F & ! !! $ !! / ! & ( EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6. , : ) ! ! !N ! & EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6.+ 0 / ! $ *! $ ) / !" " !$ & #!+ , ! % EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE+80 , / ! ! & " 3 EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE+82 " ) / & % % & - EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE+85 xiv Combinaison de fonctions de préférence par Boosting pour la recherche de passages dans les systèmes de question/réponse Nicolas Usunier, Massih-Reza Amini, Patrick Gallinari Laboratoire d’Informatique de Paris 6 8, rue du Capitaine Scott, 75015 Paris {usunier, amini, gallinari}@poleia.lip6.fr R´ esum´ e. Nous proposons une méthode d’apprentissage automatique pour la sélection de passages susceptibles de contenir la réponse à une question dans les systèmes de Question-Réponse (QR). Les systèmes de RI ad hoc ne sont pas adaptés à cette tâche car les passages recherchés ne doivent pas uniquement traiter du même sujet que la question mais en plus contenir sa réponse. Pour traiter ce problème les systèmes actuels ré-ordonnent les passages renvoyés par un moteur de recherche en considérant des critères sous forme d’une somme pondérée de fonctions de scores. Nous proposons d’apprendre automatiquement les poids de cette combinaison , grâce à un algorithme de réordonnencement défini dans le cadre du Boosting, qui sont habituellement déterminés manuelement. En plus du cadre d’apprentissage proposé, l’originalité de notre approche réside dans la définition des fonctions allouant des scores de pertinence aux passages. Nous validons notre travail sur la base de questions et de réponses de l’évaluation TREC-11 des systèmes de QR. Les résultats obtenus montrent une amélioration significative des performances en terme de rappel et de précision par rapport à un moteur de recherche standard et à une méthode d’apprentissage issue du cadre de la classification. 1 Introduction Les systèmes de question/réponse (QR) ont pour objectif de trouver la réponse à une question formulée en langage naturel dans un grand corpus de documents. Nous nous intéressons ici aux systèmes de QR en domaine ouverts, développés dans le cadre des évaluations TREC 1 . Dans ces systèmes, le traitement d’une question s’effectue en trois étapes : (1) l’analyse la question, déterminant un type de réponse attendue et la structure syntaxique de la question, (2) la recherche d’information (RI), qui interroge un moteur de recherche pour sélectionner des passages susceptibles de contenir la réponse à la question. Selon les systèmes, les passages peuvent être des documents entiers (Monz 2003), des parties de documents de longueur fixe (Chalendar et al. 2002), ou des phrases consécutives d’un document (Prager et al. 2000). Enfin, (3) l’extraction et la sélection de la réponse dans les passages séléctionnés. Dans la chaı̂ne de traitement, le module de RI est crucial, car s’il échoue à renvoyer au moins un passage contenant la réponse dans sa sélection, le système ne peut pas répondre à la question. Par ailleurs, il pose de nouveaux problèmes de RI : la recherche qu’il doit effectuer est plus spécifique 1 Text REtrieval Conference, http ://trec.nist.gov 1 RNTI-E-3 Usage non classificatoire d’arbres de classification : enseignements d’une analyse de la participation féminine à l’emploi en Suisse Fabio B. Losa∗ , Pau Origoni∗ , Gilbert Ritschard∗∗ ∗ Office statistique du canton du Tessin, Bellinzona, Suisse [email protected] ; [email protected] ∗∗ Département d’économétrie, Université de Genève [email protected] Résumé. Cet article présente une application en grandeur réelle des arbres de classification dans un contexte non classificatoire. Les arbres générés visent à mettre en lumière les différences régionales dans la façon dont les femmes décident de leur participation au marché du travail. L’accent est donc mis sur la capacité descriptive plutôt que prédictive des arbres. L’application porte sur des données relatives à la participation féminine au marché du travail issues du Recensement Suisse de la Population de l’an 2000. Ce vaste ensemble de données a été analysé en deux phases. Un premier arbre exploratoire a mis en évidence la nécessité de procéder à des études séparées pour les non mères, les mères mariées ou veuves, et les mères célibataires ou divorcées. Nous nous limitons ici aux résultats de ce dernier groupe, pour lequel nous avons généré un arbre séparé pour chacune des trois régions linguistiques principales. Les arbres obtenus font apparaı̂tre des différences culturelles fondamentales entre régions. Du point de vue méthodologique, la principale difficulté de cet usage non classificatoire des arbres concerne leur validation, puisque le taux d’erreur de classification généralement retenu perd tout son sens dans ce contexte. Nous commentons cet aspect et illustrons l’usage d’alternatives plus pertinentes et facilement calculables. 1 Introduction Les arbres de décision sont, depuis leur popularisation par Breiman et al. (1984), devenus des outils multivariés privilégiés pour prédire la valeur de variables continues ou la classe de variables catégorielles à partir d’un ensemble de prédicteurs. On parle d’arbre de régression quand l’attribut à prédire est quantitatif et d’arbre de classification lorsqu’il est catégoriel. Bien que leur but premier soit la prédiction et la classification, les arbres présentent bien d’autres intérêts, comme méthode exploratoire pour partitionner et identifier des structures locales dans les bases de données, mais aussi comme alternative aux méthodes statistiques classiques comme la régression linéaire ou logistique par exemple (Wilkinson, 1992). Cette contribution illustre cet usage non-classificatoire des arbres de classification en présentant une application réelle sur des données relatives à la participation féminine 7 RNTI-E-3 Notion de sémantiques bien-formées pour les règles Marie Agier∗,∗∗ , Jean-Marc Petit∗∗ ∗ DIAGNOGENE 83, avenue Charles de Gaulle 15000 Aurillac ∗∗ LIMOS, UMR 6158 CNRS Univ. Clermont-Ferrand II 63177 Aubière Résumé. La notion de règles entre attributs est très générale, allant des règles d’association en fouille de données aux dépendances fonctionnelles (DF) en bases de données. Malgré cette diversité, la syntaxe des règles est toujours la même, seule leur sémantique diffère. Pour une sémantique donnée, en fonction des propriétés induites, des techniques algorithmiques sont mises en oeuvre pour découvrir les règles à partir des données. A partir d’un ensemble de règles, il est aussi utile en pratique de raisonner sur ces règles, comme cela est le cas par exemple avec les axiomes d’Armstrong pour les dépendances fonctionnelles. Dans cet article, nous proposons un cadre qui permet de s’assurer qu’une sémantique donnée pour les règles est bien-formée, i.e. les axiomes d’Armstrong sont justes et complets pour cette sémantique. Les propositions faites dans ce papier proviennent du contexte applicatif de l’analyse de données de biopuces. A partir de plusieurs sémantiques pour les données d’expression de gènes, nous montrons comment ces sémantiques s’intègrent dans le cadre présenté. 1 Introduction Les biopuces permettent aujourd’hui aux biologistes de mesurer l’expression de milliers de gènes simultanément et un des défis majeurs fixé à présent est de comprendre les réseaux de régulation géniques, i.e. de découvrir les interactions entre les différents gènes. Dans le cadre de nos travaux, nous nous intéressons à définir des règles entre les gènes à partir de données d’expression de gènes, étant entendu que ces règles forment un modèle possible d’un réseau de régulation. Ces données sont à valeurs réelles, chaque valeur représentant le niveau d’expression d’un gène pour une expérience (ou biopuce) particulière. La notion de règles entre attributs est très générale, allant des règles d’association en fouille de données aux dépendances fonctionnelles en bases de données. Malgré cette diversité, la syntaxe des règles est toujours la même, seule leur sémantique diffère. Pour une sémantique donnée, en fonction des propriétés induites, des techniques algorithmiques sont mises en oeuvre pour découvrir les règles à partir des données [Agrawal et Srikant, 1994, Lopes et al., 2002, Morishita et Sese, 2000]. A partir d’un ensemble de règles, il est aussi très utile en pratique de pouvoir 19 RNTI-E-3 Une Approche Filtre pour la Sélection de Variables en Apprentissage Non Supervisé ∗ Pierre-Emmanuel JOUVE ∗ , Nicolas NICOLOYANNIS ∗ LABORATOIRE ERIC, Université Lumière - Lyon2, http://eric.univ-lyon2.fr Bâtiment L, 5 av. Pierre Mendès-France 69 676 BRON cedex FRANCE [email protected], [email protected] Résumé. La Sélection de Variable (SV) constitue une technique efficace pour réduire la dimension des espaces d’apprentissage et s’avère être une méthode essentielle pour le pré-traitement de données afin de supprimer les variables bruitées et/ou inutiles. Peu de méthodes de SV ont été proposées dans le cadre de l’apprentissage non supervisé, et, la plupart d’entre elles, sont des méthodes dites ”enveloppes” nécessitant l’utilisation d’un algorithme d’apprentissage pour évaluer les sous ensembles de variables. Or, l’approche ”enveloppe” est largement mal adaptée à une utilisation lors de cas ”réels”. En effet, d’une part ces méthodes ne sont pas indépendantes vis à vis des algorithmes d’apprentissage non supervisé qui nécessitent le plus souvent de fixer un certain nombre de paramètres ; mais surtout, il n’existe pas de critères bien adaptés à l’évaluation de la qualité d’apprentissage non supervisé dans des sous espaces différents. Nous proposons et évaluons dans ce papier une méthode ”filtre” et donc indépendante des algorithmes d’apprentissage non supervisé. Cette méthode s’appuie sur deux indices permettant d’évaluer l’adéquation entre deux ensembles de variables (entre deux sous espaces). 1 Introduction La grande dimensionnalité de l’espace de représentation des données est un problème commun en apprentissage. La Sélection de Variables (SV) permet de déterminer quelles sont les variables pertinentes et constitue ainsi une technique efficiente pour la réduction de la dimension. Une variable pertinente pour une tâche d’apprentissage peut être définie comme une variable dont la suppression dégrade de manière significative la qualité de l’apprentissage réalisé. La suppression des variables non pertinentes permet donc la réduction de dimensionnalité, et, peut simultanément impliquer un accroissement de la précision et de la compréhensibilité des modèles bâtis. Il existe deux contextes principaux pour l’apprentissage : l’apprentissage supervisé et l’apprentissage non supervisé (clustering). S’il existe nombre de méthodes pour la SV dans le contexte supervisé (Dash et al. 1997), il n’existe que peu de méthodes (la plupart étant récentes) pour le contexte non supervisé. Cela peut être expliqué par le fait qu’il est plus aisé de sélectionner des variables pour l’apprentissage supervisé que pour le clustering. Dans le cadre supervisé, ce qui doit être appris est ”connu a priori” alors que cela n’est pas le cas pour le clustering, dès lors, déterminer les variables pertinentes pour cette tâche peut être ardu. Le processus de SV pour le clustering peut être vu comme le processus de 31 RNTI-E-3 Forage distribué des données : une comparaison entre l’agrégation d’échantillons et l’agrégation de règles M. Aounallah∗ , S. Quirion∗∗∗ et G. Mineau∗∗ Département d’informatique et de génie logiciel Département de génie électrique et de génie informatique Pavillon Adrien-Pouliot, Université Laval G1K 7P4, Canada ∗ [email protected], http ://w3.ift.ulaval.ca/∼moaoa ∗∗ [email protected], http ://www.ift.ulaval.ca/Personnel/prof/Mineau.htm ∗∗∗ [email protected] ∗ & ∗∗ ∗∗∗ Résumé. Pour nous attaquer au problème du forage de très grandes bases de données distribuées, nous proposons d’étudier deux approches. La première est de télécharger seulement un échantillon de chaque base de données puis d’y effectuer le forage. La deuxième approche est de miner à distance chaque base de données indépendamment, puis de télécharger les modèles résultants, sous forme de règles de classification, dans un site central où l’agrégation de ces derniers est réalisée. Dans cet article, nous présentons une vue d’ensemble des techniques d’échantillonnage les plus communes. Nous présentons ensuite cette nouvelle technique de forage distribué des données où la mécanique d’agrégation est basée sur un coefficient de confiance attribué à chaque règle et sur de très petits échantillons de chaque base de données. Le coefficient de confiance d’une règle est calculé par des moyens statistiques en utilisant le théorème limite centrale. En conclusion, nous présentons une comparaison entre les meilleures techniques d’échantillonnage que nous avons trouvées dans la littérature, et notre approche de forage distribué des données (FDD) basée sur l’agrégation de modèles. 1 Introduction Ce papier traite du problème de forage de plusieurs bases de données gigantesques et géographiquement distribuées, en présentant et en comparant deux techniques de forage de données. La première technique que nous avons examinée utilise un échantillon de taille raisonnable de chaque base de données, auxquels, une fois agrégés, nous appliquons une technique de forage de données. Cette technique relève de l’agrégation de données. Dans cette perspective, nous avons étudié les techniques d’échantillonnage existantes. Une description de ces dernières ainsi qu’une comparaison empirique sont présentées plus loin dans cet article. La deuxième technique de forage de données, que nous introduisons (basée sur l’agrégation de modèles), se propose d’appliquer individuellement sur chaque base de 43 RNTI-E-3 Extraction bayésienne et intégration de patterns représentés suivant les K plus proches voisins pour le go 19x19 Bruno Bouzy∗ , Guillaume Chaslot∗ Université Paris 5, C.R.I.P.5 45, rue des Saints-Pères 75270 Paris Cedex 06 France [email protected], http ://www.math-info.univ-paris5.fr/∼bouzy ∗∗ Ecole Centrale de Lille Cité Scientifique - BP 48, 59651 Villeneuve d’Ascq Cedex [email protected] ∗ Résumé. Cet article décrit la génération automatique et l’utilisation d’une base de patterns pour le go 19x19. La représentation utilisée est celle des K plus proches voisins. Les patterns sont engendrés en parcourant des parties de professionnels. Les probabilités d’appariement et de jeu des patterns sont également estimées à ce moment là. La base créée est intégrée dans un programme existant, Indigo. Soit elle est utilisée comme un livre d’ouvertures en début de partie, soit comme une extension des bases pré-existantes du générateur de coups du programme. En terme de niveau de jeu, le gain résultant est estimé à 15 points en moyenne. 1 Introduction Le facteur de branchement et la longueur d’une partie interdisant la recherche arborescente globale au go et l’évaluation de positions non terminales étant difficile [14], la programmation du jeu de go est une tâche difficile pour l’informatique [15, 13]. Cependant, la programmation du go est un terrain d’expériences approprié pour l’IA [8]. Indigo [7], programme de go développé dans l’esprit de valider des méthodes d’IA, est composé d’un module Monte Carlo (MC) et d’un module basé sur des connaissances. Le module MC a été décrit récemment [9, 4], et le module basé sur les connaissances a été décrit dans des travaux antérieurs à 2003 [8, 5, 6]. La figure 1 donne un aperçu du processus de choix du coup à jouer dans Indigo. Le module basé sur les connaissances fournit ns coups au module MC qui, en vue de sélectionner le meilleur coup, joue un grand nombre de parties aléatoires jusqu’au bout et commençant par l’un de ces coups et calcule des moyennes. Le module basé sur les connaissances est donc un préprocesseur du module MC. L’amélioration du module basé sur les connaissances est l’objet de cet article. Ce module comprend plusieurs bases de “patterns” construits à la main. Les bases de connaissances construites à la main ont plusieurs désavantages : elles contiennent des erreurs, elles ont des lacunes et elles ne peuvent pas être mises à jour facilement. Par ailleurs, les multiples bases de connaissances dans Indigo ne partagent pas le même format : la première (Forme M) contient des caractéristiques dépendantes du domaine 55 RNTI-E-3 Arbres de décision sur des données de type intervalle : évaluation et comparaison Chérif Mballo * ** *,** & Edwin Diday ** ESIEA Recherche, 38 Rue des Docteurs Calmette et Guérin 53000 Laval France [email protected] LISE-CEREMADE, Université Paris Dauphine, Place du Maréchal de Lattre de Tassigny, 75775 Paris cedex 16, France [email protected] Résumé. Le critère de découpage binaire de Kolmogorov-Smirnov nécessite un ordre total des valeurs prises par les variables explicatives. Nous pouvons ordonner des intervalles fermés bornés de nombres réels de différentes façons. Notre contribution dans cet article consiste à évaluer et à comparer des arbres de décision obtenus sur des données de type intervalle à l’aide du critère de découpage binaire de Kolmogorov-Smirnov étendu à ce type de données (Mballo et al. 2004). Pour ce faire, nous axons notre attention sur le taux d’erreur mesuré sur l’échantillon de test. Pour estimer ce paramètre, nous divisons aléatoirement chaque base de données en deux parties égales en terme d’effectif (à un objet près) pour construire deux arbres. Ces deux arbres sont d’abord testés par un même échantillon puis par deux échantillons différents. 1 Introduction Dans le domaine de la discrimination par arbre de décision binaire, les variables explicatives sont souvent quantitatives ou qualitatives classiques. Le critère de découpage binaire de Kolmogorov-Smirnov a été introduit par (Friedman 1977 ; Utgoff et Clouse 1996) pour une partition binaire à expliquer avec des variables explicatives quantitatives classiques. Ce critère a été étendu aux variables explicatives qualitatives classiques par (Asseraf 1998). Cependant, depuis quelques années, avec l’avènement de l’analyse des données symboliques (Bock et Diday 2000), on assiste à la mise au point de méthodes de construction d' arbres de décision sur des données symboliques, notamment de type intervalle et histogramme (Périnel 1996 ; Yapo 2002). Ces auteurs utilisent les critères de découpage classiques (entropie, Gini, gain ratio, likelihood) pour construire l’arbre de décision. Nous privilégions ici la méthode basée sur le critère de découpage binaire de Kolmogorov-Smirnov. Ce critère est basé sur un ordre total des valeurs prises par les variables explicatives. Nous pouvons ordonner des intervalles fermés bornés de ℜ (ensemble des nombres réels) de différentes façons (Diday et al. 2003) et chacune des relations d’ordre proposées est totale sur l’ensemble des intervalles fermés bornés. Nous présentons ici une approche exploratoire de construction d’arbres de décision. Cette approche consiste à construire un arbre pour chaque ordre et à comparer ces arbres obtenus selon le taux d’erreur réel mesuré sur l’échantillon de test. Pour estimer ce paramètre, nous utilisons l’approche suivante : chaque base de données utilisée est divisée aléatoirement en deux parties pour construire deux arbres et ces arbres sont d’abord testés par un même échantillon puis par deux échantillons différents (section 5). Comme les 67 RNTI-E-3 Validation statistique des cartes de Kohonen en apprentissage supervisé Elie Prudhomme, Stéphane Lallich Laboratoire E.R.I.C, Université Lumière Lyon 2 5, avenue Pierre Mendès-France, 69676 BRON Cedex France [email protected], [email protected] Résumé. En apprentissage supervisé, la prédiction de la classe est le but ultime. Plus largement, on attend d'une bonne méthodologie d'apprentissage qu'elle permette une représentation des données susceptible de faciliter la navigation de l'utilisateur dans la base d'exemples et d'aider au choix des exemples et des variables pertinents tout en assurant une prédiction de qualité dont on comprenne les ressorts. Diérents travaux ont montré l'aptitude des graphes de voisinage issus des prédicteurs à fonder une telle méthodologie, ainsi le graphe des voisins relatifs de Toussaint. Cependant, la complexité de leur construction, en O(n3 ), reste élevée. Dans le cas de données volumineuses, nous proposons de substituer aux graphes de voisinage les cartes de Kohonen construites sur les prédicteurs. Après un bref rappel du principe des cartes de Kohonen en apprentissage non supervisé, nous montrons comment celles-ci peuvent fonder une stratégie d'apprentissage optimisée. Nous proposons ensuite d'évaluer la qualité de cette stratégie par une statistique originale qui est étroitement corrélée au taux d'erreur en généralisation. Diérentes expérimentations montrent la faisabilité de cette approche. On dispose alors d'un critère able pour sélectionner les individus et les attributs pertinents. Mots-clefs : apprentissage supervisé, cartes de Kohonen, validation statistique 1 Position du problème Les méthodes d'apprentissage supervisé d'une variable catégorielle ont pour objet in ne la prédiction de la classe d'appartenance d'un nouvel exemple à partir d'un échantillon d'exemples étiquetés. En fait, la prédiction n'est qu'une étape de la procédure d'apprentissage, qui est enrichie par l'analyse exploratoire des données tout à la fois pour les préparer au mieux et pour leur donner du sens en intégrant d'éventuelles informations contextuelles. Dans une telle perspective, le recours aux graphes de voisinage apporte une solution ecace. On construit le graphe de voisinage issu des prédicteurs, par exemple le graphe des voisins relatifs de Toussaint (Toussaint et Menard, 1980), puis l'on colorie les sommets du graphe en fonction de leur classe d'appartenance. Pour trouver la classe d'un nouvel exemple, on insère celui-ci dans le graphe de voisinage et on lui attribue la classe majoritaire parmi ses voisins dans le graphe. Divers travaux ont proposé une statistique (le poids des arêtes coupées) qui évalue la capacité prédictive d'un graphe de voisinage et permet la sélection de variables pertinentes ou la détection 79 RNTI-E-3 Un critère d’évaluation pour la sélection de variables Dahbia Semani, Carl Frélicot, Pierre Courtellemont Laboratoire d’Informatique – Image – Interaction Université de La Rochelle, Avenue Michel Crépeau, 17042 La Rochelle Cedex, France {dahbia.semani,carl.frelicot,pierre.courtellemont}@univ-lr.fr Résumé. Cet article aborde le problème de la sélection de variables dans le cadre de la classification supervisée. Les méthodes de sélection reposent sur un algorithme de recherche et un critère d’évaluation pour mesurer la pertinence des sous-ensembles potentiels de variables. Nous présentons un nouveau critère d’évaluation fondé sur une mesure d’ambiguı̈té. Cette mesure est fondée sur une combinaison d’étiquettes représentant le degré de spécificité ou d’appartenance aux classes en présence. Les tests menés sur de nombreux jeux de données réels et artificiels montrent que notre méthode est capable de sélectionner les variables pertinentes et d’augmenter dans la plupart des cas les taux de bon classement. 1 Introduction En reconnaissance des formes, les données sont des vecteurs réalisations de variables qui correspondent à des mesures réalisées sur un système physique ou à des informations collectées lors d’une observation d’un phénomène. Ces variables ne sont pas toutes aussi informatives : elles peuvent correspondre à du bruit, être peu significatives, corrélées ou non pertinentes pour la tâche à réaliser. La sélection de variables a pour objectif de réduire le nombre de ces variables et donc réduire la taille des informations à traiter. Des traitements plus sophistiqués peuvent alors être utilisés dans des espaces de dimension réduite, l’étape d’apprentissage est facilitée, les performances peuvent augmenter lorsque les variables non pertinentes ou redondantes disparaissent, etc. Nous traitons, dans cet article, le problème de la sélection de variables dans le cadre de la reconnaissance de formes statistique et plus particulièrement dans le cadre de la classification supervisée (ou classement). Dans ce cas, la sélection de variables a pour objectif de réduire la complexité en sélectionnant le sous-ensemble de variables de taille minimale sans que les performances de la règle de classement diminuent trop voire même augmentent. Une méthode de sélection repose sur un algorithme de recherche et un critère d’évaluation pour mesurer la pertinence des sous-ensembles potentiels de variables. Nous nous intéressons aux critères d’évaluation. Ainsi, nous proposons un nouveau critère d’évaluation fondé sur une mesure d’ambiguı̈té. Cette mesure repose sur la combinaison d’étiquettes représentant le degré de spécificité ou d’appartenance aux classes en présence. Des opérateurs d’agrégation issus de la logique floue sont utilisés pour la combinaison de ces étiquettes. Cet article est organisé comme suit. Un bref état de l’art sur les algorithmes de sélection de variables et les critères d’évaluation est dressé aux sections 2 et 3. Nous 91 RNTI-E-3 Analyse stochastique de séquences d'événements discrets pour la découverte de signatures Philippe Bouché, Marc Le Goc LSIS, UMR CNRS 6168, Domaine Universitaire St Jérôme, 13397 Marseille cedex 20, France [email protected]; [email protected] Résumé. Cet article concerne la découverte de signatures (ou modèles de chroniques) à partir d’une séquence d'événements discrets (alarmes) générée par un agent cognitif de surveillance (Monitoring Cognitive Agent ou MCA). Considérant un couple (Processus, MCA) comme un générateur stochastique d’événements discrets, deux représentations complémentaires permettent de caractériser les propriétés stochastiques et temporelles d’un tel générateur : une chaîne de Markov à temps continu et une superposition de processus de Poisson. L’étude de ces deux représentations duales permet de découvrir des « signatures » décrivant les relations stochastiques et temporelles entre événements dans une séquence. Ces signatures peuvent alors être utilisées pour reconnaître des comportements spécifiques, comme le montre l’application de l’approche à un outil de production industriel piloté par un système Sachem, le MCA développé et utilisé par le groupe Arcelor pour aider au pilotage de ses outils de production. 1 Introduction Système de supervision Instrumentation Instrumentation (Actionneurs) (capteurs) Processus Nos travaux concernent les systèmes à base de connaissances de surveillance des processus dynamiques, appelés « Monitoring Cognitive Agent » par la suite (figure 1). Ces systèmes décrivent les évolutions du processus surveillé au moyen d’événements qui, selon le contexte, peuvent être qualifiés d’alarmes (ou d’avertissements) et adressés à l’Opérateur (Le Goc et Frydman, 2004). Les événements sont produits suivant un principe de discrétisation spatiale qui consiste à positionner le niveau d’un signal dans un ensemble d’intervalles de valeurs ou plages. Un événement est généré lorsqu’un signal entre dans une nouvelle plage. Actions Optimiser le comportement du processus Données processus M.C.A. Operator Operator Operator Operator Operator Opérateur Événements Génération d’événements en ligne Analyse événementielle hors ligne ELP Lab Expert Modèles de comportement FIG. 1- Monitoring Cognitive Agent 103 RNTI-E-3 Acquisition et exploitation de connaissances dans un contexte multi-experts pour un système d’aide à la décision Jean-Robert Kala Kamdjoug∗,∗∗ Philippe Lenca∗∗ Jean-Pierre Barthélemy∗∗,∗∗∗ ∗ Université Catholique d’Afrique Centrale BP 11628, Yaoundé, Cameroun ∗∗ GET ENST Bretagne / Département LUSSI – CNRS TAMCIC Technopôle de Brest Iroise - CS 83818 29238 Brest Cedex, France {prenom.nom}@enst-bretagne.fr, ∗∗∗ CAMS / UMR CNRS 8557 Ecole des Hautes Etudes en Sciences Sociales, Paris Résumé. Nous présentons une méthodologie d’extraction, de gestion et d’exploitation de connaissances dans un contexte multi-experts. Elle repose sur trois étapes : extraction des connaissances de chaque expert, gestion des connaissances individuelles afin de constituer une base de connaissances commune et exploitation de cette base afin de fournir une aide à la décision aux experts. La méthodologie proposée a été mise en œuvre au Cameroun avec cinq experts en microfinance. Elle a donné des résultats en adéquation avec les pratiques des experts. Au-delà, on envisage de mettre en œuvre un système de capitalisation des connaissances. Il doit permettre d’analyser rapidement un plus grand nombre de situations, les experts restant en nombre limité, et contribuer à un transfert de compétences pour former les décideurs locaux. En effet, les experts sont en général membres d’ong et restent rarement plus de deux ans sur place. 1 Introduction La microfinance fait référence à des services financiers d’épargne, de crédit et d’assurance destinés aux personnes à faible revenu exclues des systèmes financiers classiques. Ces services sont fournis par les emf (Etablissements de MicroFinance) qui les complètent par des programmes de formation à la gestion destinés aux clients promoteurs de microentreprise. De nos jours, le microcrédit est un des outils sur lesquels la communauté internationale fonde un réel espoir de réduction de la pauvreté dans le monde et particulièrement en Afrique subsaharienne où vivent plus de 18,8% des personnes à faible revenu (World-Bank, 2001). D’après les statistiques du Consultative Group to Assist the Poorest, seul 1% des 7000 emf recensés dans le monde en 2003 saurait grandir sans avoir besoin des subventions permanentes. 115 RNTI-E-3 Apprentissage de structure des réseaux bayésiens et données incomplètes Olivier François et Philippe Leray INSA Rouen - Laboratoire PSI - FRE CNRS 2645 BP 08 - Av. de l’Université, 76801 St-Etienne du Rouvray Cedex {Olivier.Francois, Philippe.Leray}@insa-rouen.fr http ://bnt.insa-rouen.fr Résumé. Le formalisme des modèles graphiques connait actuellement un essor dans les domaines du machine learning. En particulier, les réseaux bayésiens sont capables d’effectuer des raisonnements probabilistes à partir de données incomplètes alors que peu de méthodes sont actuellement capables d’utiliser les bases d’exemples incomplètes pour leur apprentissage. En s’inpirant du principe de ams-em proposé par (Friedman, 1997) et des travaux de(Chow & Liu, 1968), nous proposons une méthode permettant de faire l’apprentissage de réseaux bayésiens particuliers, de structure arborescente, à partir de données incomplètes. Une étude expérimentale expose ensuite des résultats préliminaires qu’il est possible d’attendre d’une telle méthode, puis montre le gain potentiel apporté lorsque nous utilisons les arbres obtenus comme initialisation d’une méthode de recherche gloutonne comme ams-em. 1 Introduction La détermination d’un réseau bayésien B = (G, θ) nécessite la définition d’un graphe acyclique dirigé (dag) G dont les sommets représentent un ensemble de variables aléatoires X = {X1 , · · · , Xn } (la structure), et de matrices de probabilités conditionnelles du nœud i connaissant l’état de ses parents P a(Xi ) dans G, θi = [P(Xi /XP a(Xi ) )] (les paramètres). De nombreuses méthodes d’apprentissage de structure de réseaux bayésiens ont vu le jour ces dernières années. Alors qu’il est possible de faire de l’apprentissage de paramètres de réseaux bayésiens à partir de données incomplètes et que l’inférence dans les réseaux bayésiens est possible même lorsque peu d’attributs sont observés (Jensen, 1996, Pearl, 1998, Naı̈m et al., 2004), les algorithmes d’apprentissage de structure avec des données incomplètes restent rares. Il est possible de différencier trois types de données manquantes selon le mécanisme qui les a générées. Le premier type représente les données manquantes au hasard (mar, missing at random). Dans ce cas, la probabilité qu’une variable ne soit pas mesurée ne dépend que de l’état de certaines autres variables observées. Lorsque cette probabilité ne dépend plus des variables observées, les données manquantes sont dites mcar (missing completely at random). Par contre lorsque la probabilité qu’une variable soit manquante dépend à la fois de l’état de certaines autres variables observées mais également de phénomènes extérieurs, les données sont dites nmar. Par la suite, nous supposerons que nous sommes en présence d’une base de données incomplètes suivant un mécanisme mar ou mcar. Ainsi, nous possédons toute l’information nécessaire pour estimer la distribution des données manquantes dans la base d’exemples. Lorsque les données sont incomplètes, il est possible de déterminer les paramètres et la structure du réseau bayésien à partir des entrées complètes de la base. Comme les données manquantes sont supposées l’être aléatoirement, nous construisons ainsi un estimateur sans biais. Néanmoins, dans l’exemple d’une base de 2000 cas sur 20 attributs, avec une probabilité de 20% qu’une mesure soit manquante, nous ne disposerons en moyenne que de 23 cas complets. Les autres données à notre disposition ne sont donc pas négligeables et il serait donc préférable de faire l’apprentissage en utilisant toute l’information à laquelle nous avons accès. Un avantage des réseaux bayésiens est qu’il suffit que seules les variables X i et P a(Xi ) soient observées pour estimer la table de probabilité conditionnelle correspondante. Dans ce cas, il est alors possible d’utiliser tous les exemples (même incomplets) où ces variables sont observées (dans 127 RNTI-E-3 Apprentissage de scénarios à partir de séries temporelles multivariées Thomas Guyet∗ , Catherine Garbay∗ , Michel Dojat∗∗ ∗ Laboratoire TIMC, Equipe SIC {Thomas.Guyet, Catherine.Garbay}@imag.fr http ://www-timc.imag.fr/Thomas.Guyet/ ∗∗ Unité Mixte INSERM/UJF U594 [email protected] La construction automatique de scénarios à partir des signaux (séries temporelles) produits par les appareils de surveillance de patients en anesthésie réanimation est le premier pas vers l’élaboration de systèmes de monitoring intelligent. Mais dans ce contexte, les connaissances a priori ne sont pas suffisantes pour orienter efficacement un apprentissage à partir des données complexes que sont les séries temporelles. Nous proposons donc une approche hors ligne non supervisée et limitant l’introduction de biais afin de faire émerger des scénarios. Nous définissons pour cela le cadre d’un système multi-agents (SMA) s’appuyant sur une forte interaction entre une phase de traduction dynamique des séries numériques en séries symboliques temporelles et une phase d’apprentissage à partir de ces séries. La première phase de construction des séries symboliques est effectuée par des agents de segmentation, représentant chacun une portion de série délimitée par deux frontières avec les agents voisins. Les frontières bougent, disparaissent ou sont créées par interactions entre ces agents. La dynamique, définie par ces interactions, doit permettre de stabiliser les frontières pour proposer la segmentation d’une série. Les segments sont alors classés dans un arbre hiérarchique afin d’identifier des classes typiques de segments. La segmentation et les classes, qui servent de vocabulaire, permettent de construire la série symbolique temporelle. Pour la phase d’apprentissage, on définit la notion d’explication d’une classe permettant de superviser artificiellement l’apprentissage. On repère dans les séries symboliques exemples toutes les occurrences d’une classe à expliquer, et on prend comme exemples d’apprentissage les séries de symboles situés dans une fenêtre temporelle précédant une occurrence. Un algorithme inspiré de APriori fait alors l’extraction des motifs les plus fréquents. On a construit ainsi une règle, sous forme de scénario, ayant comme prémisse un motif fréquent (explication) et comme conséquence la classe à expliquer. La construction d’hypothèses permettant de proposer des modifications dynamiques des résultats de la première phase dans le but d’améliorer la confiance d’une règle permettra de faire le feed back nécessaire à la correction d’erreurs dans la première phase et à l’émergence de scénarios. Le SMA définit un cadre pour faire l’apprentissage de scénarios à partir duquel différentes méthodes pourront être développées pour chacune des “briques” élémentaires : segmentation, classification, extraction de motifs symboliques et feed back. Des méthodes ont été proposées pour les trois premières nous permettant d’être confiants quant à la construction progressive de scénarios. 133 RNTI-E-3 Élagage et aide à l’interprétation symbolique et graphique d’une pyramide Kutluhan Kemal Pak, Mohamed Cherif Rahal, Edwin Diday CEREMADE – Université Paris Dauphine Place du Maréchal de Lattre de Tassigny 75775 Paris cedex 16 {Pak, Rahal, Diday}@ceremade.dauphine.fr www.ceremade.dauphine.fr Résumé : Le but de ce travail est de faciliter l’interprétation d’une classification pyramidale construite sur un tableau de données symboliques. Alors que dans une hiérarchie binaire le nombre de paliers est égal à n-1, si n est le nombre d’individus à classer, dans le cas d’une pyramide ce dernier peut atteindre n(n-1)/2. Afin de réduire ce nombre, on élague la pyramide et on utilise un critère de sélection de paliers basé sur la hauteur. De plus on décrit tous les paliers retenus par des variables que l’on sélectionne également en utilisant "le degré de généralité" ainsi que des mesures de dissimilarités de type symbolique-numérique. L’aide à l’interprétation se sert d’outils graphiques et interactifs grâce à la bibliothèque OpenGL. Enfin une simulation montre comment évoluent ces sélections quand le nombre de classes et de variables croit. Mots clés . Classification pyramidale. Classification hiérarchique. Données symboliques. Élagage d’une pyramide. Sélection de variables. Sélection de classes et description. Interprétation d'une classification. 1. Introduction La classification automatique a pour but la recherche de groupes homogènes, selon un critère bien déterminé, la proximité entre les objets à classer par exemple. Les méthodes de classification automatique sont généralement applicables sur des ensembles de données ou d’objets décrits par des attributs, les habitants d’une ville, les patients d’un service médical… etc. Chaque méthode de classification a ses propres objectifs et sa propre représentation : Arbre, Graphe, Groupement sous forme d’ensembles (Voir (Jain et Dubes (1988))). Dans le cas de la classification ascendante pyramidale (CAP) qui a été proposée par (Diday 1984), puis développée par (Bertrand (1986)), (Brito (1991)), (Mfoumoune (1998)), (Rodriguez (2000)), (Pak (2004)), et (Rahal (2004)) généralisant la classification ascendante hiérarchique (CAH) (Benzécri (1973)). Il en résulte qu’une représentation en groupes "non disjoints″ et emboîtés d’une pyramide est plus fidèle et riche en information par rapport aux données initiales qu’une représentation de type hiérarchique . Rappelons qu’une pyramide P construite sur un ensemble E = {1,2, …,n} est un ensemble fini de sous-ensembles non vides {A, B, ….}, (A,B… ⊆ E) tel que : 1) E∈ P (le plus grand palier de la pyramide contient tous les individus), 2)Tous les singletons {1},{2},…{n} appartiennent à P 3)∀ A,B deux classes de la pyramide P on a soit A ∩B = ∅ ou A ∩ B ⊂ P. 4) ∃ un ordre θ compatible avec P. Si on définit un index f(A)≥ 0 pour chaque classe A de P tel que f est isotonique sur P : f(A) ≤ f (B) 135 RNTI-E-3 Un automate pour la génération complète ou partielle des concepts du treillis de Galois Ganaël Jatteau, Rokia Missaoui M. Sarifuddin Département d’informatique et d’ingénierie Université du Québec en Outaouais C.P. 1250, succursale B, Gatineau Québec, J8X 3X7 {jatg01, Rokia.Missaoui, M.Sarifuddin}@uqo.ca Résumé. Cet article se situe dans le domaine de l’analyse formelle de concepts et du treillis de concepts (treillis de Galois) lequel est un cadre théorique intéressant pour le regroupement conceptuel des données et la génération des règles d’association. Puisque la prospection de données (data mining) est utilisée comme support à la prise de décision par des analystes rarement intéressés par la liste exhaustive (souvent très longue) des concepts et des règles, l’élaboration d’une solution approximative sera dans la plupart des cas un compromis satisfaisant et relativement moins coûteux qu’une solution exhaustive. Dans cet article, on propose une approche appelée CIGA (Closed Itemset Generation using an Automata) de génération partielle ou complète de concepts par la construction et le parcours d’un automate à états finis. La génération des concepts permet l’identification des “itemsets” fermés fréquents, étape cruciale pour l’extraction des règles d’association. 1 Introduction L’analyse formelle de concepts (treillis de Galois) est un cadre théorique intéressant pour la prospection de données puisqu’elle permet la génération de concepts et de règles d’association. Un concept formel est un couple complet qui associe un ensemble d’objets (extension) à un ensemble d’attributs (intention) permettant ainsi de regrouper les objets qui ont des caractéristiques communes. Dans plusieurs applications de prospection de données, la production d’un ensemble exhaustif de connaissances (règles d’association, concepts) peut être très coûteuse et comporter plusieurs éléments absolument peu pertinents pour un utilisateur donné. Aussi, il serait avantageux d’offrir des mécanismes de génération d’un sous-ensemble de ces connaissances qui pourraient si nécessaire inciter l’utilisateur soit à solliciter l’affichage d’autres connaissances ou à demander des détails sur les associations et les concepts issus d’un ensemble plus restreint de données. La découverte des règles d’association se fait généralement en deux étapes : (i) la détermination de l’ensemble des “itemsets” fréquents (i.e., ceux dont le support dépasse un seuil déterminé), puis (ii) la génération des règles d’association à partir des “itemsets” fréquents obtenus à la première étape. 147 RNTI-E-3 Évaluation des algorithmes LEM et eLEM pour données continues F.-X. Jollois ∗ , M. Nadif ∗∗ ∗ CRIP5, Université de Paris 5, 45 rue des Saint-Pères, 75270 Paris Cedex 06, France [email protected] ∗∗ LITA - UFR MIM, Université de Metz, Ile du Saulcy, 57045 METZ Cedex 1, France [email protected] Résumé. Très populaire et très efficace pour l’estimation de paramètres d’un modèle de mélange, l’algorithme EM présente l’inconvénient majeur de converger parfois lentement. Son application sur des tableaux de grande taille devient ainsi irréalisable. Afin de remédier à ce problème, plusieurs méthodes ont été proposées. Nous présentons ici le comportement d’une méthode connue, LEM, et d’une variante que nous avons proposée récemment eLEM. Celles-ci permettent d’accélérer la convergence de l’algorithme, tout en obtenant des résultats similaires à celui-ci. Dans ce travail, nous nous concentrons sur l’aspect classification, et nous illustrons le bon comportement de notre variante sur des données continues simulées et réelles. 1 Introduction Plusieurs méthodes de classification utilisées sont basées sur une distance ou une mesure dissimilarité. Or, l’utilisation des modèles de mélange dans la classification est devenue une approche classique et très puissante (voir par exemple Banfield et Raftery (1993), et Celeux et Govaert (1995)). En traitant la classification sous cette approche, l’algorithme EM (Dempster et al., 1977), composé de deux étapes : Estimation et Maximisation, est devenu quasiment incontournable. Celui-ci est très populaire pour l’estimation de paramètres. Ainsi, de nombreux logiciels sont basés sur cette approche, comme Mclust-EMclust (Fraley et Raftery, 1999), EMmix (McLachlan et Peel, 1998), Mixmod (Biernacki et al., 2001) ou AutoClass (Cheeseman et Stutz, 1996). Malheureusement, le principal inconvénient de EM réside dans sa lenteur due au nombre élevé d’itérations parfois nécessaire pour la convergence, ce qui rend son utilisation inappropriée pour les données de grande taille. Ayant testé plusieurs méthodes (Nadif et Jollois, 2004), nous avons retenu l’algorithme LEM (Thiesson et al, 2001) qui utilise une étape partielle d’Estimation au lieu d’une étape complète. A partir de cet algorithme, nous avons cherché à améliorer sa performance et avons proposé une variante plus efficace, eLEM. Sur des données qualitatives simulées et réelles, les performances de cette nouvelle version ont été très encourageantes. Le principal objectif de 159 RNTI-E-3 Sélection de modèles par des méthodes à noyaux pour la classification de données séquentielles Trinh Minh Tri Do, Thierry Artières, Patrick Gallinari LIP6, Université Pierre et Marie Curie {Prénom.Nom}@lip6.fr Ce travail concerne le développement de méthodes de classification discriminantes pour des données séquentielles. Quelques techniques ont été proposées pour étendre aux séquences les méthodes discriminantes, comme les machines à vecteurs supports, par nature plus adaptées aux données en dimension fixe. Elles permettent de classifier des séquences complètes mais pas de réaliser la segmentation, qui consiste à reconnaître la séquence d’unités, phonèmes ou lettres par exemple, correspondant à un signal. En utilisant une correspondance donnée / modèle nous transformons le problème de l’apprentissage des modèles à partir de données par un problème de sélection de modèles, qui peut être attaqué via des méthodes du type machines à vecteurs supports. Nous proposons et évaluons divers noyaux pour cela et fournissons des résultats expérimentaux pour deux problèmes de classification. 1 Introduction Cette étude concerne l’intégration d’une information discriminante dans des systèmes de classification de données reposant sur des modèles génératifs et plus spécifiquement sur des mélanges de modèles génératifs. Dans la majorité des tâches de classification, on dispose de deux possibilités principales sur la nature de l’approche à employer, l’approche discriminante et l’approche générative. On peut utiliser un modèle discriminant -- réseau de neurones, classifieur linéaire, machine à vecteurs supports (MVS) -- dont l’apprentissage est focalisé sur ce qui différencie les différentes classes. D’un point de vue probabiliste, cela correspond à apprendre les lois de probabilités a posteriori des classes. La plupart de ces techniques discriminantes sont adaptées à des données en dimension fixe et sont plus délicates à utiliser avec des données séquentielles, de taille variable, comme la parole, l’écriture, etc. Une autre approche consiste à modéliser les classes indépendamment les unes des autres, et à apprendre pour chacune un modèle correspondant à sa densité de probabilité (e.g. modèle gaussien, modèle de Markov) avec un critère du type Maximum de Vraisemblance. On utilise un modèle génératif par classe, où chaque modèle est appris indépendamment des autres avec les données de sa classe. Ensuite, via le théorème de Bayes, on peut se ramener aux probabilités a posteriori et donc construire un système de classification optimal. En règle générale, l’approche discriminante est plus performante. Cependant, on peut avoir intérêt à employer des mélanges de modèles génératifs dans certaines conditions. Les mélanges de modèles sont particulièrement adaptés lorsque les classes sont fortement multimodales (par exemple en écriture manuscrite, un « b » peut être écrit de différentes façons, on parle d’allographes). Les modèles génératifs sont eux particulièrement intéressants lorsque les données sont de dimension variable. Ce dernier cas correspond à 165 RNTI-E-3 SSC : Statistical Subspace Clustering Laurent Candillier1,2 , Isabelle Tellier1 , Fabien Torre1 , Olivier Bousquet2 1 GRAppA - Université Charles de Gaulle - Lille 3 [email protected] http ://www.grappa.univ-lille3.fr 2 Pertinence - 32 rue des Jeûneurs -75002 Paris [email protected] http ://www.pertinence.com Résumé. Cet article se place dans le cadre du subspace clustering, dont la problématique est double : identifier simultanément les clusters et le sousespace spécifique dans lequel chacun est défini, et caractériser chaque cluster par un nombre minimal de dimensions, permettant ainsi une présentation des résultats compréhensible par un expert du domaine d’application. Les méthodes proposées jusqu’à présent pour cette tâche ont le défaut de se restreindre à un cadre numérique. L’objectif de cet article est de proposer un algorithme de subspace clustering capable de traiter des données décrites à la fois par des attributs continus et des attributs catégoriels. Nous présentons une méthode basée sur l’algorithme classique EM mais opérant sur un modèle simplifié des données et suivi d’une technique originale de sélection d’attributs pour ne garder que les dimensions pertinentes de chaque cluster. Les expérimentations présentées ensuite, menées sur des bases de données aussi bien artificielles que réelles, montrent que notre algorithme présente des résultats robustes en termes de qualité de la classification et de compréhensibilité des clusters obtenus. Introduction Face aux quantités d’informations qui ne cessent d’augmenter dans les bases de données du monde entier, l’extraction automatique de connaissances à partir de ces bases et les techniques de visualisation des résultats sont devenues indispensables. C’est la raison d’être de la fouille de données. Dans ce cadre, l’apprentissage non supervisé (ou clustering) est depuis longtemps utilisé pour identifier les groupes (ou clusters) d’éléments similaires (cf. survey de Berkhin 2002). Une problématique supplémentaire apparaı̂t face à des bases de données de grande dimensionnalité : dans ce cas, les groupes peuvent être caractérisés uniquement par certains sous-ensembles de dimensions et ces dimensions pertinentes peuvent être différentes d’un groupe à l’autre. Sur de tels problèmes, les techniques classiques de clustering fonctionnent mal car, fondées sur une distance entre objets définie globalement dans l’espace de description, elles ne peuvent pas appréhender le fait que la notion de similarité varie d’un groupe à l’autre. Une nouvelle problématique a donc émergé récemment, celle du subspace clustering, dont l’enjeu est de cibler les groupes d’objets et, pour chacun, le sous-espace spécifique 177 RNTI-E-3 Expériences de classification d’une collection de documents XML de structure homogène Thierry Despeyroux∗ , Yves Lechevallier∗ Brigitte Trousse∗∗ , Anne-Marie Vercoustre∗ ∗ Inria - Rocquencourt B.P. 105 - 78153 Le Chesnay Cedex, France ∗∗ Inria - Sophia Antipolis B.P. 93 - 06902 Sophia Antipolis, France email : Pré[email protected] http ://www-rocq.inria.fr/axis/ Résumé. Cet article présente différentes expériences de classification de documents XML de structure homogène, en vue d’expliquer et de valider une présentation organisationnelle pré-existante. Le problème concerne le choix des éléments et mots utilisés pour la classification et son impact sur la typologie induite. Pour cela nous combinons une sélection structurelle basée sur la nature des éléments XML et une sélection linguistique basée sur un typage syntaxique des mots. Nous illustrons ces principes sur la collection des rapports d’activité 2003 des équipes de recherche de l’Inria en cherchant des groupements d’équipes (Thèmes) à partir du contenu de différentes parties de ces rapports. Nous comparons nos premiers résultats avec les thèmes de recherche officiels de l’Inria. 1 Introduction Les documents XML sont maintenant incontournables et la classification de ces documents est un domaine de recherche très actif, en particulier pour définir des modèles de représentations de documents qui étendent les modèles traditionnels en tenant compte de la structure du texte (Yi and Dundaresan, 2000), (Denoyer and al.). Cela revient souvent à considérer que les même mots apparaissant dans des éléments XML différents sont en fait différents. Ces approches sont génériques, elles peuvent s’appliquer quelque soit la DTD, alors que notre approche suppose une connaissance d’une sémantique implicite des éléments pour les sélectionner. Certaines méthodes de classification réduisent les documents XML à leur partie purement textuelle, sans prendre avantage de la structure qui pourtant véhicule une information riche. Nous nous intéressons à l’impact du choix des parties de documents sélectionnées sur le résultat de la classification, l’idée étant que ces différentes parties participent à différentes vues pouvant mener à des classifications différentes. Nous pratiquons successivement deux niveaux de sélection : une sélection utilisant la structure du document, puis une sélection linguistique au niveau du texte précédemment sélectionné. Nous utilisons ensuite un algorithme de classification qui va construire une partition des documents, affecter les documents à des classes et exhiber la liste des mots qui ont permis la classification. 183 RNTI-E-3 Semi-Supervised Incremental Clustering of Categorical Data Dan Simovici∗ Namita Singla∗∗ ∗ University of Massachusetts Boston Department of Computer Science, Boston, MA 02125, USA [email protected] ∗∗ University of Massachusetts Boston Department of Computer Science, Boston, MA 02125, USA [email protected] Résumé. Le clustering semi-supervisé combine l’apprentissage supervisé and non-supervisé pour produire meilleurs clusterings. Dans la phase initiale supervisée de l’algorithme, un échantillon d’apprentissage est produit par selection aléatoire. On suppose que les exemples de l’échantillon d’apprentissage sont étiquetés par un attribut de classe. Puis, un algorithme incrémentiel développé pour les données catégoriques est utilisé pour produire un ensemble de clusters pur (tels que les exemple de chaque cluster ont la même étiquette), qui servent de “seeding clusters” pour la deuxiéme phase non-supervisée de l’algorithme. Dans cette phase, l’algorithme incrémentiel est appliqué aux données non étiquetées. La qualité du clustering est évaluée par l’index de Gini moyen des clusters. Les expériences démontrent que des très bons clusterings peuvent être obtenus avec des petits échantillons d’apprentissage. 1 Introduction Clustering is a process that aims to partition data into groups that consists of similar objects. Similarity among objects is measured using some metric defined on the set of objects or, whenever possible, using pre-existing classifications of objects. In general, clustering is an unsupervised activity. In other words, clustering takes place without any intervention of an exterior operator that assigns objects to classes. Assuming that the class of an object is determined by the other characteristics of the object, a good clustering algorithm should generate clusters that are as homogeneous as possible. The core of the clustering algorithm is the incremental construction of a clustering partition of the set of objects such that that the total distance from this partition to the partitions determined by the attributes is minimal. A special challenge of clustering categorical data stems from the fact that no natural ordering exists on the domains of attributes of objects. This leaves only the Hamming distance as a dissimilarity measure, a poor choice for discriminating among multi-valued attributes of objects. Semi-supervised clustering of categorical data entails two phases : the first phase consists of a supervised process that is applied to a training set obtained randomly sampling the data set. Clusters are formed using an incremental clustering algorithm 189 RNTI-E-3 Apprentissage non supervisé de séries temporelles à l’aide des k-Means et d’une nouvelle méthode d’agrégation de séries Rémi Gaudin, Nicolas Nicoloyannis LABORATOIRE ERIC 3038 Université Lumière - Lyon2 Batiment L 5 av. Pierre Mendès-France 69676 BRON cedex FRANCE [email protected], [email protected] Résumé. L’utilisation d’un algorithme d’apprentissage non supervisé de type k-Means sur un jeu de séries temporelles amène à se poser deux questions : Celle du choix d’une mesure de similarité et celle du choix d’une méthode effectuant l’agrégation de plusieurs séries afin d’en estimer le centre (i.e. calculer les k moyennes). Afin de répondre à la première question, nous présentons dans cet article les principales mesures de similarité existantes puis nous expliquons pourquoi l’une d’entre elles (appelée Dynamic Time Warping) nous paraı̂t la plus adaptée à l’apprentissage non supervisé. La deuxième question pose alors problème car nous avons besoin d’une méthode d’agrégation respectant les caractéristiques bien particulières du Dynamic Time Warping. Nous pensons que l’association de cette mesure de similarité avec l’agrégation Euclidienne peut générer une perte d’informations importante dans le cadre d’un apprentissage sur la ”forme” des séries. Nous proposons donc une méthode originale d’agrégation de séries temporelles, compatible avec le Dynamic Time Warping, qui améliore ainsi les résultats obtenus à l’aide de l’algorithme des k-Means. Mots-clés : Fouille de données et Apprentissage non supervisé, Séries temporelles, K-Means, Dynamic Time Warping 1 Introduction Les séries temporelles sont des données ordonnées dans le temps et cet ordonnancement a une signification que l’on ne peut ignorer. Ainsi, on ne peut pas leur appliquer des méthodes de fouille de données classiques mais bien des méthodes spécialement adaptées, qui respectent la temporalité de ce type de donnée. Nous nous intéresserons ici uniquement à l’apprentissage non supervisé à partir des séries temporelles. L’utilisation d’un algorithme d’apprentissage non supervisé de type ”moyenne mobile” (le plus connu étant les k-Means) sur un jeu de séries temporelles amène à se poser les questions du choix d’une mesure de distance entre deux séries temporelles et celle du choix d’une méthode effectuant l’agrégation de plusieurs séries temporelles afin d’en estimer le centre (i.e. calculer les k moyennes). Afin de répondre à la première question, nous allons dresser l’état des lieux des principales méthodes de comparaison de séries temporelles déjà existantes (paragraphe 2), puis nous allons discuter l’intérêt de chacune d’entre elles dans le cadre d’un apprentissage non supervisé (paragraphe 2.4). 201 RNTI-E-3 Classification d’un tableau de contingence et modèle probabiliste Gérard Govaert∗ , Mohamed Nadif∗∗ ∗ Heudiasyc, UMR CNRS 6599, Université de Technologie de Compiègne, BP 20529, 60205 Compiègne Cedex, France [email protected] ∗∗ IUT de Metz, LITA, Université de Metz, Ile du Saulcy, 57045 Metz Cedex, France [email protected] Résumé. Les modèles de mélange, qui supposent que l’échantillon est formé de sous-populations caractérisées par une distribution de probabilité, constitue un support théorique intéressant pour étudier la classification automatique. On peut ainsi montrer que l’algorithme des k-means peut être vu comme une version classifiante de l’algorithme d’estimation EM dans un cas particulièrement simple de mélange de lois normales. Lorsque l’on cherche à classifier les lignes (ou les colonnes) d’un tableau de contingence, il est possible d’utiliser une variante de l’algorithme des k-means, appelé Mndki2, en s’appuyant sur la notion de profil et sur la distance du khi-2. On obtient ainsi une méthode simple et efficace pouvant s’utiliser conjointement à l’analyse factorielle des correspondances qui s’appuie sur la même représentation des données. Malheureusement et contrairement à l’algorithme des k-means classique, les liens qui existent entre les modèles de mélange et la classification ne s’appliquent pas directement à cette situation. Dans ce travail, nous montrons que l’algorithme Mndki2 peut être associé, à une approximation près, à un modèle de mélange de lois multinomiales. 1 Introduction Les modèles de mélange, qui supposent que l’échantillon est formé de sous-populations caractérisées par une distribution de probabilité, sont des modèles très souples permettant de prendre en compte des situations variées comme la présence de populations hétérogènes ou d’éléments atypiques. Grâce à l’algorithme d’estimation EM, particulièrement adapté à cette situation, les modèles de mélange ont fait l’objet de nombreux développements en statistique et en particulier en classification automatique. On peut ainsi montrer que l’algorithme des k-means peut être vu comme une version classifiante de l’algorithme EM, appelé CEM, dans un cas particulièrement simple de mélange de lois normales. Dans ce travail, on étudie comment ces propriétés peuvent être étendues aux tableaux de contingence. Rappelons qu’un tableau de contingence est obtenu à partir du croisement de 2 variables qualitatives ; par exemple, si on note I et J les ensembles de r et s modalités de chaque variable, chaque élément xij de la matrice de données contiendra le nombre 213 RNTI-E-3 ! ! #"$%'& )($( *$+ ( &-, /. 021436587:9<;>=?14@BA14CED?FG367B587BHIHI1J3IKL9NMOMI1 P 3IK8QR1HGST?U60VDNUXWZYURS[0LKL\N=?7:C^]XS/_LHI7:\`K8@B7BM4D Fa P aNb8cEDNd8efb8dfg*0LKf\E=?7BChSZ_fH67B\`K8@B7:MZ;14i?1TDNj`3OC8_NA1 P 3?14k _NKflma WZKflonM6Kf\N=?7:CNa 7:_N3I7:CNa pq3 r C8_EMZA1\NCf\?7s1t3Z_NKf9NM\N3?14k M614_LHIKL_NM9N_N1A@:C8MOM67vu`A4CwH67sKL_$i?14M369ExN3I7:y29?14Mi?1tM/zZY{|MZ}27BM67sH?1k 1tM iE9~MI7BHI114x~i?1/@ UXW/YURS^1tk yL9N7B\`14M i?1Z3I1tA=?143OA=?1>14_~\NCf3IH67BA49?@s7B1436D^1t_h}?9?1iR1k HO9Ni?7B143@ 7:lh\NC8AH iN1$@BCM6H63O9NAHO9N361<iE9M67BHI1$14x1Hoi?1$@:CM6H63O9NAHO9N3I1<KL3I5LC8_?7:M6C8HI7BKf_N_N1@B@s1mi?1$@ UXW/Y/URSM69E3h@s1tM _EC}L7B5fC8HI7BKf_NMiN14M7:_LHI1t36_NCf9?HI1tMa P Kf9N3A1@:C~_?Kf9EM/C}8KL_NM9?H67s@B7BMN1k _?KfH6361Cw@B58KL3I7BH6=El1iN1*;@BCfM6M67suN] A4CwH67sKL_~S/MOA14_EiNC8_LHI1g]Xc/714k 3OC83OA=?7:yL9N1X;>=?1@:A1tC1H>Cw@aLg8d8dwEyL9N7`5 14k _14 361>9N_N1ZM6H63O9NAHO9N3I1\N@B9NM 367:A=?1yL9N1@BCo;>S[A@:C8MOMI7:y29?1ApRa`j7B5f9E3I1hwOD?14_<\N3?14k M614_LHOC8_LH>9E_?1AKLl*\N@s1T27BH?1Zk 7:i?14_LH67By29?1M6K87BH @BK85Oa b c a 1 2 b 3 3 2 1 0 b a c 2− 3 AHC b a c AHC > ZoT?14lh\?@B1i?1;>S14Hi?1g]Xch;>S/M69E39N_<\E14HI7BH QR149<i?1i?KL_N_>14k 14M4a WZKf9NM C}fKf_NM3?14k C8@s7:M?1#k H636K87:MC8_NC8@s ?M614MMO9N3@s1tMu`A=?7B143OM@sKf5\E3IK^}f14_NCf_fHi?1i?149?T*M61436}8149E36M|¡1tx iN1@ UXWZYURSD¢M69E3/i?1t92T\14k 367BK2iN14Mi?1't£QRKL9N36M¤`C}^C8_LH14HZCf\N314 MG@B1A=NC8_N5814l*1t_fHZi?1@ KL3I5LC8_?7s] MOCwH67sKL_¡MOA7B14_LH67vu`y29?1~i?1h@ UXWZYURS14_¥C}?367s@ gwdfdwApRa§¦^¨X¨R©$ª «t«¬ ¬ ¬­ ®v¯f°±®B²w­ ³:°I«°X´¶µI¦f´¶°RµI¦f´«w6a P KL9N3 A@BCfM6M6143/@s1tMZ3O9NxN367:yL9N14M/iN14MzZY{|MiNKf_LHZA1436H6Cw7:_?1tM/3614\N3?14k M614_LH614_LHi?14M1tk yL9N7B\`14MZi?13614A=?1t36A=N1w _NKf9NMhC}8KL_NM*9?HI7B@s7:M?1'k @ 7:_Ni?7:A1$i?1$·fC8AA4C83Oi¸MO9N3*@s1tM*_EC}L7B5fC8HI7BKf_NM'q1t_NMI1tlx?@B14Mhi?1tM*z/Y{Mi?1tM 7:_LHI1t36_NCf9?HI1tMa¢J|Kf9?Hi CfxEKL36i$_NKf9NMZC}8Kf_EMC8_NC8@s ?M?1k HIKL9?HI1tM/@B14MZ369ExN3I7:y29?14M/}27BM67sH?1k 1tMi?1*\N3I1tl*7s1t3 _N7s}f14C89A1hy29?7C<3?1k }#1k @1k @ 7:lh\NC8AH¹8ºv»L¼O½wºi?1h@:C¾M6H63O9NAHO9N361hiE9¡M67sH61h¡1tx¡MO9N3@B14M_NC}27B5fCwH67sKL_NM iN14MG9?HI7B@B7BMOCwH6149N3OM/64e*A@:C8MOMI1tM#\NCf36l*7V@s1tM4bAKf_LHI1t_NCw7B14_LH>i?14M~14k y29?7:\`14M>i?13614A=N143OA=?1/iN9¾l¾14¿ l*1 HO=1t l1MOA7B14_LHI7su`y29?1X;>=?1@:A1tC14H>J36Kf9NMOMI1gwdfdwN66af_NMO9?7BHI18D?_?KL9NMGC}8KL_NM#AKflh\NC83N1k @:CA@BCfM6M67suN] A4CwH67sKL_'i?1tM~1tk y29?7B\`14M>i?13I1tA=?143OA=?1/iN1Z@ Cf_NA7B14_¾J=1t l1co\N3I1tl*71t 3I1\>1tk 3I7BK?i?1w§14HiN9'_?KL9?}81tC89 J=14 l*1¾;K85¥i?1492T?714 l*1~\>1tk 3I7BK?i?1wK9 Cf\N\NCf36C¿ÀsH@B1o\N3IK8QR1HST2U60Á¤§_NKf9NMC}fKf_NM\N9l*KL_fHO3I1t3 @ 7Blh\NCfAHi?1@:C¾Â¢»^Ã?Ä^źƺsÅÇÈÉÃEÊÈÃ?É6½8ÈqËq»wÂÌÅÂÌÈqÍÅÎ Ï~ÅÇaNj7:_NCw@B14l*14_LH4DN_?Kf9NMC}fKf_NMGMO9N39N_¾H6=14 l*1 iNKf_N_>1k AKflh\NC83N1Zk @s13?14k MO9?@BH6CwHGi?1_?KfH6361C8@s5fKf367sHO=Nl*1i?1g^]±c~;>SC}f14A/A1@:9?7i?1@:C~;>S/A@:C8MI] M67:yL9N1~¤E_?Kf9EMC}8KL_NMG\N9<l14HIHO3I11t_Ð1k }27BiN14_NA1iN14M5L3IKL9N\E1tMG\?@B9EM=?Kfl*Kf5E1t _?14MGi?1\N36KwQR14H6M4a?W/KLM HO36C}^Cf92T¥AKf9N3OC8_LHOM1Hpq9NH69N3OMAKf_NA143O_?14_LH@ 9?HI7B@s7:MOCwHI7BKf_iN14M*C89?HO3I1tM7B_Ei?7BA14M*i?1'i?7:MOMI7:l*7s@:C8367sH?1 k 18a 5Ea`·fC8A4ACf36i'5 1tk _14k 3OCw@B7:M?18k 1H@:Ch\N3I7:M611t_<AKflh\?H61iN9<A=NC8lh\mÑ8361p1436143OÑ*iNC8_NM_NKfMC8_ECw@B 2M614M4a Ò /Ó ! < ;>=?14@BA14CZ0¢asD4F>1t3IHO36Cf_Ni P asDtC8_NiJ3IKL9NMOMI1Fa8±gwd8d8NODzZ_WZKf9?}f1@8S/@s5fKf367sHO=Nl*1i?1>;@:C8MOMI7su`AC8HI7BKf_ S/MOA1t_NiNC8_LH61*g]XcoZ714k 3OC83OA=?7By29?1faNUR_Y/jURSgwdfdw`DN}8Kf@B9Nl*1*cND§;14_LH6361iN1h;Kf_N5f314 M P 7s1t36361 FSGz r U60VDEJ|Kf9?@BKf9NM618D?jV36Cf_NA1fDN\NCw5f14M42Ô2]O4fÕfdNDfg8Õ^]Xc8dh·8Cf_f}27B143gwdfdw`a ;>=?1@:A1tC¡0Va C8_NiÁJ|36Kf9NMOM61oFa±gwd8d8NOD|S/\E\?@s7:AC8HI7BKf_K8p/H6=N1mg]XcS/5858@BKfl*1t36C8HI7B}81~/7B143OC83OA=?7s] AC8@>;@BCfM6M67su`AC8HI7BKf_Kf_14x¸9NMOCw5f1~iNCwHOCNa§UR_ P 14H6A49 r a§14HCw@D§1ti?7BHIKf3OM4D0fÖZWS0N;×g8d8dw`D YKflhCf_?7BCEDN\NCw5f14M4d2Ôt]¶8tÕNDN0L14\?H614lxE1t3/gwdfdwEa2Ø$7:3IH6Kf_ P 9Ex?@s7:MO=?1434D?U60LFGWbLÔ^cw]±efeN]fE]IÔ2a 219 RNTI-E-3 !"!!# %$&')(*,+-./.0! 213!1354%1367!7!!# 789#:<; =>8?13@A 9ABBA CDBE:FCGIHJA!.KLHJCDBANMF!OAPQ!R `bcV d)[eTPfZV Yc[,g ^3[eb[6g h.[ifWje~ [ekDTWTZQYW[i.feJSUlnmnTWk{oV YWX)rV^3YZYWVpcbr[6[ \]qr[pc[ifbc^V sr_@d>kD`V b>kDa YPTWfuV|trfPvor [ew TiTW[il felcxDo)y>x{zBvAkDTWV|fj[iqr[} >YZYW )G336 Jk{YWrV br pcbcV d>kDTWV|fPor Ti ~ [eTW Bp[g YW~ YWcV r) pqr~ [i[iffJf.bc)XA]p[eg )f.c@TW[g )YW[TWY V|>>~ fZpck)[ibjff~ k)q qrfW [UkDfZVb k je)~ k{ b>YWfZYWV [B)TW[eb¡qrT[ik)fZf@pcfWjqrT[e)pcbbcbBqcbkD[[egb>}r[iYW[efe[Blk cw V~ [efWg[kGTPkDjd))TP)jPV TcV|~> kD[epcb>b[ Y k ~~ prfZYW[B¢]V ~ qrV|fWl£[ik{f@YWV[ej)TW)bBTWTWj[[i)YfZb{qr*))[bV b>qcYWkD[[bYZqrjYWTW[i[i[ff [eb¤[eg\ dn V|[qr}r[e[ebj[6 ~ qr[§[ijf)b¥Zj[ek{TWYZbcYW[e[ TW~ b[ifWf]¦[ebr> pckDVb>fZYP)fb>snY3pcTPqrD)YW[epb>[ig YWf£V [ >~ pc~ [eVnfZpc[eV b>d)Y[eb>prY YWV ~ ~ [§[if3cTW[)YiX)lcTP[ekDb YW)pr[Y.¨cje©k)ª£fe«lr[q }r [eb~ V|fZje[ekDV X)~ bc[i[fe fZ[?[eb>f*YWYBTWpqrjpYWpc¬cTW[ew [eb>Y [~bc[iV fJd)[iqrkDV p&®.[eg qrTW[e[Jb­?j[ik{fYWV b[eg qrJV dnk{V|YWqrV|>pcpc[ ~[i~ fe[i£fJ\][e[b>YWcTWpr[ Y6~ [icfTWV b[ g ~ j[ew V d)[ik f~ fZ[g pcYPkDTPqrV Y6)pqr[[ig fBYWTW[)Y pcqrd)[![eT6j)[YZYWTW[![e[eb>b Y G[eg [egdnTWV|[eqrb[ejbVj[ig [felrqrj[i[ef@TZYPX)kDTWV )bpcfU[if@[eg TWq V YP kD[ebrb> YkDqb>YP [° f,YWTWfZ[@pcTP[eqrb)jp)[ipcg fTPkDcXATc[i[ig g fefZ [eb>YPkDb>Y@qr[if@k{YZYW[eTWbf@q k{YZYWV YWpqr[if,cV [eb&qrV ¯ q [i [ef6TW\ TW[es> kDpcYPbTPkDkfebrl]~ )YWfZ[eTP[q±XA`[egfbc)Vqrd)[ [e[g TPYW~ fZTWk{VV|YWY >[epcb[±lrj[ kqr[i[f Y)qrbcb>))YWTcbcB[@gbc[e>g TW[ipc[ fe[@lAq [ [®Q)}rpc[i[ejTTPYWjjPpV|[ejg k)[[i>f[epcb0[@)V jpcb Tqr~ ~V|JkDjek{k YW)°³ [eYWTPpcTWk{V|T3YWfZV [eqr)T[,b"pckGbc[ed)[±TZ[i j)bcTWD~JYW[¡V kD)vbbT²j[lvV ¯~UYPkDsnprpr}k j´c¸ [eµ{r´ ¶JYWV µW)·3b±¹¸ º qr¹ [¸ »¯~¼ ~ ¹6pck¸ bc½)Ä?[¹[e¾ g [i)¶Jf*Y6¿ [jg ¼YW[»{TW¹~ À V~ ÁW[)[J¹lD¾ qr[[iYÂf@>b>YPpcYWkD[ V pr[e~ }¡TP[ifefUl{q qrÃc [eVTP®.TWk)TW[ejg [eTWYWpc[eV )TPbf.bjfe[i[l)fYÄ?V qrb[egp&qr)V dnbcV|)[qrg BYWpcTW[cV [)~ TW~ lG[[i\]fq )f X)[ kDV|}r>TZ[epcYWTPV|[jjpV|[j~Y§[i[efe­!b>l YU[i~kDfZkDprpcprYWTPYW)kDTWpcX)[[GT[iqrlcf*[Ykw ½)j~ [¹[~Å)}n~ [Æ qr¹iÇ[if¹YWȯ[eÈ ¹¾ fqr[ ~ k{YW[ebj[) qrÉy'[ pJ]~ kËkD.TZYW²V TfZ¢qr)[ pqcfJ~ k,kD bTW)[ef TWcTc~ [Ì[i[?g fZ[eqr b>[&~ YPkDk{bÍfZYW)V p)qrfub[itnf'qrbn[ipk{fkD}rX)Ê,[i[ifÏj f~ k)ÎÏkGfWd)fZ[i[i[jYf â Ô Ö{Ú à£×uØrÛ.à Ü àuÙá ~f*[eYWpcTWpcTPfJV Y±[ pc~ ~ bcV [¡fZ[if²kDTZqrYW[¡V YWV j))b%bj[e[ebb>YWoLTPk{jYW~V )k)b]fWfZlA[if²)b'>pckLV@j)br[Y [e~ k²bF [egX)dnpcV|TWqr[G[ebj[kDTZpcYWV|bcj["p ~ Vj [ew ~ TWk)[efWfZ[¤[eb>Y.)V b>V b>Yc[eYPg TWf¡[ifWbcfW)kDV b>TPYWf¡[BfZqrpcp T j ~ )k)V fWb>fZY"[0qrqr[0[¤dnpc)[¤bcbcqr[i[ fÐ~ [i[eg qrTZ p)jeTWk{JYWV kD)bbÍj[ifLj kG [id)f*[iYj'pcqrbc[i[f Õ Ô Ô Ú ÙÛ.Ö{×uÜ ØÝÞÙ ß ä YPYW[ekDbprj}Ð[,q TW[ [e~ TWk{TWYW[eV d)pc[eTPf6 [ekDb>V Y ~~ [i)fBbcX>[feYqrѧ[i[fYZYWYW[6[ej ~ k)fWffZ[,qr[ j)~ brk{ ã ÕÔ qfWcf*YWkDkDV bYWTPpcjqc[i[.f²f3pcqcbkDkDccbV TWfYWDpc~ [ [ig~~ qrf p[eq jep²k{[eg YW[ed{V bk)~jbp)k{pckDYWprTPV kD)}XAb%Ò[§g qrÓA[ikDf T ~j[i)f§bcf*bYPkDkDV|brf* å æ"èç é ï]èç êWðJèëQñ3ìPò)èóríJô&î õ@ö]ð÷ñ3ò)óøDùcð÷BúöûüDý)ýDþnÿ @ðeò ð÷ @ø{÷Pø ùø ,ò uù róø Qð ðeù ðï]ðBñ3ò)órô!õ@ö ñ3ò)óøDùcð÷.úöûüDý)ýDþnÿ .ë Gí |í ê ì rêWè .ë Gí |í .è ò Jè Wêð ì >÷ ó U.ð ë Gíe|ø í rð £ê Wð {eêö êWèí {ë )èëQìPè !"##%$'&((%)$*+,.-/#10213456,)67(51)-)%0598!"9(:)%4<;=)#59>%8/?0#0@20A/+9->%-B,C$16%3 ED .F/G IH J LKNM/HOMP =M/Q R J ST F/GVUEF CWF =X P =M/Q R J YHOFNZ9H [ IHC[ .XLKNM/HOMNP =M/Q R J 9 . !.\ !]^ _ ` LaE ! RNTI-E-3 220 Annotation de textes par extraction d’informations lexicosyntaxiques et acquisition de schémas conceptuels de causalité Laurent Alamarguy*, Rose Dieng-Kuntz*, Catherine Faron-Zucker** *ACACIA, INRIA Sophia Antipolis {Laurent.Alamarguy, Rose.Dieng}@sophia.inria.fr **MAINLINE, I3S, Sophia Antipolis [email protected] Résumé. Nous présentons la méthode INSYSE (Interface Syntaxe SEmantique) pour l’annotation de documents textuels. Notre objectif est de construire des annotations sémantiques de ces résumés pour interroger le corpus sur la fonction des gènes et leurs relations de causalité avec certaines maladies. Notre approche est semi-automatique, centrée sur (1) l’extraction d’informations lexico-syntaxiques à partir de certaines phrases du corpus comportant des lexèmes de causation, et (2) l’élaboration de règles basées sur des grammaires d’unification permettant d’acquérir à partir de ces informations des schémas conceptuels instanciés. Ceux-ci sont traduits en annotations RDF(S) sur la base desquelles le corpus de textes peut être interrogé avec le moteur de recherche sémantique Corese. 1 Introduction Lors de la constitution d’une mémoire de communauté en génomique fonctionnelle, la notion de causalité est centrale pour appréhender certaines corrélations. Dans le cadre du web sémantique l’automatisation de cette tâche doit permettre, à partir de données hétérogènes, de détecter et générer de nouvelles représentations conceptuelles traduisant cette notion. Nous présentons une méthode semi-automatique d’annotation de documents textuels basée sur l’acquisition de schémas conceptuels1 à partir de l’extraction de structures lexicosyntaxiques ; elle est baptisée INSYSE - pour INterface SYntaxe SEmantique. Cette méthode est appliquée à un corpus de 5000 résumés médicaux issus de Medline et traitant de maladies du système nerveux central et des interactions des gènes dans ces maladies. Notre objectif est de construire des annotations sémantiques de ces résumés qui permettent d’interroger le corpus sur la fonction des gènes et leurs relations de causalité avec certaines maladies pour ainsi constituer une mémoire de communauté. Nous présentons dans cet article les différentes étapes de la méthode INSYSE : la partie suivante est consacrée à l’extraction d’informations lexico-syntaxiques à partir de certaines phrases comportant des lexèmes de causation ; la partie 3 est dédiée à l’élaboration de règles basées sur des grammaires d’unification qui permettent d’extraire des informations lexicosyntaxiques des schémas conceptuels instanciés. La partie 4 décrit comment ces schémas sont traduits en annotations RDF(S) sur la base desquelles le corpus pourra être interrogé à l’aide du moteur de recherche sémantique Corese (Corby et al. 2004). Nous comparons dans 1 Un schéma conceptuel non instancié constituant de fait un template d’annotation. 221 RNTI-E-3 Restructuration automatique de documents dans les corpus semi-structurés hétérogènes Guillaume Wisniewski*, Ludovic Denoyer*, Patrick Gallinari* * Laboratoire d’Informatique de Paris 6 8 rue du Capitaine Scott, 75015 Paris {guillaume.wisniewski, ludovic.denoyer, patrick.gallinari}@lip6.fr Résumé. L’interrogation de grandes bases de documents semi-structurés (type XML) est un problème ouvert important. En effet, pour interroger un document dont le schéma est nouveau, un système doit pouvoir soit adapter la requête posée au document, soit adapter le document pour pouvoir lui appliquer la requête. Nous nous positionnons ici dans le cadre de la restructuration de documents qui consiste à transformer des documents semistructurés issus de diverses sources dans un schéma de médiation connu. Nous proposons un cadre statistique général à la problématique de la restructuration de documents et détaillons une instance d’un modèle stochastique de documents structurés appliquée à cette problématique. Nous détaillons enfin un ensemble d’expériences effectuées sur les documents du corpus INEX afin de mesurer la capacité de notre modèle. 1 Introduction Le développement du document électronique et du Web a vu émerger puis s’imposer des formats de données semi-structurées, tels le XML et le XHTML. Ces nouveaux formats, décrivant simultanément la structure logique des documents et le contenu de ceux-ci, permettent de représenter l’information sous une forme plus riche que le simple contenu et adaptée à des besoins spécifiques. Étant donné l’augmentation rapide du nombre de documents semi-structurés, il est devenu nécessaire d’adapter les méthodes de traitement de données existantes afin de tenir compte des spécificités de ces nouveaux formats ainsi que d’étudier les nouvelles problématiques que ces formats font émerger. L’initiative INEX (Fuhr et al 2002) propose d’étudier la problématique de la recherche documentaire sur des documents semi-structurés. L’hétérogénéité des structures des données est rapidement apparue comme un obstacle à la conception de systèmes d’interrogation de données semi-structurées issues de différentes sources d’information. Bien que, dans le cadre d’INEX, cette problématique ait été ignorée jusqu’à présent, l’édition 2004 de la campagne d’évaluation propose une nouvelle tâche, la tâche hétérogène, qui y est consacrée. Deux solutions peuvent être imaginées pour résoudre ce problème : les systèmes peuvent soit adapter la requête posée au document, soit adapter le document pour pouvoir lui appliquer la requête. Nous adoptons ici la deuxième solution et proposons d’utiliser un schéma de médiation pour exprimer l’ensemble des documents considérés dans une structure commune. L’utilisateur n’interagira alors qu’avec ce schéma de médiation. Cette solution nécessite de pouvoir restructurer les documents afin d’adapter leur structure au schéma de médiation. La problématique de restructuration des données est apparue depuis de nombreuses années dans de nombreux domaines tels les entrepôts de données, l’intégration de données, le web sémantique, ... Plus récemment, plusieurs travaux se sont intéressés à l’application de cette problématique aux données semi-structurées et plus particulièrement aux données 227 RNTI-E-3 Fouille de textes pour orienter la construction d’une ressource terminologique Valentina CEAUSU, Sylvie DESPRES Université René Descartes CRIP5 – Equipe IAA – Groupe SBC UFR Mathématiques et Informatique 45 rue des Saints-Pères 75006 PARIS [email protected] [email protected] Résumé. La finalité de ce papier est d'analyser l'apport de techniques de fouille de données textuelles à une méthodologie de construction d'ontologie à partir de textes. Le domaine d’application de cette expérimentation est celui de l’accidentologie routière. Dans ce contexte, les résultats des techniques de fouille de données textuelles sont utilisés pour orienter la construction d’une ressource terminologique à partir de procès-verbaux d’accidents. La méthode TERMINAE et l’outil du même nom offrent le cadre général pour la modélisation de la ressource. Le papier présente les techniques de fouille employées et l’intégration des résultats des fouilles dans les différentes étapes du processus de construction de la ressource. 1 Introduction La finalité de ce papier est d'analyser l'apport des techniques de fouille de données textuelles à une méthodologie de construction d'ontologie à partir de textes. Le domaine d’application de cette expérimentation est celui de l’accidentologie routière. Une ontologie du domaine a été élaborée à partir de connaissances expertes (Després, 2002). Le travail présenté concerne la construction d’une ressource terminologique à partir de procès verbaux d’accidents (PV) rédigés par les forces de l’ordre. Les deux ressources (ontologique et terminologique) seront exploitées dans un système de raisonnement à partir de cas ayant comme cas cible des procès verbaux et comme cas source des scénarios d’accidents. Dans ce contexte sont utilisés simultanément : (a) un algorithme de reconnaissance de motifs qui engendre un ensemble de syntagmes nominaux et verbaux ; (b) l’algorithme Apriori pour affiner les syntagmes nominaux identifiés à l’aide de motifs ; (c) l’ontologie de l’accidentologie pour affiner les syntagmes verbaux et (d) la méthodologie TERMINAE de construction de la ressource terminologique (Biébow, Szulman, 2000). Après avoir présenté les techniques de fouille de textes utilisées, leur apport à l’élaboration de la ressource terminologique est discuté. En conclusion, les améliorations à apporter aux différentes techniques sont discutées. 239 RNTI-E-3 Expérimentations sur un modèle de recherche d’information utilisant les liens hypertextes des pages Web Bich-Liên Doan*, Idir Chibane** * Supélec, Plateau de Moulon, 3 rue Joliot Curie, 91 192 Gif/Yvette, France [email protected] ** Supélec, Plateau de Moulon, 3 rue Joliot Curie, 91 192 Gif/Yvette, France [email protected] Résumé. La fonction de correspondance, qui permet de sélectionner et de classer les documents par rapport à une requête est un composant essentiel dans tout système de recherche d'information. Nous proposons de modéliser une fonction de correspondance prenant en compte à la fois le contenu et les liens hypertextes des pages Web. Nous avons expérimenté notre système sur la collection de test TREC-9, et nous concluons que pour certains types de requêtes, inclure le texte ancre associé aux liens hypertextes des pages dans la fonction de similarité s'avère plus efficace. 1 Introduction Les systèmes de recherche d’information (SRI) sont composés essentiellement de deux modules. Un module d’indexation qui représente les documents, et un module d’interrogation qui représente la requête. La fonction de correspondance permet de calculer le degré d’appariement entre les termes de la requête et les termes d’indexation des documents afin d’évaluer la pertinence des documents par rapport à la requête. Avec le succès grandissant du Web (Google recense plus de 4 milliards de pages Web) le classement des réponses devient critique. Aussi des fonctions de correspondance prenant en compte les liens hypertextes ont vu le jour. En réalité, la plupart des fonctions de correspondance utilisées par les systèmes de recherche hypertextes combinent une mesure de pertinence calculée en fonction du contenu de la page et de la requête utilisateur avec une mesure de popularité de la page qui elle, est indépendante de la requête. Cette dernière mesure repose sur la structure du Web, considéré comme un graphe orienté de pages et de liens. L’hypothèse (Savoy et Rasolof 2000) stipule qu’une page est supposée être de bonne qualité si elle a beaucoup de liens entrants, en particulier, si les pages qui pointent vers elle sont aussi de bonne qualité. Un certain nombre de systèmes qui tiennent compte de la structure du web dans la fonction de correspondance ont été développés. Les systèmes les plus connus sont InDegree, PageRank (Brin et Page 1998) utilisé dans Google, HITS (Kleinberg 1998) et SALSA (Lempel et Moran 2000). Dans ces systèmes, la fonction de correspondance, qui relie la requête aux documents est remplacée par une fonction de classement des résultats qui elle est indépendante de la requête. L’étude des systèmes existants nous a permis de conclure que toutes les fonctions de correspondance basées sur les liens hypertextes ne dépendent pas des termes de la requête. Cela a diminué considérablement la précision des résultats retrouvés. En effet, l’analyse du comportement des utilisateurs dans leur recherche montre qu’ils ne s’intéressent pas aux pages populaires, si ces dernières ne contiennent aucun terme de la requête. 257 RNTI-E-3 Hiérarchisation des règles d’association en fouille de textes Rokia BENDAOUD∗ , Yannick TOUSSAINT∗ Amedeo NAPOLI∗ ∗ LORIA Campus Scientifique - BP 239 54506 VANDOEUVRE-lès-NANCY CEDEX {bendaoud,toussaint,napoli}@loria.fr, Résumé. L’extraction de règles d’association est souvent exploitée comme méthode de fouille de données. Cependant, une des limites de cette approche vient du très grand nombre de règles extraites et de la difficulté pour l’analyste à appréhender la totalité de ces règles. Nous proposons donc de pallier ce problème en structurant l’ensemble des règles d’association en hiérarchies. La structuration des règles se fait à deux niveaux. Un niveau global qui a pour objectif de construire une hiérarchie structurant les règles extraites des données. Nous définissons donc un premier type de subsomption entre règles issue de la subsomption dans les treillis de Galois. Le second niveau correspond à une analyse locale des règles et génère pour une règle donnée une hiérarchie de généralisation de cette règle qui repose sur des connaissances complémentaires exprimées dans un modèle terminologique. Ce niveau fait appel à un second type de subsomption inspiré de la subsomption en programmation logique inductive. Nous définissons ces deux types de subsomptions, développons un exemple montrant l’intérêt de l’approche pour l’analyste et étudions les propriétés formelles des hiérarchies ainsi proposées. 1 Introduction L’extraction des règles d’association appliquée à des textes est une méthode de fouille de données qui permet de mettre en valeur des liens entre les termes des textes. Ces liens peuvent alors être interprétés par des experts en vue, par exemple, de la construction d’une ontologie. Que ce soit à partir de textes où à partir de base de données, le nombre de règles extraites est souvent très grand et difficile à appréhender par un expert humain. De nombreux travaux se sont intéressés à élaguer l’ensemble des règles et à les classer soit par rapport à des critères statistiques, soit par rapport à une base de connaissances (Janetzko et al. 2004). Nous proposons dans cet article une approche visant à structurer les règles sous forme hiérarchique afin de permettre à l’expert une approche descendante de la lecture de l’ensemble des règles. En réalité, nous proposons à l’expert deux approches d’analyse, un niveau global et un niveau local, tous deux reposant sur une structuration hiérarchique des règles. Ces deux types de structuration hiérarchique nous ont conduit à définir deux types de subsomption qui, au final, peuvent être combinés. 263 RNTI-E-3 Extraction de la localisation des termes pour le classement des documents Annabelle MERCIER∗ , Michel BEIGBEDER∗ ∗ École des Mines de Saint-Etienne 158 cours Fauriel F 42023 Saint-Étienne Cedex 2 FRANCE mercier,[email protected] Résumé. Trouver et classer les documents pertinents par rapport à une requête est fondamental dans le domaine de la recherche d’information. Notre étude repose sur la localisation des termes dans les documents. Nous posons l’hypothèse que plus les occurrences des termes d’une requête se retrouvent proches dans un document alors plus ce dernier doit être positionné en tête de la liste de réponses. Nous présentons deux variantes de notre modèle à zone d’influence, la première est basée sur une notion de proximité floue et la seconde sur une notion de pertinence locale. 1 Introduction Le domaine de la recherche d’information, bien connu à travers les moteurs de recherche sur le Web, utilise différents modèles. Ces derniers précisent comment sélectionner et ordonner les documents qui répondent aux besoins d’informations des utilisateurs. Il en existe principalement trois familles (Baeza-Yates et Ribeiro-Neto, 1999) : (a) les modèles ensemblistes (booléen, à ensembles flous et booléens étendus), (b) les modèles algébriques (vectoriel et indexation sémantique latente) et (c) les modèles probabilistes (basés sur les réseaux d’inférence, les réseaux bayésiens et les réseaux de croyance). Notre modèle est basé non seulement sur les familles de modèle ensemblistes et algébriques, mais aussi sur une des premières idées fondatrice de la recherche d’information formulée par Luhn (Luhn, 1958) qui consiste à s’appuyer d’une part, sur la fréquence des termes et d’autre part sur la position relative des termes de la requête dans les documents. Le premier aspect relatif à l’utilisation de la fréquence des termes a été beaucoup développé dans le cadre des modèles algébriques, par contre, le second concernant la proximité entre les occurrences des termes n’a reçu que peu d’attention, notre étude permet d’approfondir ce dernier point. Tout d’abord, nous rappelons certains modèles classiques ainsi que les quelques méthodes qui utilisent la proximité. Ensuite, nous présentons les deux variantes de notre modèle à zone d’influence avant de conclure. 2 État de l’art La méthode d’indexation associée à un modèle de recherche d’information permet de construire les représentants des documents et s’appuie généralement sur les occurrences des termes trouvés dans les documents. Nous notons T l’ensemble des termes et D celui des documents. 275 RNTI-E-3 Un système d’aide à la navigation dans des hypermédias Julien Blanchard, Bertrand Petitjean, Thierry Artières, Patrick Gallinari LIP6, Université Paris 6 {Prénom.Nom}@lip6.fr Résumé. Avec le développement d’Internet et d’applications hypermédias, la construction et l’exploitation de profils ou modèles des utilisateurs deviennent capitaux dans de nombreux domaines. Pouvoir cibler un utilisateur d’un hypermédia ou d’un site web afin de lui proposer ce qu’il attend devient essentiel, par exemple lorsque l’on veut lui présenter les produits qu’il est le plus susceptible d’acheter, ou bien plus généralement à chaque fois que l’on veut éviter de noyer l’utilisateur dans un flot d’informations. Nous présentons un système d’aide à la navigation, intégrant un système de modélisation du comportement de navigation et un stratège qui met en œuvre, en fonction du comportement détecté, une aide visant à recommander des liens particuliers. 1 Introduction Avec l’avènement de l’ère Internet, la construction et l’exploitation de profils ou modèles des utilisateurs deviennent capitaux dans de nombreux domaines. Pouvoir cibler l’utilisateur afin de lui proposer ce qu’il attend est de plus en plus souvent une tâche nécessaire. Les enjeux économiques sont très importants, lorsque l’on veut par exemple présenter au consommateur les produits qu’il est le plus susceptible d’acheter, ou bien plus généralement à chaque fois que l’on veut éviter de noyer l’utilisateur dans un flot d’information. Ainsi l’hyperespace qu’est le web peut être rendu plus simple, si l’on parvient à le présenter sous une forme personnalisée aux usagers. Cette problématique regroupe de nombreux aspects de l’informatique : agents intelligents, recherche d’information, text mining, interfaces... L’aide à la navigation dans des hypermédias ou sur Internet s’appuie sur une modélisation de l’utilisateur, de ses buts et de ses intérêts à court ou long terme pour lui proposer, à un instant donné, une interface adaptée à ses besoins (Rich 1979, Brusilovky 1996). En règle générale, une stratégie d’aide englobe deux modules principaux, le premier constitue la modélisation de l’utilisateur proprement dit, le second est un stratège qui, en fonction du modèle de l’utilisateur, propose une aide à l’utilisateur pour sa navigation dans l’hypermédia. Les modèles utilisateur utilisés dans les systèmes d’aide à la navigation reposent le plus souvent sur la détection de comportements typiques de navigation. Les utilisateurs d’un site web ou de tout autre hypermédia adoptent divers comportements en fonction de leurs buts et objectifs. Une hypothèse communément admise est que l’on peut représenter un site comme un graphe de pages dans lequel les comportements des utilisateurs se traduisent par différents types de parcours représentatifs de leurs comportements. Diverses caractérisations des types de navigation ont été proposées dans (Canter et al. 1985, Mullier 2000). Nous nous appuyons ici sur la typologie proposée par Canter. Elle distingue des grandes catégories de navigations, comme la flânerie (ou papillonnage), le survol qui consiste à passer en revue assez rapidement une partie de l’hypermédia, la recherche d’une information précise ou encore l’approfondissement de ses connaissances sur un domaine particulier. 281 RNTI-E-3 « La connaissance de la connaissance » : une réflexion sur la triangulation des analyses textuelles à partir d’un corpus spécialisé en gouvernance d’entreprise Stéphane Trébucq * * Centre de Recherche en Contrôle et Comptabilité Internationale - CRECCI IAE de Bordeaux, Rue du Cdt Arnould, 33 Bordeaux [email protected] Résumé. Suite à la survenue récente de scandales financiers, la synthèse des idées mobilisables en gouvernance d’entreprise semble désormais essentielle si l’on veut sécuriser les investisseurs. Dans cette perspective, le présent projet de recherche consiste à mettre en œuvre un panel d’outils d’analyse de données textuelles (Alceste, Syntex, Tropes-Zoom/Decision Explorer, Wordmapper, Weblex) afin d’évaluer les moyens dont peut disposer un analyste désireux d’extraire des connaissances contenues dans un ensemble d’articles académiques. La qualité de représentation du corpus dans sa globalité est tout d’abord testée. L’étude est ensuite centrée sur le concept même de connaissance, mobilisé dans la théorie de la gouvernance des entreprises. La convergence et la complémentarité des approches méthodologiques sont alors explicitées. Il en est de même pour ce qui concerne la capacité d’extraction d’une connaissance pertinente à partir des textes étudiés. 1 Introduction Suite à la survenue de récents scandales financiers, les représentants des entreprises, de même que leurs différentes parties prenantes, ont été conduits à s’interroger quant à l’efficacité des dispositifs de gouvernance1 actuellement en vigueur. Sur un plan académique, la synthèse des idées mobilisées dans ce domaine est désormais indispensable si l’on veut disposer d’un cadre conceptuel aussi explicite et exhaustif que faire se peut. L’objet de la présente recherche est de mettre en œuvre une triangulation méthodologique, en utilisant un panel d’outils d’analyse de données textuelles. Le corpus retenu pour l’extraction de connaissances est constitué de près de 300 000 mots correspondant à un ensemble de 32 articles publiés dans diverses revues scientifiques et rédigés entre 1985 à 2003 par Gérard Charreaux2, dont les travaux font référence dans le domaine de la gouvernance des entreprises. La démarche expérimentale suivie a été conduite à deux niveaux d’analyse. Elle a tout d’abord offert l’opportunité de tester les capacités de représentation du corpus dans sa globalité. Pour ce faire, nous avons utilisé quatre logiciels spécialisés : Alceste, Syntex, 1 "Le gouvernement des entreprises recouvre l'ensemble des mécanismes organisationnels qui ont pour effet de délimiter les pouvoirs et d'influencer les décisions des dirigeants, autrement dit, qui « gouvernent » leur conduite et définissent leur espace discrétionnaire" (Charreaux 1997). 2 http://perso.wanadoo.fr/gerard.charreaux/perso/gcaccueil.html#Sommaire 293 RNTI-E-3 !"## $ & ' & ( & % )*++,,,& & ( & -. /(0 1 2 / / 0 3 !/"!# & ' %( & () /& % )*++,,,& %( & () /& + )/+ % ) 5 )) 2 % 5 6 2 ) ) &8 % 4 5() 3 ) 5 2 (5( & 2 % 36 2 6 ) 5 2% )2 )2 ) & 4) & 4 % ) )) &)2 4 & 2 % 7 2 2% 4 ) )2 2 2 6 3 7 ) ) 4 )) ) & ) 5 4 4 2% 4 % 4# 4 2% 2 & -9 - 4 4% ) 6 ) ) ) & 0 ) )2 62 5 2 ) 3 )) ; % 2 )2 2 2 5 ) 6 "##=< ) 4 ) &> 4 ; ) & 6 ) 3 2 ) ) 2 & % % (5( 5 ) ) ;< 2 4 "##"< : 3 4 2 :) 9 & 2 ) ) 5 ) ) 2 ) 2 ;0 6% ? ( 2 ) ) 0 ) 2 3 )3 92 0 2 5 ) ) 2 & ) 2 % 6 & 4 5 & * ( )2 2 2 ;0 =@!=<;0 4 & =@A@< =@@/<& 305 RNTI-E-3 Amélioration de la performance de l’Analyse de la Sémantique Latente pour des corpus de petite taille Fadoua Ataa-Allah*, Abderrahim El Qadi** Siham Boulaknadel*, Driss Aboutajdine* *Université Mohamed V Agdal Faculté des Sciences, GSCM, B.P. 1014, Rabat {fadoua_01, siham_06}@yahoo.fr [email protected] http://www.fsr.ac.ma/GSCM/ **Université Moulay Ismail ESTM, route d’Agouray, km.5, B.P. 3103 Toulal Meknes [email protected] Problématique. Améliorer la performance du LSA pour des corpus de petite taille où l’unité textuelle est représentée par des paragraphes. Solution. Appliquer des schémas de pondération et utiliser des listes de mots vides. Application et Résultats Dans l’objectif d’améliorer la performance du LSA pour des corpus de petite taille, nous avons appliqué une multitude de schémas de pondération dans deux cas d’études : le premier où le prétraitement des corpus est simple ; le deuxième où une liste de mots vides est utilisée [1] . SLVM Log(tf+1) x Idf Tf x Idf Tfc Ltc Log(tf+1)/Entropie de Shannon ALVM Tf x Idf Log(tf+1) x Idf Tfc Ltc Log(tf+1)/Normal Nom du corpus Blanche Neige Cendrillon La Belle au Bois Dormant Le Petit Chaperon Rouge Le Petit Poucet (a) SLVM 0.73 0.62 0.71 0.38 0.47 ALVM 0.68 0.58 0.64 0.34 0.50 (b) ALVM : Avec l’utilisation de la liste de mots vides. SLVM : Sans l’utilisation de la liste de mots vides. (a) - L’ordre des plus importants schémas de pondération améliorant la performance du LSA (b) – La précision maximale par LSA pour un seuil de 0.9 TAB 1 – Tableau des résultats L'étude menée a montré que l’application d’un schéma de pondération peut influer positivement ou négativement la performance du LSA, tandis que l’utilisation de la liste des mots vides n’est pas performante. Références (Deerwester et al. 1990) Deerwester S, Dumais S.T., Furnas G.W., Landauer T.K., Hrashman R., Indexing by latent semantic analysis, Journal of th american society for information science, 41(6), pages 391-407, 1990. (Dumais 1992) Susan T. Dumais, Enhancing Performance in Latent Semantic Indexing (LSI) Retrieval, 1992, Technical Memorandum Tm-ARH-017527, Bellcore. [1] http://snowball.tartarus.org/french/stop.txt. 317 RNTI-E-3 Tableau de Bits Indexé (TBI) pour la Recherche de Séquences Fréquentes Lionel Savary, Karine Zeitouni Laboratoire PRiSM, Université de Versailles, 45 Avenue des Etats-Unis, 78035 Versailles {Lionel.Savary, Karine.Zeitouni}@prism.uvsq.fr A la différence de la fouille d’articles fréquents, la recherche de sous-séquences fréquentes tient compte de l’apparition multiple et de l’ordre des articles. L’algorithme proposé parcourt la base de données une seule fois. Durant cette passe, il construit un vecteur VS contenant toutes les combinaisons de séquences présentes dans la base. A ce vecteur est associé un tableau de bit TB codant toutes les séquences de la base en correspondance avec les articles codés dans VS. Les bits à 1 indiquent les articles présents dans la séquence et les bits à 0 ceux qui ne le sont pas. Les séquences sont représentées dans chaque ligne du tableau et regroupées par taille dans l’ordre décroissant. Un index associé au tableau permet de pointer directement les séquences de taille choisie. Ce qui évite des comparaisons superflues et améliore les performances. Le tableau NB associé au TB, indique les fréquences associées à chaque séquence. Dans l’exemple de la figure 1, la séquence (M) de taille 1 se trouve à la première ligne dans le TB et a une fréquence de 500. Cette structure est construite dynamiquement au cours de l’unique passe dans la base de données. Un deuxième algorithme TBI2, basé sur un tableau de booléens, offre de meilleures performances mais nécessite plus d’espace mémoire. TBI et TBI2 affichent de meilleures performances que les algorithmes existants tel que Prefixspan [1]. Index VS 1 4 6 8 9 M T E S M R T M 0 1 1 0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 0 0 1 0 0 1 … ... ... … ... ... … … 0 1 0 0 0 0 0 0 1 5 180 ... 240 389 1 0 0 0 0 0 0 0 500 TB NB Temps (secondes) 120 110 100 90 Prefixspan TBI 80 TBI2 70 60 50 40 30 20 10 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Support Fig. 1. Structure de données et performance pour 500000 séquences Références 1. J. Pei, J. Han, B. Mortazavi, H. Pinto, Q. Chen, U.Dayal, and M-C. Hsu. PrefixSpan: mining sequential patterns efficiently by prefix-projected pattern growth. Proceedings of the 17th International Conference on Data Engineering, 215-224, Heidelberg, Germany, Apr. 2001. RNTI-E-3 318 Intégration efficace des arbres de décision dans les SGBD : utilisation des index bitmap Cécile Favre, Fadila Bentayeb Laboratoire ERIC, Lyon 2 5 Avenue Pierre Mendès France 69676 Bron CEDEX {cfavre,bentayeb}@eric.univ-lyon2.fr, Résumé. Nous présentons dans cet article une nouvelle approche de fouille qui permet d’appliquer des algorithmes de construction d’arbres de décision en répondant à deux objectifs : (1) traiter des bases volumineuses, (2) en des temps de traitement acceptables. Le premier objectif est atteint en intégrant ces algorithmes au cœur des SGBD, en utilisant uniquement les outils fournis par ces derniers. Toutefois, les temps de traitement demeurent longs, en raison des nombreuses lectures de la base. Nous montrons que, grâce aux index bitmap, nous réduisons à la fois la taille de la base d’apprentissage et les temps de traitements. Pour valider notre approche, nous avons implémenté la méthode ID3 sous forme d’une procédure stockée dans le SGBD Oracle. Mots clés : Index bitmap, bases de données, fouille de données, arbres de décision, performance, complexité. 1 Introduction L’application efficace de méthodes de fouille sur des bases de données volumineuses devient un enjeu de recherche de plus en plus important. Les algorithmes traditionnels de fouille de données s’appliquent sur des tableaux attributs/valeurs (Zighed et Rakotomalala 2000). La volumétrie des bases étant croissante, les algorithmes classiques se heurtent au problème de la limitation de la taille de la mémoire centrale dans laquelle les données sont traitées. La ”scalabilité” (capacité de maintenir des performances malgré un accroissement du volume de données), peut alors être assurée en optimisant soit les algorithmes (Agrawal et al. 1996, Gehrke et al. 1998), soit l’accès aux données (Ramesh et al. 2001, Dunkel et Soparkar 1999). Une autre issue au problème consiste à réduire la volumétrie des données à traiter. Pour cela, une phase de prétraitement est généralement appliquée sur les données : l’échantillonnage (Ttoivonen 1996, Chauchat et Rakotomalala 2000) ou la sélection d’attributs (Lia et Motoda 1998). Récemment, une nouvelle approche de fouille de données est apparue pour pallier au problème de limitation de la taille de la mémoire. Il s’agit d’intégrer les méthodes de fouille de données au cœur des Systèmes de Gestion de Bases de Données (SGBD) (Chaudhuri 1998). Ainsi, le volume des données traitées n’est plus limité par la taille de la mémoire. Cette piste de recherche est conjointement liée à l’avènement des entrepôts de données et de l’analyse en ligne (OLAP) plus particulièrement (Codd 1993). 319 RNTI-E-3 Mining Frequent Queries in Star Schemes Tao-Yuan Jen∗ , Dominique Laurent∗ Nicolas Spyratos∗∗ , Oumar Sy∗∗∗ ∗ LICP, Université de Cergy-Pontoise, 95302 Cergy-Pontoise Cedex, FRANCE {tao-yuan.jen,dominique.laurent}@dept-info.u-cergy.fr ∗∗ LRI, Université Paris 11, 91405 Orsay Cedex, FRANCE [email protected] ∗∗∗ Université Gaston Berger, Saint-Louis, SENEGAL [email protected] Résumé. L’extraction de toutes les requêtes fréquentes dans une base de données relationnelle est un problème difficile, même si l’on ne considère que des requêtes conjonctives. Nous montrons que ce problème devient possible dans le cas suivant : le schéma de la base est un schéma en étoile, et les données satisfont un ensemble de dépendances fonctionnelles et de contraintes référentielles. De plus, les schémas en étoile sont appropriés pour les entrepôts de données et que les dépendances fonctionnelles et les contraintes référentielles sont les contraintes les plus usuelles dans les bases de données. En considérant le modèle des instances faibles, nous montrons que les requêtes fréquentes exprimées par sélection-projection peuvent être extraites par des algorithmes de type Apriori. 1 Introduction The general problem of mining all frequent queries in a (relational) database, i.e., all queries whose answer has a cardinality above a given threshold, is known to be intractable, even if we consider conjunctive queries only (Goethals 2004). However, mining all frequent queries from a database allows for the production of relevant association rules that cannot be obtained by other approaches, even when dealing with multiple tables, such as in (Dehaspe and Raedt 1997; Diop et al. 2002; Faye et al. 1999; Han et al. 1996; Meo et al. 1997; Turmeaux et al. 2003). This is so because, in these approaches, association rules are mined in the same table. On the other hand, when mining all frequent queries, it is possible to obtain rules whose left and right hand sides are frequent queries mined in different tables. The following example, that serves as a running example throughout the paper, illustrates this point. Example 1 Let ∆ be a database containing three tables, Cust, P rod and Sales, dealing with customers, products and sales transactions, respectively, and suppose that : – the table Cust is defined over the attributes Cid, Cname and Caddr, standing respectively for the identifiers, the names and the addresses of customers, – the table P rod is defined over the attributes P id and P type, standing respectively for the identifiers and the types of products, – the table Sales is defined over the attributes Cid, P id and Qty where Qty stands for the quantity of a product bought by a customer. 331 RNTI-E-3 Modélisation d’objets mobiles dans un entrepôt de données Tao Wan, Karine Zeitouni Laboratoire PRISM, Université de Versailles 45, avenue des Etats-Unis, 78035 Versailles Cedex, France [email protected], [email protected] http://www.prism.uvsq.fr/users/karima/ Résumé. La gestion d’objets mobiles a connu un regain d’intérêt ces dernières années, particulièrement dans le but de gérer et de prédire la localisation d’objets mobiles. Cependant, il y a peu de recherches sur l’exploitation d’historiques de bases d’objets mobiles. La première étape dans ce processus est la mise en œuvre d’un entrepôt d’objets mobiles. Seulement, les modèles d’entrepôts existants ne permettent pas de traiter directement ce type de données complexes. Cet article présente une approche originale pour pallier ce problème. Cette approche offre la puissance de l’algèbre OLAP sur toute combinaison de données classiques, spatiales et/ou temporelles et mobiles. Elle a été validée par un prototype et appliquée à l’analyse de la mobilité urbaine1. Les résultats de l’expérimentation montrent la validité de l’approche et les tests de performances son efficacité. 1. Introduction Le développement des technologies mobiles, telles que les téléphones cellulaires et les GPS, a ouvert la voie vers de nouvelles applications exploitant la localisation. En effet, cette connaissance peut permettre de cibler les services offerts – appelés Location Based Service (LBS)- comme de fournir des informations localisées dans la zone du mobile. D’autres applications utilisent des objets mobiles comme le contrôle et la prévision du trafic basés sur les trajectoires de véhicules. Ces applications ont généré de nouveaux problèmes qui ont fait naître ou accéléré la recherche sur la gestion d’objets mobiles.. La plupart des travaux sont axés sur la modélisation d’objet mobiles (Güting et al. 2000, Vazirgiannis et al. 2001) les méthodes d’accès (Pfoser et al. 2000, Saltenis et al. 2000), les requêtes prédictives et l’optimisation des mise à jour (Chon et al. 2002, Tao et al 2002, Jensen 2004). Ces techniques ne s’appliquent pas dans un contexte décisionnel où l’on s’intéresse aux données historiques sur les objets mobiles. Pourtant, l’analyse a posteriori des phénomènes mobiles serait bien utile dans les domaines de la planification du transport, des demandes de services mobiles, etc. Les travaux sur les entrepôts de données spatiaux (Stefanovic et al. 1 Ce travail est partiellement financé par le projet HEARTS (Health Effects and Risk of Transport Systems), co-financé par le programme énergie, environnement et développement durable de la Commission Européenne (contrat n°: QLK4-CT-2001-00492). Cet article ne reflète pas nécessairement l’opinion officielle de la Commission Européenne, d’autres institutions de la Communauté Européenne ou de l’OMS. Ni la Commission Européenne, ni l’OMS ne sont responsables de l’usage pouvant être fait du contenu de cet article. 343 RNTI-E-3 Manipulation et fusion de données multidimensionnelles Franck Ravat, Olivier Teste, Gilles Zurfluh Institut de Recherche en Informatique de Toulouse / Equipe SIG-ED 118, Route de Narbonne 31062 TOULOUSE cedex 04 mél : {ravat, teste, zurfluh}@irit.fr Résumé. Cet article définit une algèbre permettant de manipuler des tables dimensionnelles extraites d'une base de données multidimensionnelles. L'algèbre intègre un noyau minimum d'opérateurs unaires permettant d'effectuer les analyses décisionnelles par combinaison d'opérateurs. Cette algèbre intègre un opérateur binaire permettant la fusion de tables dimensionnelles facilitant les corrélations des sujets analysés. 1 Introduction Nos travaux se situent dans le cadre des systèmes décisionnels intégrant des bases de données multidimensionnelles (BDM). Conceptuellement, ces BDM organisent les données en sujets appelés faits et axes d’analyses appelés dimensions (Kimball, 1996). 1.1 Contexte : notre modèle conceptuel Definition : Un fait Fj est défini par (NFj, MFj, IFj, IStarFj) où - NFj est le nom du fait, - MFj = {m1, m2,…, mw} est un ensemble de mesures (ou indicateurs d’analyse), - IFj = {IF_1, IF_2,…} est l'ensemble des instances de F, - IStarFj est une fonction associant chaque instance de IFj à une instance de chaque dimension liée au fait. Definition : Une dimension Di est définie par (NDi, ADi, HDi, IDi) où - NDi est le nom de la dimension, - ADi = {aDi_1, aDi_2,…, aDi_u} est un ensemble d'attributs, - HDi = {hDi_1, hDi_2,…, hDi_y} est un ensemble de hiérarchies, - IDi = {IDi_1, IDi_2,…} est l'ensemble des instances de Di. Definition : Une hiérarchie représente une perspective d’analyse précisant les niveaux de granularité auxquels peuvent être manipulés les indicateurs d’analyse. Une hiérarchie hDi_x définie sur la dimension Di est un chemin élémentaire acyclique débutant par l’attribut de plus faible granularité et se terminant par un attribut de plus forte granularité. Elle est définie par (NDi_x, ParamDi_x, SupplDi_x) où - NDi_x est le nom de la hiérarchie, - ParamDi_x = <aDi_k, aDi_l,…, aDi_z> est un ensemble ordonné décrivant la hiérarchie des attributs (chaque attribut est appelé paramètre de la hiérarchie et correspond à un niveau de granularité d’analyse), - SupplDi_x: ParamDi_x →2(ADi - ParamDi_x) est une application spécifiant les attributs faibles qui complètent la sémantique des paramètres (chaque paramètre est associé à un ensemble d'attributs faibles). 349 RNTI-E-3 ! " # $ % & ' & () * + * & , - * . & / 0 & 1 2 $ , " 3 $ $ * 4 4 0 * & / 0 " , + & " 5 6 7 & & / 8 9 6 : 5 + & " * , ; < : = & 0 * % > 0 " / ?@ A % & > 0 " / ?@ - * / * / $ , = & 0 * 7 * A * A / B $ C 2 2 4 0 / 4 & ( * ?2 * & , > , @ ?@ = & * & 2 % D 4 , " & / & / 0 , " C 4 " , E 0 / 2 F / " , , 0 0 $ " 0 " 2 2 " 0 " * 0 " / 0 2 $ C / 0 ! ! 4 0 / 2 & & , $ @ 0 / 0 , " 2 $ * @ * & / 0 " , @ 0 * / 0 " , E % G / & C " 0 & 0 ! & ! ? ) E % H * / @ " / , , $ / 4 0 " , 0 0 $ " I , C 0 / J / 2 $ " 0 / " , & 0 " E 0 / 2 F / , , 0 0 $ " G * A & I 0 " / & 0 / ? ) " " 2 $ * @ * & / 0 " , * " @ 0 * / 0 " " / & , " 0 / 2 & 0 0 " 4 % , C " , $ @ 0 " 2 & E / " & / K " 2 4 / / 0 / , " 2 $ * @ & * 0 " C & / 0 , 0 ( 2 / " "2 $ * @I " , $ " 4 $ " 2 & & ! $ ! & / 0 ? ) & " 2 2 " " 0 , , 0 0 $ " 0 / " "/ $ & " $ , @ & L 0 4 $ * & 0 I G * A & I 2 & " , 4 " G H ? B & 0 " * 2 & 2 0 " $ / , 0 " E % , " , 0 0 $ " 2 & * 0 " C & / 0 , 0 ( 2 / " " 2 $ * @ I " H ! $ " / " , & 0 " * & , , E / " & / 0 , , 0 0 $ " / 2 , $ @ 0 " " 2 $ * @ * & / 0 " , @ 0 * / 0 " , E % 0 " * 0 " , $ 0 " E / / $ , " , 0 0 $ " I " / , $ @ 0 G / & C " & * & " M # - 7 - , E 0 ; 2 " " 0 , C ? B & 0 " 0 0 / 2 F / , , 0 0 $ " * / & 0 " , 0 0 $ " 0 / 0 / / $ " ! 0 @ * & / C / " / 0 / $ " " & 0 / , * 0 " C , $ / & , & 0 " " " / & / $ ! " , E % , " , 0 0 $ " ? + & ; 4 2 , & 0 " 0 0 / 2 F / , , 0 0 $ " , @ & * / & / 0 , * 0 / " "/ 0 /$ " " & 0 / , ! & , , $ /& , " * 0 / " I 0 / " 4 0 /& 0 / " , @ & * / " " 2 " $ C $ " 2 0 , & 0 / " * 0 I , 0 D " & 0 0 $ " ? B & 0 " 0 / , $ 4 & * A 0 " 2 0 0 " 0 * 4 2 / " * 0 / & 0 / " , E 0 / $ ! / $ $ @ $ 0 / " , & 0 " * & , , 4 , D & / 0 0 2 , $ / 4 0 G 2 & / , " " 2 $ * @ * & / 0 " , @ 0 * / 0 " , E % , $ @ 0 " 2 & E / " & / " 0 ( 2 / " G * 0 " C G " 2 2 4 , & % & " , , 0 0 $ " ? N 0 & ! / A 4 " / , $ @ 0 O 2 0 , 0 0 / $ E 0 " 4 % , " / & % " , & % & " , , 0 0 $ " " C " * " 2 0 , & 0 / & ; " 2 $ * @ * & / 0 " , * 0 " C & / 0 , , $ / & , 0 ( 2 / " , $ @ 0 " 2 & E / " & / 2 2 , 0 " / 0 0 " 4 % , 0 ( 2 / " G " 2 2 4 / / 0 4 & 0 / 0 & 0 / * A $ 0 / & % & " , , 0 0 $ " ? N 0 ; 2 $ 4 0 / & / 0 " " P & * " / @ & / ? Q R A 4 # ?S ? 1 2 & * @ @ * 0 / * 0 " C & / C ! & % & ! * * / 0 ? T 0 U ' 1 T + ) . U 0 @ 0 * 0 + ! & 4 4 0 ! ) & 0 ! & ! " B " ! 0 & 0 , T 4 2 4 0 /& / 0 < V V : ? ? # $ % & ? + * & , ' ?) - U W = 0 * / 0 " , E % , & 0 " " 0 / 2 F / " , , 0 0 $ " X Y Z Z 5 U 4 0 / = & 0 , S & 0 C Y Z Z 5 ? U A & , A 1 ? B & " ? . & & " & & [ ? % " / 2 / 4 " & / 0 (% & " , & 2 2 & * A @ & 2 2 ; 4 & / & 0 " \ 0 ! @ & ! ! ! & / I " + * , 0 ! " @ 1 T ' P B U 0 @ 0 * Y Z Z < ? B 4 & " ' ? = & C / U ? 1 * A + ? ' , D " / & 0 ! & ! " 2 , 0 0 $ " / 4 2 " U A & 2 / , C W & " " , B 0 0 $ " / T 0 / 0 / X ? B * / / ? S 4 $ , / " # 4 " Y Z Z < ? N 4 & 0 S ?B ? + 0 * 2 " @ B & / & % & " " & 0 , ] 0 \ , ! & " 1 " / 4 " C 4 < & 0 , Y ? U 4 2 / 1 * 0 * + " " <V ^ V ? 355 RNTI-E-3 Fouille de Données Relationnelles dans les SGBD Cédric Udréa, Fadila Bentayeb ERIC – Université Lumière Lyon 2 5 avenue Pierre Mendès-France – 69676 Bron Cedex – France {cudrea,bentayeb}@eric.univ-lyon2.fr Les travaux sur la fouille de données relationnelles prennent leur essor dans le domaine de la Programmation Logique Inductive (PLI). Bien qu’efficace en terme d’extraction de connaissances, la PLI est inadaptée pour traiter des bases de données relationnelles de grande taille. Dans cet article nous présentons une nouvelle approche qui apporte une solution efficace à la fouille de données relationnelles en intégrant les algorithmes de fouille, en particulier les algorithmes de construction d’arbres de décision, au sein des Systèmes de Gestion de Bases de Données (SGBD). Notre approche permet d’effectuer les algorithmes de fouille sur des données provenant de plusieurs tables relationnelles sans limitation de taille en utilisant uniquement les outils offerts par les SGBD, en particulier les index bitmap de jointures. Ces derniers permettent d’une part, d’optimiser les temps de traitement et d’autre part, d’exploiter le caractère prédictif porté par la structure de la base de données. Notre approche consiste à déterminer les effectifs des différentes populations grâce aux index bitmap de jointure qui constituent alors la base d’apprentissage. Les différents effectifs sont obtenus facilement par application des opérations logiques et des opérations de comptage sur les bitmaps (tableaux de bits) sans accéder aux données sources, réduisant les temps de traitement. D’autre part, les index bitmap de jointure apportent une solution au problème des données manquantes engendré par des jointures sur des tables liées par des relations de type 0–N. Nous considérons ces valeurs manquantes comme la négation des autres valeurs possibles. Notre solution consiste à ajouter un index bitmap de jointure artificiel possédant deux bitmaps, l’un correspondant à l’union des différentes valeurs de l’attribut de jointure, l’autre à la négation de cette union. Pour les n–uplets ayant une valeur manquante, leurs bits sont mis à 0 pour le bitmap correspondant à l’union des valeurs et à 1 pour le bitmap correspondant à la négation de l’union. L’index ainsi obtenu permet de différencier les n–uplets ayant une correspondance avec une table de ceux n’en ayant pas. Or cette information (appartenance ou non à une table) peut s’avérer prédictive dans le processu de fouille. Afin de valider notre approche, nous avons implémenté l’algorithme ID3 (Induction Decision Tree) sous le SGBD Oracle 9i, sous la forme de packages de procédures stockées PL/SQL 1 . Les tests effectués sur des bases possédant des relations 0–N ont montré que notre méthode permet de considérer l’appartenance ou non à une table comme un élément prédictif. De plus, nous obtenons des temps de traitement acceptables. Ce travail de recherche ouvre de nombreuses perspectives. Il est intéressant d’étudier les performances de notre approche sur des grandes bases de données réelles. Par ailleurs, l’exploitation du caractère prédictif des dépendances fonctionnelles et des contraintes d’intégrité dans le processus de fouille constitue aussi une voie de recherche prometteuse. 1. http://bdd.univ-lyon2.fr/download/relational_tree.zip RNTI-E-3 356 Entrepôt de Données Spatiales basé sur GML: Politique de Gestion de Cache Lionel Savary , Georges Gardarin, Karine Zeitouni Laboratoire PRiSM, Université de Versailles, 45 Avenue des Etats-Unis - 78035 Versailles {Lionel.Savary, Georges.Gardarin, Karine.Zeitouni}@prism.uvsq.fr Motivation : Dans les entrepôts de données, la manipulation de gros volumes de données requière souvent un temps d’exécution important. En particulier, si les requêtes portent sur des données spatiales contenues dans des documents semi-structurés, les temps de réponse deviennent prohibitifs. Afin de réduire le temps de traitement imposé par l’utilisation d’opérateurs spatiaux dans ce type de document, nous proposons une politique de remplacement de cache adaptée aux documents GML. Cette politique prend en compte les données spatiales et non-spatiales, ainsi que le nombre d’opérateurs spatiaux présents dans les requêtes utilisateurs. Politique de remplacement de cache : Soit Dq le nouveau document de taille Tq à insérer dans le cache. On désigne par Ti la taille du document i (1≤i≤n) du cache et par CGMLi le coût d'accès au document du cache. Soient (Xi) i=1..n ∈ {0 ; 1} n tel que Xi = 1 si le document i est conservé dans le cache, 0 s’il est supprimé. Notons de plus DGMLj le coût d'accès au document j sur disque (lorsqu'il n'est pas en cache). On recherche alors les documents i du cache à supprimer tels que la somme des coûts d'accès soit la plus petite possible: Minimiser Coût d'accès = ∑nj=1 Xj* CGMLj + ∑nj=1 (1-Xj)* DGMLj Une contrainte est que la somme des tailles des documents éliminés du cache soit supérieure ou égale à Tq: ∑ni=1 Xi*Ti ≥ Tq CGMLi représente le coût d'accès à un document GML i en cache, calculé selon la formule d’Arlitt [1], soit CGMLi = L + Fi*Ci / Si, avec : L une constante ; Si la taille du document ; Fi la fréquence d’accès au document et Ci le coût pour une requête sur des données géographiques. Notre calcul de Ci tient compte du coût sur les données non-spatiales, du coût sur les données spatiales, ainsi que du nombre d’opérateurs spatiaux présents dans la requête. Le problème est de déterminer les Xi qui optimisent le coût total. Nous proposons une adaptation d'algorithmes classiques de recherche opérationnelle pour déterminer les documents à conserver. Références 1. M. Arlitt, R. Friedrich L. Cherkasova,J. Dilley, and T. Jin. Evaluating content management techniques for web proxy caches. In HP Tec. report, Palo Alto, Apr. 1999. 357 RNTI-E-3 AID : Un framework intégré de conception d’un schéma objet-relationnel Hassan Badir, Etienne Pichat, UFR d’Informatique - Université Claude Bernard Lyon 1- LIRIS Bâtiment Nautibus- 8, boulevard Niels Bohr 69622 Villeurbanne cedex [email protected], Résumé. Devant la prolifération des données complexes qui ne cessent de croı̂tre, et la diversité des structures qui se multiplient, la conception des schémas de base de données en général et des schémas objet-relationnels en particulier, est devenue une activité difficile et complexe, qui fait appel à des connaissances variées. Lors de la conception d’un schéma, l’utilisateur (non averti) doit connaı̂tre la théorie sous-jacente au modèle de données, de façon à énoncer son modèle, syntaxiquement correct lui permettant de construire un schéma de base de données objet-relationnel répondant à ses besoins. Plusieurs outils spécialisés dans la conception de schémas de base de données provenant aussi bien de la communauté académique que du monde industriel, tels Super, Totem, Rational/Rose, etc. ont été développés dans des contextes et avec des buts souvent très différents. Afin de répondre à ce besoin pressant, nous avons proposé une solution consistant en l’élaboration d’environnements intégrés facilitant la cohabitation de plusieurs modèles et techniques utilisés lors de la conception d’un schéma de base de données. Il s’agit d’offrir une plate-forme logicielle appelée AID (Aided Interface for Database design) offrant des mécanismes opératoires uniformes représentant un soutien graphique et interactif pour une conception incrémentale basée sur des manipulations directes et systémiques des graphes au travers d’une palette graphique d’opérateurs. L’innovation d’AID est son approche systémique qui facilite l’expression des besoins par le concepteur averti ou non, en lui automatisant sa tâche. AID permet au concepteur : – D’exprimer ses besoins et d’affiner ses contraintes au moyen de modèle(s) : Relation Universelle avec Inclusions (RUI), Forêt d’Attributs Objet (FAO) et diagramme de classes UML stéréotypé ; – De passer d’un modèle à un autre en s’appuyant sur des algorithmes de transformation et de générer le code SQL3 ou un schéma XML ; item Ultérieurement de particulariser le schéma conceptuel obtenu en fonction de traitements prévus, en introduisant des méthodes d’accès, voire en dénormalisant ; – De pouvoir intégrer plusieurs schémas conceptuels en un seul sans perdre la moindre information. RNTI-E-3 358