Extraction et Gestion des Connaissances EGC

publicité
Revue des Nouvelles Technologies de l’Information
Sous la direction de Djamel A. Zighed et Gilles Venturini
RNTI-E-3
Extraction et Gestion des Connaissances
EGC 2005
Sous la direction de : Suzanne Pinson (Lamsade, Université Dauphine
Paris IX), Nicole Vincent (Crip5, Université René Descartes Paris 5)
Volume I
CÉPADUÈS-ÉDITIONS
111, rue Vauquelin
31100 TOULOUSE – France
Tél. : 05 61 40 57 36 – Fax : 05 61 41 79 89
(de l’étranger ) + 33 5 61 40 57 36 – Fax : + 33 5 61 41 79 89
www.cepadues.com
courriel: [email protected]
Chez le même éditeur
RNTI-Revue des Nouvelles Technologies de l'Information
Sous la direction de Djamel A. Zighed et Gilles Venturini
n°1 : entreposage fouille de données
E-1 : Mesures de qualité pour la fouille de données
E2 :Extraction et gestion des connaissances EGC 2004
C-1 : Classification et fouille de données
Ensemble composé de 2 volumes :
2 85428 682 0 (volume I)
2 85428 683 9 (volume II)
ISBN : 2.85428.677.4
© CEPAD 2005
Le code de la propriété intellectuelle du 1 juillet 1992 interdit expressément la photocopie à usage collectif sans
autorisation des ayants droit. Or, cette pratique en se généralisant provoquerait une baisse brutale des achats
de livres, au point que la possibilité même pour les auteurs de créer des œuvres nouvelles et de les faire éditer
correctement serait alors menacée.
er
Nous rappelons donc que toute reproduction, partielle ou totale, du présent ouvrage est interdite sans
autorisation de l'éditeur ou du Centre français d'exploitation du droit de copie (CFC – 3, rue d'Hautefeuille – 75006
Paris).
Dépôt légal : janvier2005
N° éditeur : 67700
LE MOT DES DIRECTEURS DE LA COLLECTION RNTI
Chères Lectrices, Chers Lecteurs,
La Revue des Nouvelles Technologies de l’Information a été créée en mars 2003.
Après le numéro ”‘Entreposage et Fouille des Données”’ édité par Omar Boussaid et
Stéphane Lallich, 4 numéros de notre revue ont été préparé dont celui-ci qui est
consacré aux actes de la prestigieuse conférence EGC’2004.
5
A l’image de ce numéro, nous vous rappelons que les thématiques générales couvertes par RNTI concernent tous les domaines liés à l’Extraction de connaissances à partir des Données (ECD), la Fouille de données (FD), la Gestion des connaissances (GC).
Compte tenu des numéros en préparation, et afin de mieux distinguer les thématiques,
nous avons défini des appellations spécifiques pour chacun des domaines suivants :
– RNTI - A : Apprentissage
– RNTI - B : Bases de données
– RNTI - C : Classification
– RNTI - E : Extraction et Gestion des Connaissances
– RNTI - S : Statistiques
– RNTI - W : Web
RNTI a pour objectif d’être un outil de communication de très grande qualité et
ouvert à tous. Nous vous rappelons également que deux types de numéros sont publiés
dans RNTI :
– des actes de conférences sélectives garantissant une haute qualité des articles
(par exemple, nous demandons à ce que trois relecteurs émettent un avis sur les
articles soumis). C’est le cas par exemple dans ce numéro avec les actes de la
conférence EGC’2005 qui remporte depuis plusieurs années un très grand succès,
– des numéros à thème faisant l’objet d’un appel à communication. Chaque numéro
à thème est édité par un ou plusieurs rédacteurs en chef invités. Un comité de
programme spécifique d’une quinzaine de personne est formé à cette occasion.
Nous sommes à votre écoute pour toute proposition de numéros spéciaux. Les
thématiques abordées sont susceptibles également à moyen terme d’être élargies à
d’autres domaines connexes.
Nous espérons vivement que ce numéro vous donnera à tous une entière satisfaction.
Pour tout renseignement, nous vous invitons à consulter notre site Web et à nous
contacter.
Djamel A. Zighed et Gilles Venturini.
http://www.antsearch.univ-tours.fr/rnti
!
"
)
#$
%#
&
*
.
%
'(
+
. ,
.
.
%
#+
%
/
&
.
.
1
+
,
.
.
.
8
3
. *
3
*
5 *
2
,
!+ 92
;1
*
(
&
&
+
1
7
*!+
&
&
&
+
.
*
1
*!+ .
,
8
*1
.
+
&
&
+
"
*
+
"
3
"
& &
(
*
3 ,
+
.
& * (7
*
,
+
+
*
+ 7
*!+ 7
&
+
.
.
-
(
.
6
7
+: .
/
*
8
8 1
* + <
-
+"
(
) ,
: -
&
+
.
.
+
,
4 .
& *
*
*
7
#+
(
.
+
0
,
.
.
*
"
& (
)
*
*
+
&
,,
8 +
;1 +
&
.
,
,
-
+
*
(
4 -
5
4*
5
+
*
*
+
-
,,
+
"
, ?
*
-
- =
.
&
*
&
6
+
* +
&
&
=
& +
+
(
,
&
(
& !4
"
-
3
(
v
&
,
.
5( :
*
>
.
,,
&
6 4 + ,
/ 92
.
5
2
.
*
/
+
+
* !
6
+
+
-
@&
+
*
*
"
.
#A$
?
.
&
,
9
4*
!( 1
*
&
-
2
&
* + %$
,,
*
#B
+
*
"
* +
.
,
,,
"
+
.
0 &,
- *
-3
,
.
(
&
(
*
(
,
.
"
+ 'A
(
,, .
+
*
* +
5
+
(
&
&
+
*
+
+
(
C 3
D
D
. &
7
D . + <
D
+ 1
D
+ 0
D E. + 7
+
D
+
E D + 7
D
* + 7
D
*
+
D
.F *+ G
D
+ .
+ 1 .
.
+ H
2 +
+ )
2 38
+ C
7
+ 92 &
+
F 7 2+
7 *+ .
7
+
7
+ C 3
+
+
1 *
+ .
& -+ C 3
+
.
2+
*
+
&
+ *
+
+ 0 .
37
+ .
+ 1 . 39
G
+
G 2+
* G
+7
G
+
31
I
,+ H& I
,,+
I >+ 9 .
.+ > > > +
&
+ H&
. &
+ .
+) J3
+9 .
+
E 1
3
+D
1 E +
E 1
+ D
1
+
0
+ 1
0 .
3
+
92 &
0 * + C 31
K* + C 31
+C
.
+ 92 &
.
3
* + .
+ 7
+
+
?
+
. + .
.
. +
. 39
-+ 1
3 .
+
C 37 &
& +
> 9
+
9
+1 . 9 .
+ 1 . 9 *+
9
+ 7
9
& +
. 9 > E + 92 & 9>
+ 1 *
:
+ D *
:
+ 9 ,
:
31 +
<
+ .
<
+
1
L E +7
L *. (
1
D
G
*
C
+ G
+1
.
+ )& I
>> *+ :.
D &
+ D( 7 & + .
.
& +
+
vi
* + C
D
* +
. +<
.
+ 2
& + 7(
+
+K
1
G
3:
29
>+
* +
C 6
D
2+ 0
+
7
+
+ 1 .
. +
+
,
+ 92 &
+
7
+D
E 9. (
0
M 7
>+
*
7
+
(
O
+
1 .
(
N
+
,
) ,
O &
O &
, +
.
.
<
+
-
3D
(
9 >
0
* 2
7
G
E 39.
+I
<
**
O &
O &
.
D
* + 1K7 1 + O &
2 A
+ )0 + O &
0
!
*
+ )0 + O &
0
+ )0 + O &
0
1 . 39 G
+ ) )9+ O &
2 #
7
G
+ ) 11+ O &
1
%
H& IK7 :K +
)+ O &
9
&
+ 0 9+ 09:+
C 31
+ )1K9+ OD +
3
C
.
+ )0 + O &
0
7
L *. +
) +O &
2 %
D
vii
7
!
.
7
+
!
+
!
!
!
'
" #
$
!
(
* !(
!
,
$
#
&
!
)
!
-
"
!
'
!
!
/
!
$
/
0
!(
#!+ , ! %
$
& )!
!
(
)
$
$
)
3 !
*!
. !/
4 !
55
/ !! ) / !
&
6+
4
/
&
+.
!
/
! &
(
( /
.
!
/
80
3
! - 3
&
--
--
"
)
"
%
!#
5
&
%
9+
*
%
!
.3 .&
(
3
0
!!
20
"
$
(
/
%
( ) *
7 !
#
!
'
#
( /
,
&
!"
&
-$
" #
(
"
.
&
%
# ! &
& '
"
!
/
!"
+
)
3
(
&
!
# ! &
.
!
"
1
!(
%
!!
(
%
* !(
"
!(
! /
&
, /
00
9 !
!
.
'
: !
.
!
!$
$
(
#!+ , ! %
!!
*
!#
&
ix
"
&
05
!!
1 "
& * !!
/ !
!
2 "
!*
!
#!
* " 3
! !
$
!! &
0
0 , 0
%
3
)
!
!
&
( !
4
0
0
$
3
!
(
!!
# &
0
% , - % 6 7$
$
0
/
! !
!
&
, &
$
&
/
!! * !(
/ !!
(
&
)
!
%
!
(
!
#!
!
) ! $
! !*
!
9-0
$
> &
&
(
0
!"
$
!(
!
?:@ A
?
:
&
6
01
!!
3
!
%
&
:
3
(
,
$
(
! &
.
! $ , %
!
&% $ , C
/ C
*
&
;
/
0
!
3
#!
"
3
> &
< ,
4! (
D
# !
(
!
! 7
0
3
! ! !
!
' " #
(
*!
/
"
!
!
/
0
1
8
?
!!
5.
65
5
;
++
8
<0
<.
=-
(
98
&
9 0
9 .
)
' /
"B&
998
3
3
#
2+
&
! 3
- "
(
3$
$
9
99
!
+
99+
(
!
$ &
90.
!(
(
( 3
925
(
!
!
!
95+
!
!!
-
!
!
3
&
960
!
&
9+5
"
%
&
3
x
9<
C
!
!"
& )(
;
!
C )
3 !! *
0) 5
3 !
! 3
(
!
!
!
/
(
&
9.0
!
!( / !
3 &
8
085
!
!(
!"
!
$
!
!! &
!
!
!
3 A
& $ %
.
# ' ! &
!
B
!
,
$
$
/!
0 +
&
9
0 <
2)
!
:
)
!
3
&
()
$
1 $
0 7
"
!
0 :
.
!
$
1
(
%
1 !!
()!
!)
H
& $ %
)'
;
!
5J
!
F
%
,
( G
5
9
$
0
!
;)
!
!
I =
#
!
!
(
-
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE0 .
&
&-%
&%EEEEEEEEEEEEEEEEEEEEEEEEEEEEE00
!
H
&
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE020
!! &
!
9 * EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE02.
/
!
!
H
&
! EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE055
!!
!
: &
% EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE056
!
:
) ! $
&
!
.
9
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE05+
(
G - !
!&
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE05<
$
!
$
(
(
: ! &
(
# !
%
!
$ K
&
;
!
0
&
/
&
!
*
&
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE05.
!!
!(
& !
7
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE065
!
(
!
(
&
- ! , 3 ;)
&
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE0++
!
)
!(
(
!
&
! & =! ; !EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE0<.
!(
1&
! & =! ; ! EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE0.5
$
;
! 3&
xi
& = ;) 3
' !
-
!
;
!
$
;
!
)
!
!(
!
EEEEEEEEEEEEEEEEEEE28+
#!
&
,/ ! ! ;
&
!
!EEEEEEEEEEEEEEEEEEEEEEEEEEEEE2 .
( / !
!
>
>
&
# " ! EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE298
'
* "
6)
L
3
/
6
! 8
!
"
;
&
0 %< 0 > ,
!
!M
8
$
? %#
(
7$ (
1 !!
(
#
!
)'
( !
/ I
/
$ &
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE29
>
&
,
5
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE200
#!
! ( G
$ &
) EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE225
(
K
!
&
8
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE25
/
# !
(
)
!
* !( !"
&
;)
/
6 &)
! !
**
.
!
#
0 - EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE260
!
?-
&
/
!
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE26.
!
%
?
!
!
&
0
;
+ # !
3
"
#!+
# !
3
* EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE2<
(
!( !
!$
- *
.
# !
(
3
/ !! &
, ! %EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE2<0
N
$
/ L
!
*
! &
(%
*&
! !
$
)
0 !!% 0
&
6
&
0
()
!"
/
( 6
/
!
"
)'
(
; /
! &
!
!
( !
)
(
)
(
@
-- 8
! -
!
;
! &
!(
8
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE2.5
&
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE58+
# !
(
! &
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE5 .
# ! &
!
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEE50
!
!( !
# !
; !
xii
)
EEEEEEEEEEEEEEEEEEEEE509
<7
!
J !
!
(
- ( !
7
/
!
0
,
!
7
!
/
!
@
/
!
7$
$
. " #
!
!!
!!
/ !
3 &
!! EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE500
!
&
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE525
/
!
0
&
6 ! (
A EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE55+
(
I
!
&
=
#
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE560
(
L:
!
8
" #
#
-
") B
&
9
3
! EEEEEEEEEEEEEEEEEEEEEEEE5+5
&
#
?
!
!
;
;
$
!
!(
% (
,
&
(
!
$
/
/
!(
@
! EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE5<+
!(
*
(
)
!
;
!
&
6( $
!(
!) )
3
! EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE5.0
* !(
&3!
EEEEEEEEEEEEEEE5..
!(
$
&
=
!
"
&
.
! EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6
!
! L
!( !
&
@C EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6 9
8)
$
/
!
/
/
'
&
, $
;
! !
!
8
--)EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6 0
4 )
( $
/
!
(
#!
!
! &
;
&
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE695
!
(
! '
1&
;) 3 ,
!
!
;
! 8
--)EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE60+
!"
"
!$
(
&
-- (
#!+ , ! % EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE620
& )-
xiii
!
8
(
!
--
(
3
!
)
)$)
( 3
$
3
#
)
!
,
) ! , %
@
0
- EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE62.
3
!!#!
! %
O &
&% +
! + EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE655
*
&
!#
9
()
$
@
!$
% EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE66+
!
! N
* !N $
- " 3$
3
! &
!
")
) 7$ . !
** EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6+0
D )
/ !N !"
!
/ &
- 1 (
)
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6+.
3
!N 3
&
0
;
7$ . !
** EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6<5
F
&
!
!!
$
!!
/
!
&
(
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6.
, :
)
!
!
!N
!
&
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE6.+
0
/
!
$
*!
$
) /
!"
"
!$ &
#!+ , ! % EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE+80
,
/
!
!
&
"
3 EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE+82
"
)
/
&
%
% & - EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE+85
xiv
Combinaison de fonctions de préférence par Boosting pour la
recherche de passages dans les systèmes de question/réponse
Nicolas Usunier, Massih-Reza Amini, Patrick Gallinari
Laboratoire d’Informatique de Paris 6
8, rue du Capitaine Scott, 75015 Paris
{usunier, amini, gallinari}@poleia.lip6.fr
R´
esum´
e. Nous proposons une méthode d’apprentissage automatique pour
la sélection de passages susceptibles de contenir la réponse à une question dans les systèmes de Question-Réponse (QR). Les systèmes de RI
ad hoc ne sont pas adaptés à cette tâche car les passages recherchés
ne doivent pas uniquement traiter du même sujet que la question mais
en plus contenir sa réponse. Pour traiter ce problème les systèmes actuels ré-ordonnent les passages renvoyés par un moteur de recherche en
considérant des critères sous forme d’une somme pondérée de fonctions
de scores. Nous proposons d’apprendre automatiquement les poids de
cette combinaison , grâce à un algorithme de réordonnencement défini
dans le cadre du Boosting, qui sont habituellement déterminés manuelement. En plus du cadre d’apprentissage proposé, l’originalité de notre approche réside dans la définition des fonctions allouant des scores de pertinence aux passages. Nous validons notre travail sur la base de questions et
de réponses de l’évaluation TREC-11 des systèmes de QR. Les résultats
obtenus montrent une amélioration significative des performances en terme
de rappel et de précision par rapport à un moteur de recherche standard
et à une méthode d’apprentissage issue du cadre de la classification.
1
Introduction
Les systèmes de question/réponse (QR) ont pour objectif de trouver la réponse à une question formulée en langage naturel dans un grand corpus de documents. Nous nous intéressons ici
aux systèmes de QR en domaine ouverts, développés dans le cadre des évaluations TREC 1 . Dans
ces systèmes, le traitement d’une question s’effectue en trois étapes : (1) l’analyse la question,
déterminant un type de réponse attendue et la structure syntaxique de la question, (2) la recherche
d’information (RI), qui interroge un moteur de recherche pour sélectionner des passages susceptibles
de contenir la réponse à la question. Selon les systèmes, les passages peuvent être des documents entiers (Monz 2003), des parties de documents de longueur fixe (Chalendar et al. 2002), ou des phrases
consécutives d’un document (Prager et al. 2000). Enfin, (3) l’extraction et la sélection de la réponse
dans les passages séléctionnés.
Dans la chaı̂ne de traitement, le module de RI est crucial, car s’il échoue à renvoyer au moins un
passage contenant la réponse dans sa sélection, le système ne peut pas répondre à la question. Par
ailleurs, il pose de nouveaux problèmes de RI : la recherche qu’il doit effectuer est plus spécifique
1 Text
REtrieval Conference, http ://trec.nist.gov
1
RNTI-E-3
Usage non classificatoire d’arbres de classification :
enseignements d’une analyse de la participation
féminine à l’emploi en Suisse
Fabio B. Losa∗ , Pau Origoni∗ , Gilbert Ritschard∗∗
∗
Office statistique du canton du Tessin, Bellinzona, Suisse
[email protected] ; [email protected]
∗∗
Département d’économétrie, Université de Genève
[email protected]
Résumé. Cet article présente une application en grandeur réelle des
arbres de classification dans un contexte non classificatoire. Les arbres
générés visent à mettre en lumière les différences régionales dans la façon dont les femmes décident de leur participation au marché du travail.
L’accent est donc mis sur la capacité descriptive plutôt que prédictive des
arbres. L’application porte sur des données relatives à la participation féminine au marché du travail issues du Recensement Suisse de la Population
de l’an 2000. Ce vaste ensemble de données a été analysé en deux phases.
Un premier arbre exploratoire a mis en évidence la nécessité de procéder
à des études séparées pour les non mères, les mères mariées ou veuves,
et les mères célibataires ou divorcées. Nous nous limitons ici aux résultats de ce dernier groupe, pour lequel nous avons généré un arbre séparé
pour chacune des trois régions linguistiques principales. Les arbres obtenus font apparaı̂tre des différences culturelles fondamentales entre régions.
Du point de vue méthodologique, la principale difficulté de cet usage non
classificatoire des arbres concerne leur validation, puisque le taux d’erreur
de classification généralement retenu perd tout son sens dans ce contexte.
Nous commentons cet aspect et illustrons l’usage d’alternatives plus pertinentes et facilement calculables.
1
Introduction
Les arbres de décision sont, depuis leur popularisation par Breiman et al. (1984),
devenus des outils multivariés privilégiés pour prédire la valeur de variables continues
ou la classe de variables catégorielles à partir d’un ensemble de prédicteurs. On parle
d’arbre de régression quand l’attribut à prédire est quantitatif et d’arbre de classification lorsqu’il est catégoriel. Bien que leur but premier soit la prédiction et la classification, les arbres présentent bien d’autres intérêts, comme méthode exploratoire pour
partitionner et identifier des structures locales dans les bases de données, mais aussi
comme alternative aux méthodes statistiques classiques comme la régression linéaire
ou logistique par exemple (Wilkinson, 1992).
Cette contribution illustre cet usage non-classificatoire des arbres de classification
en présentant une application réelle sur des données relatives à la participation féminine
7
RNTI-E-3
Notion de sémantiques bien-formées
pour les règles
Marie Agier∗,∗∗ , Jean-Marc Petit∗∗
∗
DIAGNOGENE
83, avenue Charles de Gaulle
15000 Aurillac
∗∗
LIMOS, UMR 6158 CNRS
Univ. Clermont-Ferrand II
63177 Aubière
Résumé. La notion de règles entre attributs est très générale, allant des
règles d’association en fouille de données aux dépendances fonctionnelles
(DF) en bases de données. Malgré cette diversité, la syntaxe des règles
est toujours la même, seule leur sémantique diffère. Pour une sémantique
donnée, en fonction des propriétés induites, des techniques algorithmiques
sont mises en oeuvre pour découvrir les règles à partir des données. A partir d’un ensemble de règles, il est aussi utile en pratique de raisonner sur
ces règles, comme cela est le cas par exemple avec les axiomes d’Armstrong
pour les dépendances fonctionnelles. Dans cet article, nous proposons un
cadre qui permet de s’assurer qu’une sémantique donnée pour les règles
est bien-formée, i.e. les axiomes d’Armstrong sont justes et complets pour
cette sémantique. Les propositions faites dans ce papier proviennent du
contexte applicatif de l’analyse de données de biopuces. A partir de plusieurs sémantiques pour les données d’expression de gènes, nous montrons
comment ces sémantiques s’intègrent dans le cadre présenté.
1
Introduction
Les biopuces permettent aujourd’hui aux biologistes de mesurer l’expression de
milliers de gènes simultanément et un des défis majeurs fixé à présent est de comprendre
les réseaux de régulation géniques, i.e. de découvrir les interactions entre les différents
gènes.
Dans le cadre de nos travaux, nous nous intéressons à définir des règles entre les
gènes à partir de données d’expression de gènes, étant entendu que ces règles forment
un modèle possible d’un réseau de régulation. Ces données sont à valeurs réelles, chaque
valeur représentant le niveau d’expression d’un gène pour une expérience (ou biopuce)
particulière.
La notion de règles entre attributs est très générale, allant des règles d’association en
fouille de données aux dépendances fonctionnelles en bases de données. Malgré cette
diversité, la syntaxe des règles est toujours la même, seule leur sémantique diffère.
Pour une sémantique donnée, en fonction des propriétés induites, des techniques algorithmiques sont mises en oeuvre pour découvrir les règles à partir des données
[Agrawal et Srikant, 1994, Lopes et al., 2002, Morishita et Sese, 2000].
A partir d’un ensemble de règles, il est aussi très utile en pratique de pouvoir
19
RNTI-E-3
Une Approche Filtre pour la Sélection de Variables
en Apprentissage Non Supervisé
∗
Pierre-Emmanuel JOUVE ∗ , Nicolas NICOLOYANNIS ∗
LABORATOIRE ERIC, Université Lumière - Lyon2, http://eric.univ-lyon2.fr
Bâtiment L, 5 av. Pierre Mendès-France
69 676 BRON cedex FRANCE
[email protected], [email protected]
Résumé. La Sélection de Variable (SV) constitue une technique efficace
pour réduire la dimension des espaces d’apprentissage et s’avère être une
méthode essentielle pour le pré-traitement de données afin de supprimer les variables bruitées et/ou inutiles. Peu de méthodes de SV ont été
proposées dans le cadre de l’apprentissage non supervisé, et, la plupart
d’entre elles, sont des méthodes dites ”enveloppes” nécessitant l’utilisation d’un algorithme d’apprentissage pour évaluer les sous ensembles de
variables. Or, l’approche ”enveloppe” est largement mal adaptée à une
utilisation lors de cas ”réels”. En effet, d’une part ces méthodes ne sont
pas indépendantes vis à vis des algorithmes d’apprentissage non supervisé
qui nécessitent le plus souvent de fixer un certain nombre de paramètres ;
mais surtout, il n’existe pas de critères bien adaptés à l’évaluation de
la qualité d’apprentissage non supervisé dans des sous espaces différents.
Nous proposons et évaluons dans ce papier une méthode ”filtre” et donc
indépendante des algorithmes d’apprentissage non supervisé. Cette méthode
s’appuie sur deux indices permettant d’évaluer l’adéquation entre deux
ensembles de variables (entre deux sous espaces).
1
Introduction
La grande dimensionnalité de l’espace de représentation des données est un problème
commun en apprentissage. La Sélection de Variables (SV) permet de déterminer quelles
sont les variables pertinentes et constitue ainsi une technique efficiente pour la réduction
de la dimension. Une variable pertinente pour une tâche d’apprentissage peut être
définie comme une variable dont la suppression dégrade de manière significative la
qualité de l’apprentissage réalisé. La suppression des variables non pertinentes permet
donc la réduction de dimensionnalité, et, peut simultanément impliquer un accroissement de la précision et de la compréhensibilité des modèles bâtis. Il existe deux
contextes principaux pour l’apprentissage : l’apprentissage supervisé et l’apprentissage
non supervisé (clustering). S’il existe nombre de méthodes pour la SV dans le contexte
supervisé (Dash et al. 1997), il n’existe que peu de méthodes (la plupart étant récentes)
pour le contexte non supervisé. Cela peut être expliqué par le fait qu’il est plus aisé de
sélectionner des variables pour l’apprentissage supervisé que pour le clustering. Dans le
cadre supervisé, ce qui doit être appris est ”connu a priori” alors que cela n’est pas le cas
pour le clustering, dès lors, déterminer les variables pertinentes pour cette tâche peut
être ardu. Le processus de SV pour le clustering peut être vu comme le processus de
31
RNTI-E-3
Forage distribué des données : une comparaison entre
l’agrégation d’échantillons et l’agrégation de règles
M. Aounallah∗ , S. Quirion∗∗∗ et G. Mineau∗∗
Département d’informatique et de génie logiciel
Département de génie électrique et de génie informatique
Pavillon Adrien-Pouliot, Université Laval
G1K 7P4, Canada
∗
[email protected],
http ://w3.ift.ulaval.ca/∼moaoa
∗∗
[email protected],
http ://www.ift.ulaval.ca/Personnel/prof/Mineau.htm
∗∗∗
[email protected]
∗ & ∗∗
∗∗∗
Résumé. Pour nous attaquer au problème du forage de très grandes
bases de données distribuées, nous proposons d’étudier deux approches.
La première est de télécharger seulement un échantillon de chaque base de
données puis d’y effectuer le forage. La deuxième approche est de miner
à distance chaque base de données indépendamment, puis de télécharger les modèles résultants, sous forme de règles de classification, dans un
site central où l’agrégation de ces derniers est réalisée. Dans cet article,
nous présentons une vue d’ensemble des techniques d’échantillonnage les
plus communes. Nous présentons ensuite cette nouvelle technique de forage distribué des données où la mécanique d’agrégation est basée sur
un coefficient de confiance attribué à chaque règle et sur de très petits
échantillons de chaque base de données. Le coefficient de confiance d’une
règle est calculé par des moyens statistiques en utilisant le théorème limite centrale. En conclusion, nous présentons une comparaison entre les
meilleures techniques d’échantillonnage que nous avons trouvées dans la
littérature, et notre approche de forage distribué des données (FDD) basée
sur l’agrégation de modèles.
1
Introduction
Ce papier traite du problème de forage de plusieurs bases de données gigantesques
et géographiquement distribuées, en présentant et en comparant deux techniques de
forage de données. La première technique que nous avons examinée utilise un échantillon de taille raisonnable de chaque base de données, auxquels, une fois agrégés, nous
appliquons une technique de forage de données. Cette technique relève de l’agrégation
de données. Dans cette perspective, nous avons étudié les techniques d’échantillonnage
existantes. Une description de ces dernières ainsi qu’une comparaison empirique sont
présentées plus loin dans cet article.
La deuxième technique de forage de données, que nous introduisons (basée sur
l’agrégation de modèles), se propose d’appliquer individuellement sur chaque base de
43
RNTI-E-3
Extraction bayésienne et intégration de patterns
représentés suivant les K plus proches voisins pour
le go 19x19
Bruno Bouzy∗ , Guillaume Chaslot∗
Université Paris 5, C.R.I.P.5
45, rue des Saints-Pères 75270 Paris Cedex 06 France
[email protected],
http ://www.math-info.univ-paris5.fr/∼bouzy
∗∗
Ecole Centrale de Lille
Cité Scientifique - BP 48, 59651 Villeneuve d’Ascq Cedex
[email protected]
∗
Résumé. Cet article décrit la génération automatique et l’utilisation
d’une base de patterns pour le go 19x19. La représentation utilisée est
celle des K plus proches voisins. Les patterns sont engendrés en parcourant des parties de professionnels. Les probabilités d’appariement et de jeu
des patterns sont également estimées à ce moment là. La base créée est
intégrée dans un programme existant, Indigo. Soit elle est utilisée comme
un livre d’ouvertures en début de partie, soit comme une extension des
bases pré-existantes du générateur de coups du programme. En terme de
niveau de jeu, le gain résultant est estimé à 15 points en moyenne.
1
Introduction
Le facteur de branchement et la longueur d’une partie interdisant la recherche
arborescente globale au go et l’évaluation de positions non terminales étant difficile
[14], la programmation du jeu de go est une tâche difficile pour l’informatique [15, 13].
Cependant, la programmation du go est un terrain d’expériences approprié pour l’IA
[8]. Indigo [7], programme de go développé dans l’esprit de valider des méthodes d’IA,
est composé d’un module Monte Carlo (MC) et d’un module basé sur des connaissances.
Le module MC a été décrit récemment [9, 4], et le module basé sur les connaissances a
été décrit dans des travaux antérieurs à 2003 [8, 5, 6]. La figure 1 donne un aperçu du
processus de choix du coup à jouer dans Indigo. Le module basé sur les connaissances
fournit ns coups au module MC qui, en vue de sélectionner le meilleur coup, joue
un grand nombre de parties aléatoires jusqu’au bout et commençant par l’un de ces
coups et calcule des moyennes. Le module basé sur les connaissances est donc un préprocesseur du module MC.
L’amélioration du module basé sur les connaissances est l’objet de cet article. Ce
module comprend plusieurs bases de “patterns” construits à la main. Les bases de
connaissances construites à la main ont plusieurs désavantages : elles contiennent des
erreurs, elles ont des lacunes et elles ne peuvent pas être mises à jour facilement. Par
ailleurs, les multiples bases de connaissances dans Indigo ne partagent pas le même
format : la première (Forme M) contient des caractéristiques dépendantes du domaine
55
RNTI-E-3
Arbres de décision sur des données de type intervalle :
évaluation et comparaison
Chérif Mballo
*
**
*,**
& Edwin Diday
**
ESIEA Recherche, 38 Rue des Docteurs Calmette et Guérin 53000 Laval France
[email protected]
LISE-CEREMADE, Université Paris Dauphine, Place du Maréchal de Lattre de Tassigny,
75775 Paris cedex 16, France
[email protected]
Résumé. Le critère de découpage binaire de Kolmogorov-Smirnov nécessite
un ordre total des valeurs prises par les variables explicatives. Nous pouvons
ordonner des intervalles fermés bornés de nombres réels de différentes façons.
Notre contribution dans cet article consiste à évaluer et à comparer des arbres
de décision obtenus sur des données de type intervalle à l’aide du critère de
découpage binaire de Kolmogorov-Smirnov étendu à ce type de données
(Mballo et al. 2004). Pour ce faire, nous axons notre attention sur le taux
d’erreur mesuré sur l’échantillon de test. Pour estimer ce paramètre, nous
divisons aléatoirement chaque base de données en deux parties égales en terme
d’effectif (à un objet près) pour construire deux arbres. Ces deux arbres sont
d’abord testés par un même échantillon puis par deux échantillons différents.
1
Introduction
Dans le domaine de la discrimination par arbre de décision binaire, les variables
explicatives sont souvent quantitatives ou qualitatives classiques. Le critère de découpage
binaire de Kolmogorov-Smirnov a été introduit par (Friedman 1977 ; Utgoff et Clouse 1996)
pour une partition binaire à expliquer avec des variables explicatives quantitatives classiques.
Ce critère a été étendu aux variables explicatives qualitatives classiques par (Asseraf 1998).
Cependant, depuis quelques années, avec l’avènement de l’analyse des données symboliques
(Bock et Diday 2000), on assiste à la mise au point de méthodes de construction d'
arbres de
décision sur des données symboliques, notamment de type intervalle et histogramme (Périnel
1996 ; Yapo 2002). Ces auteurs utilisent les critères de découpage classiques (entropie, Gini,
gain ratio, likelihood) pour construire l’arbre de décision. Nous privilégions ici la méthode
basée sur le critère de découpage binaire de Kolmogorov-Smirnov. Ce critère est basé sur un
ordre total des valeurs prises par les variables explicatives. Nous pouvons ordonner des
intervalles fermés bornés de ℜ (ensemble des nombres réels) de différentes façons (Diday et
al. 2003) et chacune des relations d’ordre proposées est totale sur l’ensemble des intervalles
fermés bornés. Nous présentons ici une approche exploratoire de construction d’arbres de
décision. Cette approche consiste à construire un arbre pour chaque ordre et à comparer ces
arbres obtenus selon le taux d’erreur réel mesuré sur l’échantillon de test. Pour estimer ce
paramètre, nous utilisons l’approche suivante : chaque base de données utilisée est divisée
aléatoirement en deux parties pour construire deux arbres et ces arbres sont d’abord testés
par un même échantillon puis par deux échantillons différents (section 5). Comme les
67
RNTI-E-3
Validation statistique des cartes de Kohonen en
apprentissage supervisé
Elie Prudhomme, Stéphane Lallich
Laboratoire E.R.I.C, Université Lumière Lyon 2
5, avenue Pierre Mendès-France, 69676 BRON Cedex France
[email protected], [email protected]
Résumé. En apprentissage supervisé, la prédiction de la classe est le but
ultime. Plus largement, on attend d'une bonne méthodologie d'apprentissage qu'elle permette une représentation des données susceptible de
faciliter la navigation de l'utilisateur dans la base d'exemples et d'aider
au choix des exemples et des variables pertinents tout en assurant une prédiction de qualité dont on comprenne les ressorts. Diérents travaux ont
montré l'aptitude des graphes de voisinage issus des prédicteurs à fonder
une telle méthodologie, ainsi le graphe des voisins relatifs de Toussaint.
Cependant, la complexité de leur construction, en O(n3 ), reste élevée.
Dans le cas de données volumineuses, nous proposons de substituer aux
graphes de voisinage les cartes de Kohonen construites sur les prédicteurs.
Après un bref rappel du principe des cartes de Kohonen en apprentissage non supervisé, nous montrons comment celles-ci peuvent fonder une
stratégie d'apprentissage optimisée. Nous proposons ensuite d'évaluer la
qualité de cette stratégie par une statistique originale qui est étroitement
corrélée au taux d'erreur en généralisation. Diérentes expérimentations
montrent la faisabilité de cette approche. On dispose alors d'un critère
able pour sélectionner les individus et les attributs pertinents.
Mots-clefs : apprentissage supervisé, cartes de Kohonen, validation statistique
1 Position du problème
Les méthodes d'apprentissage supervisé d'une variable catégorielle ont pour objet
in ne la prédiction de la classe d'appartenance d'un nouvel exemple à partir d'un
échantillon d'exemples étiquetés. En fait, la prédiction n'est qu'une étape de la procédure d'apprentissage, qui est enrichie par l'analyse exploratoire des données tout à la
fois pour les préparer au mieux et pour leur donner du sens en intégrant d'éventuelles
informations contextuelles.
Dans une telle perspective, le recours aux graphes de voisinage apporte une solution ecace. On construit le graphe de voisinage issu des prédicteurs, par exemple
le graphe des voisins relatifs de Toussaint (Toussaint et Menard, 1980), puis l'on colorie les sommets du graphe en fonction de leur classe d'appartenance. Pour trouver
la classe d'un nouvel exemple, on insère celui-ci dans le graphe de voisinage et on
lui attribue la classe majoritaire parmi ses voisins dans le graphe. Divers travaux ont
proposé une statistique (le poids des arêtes coupées) qui évalue la capacité prédictive
d'un graphe de voisinage et permet la sélection de variables pertinentes ou la détection
79
RNTI-E-3
Un critère d’évaluation pour la sélection de variables
Dahbia Semani, Carl Frélicot, Pierre Courtellemont
Laboratoire d’Informatique – Image – Interaction
Université de La Rochelle, Avenue Michel Crépeau, 17042 La Rochelle Cedex, France
{dahbia.semani,carl.frelicot,pierre.courtellemont}@univ-lr.fr
Résumé. Cet article aborde le problème de la sélection de variables dans
le cadre de la classification supervisée. Les méthodes de sélection reposent
sur un algorithme de recherche et un critère d’évaluation pour mesurer la
pertinence des sous-ensembles potentiels de variables. Nous présentons un
nouveau critère d’évaluation fondé sur une mesure d’ambiguı̈té. Cette mesure est fondée sur une combinaison d’étiquettes représentant le degré de
spécificité ou d’appartenance aux classes en présence. Les tests menés sur
de nombreux jeux de données réels et artificiels montrent que notre méthode est capable de sélectionner les variables pertinentes et d’augmenter
dans la plupart des cas les taux de bon classement.
1
Introduction
En reconnaissance des formes, les données sont des vecteurs réalisations de variables
qui correspondent à des mesures réalisées sur un système physique ou à des informations
collectées lors d’une observation d’un phénomène. Ces variables ne sont pas toutes aussi
informatives : elles peuvent correspondre à du bruit, être peu significatives, corrélées
ou non pertinentes pour la tâche à réaliser. La sélection de variables a pour objectif de
réduire le nombre de ces variables et donc réduire la taille des informations à traiter.
Des traitements plus sophistiqués peuvent alors être utilisés dans des espaces de dimension réduite, l’étape d’apprentissage est facilitée, les performances peuvent augmenter
lorsque les variables non pertinentes ou redondantes disparaissent, etc.
Nous traitons, dans cet article, le problème de la sélection de variables dans le
cadre de la reconnaissance de formes statistique et plus particulièrement dans le cadre
de la classification supervisée (ou classement). Dans ce cas, la sélection de variables a
pour objectif de réduire la complexité en sélectionnant le sous-ensemble de variables
de taille minimale sans que les performances de la règle de classement diminuent trop
voire même augmentent.
Une méthode de sélection repose sur un algorithme de recherche et un critère d’évaluation pour mesurer la pertinence des sous-ensembles potentiels de variables. Nous
nous intéressons aux critères d’évaluation. Ainsi, nous proposons un nouveau critère
d’évaluation fondé sur une mesure d’ambiguı̈té. Cette mesure repose sur la combinaison d’étiquettes représentant le degré de spécificité ou d’appartenance aux classes en
présence. Des opérateurs d’agrégation issus de la logique floue sont utilisés pour la
combinaison de ces étiquettes.
Cet article est organisé comme suit. Un bref état de l’art sur les algorithmes de
sélection de variables et les critères d’évaluation est dressé aux sections 2 et 3. Nous
91
RNTI-E-3
Analyse stochastique de séquences d'événements discrets pour
la découverte de signatures
Philippe Bouché, Marc Le Goc
LSIS, UMR CNRS 6168, Domaine Universitaire St Jérôme,
13397 Marseille cedex 20, France
[email protected]; [email protected]
Résumé. Cet article concerne la découverte de signatures (ou modèles de
chroniques) à partir d’une séquence d'événements discrets (alarmes) générée
par un agent cognitif de surveillance (Monitoring Cognitive Agent ou MCA).
Considérant un couple (Processus, MCA) comme un générateur stochastique
d’événements discrets, deux représentations complémentaires permettent de
caractériser les propriétés stochastiques et temporelles d’un tel générateur : une
chaîne de Markov à temps continu et une superposition de processus de
Poisson. L’étude de ces deux représentations duales permet de découvrir des
« signatures » décrivant les relations stochastiques et temporelles entre
événements dans une séquence. Ces signatures peuvent alors être utilisées pour
reconnaître des comportements spécifiques, comme le montre l’application de
l’approche à un outil de production industriel piloté par un système Sachem, le
MCA développé et utilisé par le groupe Arcelor pour aider au pilotage de ses
outils de production.
1
Introduction
Système de supervision
Instrumentation Instrumentation
(Actionneurs)
(capteurs)
Processus
Nos travaux concernent les systèmes à base de connaissances de surveillance des
processus dynamiques, appelés « Monitoring Cognitive Agent » par la suite (figure 1). Ces
systèmes décrivent les évolutions du processus surveillé au moyen d’événements qui, selon
le contexte, peuvent être qualifiés d’alarmes (ou d’avertissements) et adressés à l’Opérateur
(Le Goc et Frydman, 2004). Les événements sont produits suivant un principe de
discrétisation spatiale qui consiste à positionner le niveau d’un signal dans un ensemble
d’intervalles de valeurs ou plages. Un événement est généré lorsqu’un signal entre dans une
nouvelle plage.
Actions
Optimiser le comportement
du processus
Données
processus
M.C.A.
Operator
Operator
Operator
Operator
Operator
Opérateur
Événements
Génération d’événements en ligne
Analyse événementielle hors ligne
ELP Lab
Expert
Modèles de comportement
FIG. 1- Monitoring Cognitive Agent
103
RNTI-E-3
Acquisition et exploitation de connaissances
dans un contexte multi-experts
pour un système d’aide à la décision
Jean-Robert Kala Kamdjoug∗,∗∗
Philippe Lenca∗∗
Jean-Pierre Barthélemy∗∗,∗∗∗
∗
Université Catholique d’Afrique Centrale
BP 11628, Yaoundé, Cameroun
∗∗
GET ENST Bretagne / Département LUSSI – CNRS TAMCIC
Technopôle de Brest Iroise - CS 83818
29238 Brest Cedex, France
{prenom.nom}@enst-bretagne.fr,
∗∗∗
CAMS / UMR CNRS 8557
Ecole des Hautes Etudes en Sciences Sociales, Paris
Résumé. Nous présentons une méthodologie d’extraction, de gestion et
d’exploitation de connaissances dans un contexte multi-experts. Elle repose sur trois étapes : extraction des connaissances de chaque expert, gestion des connaissances individuelles afin de constituer une base de connaissances commune et exploitation de cette base afin de fournir une aide à la
décision aux experts. La méthodologie proposée a été mise en œuvre au
Cameroun avec cinq experts en microfinance. Elle a donné des résultats en
adéquation avec les pratiques des experts. Au-delà, on envisage de mettre
en œuvre un système de capitalisation des connaissances. Il doit permettre
d’analyser rapidement un plus grand nombre de situations, les experts restant en nombre limité, et contribuer à un transfert de compétences pour
former les décideurs locaux. En effet, les experts sont en général membres
d’ong et restent rarement plus de deux ans sur place.
1
Introduction
La microfinance fait référence à des services financiers d’épargne, de crédit et d’assurance destinés aux personnes à faible revenu exclues des systèmes financiers classiques. Ces services sont fournis par les emf (Etablissements de MicroFinance) qui les
complètent par des programmes de formation à la gestion destinés aux clients promoteurs de microentreprise.
De nos jours, le microcrédit est un des outils sur lesquels la communauté internationale fonde un réel espoir de réduction de la pauvreté dans le monde et particulièrement en Afrique subsaharienne où vivent plus de 18,8% des personnes à faible
revenu (World-Bank, 2001).
D’après les statistiques du Consultative Group to Assist the Poorest, seul 1% des
7000 emf recensés dans le monde en 2003 saurait grandir sans avoir besoin des subventions permanentes.
115
RNTI-E-3
Apprentissage de structure des réseaux bayésiens et
données incomplètes
Olivier François et Philippe Leray
INSA Rouen - Laboratoire PSI - FRE CNRS 2645
BP 08 - Av. de l’Université, 76801 St-Etienne du Rouvray Cedex
{Olivier.Francois, Philippe.Leray}@insa-rouen.fr
http ://bnt.insa-rouen.fr
Résumé. Le formalisme des modèles graphiques connait actuellement un essor dans
les domaines du machine learning. En particulier, les réseaux bayésiens sont capables
d’effectuer des raisonnements probabilistes à partir de données incomplètes alors
que peu de méthodes sont actuellement capables d’utiliser les bases d’exemples incomplètes pour leur apprentissage. En s’inpirant du principe de ams-em proposé par
(Friedman, 1997) et des travaux de(Chow & Liu, 1968), nous proposons une méthode
permettant de faire l’apprentissage de réseaux bayésiens particuliers, de structure arborescente, à partir de données incomplètes. Une étude expérimentale expose ensuite
des résultats préliminaires qu’il est possible d’attendre d’une telle méthode, puis
montre le gain potentiel apporté lorsque nous utilisons les arbres obtenus comme
initialisation d’une méthode de recherche gloutonne comme ams-em.
1
Introduction
La détermination d’un réseau bayésien B = (G, θ) nécessite la définition d’un graphe acyclique dirigé (dag) G dont les sommets représentent un ensemble de variables aléatoires X =
{X1 , · · · , Xn } (la structure), et de matrices de probabilités conditionnelles du nœud i connaissant
l’état de ses parents P a(Xi ) dans G, θi = [P(Xi /XP a(Xi ) )] (les paramètres).
De nombreuses méthodes d’apprentissage de structure de réseaux bayésiens ont vu le jour ces
dernières années. Alors qu’il est possible de faire de l’apprentissage de paramètres de réseaux
bayésiens à partir de données incomplètes et que l’inférence dans les réseaux bayésiens est possible même lorsque peu d’attributs sont observés (Jensen, 1996, Pearl, 1998, Naı̈m et al., 2004),
les algorithmes d’apprentissage de structure avec des données incomplètes restent rares.
Il est possible de différencier trois types de données manquantes selon le mécanisme qui les
a générées. Le premier type représente les données manquantes au hasard (mar, missing at random). Dans ce cas, la probabilité qu’une variable ne soit pas mesurée ne dépend que de l’état
de certaines autres variables observées. Lorsque cette probabilité ne dépend plus des variables
observées, les données manquantes sont dites mcar (missing completely at random). Par contre
lorsque la probabilité qu’une variable soit manquante dépend à la fois de l’état de certaines autres
variables observées mais également de phénomènes extérieurs, les données sont dites nmar.
Par la suite, nous supposerons que nous sommes en présence d’une base de données incomplètes
suivant un mécanisme mar ou mcar. Ainsi, nous possédons toute l’information nécessaire pour
estimer la distribution des données manquantes dans la base d’exemples.
Lorsque les données sont incomplètes, il est possible de déterminer les paramètres et la structure
du réseau bayésien à partir des entrées complètes de la base. Comme les données manquantes sont
supposées l’être aléatoirement, nous construisons ainsi un estimateur sans biais. Néanmoins, dans
l’exemple d’une base de 2000 cas sur 20 attributs, avec une probabilité de 20% qu’une mesure soit
manquante, nous ne disposerons en moyenne que de 23 cas complets. Les autres données à notre
disposition ne sont donc pas négligeables et il serait donc préférable de faire l’apprentissage en
utilisant toute l’information à laquelle nous avons accès.
Un avantage des réseaux bayésiens est qu’il suffit que seules les variables X i et P a(Xi ) soient
observées pour estimer la table de probabilité conditionnelle correspondante. Dans ce cas, il est
alors possible d’utiliser tous les exemples (même incomplets) où ces variables sont observées (dans
127
RNTI-E-3
Apprentissage de scénarios à partir de séries
temporelles multivariées
Thomas Guyet∗ , Catherine Garbay∗ , Michel Dojat∗∗
∗
Laboratoire TIMC, Equipe SIC
{Thomas.Guyet, Catherine.Garbay}@imag.fr
http ://www-timc.imag.fr/Thomas.Guyet/
∗∗
Unité Mixte INSERM/UJF U594
[email protected]
La construction automatique de scénarios à partir des signaux (séries temporelles)
produits par les appareils de surveillance de patients en anesthésie réanimation est
le premier pas vers l’élaboration de systèmes de monitoring intelligent. Mais dans ce
contexte, les connaissances a priori ne sont pas suffisantes pour orienter efficacement
un apprentissage à partir des données complexes que sont les séries temporelles. Nous
proposons donc une approche hors ligne non supervisée et limitant l’introduction de
biais afin de faire émerger des scénarios. Nous définissons pour cela le cadre d’un
système multi-agents (SMA) s’appuyant sur une forte interaction entre une phase de
traduction dynamique des séries numériques en séries symboliques temporelles et une
phase d’apprentissage à partir de ces séries.
La première phase de construction des séries symboliques est effectuée par des
agents de segmentation, représentant chacun une portion de série délimitée par deux
frontières avec les agents voisins. Les frontières bougent, disparaissent ou sont créées par
interactions entre ces agents. La dynamique, définie par ces interactions, doit permettre
de stabiliser les frontières pour proposer la segmentation d’une série.
Les segments sont alors classés dans un arbre hiérarchique afin d’identifier des
classes typiques de segments. La segmentation et les classes, qui servent de vocabulaire,
permettent de construire la série symbolique temporelle.
Pour la phase d’apprentissage, on définit la notion d’explication d’une classe permettant de superviser artificiellement l’apprentissage. On repère dans les séries symboliques
exemples toutes les occurrences d’une classe à expliquer, et on prend comme exemples
d’apprentissage les séries de symboles situés dans une fenêtre temporelle précédant une
occurrence. Un algorithme inspiré de APriori fait alors l’extraction des motifs les plus
fréquents. On a construit ainsi une règle, sous forme de scénario, ayant comme prémisse
un motif fréquent (explication) et comme conséquence la classe à expliquer.
La construction d’hypothèses permettant de proposer des modifications dynamiques
des résultats de la première phase dans le but d’améliorer la confiance d’une règle
permettra de faire le feed back nécessaire à la correction d’erreurs dans la première
phase et à l’émergence de scénarios.
Le SMA définit un cadre pour faire l’apprentissage de scénarios à partir duquel
différentes méthodes pourront être développées pour chacune des “briques” élémentaires :
segmentation, classification, extraction de motifs symboliques et feed back. Des méthodes
ont été proposées pour les trois premières nous permettant d’être confiants quant à la
construction progressive de scénarios.
133
RNTI-E-3
Élagage et aide à l’interprétation symbolique et graphique
d’une pyramide
Kutluhan Kemal Pak, Mohamed Cherif Rahal, Edwin Diday
CEREMADE – Université Paris Dauphine
Place du Maréchal de Lattre de Tassigny
75775 Paris cedex 16
{Pak, Rahal, Diday}@ceremade.dauphine.fr
www.ceremade.dauphine.fr
Résumé : Le but de ce travail est de faciliter l’interprétation d’une
classification pyramidale construite sur un tableau de données symboliques.
Alors que dans une hiérarchie binaire le nombre de paliers est égal à n-1, si n
est le nombre d’individus à classer, dans le cas d’une pyramide ce dernier peut
atteindre n(n-1)/2. Afin de réduire ce nombre, on élague la pyramide et on
utilise un critère de sélection de paliers basé sur la hauteur. De plus on décrit
tous les paliers retenus par des variables que l’on sélectionne également en
utilisant "le degré de généralité" ainsi que des mesures de dissimilarités de
type symbolique-numérique. L’aide à l’interprétation se sert d’outils
graphiques et interactifs grâce à la bibliothèque OpenGL. Enfin une simulation
montre comment évoluent ces sélections quand le nombre de classes et de
variables croit.
Mots clés . Classification pyramidale. Classification hiérarchique. Données
symboliques. Élagage d’une pyramide. Sélection de variables. Sélection de
classes et description. Interprétation d'une classification.
1. Introduction
La classification automatique a pour but la recherche de groupes homogènes, selon un
critère bien déterminé, la proximité entre les objets à classer par exemple. Les méthodes de
classification automatique sont généralement applicables sur des ensembles de données ou
d’objets décrits par des attributs, les habitants d’une ville, les patients d’un service médical…
etc. Chaque méthode de classification a ses propres objectifs et sa propre représentation :
Arbre, Graphe, Groupement sous forme d’ensembles (Voir (Jain et Dubes (1988))).
Dans le cas de la classification ascendante pyramidale (CAP) qui a été proposée par
(Diday 1984), puis développée par (Bertrand (1986)), (Brito (1991)), (Mfoumoune (1998)),
(Rodriguez (2000)), (Pak (2004)), et (Rahal (2004)) généralisant la classification ascendante
hiérarchique (CAH) (Benzécri (1973)). Il en résulte qu’une représentation en groupes "non
disjoints″ et emboîtés d’une pyramide est plus fidèle et riche en information par rapport aux
données initiales qu’une représentation de type hiérarchique . Rappelons qu’une pyramide P
construite sur un ensemble E = {1,2, …,n} est un ensemble fini de sous-ensembles non vides
{A, B, ….}, (A,B… ⊆ E) tel que : 1) E∈ P (le plus grand palier de la pyramide contient tous
les individus), 2)Tous les singletons {1},{2},…{n} appartiennent à P 3)∀ A,B deux classes de
la pyramide P on a soit A ∩B = ∅ ou A ∩ B ⊂ P. 4) ∃ un ordre θ compatible avec P. Si on
définit un index f(A)≥ 0 pour chaque classe A de P tel que f est isotonique sur P : f(A) ≤ f (B)
135
RNTI-E-3
Un automate pour la génération complète ou
partielle des concepts du treillis de Galois
Ganaël Jatteau, Rokia Missaoui
M. Sarifuddin
Département d’informatique et d’ingénierie
Université du Québec en Outaouais
C.P. 1250, succursale B, Gatineau
Québec, J8X 3X7
{jatg01, Rokia.Missaoui, M.Sarifuddin}@uqo.ca
Résumé. Cet article se situe dans le domaine de l’analyse formelle de
concepts et du treillis de concepts (treillis de Galois) lequel est un cadre
théorique intéressant pour le regroupement conceptuel des données et la
génération des règles d’association. Puisque la prospection de données
(data mining) est utilisée comme support à la prise de décision par des
analystes rarement intéressés par la liste exhaustive (souvent très longue)
des concepts et des règles, l’élaboration d’une solution approximative sera
dans la plupart des cas un compromis satisfaisant et relativement moins
coûteux qu’une solution exhaustive. Dans cet article, on propose une approche appelée CIGA (Closed Itemset Generation using an Automata)
de génération partielle ou complète de concepts par la construction et
le parcours d’un automate à états finis. La génération des concepts permet l’identification des “itemsets” fermés fréquents, étape cruciale pour
l’extraction des règles d’association.
1
Introduction
L’analyse formelle de concepts (treillis de Galois) est un cadre théorique intéressant
pour la prospection de données puisqu’elle permet la génération de concepts et de
règles d’association. Un concept formel est un couple complet qui associe un ensemble
d’objets (extension) à un ensemble d’attributs (intention) permettant ainsi de regrouper
les objets qui ont des caractéristiques communes.
Dans plusieurs applications de prospection de données, la production d’un ensemble
exhaustif de connaissances (règles d’association, concepts) peut être très coûteuse et
comporter plusieurs éléments absolument peu pertinents pour un utilisateur donné.
Aussi, il serait avantageux d’offrir des mécanismes de génération d’un sous-ensemble
de ces connaissances qui pourraient si nécessaire inciter l’utilisateur soit à solliciter
l’affichage d’autres connaissances ou à demander des détails sur les associations et les
concepts issus d’un ensemble plus restreint de données.
La découverte des règles d’association se fait généralement en deux étapes : (i)
la détermination de l’ensemble des “itemsets” fréquents (i.e., ceux dont le support
dépasse un seuil déterminé), puis (ii) la génération des règles d’association à partir des
“itemsets” fréquents obtenus à la première étape.
147
RNTI-E-3
Évaluation des algorithmes LEM et eLEM pour
données continues
F.-X. Jollois ∗ , M. Nadif
∗∗
∗
CRIP5, Université de Paris 5,
45 rue des Saint-Pères,
75270 Paris Cedex 06, France
[email protected]
∗∗
LITA - UFR MIM, Université de Metz,
Ile du Saulcy,
57045 METZ Cedex 1, France
[email protected]
Résumé. Très populaire et très efficace pour l’estimation de paramètres
d’un modèle de mélange, l’algorithme EM présente l’inconvénient majeur de converger parfois lentement. Son application sur des tableaux de
grande taille devient ainsi irréalisable. Afin de remédier à ce problème,
plusieurs méthodes ont été proposées. Nous présentons ici le comportement d’une méthode connue, LEM, et d’une variante que nous avons proposée récemment eLEM. Celles-ci permettent d’accélérer la convergence
de l’algorithme, tout en obtenant des résultats similaires à celui-ci. Dans
ce travail, nous nous concentrons sur l’aspect classification, et nous illustrons le bon comportement de notre variante sur des données continues
simulées et réelles.
1
Introduction
Plusieurs méthodes de classification utilisées sont basées sur une distance ou une
mesure dissimilarité. Or, l’utilisation des modèles de mélange dans la classification est
devenue une approche classique et très puissante (voir par exemple Banfield et Raftery
(1993), et Celeux et Govaert (1995)). En traitant la classification sous cette approche,
l’algorithme EM (Dempster et al., 1977), composé de deux étapes : Estimation et
Maximisation, est devenu quasiment incontournable. Celui-ci est très populaire pour
l’estimation de paramètres. Ainsi, de nombreux logiciels sont basés sur cette approche,
comme Mclust-EMclust (Fraley et Raftery, 1999), EMmix (McLachlan et Peel, 1998),
Mixmod (Biernacki et al., 2001) ou AutoClass (Cheeseman et Stutz, 1996).
Malheureusement, le principal inconvénient de EM réside dans sa lenteur due au
nombre élevé d’itérations parfois nécessaire pour la convergence, ce qui rend son utilisation inappropriée pour les données de grande taille. Ayant testé plusieurs méthodes
(Nadif et Jollois, 2004), nous avons retenu l’algorithme LEM (Thiesson et al, 2001)
qui utilise une étape partielle d’Estimation au lieu d’une étape complète. A partir de
cet algorithme, nous avons cherché à améliorer sa performance et avons proposé une
variante plus efficace, eLEM. Sur des données qualitatives simulées et réelles, les performances de cette nouvelle version ont été très encourageantes. Le principal objectif de
159
RNTI-E-3
Sélection de modèles par des méthodes à noyaux pour la
classification de données séquentielles
Trinh Minh Tri Do, Thierry Artières, Patrick Gallinari
LIP6, Université Pierre et Marie Curie
{Prénom.Nom}@lip6.fr
Ce travail concerne le développement de méthodes de classification
discriminantes pour des données séquentielles. Quelques techniques ont été
proposées pour étendre aux séquences les méthodes discriminantes, comme les
machines à vecteurs supports, par nature plus adaptées aux données en
dimension fixe. Elles permettent de classifier des séquences complètes mais
pas de réaliser la segmentation, qui consiste à reconnaître la séquence d’unités,
phonèmes ou lettres par exemple, correspondant à un signal. En utilisant une
correspondance donnée / modèle nous transformons le problème de
l’apprentissage des modèles à partir de données par un problème de sélection
de modèles, qui peut être attaqué via des méthodes du type machines à
vecteurs supports. Nous proposons et évaluons divers noyaux pour cela et
fournissons des résultats expérimentaux pour deux problèmes de classification.
1
Introduction
Cette étude concerne l’intégration d’une information discriminante dans des systèmes de
classification de données reposant sur des modèles génératifs et plus spécifiquement sur des
mélanges de modèles génératifs. Dans la majorité des tâches de classification, on dispose de
deux possibilités principales sur la nature de l’approche à employer, l’approche
discriminante et l’approche générative. On peut utiliser un modèle discriminant -- réseau de
neurones, classifieur linéaire, machine à vecteurs supports (MVS) -- dont l’apprentissage est
focalisé sur ce qui différencie les différentes classes. D’un point de vue probabiliste, cela
correspond à apprendre les lois de probabilités a posteriori des classes. La plupart de ces
techniques discriminantes sont adaptées à des données en dimension fixe et sont plus
délicates à utiliser avec des données séquentielles, de taille variable, comme la parole,
l’écriture, etc. Une autre approche consiste à modéliser les classes indépendamment les unes
des autres, et à apprendre pour chacune un modèle correspondant à sa densité de probabilité
(e.g. modèle gaussien, modèle de Markov) avec un critère du type Maximum de
Vraisemblance. On utilise un modèle génératif par classe, où chaque modèle est appris
indépendamment des autres avec les données de sa classe. Ensuite, via le théorème de Bayes,
on peut se ramener aux probabilités a posteriori et donc construire un système de
classification optimal.
En règle générale, l’approche discriminante est plus performante. Cependant, on peut
avoir intérêt à employer des mélanges de modèles génératifs dans certaines conditions. Les
mélanges de modèles sont particulièrement adaptés lorsque les classes sont fortement
multimodales (par exemple en écriture manuscrite, un « b » peut être écrit de différentes
façons, on parle d’allographes). Les modèles génératifs sont eux particulièrement
intéressants lorsque les données sont de dimension variable. Ce dernier cas correspond à
165
RNTI-E-3
SSC : Statistical Subspace Clustering
Laurent Candillier1,2 , Isabelle Tellier1 , Fabien Torre1 , Olivier Bousquet2
1
GRAppA - Université Charles de Gaulle - Lille 3
[email protected]
http ://www.grappa.univ-lille3.fr
2
Pertinence - 32 rue des Jeûneurs -75002 Paris
[email protected]
http ://www.pertinence.com
Résumé. Cet article se place dans le cadre du subspace clustering, dont la
problématique est double : identifier simultanément les clusters et le sousespace spécifique dans lequel chacun est défini, et caractériser chaque cluster par un nombre minimal de dimensions, permettant ainsi une présentation
des résultats compréhensible par un expert du domaine d’application.
Les méthodes proposées jusqu’à présent pour cette tâche ont le défaut de
se restreindre à un cadre numérique. L’objectif de cet article est de proposer un algorithme de subspace clustering capable de traiter des données
décrites à la fois par des attributs continus et des attributs catégoriels.
Nous présentons une méthode basée sur l’algorithme classique EM mais
opérant sur un modèle simplifié des données et suivi d’une technique originale de sélection d’attributs pour ne garder que les dimensions pertinentes de chaque cluster. Les expérimentations présentées ensuite, menées
sur des bases de données aussi bien artificielles que réelles, montrent que
notre algorithme présente des résultats robustes en termes de qualité de
la classification et de compréhensibilité des clusters obtenus.
Introduction
Face aux quantités d’informations qui ne cessent d’augmenter dans les bases de
données du monde entier, l’extraction automatique de connaissances à partir de ces
bases et les techniques de visualisation des résultats sont devenues indispensables. C’est
la raison d’être de la fouille de données. Dans ce cadre, l’apprentissage non supervisé
(ou clustering) est depuis longtemps utilisé pour identifier les groupes (ou clusters)
d’éléments similaires (cf. survey de Berkhin 2002). Une problématique supplémentaire
apparaı̂t face à des bases de données de grande dimensionnalité : dans ce cas, les groupes
peuvent être caractérisés uniquement par certains sous-ensembles de dimensions et
ces dimensions pertinentes peuvent être différentes d’un groupe à l’autre. Sur de tels
problèmes, les techniques classiques de clustering fonctionnent mal car, fondées sur une
distance entre objets définie globalement dans l’espace de description, elles ne peuvent
pas appréhender le fait que la notion de similarité varie d’un groupe à l’autre.
Une nouvelle problématique a donc émergé récemment, celle du subspace clustering,
dont l’enjeu est de cibler les groupes d’objets et, pour chacun, le sous-espace spécifique
177
RNTI-E-3
Expériences de classification d’une collection de
documents XML de structure homogène
Thierry Despeyroux∗ , Yves Lechevallier∗
Brigitte Trousse∗∗ , Anne-Marie Vercoustre∗
∗
Inria - Rocquencourt
B.P. 105 - 78153 Le Chesnay Cedex, France
∗∗
Inria - Sophia Antipolis
B.P. 93 - 06902 Sophia Antipolis, France
email : Pré[email protected]
http ://www-rocq.inria.fr/axis/
Résumé. Cet article présente différentes expériences de classification de
documents XML de structure homogène, en vue d’expliquer et de valider
une présentation organisationnelle pré-existante. Le problème concerne le
choix des éléments et mots utilisés pour la classification et son impact sur
la typologie induite. Pour cela nous combinons une sélection structurelle
basée sur la nature des éléments XML et une sélection linguistique basée
sur un typage syntaxique des mots. Nous illustrons ces principes sur la
collection des rapports d’activité 2003 des équipes de recherche de l’Inria
en cherchant des groupements d’équipes (Thèmes) à partir du contenu de
différentes parties de ces rapports. Nous comparons nos premiers résultats
avec les thèmes de recherche officiels de l’Inria.
1
Introduction
Les documents XML sont maintenant incontournables et la classification de ces
documents est un domaine de recherche très actif, en particulier pour définir des
modèles de représentations de documents qui étendent les modèles traditionnels en
tenant compte de la structure du texte (Yi and Dundaresan, 2000), (Denoyer and al.).
Cela revient souvent à considérer que les même mots apparaissant dans des éléments
XML différents sont en fait différents. Ces approches sont génériques, elles peuvent
s’appliquer quelque soit la DTD, alors que notre approche suppose une connaissance
d’une sémantique implicite des éléments pour les sélectionner.
Certaines méthodes de classification réduisent les documents XML à leur partie
purement textuelle, sans prendre avantage de la structure qui pourtant véhicule une
information riche. Nous nous intéressons à l’impact du choix des parties de documents
sélectionnées sur le résultat de la classification, l’idée étant que ces différentes parties participent à différentes vues pouvant mener à des classifications différentes. Nous
pratiquons successivement deux niveaux de sélection : une sélection utilisant la structure du document, puis une sélection linguistique au niveau du texte précédemment
sélectionné. Nous utilisons ensuite un algorithme de classification qui va construire une
partition des documents, affecter les documents à des classes et exhiber la liste des
mots qui ont permis la classification.
183
RNTI-E-3
Semi-Supervised Incremental Clustering of
Categorical Data
Dan Simovici∗
Namita Singla∗∗
∗
University of Massachusetts Boston
Department of Computer Science, Boston, MA 02125, USA
[email protected]
∗∗
University of Massachusetts Boston
Department of Computer Science, Boston, MA 02125, USA
[email protected]
Résumé. Le clustering semi-supervisé combine l’apprentissage supervisé
and non-supervisé pour produire meilleurs clusterings. Dans la phase initiale supervisée de l’algorithme, un échantillon d’apprentissage est produit par selection aléatoire. On suppose que les exemples de l’échantillon
d’apprentissage sont étiquetés par un attribut de classe. Puis, un algorithme incrémentiel développé pour les données catégoriques est utilisé
pour produire un ensemble de clusters pur (tels que les exemple de chaque
cluster ont la même étiquette), qui servent de “seeding clusters” pour la
deuxiéme phase non-supervisée de l’algorithme. Dans cette phase, l’algorithme incrémentiel est appliqué aux données non étiquetées. La qualité du clustering est évaluée par l’index de Gini moyen des clusters. Les
expériences démontrent que des très bons clusterings peuvent être obtenus
avec des petits échantillons d’apprentissage.
1
Introduction
Clustering is a process that aims to partition data into groups that consists of similar
objects. Similarity among objects is measured using some metric defined on the set of
objects or, whenever possible, using pre-existing classifications of objects. In general,
clustering is an unsupervised activity. In other words, clustering takes place without
any intervention of an exterior operator that assigns objects to classes. Assuming that
the class of an object is determined by the other characteristics of the object, a good
clustering algorithm should generate clusters that are as homogeneous as possible.
The core of the clustering algorithm is the incremental construction of a clustering
partition of the set of objects such that that the total distance from this partition to
the partitions determined by the attributes is minimal. A special challenge of clustering
categorical data stems from the fact that no natural ordering exists on the domains of
attributes of objects. This leaves only the Hamming distance as a dissimilarity measure,
a poor choice for discriminating among multi-valued attributes of objects.
Semi-supervised clustering of categorical data entails two phases : the first phase
consists of a supervised process that is applied to a training set obtained randomly
sampling the data set. Clusters are formed using an incremental clustering algorithm
189
RNTI-E-3
Apprentissage non supervisé de séries temporelles à
l’aide des k-Means et d’une nouvelle méthode
d’agrégation de séries
Rémi Gaudin, Nicolas Nicoloyannis
LABORATOIRE ERIC 3038 Université Lumière - Lyon2
Batiment L 5 av. Pierre Mendès-France 69676 BRON cedex FRANCE
[email protected], [email protected]
Résumé. L’utilisation d’un algorithme d’apprentissage non supervisé de
type k-Means sur un jeu de séries temporelles amène à se poser deux
questions : Celle du choix d’une mesure de similarité et celle du choix
d’une méthode effectuant l’agrégation de plusieurs séries afin d’en estimer
le centre (i.e. calculer les k moyennes). Afin de répondre à la première
question, nous présentons dans cet article les principales mesures de similarité existantes puis nous expliquons pourquoi l’une d’entre elles (appelée Dynamic Time Warping) nous paraı̂t la plus adaptée à l’apprentissage non supervisé. La deuxième question pose alors problème car nous
avons besoin d’une méthode d’agrégation respectant les caractéristiques
bien particulières du Dynamic Time Warping. Nous pensons que l’association de cette mesure de similarité avec l’agrégation Euclidienne peut
générer une perte d’informations importante dans le cadre d’un apprentissage sur la ”forme” des séries. Nous proposons donc une méthode originale d’agrégation de séries temporelles, compatible avec le Dynamic Time
Warping, qui améliore ainsi les résultats obtenus à l’aide de l’algorithme
des k-Means.
Mots-clés : Fouille de données et Apprentissage non supervisé, Séries
temporelles, K-Means, Dynamic Time Warping
1
Introduction
Les séries temporelles sont des données ordonnées dans le temps et cet ordonnancement a une signification que l’on ne peut ignorer. Ainsi, on ne peut pas leur appliquer
des méthodes de fouille de données classiques mais bien des méthodes spécialement
adaptées, qui respectent la temporalité de ce type de donnée. Nous nous intéresserons
ici uniquement à l’apprentissage non supervisé à partir des séries temporelles.
L’utilisation d’un algorithme d’apprentissage non supervisé de type ”moyenne mobile” (le plus connu étant les k-Means) sur un jeu de séries temporelles amène à se poser
les questions du choix d’une mesure de distance entre deux séries temporelles et celle
du choix d’une méthode effectuant l’agrégation de plusieurs séries temporelles afin d’en
estimer le centre (i.e. calculer les k moyennes). Afin de répondre à la première question, nous allons dresser l’état des lieux des principales méthodes de comparaison de
séries temporelles déjà existantes (paragraphe 2), puis nous allons discuter l’intérêt de
chacune d’entre elles dans le cadre d’un apprentissage non supervisé (paragraphe 2.4).
201
RNTI-E-3
Classification d’un tableau de contingence et modèle
probabiliste
Gérard Govaert∗ , Mohamed Nadif∗∗
∗
Heudiasyc, UMR CNRS 6599, Université de Technologie de Compiègne,
BP 20529, 60205 Compiègne Cedex, France
[email protected]
∗∗
IUT de Metz, LITA, Université de Metz,
Ile du Saulcy, 57045 Metz Cedex, France
[email protected]
Résumé. Les modèles de mélange, qui supposent que l’échantillon est
formé de sous-populations caractérisées par une distribution de probabilité, constitue un support théorique intéressant pour étudier la classification automatique. On peut ainsi montrer que l’algorithme des k-means
peut être vu comme une version classifiante de l’algorithme d’estimation
EM dans un cas particulièrement simple de mélange de lois normales.
Lorsque l’on cherche à classifier les lignes (ou les colonnes) d’un tableau
de contingence, il est possible d’utiliser une variante de l’algorithme des
k-means, appelé Mndki2, en s’appuyant sur la notion de profil et sur la
distance du khi-2. On obtient ainsi une méthode simple et efficace pouvant s’utiliser conjointement à l’analyse factorielle des correspondances
qui s’appuie sur la même représentation des données.
Malheureusement et contrairement à l’algorithme des k-means classique,
les liens qui existent entre les modèles de mélange et la classification ne
s’appliquent pas directement à cette situation. Dans ce travail, nous montrons que l’algorithme Mndki2 peut être associé, à une approximation
près, à un modèle de mélange de lois multinomiales.
1
Introduction
Les modèles de mélange, qui supposent que l’échantillon est formé de sous-populations caractérisées par une distribution de probabilité, sont des modèles très souples
permettant de prendre en compte des situations variées comme la présence de populations hétérogènes ou d’éléments atypiques. Grâce à l’algorithme d’estimation EM,
particulièrement adapté à cette situation, les modèles de mélange ont fait l’objet de
nombreux développements en statistique et en particulier en classification automatique.
On peut ainsi montrer que l’algorithme des k-means peut être vu comme une version
classifiante de l’algorithme EM, appelé CEM, dans un cas particulièrement simple de
mélange de lois normales. Dans ce travail, on étudie comment ces propriétés peuvent
être étendues aux tableaux de contingence.
Rappelons qu’un tableau de contingence est obtenu à partir du croisement de 2
variables qualitatives ; par exemple, si on note I et J les ensembles de r et s modalités
de chaque variable, chaque élément xij de la matrice de données contiendra le nombre
213
RNTI-E-3
! ! #"$%'& )($( *$+ ( &-, /.
021436587:9<;>=?14@BA14CED?FG367B587BHIHI1J3IKL9NMOMI1
P 3IK8QR1HGST?U60VDNUXWZYURS[0LKL\N=?7:C^]XS/_LHI7:\`K8@B7BM4D
Fa P aNb8cEDNd8efb8dfg*0LKf\E=?7BChSZ_fH67B\`K8@B7:MZ;14i?1TDNj`3OC8_NA1
P 3?14k _NKflma WZKflonM6Kf\N=?7:CNa 7:_N3I7:CNa pq3
r C8_EMZA1\NCf\?7s1t3Z_NKf9NM\N3?14k M614_LHIKL_NM9N_N1A@:C8MOM67vu`A4CwH67sKL_$i?14M369ExN3I7:y29?14Mi?1tM/zZY{|MZ}27BM67sH?1k 1tM
iE9~MI7BHI1€14x~i?1/@‚ UXW/YURS„ƒ^1tk yL9N7B\`14M…i?1Z3I1tA=?143OA=?1>14_~\NCf3IH67BA49?@s7B143†6D^1t_h}?9?1iR1k HO9Ni?7B143@‡ 7:lh\NC8AH
iN1$@BCˆM6H63O9NAHO9N361<iE9‰M67BHI1$€14x‰1Hoi?1$@:CˆM6H63O9NAHO9N3I1<KL3I5LC8_?7:M6C8HI7BKf_N_N1@B@s1mi?1$@‚ UXW/Y/URSŠM69E3h@s1tM
_EC‹}L7B5fC8HI7BKf_NMiN14M7:_LHI1t36_NCf9?HI1tMa P Kf9N3A1@:C~_?Kf9EM/C‹}8KL_NM9?H67s@B7BMN1Œk _?KfH6361Cw@B58KL3I7BH6=El1ŒiN1*;@BCfM6M67suN]
A4CwH67sKL_~S/MOA14_EiNC8_LHI1g‹]XcŽ/714k 3OC83OA=?7:yL9N1ƒX;>=?1@:A1tC1H>Cw@‡aLg8d8dwE†‘yL9N7`5…14k _14’ 361>9N_N1ZM6H63O9NAHO9N3I1\N@B9NM
367:A=?1yL9N1@BCo;>SŽ[A@:C8MOMI7:y29?1ƒ‡ApRa`j7B5f9E3I1h“w†OD?14_<\N3?14k M614_LHOC8_LH>9E_?1ŒAKLl*\N@s1T27BH?1Zk 7:i?14_LH67By29?1ŒM6K87BH
”ƒ‚•‘–@BK85—•†Oa
b c
a 1 2
b
3
3
2
1
0
b a c
2− 3 AHC
b a c
AHC
>˜ ™›šœ “Zož—T?14lh\?@B1i?1;>SŽŸ14Hi?1g‹]Xch;>S/Ž„M69E39N_<\E14HI7BH…QR149<i?1Œi?KL_N_>14k 14M4a
WZKf9NM…C‹}fKf_NM3?14k C8@s7:M?1#k H636K87:MC8_NC8@s ?M614MMO9N3@s1tMu`A=?7B143OM@sKf5\E3IK^}f14_NCf_fHi?1i?149?T*M61436}8149E36M|¡1tx
iN1@‡ UXWZYURSŒD¢M69E3/i?1t92T\14k 367BK2iN14Mi?1'“t£QRKL9N36M¤`C‹}^C8_LH14HZCf\N314’ MG@B1A=NC8_N5814l*1t_fHZi?1@‡ KL3I5LC8_?7s]
MOCwH67sKL_¡MOA7B14_LH67vu`y29?1~i?1h@‡ UXWZYURS14_¥C‹}?367s@…gwdfdw€ƒ‚ApRa§¦^¨X¨R©$ª «t«¬…¬…¬­ ®v¯f°±®B²w­ ³:°I«°X´¶µI¦f´¶°RµI¦f´«w†6a P KL9N3
A@BCfM6M6143/@s1tMZ3O9NxN367:yL9N14M/iN14MzZY{|Mƒ‚iNKf_LHZA1436H6Cw7:_?1tM/3614\N3?14k M614_LH614_LHi?14M1tk yL9N7B\`14MZi?13614A=?1t36A=N1w†
_NKf9NMhC‹}8KL_NM*9?HI7B@s7:M?1'k @‡ 7:_Ni?7:A1$i?1$·fC8AA4C83Oi¸MO9N3*@s1tM*_EC‹}L7B5fC8HI7BKf_NM'ƒq1t_NMI1tlx?@B14Mhi?1tM*z/Y{M†Œi?1tM
7:_LHI1t36_NCf9?HI1tMa¢J|Kf9?Hi CfxEKL36i$_NKf9NMZC‹}8Kf_EMC8_NC8@s ?M?1k HIKL9?HI1tM/@B14MZ369ExN3I7:y29?14M/}27BM67sH?1k 1tMi?1*\N3I1tl*7s1t3
_N7s}f14C89€A1hy29?7—C<3?1k }#1k @1k @‡ 7:lh\NC8AHŒ¹8ºv»L¼O½wºi?1h@:C¾M6H63O9NAHO9N361hiE9¡M67sH61h¡1tx¡MO9N3@B14M_NC‹}27B5fCwH67sKL_NM
iN14MG9?HI7B@B7BMOCwH6149N3OM/ƒ6“4e*A@:C8MOMI1tM#\NCf36l*7V@s1tM“4bAKf_LHI1t_NCw7B14_LH>i?14M~14k y29?7:\`14M>i?13614A=N143OA=?1/iN9¾l¾14¿ l*1
HO=1t’ l1MOA7B14_LHI7su`y29?1ƒX;>=?1@:A1tC14H>J36Kf9NMOMI1gwdfdwN†6†6afž_NMO9?7BHI18D?_?KL9NMGC‹}8KL_NM#AKflh\NC83N1k @:CA@BCfM6M67suN]
A4CwH67sKL_'i?1tM~1tk y29?7B\`14M>i?13I1tA=?143OA=?1/iN1Z@‡ Cf_NA7B14_¾J=1t’ l1coƒ‡\N3I1tl*7‚1t’ 3I1\>1tk 3I7BK?i?1w†§14HiN9'_?KL9?}81tC89
J=14’ l*1¾;K85¥ƒ‡i?1492T?7‚14’ l*1~\>1tk 3I7BK?i?1w†K‘9€’ Cf\N\NCf36C‹¿ÀsH@B1o\N3IK8QR1HŒST2U60Á¤§_NKf9NMŒC‹}fKf_NM\N9ˆl*KL_fHO3I1t3
@‡ 7Blh\NCfAHi?1@:C¾Â¢»^Ã?Ä^źƺsŌÇȂÉÃEÊȂÃ?É6½8ÈqËq»wÂÌÅÂÌÈqÍÅÎ Ï~ÅÇaNj7:_NCw@B14l*14_LH4DN_?Kf9NMC‹}fKf_NMGMO9N39N_¾H6=14’ l*1
iNKf_N_>1k AKflh\NC83N1Zk @s13?14k MO9?@BH6CwHGi?1_?KfH6361C8@s5fKf367sHO=Nl*1i?1Œg^]±c~;>SŽ„C‹}f14A/A1@:9?7‘i?1@:C~;>S/Ž„A@:C8MI]
M67:yL9N1~¤E_?Kf9EMC‹}8KL_NMG\N9<l14HIHO3I11t_Ð1k }27BiN14_NA1iN14M5L3IKL9N\E1tMG\?@B9EM=?Kfl*Kf5E1t’ _?14MGi?1Œ\N36KwQR14H6M4a?W/KLM
HO36C‹}^Cf92T¥AKf9N3OC8_LHOM1Hpq9NH69N3OMAKf_NA143O_?14_LHŒ@‡ 9?HI7B@s7:MOCwHI7BKf_ˆiN14M*C89?HO3I1tM7B_Ei?7BA14M*i?1'i?7:MOMI7:l*7s@:C8367sH?1 k
ƒ‚18a 5Ea`·fC8A4ACf36i'5…1tk _14k 3OCw@B7:M?18k †‘1H@:Ch\N3I7:M611t_<AKflh\?H61iN9<A=NC8lh\mÑ8361p›1436143OÑ*iNC8_NM_NKfMC8_ECw@B 2M614M4a
Ò /Ó ! … < ;>=?14@BA14CZ0¢asD4F>1t3IHO36Cf_Ni P asDtC8_NiJ3IKL9NMOMI1Fa8ƒ±gwd8d8N†ODzZ_WZKf9?}f1@8S/@s5fKf367sHO=Nl*1—i?1>;@:C8MOMI7su`AC8HI7BKf_
S/MOA1t_NiNC8_LH61*g‹]XcoŽZ714k 3OC83OA=?7By29?1faNUR_Y/jURSgwdfdw`DN}8Kf@B9Nl*1*cND§;14_LH6361iN1h;Kf_N5f314’ M P 7s1t36361
FSGz r U60VDEJ|Kf9?@BKf9NM618D?jV36Cf_NA1fDN\NCw5f14M“42Ô2“]O“4fÕfdNDfg8Õ^]Xc8dh·8Cf_f}27B143gwdfdw`a
;>=?1@:A1tC¡0Va…C8_NiÁJ|36Kf9NMOM61oFaƒ±gwd8d8N†OD|S/\E\?@s7:AC8HI7BKf_ˆK8p/H6=N1mg‹]XcS/5858@BKfl*1t36C8HI7B}81~Ž/7B143OC83OA=?7s]
AC8@>;@BCfM6M67su`AC8HI7BKf_€Kf_€€14x¸9NMOCw5f1~iNCwHOCNa§UR_ P 14H6A49 r a§14HCw@‡D§1ti?7BHIKf3OM4D0fÖZWS0N;×g8d8dw`D
YKflhCf_?7BCEDN\NCw5f14M“4d2Ôt]¶“8“tÕNDN0L14\?H614lxE1t3/gwdfdwEa2Ø$7:3IH6Kf_ P 9Ex?@s7:MO=?1434D?U60LFGWŸbLÔ^cw]±efeN“]‡fE“]IÔ2a
219
RNTI-E-3
!"!!# %$&')(*,+-./.0!
213!1354%1367!7!!# 789#:<; =>8?13@A
9ABBA CDBE:FCGIHJA!.KLHJCDBANMF!OAPQ!R
`bcV d)[eTPfZV Yc[,g ^3[eb[6g h.[ifWje~ [ekDTWTZQYW[i€.feJSUlnmnTWk{oV YWX)‚rV^3YZƒ„YWVpcbr[6[…‡†‰\]qrˆ[pc[ifbc^V sr_@d>kDƒ„`Š‰V b>kDa YPTWfuV|trfPvorˆ [ew…‡TiTW[il felcxDo)y>x{zBvAkDTWV|fj[iqr[}
‚>YZYWŠŒ‹ )GŽ3Ž3Ž6ˆ Jk{YW‚rƒ„V br…‡†‰ˆ pcbcV d>ƒ„Š‰kDTWV|fPorˆ …‡Ti ~ [eTW
—Bp[g YW~ YW‚cV †r†)Š p‰qr~ [i[if‘fJf.bcšœ†)XA›]p‰[eg ’†)fž.—ŠcŸ@TW[g †)YW[TWŠ’Y V|†>˜>~ fZpck†)[ib‰jff‘~ k)q qrfW” [UkDfZVb‰“ ’k je†)~ k{™ b>YWfZYWV [B†)TW[eb¡qrT[ik)fZf@pcfWjqrT[e†)pcb‰bcbBqcbkD[[egb>}r[iYW[efe[B“lk
‚cw Š V~ [efWg[kGTPkDjd)†)TP†)jP“V T‚c“V|~•˜>” kD[epcb>b‰[
Y k š„~~•™‰” prfZ›‘YW[B¢]V ~ qrŸV|fWl£[ik{f@Š’YWV[ej†)TW†)bB“TWTWj[[i†)YfZb{Š’qr–*†)†)[b‰V b>“qcYWkD[[b‰YZqrjYWTW[i[i[ff
[eb¤[eg\ dn” V|[qr}r[e[eb‰“j[6Š ~ qr[§[ijf“†)b‰¥ZŠ‰j[ek{TWYZbcYW[e[ TW~ b‰[ifWf]¦[ebr˜>…œpckDV‘b>fZYP†)fb>snY3pcŠ’TPqr†D†)YW[epb>[ig YWf£V [ ˜>~ pc~ [eVn“fZpc[eV b>d)Y[eb>prY YWV ~ ~ [§[if3ŠcTW[†)YiX)lcTP[ekDb
“YW“†)pr[Y.¨cje©‰k)ª£fe«lr[q }r” Š [eb‰~ V|fZje[ekDV  X)~ bc[i[feƒ ˆ
“fZ[?[eb>f*YWYBTWp‰qrjpŒYWpc¬cTW[ew [e“b>Y [~bc[iV fJd)[iqrkDV p&®.[eg qrTW[e[Jb‰­?j[ik{fYW‚V b‰[eg qrJV dnk{V|YWqrV|˜>pcpc[ ~[i~ fe[iˆ£fJ\][e[“b>YWcTWpr[ Y6~ [iŠcf—TWV b‰[ g ~ j[ew V d)Š‰[ik f~ fZ[g pcYPkDTPqrV Y6†)pqr[[ig fBYWTW[†)Y
pcqrd)[![eT6“j†)[YZ“YWTW“[![e[eb>b Y
…G[eg [egdnTWV|[eqrb‰[ejb‰Vj[ig [felrqrj[i[ef@TZYPX)kDTWV †)b‰pcfUŠ’—[if@[eg TWq V YP” kD[ebrb>…œYkDqb>YP” [° f,YWTWfZ[@pcTP[eqrb‰†)jp†)[ipcg fTPkDŠcXATc[i[ig g fefZˆ [eb>YPkDb>Y@qr[if@Š‰k{YZYW[eTWb‰f@q ” k{YZYWV YWp‰qr[if,cV [eb&qrV …¯ƒ
Š’q [i” [ef6TW\ TWš•[es>” kDpcYPb‰TPkDkfebrl]~ …‡™ †)YWfZ[eTP[q±“XAŠ‰`[egf“bc†)V—qrd)[ [e[g TPYW~ fZTWk{VV|YWY ˜>™[epcb‰Ÿ[±lrj[
kqr[i[“f
Y†)qrbcb>†)†)YWTcbcB[@gbc[e˜>g TW[ipc[
fe[@lAq Š’[” [®Q†)}rpc[i[ejTTPYWjjPpV|‚‰[ejg k)[[i˜>f[epcŠ’b0[@†)V jpcb‰† Tqr~ ~V|JkDjek{’k YW†)°³ [eYWTPpcTWk{V|T3YWfZV [eqr†)T[,b"pcŠ’kGbc[ed)[±TZ[i…‡j†)bcTW†D~JYW[¡V kD†)vb‰b’T²jŸ[“lvV š¯~UˆYPkD™snprpr}k ƒ
j´c¸ [eµ{Šr´ ¶JYWV µW†)·3b±¹¸ º qr¹‹ [¸ »¯~•¼ ~” ¹6pck¸ bc½)Ä?[“¹[e¾ g [i†)¶Jf*—Y6¿ [jg ¼•YW[»{TW¹~ À V~ ÁW[)[J¹lD¾ qr[[iYšœÂf@˜>b>YPpcYWkD[ V pr[e~ }¡TP[ifefUl{q qrÃc” [eVTP®.TWk)TW[ejg [eTWYWpc[eV †)TPb‰f.b‰jfe[i[l)fYÄ?V qrb‰[egp&qr†)V —dnbcV|†)[qrg BYWpcTW[cV [)~ TW~ lG[“[i\]fq †)f ”X)[” kDV|}r˜>TZ[epcYWTPV|[jjpV|[j~Y§[i[efe­!b>l YU[i~•kD”fZkDprpcprYWTPYW†)kDTWpcX)[[GTŸ[iqrlcf*[Ykw ½)j~•” [¹[~Å)}n~ [Æ ƒ
qr¹iÇ[if¹YWȯ[eÈ ¹“¾ Š‰fqr[ ~ k{YW[eb‰j[)ˆ
qrÉy'[ pJšœ›]Š‰~ k˝’kDž.TZYW‰Ÿ²V ›‘TfZ¢qr†)[ p‰qcfJ~ k,kD…‡b‰TW†)[ef TWŠc“Tc~ [Ì[i[?g fZ[eqrŠ b>[&~ YPkDk{bÍfZYW†)V p‰†)qrfub[itnf'qrbn[ip‰k{fkD}rX)Ê,[i[ifÏj f“~ k)ÎÏkGfWd)fZ[i[i[jYf
â Ô Ö{Ú à£×uØrÛ.à Ü àuهá
~f*[eYWpcTWpcTPfJV Y±[ pc~ ~ bcV Š‰[¡fZ[iŠ‰f²kDTZqrYW[¡V YWV j†)†)b%b‰j[e[ebb>YWoLTPk{jYW~V †)k)b]fWfZlA[if²†)b'˜>pckLV@j“†)br[Yƒ
[e~ k²bF ‰[egX)dnpcV|TWqr[G[eŸb‰jŠ‰[—kDTZpcYWV|bcj["p ~ V•j [ew ~ TWk)[efW“fZ[¤[eb>š‡Y.Š’†)V b>V b>Yc[eYPg TWf¡[ifWbcfW†)kDV b>TPYWf¡[BfZqrpcp T
Š’j ~ †)k)V fWb>fZY"[0qrqr[0[¤dn’pc†)[¤bcbcqr[i[ fÐ~•Š’” [i[eg qrTZ…‡p‰†)jeTWk{JYWV kD†)b‰bÍj[i‹fLj kG” [id)f*[iY—j'pcqrbc[i[f Õ Ô
Ô Ú Ù’Û.Ö{×uÜ Ø’Ý•Þ•Ù ß
ä
YPYW[ekDb‰prj}Ð[,q TW[” [e~ TWk{TWYW[eV d)pc[eTP“f6…œ[ekDb>V Y  ~~ [i†)fBbcX>[feY“ˆ‰qrѧ[i[fYZYWYW[6[e“j ~ Š‰k)fWffZ[,qr[ j†)~ brk{ƒƒ ã
ÕÔ
qfWcf*YWkDkDV b‰YWTPpcjqc[i[.f²f3pc‚‰qcb“kDkDcŠcb‰V TWfYW†Dpc~• [” [ig~~ qrf
Š’p‰[eq jep²”k{[eg YW[ed{V b‰k†)~jbp‰†)k{pckDYWprTPV kD†)}XAb%ґ[§g qrӊ‰›A[ikDf
ˆT ~j[i†)f§bcf*b‰YPkDkDV|brf*ƒƒ
å
æ"èœç é ï]èç êWðJèëQñ3ìPò)èóríJô&î õ@ö]ð÷ñ3ò)ó‰øDùcð÷Búöû•üDý)ýDþnÿ @ðeò “ð÷ @ø{÷Pø ù‰ø ,ò uù ró‰ø Qð
ðeù ðï]ðBñ3ò)órô!õ@ö ’ñ3ò)ó‰øDùcð÷.úöû•üDý)ýDþnÿ
.ë Gí |í •ê ‰ì rêWè .ë Gí |í .è ò Jè W•êð œì >÷ ó U.ð ë Gíe|ø í rð £ê Wð {eêö êWèí {ë )èëQìPè
!"##%$'&((%)$*+,.-/#10213456,)67(51)-)%0598!"9(:)%4<;=)#59>%8/?0#0@20A/+9->%-B,C$16%3
ED .F/G IH J LKNM/HOMP =M/Q R J ST F/GVUEF
CWF =X
P =M/Q R J YHOFNZ9H [ IHC[ .XLKNM/HOMNP =M/Q R J 9 . !.\ !]^ _ ` LaE !
RNTI-E-3
220
Annotation de textes par extraction d’informations lexicosyntaxiques et acquisition de schémas conceptuels de causalité
Laurent Alamarguy*, Rose Dieng-Kuntz*, Catherine Faron-Zucker**
*ACACIA, INRIA Sophia Antipolis
{Laurent.Alamarguy, Rose.Dieng}@sophia.inria.fr
**MAINLINE, I3S, Sophia Antipolis
[email protected]
Résumé. Nous présentons la méthode INSYSE (Interface Syntaxe
SEmantique) pour l’annotation de documents textuels. Notre objectif est de
construire des annotations sémantiques de ces résumés pour interroger le
corpus sur la fonction des gènes et leurs relations de causalité avec certaines
maladies. Notre approche est semi-automatique, centrée sur (1) l’extraction
d’informations lexico-syntaxiques à partir de certaines phrases du corpus
comportant des lexèmes de causation, et (2) l’élaboration de règles basées sur
des grammaires d’unification permettant d’acquérir à partir de ces
informations des schémas conceptuels instanciés. Ceux-ci sont traduits en
annotations RDF(S) sur la base desquelles le corpus de textes peut être
interrogé avec le moteur de recherche sémantique Corese.
1
Introduction
Lors de la constitution d’une mémoire de communauté en génomique fonctionnelle, la
notion de causalité est centrale pour appréhender certaines corrélations. Dans le cadre du web
sémantique l’automatisation de cette tâche doit permettre, à partir de données hétérogènes,
de détecter et générer de nouvelles représentations conceptuelles traduisant cette notion.
Nous présentons une méthode semi-automatique d’annotation de documents textuels
basée sur l’acquisition de schémas conceptuels1 à partir de l’extraction de structures lexicosyntaxiques ; elle est baptisée INSYSE - pour INterface SYntaxe SEmantique. Cette méthode
est appliquée à un corpus de 5000 résumés médicaux issus de Medline et traitant de maladies
du système nerveux central et des interactions des gènes dans ces maladies. Notre objectif est
de construire des annotations sémantiques de ces résumés qui permettent d’interroger le
corpus sur la fonction des gènes et leurs relations de causalité avec certaines maladies pour
ainsi constituer une mémoire de communauté.
Nous présentons dans cet article les différentes étapes de la méthode INSYSE : la partie
suivante est consacrée à l’extraction d’informations lexico-syntaxiques à partir de certaines
phrases comportant des lexèmes de causation ; la partie 3 est dédiée à l’élaboration de règles
basées sur des grammaires d’unification qui permettent d’extraire des informations lexicosyntaxiques des schémas conceptuels instanciés. La partie 4 décrit comment ces schémas
sont traduits en annotations RDF(S) sur la base desquelles le corpus pourra être interrogé à
l’aide du moteur de recherche sémantique Corese (Corby et al. 2004). Nous comparons dans
1
Un schéma conceptuel non instancié constituant de fait un template d’annotation.
221
RNTI-E-3
Restructuration automatique de documents dans les corpus
semi-structurés hétérogènes
Guillaume Wisniewski*, Ludovic Denoyer*, Patrick Gallinari*
* Laboratoire d’Informatique de Paris 6
8 rue du Capitaine Scott, 75015 Paris
{guillaume.wisniewski, ludovic.denoyer, patrick.gallinari}@lip6.fr
Résumé. L’interrogation de grandes bases de documents semi-structurés (type
XML) est un problème ouvert important. En effet, pour interroger un
document dont le schéma est nouveau, un système doit pouvoir soit adapter la
requête posée au document, soit adapter le document pour pouvoir lui
appliquer la requête. Nous nous positionnons ici dans le cadre de la
restructuration de documents qui consiste à transformer des documents semistructurés issus de diverses sources dans un schéma de médiation connu. Nous
proposons un cadre statistique général à la problématique de la restructuration
de documents et détaillons une instance d’un modèle stochastique de
documents structurés appliquée à cette problématique. Nous détaillons enfin
un ensemble d’expériences effectuées sur les documents du corpus INEX afin
de mesurer la capacité de notre modèle.
1
Introduction
Le développement du document électronique et du Web a vu émerger puis s’imposer des
formats de données semi-structurées, tels le XML et le XHTML. Ces nouveaux formats,
décrivant simultanément la structure logique des documents et le contenu de ceux-ci,
permettent de représenter l’information sous une forme plus riche que le simple contenu et
adaptée à des besoins spécifiques. Étant donné l’augmentation rapide du nombre de
documents semi-structurés, il est devenu nécessaire d’adapter les méthodes de traitement de
données existantes afin de tenir compte des spécificités de ces nouveaux formats ainsi que
d’étudier les nouvelles problématiques que ces formats font émerger.
L’initiative INEX (Fuhr et al 2002) propose d’étudier la problématique de la recherche
documentaire sur des documents semi-structurés. L’hétérogénéité des structures des données
est rapidement apparue comme un obstacle à la conception de systèmes d’interrogation de
données semi-structurées issues de différentes sources d’information. Bien que, dans le cadre
d’INEX, cette problématique ait été ignorée jusqu’à présent, l’édition 2004 de la campagne
d’évaluation propose une nouvelle tâche, la tâche hétérogène, qui y est consacrée. Deux
solutions peuvent être imaginées pour résoudre ce problème : les systèmes peuvent soit
adapter la requête posée au document, soit adapter le document pour pouvoir lui appliquer la
requête. Nous adoptons ici la deuxième solution et proposons d’utiliser un schéma de
médiation pour exprimer l’ensemble des documents considérés dans une structure commune.
L’utilisateur n’interagira alors qu’avec ce schéma de médiation. Cette solution nécessite de
pouvoir restructurer les documents afin d’adapter leur structure au schéma de médiation.
La problématique de restructuration des données est apparue depuis de nombreuses
années dans de nombreux domaines tels les entrepôts de données, l’intégration de données, le
web sémantique, ... Plus récemment, plusieurs travaux se sont intéressés à l’application de
cette problématique aux données semi-structurées et plus particulièrement aux données
227
RNTI-E-3
Fouille de textes pour orienter la construction d’une ressource
terminologique
Valentina CEAUSU, Sylvie DESPRES
Université René Descartes
CRIP5 – Equipe IAA – Groupe SBC
UFR Mathématiques et Informatique
45 rue des Saints-Pères
75006 PARIS
[email protected]
[email protected]
Résumé. La finalité de ce papier est d'analyser l'apport de techniques de fouille de
données textuelles à une méthodologie de construction d'ontologie à partir de textes.
Le domaine d’application de cette expérimentation est celui de l’accidentologie
routière. Dans ce contexte, les résultats des techniques de fouille de données
textuelles sont utilisés pour orienter la construction d’une ressource terminologique à
partir de procès-verbaux d’accidents. La méthode TERMINAE et l’outil du même nom
offrent le cadre général pour la modélisation de la ressource. Le papier présente les
techniques de fouille employées et l’intégration des résultats des fouilles dans les
différentes étapes du processus de construction de la ressource.
1 Introduction
La finalité de ce papier est d'analyser l'apport des techniques de fouille de données textuelles à
une méthodologie de construction d'ontologie à partir de textes. Le domaine d’application de cette
expérimentation est celui de l’accidentologie routière. Une ontologie du domaine a été élaborée à
partir de connaissances expertes (Després, 2002). Le travail présenté concerne la construction d’une
ressource terminologique à partir de procès verbaux d’accidents (PV) rédigés par les forces de
l’ordre. Les deux ressources (ontologique et terminologique) seront exploitées dans un système de
raisonnement à partir de cas ayant comme cas cible des procès verbaux et comme cas source des
scénarios d’accidents.
Dans ce contexte sont utilisés simultanément : (a) un algorithme de reconnaissance de motifs qui
engendre un ensemble de syntagmes nominaux et verbaux ; (b) l’algorithme Apriori pour affiner les
syntagmes nominaux identifiés à l’aide de motifs ; (c) l’ontologie de l’accidentologie pour affiner
les syntagmes verbaux et (d) la méthodologie TERMINAE de construction de la ressource
terminologique (Biébow, Szulman, 2000). Après avoir présenté les techniques de fouille de textes
utilisées, leur apport à l’élaboration de la ressource terminologique est discuté. En conclusion, les
améliorations à apporter aux différentes techniques sont discutées.
239
RNTI-E-3
Expérimentations sur un modèle de recherche d’information
utilisant les liens hypertextes des pages Web
Bich-Liên Doan*, Idir Chibane**
* Supélec, Plateau de Moulon, 3 rue Joliot Curie, 91 192 Gif/Yvette, France
[email protected]
** Supélec, Plateau de Moulon, 3 rue Joliot Curie, 91 192 Gif/Yvette, France
[email protected]
Résumé. La fonction de correspondance, qui permet de sélectionner et de
classer les documents par rapport à une requête est un composant essentiel
dans tout système de recherche d'information. Nous proposons de modéliser
une fonction de correspondance prenant en compte à la fois le contenu et les
liens hypertextes des pages Web. Nous avons expérimenté notre système sur la
collection de test TREC-9, et nous concluons que pour certains types de
requêtes, inclure le texte ancre associé aux liens hypertextes des pages dans la
fonction de similarité s'avère plus efficace.
1
Introduction
Les systèmes de recherche d’information (SRI) sont composés essentiellement de deux
modules. Un module d’indexation qui représente les documents, et un module
d’interrogation qui représente la requête. La fonction de correspondance permet de calculer
le degré d’appariement entre les termes de la requête et les termes d’indexation des
documents afin d’évaluer la pertinence des documents par rapport à la requête. Avec le
succès grandissant du Web (Google recense plus de 4 milliards de pages Web) le classement
des réponses devient critique. Aussi des fonctions de correspondance prenant en compte les
liens hypertextes ont vu le jour. En réalité, la plupart des fonctions de correspondance
utilisées par les systèmes de recherche hypertextes combinent une mesure de pertinence
calculée en fonction du contenu de la page et de la requête utilisateur avec une mesure de
popularité de la page qui elle, est indépendante de la requête. Cette dernière mesure repose
sur la structure du Web, considéré comme un graphe orienté de pages et de liens.
L’hypothèse (Savoy et Rasolof 2000) stipule qu’une page est supposée être de bonne qualité
si elle a beaucoup de liens entrants, en particulier, si les pages qui pointent vers elle sont
aussi de bonne qualité. Un certain nombre de systèmes qui tiennent compte de la structure du
web dans la fonction de correspondance ont été développés. Les systèmes les plus connus
sont InDegree, PageRank (Brin et Page 1998) utilisé dans Google, HITS (Kleinberg 1998)
et SALSA (Lempel et Moran 2000). Dans ces systèmes, la fonction de correspondance, qui
relie la requête aux documents est remplacée par une fonction de classement des résultats qui
elle est indépendante de la requête. L’étude des systèmes existants nous a permis de conclure
que toutes les fonctions de correspondance basées sur les liens hypertextes ne dépendent pas
des termes de la requête. Cela a diminué considérablement la précision des résultats
retrouvés. En effet, l’analyse du comportement des utilisateurs dans leur recherche montre
qu’ils ne s’intéressent pas aux pages populaires, si ces dernières ne contiennent aucun terme
de la requête.
257
RNTI-E-3
Hiérarchisation des règles d’association en fouille de
textes
Rokia BENDAOUD∗ , Yannick TOUSSAINT∗
Amedeo NAPOLI∗
∗
LORIA Campus Scientifique - BP 239
54506 VANDOEUVRE-lès-NANCY CEDEX
{bendaoud,toussaint,napoli}@loria.fr,
Résumé. L’extraction de règles d’association est souvent exploitée comme
méthode de fouille de données. Cependant, une des limites de cette approche vient du très grand nombre de règles extraites et de la difficulté
pour l’analyste à appréhender la totalité de ces règles. Nous proposons
donc de pallier ce problème en structurant l’ensemble des règles d’association en hiérarchies. La structuration des règles se fait à deux niveaux.
Un niveau global qui a pour objectif de construire une hiérarchie structurant les règles extraites des données. Nous définissons donc un premier
type de subsomption entre règles issue de la subsomption dans les treillis
de Galois. Le second niveau correspond à une analyse locale des règles
et génère pour une règle donnée une hiérarchie de généralisation de cette
règle qui repose sur des connaissances complémentaires exprimées dans
un modèle terminologique. Ce niveau fait appel à un second type de subsomption inspiré de la subsomption en programmation logique inductive.
Nous définissons ces deux types de subsomptions, développons un exemple
montrant l’intérêt de l’approche pour l’analyste et étudions les propriétés
formelles des hiérarchies ainsi proposées.
1
Introduction
L’extraction des règles d’association appliquée à des textes est une méthode de
fouille de données qui permet de mettre en valeur des liens entre les termes des textes.
Ces liens peuvent alors être interprétés par des experts en vue, par exemple, de la
construction d’une ontologie.
Que ce soit à partir de textes où à partir de base de données, le nombre de règles
extraites est souvent très grand et difficile à appréhender par un expert humain. De
nombreux travaux se sont intéressés à élaguer l’ensemble des règles et à les classer soit
par rapport à des critères statistiques, soit par rapport à une base de connaissances
(Janetzko et al. 2004). Nous proposons dans cet article une approche visant à structurer
les règles sous forme hiérarchique afin de permettre à l’expert une approche descendante de la lecture de l’ensemble des règles. En réalité, nous proposons à l’expert deux
approches d’analyse, un niveau global et un niveau local, tous deux reposant sur une
structuration hiérarchique des règles. Ces deux types de structuration hiérarchique nous
ont conduit à définir deux types de subsomption qui, au final, peuvent être combinés.
263
RNTI-E-3
Extraction de la localisation des termes pour le
classement des documents
Annabelle MERCIER∗ , Michel BEIGBEDER∗
∗
École des Mines de Saint-Etienne
158 cours Fauriel F 42023 Saint-Étienne Cedex 2 FRANCE
mercier,[email protected]
Résumé. Trouver et classer les documents pertinents par rapport à une
requête est fondamental dans le domaine de la recherche d’information.
Notre étude repose sur la localisation des termes dans les documents.
Nous posons l’hypothèse que plus les occurrences des termes d’une requête
se retrouvent proches dans un document alors plus ce dernier doit être
positionné en tête de la liste de réponses. Nous présentons deux variantes
de notre modèle à zone d’influence, la première est basée sur une notion
de proximité floue et la seconde sur une notion de pertinence locale.
1
Introduction
Le domaine de la recherche d’information, bien connu à travers les moteurs de recherche sur le Web, utilise différents modèles. Ces derniers précisent comment sélectionner et ordonner les documents qui répondent aux besoins d’informations des utilisateurs. Il en existe principalement trois familles (Baeza-Yates et Ribeiro-Neto, 1999) :
(a) les modèles ensemblistes (booléen, à ensembles flous et booléens étendus), (b) les
modèles algébriques (vectoriel et indexation sémantique latente) et (c) les modèles
probabilistes (basés sur les réseaux d’inférence, les réseaux bayésiens et les réseaux de
croyance). Notre modèle est basé non seulement sur les familles de modèle ensemblistes
et algébriques, mais aussi sur une des premières idées fondatrice de la recherche d’information formulée par Luhn (Luhn, 1958) qui consiste à s’appuyer d’une part, sur la
fréquence des termes et d’autre part sur la position relative des termes de la requête
dans les documents. Le premier aspect relatif à l’utilisation de la fréquence des termes
a été beaucoup développé dans le cadre des modèles algébriques, par contre, le second
concernant la proximité entre les occurrences des termes n’a reçu que peu d’attention,
notre étude permet d’approfondir ce dernier point.
Tout d’abord, nous rappelons certains modèles classiques ainsi que les quelques
méthodes qui utilisent la proximité. Ensuite, nous présentons les deux variantes de
notre modèle à zone d’influence avant de conclure.
2
État de l’art
La méthode d’indexation associée à un modèle de recherche d’information permet de
construire les représentants des documents et s’appuie généralement sur les occurrences
des termes trouvés dans les documents. Nous notons T l’ensemble des termes et D celui
des documents.
275
RNTI-E-3
Un système d’aide à la navigation dans des hypermédias
Julien Blanchard, Bertrand Petitjean, Thierry Artières, Patrick Gallinari
LIP6, Université Paris 6
{Prénom.Nom}@lip6.fr
Résumé. Avec le développement d’Internet et d’applications hypermédias, la
construction et l’exploitation de profils ou modèles des utilisateurs deviennent
capitaux dans de nombreux domaines. Pouvoir cibler un utilisateur d’un
hypermédia ou d’un site web afin de lui proposer ce qu’il attend devient
essentiel, par exemple lorsque l’on veut lui présenter les produits qu’il est le
plus susceptible d’acheter, ou bien plus généralement à chaque fois que l’on
veut éviter de noyer l’utilisateur dans un flot d’informations. Nous présentons
un système d’aide à la navigation, intégrant un système de modélisation du
comportement de navigation et un stratège qui met en œuvre, en fonction du
comportement détecté, une aide visant à recommander des liens particuliers.
1
Introduction
Avec l’avènement de l’ère Internet, la construction et l’exploitation de profils ou modèles
des utilisateurs deviennent capitaux dans de nombreux domaines. Pouvoir cibler l’utilisateur
afin de lui proposer ce qu’il attend est de plus en plus souvent une tâche nécessaire. Les
enjeux économiques sont très importants, lorsque l’on veut par exemple présenter au
consommateur les produits qu’il est le plus susceptible d’acheter, ou bien plus généralement
à chaque fois que l’on veut éviter de noyer l’utilisateur dans un flot d’information. Ainsi
l’hyperespace qu’est le web peut être rendu plus simple, si l’on parvient à le présenter sous
une forme personnalisée aux usagers. Cette problématique regroupe de nombreux aspects de
l’informatique : agents intelligents, recherche d’information, text mining, interfaces...
L’aide à la navigation dans des hypermédias ou sur Internet s’appuie sur une
modélisation de l’utilisateur, de ses buts et de ses intérêts à court ou long terme pour lui
proposer, à un instant donné, une interface adaptée à ses besoins (Rich 1979, Brusilovky
1996). En règle générale, une stratégie d’aide englobe deux modules principaux, le premier
constitue la modélisation de l’utilisateur proprement dit, le second est un stratège qui, en
fonction du modèle de l’utilisateur, propose une aide à l’utilisateur pour sa navigation dans
l’hypermédia.
Les modèles utilisateur utilisés dans les systèmes d’aide à la navigation reposent le plus
souvent sur la détection de comportements typiques de navigation. Les utilisateurs d’un site
web ou de tout autre hypermédia adoptent divers comportements en fonction de leurs buts et
objectifs. Une hypothèse communément admise est que l’on peut représenter un site comme
un graphe de pages dans lequel les comportements des utilisateurs se traduisent par différents
types de parcours représentatifs de leurs comportements. Diverses caractérisations des types
de navigation ont été proposées dans (Canter et al. 1985, Mullier 2000). Nous nous appuyons
ici sur la typologie proposée par Canter. Elle distingue des grandes catégories de navigations,
comme la flânerie (ou papillonnage), le survol qui consiste à passer en revue assez
rapidement une partie de l’hypermédia, la recherche d’une information précise ou encore
l’approfondissement de ses connaissances sur un domaine particulier.
281
RNTI-E-3
« La connaissance de la connaissance » : une réflexion sur la
triangulation des analyses textuelles à partir d’un corpus
spécialisé en gouvernance d’entreprise
Stéphane Trébucq *
* Centre de Recherche en Contrôle et Comptabilité Internationale - CRECCI
IAE de Bordeaux, Rue du Cdt Arnould, 33 Bordeaux
[email protected]
Résumé. Suite à la survenue récente de scandales financiers, la synthèse des
idées mobilisables en gouvernance d’entreprise semble désormais essentielle si
l’on veut sécuriser les investisseurs. Dans cette perspective, le présent projet de
recherche consiste à mettre en œuvre un panel d’outils d’analyse de données
textuelles (Alceste, Syntex, Tropes-Zoom/Decision Explorer, Wordmapper,
Weblex) afin d’évaluer les moyens dont peut disposer un analyste désireux
d’extraire des connaissances contenues dans un ensemble d’articles
académiques. La qualité de représentation du corpus dans sa globalité est tout
d’abord testée. L’étude est ensuite centrée sur le concept même de
connaissance, mobilisé dans la théorie de la gouvernance des entreprises. La
convergence et la complémentarité des approches méthodologiques sont alors
explicitées. Il en est de même pour ce qui concerne la capacité d’extraction
d’une connaissance pertinente à partir des textes étudiés.
1
Introduction
Suite à la survenue de récents scandales financiers, les représentants des entreprises, de
même que leurs différentes parties prenantes, ont été conduits à s’interroger quant à
l’efficacité des dispositifs de gouvernance1 actuellement en vigueur. Sur un plan académique,
la synthèse des idées mobilisées dans ce domaine est désormais indispensable si l’on veut
disposer d’un cadre conceptuel aussi explicite et exhaustif que faire se peut. L’objet de la
présente recherche est de mettre en œuvre une triangulation méthodologique, en utilisant un
panel d’outils d’analyse de données textuelles. Le corpus retenu pour l’extraction de
connaissances est constitué de près de 300 000 mots correspondant à un ensemble de 32
articles publiés dans diverses revues scientifiques et rédigés entre 1985 à 2003 par Gérard
Charreaux2, dont les travaux font référence dans le domaine de la gouvernance des
entreprises.
La démarche expérimentale suivie a été conduite à deux niveaux d’analyse. Elle a tout
d’abord offert l’opportunité de tester les capacités de représentation du corpus dans sa
globalité. Pour ce faire, nous avons utilisé quatre logiciels spécialisés : Alceste, Syntex,
1
"Le gouvernement des entreprises recouvre l'ensemble des mécanismes organisationnels qui ont pour
effet de délimiter les pouvoirs et d'influencer les décisions des dirigeants, autrement dit, qui
« gouvernent » leur conduite et définissent leur espace discrétionnaire" (Charreaux 1997).
2
http://perso.wanadoo.fr/gerard.charreaux/perso/gcaccueil.html#Sommaire
293
RNTI-E-3
!"## $
&
' &
(
&
% )*++,,,& &
(
&
-. /(0 1
2
/ /
0
3
!/"!#
&
' %(
&
() /&
% )*++,,,& %(
&
() /& + )/+
%
)
5
))
2 %
5
6
2
)
)
&8 %
4
5()
3
)
5
2
(5(
&
2
%
36
2
6
)
5
2%
)2
)2
)
&
4)
&
4
%
)
))
&)2
4 &
2
%
7
2
2%
4 )
)2
2
2
6
3
7
) )
4
))
)
& ) 5
4
4
2%
4
%
4#
4
2%
2 & -9
-
4
4%
)
6
)
)
)
& 0 ) )2
62 5
2
)
3
))
;
%
2
)2
2
2
5
)
6
"##=< )
4 )
&>
4
;
) &
6
)
3
2 )
)
2 &
%
%
(5(
5
)
) ;<
2
4
"##"<
: 3
4
2
:)
9
&
2
)
)
5
)
)
2
)
2 ;0 6%
?
(
2
) )
0
)
2
3
)3
92
0
2
5
) )
2
&
)
2
%
6 &
4
5
&
*
(
)2 2
2
;0
=@!=<;0
4 &
=@A@<
=@@/<&
305
RNTI-E-3
Amélioration de la performance de l’Analyse de la Sémantique
Latente pour des corpus de petite taille
Fadoua Ataa-Allah*, Abderrahim El Qadi**
Siham Boulaknadel*, Driss Aboutajdine*
*Université Mohamed V Agdal Faculté des Sciences, GSCM, B.P. 1014, Rabat
{fadoua_01, siham_06}@yahoo.fr
[email protected]
http://www.fsr.ac.ma/GSCM/
**Université Moulay Ismail ESTM, route d’Agouray, km.5, B.P. 3103 Toulal Meknes
[email protected]
Problématique. Améliorer la performance du LSA pour des corpus de petite taille
où l’unité textuelle est représentée par des paragraphes.
Solution. Appliquer des schémas de pondération et utiliser des listes de mots vides.
Application et Résultats
Dans l’objectif d’améliorer la performance du LSA pour des corpus de petite taille, nous
avons appliqué une multitude de schémas de pondération dans deux cas d’études : le premier où
le prétraitement des corpus est simple ; le deuxième où une liste de mots vides est utilisée [1] .
SLVM
Log(tf+1) x Idf
Tf x Idf
Tfc
Ltc
Log(tf+1)/Entropie
de Shannon
ALVM
Tf x Idf
Log(tf+1) x Idf
Tfc
Ltc
Log(tf+1)/Normal
Nom du corpus
Blanche Neige
Cendrillon
La Belle au Bois Dormant
Le Petit Chaperon Rouge
Le Petit Poucet
(a)
SLVM
0.73
0.62
0.71
0.38
0.47
ALVM
0.68
0.58
0.64
0.34
0.50
(b)
ALVM : Avec l’utilisation de la liste de mots vides.
SLVM : Sans l’utilisation de la liste de mots vides.
(a) - L’ordre des plus importants schémas de pondération améliorant la performance du LSA
(b) – La précision maximale par LSA pour un seuil de 0.9
TAB 1 – Tableau des résultats
L'étude menée a montré que l’application d’un schéma de pondération peut influer
positivement ou négativement la performance du LSA, tandis que l’utilisation de la liste des
mots vides n’est pas performante.
Références
(Deerwester et al. 1990) Deerwester S, Dumais S.T., Furnas G.W., Landauer T.K., Hrashman R., Indexing by latent
semantic analysis, Journal of th american society for information science, 41(6), pages 391-407, 1990.
(Dumais 1992) Susan T. Dumais, Enhancing Performance in Latent Semantic Indexing (LSI) Retrieval, 1992,
Technical Memorandum Tm-ARH-017527, Bellcore.
[1] http://snowball.tartarus.org/french/stop.txt.
317
RNTI-E-3
Tableau de Bits Indexé (TBI)
pour la Recherche de Séquences Fréquentes
Lionel Savary, Karine Zeitouni
Laboratoire PRiSM, Université de Versailles, 45 Avenue des Etats-Unis, 78035 Versailles
{Lionel.Savary, Karine.Zeitouni}@prism.uvsq.fr
A la différence de la fouille d’articles fréquents, la recherche de sous-séquences
fréquentes tient compte de l’apparition multiple et de l’ordre des articles.
L’algorithme proposé parcourt la base de données une seule fois. Durant cette passe,
il construit un vecteur VS contenant toutes les combinaisons de séquences présentes
dans la base. A ce vecteur est associé un tableau de bit TB codant toutes les séquences
de la base en correspondance avec les articles codés dans VS. Les bits à 1 indiquent
les articles présents dans la séquence et les bits à 0 ceux qui ne le sont pas. Les séquences sont représentées dans chaque ligne du tableau et regroupées par taille dans
l’ordre décroissant. Un index associé au tableau permet de pointer directement les
séquences de taille choisie. Ce qui évite des comparaisons superflues et améliore les
performances. Le tableau NB associé au TB, indique les fréquences associées à chaque séquence. Dans l’exemple de la figure 1, la séquence (M) de taille 1 se trouve à la
première ligne dans le TB et a une fréquence de 500. Cette structure est construite
dynamiquement au cours de l’unique passe dans la base de données. Un deuxième
algorithme TBI2, basé sur un tableau de booléens, offre de meilleures performances
mais nécessite plus d’espace mémoire. TBI et TBI2 affichent de meilleures performances que les algorithmes existants tel que Prefixspan [1].
Index
VS
1 4 6 8 9
M T E S M R T M
0 1 1 0 1 0 1 1
0 1 0 0 1 0 1 1
0 1 0 0 1 0 0 1
… ... ... … ... ... … …
0 1 0 0 0 0 0 0
1
5
180
...
240
389
1 0 0 0 0 0 0 0
500
TB
NB
Temps (secondes)
120
110
100
90
Prefixspan
TBI
80
TBI2
70
60
50
40
30
20
10
0
0.1
0.2
0.3
0.4
0.5
0.6 0.7 0.8
Support
Fig. 1. Structure de données et performance pour 500000 séquences
Références
1. J. Pei, J. Han, B. Mortazavi, H. Pinto, Q. Chen, U.Dayal, and M-C. Hsu. PrefixSpan: mining
sequential patterns efficiently by prefix-projected pattern growth. Proceedings of the 17th
International Conference on Data Engineering, 215-224, Heidelberg, Germany, Apr. 2001.
RNTI-E-3
318
Intégration efficace des arbres de décision dans les
SGBD : utilisation des index bitmap
Cécile Favre, Fadila Bentayeb
Laboratoire ERIC, Lyon 2
5 Avenue Pierre Mendès France
69676 Bron CEDEX
{cfavre,bentayeb}@eric.univ-lyon2.fr,
Résumé. Nous présentons dans cet article une nouvelle approche de
fouille qui permet d’appliquer des algorithmes de construction d’arbres
de décision en répondant à deux objectifs : (1) traiter des bases volumineuses, (2) en des temps de traitement acceptables. Le premier objectif
est atteint en intégrant ces algorithmes au cœur des SGBD, en utilisant
uniquement les outils fournis par ces derniers. Toutefois, les temps de
traitement demeurent longs, en raison des nombreuses lectures de la base.
Nous montrons que, grâce aux index bitmap, nous réduisons à la fois la
taille de la base d’apprentissage et les temps de traitements. Pour valider
notre approche, nous avons implémenté la méthode ID3 sous forme d’une
procédure stockée dans le SGBD Oracle.
Mots clés : Index bitmap, bases de données, fouille de données, arbres
de décision, performance, complexité.
1
Introduction
L’application efficace de méthodes de fouille sur des bases de données volumineuses
devient un enjeu de recherche de plus en plus important. Les algorithmes traditionnels
de fouille de données s’appliquent sur des tableaux attributs/valeurs (Zighed et Rakotomalala 2000). La volumétrie des bases étant croissante, les algorithmes classiques se
heurtent au problème de la limitation de la taille de la mémoire centrale dans laquelle
les données sont traitées. La ”scalabilité” (capacité de maintenir des performances
malgré un accroissement du volume de données), peut alors être assurée en optimisant
soit les algorithmes (Agrawal et al. 1996, Gehrke et al. 1998), soit l’accès aux données
(Ramesh et al. 2001, Dunkel et Soparkar 1999). Une autre issue au problème consiste à
réduire la volumétrie des données à traiter. Pour cela, une phase de prétraitement est
généralement appliquée sur les données : l’échantillonnage (Ttoivonen 1996, Chauchat
et Rakotomalala 2000) ou la sélection d’attributs (Lia et Motoda 1998).
Récemment, une nouvelle approche de fouille de données est apparue pour pallier
au problème de limitation de la taille de la mémoire. Il s’agit d’intégrer les méthodes
de fouille de données au cœur des Systèmes de Gestion de Bases de Données (SGBD)
(Chaudhuri 1998). Ainsi, le volume des données traitées n’est plus limité par la taille
de la mémoire. Cette piste de recherche est conjointement liée à l’avènement des entrepôts de données et de l’analyse en ligne (OLAP) plus particulièrement (Codd 1993).
319
RNTI-E-3
Mining Frequent Queries in Star Schemes
Tao-Yuan Jen∗ , Dominique Laurent∗
Nicolas Spyratos∗∗ , Oumar Sy∗∗∗
∗
LICP, Université de Cergy-Pontoise, 95302 Cergy-Pontoise Cedex, FRANCE
{tao-yuan.jen,dominique.laurent}@dept-info.u-cergy.fr
∗∗
LRI, Université Paris 11, 91405 Orsay Cedex, FRANCE
[email protected]
∗∗∗
Université Gaston Berger, Saint-Louis, SENEGAL
[email protected]
Résumé. L’extraction de toutes les requêtes fréquentes dans une base de
données relationnelle est un problème difficile, même si l’on ne considère
que des requêtes conjonctives. Nous montrons que ce problème devient
possible dans le cas suivant : le schéma de la base est un schéma en étoile,
et les données satisfont un ensemble de dépendances fonctionnelles et de
contraintes référentielles. De plus, les schémas en étoile sont appropriés
pour les entrepôts de données et que les dépendances fonctionnelles et
les contraintes référentielles sont les contraintes les plus usuelles dans les
bases de données. En considérant le modèle des instances faibles, nous
montrons que les requêtes fréquentes exprimées par sélection-projection
peuvent être extraites par des algorithmes de type Apriori.
1
Introduction
The general problem of mining all frequent queries in a (relational) database, i.e.,
all queries whose answer has a cardinality above a given threshold, is known to be
intractable, even if we consider conjunctive queries only (Goethals 2004).
However, mining all frequent queries from a database allows for the production
of relevant association rules that cannot be obtained by other approaches, even when
dealing with multiple tables, such as in (Dehaspe and Raedt 1997; Diop et al. 2002;
Faye et al. 1999; Han et al. 1996; Meo et al. 1997; Turmeaux et al. 2003). This is so
because, in these approaches, association rules are mined in the same table. On the
other hand, when mining all frequent queries, it is possible to obtain rules whose left and
right hand sides are frequent queries mined in different tables. The following example,
that serves as a running example throughout the paper, illustrates this point.
Example 1 Let ∆ be a database containing three tables, Cust, P rod and Sales, dealing with customers, products and sales transactions, respectively, and suppose that :
– the table Cust is defined over the attributes Cid, Cname and Caddr, standing
respectively for the identifiers, the names and the addresses of customers,
– the table P rod is defined over the attributes P id and P type, standing respectively
for the identifiers and the types of products,
– the table Sales is defined over the attributes Cid, P id and Qty where Qty stands
for the quantity of a product bought by a customer.
331
RNTI-E-3
Modélisation d’objets mobiles dans un entrepôt de données
Tao Wan, Karine Zeitouni
Laboratoire PRISM, Université de Versailles
45, avenue des Etats-Unis, 78035 Versailles Cedex, France
[email protected], [email protected]
http://www.prism.uvsq.fr/users/karima/
Résumé. La gestion d’objets mobiles a connu un regain d’intérêt ces dernières
années, particulièrement dans le but de gérer et de prédire la localisation
d’objets mobiles. Cependant, il y a peu de recherches sur l’exploitation
d’historiques de bases d’objets mobiles. La première étape dans ce processus
est la mise en œuvre d’un entrepôt d’objets mobiles. Seulement, les modèles
d’entrepôts existants ne permettent pas de traiter directement ce type de
données complexes. Cet article présente une approche originale pour pallier ce
problème. Cette approche offre la puissance de l’algèbre OLAP sur toute
combinaison de données classiques, spatiales et/ou temporelles et mobiles. Elle
a été validée par un prototype et appliquée à l’analyse de la mobilité urbaine1.
Les résultats de l’expérimentation montrent la validité de l’approche et les tests
de performances son efficacité.
1.
Introduction
Le développement des technologies mobiles, telles que les téléphones cellulaires et les
GPS, a ouvert la voie vers de nouvelles applications exploitant la localisation. En effet, cette
connaissance peut permettre de cibler les services offerts – appelés Location Based Service
(LBS)- comme de fournir des informations localisées dans la zone du mobile. D’autres
applications utilisent des objets mobiles comme le contrôle et la prévision du trafic basés sur
les trajectoires de véhicules. Ces applications ont généré de nouveaux problèmes qui ont fait
naître ou accéléré la recherche sur la gestion d’objets mobiles.. La plupart des travaux sont
axés sur la modélisation d’objet mobiles (Güting et al. 2000, Vazirgiannis et al. 2001) les
méthodes d’accès (Pfoser et al. 2000, Saltenis et al. 2000), les requêtes prédictives et
l’optimisation des mise à jour (Chon et al. 2002, Tao et al 2002, Jensen 2004).
Ces techniques ne s’appliquent pas dans un contexte décisionnel où l’on s’intéresse aux
données historiques sur les objets mobiles. Pourtant, l’analyse a posteriori des phénomènes
mobiles serait bien utile dans les domaines de la planification du transport, des demandes de
services mobiles, etc. Les travaux sur les entrepôts de données spatiaux (Stefanovic et al.
1
Ce travail est partiellement financé par le projet HEARTS (Health Effects and Risk of
Transport Systems), co-financé par le programme énergie, environnement et développement
durable de la Commission Européenne (contrat n°: QLK4-CT-2001-00492). Cet article ne
reflète pas nécessairement l’opinion officielle de la Commission Européenne, d’autres
institutions de la Communauté Européenne ou de l’OMS. Ni la Commission Européenne, ni
l’OMS ne sont responsables de l’usage pouvant être fait du contenu de cet article.
343
RNTI-E-3
Manipulation et fusion de données multidimensionnelles
Franck Ravat, Olivier Teste, Gilles Zurfluh
Institut de Recherche en Informatique de Toulouse / Equipe SIG-ED
118, Route de Narbonne 31062 TOULOUSE cedex 04
mél : {ravat, teste, zurfluh}@irit.fr
Résumé. Cet article définit une algèbre permettant de manipuler des tables
dimensionnelles extraites d'une base de données multidimensionnelles.
L'algèbre intègre un noyau minimum d'opérateurs unaires permettant
d'effectuer les analyses décisionnelles par combinaison d'opérateurs. Cette
algèbre intègre un opérateur binaire permettant la fusion de tables
dimensionnelles facilitant les corrélations des sujets analysés.
1 Introduction
Nos travaux se situent dans le cadre des systèmes décisionnels intégrant des bases de
données multidimensionnelles (BDM). Conceptuellement, ces BDM organisent les données
en sujets appelés faits et axes d’analyses appelés dimensions (Kimball, 1996).
1.1 Contexte : notre modèle conceptuel
Definition : Un fait Fj est défini par (NFj, MFj, IFj, IStarFj) où
- NFj est le nom du fait,
- MFj = {m1, m2,…, mw} est un ensemble de mesures (ou indicateurs d’analyse),
- IFj = {IF_1, IF_2,…} est l'ensemble des instances de F,
- IStarFj est une fonction associant chaque instance de IFj à une instance de chaque
dimension liée au fait.
Definition : Une dimension Di est définie par (NDi, ADi, HDi, IDi) où
- NDi est le nom de la dimension,
- ADi = {aDi_1, aDi_2,…, aDi_u} est un ensemble d'attributs,
- HDi = {hDi_1, hDi_2,…, hDi_y} est un ensemble de hiérarchies,
- IDi = {IDi_1, IDi_2,…} est l'ensemble des instances de Di.
Definition : Une hiérarchie représente une perspective d’analyse précisant les niveaux de
granularité auxquels peuvent être manipulés les indicateurs d’analyse. Une hiérarchie hDi_x
définie sur la dimension Di est un chemin élémentaire acyclique débutant par l’attribut de
plus faible granularité et se terminant par un attribut de plus forte granularité. Elle est définie
par (NDi_x, ParamDi_x, SupplDi_x) où
- NDi_x est le nom de la hiérarchie,
- ParamDi_x = <aDi_k, aDi_l,…, aDi_z> est un ensemble ordonné décrivant la hiérarchie
des attributs (chaque attribut est appelé paramètre de la hiérarchie et correspond à un
niveau de granularité d’analyse),
- SupplDi_x: ParamDi_x →2(ADi - ParamDi_x) est une application spécifiant les attributs faibles
qui complètent la sémantique des paramètres (chaque paramètre est associé à un
ensemble d'attributs faibles).
349
RNTI-E-3
! " # $ % & ' & () * + * & , - * . & / 0 & 1 2 $ , " 3 $ $ * 4 4 0 * & / 0 " , + & "
5 6 7 & & / 8 9 6 : 5 + & " * , ; < : = & 0 * % > 0 " / ?@ A % & > 0 " / ?@
- * / * / $ , = & 0 * 7 * A * A / B $ C 2 2 4 0 /
4 & ( * ?2 * & , > , @ ?@
= & * & 2 % D 4 , " & / & / 0 , " C 4 " , E 0 / 2 F / " , , 0 0 $ " 0 " 2 2 " 0 " * 0 " / 0 2 $ C / 0 ! ! 4 0 / 2 & & , $ @ 0 / 0 , " 2 $ * @ * & / 0 " , @ 0 * / 0 "
, E % G / & C " 0 & 0 ! & ! ? ) E % H * / @ " / , , $ / 4 0 " , 0 0 $ " I , C 0 / J / 2 $ " 0 / " , & 0 " E 0 / 2 F / , , 0 0 $ " G * A & I 0 " / & 0 / ? ) " " 2 $ * @ * & / 0 " , * " @ 0 * / 0 " " / & , " 0 / 2 & 0 0 " 4 % , C " , $ @ 0 " 2 & E / " & / K " 2 4 / / 0 / , " 2 $ * @ &
* 0 " C & / 0 , 0 ( 2 / " "2 $ * @I " , $ " 4 $ " 2 & & ! $ ! & / 0 ? ) & " 2 2 " " 0 , , 0 0 $ "
0 / " "/ $ & " $ , @ & L 0 4 $ * & 0 I G * A & I 2 & " , 4 " G H ?
B & 0 " * 2 & 2 0 " $ / , 0 " E % , " , 0 0 $ " 2 & * 0 " C & / 0 , 0 ( 2 / "
" 2 $ * @ I " H ! $ " / " , & 0 " * & , , E / " & / 0 , , 0 0 $ " / 2 , $ @ 0 "
" 2 $ * @ * & / 0 " , @ 0 * / 0 " , E % 0 " * 0 " , $ 0 " E / / $ , " , 0 0 $ " I " / , $ @ 0 G
/ & C " & * & " M # - 7 - , E 0 ; 2 " " 0 , C ?
B & 0 " 0 0 / 2 F / , , 0 0 $ " * / & 0 " , 0 0 $ " 0 / 0 / / $ " ! 0 @ * & / C / " /
0 / $ " " & 0 / , * 0 " C , $ / & , & 0 " " " / & / $ ! " , E % , " , 0 0 $ " ? + & ; 4 2 , & 0 "
0 0 / 2 F / , , 0 0 $ " , @ & * / & / 0 , * 0 / " "/ 0 /$ " " & 0 / , ! & , , $ /& , "
* 0 / " I 0 / " 4 0 /& 0 / " , @ & * / " " 2 " $ C $ " 2 0 , & 0 / " * 0 I , 0 D " & 0 0 $ " ?
B & 0 " 0 / , $ 4 & * A 0 " 2 0 0 " 0 * 4 2 / " * 0 / & 0 / " , E 0 / $ ! / $ $ @ $ 0 / "
, & 0 " * & , , 4 , D & / 0 0 2 , $ / 4 0 G 2 & / , " " 2 $ * @ * & / 0 " , @ 0 * / 0 "
, E % , $ @ 0 " 2 & E / " & / " 0 ( 2 / " G * 0 " C G " 2 2 4 , & % & " , , 0 0 $ " ? N 0 & ! / A 4 " / , $ @ 0 O 2 0 , 0 0 / $ E 0 " 4 % , " / & % " , & % & " , , 0 0 $ " " C " * " 2 0 , & 0 / & ; " 2 $ * @ * & / 0 " , * 0 " C & / 0 , , $ / & , 0 ( 2 / "
, $ @ 0 " 2 & E / " & / 2 2 , 0 " / 0 0 " 4 % , 0 ( 2 / " G " 2 2 4 / / 0
4 & 0 / 0 & 0 / * A $ 0 / & % & " , , 0 0 $ " ? N 0 ; 2 $ 4 0 / & / 0 " " P & * " / @ & / ?
Q R A 4 # ?S ? 1 2 & * @ @ * 0 / * 0 " C & / C ! & % & ! * * / 0 ? T 0 U ' 1 T + ) . U 0 @ 0 * 0 + ! & 4 4 0 ! ) & 0 ! & ! " B " ! 0 & 0 , T 4 2 4 0 /& / 0 < V V : ?
? # $ % & ? + * & , ' ?) - U W = 0 * / 0 " , E % , & 0 " " 0 / 2 F / " , , 0 0 $ " X Y Z Z 5 U 4 0 / = & 0 , S & 0 C Y Z Z 5 ?
U A & , A 1 ? B & " ? . & & " & & [ ? % " / 2 / 4 " & / 0 (% & " , & 2 2 & * A @ & 2 2 ; 4 & / & 0 " \ 0 ! @ & ! ! ! & / I " + * , 0 ! " @ 1 T ' P B U 0 @ 0 * Y Z Z < ?
B 4 & " ' ? = & C / U ? 1 * A + ? ' , D " / & 0 ! & ! " 2 , 0 0 $ " / 4 2 " U A & 2 / , C W & " " , B 0 0 $ " / T 0 / 0 / X ? B * / / ? S 4 $ , / " # 4 " Y Z Z < ?
N 4 & 0 S ?B ? + 0 * 2 " @ B & / & % & " " & 0 , ] 0 \ , ! & " 1 " / 4 " C 4 < & 0 , Y ?
U 4 2 / 1 * 0 * + " " <V ^ V ?
355
RNTI-E-3
Fouille de Données Relationnelles dans les SGBD
Cédric Udréa, Fadila Bentayeb
ERIC – Université Lumière Lyon 2
5 avenue Pierre Mendès-France – 69676 Bron Cedex – France
{cudrea,bentayeb}@eric.univ-lyon2.fr
Les travaux sur la fouille de données relationnelles prennent leur essor dans le domaine de la Programmation Logique Inductive (PLI). Bien qu’efficace en terme d’extraction de connaissances, la PLI est inadaptée pour traiter des bases de données relationnelles de grande taille. Dans cet article nous présentons une nouvelle approche qui
apporte une solution efficace à la fouille de données relationnelles en intégrant les algorithmes de fouille, en particulier les algorithmes de construction d’arbres de décision,
au sein des Systèmes de Gestion de Bases de Données (SGBD).
Notre approche permet d’effectuer les algorithmes de fouille sur des données provenant de plusieurs tables relationnelles sans limitation de taille en utilisant uniquement
les outils offerts par les SGBD, en particulier les index bitmap de jointures. Ces derniers
permettent d’une part, d’optimiser les temps de traitement et d’autre part, d’exploiter
le caractère prédictif porté par la structure de la base de données.
Notre approche consiste à déterminer les effectifs des différentes populations grâce
aux index bitmap de jointure qui constituent alors la base d’apprentissage. Les différents effectifs sont obtenus facilement par application des opérations logiques et des
opérations de comptage sur les bitmaps (tableaux de bits) sans accéder aux données
sources, réduisant les temps de traitement. D’autre part, les index bitmap de jointure
apportent une solution au problème des données manquantes engendré par des jointures sur des tables liées par des relations de type 0–N. Nous considérons ces valeurs
manquantes comme la négation des autres valeurs possibles. Notre solution consiste
à ajouter un index bitmap de jointure artificiel possédant deux bitmaps, l’un correspondant à l’union des différentes valeurs de l’attribut de jointure, l’autre à la négation
de cette union. Pour les n–uplets ayant une valeur manquante, leurs bits sont mis à 0
pour le bitmap correspondant à l’union des valeurs et à 1 pour le bitmap correspondant à la négation de l’union. L’index ainsi obtenu permet de différencier les n–uplets
ayant une correspondance avec une table de ceux n’en ayant pas. Or cette information
(appartenance ou non à une table) peut s’avérer prédictive dans le processu de fouille.
Afin de valider notre approche, nous avons implémenté l’algorithme ID3 (Induction
Decision Tree) sous le SGBD Oracle 9i, sous la forme de packages de procédures stockées
PL/SQL 1 . Les tests effectués sur des bases possédant des relations 0–N ont montré
que notre méthode permet de considérer l’appartenance ou non à une table comme un
élément prédictif. De plus, nous obtenons des temps de traitement acceptables.
Ce travail de recherche ouvre de nombreuses perspectives. Il est intéressant d’étudier les performances de notre approche sur des grandes bases de données réelles.
Par ailleurs, l’exploitation du caractère prédictif des dépendances fonctionnelles et des
contraintes d’intégrité dans le processus de fouille constitue aussi une voie de recherche
prometteuse.
1. http://bdd.univ-lyon2.fr/download/relational_tree.zip
RNTI-E-3
356
Entrepôt de Données Spatiales basé sur GML: Politique
de Gestion de Cache
Lionel Savary , Georges Gardarin, Karine Zeitouni
Laboratoire PRiSM, Université de Versailles, 45 Avenue des Etats-Unis - 78035 Versailles
{Lionel.Savary, Georges.Gardarin, Karine.Zeitouni}@prism.uvsq.fr
Motivation : Dans les entrepôts de données, la manipulation de gros volumes de
données requière souvent un temps d’exécution important. En particulier, si les requêtes portent sur des données spatiales contenues dans des documents semi-structurés,
les temps de réponse deviennent prohibitifs. Afin de réduire le temps de traitement
imposé par l’utilisation d’opérateurs spatiaux dans ce type de document, nous proposons une politique de remplacement de cache adaptée aux documents GML. Cette
politique prend en compte les données spatiales et non-spatiales, ainsi que le nombre
d’opérateurs spatiaux présents dans les requêtes utilisateurs.
Politique de remplacement de cache : Soit Dq le nouveau document de taille Tq à
insérer dans le cache. On désigne par Ti la taille du document i (1≤i≤n) du cache et
par CGMLi le coût d'accès au document du cache. Soient (Xi) i=1..n ∈ {0 ; 1} n tel que Xi
= 1 si le document i est conservé dans le cache, 0 s’il est supprimé. Notons de plus
DGMLj le coût d'accès au document j sur disque (lorsqu'il n'est pas en cache). On recherche alors les documents i du cache à supprimer tels que la somme des coûts
d'accès soit la plus petite possible:
Minimiser Coût d'accès = ∑nj=1 Xj* CGMLj + ∑nj=1 (1-Xj)* DGMLj
Une contrainte est que la somme des tailles des documents éliminés du cache soit
supérieure ou égale à Tq:
∑ni=1 Xi*Ti ≥ Tq
CGMLi représente le coût d'accès à un document GML i en cache, calculé selon la
formule d’Arlitt [1], soit CGMLi = L + Fi*Ci / Si, avec : L une constante ; Si la taille du
document ; Fi la fréquence d’accès au document et Ci le coût pour une requête sur
des données géographiques. Notre calcul de Ci tient compte du coût sur les données
non-spatiales, du coût sur les données spatiales, ainsi que du nombre d’opérateurs
spatiaux présents dans la requête. Le problème est de déterminer les Xi qui optimisent
le coût total. Nous proposons une adaptation d'algorithmes classiques de recherche
opérationnelle pour déterminer les documents à conserver.
Références
1. M. Arlitt, R. Friedrich L. Cherkasova,J. Dilley, and T. Jin. Evaluating content management
techniques for web proxy caches. In HP Tec. report, Palo Alto, Apr. 1999.
357
RNTI-E-3
AID : Un framework intégré de conception d’un
schéma objet-relationnel
Hassan Badir, Etienne Pichat,
UFR d’Informatique - Université Claude Bernard Lyon 1- LIRIS
Bâtiment Nautibus- 8, boulevard Niels Bohr
69622 Villeurbanne cedex
[email protected],
Résumé. Devant la prolifération des données complexes qui ne cessent de
croı̂tre, et la diversité des structures qui se multiplient, la conception des
schémas de base de données en général et des schémas objet-relationnels
en particulier, est devenue une activité difficile et complexe, qui fait appel
à des connaissances variées. Lors de la conception d’un schéma, l’utilisateur (non averti) doit connaı̂tre la théorie sous-jacente au modèle de
données, de façon à énoncer son modèle, syntaxiquement correct lui permettant de construire un schéma de base de données objet-relationnel
répondant à ses besoins. Plusieurs outils spécialisés dans la conception
de schémas de base de données provenant aussi bien de la communauté
académique que du monde industriel, tels Super, Totem, Rational/Rose,
etc. ont été développés dans des contextes et avec des buts souvent très
différents. Afin de répondre à ce besoin pressant, nous avons proposé une
solution consistant en l’élaboration d’environnements intégrés facilitant la
cohabitation de plusieurs modèles et techniques utilisés lors de la conception d’un schéma de base de données. Il s’agit d’offrir une plate-forme
logicielle appelée AID (Aided Interface for Database design) offrant des
mécanismes opératoires uniformes représentant un soutien graphique et
interactif pour une conception incrémentale basée sur des manipulations
directes et systémiques des graphes au travers d’une palette graphique
d’opérateurs. L’innovation d’AID est son approche systémique qui facilite
l’expression des besoins par le concepteur averti ou non, en lui automatisant sa tâche.
AID permet au concepteur :
– D’exprimer ses besoins et d’affiner ses contraintes au moyen de modèle(s) :
Relation Universelle avec Inclusions (RUI), Forêt d’Attributs Objet
(FAO) et diagramme de classes UML stéréotypé ;
– De passer d’un modèle à un autre en s’appuyant sur des algorithmes
de transformation et de générer le code SQL3 ou un schéma XML ;
item Ultérieurement de particulariser le schéma conceptuel obtenu en
fonction de traitements prévus, en introduisant des méthodes d’accès,
voire en dénormalisant ;
– De pouvoir intégrer plusieurs schémas conceptuels en un seul sans perdre
la moindre information.
RNTI-E-3
358
Téléchargement