Mesures de similarit´
e pour comparer des ´
episodes dans des traces mod´
elis´
ees
Mesures de similarit´e pour comparer des
´episodes dans des traces mod´elis´ees
Raafat Zarka1,2, Am´
elie Cordier1,3, El¨
od Egyed-Zsigmond1,2,
Luc Lamontagne4, and Alain Mille1,3
1Universit´
e de Lyon, CNRS
2INSA-Lyon, LIRIS, UMR5205, F-69621, France
3Universit´
e Lyon 1, LIRIS, UMR5205, F-69622, France
4Department of Computer Science and Software Engineering, Universit´
e Laval, Qu´
ebec, Canada,
G1K 7P4
R´
esum´
e: Cet article rend compte d’une mesure de similarit´
e pour comparer des
´
episodes de traces mod´
elis´
ees. Une trace mod´
elis´
ee est un enregistrement structur´
e
d’observations captur´
ees `
a partir des interactions entre des utilisateurs et un syst`
eme
informatique. Un ´
episode est une sous-partie de la trace mod´
elis´
ee, d´
ecrivant une
tˆ
ache particuli`
ere ex´
ecut´
ee par l’utilisateur. Notre m´
ethode propose une adapta-
tion de l’algorithme de Smith-Waterman pour la comparaison d’´
episodes. Cet algo-
rithme est `
a la fois pr´
ecis quant aux s´
equences temporelles qu’il identifie, et tol´
erant
au bruit g´
en´
eralement pr´
esent dans les traces que nous traitons. Nos ´
evaluations
montrent que notre approche offre des r´
esultats tout `
a fait satisfaisants `
a la fois en
qualit´
e et en temps de r´
eponse. Nous illustrons son utilisation dans le cadre d’une
application de recommandation de s´
equences de vid´
eo.
Mots-cl´
es : mesures de similarit´
e, traces mod´
elis´
ees, recommandations, distance
d’´
edition, interaction homme-machine.
1 Introduction
Depuis quelques ann´
ees, nous observons un int´
erˆ
et croissant de la com-
munaut´
e pour l’analyse de l’activit´
e des utilisateurs sur le Web. Une des
raisons est qu’en observant l’activit´
e des utilisateurs, il est possible d’en
apprendre beaucoup sur leurs comportements et leurs pr´
ef´
erences. Ces
RJCIA 2013
connaissances apprises permettent ensuite d’am´
eliorer la qualit´
e des ser-
vices qui leurs sont propos´
es.
Nous nous int´
eressons `
a cette question dans le cadre d’une collaboration
avec la soci´
et´
e Villeurbannaise Webcastor 1. Plus particuli`
erement, nous
travaillons sur l’application Wanaclip 2. Cette application Web permet `
a des
utilisateurs de composer des clips vid´
eo en compilant des ´
el´
ements audio-
visuels provenant de plusieurs sources. Wanaclip dispose d’un syst`
eme de
recommandations int´
egr´
e qui guide les utilisateurs `
a la fois dans le proces-
sus de s´
election des vid´
eos, et dans l’enchaˆ
ınement des actions `
a effectuer
pour fabriquer des clips de qualit´
e. Le moteur de recommandations est ali-
ment´
e par des traces d’interactions collect´
ees lors des usages pr´
ec´
edents
de l’application.
Une trace d’interaction est un enregistrement des actions effectu´
ees par
l’utilisateur d’un syst`
eme. Nous soutenons que ces traces permettent de
capturer des inscriptions des exp´
eriences des utilisateurs. Les M-Traces
(pour Modeled Traces) diff`
erent des logs car elles disposent d’un mod`
ele
qui d´
ecrit les ´
el´
ements qu’elles contiennent. Ces ´
el´
ements sont appel´
es ob-
sels (pour observed elements). Une M-Trace contient donc `
a la fois des
obsels temporellement situ´
es et le mod`
ele de trace qui caract´
erise ces ob-
sels et leurs relations. Chaque obsel poss`
ede au moins un type et deux mar-
queurs temporels (d´
ebut et fin). Les obsels ont un nombre variable d’attri-
buts, et poss`
edent des relations avec les autres obsels. Chaque type d’obsel
d´
efinit les types et les valeurs possibles pour les attributs. Une description
d´
etaill´
ee du domaine des M-Traces est disponible dans Settouti (2011).
Un ´
episode est une portion d’une trace mod´
elis´
ee dont la structure
peut ˆ
etre complexe. Calculer la similarit´
e entre deux ´
episodes est donc
un probl`
eme diff´
erent du probl`
eme de calcul de similarit´
e traditionnelle-
ment rencontr´
e en R`
aPC, car les mesures de similarit´
e traditionnelles s’ap-
pliquent mal.
Dans cet article, nous nous int´
eressons au probl`
eme du calcul de simi-
larit´
e entre deux ´
episodes contenus dans des traces mod´
elis´
ees. Pour cela,
nous d´
efinissons une nouvelle mesure de similarit´
e qui s’appuie sur deux
composants principaux : une mesure de similarit´
e utilis´
ee pour comparer
les obsels ayant une structure potentiellement complexe ; et un algorithme
pour combiner les mesures de similarit´
e entre obsels afin de comparer les
´
episodes. L’algorithme que nous proposons est une adaptation de l’algo-
rithme pr´
esent´
e dans Smith & Waterman (1981). Nous avons impl´
ement´
e
1. www.webcastor.fr
2. www.wanaclip.eu
Mesures de similarit´
e pour comparer des ´
episodes dans des traces mod´
elis´
ees
notre proposition sous forme d’un service Web dans TStore, un syst`
eme
de gestion de bases de traces qui permet de stocker, traiter et exploiter les
traces mod´
elis´
ees (Zarka et al. (2013)). Nous avons appliqu´
e notre pro-
position dans le cadre de Wanaclip afin de fournir des recommandations
contextuelles aux utilisateurs.
Ce papier est organis´
e de la fac¸on suivante. La section 2 pr´
esente des tra-
vaux relatifs `
a la probl´
ematique des mesures de similarit´
e dans les donn´
ees
s´
equentielles. Notre proposition de mesure de similarit´
e entre obsels est
pr´
esent´
ee dans la section 3. Dans la section 4, nous d´
ecrivons l’algorithme
de calcul de similarit´
e entre ´
episodes dans des M-Traces. Dans la sec-
tion 5, nous pr´
esentons les exp´
erimentations pour ´
evaluer les performances
de l’approche. La section 6 conclut l’article.
2 Mesures de similarit´
es pour les donn´
ees s´
equentielles
Il existe diff´
erentes approches de comparaison de chaˆ
ınes de caract`
eres
qui peuvent ˆ
etre utilis´
ees pour d´
efinir des mesures de similarit´
e dans les
donn´
ees s´
equentielles.
Une comparaison d´
etaill´
ee de trois des plus importantes classes de me-
sures de similarit´
e (i.e. distance d’´
edition,sac de mots et String kernels) est
propos´
ee dans Rieck (2011). Dans cette section, nous pr´
esentons certaines
de ces mesures et leur usage dans diff´
erents domaines.
2.1 D´
efinir des mesures de similarit´
e
Une des premi`
eres approches est la notion de distance d’´
edition entre
des chaˆ
ınes de caract`
eres propos´
ee par Hamming (1950) et Levenshtein
(1966). Ces mesures proviennent du domaine des t´
el´
ecommunications et
´
etaient principalement utilis´
ees pour la d´
etection des donn´
ees ´
erronn´
ees
dans les transmissions. Elles permettent de calculer la distance d’´
edition
minimum entre deux chaines en utilisant le nombre d’op´
erations d’´
editions
n´
ecessaires pour passer d’une chaine `
a l’autre (insertion, suppression, sub-
stitution). La m´
ethode d´
ecrite dans Needleman & Wunsch (1970) effectue
un alignement global de s´
equences. L’algorithme d´
ecrit dans Smith & Wa-
terman (1981) effectue un alignement local, ce qui est plus pertinent pour
comparer des s´
equences plutˆ
ot dissimilaires, qui contiennent probablement
des r´
egions de similarit´
e importantes.
Une autre approche de comparaison repose sur l’utilisation d’espaces de
vecteurs (sac de mots). Cette approche provient des travaux en recherche
d’information et impl´
emente une solution de comparaison de chaˆ
ınes de
RJCIA 2013
caract`
eres en repr´
esentant des donn´
ees s´
equentielles dans un espace de
vecteurs Salton et al. (1975). Ce concept a ´
et´
e´
etendu `
a la notion de n-
grams pour la comparaison approximative (Damashek (1995)). Un n-gram
est une s´
equence de n´
el´
ements dans une s´
equence de texte donn´
ee. L’ap-
proche `
a base d’espaces de vecteurs est tr`
es utilis´
ee pour l’analyse de do-
cuments textuels.
L’approche d’apprentissage `
a base de noyaux est une classe r´
ecente de
mesures de similarit´
e d´
eriv´
ee des mod`
eles de probabilit´
e g´
en´
eratifs. Plu-
sieurs noyaux ont ´
et´
e d´
evelopp´
es pour traiter les donn´
ees s´
equentielles.
Ces travaux s’appuient sur les travaux originaux de Watkins (1999) et sont
´
etendus en variantes pour des domaines sp´
ecifiques, tels que les String ker-
nels, tr`
es utilis´
es dans les travaux de traitement automatique de la langue
(Lodhi et al. (2002)) et en bio-informatique (Cuturi et al. (2006)).
2.2 Mesures de similarit´
e en raisonnement `
a partir de cas
Dans le domaine du R`
aPC, des mesures de similarit´
e pour les s´
equences
complexes ont ´
egalement ´
et´
e d´
evelopp´
ees. L’environnement pour le raison-
nement `
a partir d’´
episodes propos´
e par S`
anchez-Marr`
eet al. (2005) four-
nit des m´
ecanismes pour repr´
esenter, retrouver et apprendre des ´
episodes
ayant un dimension temporelle. Une mesure de confiance pour l’adaptation
de workflows, qui s’appuie sur un m´
ecanisme d’introspection dans la base
de cas, est propos´
e dans Minor et al. (2012). Le syst`
eme CeBeTA (Valls &
Onta˜
n´
on (2012)) combine une mesure de similarit´
e sous forme de distance
d’´
edition avec une approche de r´
eutilisation de routines de transformation
de texte. Cette m´
ethode permet de g´
en´
erer des solutions `
a des probl`
emes
de modification de textes. Une structure de cas sp´
ecifique et une distance
associ´
ee ont ´
et´
e propos´
ees dans Montani & Leonardi (2012). Les auteurs
utilisent cette approche pour retrouver des traces similaires `
a la trace cou-
rante. Les auteurs utilisent un graph de distance d’´
edition construit `
a partir
des traces d’ex´
ecution. Cela leur permet de garantir que les actions enre-
gistr´
ees dans les traces correspondent toujours `
a la r´
ealit´
e. Notre approche
s’appuie sur une mesure de similarit´
e entre obsels, mesure qui permet de
comparer leur contenu (dates, utilisateurs, types et valeurs). La plupart de
ces approches permettent une comparaison d’´
el´
ements homog`
enes (lettres,
symboles). Dans cet article, nous nous int´
eressons plus particuli`
erement `
a
des traces qui contiennent des symboles qui ne sont pas homog`
enes, et
sont donc moins faciles `
a comparer. Pour cela, nous proposons une ap-
proche inspir´
ee de l’algorithme de Smith & Waterman (1981), que nous
avons enrichi afin de prendre en compte la complexit´
e des ´
el´
ements que
Mesures de similarit´
e pour comparer des ´
episodes dans des traces mod´
elis´
ees
nous devons comparer. Nous avons choisi cet algorithme car, en l’enrichis-
sant avec notre mesure de similarit´
e entre obsels, il pr´
esente toutes les pro-
pri´
et´
es attendues pour la comparaison d’´
episodes, `
a savoir : le traitement de
donn´
ees s´
equentielles, la tol´
erance aux variations dans les repr´
esentations,
un fort degr´
e de possibilit´
es de personnalisation, et un temps de r´
eponse
satisfaisant pour une utilisation en temps r´
eel.
3 Mesures de similarit´
e entre obsels
Afin de calculer la similarit´
e entre obsels, il est n´
ecessaire de d´
efinir
des mesures de similarit´
e locales entre les types d’obsels, les utilisateurs,
les attributs, et les dates, autant d’´
el´
ements importants dans la composition
d’un obsel.
D´
efinition 1
Soit simobs(o1, o2)une mesure de similarit´
e entre les obsels
o1={c1, Ao1, u1, st1, et1}et o2={c2, Ao2, u2, st2, et2}telle que :
simobs(o1, o2) = α×simobstype(c1, c2) + β×simobsattr(Ao1, Ao2)
+γ×simobsuser(u1, u2) + δ×simobstime(st1, et1, st2, et2)(1)
avec :
simobstype(c1, c2): similarit´
e entre les types d’obsels,
simobsattr(Ao1, Ao2): similarit´
e entre les attributs,
simobsuser(u1, u2): similarit´
e entre les utilisateurs,
simobstime(st1, et1, st2, et2): similarit´
e temporelle,
α, β, γ, δ : poids, avec (α+β+γ+δ)=1(normalisation).
La mesure de similarit´
e entre obsels simobs(o1, o2)est une valeur norma-
lis´
ee [0,1] puisque toutes ses mesures composantes (simobstype,simobsattr,
simobsuser,simobstime) sont normalis´
ees et que la somme des poids est
´
egale `
a 1 (α+β+γ+δ) = 1. C’est l’expert qui d´
efinit ces valeurs.
3.1 Similarit´
e entre types d’obsels simobstype(c1, c2)
Deux types d’obsels diff´
erents peuvent ˆ
etre consid´
er´
es comme simi-
laires s’ils partagent un certain nombre de propri´
et´
es communes. Par
cons´
equent, nous proposons de d´
efinir une matrice de substitution pour
les types d’obsels Sobstype(|C|×|C|). En bio-informatique et en biologie
´
evolutionnaire, une matrice de substitution d´
ecrit la fac¸on selon laquelle
1 / 15 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !