Mesures de similarité pour comparer des épisodes dans

Mesures de similarit´

e pour comparer des ´

episodes dans des traces mod´

elis´

ees

Mesures de similarit´e pour comparer des

´episodes dans des traces mod´elis´ees

Raafat Zarka1,2, Am´

elie Cordier1,3, El¨

od Egyed-Zsigmond1,2,

Luc Lamontagne4, and Alain Mille1,3

1Universit´

e de Lyon, CNRS

2INSA-Lyon, LIRIS, UMR5205, F-69621, France

3Universit´

e Lyon 1, LIRIS, UMR5205, F-69622, France

4Department of Computer Science and Software Engineering, Universit´

e Laval, Qu´

ebec, Canada,

G1K 7P4

[email protected], [email protected],

[email protected]

R´

esum´

e: Cet article rend compte d’une mesure de similarit´

e pour comparer des

´

episodes de traces mod´

elis´

ees. Une trace mod´

elis´

ee est un enregistrement structur´

e

d’observations captur´

ees `

a partir des interactions entre des utilisateurs et un syst`

eme

informatique. Un ´

episode est une sous-partie de la trace mod´

elis´

ee, d´

ecrivant une

tˆ

ache particuli`

ere ex´

ecut´

ee par l’utilisateur. Notre m´

ethode propose une adapta-

tion de l’algorithme de Smith-Waterman pour la comparaison d’´

episodes. Cet algo-

rithme est `

a la fois pr´

ecis quant aux s´

equences temporelles qu’il identiﬁe, et tol´

erant

au bruit g´

en´

eralement pr´

esent dans les traces que nous traitons. Nos ´

evaluations

montrent que notre approche offre des r´

esultats tout `

a fait satisfaisants `

a la fois en

qualit´

e et en temps de r´

eponse. Nous illustrons son utilisation dans le cadre d’une

application de recommandation de s´

equences de vid´

eo.

Mots-cl´

es : mesures de similarit´

e, traces mod´

elis´

ees, recommandations, distance

d’´

edition, interaction homme-machine.

1 Introduction

Depuis quelques ann´

ees, nous observons un int´

erˆ

et croissant de la com-

munaut´

e pour l’analyse de l’activit´

e des utilisateurs sur le Web. Une des

raisons est qu’en observant l’activit´

e des utilisateurs, il est possible d’en

apprendre beaucoup sur leurs comportements et leurs pr´

ef´

erences. Ces

RJCIA 2013

connaissances apprises permettent ensuite d’am´

eliorer la qualit´

e des ser-

vices qui leurs sont propos´

es.

Nous nous int´

eressons `

a cette question dans le cadre d’une collaboration

avec la soci´

et´

e Villeurbannaise Webcastor 1. Plus particuli`

erement, nous

travaillons sur l’application Wanaclip 2. Cette application Web permet `

a des

utilisateurs de composer des clips vid´

eo en compilant des ´

el´

ements audio-

visuels provenant de plusieurs sources. Wanaclip dispose d’un syst`

eme de

recommandations int´

egr´

e qui guide les utilisateurs `

a la fois dans le proces-

sus de s´

election des vid´

eos, et dans l’enchaˆ

ınement des actions `

a effectuer

pour fabriquer des clips de qualit´

e. Le moteur de recommandations est ali-

ment´

e par des traces d’interactions collect´

ees lors des usages pr´

ec´

edents

de l’application.

Une trace d’interaction est un enregistrement des actions effectu´

ees par

l’utilisateur d’un syst`

eme. Nous soutenons que ces traces permettent de

capturer des inscriptions des exp´

eriences des utilisateurs. Les M-Traces

(pour Modeled Traces) diff`

erent des logs car elles disposent d’un mod`

ele

qui d´

ecrit les ´

el´

ements qu’elles contiennent. Ces ´

el´

ements sont appel´

es ob-

sels (pour observed elements). Une M-Trace contient donc `

a la fois des

obsels temporellement situ´

es et le mod`

ele de trace qui caract´

erise ces ob-

sels et leurs relations. Chaque obsel poss`

ede au moins un type et deux mar-

queurs temporels (d´

ebut et ﬁn). Les obsels ont un nombre variable d’attri-

buts, et poss`

edent des relations avec les autres obsels. Chaque type d’obsel

d´

eﬁnit les types et les valeurs possibles pour les attributs. Une description

d´

etaill´

ee du domaine des M-Traces est disponible dans Settouti (2011).

Un ´

episode est une portion d’une trace mod´

elis´

ee dont la structure

peut ˆ

etre complexe. Calculer la similarit´

e entre deux ´

episodes est donc

un probl`

eme diff´

erent du probl`

eme de calcul de similarit´

e traditionnelle-

ment rencontr´

e en R`

aPC, car les mesures de similarit´

e traditionnelles s’ap-

pliquent mal.

Dans cet article, nous nous int´

eressons au probl`

eme du calcul de simi-

larit´

e entre deux ´

episodes contenus dans des traces mod´

elis´

ees. Pour cela,

nous d´

eﬁnissons une nouvelle mesure de similarit´

e qui s’appuie sur deux

composants principaux : une mesure de similarit´

e utilis´

ee pour comparer

les obsels ayant une structure potentiellement complexe ; et un algorithme

pour combiner les mesures de similarit´

e entre obsels aﬁn de comparer les

´

episodes. L’algorithme que nous proposons est une adaptation de l’algo-

rithme pr´

esent´

e dans Smith & Waterman (1981). Nous avons impl´

ement´

e

1. www.webcastor.fr

2. www.wanaclip.eu

Mesures de similarit´

e pour comparer des ´

episodes dans des traces mod´

elis´

ees

notre proposition sous forme d’un service Web dans TStore, un syst`

eme

de gestion de bases de traces qui permet de stocker, traiter et exploiter les

traces mod´

elis´

ees (Zarka et al. (2013)). Nous avons appliqu´

e notre pro-

position dans le cadre de Wanaclip aﬁn de fournir des recommandations

contextuelles aux utilisateurs.

Ce papier est organis´

e de la fac¸on suivante. La section 2 pr´

esente des tra-

vaux relatifs `

a la probl´

ematique des mesures de similarit´

e dans les donn´

ees

s´

equentielles. Notre proposition de mesure de similarit´

e entre obsels est

pr´

esent´

ee dans la section 3. Dans la section 4, nous d´

ecrivons l’algorithme

de calcul de similarit´

e entre ´

episodes dans des M-Traces. Dans la sec-

tion 5, nous pr´

esentons les exp´

erimentations pour ´

evaluer les performances

de l’approche. La section 6 conclut l’article.

2 Mesures de similarit´

es pour les donn´

ees s´

equentielles

Il existe diff´

erentes approches de comparaison de chaˆ

ınes de caract`

eres

qui peuvent ˆ

etre utilis´

ees pour d´

eﬁnir des mesures de similarit´

e dans les

donn´

ees s´

equentielles.

Une comparaison d´

etaill´

ee de trois des plus importantes classes de me-

sures de similarit´

e (i.e. distance d’´

edition,sac de mots et String kernels) est

propos´

ee dans Rieck (2011). Dans cette section, nous pr´

esentons certaines

de ces mesures et leur usage dans diff´

erents domaines.

2.1 D´

eﬁnir des mesures de similarit´

e

Une des premi`

eres approches est la notion de distance d’´

edition entre

des chaˆ

ınes de caract`

eres propos´

ee par Hamming (1950) et Levenshtein

(1966). Ces mesures proviennent du domaine des t´

el´

ecommunications et

´

etaient principalement utilis´

ees pour la d´

etection des donn´

ees ´

erronn´

ees

dans les transmissions. Elles permettent de calculer la distance d’´

edition

minimum entre deux chaines en utilisant le nombre d’op´

erations d’´

editions

n´

ecessaires pour passer d’une chaine `

a l’autre (insertion, suppression, sub-

stitution). La m´

ethode d´

ecrite dans Needleman & Wunsch (1970) effectue

un alignement global de s´

equences. L’algorithme d´

ecrit dans Smith & Wa-

terman (1981) effectue un alignement local, ce qui est plus pertinent pour

comparer des s´

equences plutˆ

ot dissimilaires, qui contiennent probablement

des r´

egions de similarit´

e importantes.

Une autre approche de comparaison repose sur l’utilisation d’espaces de

vecteurs (sac de mots). Cette approche provient des travaux en recherche

d’information et impl´

emente une solution de comparaison de chaˆ

ınes de

RJCIA 2013

caract`

eres en repr´

esentant des donn´

ees s´

equentielles dans un espace de

vecteurs Salton et al. (1975). Ce concept a ´

et´

e´

etendu `

a la notion de n-

grams pour la comparaison approximative (Damashek (1995)). Un n-gram

est une s´

equence de n´

el´

ements dans une s´

equence de texte donn´

ee. L’ap-

proche `

a base d’espaces de vecteurs est tr`

es utilis´

ee pour l’analyse de do-

cuments textuels.

L’approche d’apprentissage `

a base de noyaux est une classe r´

ecente de

mesures de similarit´

e d´

eriv´

ee des mod`

eles de probabilit´

e g´

en´

eratifs. Plu-

sieurs noyaux ont ´

et´

e d´

evelopp´

es pour traiter les donn´

ees s´

equentielles.

Ces travaux s’appuient sur les travaux originaux de Watkins (1999) et sont

´

etendus en variantes pour des domaines sp´

eciﬁques, tels que les String ker-

nels, tr`

es utilis´

es dans les travaux de traitement automatique de la langue

(Lodhi et al. (2002)) et en bio-informatique (Cuturi et al. (2006)).

2.2 Mesures de similarit´

e en raisonnement `

a partir de cas

Dans le domaine du R`

aPC, des mesures de similarit´

e pour les s´

equences

complexes ont ´

egalement ´

et´

e d´

evelopp´

ees. L’environnement pour le raison-

nement `

a partir d’´

episodes propos´

e par S`

anchez-Marr`

eet al. (2005) four-

nit des m´

ecanismes pour repr´

esenter, retrouver et apprendre des ´

episodes

ayant un dimension temporelle. Une mesure de conﬁance pour l’adaptation

de workﬂows, qui s’appuie sur un m´

ecanisme d’introspection dans la base

de cas, est propos´

e dans Minor et al. (2012). Le syst`

eme CeBeTA (Valls &

Onta˜

n´

on (2012)) combine une mesure de similarit´

e sous forme de distance

d’´

edition avec une approche de r´

eutilisation de routines de transformation

de texte. Cette m´

ethode permet de g´

en´

erer des solutions `

a des probl`

emes

de modiﬁcation de textes. Une structure de cas sp´

eciﬁque et une distance

associ´

ee ont ´

et´

e propos´

ees dans Montani & Leonardi (2012). Les auteurs

utilisent cette approche pour retrouver des traces similaires `

a la trace cou-

rante. Les auteurs utilisent un graph de distance d’´

edition construit `

a partir

des traces d’ex´

ecution. Cela leur permet de garantir que les actions enre-

gistr´

ees dans les traces correspondent toujours `

a la r´

ealit´

e. Notre approche

s’appuie sur une mesure de similarit´

e entre obsels, mesure qui permet de

comparer leur contenu (dates, utilisateurs, types et valeurs). La plupart de

ces approches permettent une comparaison d’´

el´

ements homog`

enes (lettres,

symboles). Dans cet article, nous nous int´

eressons plus particuli`

erement `

a

des traces qui contiennent des symboles qui ne sont pas homog`

enes, et

sont donc moins faciles `

a comparer. Pour cela, nous proposons une ap-

proche inspir´

ee de l’algorithme de Smith & Waterman (1981), que nous

avons enrichi aﬁn de prendre en compte la complexit´

e des ´

el´

ements que

Mesures de similarit´

e pour comparer des ´

episodes dans des traces mod´

elis´

ees

nous devons comparer. Nous avons choisi cet algorithme car, en l’enrichis-

sant avec notre mesure de similarit´

e entre obsels, il pr´

esente toutes les pro-

pri´

et´

es attendues pour la comparaison d’´

episodes, `

a savoir : le traitement de

donn´

ees s´

equentielles, la tol´

erance aux variations dans les repr´

esentations,

un fort degr´

e de possibilit´

es de personnalisation, et un temps de r´

eponse

satisfaisant pour une utilisation en temps r´

eel.

3 Mesures de similarit´

e entre obsels

Aﬁn de calculer la similarit´

e entre obsels, il est n´

ecessaire de d´

eﬁnir

des mesures de similarit´

e locales entre les types d’obsels, les utilisateurs,

les attributs, et les dates, autant d’´

el´

ements importants dans la composition

d’un obsel.

D´

eﬁnition 1

Soit simobs(o1, o2)une mesure de similarit´

e entre les obsels

o1={c1, Ao1, u1, st1, et1}et o2={c2, Ao2, u2, st2, et2}telle que :

simobs(o1, o2) = α×simobstype(c1, c2) + β×simobsattr(Ao1, Ao2)

+γ×simobsuser(u1, u2) + δ×simobstime(st1, et1, st2, et2)(1)

avec :

–simobstype(c1, c2): similarit´

e entre les types d’obsels,

–simobsattr(Ao1, Ao2): similarit´

e entre les attributs,

–simobsuser(u1, u2): similarit´

e entre les utilisateurs,

–simobstime(st1, et1, st2, et2): similarit´

e temporelle,

–α, β, γ, δ : poids, avec (α+β+γ+δ)=1(normalisation).

La mesure de similarit´

e entre obsels simobs(o1, o2)est une valeur norma-

lis´

ee ∈[0,1] puisque toutes ses mesures composantes (simobstype,simobsattr,

simobsuser,simobstime) sont normalis´

ees et que la somme des poids est

´

egale `

a 1 (α+β+γ+δ) = 1. C’est l’expert qui d´

eﬁnit ces valeurs.

3.1 Similarit´

e entre types d’obsels simobstype(c1, c2)

Deux types d’obsels diff´

erents peuvent ˆ

etre consid´

er´

es comme simi-

laires s’ils partagent un certain nombre de propri´

et´

es communes. Par

cons´

equent, nous proposons de d´

eﬁnir une matrice de substitution pour

les types d’obsels Sobstype(|C|×|C|). En bio-informatique et en biologie

´

evolutionnaire, une matrice de substitution d´

ecrit la fac¸on selon laquelle

6

7

8

9

10

11

12

13

14

15

Mesures de similarité pour comparer des épisodes dans

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Mesures de similarité pour comparer des épisodes dans

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib