Recherche de motifs séquentiels pour guider l

Téléchargement

Revue. Volume X – n° x/année, pages 1 à X

Recherche de motifs séquentiels pour guider

l'interprétation des traces d’apprentissage

dans un EIAH

Adrien Cheype

SYSCOM - Université de Savoie

Campus Scientifique

73376 Le Bourget du Lac - France

adrien.cheyp[email protected]-savoie.fr

RÉSUMÉ. Nous nous intéressons dans cet article à l'aide à l’analyse des traces d’apprentissage au

sein d’un EIAH. A partir de traces reflétant l’activité des apprenants, nous voulons mettre en

évidence des indices qui représentent des comportements communs chez les apprenants. Ces

indices permettront à l’enseignant-analyste de découvrir les suites d’actions qui ont tendance à

mener à la réussite ou à l’échec d’un exercice. Afin d’effectuer cette phase d’analyse

automatique, nous nous appuyons sur des techniques du domaine de la fouille de données

temporelles et associons une classification préliminaire à une recherche de motifs séquentiels.

ABSTRACT. In this article we focus on the help to the analysis of the learning trace within a

learning platform. From traces reflecting learners’ activity we want to highlight the clues which

represent common behaviour among learners. These clues will allow the teacher-analyst to

discover series of actions which tend to lead to the success or to the failure of a given exercise.

To carry out this automatic analysis phase, we rely on techniques from the domain of temporal

data mining and associate a preliminary classification with a search of sequential patterns.

MOTS-CLÉS : EIAH, aide à l’analyse, traces, découverte de motifs séquentiels

KEYWORDS: learning platform, help to analysis, traces, sequential patterns discovery

1. Introduction

L’enseignant pédagogue cherche constamment à connaître la réaction de ses élèves

quand ils sont confrontés à ses instructions. Grâce à ses facultés d’observation qui sont

souvent de l’ordre du visuel, il capte quelques brides d’informations et via ses capacités

de déduction il arrive souvent à comprendre si cet élève est sur la voie de la réussite ou

de l’échec. Par exemple, en circulant dans les rangs et en observant les étudiants

chercher les exercices, il sait repérer, grâce à son expérience, un indice qui certifie qu'un

étudiant est sur une mauvaise piste.

2 Revue. Volume X – n° x/année

Les Environnements Informatiques pour l'Apprentissage Humain permettent de

suivre l’activité de l’élève dans son apprentissage ; ces outils nous fournissent une

grande quantité d’informations comparée aux simples observations visuelles d’un

enseignant. Cependant les informations récoltées (communément appelées traces) sont

trop volumineuses pour être exploitées manuellement par l’enseignant-analyste.

Des travaux montrant l'hétérogénéité des traces, les différents niveaux d'abstraction

auxquels elles font référence, les transformations pour passer d'un niveau d'abstraction à

un autre ont été effectués dans notre laboratoire (Heraud et al., 2005). Dans le cadre de

cet article, nous proposons de travailler à partir de traces d’un niveau d’abstraction assez

élevé. Nous souhaitons mettre en évidence les indices issus des traces qui permettent à

l’analyste-enseignant d’établir des déductions sur l’activité des apprenants.

Nous considérons selon le but d'analyse poursuivi, que certains indices peuvent être

classés en deux catégories : ceux qui mènent à l'objectif, ceux qui en éloignent. Dans la

suite de cet article, nous restreignons notre but d'analyse à la réussite ou à l’échec d’un

exercice donné.

L'idée est de permettre de détecter des indices à partir des traces effectives obtenues

lors de l'expérimentation et représentant l'historique de l'activité collaborative des

acteurs dans la classe. Ces indices peuvent être simples comme par exemple une erreur

classique détectée qui mène à un résultat faux. Ils peuvent être plus complexes comme

par exemple un cheminement représentant le raisonnement qui mène à un succès.

Afin d’arriver à ces résultats, nous proposons une analyse automatique des traces qui

s’appuie sur des techniques provenant du domaine de la fouille de données temporelles.

Nous nous baserons alors essentiellement sur la recherche de motifs séquentiels afin de

détecter les séquences d’actions qui reviennent fréquemment, à la fois chez les

apprenants qui ont réussi et chez ceux qui ont échoué.

Nous commencerons cet article en faisant un rapide état des lieux des techniques de

fouille de données temporelles sur lesquelles repose notre travail, puis nous chercherons

à montrer de quelle manière ces techniques peuvent s’appliquer au domaine des EIAH

en appuyant notre argumentation sur un exemple simple.

2. Fouille de données temporelles

Dans (Kodratoff, 2001), Kodratoff définit la fouille de données comme un

« processus interactif et itératif d'analyse d'un grand ensemble de données brutes afin

d'en extraire des connaissances exploitables par l'utilisateur-analyste qui y joue un rôle

central ». La fouille de données temporelles fournit en plus une capacité à suggérer les

causes et les effets.

Titre courant de l’article 3

2.1. Données temporelles

Nous pouvons identifier deux types d'objets sur lesquels les algorithmes de fouille de

données temporelles opèrent. D’une part, les séries temporelles qui représentent des

données provenant de sources continues. D’autre part, les séquences temporelles qui

représentent des listes ordonnées d'évènements. Dans le cadre des traces d’usages d’un

EIAH, les séries temporelles sont peu appropriées car les sources de données continues

sont rarement utilisées (notamment par une caméra surveillant un apprenant). De plus,

une trace d'usage peut être considérée comme un ensemble d'actions effectuées l'une

après l'autre par un apprenant. Cette suite d'évènements peut alors être assimilée

intuitivement à une séquence temporelle.

Nous représentons donc les traces d'usages par des séquences temporelles qui

comportent des actions (des ensembles à 1 élément). Chaque apprenant est associé à une

trace α = (a1, a2, ..., an) qui définit la suite d'actions ai qu'il a effectué. Une n-séquence

est alors une séquence (représentant une trace) qui comporte n évènements (représentant

n actions). Par exemple, la séquence (EnregistrerDoc, LancerLogMail, EnvoiMail) est

une 3-séquence qui représente la trace d'un élève qui envoie par mail son travail à une

autre personne.

2.2. Algorithmes de type « a priori » et recherche des motifs séquentiels

Les algorithmes de type « a priori » empruntent leur nom à l'algorithme précurseur

« a priori » (Agrawal et al., 1993). Ce premier algorithme, appliqué au domaine de

l'étude du comportement des consommateurs, permet de découvrir des règles

d'associations entre divers articles. Une règle d'association est dans ce contexte une

relation causale entre deux ensembles. Une variation s'appuyant sur l'ordre des éléments

a ensuite émergé sous le nom de recherche de motifs séquentiels (Agrawal et al., 1995)

puis sont apparus des algorithmes plus performants tels que GSP (Srikant et al., 1996)

ou SPADE (Zaki, 2000). Ces algorithmes permettent de découvrir les séquences

fréquentes (les motifs) puis d'établir des règles entre elles, comme par exemple (thé →

pain → beurre)



(confiture → biscuits). Nous avons choisi de nous appuyer sur

SPADE tout en effectuant préalablement une phase de classification préliminaire comme

dans PlanMine (Zaki et al., 1998). Nous n’utiliserons cependant pas de découverte de

règles car notre classification préliminaire nous permet déjà de nous concentrer sur des

traces du type (α



réussite) et (α



échec), α étant une séquence quelconque.

3. Analyse des traces d'usages grâce à la découverte de motifs séquentiels

Nous commencerons notre analyse automatique par une classification supervisée.

Dans notre cas, le facteur différenciateur est le résultat : réussite ou échec de l’exercice.

Nous regroupons donc les traces des participants en deux classes : les traces des élèves

qui réussissent à l'exercice (Dréu), et les traces des élèves qui échouent à l'exercice (Déch).

L'ensemble des traces Dréu servira alors à découvrir le comportement commun qui

4 Revue. Volume X – n° x/année

contribue à la réussite, tandis que l'ensemble Déch servira à découvrir le comportement

commun qui contribue à l'échec.

A la suite de la classification, nous effectuons une recherche des séquences

fréquentes sur Dréu et Déch en appliquant l'algorithme SPADE. Afin de déterminer si une

séquence peut être considérée comme fréquente, cet algorithme s'appuie sur la notion de

sous-séquence et de support. Dans le cadre où nos séquences sont composées

d'ensembles à 1 élément, nous pouvons énoncer que la séquence α = (a1, a2, ..., an) est

une sous-séquence de la séquence β = (b1, b2, ..., bn), noté α



β, s'il existe des entiers i1

< i2 < ... < in tel que ai = bij. Par ailleurs, le support d'une séquence α dans un ensemble

D de traces est le pourcentage des traces S qui ont α comme sous-séquence, c'est à dire,

 

DDSDfr  



),(

Une séquence α est alors dite fréquente dans un ensemble D quand

fr(α,D) ≥ SupportMin. Nous appellerons Fk l'ensemble des k-séquences fréquentes.

Reprenons notre exemple, et voyons comment l'algorithme procède pour identifier les

séquences fréquentes dans les traces des participants qui ont réussi l'exercice. Notre

exemple de la Figure 1 présente, dans sa première partie, un ensemble de 4 traces de

Dréu,, le support minimal utilisé (50%) et les résultats obtenus (Rréu = ∑Fk de réussite).

L'algorithme commence par déterminer les 1-séquences qui sont fréquentes en calculant

leur support et en ne gardant seulement que celles qui ont un support supérieur à

SupportMin (soit F1 = {A, B, F, G}). Ensuite, pour déterminer Fn, on sélectionne les

candidats possibles de telle sorte que ces probables n-séquences fréquentes soient

composées par n sous-séquences appartenant à Fn-1. On calcule ensuite leur support et on

ne retient parmi les candidats que les séquences dont le support est supérieur à

SupportMin. Par exemple, la séquence A→D (A,D є F1) n'est pas retenue comme

élément de F2 car son support de 25% est plus petit que SupportMin. Au contraire,

A→B→F (A→B, B→F, A→F є F2) est retenu pour F3 avec son support de 75%, ainsi

que D→B→F→A (D→B→F, D→B→A, D→F→A, B→F→A є F3) pour F4 avec son

support 50%.

Nous présentons dans la deuxième partie de la Figure 1 les traces de Déch et les

résultats obtenus (Réch = ∑Fk d’échec) avec également un support minimal de 50%. Ces

deux supports minimaux sont choisis à titre d'exemple. Avec des données réelles, nous

devrons passer par une phase de paramétrages afin d’adapter ces supports au contexte de

la plate-forme et de l’expérience visée.

Titre courant de l’article 5

Figure 1. Calcul des séquences fréquentes pour les traces

des apprenants qui ont réussi puis pour ceux qui ont échoué

La phase d’élagages opère sur les séquences fréquentes de Rréu et Réch. Pendant cette

phase, plusieurs élagages successifs interviennent afin de supprimer les séquences

inintéressantes des deux ensembles. Nous présenterons deux formes d’élagages.

Pour le premier élagage, nous partons de l'hypothèse que si une séquence d'actions

est identifiée comme fréquente à la fois dans les traces des participants qui ont réussi et

dans les traces de ceux qui ont échoué, alors nous ne pouvons pas déterminer si cette

séquence contribue à obtenir une réussite ou un échec. Nous éliminons alors les

séquences qui sont communes à Rréu et Réch. Pour notre exemple, l’application de cet

élagage réduit les ensembles résultants à

Rréu= {D ; D→A ; D→B ; D→F ; B→F→A ; D→B→A ; D→B→F ; D→F→A ;

D→B→F→A} et Réch = {G ; A→G ; B→G ; F→B ; G→A ; G→B ; G→ F ; A→B→G

; A→G→F ; B→G→F ; F→ A→B ; G→F→A ; A→B→G→F}.

Pour le second élagage, nous considérons une séquence comme redondante si elle est

une sous-séquence d'une autre et si ces deux séquences ont le même support dans

l'ensemble étudié. Prenons dans notre exemple la 3-séquence fréquente A→B→G de

support 50 % (Figure 2). L'identification de cette 3-séquence est préalablement passée

par la détection des 2-séquences fréquentes suivantes : A→B de support 75 %, B→G de

Traces d’apprentissage réussites

Apprenant 1 : C→D→A→B→C→A→B→F→A→C→D→F

Apprenant 3 : A→B→F→E

Apprenant 4 : A→B→F

Apprenant 6 : D→G→H→B→F→A→G→H

1-séq. fréquentes /support

A 100 %

B 100 %

D 50 %

F 100 %

2-séq. fréquentes /support

3-séq. fréquentes / support

A→B→F 75 %

B→F→A 75 %

D→B→A 50 %

D→B→F 50 %

D→F→A 50 %

4-séq. fréquentes/ sup.

D→B→F→A 50 %

A→B 75 %

A→F 75 %

B→A 50 %

B→F 100 %

D→A 50 %

D→B 50 %

D→F 50 %

F→A 50 %

SupportMin = 50 %

Traces d’apprentissage échouées

Apprenant 2 : G→F→A→B

Apprenant 5 : F→A→B→G→A→F→G→D

Apprenant 7 : B→C→G→E→B→F→C→A

Apprenant 8 : A→B→G→F

1-séq. fréquentes

/sup.

A 100 %

B 100 %

F 100 %

G 100 %

2-séq. fréquentes/support

A→B 75 %

A→F 50 %

A→G 50 %

B→A 50 %

B→F 75 %

B→G 50 %

F→A 75 %

F→B 50 %

G→A 75 %

G→B 50 %

G→F 100 %

3-séq. fréquentes / support

4-séq. fréquentes /sup.

A→B→G→F 50 %

A→B→G 50 %

A→B→F 50 %

A→G→F 50 %

B→G→F 50 %

F→A→B 50 %

G→F→A 50 %

SupportMin = 50 %

1 / 8 100%

Documents connexes

Bonjour La rédaction des traces d`apprentissage fait partie

RESUMé français - Université d`Oran 2

Semaine 05 Plan de travail Matière Études Plan de travail Lecture

"Histoire ancienne" de l`évènement [PDF

Sart-Tilman - BIOGEOCIENCIAS.com

Plusieurs systèmes de formation actuellement offerts

projet mps sciences et cosmetologie annee 2014

COMMUNIQUÉ DE PRESSE Pour diffusion immédiate

77_d10_2nde_s1_questionnaire_identite_numerique

télécharger la fiche d`inscription

COMPREHENSION DE L`ORAL

Le hibou

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Recherche de motifs séquentiels pour guider l

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Recherche de motifs séquentiels pour guider l

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib