Revue. Volume X n° x/année, pages 1 à X
Recherche de motifs séquentiels pour guider
l'interprétation des traces d’apprentissage
dans un EIAH
Adrien Cheype
SYSCOM - Université de Savoie
Campus Scientifique
73376 Le Bourget du Lac - France
adrien.cheyp[email protected]-savoie.fr
RÉSUMÉ. Nous nous intéressons dans cet article à l'aide à l’analyse des traces d’apprentissage au
sein d’un EIAH. A partir de traces reflétant l’activité des apprenants, nous voulons mettre en
évidence des indices qui représentent des comportements communs chez les apprenants. Ces
indices permettront à l’enseignant-analyste de découvrir les suites d’actions qui ont tendance à
mener à la réussite ou à l’échec d’un exercice. Afin d’effectuer cette phase d’analyse
automatique, nous nous appuyons sur des techniques du domaine de la fouille de données
temporelles et associons une classification préliminaire à une recherche de motifs séquentiels.
ABSTRACT. In this article we focus on the help to the analysis of the learning trace within a
learning platform. From traces reflecting learners’ activity we want to highlight the clues which
represent common behaviour among learners. These clues will allow the teacher-analyst to
discover series of actions which tend to lead to the success or to the failure of a given exercise.
To carry out this automatic analysis phase, we rely on techniques from the domain of temporal
data mining and associate a preliminary classification with a search of sequential patterns.
MOTS-CLÉS : EIAH, aide à l’analyse, traces, découverte de motifs séquentiels
KEYWORDS: learning platform, help to analysis, traces, sequential patterns discovery
1. Introduction
L’enseignant pédagogue cherche constamment à connaître la réaction de ses élèves
quand ils sont confrontés à ses instructions. Grâce à ses facultés d’observation qui sont
souvent de l’ordre du visuel, il capte quelques brides d’informations et via ses capacités
de déduction il arrive souvent à comprendre si cet élève est sur la voie de la réussite ou
de l’échec. Par exemple, en circulant dans les rangs et en observant les étudiants
chercher les exercices, il sait repérer, grâce à son expérience, un indice qui certifie qu'un
étudiant est sur une mauvaise piste.
2 Revue. Volume X n° x/année
Les Environnements Informatiques pour l'Apprentissage Humain permettent de
suivre l’activité de l’élève dans son apprentissage ; ces outils nous fournissent une
grande quantité d’informations comparée aux simples observations visuelles d’un
enseignant. Cependant les informations récoltées (communément appelées traces) sont
trop volumineuses pour être exploitées manuellement par l’enseignant-analyste.
Des travaux montrant l'hétérogénéité des traces, les différents niveaux d'abstraction
auxquels elles font référence, les transformations pour passer d'un niveau d'abstraction à
un autre ont été effectués dans notre laboratoire (Heraud et al., 2005). Dans le cadre de
cet article, nous proposons de travailler à partir de traces d’un niveau d’abstraction assez
élevé. Nous souhaitons mettre en évidence les indices issus des traces qui permettent à
l’analyste-enseignant d’établir des déductions sur l’activité des apprenants.
Nous considérons selon le but d'analyse poursuivi, que certains indices peuvent être
classés en deux catégories : ceux qui mènent à l'objectif, ceux qui en éloignent. Dans la
suite de cet article, nous restreignons notre but d'analyse à la réussite ou à l’échec d’un
exercice donné.
L'idée est de permettre de détecter des indices à partir des traces effectives obtenues
lors de l'expérimentation et représentant l'historique de l'activité collaborative des
acteurs dans la classe. Ces indices peuvent être simples comme par exemple une erreur
classique détectée qui mène à un résultat faux. Ils peuvent être plus complexes comme
par exemple un cheminement représentant le raisonnement qui mène à un succès.
Afin d’arriver à ces résultats, nous proposons une analyse automatique des traces qui
s’appuie sur des techniques provenant du domaine de la fouille de données temporelles.
Nous nous baserons alors essentiellement sur la recherche de motifs séquentiels afin de
détecter les séquences d’actions qui reviennent fréquemment, à la fois chez les
apprenants qui ont réussi et chez ceux qui ont échoué.
Nous commencerons cet article en faisant un rapide état des lieux des techniques de
fouille de données temporelles sur lesquelles repose notre travail, puis nous chercherons
à montrer de quelle manière ces techniques peuvent s’appliquer au domaine des EIAH
en appuyant notre argumentation sur un exemple simple.
2. Fouille de données temporelles
Dans (Kodratoff, 2001), Kodratoff définit la fouille de données comme un
« processus interactif et itératif d'analyse d'un grand ensemble de données brutes afin
d'en extraire des connaissances exploitables par l'utilisateur-analyste qui y joue un rôle
central ». La fouille de données temporelles fournit en plus une capacité à suggérer les
causes et les effets.
Titre courant de l’article 3
2.1. Données temporelles
Nous pouvons identifier deux types d'objets sur lesquels les algorithmes de fouille de
données temporelles opèrent. D’une part, les séries temporelles qui représentent des
données provenant de sources continues. D’autre part, les séquences temporelles qui
représentent des listes ordonnées d'évènements. Dans le cadre des traces d’usages d’un
EIAH, les séries temporelles sont peu appropriées car les sources de données continues
sont rarement utilisées (notamment par une caméra surveillant un apprenant). De plus,
une trace d'usage peut être considérée comme un ensemble d'actions effectuées l'une
après l'autre par un apprenant. Cette suite d'évènements peut alors être assimilée
intuitivement à une séquence temporelle.
Nous représentons donc les traces d'usages par des séquences temporelles qui
comportent des actions (des ensembles à 1 élément). Chaque apprenant est associé à une
trace α = (a1, a2, ..., an) qui définit la suite d'actions ai qu'il a effectué. Une n-séquence
est alors une séquence (représentant une trace) qui comporte n évènements (représentant
n actions). Par exemple, la séquence (EnregistrerDoc, LancerLogMail, EnvoiMail) est
une 3-séquence qui représente la trace d'un élève qui envoie par mail son travail à une
autre personne.
2.2. Algorithmes de type « a priori » et recherche des motifs séquentiels
Les algorithmes de type « a priori » empruntent leur nom à l'algorithme précurseur
« a priori » (Agrawal et al., 1993). Ce premier algorithme, appliqué au domaine de
l'étude du comportement des consommateurs, permet de découvrir des règles
d'associations entre divers articles. Une règle d'association est dans ce contexte une
relation causale entre deux ensembles. Une variation s'appuyant sur l'ordre des éléments
a ensuite émergé sous le nom de recherche de motifs séquentiels (Agrawal et al., 1995)
puis sont apparus des algorithmes plus performants tels que GSP (Srikant et al., 1996)
ou SPADE (Zaki, 2000). Ces algorithmes permettent de découvrir les séquences
fréquentes (les motifs) puis d'établir des règles entre elles, comme par exemple (thé
pain beurre)
(confiture biscuits). Nous avons choisi de nous appuyer sur
SPADE tout en effectuant préalablement une phase de classification préliminaire comme
dans PlanMine (Zaki et al., 1998). Nous n’utiliserons cependant pas de découverte de
règles car notre classification préliminaire nous permet déjà de nous concentrer sur des
traces du type (α
réussite) et (α
échec), α étant une séquence quelconque.
3. Analyse des traces d'usages grâce à la découverte de motifs séquentiels
Nous commencerons notre analyse automatique par une classification supervisée.
Dans notre cas, le facteur différenciateur est le résultat : réussite ou échec de l’exercice.
Nous regroupons donc les traces des participants en deux classes : les traces des élèves
qui réussissent à l'exercice (Dréu), et les traces des élèves qui échouent à l'exercice (Déch).
L'ensemble des traces Dréu servira alors à découvrir le comportement commun qui
4 Revue. Volume X n° x/année
contribue à la réussite, tandis que l'ensemble Déch servira à découvrir le comportement
commun qui contribue à l'échec.
A la suite de la classification, nous effectuons une recherche des séquences
fréquentes sur Dréu et Déch en appliquant l'algorithme SPADE. Afin de déterminer si une
séquence peut être considérée comme fréquente, cet algorithme s'appuie sur la notion de
sous-séquence et de support. Dans le cadre nos séquences sont composées
d'ensembles à 1 élément, nous pouvons énoncer que la séquence α = (a1, a2, ..., an) est
une sous-séquence de la séquence β = (b1, b2, ..., bn), noté α
β, s'il existe des entiers i1
< i2 < ... < in tel que ai = bij. Par ailleurs, le support d'une séquence α dans un ensemble
D de traces est le pourcentage des traces S qui ont α comme sous-séquence, c'est à dire,
 
DDSDfr
),(
Une séquence α est alors dite fréquente dans un ensemble D quand
fr(α,D) ≥ SupportMin. Nous appellerons Fk l'ensemble des k-séquences fréquentes.
Reprenons notre exemple, et voyons comment l'algorithme procède pour identifier les
séquences fréquentes dans les traces des participants qui ont réussi l'exercice. Notre
exemple de la Figure 1 présente, dans sa première partie, un ensemble de 4 traces de
Dréu,, le support minimal utilisé (50%) et les résultats obtenus (Rréu = ∑Fk de réussite).
L'algorithme commence par déterminer les 1-séquences qui sont fréquentes en calculant
leur support et en ne gardant seulement que celles qui ont un support supérieur à
SupportMin (soit F1 = {A, B, F, G}). Ensuite, pour déterminer Fn, on sélectionne les
candidats possibles de telle sorte que ces probables n-séquences fréquentes soient
composées par n sous-séquences appartenant à Fn-1. On calcule ensuite leur support et on
ne retient parmi les candidats que les séquences dont le support est supérieur à
SupportMin. Par exemple, la séquence A→D (A,D є F1) n'est pas retenue comme
élément de F2 car son support de 25% est plus petit que SupportMin. Au contraire,
A→B→F (A→B, B→F, A→F є F2) est retenu pour F3 avec son support de 75%, ainsi
que D→B→F→A (D→B→F, D→B→A, D→F→A, B→F→A є F3) pour F4 avec son
support 50%.
Nous présentons dans la deuxième partie de la Figure 1 les traces de Déch et les
résultats obtenus (Réch = ∑Fk d’échec) avec également un support minimal de 50%. Ces
deux supports minimaux sont choisis à titre d'exemple. Avec des données réelles, nous
devrons passer par une phase de paramétrages afin d’adapter ces supports au contexte de
la plate-forme et de l’expérience visée.
Titre courant de l’article 5
Figure 1. Calcul des séquences fréquentes pour les traces
des apprenants qui ont réussi puis pour ceux qui ont échoué
La phase d’élagages opère sur les séquences fréquentes de Rréu et Réch. Pendant cette
phase, plusieurs élagages successifs interviennent afin de supprimer les séquences
inintéressantes des deux ensembles. Nous présenterons deux formes d’élagages.
Pour le premier élagage, nous partons de l'hypothèse que si une séquence d'actions
est identifiée comme fréquente à la fois dans les traces des participants qui ont réussi et
dans les traces de ceux qui ont échoué, alors nous ne pouvons pas déterminer si cette
séquence contribue à obtenir une réussite ou un échec. Nous éliminons alors les
séquences qui sont communes à Rréu et Réch. Pour notre exemple, l’application de cet
élagage réduit les ensembles résultants à
Rréu= {D ; D→A ; D→B ; D→F ; B→F→A ; D→B→A ; D→B→F ; D→F→A ;
D→B→F→A} et Réch = {G ; AG ; B→G ; F→B ; G→A ; G→B ; G→ F ; A→B→G
; A→G→F ; B→G→F ; F→ A→B ; G→F→A ; A→B→G→F}.
Pour le second élagage, nous considérons une séquence comme redondante si elle est
une sous-séquence d'une autre et si ces deux séquences ont le même support dans
l'ensemble étudié. Prenons dans notre exemple la 3-séquence fréquente A→B→G de
support 50 % (Figure 2). L'identification de cette 3-séquence est préalablement passée
par la détection des 2-séquences fréquentes suivantes : A→B de support 75 %, B→G de
Traces d’apprentissage réussites
Apprenant 1 : C→D→A→B→C→A→B→F→A→C→D→F
Apprenant 3 : A→B→F→E
Apprenant 4 : A→B→F
Apprenant 6 : D→G→H→B→F→A→G→H
1-séq. fréquentes /support
A 100 %
B 100 %
D 50 %
F 100 %
3-séq. fréquentes / support
A→B→F 75 %
B→F→A 75 %
D→B→A 50 %
D→B→F 50 %
D→F→A 50 %
4-séq. fréquentes/ sup.
D→B→F→A 50 %
A→B 75 %
A→F 75 %
B→A 50 %
B→F 100 %
D→A 50 %
D→B 50 %
D→F 50 %
F→A 50 %
SupportMin = 50 %
Traces d’apprentissage échouées
Apprenant 2 : G→F→A→B
Apprenant 5 : F→A→B→G→A→F→G→D
Apprenant 7 : B→C→G→E→B→F→C→A
Apprenant 8 : A→B→G→F
1-séq. fréquentes
/sup.
A 100 %
B 100 %
F 100 %
G 100 %
2-séq. fréquentes/support
A→B 75 %
A→F 50 %
A→G 50 %
B→A 50 %
B→F 75 %
B→G 50 %
F→A 75 %
F→B 50 %
G→A 75 %
G→B 50 %
G→F 100 %
3-séq. fréquentes / support
4-séq. fréquentes /sup.
A→B→G→F 50 %
A→B→G 50 %
A→B→F 50 %
A→G→F 50 %
B→G→F 50 %
F→A→B 50 %
G→F→A 50 %
SupportMin = 50 %
1 / 8 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !