Recherche de motifs séquentiels pour guider l

publicité
Recherche de motifs séquentiels pour guider
l'interprétation des traces d’apprentissage
dans un EIAH
Adrien Cheype
SYSCOM - Université de Savoie
Campus Scientifique
73376 Le Bourget du Lac - France
[email protected]
Nous nous intéressons dans cet article à l'aide à l’analyse des traces d’apprentissage au
sein d’un EIAH. A partir de traces reflétant l’activité des apprenants, nous voulons mettre en
évidence des indices qui représentent des comportements communs chez les apprenants. Ces
indices permettront à l’enseignant-analyste de découvrir les suites d’actions qui ont tendance à
mener à la réussite ou à l’échec d’un exercice. Afin d’effectuer cette phase d’analyse
automatique, nous nous appuyons sur des techniques du domaine de la fouille de données
temporelles et associons une classification préliminaire à une recherche de motifs séquentiels.
RÉSUMÉ.
ABSTRACT.
In this article we focus on the help to the analysis of the learning trace within a
learning platform. From traces reflecting learners’ activity we want to highlight the clues which
represent common behaviour among learners. These clues will allow the teacher-analyst to
discover series of actions which tend to lead to the success or to the failure of a given exercise.
To carry out this automatic analysis phase, we rely on techniques from the domain of temporal
data mining and associate a preliminary classification with a search of sequential patterns.
MOTS-CLÉS :
EIAH, aide à l’analyse, traces, découverte de motifs séquentiels
KEYWORDS:
learning platform, help to analysis, traces, sequential patterns discovery
1. Introduction
L’enseignant pédagogue cherche constamment à connaître la réaction de ses élèves
quand ils sont confrontés à ses instructions. Grâce à ses facultés d’observation qui sont
souvent de l’ordre du visuel, il capte quelques brides d’informations et via ses capacités
de déduction il arrive souvent à comprendre si cet élève est sur la voie de la réussite ou
de l’échec. Par exemple, en circulant dans les rangs et en observant les étudiants
chercher les exercices, il sait repérer, grâce à son expérience, un indice qui certifie qu'un
étudiant est sur une mauvaise piste.
Revue. Volume X – n° x/année, pages 1 à X
2
Revue. Volume X – n° x/année
Les Environnements Informatiques pour l'Apprentissage Humain permettent de
suivre l’activité de l’élève dans son apprentissage ; ces outils nous fournissent une
grande quantité d’informations comparée aux simples observations visuelles d’un
enseignant. Cependant les informations récoltées (communément appelées traces) sont
trop volumineuses pour être exploitées manuellement par l’enseignant-analyste.
Des travaux montrant l'hétérogénéité des traces, les différents niveaux d'abstraction
auxquels elles font référence, les transformations pour passer d'un niveau d'abstraction à
un autre ont été effectués dans notre laboratoire (Heraud et al., 2005). Dans le cadre de
cet article, nous proposons de travailler à partir de traces d’un niveau d’abstraction assez
élevé. Nous souhaitons mettre en évidence les indices issus des traces qui permettent à
l’analyste-enseignant d’établir des déductions sur l’activité des apprenants.
Nous considérons selon le but d'analyse poursuivi, que certains indices peuvent être
classés en deux catégories : ceux qui mènent à l'objectif, ceux qui en éloignent. Dans la
suite de cet article, nous restreignons notre but d'analyse à la réussite ou à l’échec d’un
exercice donné.
L'idée est de permettre de détecter des indices à partir des traces effectives obtenues
lors de l'expérimentation et représentant l'historique de l'activité collaborative des
acteurs dans la classe. Ces indices peuvent être simples comme par exemple une erreur
classique détectée qui mène à un résultat faux. Ils peuvent être plus complexes comme
par exemple un cheminement représentant le raisonnement qui mène à un succès.
Afin d’arriver à ces résultats, nous proposons une analyse automatique des traces qui
s’appuie sur des techniques provenant du domaine de la fouille de données temporelles.
Nous nous baserons alors essentiellement sur la recherche de motifs séquentiels afin de
détecter les séquences d’actions qui reviennent fréquemment, à la fois chez les
apprenants qui ont réussi et chez ceux qui ont échoué.
Nous commencerons cet article en faisant un rapide état des lieux des techniques de
fouille de données temporelles sur lesquelles repose notre travail, puis nous chercherons
à montrer de quelle manière ces techniques peuvent s’appliquer au domaine des EIAH
en appuyant notre argumentation sur un exemple simple.
2. Fouille de données temporelles
Dans (Kodratoff, 2001), Kodratoff définit la fouille de données comme un
« processus interactif et itératif d'analyse d'un grand ensemble de données brutes afin
d'en extraire des connaissances exploitables par l'utilisateur-analyste qui y joue un rôle
central ». La fouille de données temporelles fournit en plus une capacité à suggérer les
causes et les effets.
Titre courant de l’article
3
2.1. Données temporelles
Nous pouvons identifier deux types d'objets sur lesquels les algorithmes de fouille de
données temporelles opèrent. D’une part, les séries temporelles qui représentent des
données provenant de sources continues. D’autre part, les séquences temporelles qui
représentent des listes ordonnées d'évènements. Dans le cadre des traces d’usages d’un
EIAH, les séries temporelles sont peu appropriées car les sources de données continues
sont rarement utilisées (notamment par une caméra surveillant un apprenant). De plus,
une trace d'usage peut être considérée comme un ensemble d'actions effectuées l'une
après l'autre par un apprenant. Cette suite d'évènements peut alors être assimilée
intuitivement à une séquence temporelle.
Nous représentons donc les traces d'usages par des séquences temporelles qui
comportent des actions (des ensembles à 1 élément). Chaque apprenant est associé à une
trace α = (a1, a2, ..., an) qui définit la suite d'actions ai qu'il a effectué. Une n-séquence
est alors une séquence (représentant une trace) qui comporte n évènements (représentant
n actions). Par exemple, la séquence (EnregistrerDoc, LancerLogMail, EnvoiMail) est
une 3-séquence qui représente la trace d'un élève qui envoie par mail son travail à une
autre personne.
2.2. Algorithmes de type « a priori » et recherche des motifs séquentiels
Les algorithmes de type « a priori » empruntent leur nom à l'algorithme précurseur
« a priori » (Agrawal et al., 1993). Ce premier algorithme, appliqué au domaine de
l'étude du comportement des consommateurs, permet de découvrir des règles
d'associations entre divers articles. Une règle d'association est dans ce contexte une
relation causale entre deux ensembles. Une variation s'appuyant sur l'ordre des éléments
a ensuite émergé sous le nom de recherche de motifs séquentiels (Agrawal et al., 1995)
puis sont apparus des algorithmes plus performants tels que GSP (Srikant et al., 1996)
ou SPADE (Zaki, 2000). Ces algorithmes permettent de découvrir les séquences
fréquentes (les motifs) puis d'établir des règles entre elles, comme par exemple (thé →
pain → beurre)  (confiture → biscuits). Nous avons choisi de nous appuyer sur
SPADE tout en effectuant préalablement une phase de classification préliminaire comme
dans PlanMine (Zaki et al., 1998). Nous n’utiliserons cependant pas de découverte de
règles car notre classification préliminaire nous permet déjà de nous concentrer sur des
traces du type (α  réussite) et (α  échec), α étant une séquence quelconque.
3. Analyse des traces d'usages grâce à la découverte de motifs séquentiels
Nous commencerons notre analyse automatique par une classification supervisée.
Dans notre cas, le facteur différenciateur est le résultat : réussite ou échec de l’exercice.
Nous regroupons donc les traces des participants en deux classes : les traces des élèves
qui réussissent à l'exercice (Dréu), et les traces des élèves qui échouent à l'exercice (Déch).
L'ensemble des traces Dréu servira alors à découvrir le comportement commun qui
4
Revue. Volume X – n° x/année
contribue à la réussite, tandis que l'ensemble Déch servira à découvrir le comportement
commun qui contribue à l'échec.
A la suite de la classification, nous effectuons une recherche des séquences
fréquentes sur Dréu et Déch en appliquant l'algorithme SPADE. Afin de déterminer si une
séquence peut être considérée comme fréquente, cet algorithme s'appuie sur la notion de
sous-séquence et de support. Dans le cadre où nos séquences sont composées
d'ensembles à 1 élément, nous pouvons énoncer que la séquence α = (a1, a2, ..., an) est
une sous-séquence de la séquence β = (b1, b2, ..., bn), noté α  β, s'il existe des entiers i1
< i2 < ... < in tel que ai = bij. Par ailleurs, le support d'une séquence α dans un ensemble
D de traces est le pourcentage des traces S qui ont α comme sous-séquence, c'est à dire,
fr( , D)    S  D D
Une séquence α est alors dite fréquente dans un ensemble D quand
fr(α,D) ≥ SupportMin. Nous appellerons Fk l'ensemble des k-séquences fréquentes.
Reprenons notre exemple, et voyons comment l'algorithme procède pour identifier les
séquences fréquentes dans les traces des participants qui ont réussi l'exercice. Notre
exemple de la Figure 1 présente, dans sa première partie, un ensemble de 4 traces de
Dréu,, le support minimal utilisé (50%) et les résultats obtenus (Rréu = ∑Fk de réussite).
L'algorithme commence par déterminer les 1-séquences qui sont fréquentes en calculant
leur support et en ne gardant seulement que celles qui ont un support supérieur à
SupportMin (soit F1 = {A, B, F, G}). Ensuite, pour déterminer Fn, on sélectionne les
candidats possibles de telle sorte que ces probables n-séquences fréquentes soient
composées par n sous-séquences appartenant à Fn-1. On calcule ensuite leur support et on
ne retient parmi les candidats que les séquences dont le support est supérieur à
SupportMin. Par exemple, la séquence A→D (A,D є F1) n'est pas retenue comme
élément de F2 car son support de 25% est plus petit que SupportMin. Au contraire,
A→B→F (A→B, B→F, A→F є F2) est retenu pour F3 avec son support de 75%, ainsi
que D→B→F→A (D→B→F, D→B→A, D→F→A, B→F→A є F3) pour F4 avec son
support 50%.
Nous présentons dans la deuxième partie de la Figure 1 les traces de D éch et les
résultats obtenus (Réch = ∑Fk d’échec) avec également un support minimal de 50%. Ces
deux supports minimaux sont choisis à titre d'exemple. Avec des données réelles, nous
devrons passer par une phase de paramétrages afin d’adapter ces supports au contexte de
la plate-forme et de l’expérience visée.
Titre courant de l’article
Traces d’apprentissage réussites
Apprenant 1 :
Apprenant 3 :
Apprenant 4 :
Apprenant 6 :
A→B
A→F
B→A
B→F
75 %
75 %
50 %
100 %
D→A
D→B
D→F
F→A
50 %
50 %
50 %
50 %
4-séq. fréquentes/ sup.
D→B→F→A
G→F→A→B
F→A→B→G→A→F→G→D
B→C→G→E→B→F→C→A
A→B→G→F
50 %
50 %
50 %
B→G→F
F→A→B
G→F→A
100 %
100 %
50 %
100 %
A→B→F
B→F→A
D→B→A
D→B→F
D→F→A
3-séq. fréquentes / support
A→B→G
A→B→F
A→G→F
A
B
D
F
3-séq. fréquentes / support
Traces d’apprentissage échouées
Apprenant 2 :
Apprenant 5 :
Apprenant 7 :
Apprenant 8 :
1-séq. fréquentes /support
C→D→A→B→C→A→B→F→A→C→D→F
A→B→F→E
A→B→F
D→G→H→B→F→A→G→H
2-séq. fréquentes /support
75 %
75 %
50 %
50 %
50 %
1-séq.
/sup.
A
B
F
G
fréquentes
100 %
100 %
100 %
100 %
4-séq. fréquentes /sup.
50 %
50 %
50 %
5
A→B→G→F
50 %
SupportMin = 50 %
50 %
SupportMin = 50 %
2-séq. fréquentes/support
A→B
A→F
A→G
B→A
B→F
B→G
F→A
F→B
G→A
G→B
G→F
75 %
50 %
50 %
50 %
75 %
50 %
75 %
50 %
75 %
50 %
100 %
Figure 1. Calcul des séquences fréquentes pour les traces
des apprenants qui ont réussi puis pour ceux qui ont échoué
La phase d’élagages opère sur les séquences fréquentes de Rréu et Réch. Pendant cette
phase, plusieurs élagages successifs interviennent afin de supprimer les séquences
inintéressantes des deux ensembles. Nous présenterons deux formes d’élagages.
Pour le premier élagage, nous partons de l'hypothèse que si une séquence d'actions
est identifiée comme fréquente à la fois dans les traces des participants qui ont réussi et
dans les traces de ceux qui ont échoué, alors nous ne pouvons pas déterminer si cette
séquence contribue à obtenir une réussite ou un échec. Nous éliminons alors les
séquences qui sont communes à Rréu et Réch. Pour notre exemple, l’application de cet
élagage
réduit
les
ensembles
résultants
à
Rréu= {D ; D→A ; D→B ; D→F ; B→F→A ; D→B→A ; D→B→F ; D→F→A ;
D→B→F→A} et Réch = {G ; A→G ; B→G ; F→B ; G→A ; G→B ; G→ F ; A→B→G
; A→G→F ; B→G→F ; F→ A→B ; G→F→A ; A→B→G→F}.
Pour le second élagage, nous considérons une séquence comme redondante si elle est
une sous-séquence d'une autre et si ces deux séquences ont le même support dans
l'ensemble étudié. Prenons dans notre exemple la 3-séquence fréquente A→B→G de
support 50 % (Figure 2). L'identification de cette 3-séquence est préalablement passée
par la détection des 2-séquences fréquentes suivantes : A→B de support 75 %, B→G de
6
Revue. Volume X – n° x/année
support 50 %, et A→G de support 50 %. Dans ce cas, le support B→G est égal au
support de A→B→G, donc nous savons que les participants qui ont effectué B→G, ont
auparavant effectué A (le même phénomène est constaté pour A→G et A→B→G).
Ainsi nous pouvons considérer que les séquences B→G et A→G sont redondantes car
elles se retrouvent dans A→B→G tout en fournissant moins d'informations sur le
comportement des participants. Cependant, A→B ne peut être identifié comme
redondante, car son support est supérieur à celui de A→B→G. En effet, celle-ci est
utile car nous pouvons déduire grâce à elle que les participants qui ont effectué cette
séquence n'ont pas tous effectué G par la suite.
Nous avons comme résultat final à la suite de ce deuxième élagage :
Rréu = {B→F→A ; D→B→F→A} et Réch = {G→A ; G→B ; G→F ; F→A→B ;
G→F→A ; A→B→G→F}. Nous pouvons constater pour cet exemple que la phase
d’élagages permet de réduire considérablement le nombre de séquences.
4. Mise en évidence des motifs séquentiels dans le cadre d’un EIAH
La démarche que nous proposons pour l’analyse automatique permet d’obtenir deux
ensembles de séquences fréquentes (Rréu et Réch) : celles qui constituent des indices
menant à la réussite de l’exercice et celles qui constituent des indices menant à son
échec. Ces indices apportent une aide précieuse à l’enseignant-analyste pour qu’il puisse
analyser les comportements des apprenants.
En étudiant les résultats, l’enseignant-analyste (l’analyste pour la suite) pourra
déduire les comportements communs des apprenants en se basant à la fois sur de simples
indices et des indices complexes. Un indice simple est une 1-séquence fréquente alors
qu’un indice complexe est une n-séquence fréquente.
Les 1-séquences représentent les indices qui permettent de savoir si une action a
tendance à être bénéfique ou pénalisante pour l’avancement de l’apprenant. Par
exemple, l’apparition de « ConsultSupportCours » dans Rréu peut signifier que la
consultation du cours pour l’apprenant est une action pertinente afin de réussir
l’exercice. De plus, lorsque les 1-séquences précisent les documents consultés (par
exemple « Consult Support n°7 »), l’analyste peut déterminer quels sont les documents
qui contribuent le plus à la réussite de l’apprenant.
– Les n-séquences (avec n petit) représentent les indices qui constituent les actions,
qui lorsqu’elles sont effectuées dans un certain contexte, permettent de contribuer
favorablement ou défavorablement à la réussite de l’exercice. Par exemple, dans la 3séquence fréquente « ConsultSupportCours → EnvoiMsgPourX → LireMsgDeX » de
Rréu, nous pouvons constater que la dernière action dépend fortement du contexte qui est
amené par la suite d’actions ConsultSupportCours → EnvoiMsgPourX. A partir de cette
séquence, l’analyste peut supposer qu’un grand nombre d’élèves à la suite d’une lecture
du cours n’ont pas trouvé l’information recherchée, qu’ils ont demandé cette information
au tuteur puis que sa réponse leur a permis de surmonter la difficulté.
Titre courant de l’article
7
– Les n-séquences (avec n assez grand) représentent les indices qui décrivent les
cheminements représentant les raisonnements qui ont contribué à la réussite ou à l’échec
de l’exercice. Ces indices peuvent servir à élaborer les suites d’actions qui résoudront
certains des problèmes auxquels les apprenants sont fréquemment confrontés, ou à
identifier les fausses pistes qu’ils peuvent suivre.
Par ailleurs, une autre utilisation possible des indices mis en évidence est de se
concentrer sur la trace d’un apprenant et d’y visualiser les indices détectés (Figure 2).
Suivant le type des indices, l’analyste pourra identifier les différentes étapes de
l’étudiant qui correspondent à une situation de réussite ainsi que celles qui
correspondent à une situation d’échec. L’analyste sera alors aidé pour comprendre la
démarche d’un apprenant et le suivi de l’apprenant sera facilité.
trace
indices
actions quelconques
indices menant à la réussite
indices menant à l’échec
Figure 2. Trace d’un apprenant avec mise en évidence des indices
5. Conclusion
Nous avons présenté, grâce aux algorithmes de recherche de motifs séquentiels, une
démarche possible pour la mise en évidence d’indices à partir des traces des apprenants.
La discussion menée dans le paragraphe 4 présente plusieurs pistes de déductions utiles
à l’enseignant-analyste pour découvrir les comportements communs chez les apprenants.
Cependant, comme la fouille de données est un processus hautement interactif et itératif,
la pertinence de ces pistes devra être évaluée avec les données issues d’une prochaine
expérimentation.
Si les résultats de cette expérimentation corroborent nos hypothèses, les perspectives
seront nombreuses. Nous prévoyons, dans un premier temps, de proposer des outils de
visualisation basés sur notre approche afin d’aider l’enseignant-analyste dans son
interprétation. Ces outils graphiques présenteront les traces des participants en mettant
visuellement en valeur les actions fréquentes (les indices) par rapport aux autres actions
(le contexte). Il sera également possible de se focaliser sur les indices pour obtenir une
version concise de la trace d’un apprenant afin de ramener la grande quantité de données
à étudier à un niveau acceptable.
Nous envisageons également d’adapter la démarche de notre analyse afin de
permettre le suivi de l’activité des apprenants en temps réel. Dans ce cadre, il sera
nécessaire d’utiliser les traces d’une expérience effectuée dans des conditions
semblables pour extraire grâce à notre démarche les indices résultants. Dans une
nouvelle expérience, les suites d’actions composant ces indices seront détectées en
8
Revue. Volume X – n° x/année
temps réel chez les apprenants et l’enseignant pourra visualiser sur son tableau de bord
leur évolution. Il pourra alors détecter rapidement les situations de réussite ou d’échec
dans lesquelles se trouvent les apprenants et aider plus facilement ceux en difficulté.
Un autre axe de recherche concerne l’évaluation de scénarios pédagogiques.
L’observation étant un facteur important dans la qualité des scénarios d’apprentissage
(Marty et al., 2005), nous pourrons nous appuyer sur les résultats de l’analyse pour
comparer les comportements communs des apprenants avec les activités préconisées. La
détection d’activités non suivies dans un scénario permettra notamment de remettre en
cause le scénario et d’augmenter son niveau de maturité.
Enfin, ce travail est préliminaire et s’inscrit dans une démarche de thèse dont
l’objectif est de proposer un modèle générique de mise en évidence des traces
d’apprentissage dans un EIAH.
6. Bibliographie
R. Agrawal, T. Imielinski, A. Swami. « Mining association rules between sets of items in large
databases », SIGMOD’93, Washington, 1993, p. 207-216.
R. Agrawal, R. Srikant, « Mining Sequential Patterns », ICDE’95, Taipei, Taiwan, 1995,
p. 3-14.
J.M. Heraud, J.C. Marty, L. France, T. Carron, « Helping the Interpretation of Web Logs:
Application to Learning Scenario Improvement », AIED’05, Amsterdam, 2005
Y. Kodratoff, A. Napoli, D. Zighed, Bulletin AFIA, ECBD, 2001.
J.C. Marty, J.M. Heraud, T. Carron, L. France, « A quality approach for collaborative learning
scenarios », Learning Technology newsletter of IEEE Computer Society, vol. 6, n° 4, 2004, p.
46-48.
R. Srikant, , R. Agrawal « Mining Sequential Patterns: Generalizations and Performance
Improvements », EDBT'96, Avignon, 1996, p. 3-17.
M.J. Zaki, N. Lesh, M. Ogihara, « PlanMine: sequence mining for plan failures», KDD'98, New
York, 1998, p. 369-373.
M.J. Zaki, « SPADE: An Efficient Algorithm for Mining Frequent Sequences », Machine
Learning Journal, vol. 42, 2001, p. 31-60.
Téléchargement