Recherche de motifs séquentiels pour guider l'interprétation des traces d’apprentissage dans un EIAH Adrien Cheype SYSCOM - Université de Savoie Campus Scientifique 73376 Le Bourget du Lac - France [email protected] Nous nous intéressons dans cet article à l'aide à l’analyse des traces d’apprentissage au sein d’un EIAH. A partir de traces reflétant l’activité des apprenants, nous voulons mettre en évidence des indices qui représentent des comportements communs chez les apprenants. Ces indices permettront à l’enseignant-analyste de découvrir les suites d’actions qui ont tendance à mener à la réussite ou à l’échec d’un exercice. Afin d’effectuer cette phase d’analyse automatique, nous nous appuyons sur des techniques du domaine de la fouille de données temporelles et associons une classification préliminaire à une recherche de motifs séquentiels. RÉSUMÉ. ABSTRACT. In this article we focus on the help to the analysis of the learning trace within a learning platform. From traces reflecting learners’ activity we want to highlight the clues which represent common behaviour among learners. These clues will allow the teacher-analyst to discover series of actions which tend to lead to the success or to the failure of a given exercise. To carry out this automatic analysis phase, we rely on techniques from the domain of temporal data mining and associate a preliminary classification with a search of sequential patterns. MOTS-CLÉS : EIAH, aide à l’analyse, traces, découverte de motifs séquentiels KEYWORDS: learning platform, help to analysis, traces, sequential patterns discovery 1. Introduction L’enseignant pédagogue cherche constamment à connaître la réaction de ses élèves quand ils sont confrontés à ses instructions. Grâce à ses facultés d’observation qui sont souvent de l’ordre du visuel, il capte quelques brides d’informations et via ses capacités de déduction il arrive souvent à comprendre si cet élève est sur la voie de la réussite ou de l’échec. Par exemple, en circulant dans les rangs et en observant les étudiants chercher les exercices, il sait repérer, grâce à son expérience, un indice qui certifie qu'un étudiant est sur une mauvaise piste. Revue. Volume X – n° x/année, pages 1 à X 2 Revue. Volume X – n° x/année Les Environnements Informatiques pour l'Apprentissage Humain permettent de suivre l’activité de l’élève dans son apprentissage ; ces outils nous fournissent une grande quantité d’informations comparée aux simples observations visuelles d’un enseignant. Cependant les informations récoltées (communément appelées traces) sont trop volumineuses pour être exploitées manuellement par l’enseignant-analyste. Des travaux montrant l'hétérogénéité des traces, les différents niveaux d'abstraction auxquels elles font référence, les transformations pour passer d'un niveau d'abstraction à un autre ont été effectués dans notre laboratoire (Heraud et al., 2005). Dans le cadre de cet article, nous proposons de travailler à partir de traces d’un niveau d’abstraction assez élevé. Nous souhaitons mettre en évidence les indices issus des traces qui permettent à l’analyste-enseignant d’établir des déductions sur l’activité des apprenants. Nous considérons selon le but d'analyse poursuivi, que certains indices peuvent être classés en deux catégories : ceux qui mènent à l'objectif, ceux qui en éloignent. Dans la suite de cet article, nous restreignons notre but d'analyse à la réussite ou à l’échec d’un exercice donné. L'idée est de permettre de détecter des indices à partir des traces effectives obtenues lors de l'expérimentation et représentant l'historique de l'activité collaborative des acteurs dans la classe. Ces indices peuvent être simples comme par exemple une erreur classique détectée qui mène à un résultat faux. Ils peuvent être plus complexes comme par exemple un cheminement représentant le raisonnement qui mène à un succès. Afin d’arriver à ces résultats, nous proposons une analyse automatique des traces qui s’appuie sur des techniques provenant du domaine de la fouille de données temporelles. Nous nous baserons alors essentiellement sur la recherche de motifs séquentiels afin de détecter les séquences d’actions qui reviennent fréquemment, à la fois chez les apprenants qui ont réussi et chez ceux qui ont échoué. Nous commencerons cet article en faisant un rapide état des lieux des techniques de fouille de données temporelles sur lesquelles repose notre travail, puis nous chercherons à montrer de quelle manière ces techniques peuvent s’appliquer au domaine des EIAH en appuyant notre argumentation sur un exemple simple. 2. Fouille de données temporelles Dans (Kodratoff, 2001), Kodratoff définit la fouille de données comme un « processus interactif et itératif d'analyse d'un grand ensemble de données brutes afin d'en extraire des connaissances exploitables par l'utilisateur-analyste qui y joue un rôle central ». La fouille de données temporelles fournit en plus une capacité à suggérer les causes et les effets. Titre courant de l’article 3 2.1. Données temporelles Nous pouvons identifier deux types d'objets sur lesquels les algorithmes de fouille de données temporelles opèrent. D’une part, les séries temporelles qui représentent des données provenant de sources continues. D’autre part, les séquences temporelles qui représentent des listes ordonnées d'évènements. Dans le cadre des traces d’usages d’un EIAH, les séries temporelles sont peu appropriées car les sources de données continues sont rarement utilisées (notamment par une caméra surveillant un apprenant). De plus, une trace d'usage peut être considérée comme un ensemble d'actions effectuées l'une après l'autre par un apprenant. Cette suite d'évènements peut alors être assimilée intuitivement à une séquence temporelle. Nous représentons donc les traces d'usages par des séquences temporelles qui comportent des actions (des ensembles à 1 élément). Chaque apprenant est associé à une trace α = (a1, a2, ..., an) qui définit la suite d'actions ai qu'il a effectué. Une n-séquence est alors une séquence (représentant une trace) qui comporte n évènements (représentant n actions). Par exemple, la séquence (EnregistrerDoc, LancerLogMail, EnvoiMail) est une 3-séquence qui représente la trace d'un élève qui envoie par mail son travail à une autre personne. 2.2. Algorithmes de type « a priori » et recherche des motifs séquentiels Les algorithmes de type « a priori » empruntent leur nom à l'algorithme précurseur « a priori » (Agrawal et al., 1993). Ce premier algorithme, appliqué au domaine de l'étude du comportement des consommateurs, permet de découvrir des règles d'associations entre divers articles. Une règle d'association est dans ce contexte une relation causale entre deux ensembles. Une variation s'appuyant sur l'ordre des éléments a ensuite émergé sous le nom de recherche de motifs séquentiels (Agrawal et al., 1995) puis sont apparus des algorithmes plus performants tels que GSP (Srikant et al., 1996) ou SPADE (Zaki, 2000). Ces algorithmes permettent de découvrir les séquences fréquentes (les motifs) puis d'établir des règles entre elles, comme par exemple (thé → pain → beurre) (confiture → biscuits). Nous avons choisi de nous appuyer sur SPADE tout en effectuant préalablement une phase de classification préliminaire comme dans PlanMine (Zaki et al., 1998). Nous n’utiliserons cependant pas de découverte de règles car notre classification préliminaire nous permet déjà de nous concentrer sur des traces du type (α réussite) et (α échec), α étant une séquence quelconque. 3. Analyse des traces d'usages grâce à la découverte de motifs séquentiels Nous commencerons notre analyse automatique par une classification supervisée. Dans notre cas, le facteur différenciateur est le résultat : réussite ou échec de l’exercice. Nous regroupons donc les traces des participants en deux classes : les traces des élèves qui réussissent à l'exercice (Dréu), et les traces des élèves qui échouent à l'exercice (Déch). L'ensemble des traces Dréu servira alors à découvrir le comportement commun qui 4 Revue. Volume X – n° x/année contribue à la réussite, tandis que l'ensemble Déch servira à découvrir le comportement commun qui contribue à l'échec. A la suite de la classification, nous effectuons une recherche des séquences fréquentes sur Dréu et Déch en appliquant l'algorithme SPADE. Afin de déterminer si une séquence peut être considérée comme fréquente, cet algorithme s'appuie sur la notion de sous-séquence et de support. Dans le cadre où nos séquences sont composées d'ensembles à 1 élément, nous pouvons énoncer que la séquence α = (a1, a2, ..., an) est une sous-séquence de la séquence β = (b1, b2, ..., bn), noté α β, s'il existe des entiers i1 < i2 < ... < in tel que ai = bij. Par ailleurs, le support d'une séquence α dans un ensemble D de traces est le pourcentage des traces S qui ont α comme sous-séquence, c'est à dire, fr( , D) S D D Une séquence α est alors dite fréquente dans un ensemble D quand fr(α,D) ≥ SupportMin. Nous appellerons Fk l'ensemble des k-séquences fréquentes. Reprenons notre exemple, et voyons comment l'algorithme procède pour identifier les séquences fréquentes dans les traces des participants qui ont réussi l'exercice. Notre exemple de la Figure 1 présente, dans sa première partie, un ensemble de 4 traces de Dréu,, le support minimal utilisé (50%) et les résultats obtenus (Rréu = ∑Fk de réussite). L'algorithme commence par déterminer les 1-séquences qui sont fréquentes en calculant leur support et en ne gardant seulement que celles qui ont un support supérieur à SupportMin (soit F1 = {A, B, F, G}). Ensuite, pour déterminer Fn, on sélectionne les candidats possibles de telle sorte que ces probables n-séquences fréquentes soient composées par n sous-séquences appartenant à Fn-1. On calcule ensuite leur support et on ne retient parmi les candidats que les séquences dont le support est supérieur à SupportMin. Par exemple, la séquence A→D (A,D є F1) n'est pas retenue comme élément de F2 car son support de 25% est plus petit que SupportMin. Au contraire, A→B→F (A→B, B→F, A→F є F2) est retenu pour F3 avec son support de 75%, ainsi que D→B→F→A (D→B→F, D→B→A, D→F→A, B→F→A є F3) pour F4 avec son support 50%. Nous présentons dans la deuxième partie de la Figure 1 les traces de D éch et les résultats obtenus (Réch = ∑Fk d’échec) avec également un support minimal de 50%. Ces deux supports minimaux sont choisis à titre d'exemple. Avec des données réelles, nous devrons passer par une phase de paramétrages afin d’adapter ces supports au contexte de la plate-forme et de l’expérience visée. Titre courant de l’article Traces d’apprentissage réussites Apprenant 1 : Apprenant 3 : Apprenant 4 : Apprenant 6 : A→B A→F B→A B→F 75 % 75 % 50 % 100 % D→A D→B D→F F→A 50 % 50 % 50 % 50 % 4-séq. fréquentes/ sup. D→B→F→A G→F→A→B F→A→B→G→A→F→G→D B→C→G→E→B→F→C→A A→B→G→F 50 % 50 % 50 % B→G→F F→A→B G→F→A 100 % 100 % 50 % 100 % A→B→F B→F→A D→B→A D→B→F D→F→A 3-séq. fréquentes / support A→B→G A→B→F A→G→F A B D F 3-séq. fréquentes / support Traces d’apprentissage échouées Apprenant 2 : Apprenant 5 : Apprenant 7 : Apprenant 8 : 1-séq. fréquentes /support C→D→A→B→C→A→B→F→A→C→D→F A→B→F→E A→B→F D→G→H→B→F→A→G→H 2-séq. fréquentes /support 75 % 75 % 50 % 50 % 50 % 1-séq. /sup. A B F G fréquentes 100 % 100 % 100 % 100 % 4-séq. fréquentes /sup. 50 % 50 % 50 % 5 A→B→G→F 50 % SupportMin = 50 % 50 % SupportMin = 50 % 2-séq. fréquentes/support A→B A→F A→G B→A B→F B→G F→A F→B G→A G→B G→F 75 % 50 % 50 % 50 % 75 % 50 % 75 % 50 % 75 % 50 % 100 % Figure 1. Calcul des séquences fréquentes pour les traces des apprenants qui ont réussi puis pour ceux qui ont échoué La phase d’élagages opère sur les séquences fréquentes de Rréu et Réch. Pendant cette phase, plusieurs élagages successifs interviennent afin de supprimer les séquences inintéressantes des deux ensembles. Nous présenterons deux formes d’élagages. Pour le premier élagage, nous partons de l'hypothèse que si une séquence d'actions est identifiée comme fréquente à la fois dans les traces des participants qui ont réussi et dans les traces de ceux qui ont échoué, alors nous ne pouvons pas déterminer si cette séquence contribue à obtenir une réussite ou un échec. Nous éliminons alors les séquences qui sont communes à Rréu et Réch. Pour notre exemple, l’application de cet élagage réduit les ensembles résultants à Rréu= {D ; D→A ; D→B ; D→F ; B→F→A ; D→B→A ; D→B→F ; D→F→A ; D→B→F→A} et Réch = {G ; A→G ; B→G ; F→B ; G→A ; G→B ; G→ F ; A→B→G ; A→G→F ; B→G→F ; F→ A→B ; G→F→A ; A→B→G→F}. Pour le second élagage, nous considérons une séquence comme redondante si elle est une sous-séquence d'une autre et si ces deux séquences ont le même support dans l'ensemble étudié. Prenons dans notre exemple la 3-séquence fréquente A→B→G de support 50 % (Figure 2). L'identification de cette 3-séquence est préalablement passée par la détection des 2-séquences fréquentes suivantes : A→B de support 75 %, B→G de 6 Revue. Volume X – n° x/année support 50 %, et A→G de support 50 %. Dans ce cas, le support B→G est égal au support de A→B→G, donc nous savons que les participants qui ont effectué B→G, ont auparavant effectué A (le même phénomène est constaté pour A→G et A→B→G). Ainsi nous pouvons considérer que les séquences B→G et A→G sont redondantes car elles se retrouvent dans A→B→G tout en fournissant moins d'informations sur le comportement des participants. Cependant, A→B ne peut être identifié comme redondante, car son support est supérieur à celui de A→B→G. En effet, celle-ci est utile car nous pouvons déduire grâce à elle que les participants qui ont effectué cette séquence n'ont pas tous effectué G par la suite. Nous avons comme résultat final à la suite de ce deuxième élagage : Rréu = {B→F→A ; D→B→F→A} et Réch = {G→A ; G→B ; G→F ; F→A→B ; G→F→A ; A→B→G→F}. Nous pouvons constater pour cet exemple que la phase d’élagages permet de réduire considérablement le nombre de séquences. 4. Mise en évidence des motifs séquentiels dans le cadre d’un EIAH La démarche que nous proposons pour l’analyse automatique permet d’obtenir deux ensembles de séquences fréquentes (Rréu et Réch) : celles qui constituent des indices menant à la réussite de l’exercice et celles qui constituent des indices menant à son échec. Ces indices apportent une aide précieuse à l’enseignant-analyste pour qu’il puisse analyser les comportements des apprenants. En étudiant les résultats, l’enseignant-analyste (l’analyste pour la suite) pourra déduire les comportements communs des apprenants en se basant à la fois sur de simples indices et des indices complexes. Un indice simple est une 1-séquence fréquente alors qu’un indice complexe est une n-séquence fréquente. Les 1-séquences représentent les indices qui permettent de savoir si une action a tendance à être bénéfique ou pénalisante pour l’avancement de l’apprenant. Par exemple, l’apparition de « ConsultSupportCours » dans Rréu peut signifier que la consultation du cours pour l’apprenant est une action pertinente afin de réussir l’exercice. De plus, lorsque les 1-séquences précisent les documents consultés (par exemple « Consult Support n°7 »), l’analyste peut déterminer quels sont les documents qui contribuent le plus à la réussite de l’apprenant. – Les n-séquences (avec n petit) représentent les indices qui constituent les actions, qui lorsqu’elles sont effectuées dans un certain contexte, permettent de contribuer favorablement ou défavorablement à la réussite de l’exercice. Par exemple, dans la 3séquence fréquente « ConsultSupportCours → EnvoiMsgPourX → LireMsgDeX » de Rréu, nous pouvons constater que la dernière action dépend fortement du contexte qui est amené par la suite d’actions ConsultSupportCours → EnvoiMsgPourX. A partir de cette séquence, l’analyste peut supposer qu’un grand nombre d’élèves à la suite d’une lecture du cours n’ont pas trouvé l’information recherchée, qu’ils ont demandé cette information au tuteur puis que sa réponse leur a permis de surmonter la difficulté. Titre courant de l’article 7 – Les n-séquences (avec n assez grand) représentent les indices qui décrivent les cheminements représentant les raisonnements qui ont contribué à la réussite ou à l’échec de l’exercice. Ces indices peuvent servir à élaborer les suites d’actions qui résoudront certains des problèmes auxquels les apprenants sont fréquemment confrontés, ou à identifier les fausses pistes qu’ils peuvent suivre. Par ailleurs, une autre utilisation possible des indices mis en évidence est de se concentrer sur la trace d’un apprenant et d’y visualiser les indices détectés (Figure 2). Suivant le type des indices, l’analyste pourra identifier les différentes étapes de l’étudiant qui correspondent à une situation de réussite ainsi que celles qui correspondent à une situation d’échec. L’analyste sera alors aidé pour comprendre la démarche d’un apprenant et le suivi de l’apprenant sera facilité. trace indices actions quelconques indices menant à la réussite indices menant à l’échec Figure 2. Trace d’un apprenant avec mise en évidence des indices 5. Conclusion Nous avons présenté, grâce aux algorithmes de recherche de motifs séquentiels, une démarche possible pour la mise en évidence d’indices à partir des traces des apprenants. La discussion menée dans le paragraphe 4 présente plusieurs pistes de déductions utiles à l’enseignant-analyste pour découvrir les comportements communs chez les apprenants. Cependant, comme la fouille de données est un processus hautement interactif et itératif, la pertinence de ces pistes devra être évaluée avec les données issues d’une prochaine expérimentation. Si les résultats de cette expérimentation corroborent nos hypothèses, les perspectives seront nombreuses. Nous prévoyons, dans un premier temps, de proposer des outils de visualisation basés sur notre approche afin d’aider l’enseignant-analyste dans son interprétation. Ces outils graphiques présenteront les traces des participants en mettant visuellement en valeur les actions fréquentes (les indices) par rapport aux autres actions (le contexte). Il sera également possible de se focaliser sur les indices pour obtenir une version concise de la trace d’un apprenant afin de ramener la grande quantité de données à étudier à un niveau acceptable. Nous envisageons également d’adapter la démarche de notre analyse afin de permettre le suivi de l’activité des apprenants en temps réel. Dans ce cadre, il sera nécessaire d’utiliser les traces d’une expérience effectuée dans des conditions semblables pour extraire grâce à notre démarche les indices résultants. Dans une nouvelle expérience, les suites d’actions composant ces indices seront détectées en 8 Revue. Volume X – n° x/année temps réel chez les apprenants et l’enseignant pourra visualiser sur son tableau de bord leur évolution. Il pourra alors détecter rapidement les situations de réussite ou d’échec dans lesquelles se trouvent les apprenants et aider plus facilement ceux en difficulté. Un autre axe de recherche concerne l’évaluation de scénarios pédagogiques. L’observation étant un facteur important dans la qualité des scénarios d’apprentissage (Marty et al., 2005), nous pourrons nous appuyer sur les résultats de l’analyse pour comparer les comportements communs des apprenants avec les activités préconisées. La détection d’activités non suivies dans un scénario permettra notamment de remettre en cause le scénario et d’augmenter son niveau de maturité. Enfin, ce travail est préliminaire et s’inscrit dans une démarche de thèse dont l’objectif est de proposer un modèle générique de mise en évidence des traces d’apprentissage dans un EIAH. 6. Bibliographie R. Agrawal, T. Imielinski, A. Swami. « Mining association rules between sets of items in large databases », SIGMOD’93, Washington, 1993, p. 207-216. R. Agrawal, R. Srikant, « Mining Sequential Patterns », ICDE’95, Taipei, Taiwan, 1995, p. 3-14. J.M. Heraud, J.C. Marty, L. France, T. Carron, « Helping the Interpretation of Web Logs: Application to Learning Scenario Improvement », AIED’05, Amsterdam, 2005 Y. Kodratoff, A. Napoli, D. Zighed, Bulletin AFIA, ECBD, 2001. J.C. Marty, J.M. Heraud, T. Carron, L. France, « A quality approach for collaborative learning scenarios », Learning Technology newsletter of IEEE Computer Society, vol. 6, n° 4, 2004, p. 46-48. R. Srikant, , R. Agrawal « Mining Sequential Patterns: Generalizations and Performance Improvements », EDBT'96, Avignon, 1996, p. 3-17. M.J. Zaki, N. Lesh, M. Ogihara, « PlanMine: sequence mining for plan failures», KDD'98, New York, 1998, p. 369-373. M.J. Zaki, « SPADE: An Efficient Algorithm for Mining Frequent Sequences », Machine Learning Journal, vol. 42, 2001, p. 31-60.