Encadrants : Simon Malinowski1, Thomas Guyet1, René Quiniou2, Sid-ahmed Benabderrahmane2 Équipe : 1. Laboratoire d'Informatique AGROCAMPUS-OUEST – IRISA Équipe DREAM 2. INRIA – IRISA Équipe DREAM Mail : [email protected], [email protected] Contacts : Simon Malinowski, Thomas Guyet Titre : Décomposition multi-échelle d'une série temporelle par approche MDL Mots clés : séries temporelles, approche MDL, minimum description length, fouille de données, intelligence artificielle Description : L'extraction automatique de connaissances à partir de données (ou fouille de données) consiste à identifier des motifs « intéressants » présents dans les données. Dans le cas de séries temporelles, c'est-à-dire des signaux numériques caractérisant le comportement d'un système dynamique, on cherche à identifier des motifs caractéristiques permettant d'interpréter les événements qui se sont déroulé à partir de la série temporel. On cherche donc à extraire automatiquement des « motifs » (portions de signaux) qui sont significatifs. L'approche proposée dans ce stage est une approche par longueur minimale de description (MDL) [1], inspirée de la compression de données : les portions de la série qui reviennent régulièrement pourront être compressés efficacement. L'idée de cette approche sera donc de s'intéresser à une décomposition d'une série temporelle sous la forme d'une suite de « motifs ». L'application de l'approche MDL permet de choisir une décomposition de la série temporelle qui va se baser sur des motifs présents dans la série, tout en essayant de la représenter sous une forme la plus compacte possible. Un des défis posé par cette approche est l'efficacité de l'exploration des nombreuses possibilités de décomposition. Selon ce même principe MDL, Vespier et al. [2] ont proposé une approche pour décomposer une série temporelle en séries temporelles caractéristiques des différentes échelles temporelles. Cette approche pourra être utilisée pour extraire des motifs à des échelles temporelles différentes. Travail à effectuer : – découvrir les éléments bibliographiques liés à l'usage de la MDL pour des séries temporelles – implémenter une méthode « brute force » intégrant la méthode de Vespier et al. pour la décomposition multi-échelle de série temporelle avec une approche MDL – explorer les possibilités d'améliorer la méthode pour explorer plus efficacement l'ensemble des décompositions possibles – appliquer, tester et comparer la méthode sur des données réelles. Durant ce stage, nous proposons de travailler sur des séries temporelles issues de différentes contextes applicatifs : signaux issues d'activités physiques, signaux d'activités de vaches, electro-cardiogrammes, etc. L'approche pourra être comparée à d'autres approches développées dans l'équipe DREAM. Le langage de programmation reste à définir. Références : [1] Peter Grünwald , A Tutorial Introduction to the Minimum Description Length Principle , Advances in Minimum Description Length: Theory and Applications , MIT Press, 2004 [2] Ugo Vespier, Arno Knobbe, Siegfried Nijssen and Joaquin Vanschoren, MDL-based Analysis of Time Series at Multiple Time-Scales , PKDD, 2012 [3] Thanawin Rakthanmanon , Eamonn J. Keogh , Stefano Lonardi , MDL-Based Time Series Clustering , KAIS, 2012 Proposition de stage d'été Portage d'un logiciel de détection d'événements sanitaires de Matlab à Python Equipe-projet DREAM INRIA Centre de Rennes, Bretagne Atlantique/IRISA Durée : 2 mois René Quiniou (INRIA/IRISA - [email protected]) Contexte Odisseptale est un logiciel de surveillance de l'état sanitaire de vaches laitières ou de torillons en atelier d'engraissement. Des capteurs « embarqués » par les animaux transmettent, plusieurs fois par jour, les valeurs de capteurs enregistrant la température, l'activité globale, ou encore l'activité de rumination. Des changements notables observés dans les données capteurs peuvent correspondre à des pathologies que les éleveurs souhaitent détecter au plus tôt. Pour effectuer ce type de détection, Odisseptale cumule les erreurs observées par rapport à une référence qui varie suivant le contexte, puis émet une alarme lorsque le cumul dépasse un certain seuil (algorithme CUSUM). Problématique La version actuelle du logiciel permet d'analyser une seule variable à la fois. Nous souhaitons étendre le logiciel afin qu'il puisse traiter plusieurs variables. Nous souhaitons, de plus, lui incorporer un module de décision portant sur une ou plusieurs variables. Par ailleurs, le programme est codé en Matlab, ce qui pose des pose des problèmes de portabilité et nuit à sa diffusion. Ces dernières années, des environnements scientifiques tels numpy/scipy ou pandas ont été développés pour python et fournissent une alternative performante et ouverte Matlab. Enfin, Odiseptale ne dispose pas d'interface graphique ce qui rend son utilisation difficile pour nos partenaires scientifiques ou vétérinaires, en particulier, la modification des paramètres ou la lecture des résultats. Travail à effectuer • • • • traduire le logiciel Odisseptale de Matlab en Python en utilisant une extension telle que scipy ou pandas, étendre les structures de données et de contrôle d'Odisseptale pour passer à une version multi-capteur, concevoir et mettre en œuvre un module de décision permettant de fusionner les alertes émises sur les différentes variables, concevoir et mettre en œuvre une interface graphique permettant d'afficher les séries temporelles issues des capteurs ainsi que les événements détectés, d'une part, et de gérer les paramètres, d'autre part. Profil demandé • • bonnes compétences en programmation, connaissance de python appréciée. Mots clés diagnostic ; détection de changement ; CUSUM ; série temporelles ; multi-variées Encadrant : Thomas Guyet1 Équipe : 1. Laboratoire d'Informatique AGROCAMPUS-OUEST – IRISA Équipe DREAM Mail : [email protected] Contacts : Thomas Guyet Titre : Extension RapidMiner pour la fouille de données sur des images satellite Mots clés : intelligence artificielle, fouille de données, traitement de données géographiques, images satellite, application agronomique. Description : Les images satellite permettent l’acquisition d’information à grande échelle sur les couvertures de sol. Elles se différencient des images classiques (trois couches RGB), d'une part, parce que chaque pixel d'une telle image peut contenir plus de couches et, d'autre part, parce que les pixels sont géoréférencés. Nous nous intéressons en particulier aux séries temporelles d’images satellite (SITS), c'est-à-dire des images composés d'une « couche » acquise tous les seize jours sur plusieurs années. Les travaux récents de l'équipe DREAM [1] ont permis de mettre en place une méthode pour segmenter une SITS en utilisant des méthodes de fouille de données (clustering, fouille de séquence, ...). Pour tester différents algorithmes de clustering, nous avons débuté l'implémentation d'un plugin de RapidMiner [2] pour y intégrer le traitement d'images géoréférencées. Ce logiciel permet de définir interactivement une « chaîne de traitements » pour réaliser une tâche de fouille de données ainsi que des plans d'expérimentation pour comparer les performances des méthodes. Le logiciel propose une interface pour connecter des opérateurs (algorithmes de fouille de données ou de transformation de données). Dans ce stage, nous souhaitons améliorer l'« extension » RapidMiner (ou plugins) en y intégrant des prétraitements d'images géoréférencées à l'aide de la librarie SEXTANTE [3]. Dans un premier temps, le stagiaire aura pour objectif de définir un opérateur de RapidMiner intégrant les fonctionnalités de la librairie SEXTANTE. Une fois cet opérateur mis en place, vous utiliserez RapidMiner de sorte à construire une chaîne de traitement pour la classification de SITS. Dans cette partie du stage, l'objectif sera d'étendre l'approche générale en proposant des méthodes permettant : – de combiner plusieurs séries temporelles d'indicateurs par pixel (e.g. NDVI, NDII, LAI), – d'utiliser des informations complémentaires telles que les données météorologiques ou les données d'altitude. La réalisation pourra être testée sur des données issues de séries temporelles d'images satellite (données du Sénégal ou données sur les zones urbains de la région Bretagne). L'expertise sur les données pourra être assurée par H. Nicolas, du laboratoire Agrocampus-Ouest/PSN. Les développements seront réalisés en Java. Une expérience dans ce langage est souhaitable. Les technologies utilisées vont permettre à l'étudiant de découvrir, d'une part, les méthodes de fouille de données utilisées dans RapidMiner, les méthodes spécifiques de traitement de l'information géographique (utilisation de la librairie GeoTools). Le stage sera effectué conjointement au Laboratoire d'Informatique d'Agrocampus-Ouest et à l'IRISA au sein de l'équipe DREAM (Diagnostic, Recommandation d'Action, Modélisation). Références : [1] Guyet T., Nicolas H., Diouck A. « Segmentation multi-échelle de séries temporelles d’images satellite : Application à l’étude d’une période de sécheresse au Sénégal », RFIA, 2011. [2] RapidMiner : www.rapidminer.com [3] SEXTANTE : http://www.sextantegis.com/ Encadrants : Thomas Guyet1, René Quiniou2, Yves Moinard2 Équipe : 1. Laboratoire d'Informatique AGROCAMPUS-OUEST – IRISA Équipe DREAM 2. INRIA – IRISA Équipe DREAM Mail : [email protected] Contacts : Thomas Guyet Titre : Fouille de séquences avec ASP (Answer Set Programming) Mots clés : fouille de données, données séquentielles, programmation par contrainte, intelligence artificielle, programmation déclarative Description : L'extraction automatique de connaissances à partir de données (ou fouille de données) consiste à identifier des motifs « intéressants » présents dans les données. La mesure d'intérêt généralement utilisée est basée sur le nombre d’occurrences ou instances des motifs dans les données. Les grands volumes des données enregistrées et stockées actuellement motivent particulièrement l'intérêt des recherches dans ce domaine. Le problème d'extraction des motifs fréquents dans une base de données est un problème très combinatoire. Deux approches génériques de résolution de ces problèmes gagnent en performance depuis ces dernières années : la programmation par contrainte et l'answer set programming (ASP). Dans ces approches déclaratives, le travail consiste à construire un « programme » qui représente les contraintes du problème dans un langage spécifique : un langage de contraintes (numériques) pour la programmation par contraintes et un langage logique pour l'ASP. Les méthodes de programmation par contraintes et d'ASP ont déjà été utilisées pour traiter la fouille d'itemsets (ie ensemble d'attributs/valeurs) : projet DAG [1, 2] pour les approches par contraintes ou [3,4] pour les approches ASP. L'équipe DREAM s'intéresse à des données séquentielles qui servent à représenter la dynamique d'un système au travers de la succession d’événements symboliques qui ont été enregistrés pendant son fonctionnement. L'objectif du stage est de s'intéresser à la fouille de séquences en utilisant une méthode de type ASP en s'inspirant des travaux existants sur les itemsets. L'approche pourra être testée avec d'autres approches algorithmiques de la fouille de séquences développées dans l'équipe. Références : [1] http://liris.cnrs.fr/dag/ [2] A parameterizable enumeration algorithm for sequence mining J. David, L. Nourine. Theoretical Computer Science, Volume 468, 14 January 2013, Pages 59–68. [3] Matti Järvisalo , Itemset Mining as a Challenge Application for Answer Set Enumeration ,In 11th International Conference on Logic Programming and Nonmonotonic Reasoning, 2011 [4] Martin Gebser, Benjamin Kaufmann, Andrea Neumann, and Torsten Schaub. 2007. Conflict-driven answer set enumeration. In Proceedings of the 9th international conference on Logic programming and nonmonotonic reasoning (LPNMR'07), 136-148. Encadrants : Véronique Masson1 Équipe : 1. ISTIC – IRISA Équipe DREAM Mail : [email protected] Titre : Analyse d’un ensemble de règles de caractérisation ou classification. Application à l’analyse de règles de caractérisation de situations polluantes/non polluantes de l’eau. Mots clés : classification, clustering, apprentissage symbolique, intelligence artificielle Description : L’apprentissage automatique symbolique permet d’acquérir un ensemble de règles interprétables classifiant ou caractérisant un ensemble de données. Les règles apprises sont facilement lisibles par l’utilisateur (à la différence de l’apprentissage de type « boite noire ») mais leur analyse n’est pas toujours sans poser problème. En effet, ces ensemble de règles peuvent être volumineux; les attributs numériques peuvent prendre des valeurs extrêmement variées qu’il est difficile de comparer. Pour faciliter l’analyse de tels ensembles de règles, on souhaite pouvoir comparer les règles et mettre en valeur les différences et similarités des règles d’un même ensemble ou entre plusieurs ensembles de règles apprises(1). L’idée est d’utiliser des méthodes de clustering en tenant compte de la spécificité des données à étudier, en particulier de l’importance des intervalles numériques dans les attributs des règles(2) (3). La qualité du clustering devra aussi prendre en compte les mesures de qualité des règles telles que le support et la confiance. Le support et la confiance d’une règle donnent des informations sur le nombre d’exemples de la base d’apprentissage que cette règle représente. L’application de cette recherche se fera dans le cadre d’un système d’aide à la décision pour l’amélioration de la qualité des eaux des bassins versants (système Sacadeau (4)). Des règles de caractérisation des situations polluantes et des situations non-polluantes ont été apprises automatiquement à partir d’exemples de ces situations. Les règles attributs-valeurs apprises comportent de nombreux attributs numériques, exprimés sous forme d’intervalles des valeurs que peuvent prendre ces attributs. L’objectif premier de ce stage est de rechercher et d’adapter des méthodes de clustering afin de mettre en évidence des similarités entre des règles avec des attributs à intervalles numériques en intégrant les mesures de support et de confiance de ces règles. Dans un second temps, la possibilité d’intégrer ce clustering au processus même d’apprentissage attribut-valeur utilisé sera à étudier. Bibliographie : 1. « A classification method based on subspace clustering and association rules » T. Washio, K. Nakanishi, H. Motoda, New Generation Computing 25, 2007 2. « Partitional clustering algorithms for symbolic interval data based on single adaptative distances », F. de A.T. De Carvalho, Y. Lechevallier, Pattern recognition 42, 2009 3. « Dynamic clustering of interval data using a Wassertein-based distance » A. Irpino, R. Verde, Pattern recognition letters 29, 2008 4. « Mining simulation data rule induction to determine critical source areas of stream water pollution by herbicides », R. Trepos, V. Masson, M.O. Cordier, C. Gascuel, J. Salmon-Monviola, COMPAG 86, 2012