Encadrants : Simon Malinowski 1, Thomas Guyet1, René Quiniou2

publicité
Encadrants : Simon Malinowski1, Thomas Guyet1, René Quiniou2, Sid-ahmed Benabderrahmane2
Équipe :
1. Laboratoire d'Informatique AGROCAMPUS-OUEST – IRISA Équipe DREAM
2. INRIA – IRISA Équipe DREAM
Mail : [email protected], [email protected]
Contacts : Simon Malinowski, Thomas Guyet
Titre : Décomposition multi-échelle d'une série temporelle par approche MDL
Mots clés : séries temporelles, approche MDL, minimum description length, fouille de données,
intelligence artificielle
Description :
L'extraction automatique de connaissances à partir de données (ou fouille de données) consiste à identifier des
motifs « intéressants » présents dans les données. Dans le cas de séries temporelles, c'est-à-dire des signaux
numériques caractérisant le comportement d'un système dynamique, on cherche à identifier des motifs
caractéristiques permettant d'interpréter les événements qui se sont déroulé à partir de la série temporel. On
cherche donc à extraire automatiquement des « motifs » (portions de signaux) qui sont significatifs.
L'approche proposée dans ce stage est une approche par longueur minimale de description (MDL) [1], inspirée de
la compression de données : les portions de la série qui reviennent régulièrement pourront être compressés
efficacement. L'idée de cette approche sera donc de s'intéresser à une décomposition d'une série temporelle
sous la forme d'une suite de « motifs ». L'application de l'approche MDL permet de choisir une décomposition de
la série temporelle qui va se baser sur des motifs présents dans la série, tout en essayant de la représenter sous
une forme la plus compacte possible. Un des défis posé par cette approche est l'efficacité de l'exploration des
nombreuses possibilités de décomposition.
Selon ce même principe MDL, Vespier et al. [2] ont proposé une approche pour décomposer une série temporelle
en séries temporelles caractéristiques des différentes échelles temporelles. Cette approche pourra être utilisée
pour extraire des motifs à des échelles temporelles différentes.
Travail à effectuer :
–
découvrir les éléments bibliographiques liés à l'usage de la MDL pour des séries temporelles
–
implémenter une méthode « brute force » intégrant la méthode de Vespier et al. pour la décomposition
multi-échelle de série temporelle avec une approche MDL
–
explorer les possibilités d'améliorer la méthode pour explorer plus efficacement l'ensemble des
décompositions possibles
–
appliquer, tester et comparer la méthode sur des données réelles.
Durant ce stage, nous proposons de travailler sur des séries temporelles issues de différentes contextes
applicatifs : signaux issues d'activités physiques, signaux d'activités de vaches, electro-cardiogrammes, etc.
L'approche pourra être comparée à d'autres approches développées dans l'équipe DREAM.
Le langage de programmation reste à définir.
Références :
[1] Peter Grünwald , A Tutorial Introduction to the Minimum Description Length Principle , Advances in
Minimum Description Length: Theory and Applications , MIT Press, 2004
[2] Ugo Vespier, Arno Knobbe, Siegfried Nijssen and Joaquin Vanschoren, MDL-based Analysis of Time
Series at Multiple Time-Scales , PKDD, 2012
[3] Thanawin Rakthanmanon , Eamonn J. Keogh , Stefano Lonardi , MDL-Based Time Series Clustering ,
KAIS, 2012
Proposition de stage d'été
Portage d'un logiciel de détection d'événements sanitaires de Matlab à Python
Equipe-projet DREAM
INRIA Centre de Rennes, Bretagne Atlantique/IRISA
Durée : 2 mois
René Quiniou (INRIA/IRISA - [email protected])
Contexte
Odisseptale est un logiciel de surveillance de l'état sanitaire de vaches laitières ou de torillons en atelier
d'engraissement. Des capteurs « embarqués » par les animaux transmettent, plusieurs fois par jour, les valeurs
de capteurs enregistrant la température, l'activité globale, ou encore l'activité de rumination. Des changements
notables observés dans les données capteurs peuvent correspondre à des pathologies que les éleveurs
souhaitent détecter au plus tôt. Pour effectuer ce type de détection, Odisseptale cumule les erreurs observées par
rapport à une référence qui varie suivant le contexte, puis émet une alarme lorsque le cumul dépasse un certain
seuil (algorithme CUSUM).
Problématique
La version actuelle du logiciel permet d'analyser une seule variable à la fois. Nous souhaitons étendre le logiciel
afin qu'il puisse traiter plusieurs variables. Nous souhaitons, de plus, lui incorporer un module de décision portant
sur une ou plusieurs variables.
Par ailleurs, le programme est codé en Matlab, ce qui pose des pose des problèmes de portabilité et nuit à sa
diffusion. Ces dernières années, des environnements scientifiques tels numpy/scipy ou pandas ont été
développés pour python et fournissent une alternative performante et ouverte Matlab.
Enfin, Odiseptale ne dispose pas d'interface graphique ce qui rend son utilisation difficile pour nos partenaires
scientifiques ou vétérinaires, en particulier, la modification des paramètres ou la lecture des résultats.
Travail à effectuer
•
•
•
•
traduire le logiciel Odisseptale de Matlab en Python en utilisant une extension telle que scipy ou pandas,
étendre les structures de données et de contrôle d'Odisseptale pour passer à une version multi-capteur,
concevoir et mettre en œuvre un module de décision permettant de fusionner les alertes émises sur les
différentes variables,
concevoir et mettre en œuvre une interface graphique permettant d'afficher les séries temporelles issues
des capteurs ainsi que les événements détectés, d'une part, et de gérer les paramètres, d'autre part.
Profil demandé
•
•
bonnes compétences en programmation,
connaissance de python appréciée.
Mots clés
diagnostic ; détection de changement ; CUSUM ; série temporelles ; multi-variées
Encadrant : Thomas Guyet1
Équipe :
1. Laboratoire d'Informatique AGROCAMPUS-OUEST – IRISA Équipe DREAM
Mail : [email protected]
Contacts : Thomas Guyet
Titre : Extension RapidMiner pour la fouille de données sur des images satellite
Mots clés : intelligence artificielle, fouille de données, traitement de données géographiques, images
satellite, application agronomique.
Description :
Les images satellite permettent l’acquisition d’information à grande échelle sur les couvertures de sol. Elles se
différencient des images classiques (trois couches RGB), d'une part, parce que chaque pixel d'une telle image
peut contenir plus de couches et, d'autre part, parce que les pixels sont géoréférencés.
Nous nous intéressons en particulier aux séries temporelles d’images satellite (SITS), c'est-à-dire des images
composés d'une « couche » acquise tous les seize jours sur plusieurs années. Les travaux récents de l'équipe
DREAM [1] ont permis de mettre en place une méthode pour segmenter une SITS en utilisant des méthodes de
fouille de données (clustering, fouille de séquence, ...).
Pour tester différents algorithmes de clustering, nous avons débuté l'implémentation d'un plugin de RapidMiner [2]
pour y intégrer le traitement d'images géoréférencées. Ce logiciel permet de définir interactivement une « chaîne
de traitements » pour réaliser une tâche de fouille de données ainsi que des plans d'expérimentation pour
comparer les performances des méthodes. Le logiciel propose une interface pour connecter des opérateurs
(algorithmes de fouille de données ou de transformation de données).
Dans ce stage, nous souhaitons améliorer l'« extension » RapidMiner (ou plugins) en y intégrant des prétraitements d'images géoréférencées à l'aide de la librarie SEXTANTE [3].
Dans un premier temps, le stagiaire aura pour objectif de définir un opérateur de RapidMiner intégrant les
fonctionnalités de la librairie SEXTANTE.
Une fois cet opérateur mis en place, vous utiliserez RapidMiner de sorte à construire une chaîne de traitement
pour la classification de SITS. Dans cette partie du stage, l'objectif sera d'étendre l'approche générale en
proposant des méthodes permettant :
–
de combiner plusieurs séries temporelles d'indicateurs par pixel (e.g. NDVI, NDII, LAI),
–
d'utiliser des informations complémentaires telles que les données météorologiques ou les données
d'altitude.
La réalisation pourra être testée sur des données issues de séries temporelles d'images satellite (données du
Sénégal ou données sur les zones urbains de la région Bretagne). L'expertise sur les données pourra être
assurée par H. Nicolas, du laboratoire Agrocampus-Ouest/PSN.
Les développements seront réalisés en Java. Une expérience dans ce langage est souhaitable. Les technologies
utilisées vont permettre à l'étudiant de découvrir, d'une part, les méthodes de fouille de données utilisées dans
RapidMiner, les méthodes spécifiques de traitement de l'information géographique (utilisation de la librairie
GeoTools).
Le stage sera effectué conjointement au Laboratoire d'Informatique d'Agrocampus-Ouest et à l'IRISA au sein de
l'équipe DREAM (Diagnostic, Recommandation d'Action, Modélisation).
Références :
[1] Guyet T., Nicolas H., Diouck A. « Segmentation multi-échelle de séries temporelles d’images satellite :
Application à l’étude d’une période de sécheresse au Sénégal », RFIA, 2011.
[2] RapidMiner : www.rapidminer.com
[3] SEXTANTE : http://www.sextantegis.com/
Encadrants : Thomas Guyet1, René Quiniou2, Yves Moinard2
Équipe :
1. Laboratoire d'Informatique AGROCAMPUS-OUEST – IRISA Équipe DREAM
2. INRIA – IRISA Équipe DREAM
Mail : [email protected]
Contacts : Thomas Guyet
Titre : Fouille de séquences avec ASP (Answer Set Programming)
Mots clés : fouille de données, données séquentielles, programmation par contrainte, intelligence
artificielle, programmation déclarative
Description :
L'extraction automatique de connaissances à partir de données (ou fouille de données) consiste à
identifier des motifs « intéressants » présents dans les données. La mesure d'intérêt généralement utilisée
est basée sur le nombre d’occurrences ou instances des motifs dans les données. Les grands volumes des
données enregistrées et stockées actuellement motivent particulièrement l'intérêt des recherches dans ce
domaine.
Le problème d'extraction des motifs fréquents dans une base de données est un problème très
combinatoire. Deux approches génériques de résolution de ces problèmes gagnent en performance
depuis ces dernières années : la programmation par contrainte et l'answer set programming (ASP). Dans
ces approches déclaratives, le travail consiste à construire un « programme » qui représente les
contraintes du problème dans un langage spécifique : un langage de contraintes (numériques) pour la
programmation par contraintes et un langage logique pour l'ASP.
Les méthodes de programmation par contraintes et d'ASP ont déjà été utilisées pour traiter la fouille
d'itemsets (ie ensemble d'attributs/valeurs) : projet DAG [1, 2] pour les approches par contraintes ou
[3,4] pour les approches ASP.
L'équipe DREAM s'intéresse à des données séquentielles qui servent à représenter la dynamique d'un
système au travers de la succession d’événements symboliques qui ont été enregistrés pendant son
fonctionnement.
L'objectif du stage est de s'intéresser à la fouille de séquences en utilisant une méthode de type ASP en
s'inspirant des travaux existants sur les itemsets. L'approche pourra être testée avec d'autres approches
algorithmiques de la fouille de séquences développées dans l'équipe.
Références :
[1] http://liris.cnrs.fr/dag/
[2] A parameterizable enumeration algorithm for sequence mining J. David, L. Nourine. Theoretical
Computer Science, Volume 468, 14 January 2013, Pages 59–68.
[3] Matti Järvisalo , Itemset Mining as a Challenge Application for Answer Set Enumeration ,In 11th
International Conference on Logic Programming and Nonmonotonic Reasoning, 2011
[4] Martin Gebser, Benjamin Kaufmann, Andrea Neumann, and Torsten Schaub. 2007. Conflict-driven answer
set enumeration. In Proceedings of the 9th international conference on Logic programming and
nonmonotonic reasoning (LPNMR'07), 136-148.
Encadrants : Véronique Masson1
Équipe :
1. ISTIC – IRISA Équipe DREAM
Mail : [email protected]
Titre : Analyse d’un ensemble de règles de caractérisation ou classification. Application à l’analyse de
règles de caractérisation de situations polluantes/non polluantes de l’eau.
Mots clés : classification, clustering, apprentissage symbolique, intelligence artificielle
Description :
L’apprentissage automatique symbolique permet d’acquérir un ensemble de règles interprétables
classifiant ou caractérisant un ensemble de données. Les règles apprises sont facilement lisibles par
l’utilisateur (à la différence de l’apprentissage de type « boite noire ») mais leur analyse n’est pas
toujours sans poser problème. En effet, ces ensemble de règles peuvent être volumineux; les attributs
numériques peuvent prendre des valeurs extrêmement variées qu’il est difficile de comparer.
Pour faciliter l’analyse de tels ensembles de règles, on souhaite pouvoir comparer les règles et mettre en
valeur les différences et similarités des règles d’un même ensemble ou entre plusieurs ensembles de
règles apprises(1). L’idée est d’utiliser des méthodes de clustering en tenant compte de la spécificité des
données à étudier, en particulier de l’importance des intervalles numériques dans les attributs des
règles(2) (3). La qualité du clustering devra aussi prendre en compte les mesures de qualité des règles
telles que le support et la confiance. Le support et la confiance d’une règle donnent des informations sur
le nombre d’exemples de la base d’apprentissage que cette règle représente.
L’application de cette recherche se fera dans le cadre d’un système d’aide à la décision pour
l’amélioration de la qualité des eaux des bassins versants (système Sacadeau (4)). Des règles de
caractérisation des situations polluantes et des situations non-polluantes ont été apprises
automatiquement à partir d’exemples de ces situations. Les règles attributs-valeurs apprises comportent
de nombreux attributs numériques, exprimés sous forme d’intervalles des valeurs que peuvent prendre
ces attributs.
L’objectif premier de ce stage est de rechercher et d’adapter des méthodes de clustering afin de mettre en
évidence des similarités entre des règles avec des attributs à intervalles numériques en intégrant les
mesures de support et de confiance de ces règles.
Dans un second temps, la possibilité d’intégrer ce clustering au processus même d’apprentissage
attribut-valeur utilisé sera à étudier.
Bibliographie :
1. « A classification method based on subspace clustering and association rules » T. Washio, K. Nakanishi,
H. Motoda, New Generation Computing 25, 2007
2. « Partitional clustering algorithms for symbolic interval data based on single adaptative
distances », F. de A.T. De Carvalho, Y. Lechevallier, Pattern recognition 42, 2009
3. « Dynamic clustering of interval data using a Wassertein-based distance » A. Irpino, R. Verde,
Pattern recognition letters 29, 2008
4. « Mining simulation data rule induction to determine critical source areas of stream water
pollution by herbicides », R. Trepos, V. Masson, M.O. Cordier, C. Gascuel, J. Salmon-Monviola,
COMPAG 86, 2012
Téléchargement