François Meunier et al.
phénomène local détécté) ; une robustesse par rapport aux principales transformations géo-
métriques (rotation, translation, passage à l’échelle, ...) ; permettre de caractériser une zone
particulière au sein de l’objet 3D, et de s’en servir pour justifier la classification finale.
2.2 La distance / similarité entre histogrammes de répartition de valeurs
Afin de comparer deux sous-surfaces extraites, l’utilisation d’un descripteur local requiert
l’utilisation d’une distance. Le calcul du descripteur fournit un ensemble de données rassem-
blées dans un histogramme de répartition de valeurs correspondant à chaque point de la surface
retenue. Plusieurs types de distances entre histogrammes peuvent alors être utilisées : la me-
sure de Bhattacharyya (1943), la distance de Matusita (1955), la mesure de Hellinger, du chi2,
ou la divergence de Kullback et Leibler (1951).
2.3 Les "time series shapelets"
Proposée par Refregier (2001), la notion de "shapelets" était initialement appliquée aux
images. La méthode est alors basée sur une décomposition linéaire de chaque image en une
série de fonctions élémentaires décrivant des sous-parties forcément locales ; ces fonctions sont
appelées "shapelets". Concrètement, cela permet, à partir de données complexes, d’obtenir une
version simplifiée de ces données en les décomposant en entités plus simples à étudier.
Cette méthode a par la suite été adaptée aux séries temporelles pour la classification super-
visée par Ye et Keogh (2009). Le principe est d’extraire l’ensemble des sous-parties possibles
de chaque élément de l’ensemble d’apprentissage, puis de déterminer lesquelles scindent le
mieux l’ensemble des éléments, dans le but de maximiser un certain indicateur permettant de
juger de la capacité de discrimination. La méthode classique de maximisation d’entropie re-
tenue par Ye et Keogh (2009), consiste à calculer la distance minimale entre chaque attribut
candidat et chaque objet ; puis, pour chaque candidat, ordonner les objets selon la distance les
séparant de ce dernier ; enfin, évaluer la capacité de discrimination du candidat dont les plus
discriminants servent à scinder l’ensemble des séries temporelles entre les classes.
Cet indicateur, issu des méthodes de selection d’attributs dont Chandrashekar et Sahin (2014)
étudie le domaine et Renard et al. (2016) en applique certaines méthodes aux séries tempo-
relles, permet de déterminer les plus pertinentes des sous-parties. Cette évaluation est réalisée
par le gain d’information (Mutual Information) qui vise à mesurer la dépendance entre 2 va-
riables. Lines et al. (2012) et Hills et al. (2014) utilisent les shapelets (les plus discriminantes)
en calculant la distance minimale qui permet de correspondre au mieux avec les nouveaux élé-
ments à classifier, c’est-à-dire les séries temporelles encore non labellisées. Par la suite, ces
distances deviennent les attributs utilisés pour l’apprentissage et non plus l’arbre de décision
directement. Il devient ainsi possible de ramener le problème à de l’apprentissage supervisé
classique, et donc utiliser d’autres méthodes plus efficaces que les arbres de décision d’ori-
gine. L’avantage évident de la méthode des shapelets appliquée aux séries temporelles est de
pouvoir comparer des éléments de tailles très variées et dont on ne possède pas de connais-
sance a priori (comme le seraient les fonctions élémentaires de la méthode d’origine). Ce ne
sont en effet plus les éléments dans leur globalité qui peuvent être utiles, mais la juxtaposition
de certaines des sous-parties de ces derniers, aux caractéristiques diverses, qui mises ensemble
permettent de déduire les classes d’appartenance.
Parmi les nombreuses optimisations en terme de temps de calcul réalisées dans ce domaine,
- 227 -