Classification de courbes par apprentissage

publicité
Classification de courbes par apprentissage
J-M.Loubes, O.Roudenko, M.Sebag et O.Wintenberger*
* : SAMOS, Université Paris 1 Panthéon-Sorbonne,
72 rue Régnault
75013 PARIS, FRANCE
RÉSUMÉ
Nous souhaitons dans ce papier résumer l’information apportée par un grand nombre de données, ici les courbes
d’évolution journalière de la vitesse moyenne des voitures observées sur une portion de route pendant deux ans.
Nous utilisons une nouvelle méthode de classification non supervisée afin de regrouper les observations en classes
cohérentes. Une méthode classique consiste à choisir les classes présentes à un même niveau dans une classification
ascendante hiérarchique (CAH), puis de s’entraîner sur un échantillon distinct pour atteindre le niveau optimal. A
partir de la CAH, nous effectuons une optimisation multicritère pour sélectionner de manière plus systématique les
classes recouvrant le plus de courbes ayant le plus de similarités. L'algorithme atteint de meilleurs résultats que la
méthode classique car il prend en considération les asymétries possibles dans la CAH.
MOTS-CLÉS : Classification, optimisation multicritères.
1
Introduction
Nous souhaitons résumer l’information d’un grand nombre d’observations grâce à une nouvelle méthode
de classification non supervisée. Nous procédons classiquement en trois étapes :
- Construire une CAH utilisant une distance spécifique aux données puis sélectionner les
classes recouvrant le plus de courbes ayant le plus de similarités. Cette étape est appelée
l’étape d’initialisation.
- Utiliser un échantillon de courbes distinctes pour sélectionner parmi ces ensembles de classes
le meilleur recouvrement. C’est l’étape d’apprentissage.
- Enfin comparer les résultats obtenus avec la méthode classique sur un troisième échantillon
test. C’est l’étape de validation.
2
2.1
Classification
Présentations des données
Nous observons la vitesse moyenne X j (t k ) des véhicules sur une portion de route toutes les 6 minutes aux
instants t k , k = 1,..., d et chaque jour j =1,..., J pendant deux ans. Nous scindons les courbes d’évolution
journalière de la vitesse X j ∈ ℜ d en trois groupes :
-
Les n premières observations X j , j =1,...,n , seront utilisées dans la CAH.
-
Les N courbes suivantes, notées Y j , j =1,..., N , constituent l’échantillon d’apprentissage et
seront utilisées pour sélectionner le meilleur recouvrement.
-
2.2
Les courbes restantes, notées Z j , j =1,...,T seront utilisées pour tester les performances de
notre algorithme.
Choix de la distance de classification
Nous avons choisi une distance spécifique à la nature de nos données afin de construire la CAH. Pour
x, y ∈ ℜ d , nous utilisons la distance ∆ définie par ∆(x, y)= t (x− y)W(x− y) où W est la matrice d par d
définie par Wi , j =
d − i− j
d
pour tout i et j ∈ {1,…,d}. Cette distance prend en compte la dimension
temporelle de l’évolution de la vitesse des véhicules. Ainsi, les phénomènes similaires seront ordonnés
selon les délais entre leurs moments d’apparition :
Figure 1
Nous avons ∆(X,Y)=∆(Y,Z)=637 et ∆(X,Z)=967 alors que la distance euclidienne ne fait aucune
distinction entre ces 3 courbes. Les pics de vitesses représentent dans notre cadre d’étude les bouchons.
Notre distance permet de faire une distinction suivant l’heure à laquelle ces phénomènes ont lieu.
2.3
Classification Ascendante Hiérarchique
Nous construisons une CAH en utilisant notre distance ∆ pour notre sous-échantillon X j , j =1,...,n . Pour
cela, nous suivons l’algorithme de Johnson, la distance entre deux classes étant fixée comme la plus
grande distance des éléments de ces classes. Nous observons une forte asymétrie dans la CAH obtenue :
Figure 2
Nous formons classiquement les classes C j , j∈J de courbes en regroupant les feuilles descendantes d’un
même noeud. Nous résumons l’information de chaque classe C j grâce à un représentant (appelé
archétype) : X
j
= arg min
X ∈C j
∑ ∆( X , X ' ) , qui est la courbe la plus proche du barycentre du groupe.
X '∈C j
D’autres choix sont possibles (médiane…).
3
3.1
Optimisation et apprentissage
Optimisation multicritères
Nous supposons que l’ensemble des archétypes résume convenablement l’information apportée par les
observations. Mais cet ensemble est grand, le nombre de classes J de l’arbre étant élevé. Nous allons
rechercher à conserver le maximum d’information dans le plus petit sous-ensemble d’archétypes possible.
Pour cela, nous nous entraînons sur l’échantillon d’apprentissage en nous ramenant à un programme
d’optimisation multicritères. Nous devons trouver l’ensemble d’indices Λ ⊂ J qui minimise
-
La précision : −
1
N
La généralité : Λ
N
∑ min∆(Y , X
i =1
j∈Λ
i
j
)
3.2
Présentation succincte de l’algorithme
Nous ne pouvons pas nous permettre de tester la totalité des sous-ensembles Λ possibles. Un algorithme
nous permet d’en faire une sélection. Il consiste à itérer deux étapes jusqu’à obtenir un recouvrement
convenable des courbes ( U C j ≈ { X j , j =1,...,n }):
j∈Λ
-
Choix d’une feuille : nous choisissons une courbe notée F parmi X j , j =1,...,n qui maximise
les critères d’une pondération.
Choix d’une classe : nous choisissons dans l’arborescence de la feuille F le nœud (et donc la
classe C) qui minimise le critère : (1−µ)∆(X ,F)−µ C , où X est l’archétype de C. X est alors
rajouté à notre sous-ensemble Λ . Puis nous mettons à jour la pondération de l’ensemble des
feuilles.
La pondération est primordiale, elle permet en particulier de sélectionner à la première étape des feuilles
qui sont éloignées de tous les archétypes déjà sélectionnés, tout en évitant de ne sélectionner que les
outliers.
3.3
Apprentissage
L’algorithme dépend essentiellement du paramètre µ : à µ fixé, nous sélectionnons toujours les mêmes
archétypes. Nous faisons alors varier notre paramètre jusqu’à obtenir un Λ opt tel qu’il n’existe pas
d’autres
candidats
qui
décrivent
plus
précisément
l’échantillon
d’apprentissage :
Λ opt = arg min
µ
3.4
1
N
N
∑ min∆(Y , X
i =1
j∈Λ
i
j
).
Comparaison avec la méthode classique
Habituellement, le choix du meilleur ensemble de classes dans la CAH se fait en coupant l’arbre au niveau
optimal et en gardant les classes correspondantes. Ainsi, seuls les sous ensembles constitués de nœuds (et
donc de classes) d’un même niveau dans la CAH sont considérés. Le problème de cette méthode est que
toutes les branches de l’arbre sont traitées de la même manière.
Nous comparons cette méthode classique avec la notre grâce à l’échantillon test. Le tableau ci-dessous
présente la moyenne, l’écart type, le minimum et le maximum des quantités min ∆(Zi, X j ) :
j∈∆
Méthodes
Niveau de coupe fixe
Multiobjectif
Moyenne
0.43
0.34
Ecart type
5.0
4.2
Min.
18
18
Max.
28
19
Tableau 1
Nous obtenons de meilleurs résultats que la méthode classique. Nous appliquons notre méthode au trafic
routier. A une date T et une heure H, nous disposons de l’historique du trafic aux dates 1,…,T-1. Nous
obtenons un résumé optimal de cet ensemble de courbes grâce à notre algorithme. Puis nous estimons la
vitesse en H+1 en choisissant l’archétype le plus proche aux heures 0,…,H de la courbe en T et en prenant
la vitesse de cet archétype en H+1.
4
Bibliographie
[GLM 04] GAMBOA F., LOUBES J.M., MAZA E., Structural estimation for high dimensional data,
submitted to Annals of Statistics, 2004.
[LLM 04] LAVIELLE M., LOUBES J.M., and MAZA E , Classification and forecasting in travel time,
submitted to Canadian Journal of Statistics, 2004.
Téléchargement