Classification de courbes par apprentissage J-M.Loubes, O.Roudenko, M.Sebag et O.Wintenberger* * : SAMOS, Université Paris 1 Panthéon-Sorbonne, 72 rue Régnault 75013 PARIS, FRANCE RÉSUMÉ Nous souhaitons dans ce papier résumer l’information apportée par un grand nombre de données, ici les courbes d’évolution journalière de la vitesse moyenne des voitures observées sur une portion de route pendant deux ans. Nous utilisons une nouvelle méthode de classification non supervisée afin de regrouper les observations en classes cohérentes. Une méthode classique consiste à choisir les classes présentes à un même niveau dans une classification ascendante hiérarchique (CAH), puis de s’entraîner sur un échantillon distinct pour atteindre le niveau optimal. A partir de la CAH, nous effectuons une optimisation multicritère pour sélectionner de manière plus systématique les classes recouvrant le plus de courbes ayant le plus de similarités. L'algorithme atteint de meilleurs résultats que la méthode classique car il prend en considération les asymétries possibles dans la CAH. MOTS-CLÉS : Classification, optimisation multicritères. 1 Introduction Nous souhaitons résumer l’information d’un grand nombre d’observations grâce à une nouvelle méthode de classification non supervisée. Nous procédons classiquement en trois étapes : - Construire une CAH utilisant une distance spécifique aux données puis sélectionner les classes recouvrant le plus de courbes ayant le plus de similarités. Cette étape est appelée l’étape d’initialisation. - Utiliser un échantillon de courbes distinctes pour sélectionner parmi ces ensembles de classes le meilleur recouvrement. C’est l’étape d’apprentissage. - Enfin comparer les résultats obtenus avec la méthode classique sur un troisième échantillon test. C’est l’étape de validation. 2 2.1 Classification Présentations des données Nous observons la vitesse moyenne X j (t k ) des véhicules sur une portion de route toutes les 6 minutes aux instants t k , k = 1,..., d et chaque jour j =1,..., J pendant deux ans. Nous scindons les courbes d’évolution journalière de la vitesse X j ∈ ℜ d en trois groupes : - Les n premières observations X j , j =1,...,n , seront utilisées dans la CAH. - Les N courbes suivantes, notées Y j , j =1,..., N , constituent l’échantillon d’apprentissage et seront utilisées pour sélectionner le meilleur recouvrement. - 2.2 Les courbes restantes, notées Z j , j =1,...,T seront utilisées pour tester les performances de notre algorithme. Choix de la distance de classification Nous avons choisi une distance spécifique à la nature de nos données afin de construire la CAH. Pour x, y ∈ ℜ d , nous utilisons la distance ∆ définie par ∆(x, y)= t (x− y)W(x− y) où W est la matrice d par d définie par Wi , j = d − i− j d pour tout i et j ∈ {1,…,d}. Cette distance prend en compte la dimension temporelle de l’évolution de la vitesse des véhicules. Ainsi, les phénomènes similaires seront ordonnés selon les délais entre leurs moments d’apparition : Figure 1 Nous avons ∆(X,Y)=∆(Y,Z)=637 et ∆(X,Z)=967 alors que la distance euclidienne ne fait aucune distinction entre ces 3 courbes. Les pics de vitesses représentent dans notre cadre d’étude les bouchons. Notre distance permet de faire une distinction suivant l’heure à laquelle ces phénomènes ont lieu. 2.3 Classification Ascendante Hiérarchique Nous construisons une CAH en utilisant notre distance ∆ pour notre sous-échantillon X j , j =1,...,n . Pour cela, nous suivons l’algorithme de Johnson, la distance entre deux classes étant fixée comme la plus grande distance des éléments de ces classes. Nous observons une forte asymétrie dans la CAH obtenue : Figure 2 Nous formons classiquement les classes C j , j∈J de courbes en regroupant les feuilles descendantes d’un même noeud. Nous résumons l’information de chaque classe C j grâce à un représentant (appelé archétype) : X j = arg min X ∈C j ∑ ∆( X , X ' ) , qui est la courbe la plus proche du barycentre du groupe. X '∈C j D’autres choix sont possibles (médiane…). 3 3.1 Optimisation et apprentissage Optimisation multicritères Nous supposons que l’ensemble des archétypes résume convenablement l’information apportée par les observations. Mais cet ensemble est grand, le nombre de classes J de l’arbre étant élevé. Nous allons rechercher à conserver le maximum d’information dans le plus petit sous-ensemble d’archétypes possible. Pour cela, nous nous entraînons sur l’échantillon d’apprentissage en nous ramenant à un programme d’optimisation multicritères. Nous devons trouver l’ensemble d’indices Λ ⊂ J qui minimise - La précision : − 1 N La généralité : Λ N ∑ min∆(Y , X i =1 j∈Λ i j ) 3.2 Présentation succincte de l’algorithme Nous ne pouvons pas nous permettre de tester la totalité des sous-ensembles Λ possibles. Un algorithme nous permet d’en faire une sélection. Il consiste à itérer deux étapes jusqu’à obtenir un recouvrement convenable des courbes ( U C j ≈ { X j , j =1,...,n }): j∈Λ - Choix d’une feuille : nous choisissons une courbe notée F parmi X j , j =1,...,n qui maximise les critères d’une pondération. Choix d’une classe : nous choisissons dans l’arborescence de la feuille F le nœud (et donc la classe C) qui minimise le critère : (1−µ)∆(X ,F)−µ C , où X est l’archétype de C. X est alors rajouté à notre sous-ensemble Λ . Puis nous mettons à jour la pondération de l’ensemble des feuilles. La pondération est primordiale, elle permet en particulier de sélectionner à la première étape des feuilles qui sont éloignées de tous les archétypes déjà sélectionnés, tout en évitant de ne sélectionner que les outliers. 3.3 Apprentissage L’algorithme dépend essentiellement du paramètre µ : à µ fixé, nous sélectionnons toujours les mêmes archétypes. Nous faisons alors varier notre paramètre jusqu’à obtenir un Λ opt tel qu’il n’existe pas d’autres candidats qui décrivent plus précisément l’échantillon d’apprentissage : Λ opt = arg min µ 3.4 1 N N ∑ min∆(Y , X i =1 j∈Λ i j ). Comparaison avec la méthode classique Habituellement, le choix du meilleur ensemble de classes dans la CAH se fait en coupant l’arbre au niveau optimal et en gardant les classes correspondantes. Ainsi, seuls les sous ensembles constitués de nœuds (et donc de classes) d’un même niveau dans la CAH sont considérés. Le problème de cette méthode est que toutes les branches de l’arbre sont traitées de la même manière. Nous comparons cette méthode classique avec la notre grâce à l’échantillon test. Le tableau ci-dessous présente la moyenne, l’écart type, le minimum et le maximum des quantités min ∆(Zi, X j ) : j∈∆ Méthodes Niveau de coupe fixe Multiobjectif Moyenne 0.43 0.34 Ecart type 5.0 4.2 Min. 18 18 Max. 28 19 Tableau 1 Nous obtenons de meilleurs résultats que la méthode classique. Nous appliquons notre méthode au trafic routier. A une date T et une heure H, nous disposons de l’historique du trafic aux dates 1,…,T-1. Nous obtenons un résumé optimal de cet ensemble de courbes grâce à notre algorithme. Puis nous estimons la vitesse en H+1 en choisissant l’archétype le plus proche aux heures 0,…,H de la courbe en T et en prenant la vitesse de cet archétype en H+1. 4 Bibliographie [GLM 04] GAMBOA F., LOUBES J.M., MAZA E., Structural estimation for high dimensional data, submitted to Annals of Statistics, 2004. [LLM 04] LAVIELLE M., LOUBES J.M., and MAZA E , Classification and forecasting in travel time, submitted to Canadian Journal of Statistics, 2004.