Application des mélanges de lois de probabilité à la reconnaissance

Téléchargement

RTS n° 53 octobre-décembre 1996 Gestion du trafic

Application des mélanges de lois de probabilité à la

reconnaissance de régimes de trafic routier

François Couton

Medhi Danech-Pajouh

INRETS-DART

2 avenue du Général Malleret-Joinville

94114 Arcueil cedex

en collaboration avec Michel Broniatowski

Université de Reims

Nous tenons à remercier deux spécialistes de l'analyse des données, Messieurs Edwin Diday et

Yves Lechevallier, chercheurs à l'INRIA et enseignants à l'Université Paris-Dauphine, pour les

précieux conseils qu'ils ont bien voulu nous prodiguer lors de la réalisation de cette étude.

La compréhension d'un phénomène et de son évolution, à partir de séries temporelles, est un

domaine de recherche actif. Des spécialistes de disciplines scientifiques très variées s'intéressent à

ce sujet, en particulier les probabilistes (calcul stochastique) et les statisticiens (estimation, test,

prévision). De même, des ingénieurs ont travaillé à la mise au point de méthodes diverses dans

leurs domaines, souvent sans fondements théoriques, ni lien les unes avec les autres.

Dans cet article, nous nous intéressons à la notion de régime de trafic. Ce concept est souvent

utilisé par les opérateurs de réseaux routiers pour distinguer les conditions de circulation. Un

régime correspond à un niveau d'écoulement ou de fluidité du trafic.

Par exemple, en France, le dispositif Bison futé utilise trois régimes identifiés par des couleurs pour

le public et par des vitesses pour les gestionnaires de trafic : régime fluide ou vert, si la vitesse est

supérieure à 50 km/h, régime difficile ou orange, si la vitesse se situe entre 20 et 50 km/h, régime

encombré ou rouge, si la vitesse est inférieure à 20 km/h.

Par ailleurs, la Metropolitan Expressway Public Corporation de Tokyo a défini des régimes de

trafic similaires (plus de 40 km/h, entre 20 et 40 km/h, moins de 20 km/h) [Kaneko et al., 1995].

Notre objectif est de déterminer les conditions de l'application du modèle de mélange de lois de

probabilité à la reconnaissance de régimes de trafic routier. Nous identifions chaque composante du

mélange à un régime de trafic.

L'application du modèle des mélanges de lois de probabilité aux mesures de trafic est une démarche

complètement nouvelle. Elle consiste à reconnaître les différents régimes de trafic sur une section

de route et à étudier leur évolution au cours du temps. Nous nous sommes en particulier intéressés

au problème de la transition d'un régime de trafic à un autre.

Dans une première partie de l'article, les aspects mathématiques et théoriques du problème sont

abordés. Nous présentons tout d'abord le modèle statistique des mélanges et quelques exemples,

puis un algorithme stochastique permettant d'estimer les valeurs des paramètres d'un mélange,

l'algorithme SEM.

Ensuite, nous proposons une méthodologie d'analyse du trafic routier, fondée sur ce modèle

statistique, et reposant sur un découpage de la journée en périodes à horaire fixe. Cette méthode

permet d'une part de reconnaître les régimes de trafic routier et d'autre part de décrire leur évolution

au cours du temps en estimant sur chaque période les paramètres du mélange.

Pour finir, nous exposons les résultats de l'application de cette méthode à un indicateur

d'écoulement mesuré sur le boulevard périphérique parisien, au niveau des portes d'Italie et de

Gentilly.

Approche théorique

Introduction

Un des plus vieux problèmes de la statistique inférentielle est d'estimer une distribution de

probabilité à partir d'un échantillon observé. Bien que de nombreux phénomènes soient modélisés

par des lois de probabilité classiques, il existe des cas où ce cadre théorique n'est pas applicable.

Deux approches sont alors possibles, l'approche non-paramétrique ou l'approche paramétrique

améliorée. Dans cette étude, nous privilégions la seconde, avec l'étude des mélanges de

distributions appliqués au trafic routier.

Nous faisons l'hypothèse que la loi d'une variable aléatoire de données issues de mesures du trafic

routier peut s'interpréter comme une combinaison convexe de plusieurs lois de probabilité. Pour

reconnaître ces mélanges de lois, nous allons utiliser l'algorithme SEM, décrit dans la suite de

l'article.

En pratique, on prend conscience de ce phénomène en considérant un histogramme de débits à

plusieurs modes. L'avantage de cette approche est de donner une description plus fidèle de la réalité

d'un phénomène, sans empêcher cependant sa modélisation mathématique et sa résolution

informatique.

Généralités sur les mélanges de lois

Soit un échantillon

(

)

1,N

xx=… d'une variable aléatoire X à valeurs dans d

Rdont la loi est :

=⋅

∑

où les k

sont des mesures de probabilité sur d

Rde paramètres k

, les k

P sont les probabilités

qu'un point de l'échantillon suive la loi k

, avec 01

< et

∑.

Le problème consiste à estimer le nombre K de composantes, les paramètres inconnus k

P, ainsi que

les lois inconnues k

. On peut interpréter les k

comme une base de l'information. Une

hypothèse de travail est que le mélange de lois appartienne à une famille de mélanges identifiables

(si deux mélanges donnent exactement la même loi pour l'échantillon, alors les paramètres de ces

mélanges sont égaux).

Dans cette étude, on ne s'intéresse qu'au cas où les k

appartiennent à la même famille

paramétrique de lois de probabilité, admettant des densités :

()

fx fx

Par exemple, dans le cas des lois normales,

(

)

kkk

µσ

= représente les paramètres moyenne-

variance ; nous ne faisons donc aucune hypothèse d'égalité des variances dans les diverses

composantes.

{

}

1, k

Θ= … , alors

{

}

1,k

pp=…

peut être considéré, dans une optique bayesienne,

comme une loi de probabilité a priori sur Θ,

{

}

=, et la densité ()

x est alors

l'espérance de

()

par rapport à la loi p :

() ()

fx Efx

=



Une généralisation immédiate est le mélange continu de lois. Si p

∈

ℜ est probabilisable, muni

d'une loi p, on appelle mélange de la loi

, de densité

(

)

, par p, la loi de densité :

() ()

(

)

fx fx dp

=⋅

∫

Questions posées par l'identification d'un mélange

Ces questions sont multiples :

– choix de la famille de loi des composantes,

– détermination du nombre de composantes du mélange — il est impossible de connaître

simplement le nombre de composantes du mélange ; par exemple, la n-modalité du noyau d'un

histogramme ne permet pas d'affirmer que le mélange est à n composantes,

– estimation des paramètres d'un mélange — il faut d'une part estimer les probabilités mélangeantes

()

1,k

p…, d'autre part les paramètres

(

)

1,k

… des K lois mélangées.

L'algorithme SEM

Présentation du problème

Pour estimer les paramètres du mélange, nous allons utiliser la méthode du maximum de

vraisemblance. Nous nous trouvons dans le cas où l'information est minimale, seul l'échantillon

()

1,N

x… de la variable aléatoire X est disponible. Nous imposons d'abord le choix d'une

famille de lois

1 (gaussiennes). La vraisemblance V et la log-vraisemblance L sont, dans le cas

d'observations indépendantes :

()()

11 1

11,

,, ,, , ,

NN K kik

ikK

Vx x p p p fx

θθ





………= ⋅









∏∑

()()

11 1

,, ,, , ln ,

NN K kik

Lx x p p p f x

θθ





………= ⋅









∑∑

Cette méthode consiste à prendre comme estimation des paramètres, les valeurs de

{

}

1,k

Θ= … et de

{

}

1,k

pp=… qui maximisent la vraisemblance. Intuitivement,

puisque V représente une densité de probabilité, cela revient à supposer que l'événement qui s'est

produit était le plus probable.

Le problème de la vraisemblance non bornée

Un des défauts de la méthode du maximum de vraisemblance dans le modèle des mélanges de lois

de probabilité est que la fonction de vraisemblance associée n'est pas toujours bornée. Si on

considère un échantillon

()

1,n

x… provenant d'un mélange de plusieurs lois normales

unidimensionnelles et si l'une des composantes ne contient qu'un seul point, alors la vraisemblance

est non bornée.

De cette façon, tout point de l'échantillon peut provoquer un maximum infini. Une hypothèse

naturelle est d'imposer à toutes les composantes la même variance (homoscédasticité), mais c'est

une contrainte forte qui n'est pas vérifiable dans le cadre de notre étude. Cependant, en pratique, ces

points singuliers de l'espace des paramètres n'apparaissent presque jamais. On peut alors passer

outre les hypothèses précédentes [Celeux et al., 1995].

Les algorithmes de type EM

L'algorithme EM, pour estimation-maximisation, de Dempster, Laird et Rubin [1977] est souvent

utilisé pour estimer les paramètres d'un mélange de lois de probabilité par la méthode du maximum

de vraisemblance. Cependant, dans certaines situations, cette approche n'est pas applicable, du fait

de la difficulté de l'étape d'estimation du maximum de la fonction de vraisemblance.

Pour remédier à ce problème, des versions stochastiques de EM ont été proposées. En particulier,

SEM de Broniatowski, Celeux et Diebolt [1983], où l'étape d'estimation est précédée par le tirage

d'une variable aléatoire multinomiale ou bien MCEM fondée sur le principe d'intégration par les

méthodes de Monte-Carlo. Une approche alternative a été élaborée récemment. Cet algorithme,

nommé SAEM, est une adaptation de SEM à la méthode du recuit-simulé [Press et Teukolsky, 1992].

Des résultats théoriques ont été démontrés pour certaines familles exponentielles. On consultera à

ce propos l'article de Wu [1983].

Celeux, Chauveau et Diebolt conseillent dans une publication récente [Celeux et al., 1995] d'utiliser

l'algorithme SEM car il se révèle le meilleur outil d'exploration des données et de reconnaissance

1 Dans cette étude nous travaillons uniquement sur des mélanges de lois de Laplace-Gauss, car les calculs en sont

simplifiés et les résultats obtenus sont satisfaisants.

des mélanges — que les composantes soient intriquées ou séparées. De plus, les régions

intéressantes de l'espace des paramètres peuvent être déterminées, en se reposant sur les résultats de

SEM, ou en se fondant sur des considérations issues de l'expérience. C'est pourquoi nous avons

travaillé avec l'algorithme SEM pour analyser les données réelles de trafic routier.

Déroulement de l'algorithme SEM

• Initialisation : au départ, on fixe K majorant supposé du nombre de composantes du mélange ;

puis, en chaque point xi de l'échantillon, on génère aléatoirement les K probabilités initiales

d'appartenance, ou affectation, à l'une des composantes ; elles sont notées

()

, avec

()

tx<<

()

∑.

Ces probabilités forment un vecteur de dimension K, noté

(

)

• Étape stochastique : à l'itération n, pour chaque point i

de l'échantillon, on simule un tirage de

la variable aléatoire multinomiale

(

)

2 de dimension K, ayant pour paramètre le vecteur

()

. Les coordonnées de

()

sont toutes nulles, sauf pour une valeur de k où

()

zx=.

On note

()

(

)

{

}

; 1,

iki

zx zx k K==…

. Les réalisations

(

)

définissent une partition

{}

CC… de l'échantillon avec

(

)

{

}

, 1

kiki

Cxsizx

Si pour un certain k,

()

Card C =, l'algorithme est réinitialisé avec

−1 composantes.

• Étape de maximisation : on calcule les estimations du maximum de vraisemblance

()

,1 ,1 ,1

kn kn kn

+++

Φ= des paramètres du mélange sur la base des sous-échantillons n

C; on a

()

kki

=∑.

L'estimation des ,1kn

+ dépend de la famille paramétrée, posée a priori, des composantes du

mélange. Dans le cas où l'espérance k

m et l'écart type k

sk sont les constituants des paramètres

(mélange de gaussiennes, de lois de Poisson, d'exponentielles…), les estimations à l'itération n

sont :

()

est appelée variable cachée du modèle par certains auteurs.

1 / 17 100%

Documents connexes

E-COD_fiche programme_ Bachelor chef de projet en Marketing

Ressource 4

PARRAINEZ 5 personnes

Catalogue de Formations

Le groupe NORAUTO, devenu MOBIVIA Groupe, est aujourd`hui un

formulaire de demande de données de trafic - DIR Centre-Est

Communiqué de presse - Les routiers suisses

Chef de Produit Web H/F

COMMUNIQUÉ DE PRESSE

stage web marketing

Traffic manager

téléchargez ici au format ppt

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Application des mélanges de lois de probabilité à la reconnaissance

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Application des mélanges de lois de probabilité à la reconnaissance

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib