La simulation parfaite

Téléchargement

N.T.Viet M.Paul Encadrant : Christian Robert

29 juin 2007

Résumé

La simulation parfaite est une technique permettant d’obtenir des

échantillons suivant une distribution (ou loi) donnée. On l’appelle “par-

faite” par opposition aux méthodes approchées comme MCMC qui fonc-

tionnent avec des chaînes de Markov.

Dans le chapitre 1, on commencera par rappeller quelques résultats sur les

chaînes de Markov, puis l’on décrira deux algorithmes approchés basés sur

la méthode MCMC. Dans le chapitre 2, on décrira deux algorithmes de

simulation “parfaits”. On s’intérressera ensuite dans le chapitre 3 à étudier

les temps d’exécution de ces algorithmes. On terminera dans le chapitre

4 par une application au modèle d’Ising, et quelques expériences que l’on

a réalisé.

Table des matières

1 Aperçu 2

1.1 Chaînes de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Monte Carlo par chaînes de Markov . . . . . . . . . . . . . . . . 4

1.2.1 Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . 5

1.2.2 Simulateur de Gibbs . . . . . . . . . . . . . . . . . . . . . 6

1.2.3 Taille d’échantillon eﬀective . . . . . . . . . . . . . . . . . 7

1.2.4 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . 8

2 La simulation parfaite 9

2.1 Algorithme de Propp-Wilson . . . . . . . . . . . . . . . . . . . . 9

2.2 Preuve de convergence de l’algorithme . . . . . . . . . . . . . . . 10

2.3 Algorithme de Fill . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3.1 Algorithme de rejet . . . . . . . . . . . . . . . . . . . . . 11

2.3.2 L’algorithme . . . . . . . . . . . . . . . . . . . . . . . . . 11

3 Temps d’exécution 13

3.1 Propp-Wilson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.2 Algorithme de Fill . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.2.1 T variable . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.2.2 T ﬁxé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.3 MCMC ................................ 18

3.4 Comparaison des algorithmes . . . . . . . . . . . . . . . . . . . . 18

4 Le modèle d’Ising 20

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.2 Simulateur de Gibbs et monotonie . . . . . . . . . . . . . . . . . 20

4.2.1 Simulateur de Gibbs . . . . . . . . . . . . . . . . . . . . . 20

4.2.2 Monotonie . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.2.3 Approche de Propp-Wilson . . . . . . . . . . . . . . . . . 22

4.2.4 Approche de Fill . . . . . . . . . . . . . . . . . . . . . . . 22

4.2.5 Temps d’exécution . . . . . . . . . . . . . . . . . . . . . . 23

4.3 Expériences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.3.1 Grille 3×3.......................... 23

4.3.2 Temps d’exécution . . . . . . . . . . . . . . . . . . . . . . 24

1 Aperçu

1.1 Chaînes de Markov

Bien que cela soit bien connu, nous donnons ici la déﬁnition des chaînes de

Markov et quelques résultats importants pour la clareté du travail. Il est essentiel

de garder à l’esprit que certains résultats annoncés ici ne sont vrais que dans le

cas d’un ensemble d’états ﬁni (qui est le seul cas auquel on s’intérressera). Pour

des preuves détaillées de ces résultats et pour des résultats plus généraux sur

les chaînes de Markov et les chaînes de Markov réversibles, vous pouvez en lire

plus dans des livres sur les chaînes de Markov.

Déﬁnition 1 Soit Pune E×Ematrice, où Eest un ensemble ﬁni d’objets.

On dit que Pest une matrice stochastique sur Esi elle satisfait :

(i) 0≤P(x, y)≤1∀x, y ∈E

(ii) ∀x∈E,Py∈EP(x, y) = 1

Déﬁnition 2 Soit Pune matrice stochastique (voir déf.1) sur E, et soit (Xn)n∈N

un processus aléatoire à valeurs dans E. On dit que (Xn)n∈Nest une chaîne de

Markov de matrice de transition (ou noyau) Psi ∀n∈N, la loi conditionnelle

de Xn+1 sachant (X0, X1, ..., Xn)est P(Xn, .). Ou de façon équivalente :

P(Xn+1 =y|X0=x0, X1=x1, ..., Xn=xn) = P(xn, y)

pour tout x0, x1, ..., xn, y satifaisant P(X0=x0, X1=x1, ..., Xn=xn)>0

Remarque : Par convention on écrit Px(A)pour P(A|X0=x)et Pnpour Pn,

ou Pn=Pn−1∗P. Ainsi

P(Xn=y|X0=x) = Px(Xn=y) = Pn(x, y)

Une autre notion très utile est le temps d’arrêt dont la déﬁnition est la

Déﬁnition 3 Soit Fnla tribu engendrée par X0, X1, ..., Xn. Alors une variable

aléatoire Tà valeurs entières est appelée temps d’arrêt si pour tout n∈N:

{T=n} ∈ Fn

Déﬁnition 4 Une chaîne est dite irréductible si pour tout x, y ∈E,∃n∈Ntel

que Pn(x, y)>0.

Pour un état x∈Eon pose Nx=P∞

n=0 1{Xn=x}, et Hx=min{n|Xn=x}.

On a alors :

(i) Si Px(Hx<∞) = 1 alors Nx=∞Px−p.s et xest appelé état récurrent.

Si de plus Ex(Hx)<∞alors xest appelé récurrent positif, sinon il est appelé

récurrent nul.

(ii) Si Px(Hx<∞)<1alors Nx<∞Px−p.s et xest dit transitoire.

(iii) On pose Lx={n≥0 : Pn(x, x)>0}. Alors la période d(x)de xest le pgcd

de Lx.

Ici, dans notre cas, rappelez-vous que Eest ﬁni. Nous avons ainsi le théo-

rème :

Théorème 1 Pour une chaîne de Markov irréductible, tous les états sont ré-

currents positifs. De plus, ils ont la même période d(qui est appelée période de

la chaîne). Si d= 1, la chaîne est dite apériodique.

Déﬁnition 5 Soit πune mesure positive sur Etelle que ∀x∈E, π(x)<∞et

πn’est pas partout nul. On dit que πest une mesure invariante de matrice de

transition Psi c’est le vecteur propre à gauche de la valeur propre λ= 1 de la

matrice P, ou autrement dit :

∀y∈E π(y) = X

x∈E

π(x)P(x, y)

πsera appelé mesure de probabilité invariante si de plus on a :

x∈E

π(x) = 1

Théorème 2 Supposons que nous avons une chaîne récurrente positive sur un

espace ﬁni Ede noyau P. Alors il existe une unique mesure de probabilité inva-

riante (qui est toujours notée π).

Les deux théorèmes suivants sont des plus importants, et sont fondamentaux

pour la méthode MCMC.

Théorème 3 Supposons que l’on ait une chaîne récurrente positive et apério-

dique sur un espace ﬁni d’états E, de noyau P. Alors ∀x∈E:

y∈E

|Pn(x, y)−π(y)| −→

n→∞ 0

Théorème 4 Supposons que l’on ait une chaîne récurrente positive et apério-

dique sur un espace ﬁni d’états E, de noyau P, et hune fonction sur Etelle

que Px∈Eh(x)π(x)<∞(ou autrement dit Eπ(h(X0)) <∞). Alors,

k=0

h(Xk)−→

n→∞ Eπ(h(X0))

Remarque : En fait c’est juste un corollaire du théorème ergodique plus général.

Mais l’on voit que pour la plupart des applications (au moins dans cet exposé),

c’est suﬃsant.

Parfois, il est bien pratique d’utiliser ceci :

Déﬁnition 6 Soit µune mesure positive sur un espace Etelle que ∀x∈E, µ(x)<

∞et µn’est pas toujours nul. On dit que µest réversible si

∀x, y ∈E, µ(x)P(x, y) = µ(y)P(y, x)

Cela est appelé la condition de balance détaillée.

Proposition 1 Toute mesure réverible est invariante.

Déﬁnition 7 Soit P(.)et Q(.)deux mesures de probabilité sur E. Alors

|P−Q|var = sup

S⊂E

|P(S)−Q(S)|(1)

x∈E

|P(x)−Q(x)|(2)

Déﬁnition 8 Pour une chaîne de Markov, on deﬁnit :

d(k) = max

x∈E|Pk(x, .)−π|var

d(k) = max

x,y∈E|Pk(x, .)−Pk(y, .)|var

s(k) = max

x,y∈E1−Pk(x, y)

π(y)

Lemme 1 Pour toute chaîne de Markov, d(.),d(.)et s(.)sont sous-multiplicatives

et pour une chaîne de Markov reversible :

d(k)≤d(k)≤2d(k)

d(k)≤s(k)

s(2k)≤1−(1 −d(k))2

1.2 Monte Carlo par chaînes de Markov

D’abord, il faut que nous parlions de la méthode Monte Carlo. Une des

applications les plus simples est le calcul d’une intégrale ﬁnie, que l’on peut voir

comme l’espérance d’une variable aléatoire, ou encore le calcul de l’espérance

elle-même. On peut faire cela de manière deterministe, ou approchée par des

méthodes analytiques, mais ces méthodes sont souvent trop coûteuses. Mais

grâce à la loi des grands nombres, on a :

k=0

f(Xk)p.s

−→

n→∞ E(f(X0))

où {Xn}n∈N est une suite de variables aléatoires i.i.d. et fest une fonction

intégrable.

Ainsi, il suﬃt de d’engendrer suﬃsament de variables aléatoires Xipour

approcher E(f(X)) par la moyenne de f(Xi). C’est l’idée de la méthode Monte

Carlo.

Ainsi, le problème le plus important pour appliquer la méthode Monte Carlo

est de savoir comment engendrer Xi. Aﬁn d’engendrer ces échantillons, nous

avons besoin la fonction de répartition (fr) Fou bien de la densité de probabilité

(dp) fde la variable aléatoire. Mais parfois, avec un fdonné, il est très diﬃcile

d’ engendrer des échantillons (il arrive souvent que fne soit connue qu’à une

constante de normalisation près, qui soit très diﬃcile à calculer). La méthode

MCMC est une solution à ce problème. Dans ce travail, nous nous concentrons

uniquement sur le cas d’un ensemble d’états ﬁni. Plutôt que des tirages indé-

pendants à partir de f, on peut à la place utiliser une chaîne ne Markov dont

la mesure invariante est f, qui commence avec un X0convenablement choisi.

Alors, d’après le théorème 4, on peut utiliser la moyenne de cette suite comme

une approximation non biaisée de ce que l’on veut.

Remarque : En fait, notre chaîne de Markov doit satisfaire des conditions plus

fortes que l’irréductibilité et l’apériodicité. Dans notre cas, où l’espace d’états

est en fait ﬁni, ces deux conditions sont suﬃsantes. Grâce au théorème 1, une

chaîne ayant un nombre ﬁni d’états,et irréductible est aussi récurrente positive,

et ainsi nous pouvons appliquer le théorème ergodique.

C’est juste l’idée de comment cela fonctionne. En fait, les échantillons ini-

tiaux peuvent introduire un grand biais, puisque les diﬀérences entre les dis-

tributions des premiers échantillons et fpeut être très grande. Mais grâce au

théorème 3, la diﬀérence entre la distribution de Xnet ftend vers 0 quand n

tend vers ∞. Donc il suﬃt d’attendre jusqu’à un nassez grand, d’oublier les n

premiers échantillons, et utiliser le reste de la chaîne comme approximation de

la variable aléatoire dont la dp est f.

Maintenant, voici les deux algorithmes les plus importants qui utilisent les

chaînes de Markov Monte Carlo.

1.2.1 Metropolis-Hastings

Maintenant, supposons que nous ayons une dp πsous la main, et que nous

voulions tirer des échantillons de cette dp. Mais parfois il est diﬃcile de faire

cela directement (en utilisant l’inverse de la fonction de dp correspondante par

exemple) alors voici une solution. Rappelons-nous que nous avons toujours consi-

déré un espace d’états ﬁni (peut-être gros mais ﬁni). Soit Tune matrice stochas-

tique sur E×E, et T(x, y)>0quand T(y, x)>0pour toute paire de x, y dans

E. Alors soit une chaîne de Markov ayant la matrice de transition Psuivante :

P(x, y) = T(x, y)min{1,π(y)T(y, x)

π(x)T(x, y)} ∀x, y ∈E, x 6=y

P(x, x) = 1 −X

y6=x

P(x, y)∀x∈E

Proposition 2 La matrice Pdéﬁnie ci-dessus est stochastique, et une chaîne

qui a pour matrice de transition Pest réversible et a πcomme distribution

stationnaire.

1 / 25 100%

Documents connexes

algorithme algorithme -bases -une

L`algorithme suivant est décrit en langage pseudo

Faire tourner l`algorithme de gauche « à la main » pour A = 15

2de - algo - aide algobox

Grille d'évaluation orale ISN - Compétences et capacités

Exercice d'algorithme : Boucle "tant que"

Premiers algorithmes… Exercice1 : Exercice2 : Exercice3 : Exercice4:

Exercice 1 : On considère l`algorithme suivant : Variables : n est un

Algorithme Soundex

Adapter l`algorithme précédent pour déterminer le rang à partir

Considérer l`algorithme

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

La simulation parfaite

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

La simulation parfaite

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib