Méthodes de Réduction de Variance : Méthodes adaptatives

publicité
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Réduction de Variance :
Méthodes adaptatives
Gersende FORT
LTCI, CNRS / TELECOM ParisTech
Méthodes de Réduction de Variance : Méthodes adaptatives
Introduction
I. Introduction
Méthodes de Réduction de Variance : Méthodes adaptatives
Introduction
Paramètres d’implémentation optimaux
Paramètres d’implémentation optimaux
La mise en oeuvre des méthodes de simulation dépend de paramètres
d’implémentation dont le choix joue un rôle sur l’efficacité des algorithmes.
Par exemple :
Variables de contrôle : choix du coefficient b.
Echantillonnage d’importance : choix du changement de loi
g dans une famille de
densités P
Stratification : choix de la politique d’allocation et de la variable de
stratification entre autre.
Méthodes de Réduction de Variance : Méthodes adaptatives
Introduction
Paramètres d’implémentation optimaux
Paramètres d’implémentation optimaux
La mise en oeuvre des méthodes de simulation dépend de paramètres
d’implémentation dont le choix joue un rôle sur l’efficacité des algorithmes.
Par exemple :
Variables de contrôle : choix du coefficient b.
Echantillonnage d’importance : choix du changement de loi
g dans une famille de
densités P
Stratification : choix de la politique d’allocation et de la variable de
stratification entre autre.
Nous avons montré que, pour le critère d’efficacité retenu (ex. la variance de l’estimateur), il
existait des valeurs optimales du paramètre d’implémentation mais ces valeurs
optimales ne sont pas explicitement calculables (sauf cas simples).
Méthodes de Réduction de Variance : Méthodes adaptatives
Introduction
Exemple I
Exemple I
Méthode d’échantillonnage d’importance : changement de loi dans le cas
gaussien
Nd (0,Id) −→ Nd (θ,Id)
La valeur optimale θ? est l’unique minimum de la fonction
h
i
θ 7→ E φ2 (Z) exp(−θT Z + 0.5θT θ)
OU l’unique racine de la fonction
h
i
θ 7→ exp(0.5θT θ) E φ2 (Z)(θ − Z) exp(−θT Z) .
En pratique
il s’agit de déterminer un vecteur de Rd : optimisation / recherche de zeros
dans un espace de dimension finie.
,→ mise en oeuvre d’algorithmes de recherche d’optima / de zeros d’une
fonction dans Rd
Méthodes de Réduction de Variance : Méthodes adaptatives
Introduction
Exemple I
Exemple I
Méthode d’échantillonnage d’importance : changement de loi dans le cas
gaussien
Nd (0,Id) −→ Nd (θ,Id)
La valeur optimale θ? est l’unique minimum de la fonction
h
i
θ 7→ E φ2 (Z) exp(−θT Z + 0.5θT θ)
OU l’unique racine de la fonction
h
i
θ 7→ exp(0.5θT θ) E φ2 (Z)(θ − Z) exp(−θT Z) .
En pratique
il s’agit de déterminer un vecteur de Rd : optimisation / recherche de zeros
dans un espace de dimension finie.
,→ mise en oeuvre d’algorithmes de recherche d’optima / de zeros d’une
fonction dans Rd
aucune de ces espérances n’est calculable explicitement.
on sait simuler des v.a. i.i.d. de même loi que Z.
,→ approximation de la fonction par une méthode de Monte Carlo
Méthodes de Réduction de Variance : Méthodes adaptatives
Introduction
Exemple I
Gradient stochastique
Recherche du minimum de θ 7→ υ(θ) par un algorithme de type gradient
θn+1 = θn − γn ∇υ(θn )
où la suite de pas {γn ,n ≥ 0} est décroissante et tend vers zero
propriétés).
(entre autres
Méthodes de Réduction de Variance : Méthodes adaptatives
Introduction
Exemple I
Gradient stochastique
Recherche du minimum de θ 7→ υ(θ) par un algorithme de type gradient
θn+1 = θn − γn ∇υ(θn )
où la suite de pas {γn ,n ≥ 0} est décroissante et tend vers zero
propriétés).
(entre autres
dans un contexte où ∇υ n’est pas calculable mais s’exprime comme une
espérance
∇υ(θ) = −E [H(Z,θ)]
donc peut être approché par une méthode de Monte Carlo.
Méthodes de Réduction de Variance : Méthodes adaptatives
Introduction
Exemple I
Gradient stochastique
Recherche du minimum de θ 7→ υ(θ) par un algorithme de type gradient
θn+1 = θn − γn ∇υ(θn )
où la suite de pas {γn ,n ≥ 0} est décroissante et tend vers zero
propriétés).
(entre autres
dans un contexte où ∇υ n’est pas calculable mais s’exprime comme une
espérance
∇υ(θ) = −E [H(Z,θ)]
donc peut être approché par une méthode de Monte Carlo.
On met donc en oeuvre un algorithme de gradient stochastique
θn+1 = θn + γn+1 H(Zn+1 ,θn )
où {Zn ,n ≥ 0} sont i.i.d. de même loi que Z.
,→ discrétisation de la trajectoire de l’ODE
l’approximation stochastique.
θ̇ = −∇υ(θ)
couplée avec de
Méthodes de Réduction de Variance : Méthodes adaptatives
Introduction
Exemple II
Exemple II
Méthode d’échantillonnage d’importance : recherche de la densité instrumentale
g dans une famille P qui “approche au mieux” la densité f au sens de la
Distance de Kullback
(entropie croisée / cross entropy)
«
„
Z
Z
f (x)
f (x) dx ⇔ max log(g(x)) f (x) dx.
min log
g∈P
g∈P
g(x)
Méthodes de Réduction de Variance : Méthodes adaptatives
Introduction
Exemple II
Exemple II
Méthode d’échantillonnage d’importance : recherche de la densité instrumentale
g dans une famille P qui “approche au mieux” la densité f au sens de la
Distance de Kullback
(entropie croisée / cross entropy)
«
„
Z
Z
f (x)
f (x) dx ⇔ max log(g(x)) f (x) dx.
min log
g∈P
g∈P
g(x)
En pratique
il s’agit de déterminer une fonction : optimisation dans un espace de
dimension infinie −→ P peut être une famille de densités paramétrées par
un paramètre de dimension finie ⇒ optimisation dans un espace de
dimension finie.
Méthodes de Réduction de Variance : Méthodes adaptatives
Introduction
Exemple II
Exemple II
Méthode d’échantillonnage d’importance : recherche de la densité instrumentale
g dans une famille P qui “approche au mieux” la densité f au sens de la
Distance de Kullback
(entropie croisée / cross entropy)
«
„
Z
Z
f (x)
f (x) dx ⇔ max log(g(x)) f (x) dx = max Ef [log g(Z)].
min log
g∈P
g∈P
g∈P
g(x)
En pratique
il s’agit de déterminer une fonction : optimisation dans un espace de
dimension infinie −→ P peut être une famille de densités paramétrées par
un paramètre de dimension finie ⇒ optimisation dans un espace de
dimension finie.
cette intégrale n’est pas calculable explicitement : approximation par une
méthode de Monte Carlo, ce qui nécessite des tirages sous la loi cible f .
Méthodes de Réduction de Variance : Méthodes adaptatives
Introduction
Exemple II
Exemple II
Méthode d’échantillonnage d’importance : recherche de la densité instrumentale
g dans une famille P qui “approche au mieux” la densité f au sens de la
Distance de Kullback
(entropie croisée / cross entropy)
«
„
Z
Z
f (x)
f (x) dx ⇔ max log(g(x)) f (x) dx = max Ef [log g(Z)].
min log
g∈P
g∈P
g∈P
g(x)
En pratique
il s’agit de déterminer une fonction : optimisation dans un espace de
dimension infinie −→ P peut être une famille de densités paramétrées par
un paramètre de dimension finie ⇒ optimisation dans un espace de
dimension finie.
cette intégrale n’est pas calculable explicitement : approximation par une
méthode de Monte Carlo, ce qui nécessite des tirages sous la loi cible f .
on est dans des situations où de telles méthodes de Monte Carlo
f sont inefficaces (ou impossibles vue l’expression de f ).
avec tirages sous
,→ Coupler approximation de la densité cible f , et approximation de type
Monte Carlo du critère à optimiser.
Méthodes de Réduction de Variance : Méthodes adaptatives
Introduction
Exemple II
Méthode d’entropie croisée itérative
Recherche de l’optimum
«
„
Z
f (x)
f (x) dx ⇐⇒ max Ef [log g(Z)]
min log
g∈P
g∈P
g(x)
par une méthode itérative :
(0)
se donner une densité initiale g (0) et simuler des v.a. i.i.d. {Zk ,k ≥ 0}
sous la loi g (0) .
Approcher le critère
Ef [log g(Z)] ≈ Cn
n
(0)
X
f (Zk )
(0)
k=1
g (0) (Zk )
”
“
(0)
log g Zk
Méthodes de Réduction de Variance : Méthodes adaptatives
Introduction
Exemple II
Méthode d’entropie croisée itérative
Recherche de l’optimum
«
„
Z
f (x)
f (x) dx ⇐⇒ max Ef [log g(Z)]
min log
g∈P
g∈P
g(x)
par une méthode itérative :
(0)
se donner une densité initiale g (0) et simuler des v.a. i.i.d. {Zk ,k ≥ 0}
sous la loi g (0) .
Approcher le critère
Ef [log g(Z)] ≈ Cn
n
(0)
X
f (Zk )
(0)
k=1
g (0) (Zk )
”
“
(0)
log g Zk
Mise à jour de la loi auxiliaire
g (1) = max
g∈P
Répéter jusqu’à convergence.
n
(0)
X
f (Zk )
(0)
k=1
g (0) (Zk )
“
”
(0)
log g Zk
.
Méthodes de Réduction de Variance : Méthodes adaptatives
Introduction
Dans la suite
Dans la suite
Nous allons
1
étudier la convergence des algorithmes d’approximation stochastique +
application d’un algorithme de gradient de stochastique à l’ingéniérie
financière.
2
discuter du calcul de la probabilité d’événements rares.
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
II. Approximation stochastique
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Algorithme
Algorithme
On cherche le zéro de la fonction
s’exprime sous la forme
θ 7→ h(θ)
sur Θ ⊆ Rd lorsque h
h(θ) = E [H(Z,θ)].
Etant donnée
une suite de pas {γn ,n ≥ 0}
des v.a. i.i.d. {Zn ,n ≥ 0} de même loi que Z
on définit itérativement la suite (aléatoire)
θ0 ∈ Θ,
θn+1 = θn + γn+1 H(Zn+1 ,θn ).
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Algorithme
Intuitivement, quelles conditions pour l’étude du comportement asymptotique de {θn ,n ≥ 0}?
Deux étapes à considérer
1 la stabilité de la suite : garantir qu’avec probabilité 1, lim sup |θn | < +∞
n
2 la convergence de la suite vers le / un point satisfaisant
h(θ) = 0 .
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Algorithme
Intuitivement, quelles conditions pour l’étude du comportement asymptotique de {θn ,n ≥ 0}?
Deux étapes à considérer
1 la stabilité de la suite : garantir qu’avec probabilité 1, lim sup |θn | < +∞
n
2 la convergence de la suite vers le / un point satisfaisant
h(θ) = 0 .
De l’algorithme stochastique à la discrétisation de l’EDO
θn+1 = θn +γn+1 H(Zn+1 ,θn ) = θn +γn+1 h(θn )+γn+1 {H(Zn+1 ,θn ) − h(θn )}
,→ conditions pour que la perturbation stochastique soit négligeable.
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Algorithme
Intuitivement, quelles conditions pour l’étude du comportement asymptotique de {θn ,n ≥ 0}?
Deux étapes à considérer
1 la stabilité de la suite : garantir qu’avec probabilité 1, lim sup |θn | < +∞
n
2 la convergence de la suite vers le / un point satisfaisant
h(θ) = 0 .
De l’algorithme stochastique à la discrétisation de l’EDO
θn+1 = θn +γn+1 H(Zn+1 ,θn ) = θn +γn+1 h(θn )+γn+1 {H(Zn+1 ,θn ) − h(θn )}
,→ conditions pour que la perturbation stochastique soit négligeable.
Discrétisation de l’EDO :
! N
!
N
N
X
X
X
γn+j
θn+N = θn +
γj+n
h(θn+j ) ≈ θn +
γn+j h(θn ).
PN
k=1 γn+k
j=1
j=1
j=1
,→ conditions pour que la discrétisation poursuive la trajectoire
déterministe de l’EDO
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Algorithme
Intuitivement, quelles conditions pour l’étude du comportement asymptotique de {θn ,n ≥ 0}?
Deux étapes à considérer
1 la stabilité de la suite : garantir qu’avec probabilité 1, lim sup |θn | < +∞
n
2 la convergence de la suite vers le / un point satisfaisant
h(θ) = 0 .
De l’algorithme stochastique à la discrétisation de l’EDO
θn+1 = θn +γn+1 H(Zn+1 ,θn ) = θn +γn+1 h(θn )+γn+1 {H(Zn+1 ,θn ) − h(θn )}
,→ conditions pour que la perturbation stochastique soit négligeable.
Discrétisation de l’EDO :
! N
!
N
N
X
X
X
γn+j
θn+N = θn +
γj+n
h(θn+j ) ≈ θn +
γn+j h(θn ).
PN
k=1 γn+k
j=1
j=1
j=1
,→ conditions pour que la discrétisation poursuive la trajectoire
déterministe de l’EDO
Conditions pour la stabilité et la convergence de l’EDO :
Z u
V (θs+u ) = V (θs ) +
h∇V (θs+r ); h(θs+r )i dr ≤ V (θs )
0
dès qu’il existe une fonction (de Lyapunov) V vérifiant
h∇V (θ); h(θ)i ≤ 0
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Fonction de Lyapunov
Fonction de Lyapunov
Définition
Une fonction V : Θ → R+ est une fonction de Lyapunov pour le champ h si
pour toute solution {θt ,t ∈ R+ } de l’EDO θ̇ = h(θ) de condition initiale θ0
t 7→ V (θt )
est décroissante
Lorsque V est de classe C 1 , cela est vrai dès que
h∇V (θ); h(θ)i ≤ 0
∀θ ∈ Θ.
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Fonction de Lyapunov
Fonction de Lyapunov
Définition
Une fonction V : Θ → R+ est une fonction de Lyapunov pour le champ h si
pour toute solution {θt ,t ∈ R+ } de l’EDO θ̇ = h(θ) de condition initiale θ0
t 7→ V (θt )
est décroissante
Lorsque V est de classe C 1 , cela est vrai dès que
h∇V (θ); h(θ)i ≤ 0
∀θ ∈ Θ.
I Que déduit-on de l’existence d’une telle fonction?
Si la suite {V (θn ),n ≥ 0} est décroissante (et minorée) alors elle converge.
Si l’ensemble {θ,V (θ) ≤ V (θ0 )} est borné, alors la suite {θn ,n ≥ 0} est
bornée.
Moyennant des conditions sur l’ensemble {θ, h∇V (θ); h(θ)i = 0}
suite {θn ,n ≥ 0} converge vers cet ensemble.
, la
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Lemme de Robbins-Siegmund
Lemme de Robbins-Siegmund (simplifié)
Lemme
Soit
{Vn ,n ≥ 0} et {Wn ,n ≥ 0} des processus Fn -adaptés positifs.
{a
Pn ,n ≥ 0}
Pet {bn ,n ≥ 0} des suites déterministes positives telles que
n an +
n bn < ∞.
On suppose de plus que E[V0 ] < ∞ et
E [ Vn+1 | Fn ] ≤ (1 + an ) Vn − Wn + bn ,
Alors,
P
1
P − p.s.
Wn < +∞ P-p.s.
p.s.
2
Vn −→ V∞ et E[V∞ ] < +∞
3
supn≥1 E[Vn ] < ∞.
,→ à démontrer
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Convergence de la suite {V (θn ),n ≥ 0}
Convergence de la suite {V (θn ),n ≥ 0}
A. Il existe des fonctions h : Rd → Rd et H : Rq × Rd → Rd telles que, pour
tout θ ∈ Θ, E|H(Z,θ)| < +∞ et E[H(Z,θ)] = h(θ) .
B. Il existe une fonction V : Rd → R+ continûment différentiable telle que
a.
b.
c.
d.
∇V est Lipshitzienne et |∇V |2 ≤ C(1 + V ),
h∇V
ˆ ; hi ≤ 0,˜
E |H(Z,θ)|2 ≤ C(1 + V (θ)).
la
{γn ,n ≥ 0} est une suite de pas déterministe, positive telle que
Psuite
2
n γn+1 < +∞.
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Convergence de la suite {V (θn ),n ≥ 0}
Convergence de la suite {V (θn ),n ≥ 0}
A. Il existe des fonctions h : Rd → Rd et H : Rq × Rd → Rd telles que, pour
tout θ ∈ Θ, E|H(Z,θ)| < +∞ et E[H(Z,θ)] = h(θ) .
B. Il existe une fonction V : Rd → R+ continûment différentiable telle que
a.
b.
c.
d.
∇V est Lipshitzienne et |∇V |2 ≤ C(1 + V ),
h∇V
ˆ ; hi ≤ 0,˜
E |H(Z,θ)|2 ≤ C(1 + V (θ)).
la
{γn ,n ≥ 0} est une suite de pas déterministe, positive telle que
Psuite
2
n γn+1 < +∞.
Théorème
Supposons A et B. Soit θ0 tel que E[V (θ0 )] < +∞ et {Zn ,n ≥ 0} des v.a.
i.i.d. de même loi que Z et indépendante de θ0 . Alors
1
supn E [V (θn )] < ∞.
2
θn+1 − θn −→ 0
3
V (θn ) −→ V∞ et E[V∞ ] < +∞.
P
0 ≤ − n≥1 γn+1 h∇V (θn ); h(θn )i < +∞ P-p.s.
4
p.s.
p.s.
,→ à démontrer
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Convergence de la suite {V (θn ),n ≥ 0}
Remarques
Les conditions Ba et Bb entrainent que V est au plus à croissance
quadratique.
V (θ) ≤ V (θ0 ) + |∇V (θ0 )| |θ − θ0 | + k∇V kLip |θ − θ0 |2
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Convergence de la suite {V (θn ),n ≥ 0}
Remarques
Les conditions Ba et Bb entrainent que V est au plus à croissance
quadratique.
V (θ) ≤ V (θ0 ) + |∇V (θ0 )| |θ − θ0 | + k∇V kLip |θ − θ0 |2
Le résultat
lim supn V (θn ) < +∞
P − p.s.
entraine que
{θn ,n ≥ 0} reste dans un ensemble de niveau de V . Si on suppose de plus
que ces ensembles de niveau sont bornés alors
lim sup |θn | < +∞
n
P − p.s.
Il suffit par exemple de supposer que
(stabilité)
lim|θ|→+∞ V (θ) = +∞
.
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Convergence de la suite {θn ,n ≥ 0}
Convergence de la suite {θn ,n ≥ 0}
Théorème
Sous les hypothèses du théorème précédent ET
C. h est continue,
D. a. lim|θ|→∞ V (θ) = +∞,
b. L’équation h∇V (θ); h(θ)i = 0 admet une solution unique θ∗ et
{θ,V (θ) = V (θ∗ )} = {θ∗ }.
E.
P
n
γn = +∞.
p.s.
Alors, θn −→ θ∗ .
,→ à démontrer
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Application I : algorithme de Robbins-Monro
Application I : Algorithme de Robbins-Monro
On souhaite calculer
E [φ(Z)]
. On cherche donc le zéro de la fonction
h(θ) = E [φ(Z)] − θ = E [φ(Z) − θ] .
On met en oeuvre l’algorithme :
θn+1 = θn + γn+1 (φ(Zn+1 ) − θn ) .
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Application I : algorithme de Robbins-Monro
Application I : Algorithme de Robbins-Monro
On souhaite calculer
E [φ(Z)]
. On cherche donc le zéro de la fonction
h(θ) = E [φ(Z)] − θ = E [φ(Z) − θ] .
On met en oeuvre l’algorithme :
θn+1 = θn + γn+1 (φ(Zn+1 ) − θn ) .
Fonction de Lyapunov :
V (θ) = kθ − θ? k2
où θ? = E [φ(Z)].
Par application des résultats précédents, limn θn = θ? .
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Application I : algorithme de Robbins-Monro
Application I : Algorithme de Robbins-Monro
On souhaite calculer
E [φ(Z)]
. On cherche donc le zéro de la fonction
h(θ) = E [φ(Z)] − θ = E [φ(Z) − θ] .
On met en oeuvre l’algorithme :
θn+1 = θn + γn+1 (φ(Zn+1 ) − θn ) .
Fonction de Lyapunov :
V (θ) = kθ − θ? k2
où θ? = E [φ(Z)].
Par application des résultats précédents, limn θn = θ? .
Dans le cas particulier où γn = 1/n, on a
θn =
n
1X
φ(Zk ).
n
k=1
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Application II : algorithme de gradient stochastique
Application II : Algorithme de gradient stochastique
On cherche un zéro de
θ 7→ ∇V (θ)
dans le cas où ∇V est de la forme
∇V (θ) = −E [H(Z,θ)] .
On met en oeuvre l’algorithme
θn+1 = θn + γn+1 H(Zn+1 ,θn )
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Application II : algorithme de gradient stochastique
Application II : Algorithme de gradient stochastique
On cherche un zéro de
θ 7→ ∇V (θ)
dans le cas où ∇V est de la forme
∇V (θ) = −E [H(Z,θ)] .
On met en oeuvre l’algorithme
θn+1 = θn + γn+1 H(Zn+1 ,θn )
Fonction de Lyapunov :
V est un candidat naturel mais pour les théorèmes de convergence, sa
croissance doit être au plus quadratique
lorsque θ 7→ V (θ) est strictement convexe de minimum unique θ? , la
fonction Ṽ (θ) = 0.5kθ − θ? k2 est aussi Fonction de Lyapunov.
Lorsque le triplet (h,H,V ) vérifie les conditions des théorèmes précédents,
on peut établir la convergence de {θn ,n ≥ 0} vers l’ensemble
{θ,∇V (θ) = 0}.
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Application II : algorithme de gradient stochastique
Application numérique
def
On souhaite évaluer la prime d’option
I(K) = E [φ(Z)]
”
“
√
φ(Z) = exp(−rT ) S0 exp((r − 0.5σ 2 )T + σ T Z) − K
+
lorsque
S0 = 50
r = 0.1
T =1
σ = 0.1
Coefficient de variation
Prime d’option europeenne
9
35
8
30
7
25
6
20
5
4
15
3
10
2
5
1
0
20
30
40
50
60
70
80
0
20
90
Strike K
gauche Evolution du coefficient de variation
30
40
50
60
Strike K
p
Var[φ(Z)]/E[φ(Z)] en fonction du strike K.
droite Evolution de la prime en fonction du strike.
,→ Si K est grand, la méthode de Monte Carlo est inefficace
70
80
90
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Application II : algorithme de gradient stochastique
On met en oeuvre l’algorithme de gradient stochastique
θn+1 = θn + γn+1 Ha (Zn+1 ,θn )
où
(cf. TD)
p
Ha (θ,z) = − exp(−a 1 + kθk2 ) φ2 (z − θ) (2θ − z).
K=60
a=2σ
√
T
γn =min{
1
,0.001}
(100+n)0.8
θ0 =(log(K/S0 )−(r−0.5σ 2 )T )/(σ
p
(T ))
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Application II : algorithme de gradient stochastique
On met en oeuvre l’algorithme de gradient stochastique
θn+1 = θn + γn+1 Ha (Zn+1 ,θn )
où
(cf. TD)
p
Ha (θ,z) = − exp(−a 1 + kθk2 ) φ2 (z − θ) (2θ − z).
K=60
a=2σ
√
T
γn =min{
1
,0.001}
(100+n)0.8
θ0 =(log(K/S0 )−(r−0.5σ 2 )T )/(σ
p
(T ))
On compare deux algorithmes d’échantillonnage d’importance
1. on commence par déterminer limn θn . Et on estime I par un estimateur
d’échantillonnage d’importance avec θ? = limn θn .
n
1X
Î =
φ(Zk + θ? ) exp(−0.5kθ? k2 − θ? T Zk )
n
k=1
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Application II : algorithme de gradient stochastique
On met en oeuvre l’algorithme de gradient stochastique
θn+1 = θn + γn+1 Ha (Zn+1 ,θn )
où
(cf. TD)
p
Ha (θ,z) = − exp(−a 1 + kθk2 ) φ2 (z − θ) (2θ − z).
K=60
a=2σ
√
T
γn =min{
1
,0.001}
(100+n)0.8
θ0 =(log(K/S0 )−(r−0.5σ 2 )T )/(σ
p
(T ))
On compare deux algorithmes d’échantillonnage d’importance
1. on commence par déterminer limn θn . Et on estime I par un estimateur
d’échantillonnage d’importance avec θ? = limn θn .
n
1X
Î =
φ(Zk + θ? ) exp(−0.5kθ? k2 − θ? T Zk )
n
k=1
2. On calcule l’estimateur de I au fur et à mesure de la mise à jour de θn :
θn+1 = θn + γn+1 Ha (Zn+1 ,θn )
„
«
1
1
In+1 = 1 −
In +
φ(Zn+1 + θn ) exp(−0.5kθn k2 − θnT Zn+1 )
n+1
n+1
=
n+1
1 X
φ(Zk + θk−1 ) exp(−0.5kθk−1 k2 − θk−1 T Zk )
n+1
k=1
Méthodes de Réduction de Variance : Méthodes adaptatives
Approximation stochastique
Application II : algorithme de gradient stochastique
1.6
ISoptimal et IS adaptatif
0.625
1.5
IS optimal
IS adaptatif
0.62
1.4
0.615
1.3
0.61
1.2
0.605
1.1
0.6
1
0.595
0.9
0.8
0.59
0
1
2
3
4
5
6
7
4
0.585
0
2
4
x 10
0.606
12
14
16
4
x 10
3
Monte Carlo
Vraie Valeur
IS avec drift optimal
0.604
2.5
0.602
2
0.6
1.5
0.598
1
0.596
0.594
6
8
10
Nombre d’iterations
Rapport des ecarts−type (IS / MC)
Estimation de la prime
0.5
0
200
400
600
800
1000 1200
x 1000 tirages
1400
1600
1800
2000
0
0
200
400
600
800
1000 1200
Nombre de tirages
1400
1600
1800
2000
haut gauche Trajectoire de la suite {θn ,n ≥ 0}. On lit : limn θn = 1.54.
haut droite Comparaison des estimateurs de I par échantillonnage d’importance avec drift optimal (θ = 1.54) et par
échantillonnage d’importance adaptatif
bas gauche Evolution de l’estimation de I en fonction du nombre de termes dans la somme de Monte Carlo, par
l’estimateur de Monte Carlo classique (trait plein) et l’estimateur d’échantillonnage d’importance en
θ = 1.54 (dash-dot)
bas droite Evolution du rapport des écarts-type des estimateurs
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
III. Méthodes de Monte Carlo
pour la simulation d’événements rares
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Evénements rares
Evénements rares
On s’intéresse au problème de l’estimation de
petit (ordre 10−3 ou moins)
,→ On parle alors d’ “événement rare”
def
I = P(A)
lorsque I est
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Evénements rares
Evénements rares
def
I = P(A)
On s’intéresse au problème de l’estimation de
petit (ordre 10−3 ou moins)
lorsque I est
,→ On parle alors d’ “événement rare”
Exemple d’évènements rares Soient Z1 , · · · Zn des v.a. i.i.d. d’espérance E[Z].
On cherche
P(Z1 + · · · + Zn > nx)
pour n grand.
La loi des grands nombres dit que quand n est grand
n
1X
Zk ∼ E [Z] .
n
k=1
Donc
P(Z1 + · · · + Zn > nx)
sera d’autant plus petit que
x > E[X].
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Evénements rares
Monte Carlo pour les événements rares
En écrivant
P(A) = E [1IA ]
on peut approcher cette probabilité par une méthode de Monte Carlo naı̈ve
(MCn).
L’écart-type de l’estimateur MCn calculé avec n tirages i.i.d. est donnée par
p
n−1/2 I (1 − I)
Donc quand I → 0, l’écart-type tend vers zero ! mais cette précision doit être
comparée à l’ordre de grandeur de la quantité à estimer.
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Evénements rares
Comment évaluer l’inefficacité de la méthode de Monte Carlo naı̈ve?
1
Par l’erreur relative, qui compare l’écart-type à la quantité à estimer
p
√
I (1 − I)
1−I
= √
→ +∞
quand I → 0
I
I
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Evénements rares
Comment évaluer l’inefficacité de la méthode de Monte Carlo naı̈ve?
1
Par l’erreur relative, qui compare l’écart-type à la quantité à estimer
p
√
I (1 − I)
1−I
= √
→ +∞
quand I → 0
I
I
2
Par le nombre de simulations nécessaires pour obtenir une précision de α%
en terme de largeur d’IC à 95%
p
„
«2
„
«2
I (1 − I)
α
100
1−I
100
1
√
1.96
=
I ⇐⇒ n = 1.96
∼ 1.96
100
α
I
α
I
n
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Evénements rares
Quand déclare-t-on qu’un estimateur d’un événement rare est performant?
Soit {Ax ,x ≥ 0} une famille d’événements rares telle que limx→+∞ P(Ax ) = 0.
Soit µ̂(x) un estimateur sans biais de P(Ax ).
On cherche un algorithme qui produit des estimateurs vérifiant l’une ou l’autre
des propriétés suivantes :
1
Estimateur à erreur relative bornée
p
Var(µ̂(x))
lim sup
< +∞
P(Ax )
x
En particulier, pour de tels estimateurs, le nombre de simulations
nécessaires pour obtenir une précision de α% reste borné quand
P(Ax ) → 0.
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Evénements rares
Quand déclare-t-on qu’un estimateur d’un événement rare est performant?
Soit {Ax ,x ≥ 0} une famille d’événements rares telle que limx→+∞ P(Ax ) = 0.
Soit µ̂(x) un estimateur sans biais de P(Ax ).
On cherche un algorithme qui produit des estimateurs vérifiant l’une ou l’autre
des propriétés suivantes :
1
Estimateur à erreur relative bornée
p
Var(µ̂(x))
lim sup
< +∞
P(Ax )
x
En particulier, pour de tels estimateurs, le nombre de simulations
nécessaires pour obtenir une précision de α% reste borné quand
P(Ax ) → 0.
2
Estimateur logarithmiquement efficace :
p
Var(µ̂(x))
∀ > 0,
lim sup
=0
P(Ax )1−
x
En pratique, pas de différence entre les algorithmes vérifiant l’une ou l’autre propriété. Dans certains problèmes, on sait construire des
estimateurs vérifiant la seconde propriété mais, à ce jour, on n’en connaı̂t pas vérifiant la première.
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Echantillonnage d’importance pour les événements rares
Echantillonnage d’importance pour les événements rares
Pour le calcul de
I = P(Z ∈ A)
, où Z est de densité f , le
changement de loi optimal est donné par
g? = R
f 1IA
f 1IA dλ
,→ c’est la loi conditionnelle de Z sachant l’événement A.
pas à densité
la conclusion reste vraie si Z n’est
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Echantillonnage d’importance pour les événements rares
Echantillonnage d’importance pour les événements rares
Pour le calcul de
I = P(Z ∈ A)
, où Z est de densité f , le
changement de loi optimal est donné par
g? = R
f 1IA
f 1IA dλ
,→ c’est la loi conditionnelle de Z sachant l’événement A.
la conclusion reste vraie si Z n’est
pas à densité
La loi g? n’est connue qu’à une constante de normalisation près.
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Echantillonnage d’importance pour les événements rares
Echantillonnage d’importance pour les événements rares
Pour le calcul de
I = P(Z ∈ A)
, où Z est de densité f , le
changement de loi optimal est donné par
g? = R
f 1IA
f 1IA dλ
,→ c’est la loi conditionnelle de Z sachant l’événement A.
la conclusion reste vraie si Z n’est
pas à densité
La loi g? n’est connue qu’à une constante de normalisation près.
Comment simuler sous la loi de Z sachant A?
(i) Simuler Xk de même loi que Z
indépendamment des tirages passés X1 , · · · ,Xk−1
(ii) Si Xk ∈ A alors poser Y = Xk , sinon répéter.
On peut montrer que
(à faire)
a. Y a pour loi la loi conditionnelle de Z sachant A.
b. le nombre de tirages nécessaires pour obtenir Y suit une loi géométrique de
paramètre P(A).
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Echantillonnage d’importance adaptatif
Algorithme d’échantillonnage d’importance adaptatif
Proposé par Rubinstein (1997), pour calculer
P(φ(Z) ≥ x)
Z∼f
par une méthode d’échantillonnage d’importance avec loi instrumentale dans la
famille
P = {g(·,θ), θ ∈ Θ}
Algorithme Etant donnée une approximation courante g(·,θ(t) )
(1) Simuler un n-échantillon Z1 , · · · ,Zn sous la loi g(·,θ(t) )
(2) Prendre x(t+1) tel que δn réalisations φ(Zk ) soient supérieures à x(t+1) .
(3) Si x(t+1) < x
0
(i) Retenir les N 0 = δN réalisations dépassant le seuil, notées Z10 , · · · ,ZN
0
(ii) Mettre à jour la loi de proposition
0
g
(t+1)
= argmaxg∈P
N
1 X f (Zk0 )
log g(Zk0 )
0
N k=1 g (t) (Zk0 )
(iii) Reprendre à l’étape 1.
(4) Si x(t+1) ≥ x, poser g? = g(·,θ(t) ). Arrêt de l’algorithme.
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Echantillonnage d’importance adaptatif
Que fait l’algorithme?
Partant d’une loi de proposition courante g (t) ,
on approche la loi conditionnelle de Z sachant φ(Z) ≥ x(t+1) , où
Z ∼ g (t) ,
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Echantillonnage d’importance adaptatif
Que fait l’algorithme?
Partant d’une loi de proposition courante g (t) ,
on approche la loi conditionnelle de Z sachant φ(Z) ≥ x(t+1) , où
Z ∼ g (t) ,
on utilise ces tirages pour approcher la quantité
Z
Ef [log g(Z)|φ(Z) ≥ x] ∝ log g(z) f (z)1Iφ(z)≥x dz
par une méthode d’ échantillonnage d’importance avec la loi conditionnelle
en guise de loi instrumentale (d’où l’introduction du ratio d’importance)
0
N
1 X f (Zk0 )
log g(Zk0 )
(t) (Z 0 )
N0
g
k
k=1
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Echantillonnage d’importance adaptatif
Que fait l’algorithme?
Partant d’une loi de proposition courante g (t) ,
on approche la loi conditionnelle de Z sachant φ(Z) ≥ x(t+1) , où
Z ∼ g (t) ,
on utilise ces tirages pour approcher la quantité
Z
Ef [log g(Z)|φ(Z) ≥ x] ∝ log g(z) f (z)1Iφ(z)≥x dz
par une méthode d’ échantillonnage d’importance avec la loi conditionnelle
en guise de loi instrumentale (d’où l’introduction du ratio d’importance)
0
N
1 X f (Zk0 )
log g(Zk0 )
(t) (Z 0 )
N0
g
k
k=1
Les seuils x(t) sont choisis a posteriori (une fois les tirages faits) pour garantir
assez de points dans la somme de Monte Carlo ET pour croı̂tre vers le seuil x.
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Echantillonnage d’importance adaptatif
Implémentation
Choix de la famille paramétrique
Θ ⊆ Rd et une famille de lois paramétriques P
la mise à jour
(famille exponentielle courbe)
telle que
0
argmaxg∈P
N
1 X f (Zk0 )
log g(Zk0 )
0
N k=1 g (t) (Zk0 )
a une solution explicite.
Par exemple : lois gaussiennes, lois de Student, mélange de gaussiennes,
mélange de Student, · · · .
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Echantillonnage d’importance adaptatif
Implémentation
Choix de la famille paramétrique
Θ ⊆ Rd et une famille de lois paramétriques P
la mise à jour
(famille exponentielle courbe)
telle que
0
argmaxg∈P
N
1 X f (Zk0 )
log g(Zk0 )
0
N k=1 g (t) (Zk0 )
a une solution explicite.
Par exemple : lois gaussiennes, lois de Student, mélange de gaussiennes,
mélange de Student, · · · .
Choix de δ Du choix de δ dépend la convergence et la vitesse de
convergence de l’algorithme.
En pratique, δ ∈ (1%,10%)
Si x(t) reste bloqué sous le seuil x, il faut diminuer δ.
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Exemple
Exemple
Soit une cible localisée en (0,0), et des civils localisés dans un bâtiment
rectangulaires de coordonnées SW (4, − 0.25) et NE (5,0.25) unité : 100m
Une bombe visant la cible tombe au point de coordonnées (X,Y ),
(X,Y ) ∼ N2 (0,Id).
Quelle est la probabilité que la bombe tombe à moins de 100m du bâtiment
abritant les civils?
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Exemple
Probabilité d’un événement rare
Evénement rare Il s’agit très certainement d’un événement rare car le bâtiment
est à plusieurs écarts-types de la position moyenne de la bombe.
Formulation du problème Notons h(M ) la distance du point M = (X,Y ) au
bâtiment. On cherche
P(h(M ) ≤ 1)
Changement de loi (I) On cherche un changement de loi sur l’abscisse
uniquement (vu le schéma)
gθ,1 (x,y) = N (θ,1)[x] N (0,1)[y]
Changement de loi (II) Changement de loi plus général (sans changer la
moyenne de Y )
gθ,σ2 ,σ2 (x,y) = N (θ,σ12 )[x] N (0,σ22 )[y]
1
2
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Exemple
Changement de loi (I)
La mise à jour des densités instrumentales revient à mettre à jour le paramètre
θ selon la formule
1−1
0 0
N
N0
X
X
N (0,1)[Xk0 ]
@
A
θt+1 =
ωk
ωk Xk0
ωk =
N (θt ,1)[Xk0 ]
k=1
k=1
4
5
4
3
5
3
2
4
2
3
1
1
2
0
0
−1
1
−1
0
−2
−1
−2
−2
−3
−3
−3
−4
−4
−4
−4
−3
−2
−1
0
1
2
3
4
5
−5
−2
N = 5000
Puis
(x(1) ,θ (1) )=(1.84;2.57)
On trouve
−1
0
1
2
3
δ = 1%
4
5
θ
6
(0)
7
−5
−1
= 0
(x(2) ,θ (2) )=(0,4.20) −→ arrêt de l’algorithme
P(h(X,Y )≤1)=[7.82±0.21] 10−4 ,
calculé à partir de 50 000 tirages.
0
1
2
3
4
5
6
7
8
9
Méthodes de Réduction de Variance : Méthodes adaptatives
Méthodes de Monte Carlo pour la simulation d’événements rares
Exemple
Changement de loi (II)
La mise à jour des densités instrumentales revient à maximiser
0
N
X
ωk
n
o
2
0
2
0
log N (θ,σ1 )[Xk ] + log N (0,σ2 )[Yk ]
k=1
ωk =
0 ] N (0,1)[Y 0 ]
N (0,1)[Xk
k
2 )[X 0 ] N (0,σ 2 )[Y 0 ]
N (θt ,σ1,t
2,t
k
k
ce qui se traduit par les mises à jour
θt+1 =
0
N
X
0
ω̄k Xk
k=1
0
N
X
2
0 2
2
σ1,t+1 =
ω̄k {Xk } − θt+1
k=1
0
N
X
ω̄k = ωk /(
ωj )
j=1
0
N
X
2
0 2
σ2,t+1 =
ω̄k {Yk }
k=1
A convergence de l’algorithme, on obtient la même estimation de la probabilité,
avec un intervalle de confiance plus précis.
Téléchargement