Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Réduction de Variance : Méthodes adaptatives Gersende FORT LTCI, CNRS / TELECOM ParisTech Méthodes de Réduction de Variance : Méthodes adaptatives Introduction I. Introduction Méthodes de Réduction de Variance : Méthodes adaptatives Introduction Paramètres d’implémentation optimaux Paramètres d’implémentation optimaux La mise en oeuvre des méthodes de simulation dépend de paramètres d’implémentation dont le choix joue un rôle sur l’efficacité des algorithmes. Par exemple : Variables de contrôle : choix du coefficient b. Echantillonnage d’importance : choix du changement de loi g dans une famille de densités P Stratification : choix de la politique d’allocation et de la variable de stratification entre autre. Méthodes de Réduction de Variance : Méthodes adaptatives Introduction Paramètres d’implémentation optimaux Paramètres d’implémentation optimaux La mise en oeuvre des méthodes de simulation dépend de paramètres d’implémentation dont le choix joue un rôle sur l’efficacité des algorithmes. Par exemple : Variables de contrôle : choix du coefficient b. Echantillonnage d’importance : choix du changement de loi g dans une famille de densités P Stratification : choix de la politique d’allocation et de la variable de stratification entre autre. Nous avons montré que, pour le critère d’efficacité retenu (ex. la variance de l’estimateur), il existait des valeurs optimales du paramètre d’implémentation mais ces valeurs optimales ne sont pas explicitement calculables (sauf cas simples). Méthodes de Réduction de Variance : Méthodes adaptatives Introduction Exemple I Exemple I Méthode d’échantillonnage d’importance : changement de loi dans le cas gaussien Nd (0,Id) −→ Nd (θ,Id) La valeur optimale θ? est l’unique minimum de la fonction h i θ 7→ E φ2 (Z) exp(−θT Z + 0.5θT θ) OU l’unique racine de la fonction h i θ 7→ exp(0.5θT θ) E φ2 (Z)(θ − Z) exp(−θT Z) . En pratique il s’agit de déterminer un vecteur de Rd : optimisation / recherche de zeros dans un espace de dimension finie. ,→ mise en oeuvre d’algorithmes de recherche d’optima / de zeros d’une fonction dans Rd Méthodes de Réduction de Variance : Méthodes adaptatives Introduction Exemple I Exemple I Méthode d’échantillonnage d’importance : changement de loi dans le cas gaussien Nd (0,Id) −→ Nd (θ,Id) La valeur optimale θ? est l’unique minimum de la fonction h i θ 7→ E φ2 (Z) exp(−θT Z + 0.5θT θ) OU l’unique racine de la fonction h i θ 7→ exp(0.5θT θ) E φ2 (Z)(θ − Z) exp(−θT Z) . En pratique il s’agit de déterminer un vecteur de Rd : optimisation / recherche de zeros dans un espace de dimension finie. ,→ mise en oeuvre d’algorithmes de recherche d’optima / de zeros d’une fonction dans Rd aucune de ces espérances n’est calculable explicitement. on sait simuler des v.a. i.i.d. de même loi que Z. ,→ approximation de la fonction par une méthode de Monte Carlo Méthodes de Réduction de Variance : Méthodes adaptatives Introduction Exemple I Gradient stochastique Recherche du minimum de θ 7→ υ(θ) par un algorithme de type gradient θn+1 = θn − γn ∇υ(θn ) où la suite de pas {γn ,n ≥ 0} est décroissante et tend vers zero propriétés). (entre autres Méthodes de Réduction de Variance : Méthodes adaptatives Introduction Exemple I Gradient stochastique Recherche du minimum de θ 7→ υ(θ) par un algorithme de type gradient θn+1 = θn − γn ∇υ(θn ) où la suite de pas {γn ,n ≥ 0} est décroissante et tend vers zero propriétés). (entre autres dans un contexte où ∇υ n’est pas calculable mais s’exprime comme une espérance ∇υ(θ) = −E [H(Z,θ)] donc peut être approché par une méthode de Monte Carlo. Méthodes de Réduction de Variance : Méthodes adaptatives Introduction Exemple I Gradient stochastique Recherche du minimum de θ 7→ υ(θ) par un algorithme de type gradient θn+1 = θn − γn ∇υ(θn ) où la suite de pas {γn ,n ≥ 0} est décroissante et tend vers zero propriétés). (entre autres dans un contexte où ∇υ n’est pas calculable mais s’exprime comme une espérance ∇υ(θ) = −E [H(Z,θ)] donc peut être approché par une méthode de Monte Carlo. On met donc en oeuvre un algorithme de gradient stochastique θn+1 = θn + γn+1 H(Zn+1 ,θn ) où {Zn ,n ≥ 0} sont i.i.d. de même loi que Z. ,→ discrétisation de la trajectoire de l’ODE l’approximation stochastique. θ̇ = −∇υ(θ) couplée avec de Méthodes de Réduction de Variance : Méthodes adaptatives Introduction Exemple II Exemple II Méthode d’échantillonnage d’importance : recherche de la densité instrumentale g dans une famille P qui “approche au mieux” la densité f au sens de la Distance de Kullback (entropie croisée / cross entropy) « „ Z Z f (x) f (x) dx ⇔ max log(g(x)) f (x) dx. min log g∈P g∈P g(x) Méthodes de Réduction de Variance : Méthodes adaptatives Introduction Exemple II Exemple II Méthode d’échantillonnage d’importance : recherche de la densité instrumentale g dans une famille P qui “approche au mieux” la densité f au sens de la Distance de Kullback (entropie croisée / cross entropy) « „ Z Z f (x) f (x) dx ⇔ max log(g(x)) f (x) dx. min log g∈P g∈P g(x) En pratique il s’agit de déterminer une fonction : optimisation dans un espace de dimension infinie −→ P peut être une famille de densités paramétrées par un paramètre de dimension finie ⇒ optimisation dans un espace de dimension finie. Méthodes de Réduction de Variance : Méthodes adaptatives Introduction Exemple II Exemple II Méthode d’échantillonnage d’importance : recherche de la densité instrumentale g dans une famille P qui “approche au mieux” la densité f au sens de la Distance de Kullback (entropie croisée / cross entropy) « „ Z Z f (x) f (x) dx ⇔ max log(g(x)) f (x) dx = max Ef [log g(Z)]. min log g∈P g∈P g∈P g(x) En pratique il s’agit de déterminer une fonction : optimisation dans un espace de dimension infinie −→ P peut être une famille de densités paramétrées par un paramètre de dimension finie ⇒ optimisation dans un espace de dimension finie. cette intégrale n’est pas calculable explicitement : approximation par une méthode de Monte Carlo, ce qui nécessite des tirages sous la loi cible f . Méthodes de Réduction de Variance : Méthodes adaptatives Introduction Exemple II Exemple II Méthode d’échantillonnage d’importance : recherche de la densité instrumentale g dans une famille P qui “approche au mieux” la densité f au sens de la Distance de Kullback (entropie croisée / cross entropy) « „ Z Z f (x) f (x) dx ⇔ max log(g(x)) f (x) dx = max Ef [log g(Z)]. min log g∈P g∈P g∈P g(x) En pratique il s’agit de déterminer une fonction : optimisation dans un espace de dimension infinie −→ P peut être une famille de densités paramétrées par un paramètre de dimension finie ⇒ optimisation dans un espace de dimension finie. cette intégrale n’est pas calculable explicitement : approximation par une méthode de Monte Carlo, ce qui nécessite des tirages sous la loi cible f . on est dans des situations où de telles méthodes de Monte Carlo f sont inefficaces (ou impossibles vue l’expression de f ). avec tirages sous ,→ Coupler approximation de la densité cible f , et approximation de type Monte Carlo du critère à optimiser. Méthodes de Réduction de Variance : Méthodes adaptatives Introduction Exemple II Méthode d’entropie croisée itérative Recherche de l’optimum « „ Z f (x) f (x) dx ⇐⇒ max Ef [log g(Z)] min log g∈P g∈P g(x) par une méthode itérative : (0) se donner une densité initiale g (0) et simuler des v.a. i.i.d. {Zk ,k ≥ 0} sous la loi g (0) . Approcher le critère Ef [log g(Z)] ≈ Cn n (0) X f (Zk ) (0) k=1 g (0) (Zk ) ” “ (0) log g Zk Méthodes de Réduction de Variance : Méthodes adaptatives Introduction Exemple II Méthode d’entropie croisée itérative Recherche de l’optimum « „ Z f (x) f (x) dx ⇐⇒ max Ef [log g(Z)] min log g∈P g∈P g(x) par une méthode itérative : (0) se donner une densité initiale g (0) et simuler des v.a. i.i.d. {Zk ,k ≥ 0} sous la loi g (0) . Approcher le critère Ef [log g(Z)] ≈ Cn n (0) X f (Zk ) (0) k=1 g (0) (Zk ) ” “ (0) log g Zk Mise à jour de la loi auxiliaire g (1) = max g∈P Répéter jusqu’à convergence. n (0) X f (Zk ) (0) k=1 g (0) (Zk ) “ ” (0) log g Zk . Méthodes de Réduction de Variance : Méthodes adaptatives Introduction Dans la suite Dans la suite Nous allons 1 étudier la convergence des algorithmes d’approximation stochastique + application d’un algorithme de gradient de stochastique à l’ingéniérie financière. 2 discuter du calcul de la probabilité d’événements rares. Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique II. Approximation stochastique Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Algorithme Algorithme On cherche le zéro de la fonction s’exprime sous la forme θ 7→ h(θ) sur Θ ⊆ Rd lorsque h h(θ) = E [H(Z,θ)]. Etant donnée une suite de pas {γn ,n ≥ 0} des v.a. i.i.d. {Zn ,n ≥ 0} de même loi que Z on définit itérativement la suite (aléatoire) θ0 ∈ Θ, θn+1 = θn + γn+1 H(Zn+1 ,θn ). Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Algorithme Intuitivement, quelles conditions pour l’étude du comportement asymptotique de {θn ,n ≥ 0}? Deux étapes à considérer 1 la stabilité de la suite : garantir qu’avec probabilité 1, lim sup |θn | < +∞ n 2 la convergence de la suite vers le / un point satisfaisant h(θ) = 0 . Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Algorithme Intuitivement, quelles conditions pour l’étude du comportement asymptotique de {θn ,n ≥ 0}? Deux étapes à considérer 1 la stabilité de la suite : garantir qu’avec probabilité 1, lim sup |θn | < +∞ n 2 la convergence de la suite vers le / un point satisfaisant h(θ) = 0 . De l’algorithme stochastique à la discrétisation de l’EDO θn+1 = θn +γn+1 H(Zn+1 ,θn ) = θn +γn+1 h(θn )+γn+1 {H(Zn+1 ,θn ) − h(θn )} ,→ conditions pour que la perturbation stochastique soit négligeable. Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Algorithme Intuitivement, quelles conditions pour l’étude du comportement asymptotique de {θn ,n ≥ 0}? Deux étapes à considérer 1 la stabilité de la suite : garantir qu’avec probabilité 1, lim sup |θn | < +∞ n 2 la convergence de la suite vers le / un point satisfaisant h(θ) = 0 . De l’algorithme stochastique à la discrétisation de l’EDO θn+1 = θn +γn+1 H(Zn+1 ,θn ) = θn +γn+1 h(θn )+γn+1 {H(Zn+1 ,θn ) − h(θn )} ,→ conditions pour que la perturbation stochastique soit négligeable. Discrétisation de l’EDO : ! N ! N N X X X γn+j θn+N = θn + γj+n h(θn+j ) ≈ θn + γn+j h(θn ). PN k=1 γn+k j=1 j=1 j=1 ,→ conditions pour que la discrétisation poursuive la trajectoire déterministe de l’EDO Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Algorithme Intuitivement, quelles conditions pour l’étude du comportement asymptotique de {θn ,n ≥ 0}? Deux étapes à considérer 1 la stabilité de la suite : garantir qu’avec probabilité 1, lim sup |θn | < +∞ n 2 la convergence de la suite vers le / un point satisfaisant h(θ) = 0 . De l’algorithme stochastique à la discrétisation de l’EDO θn+1 = θn +γn+1 H(Zn+1 ,θn ) = θn +γn+1 h(θn )+γn+1 {H(Zn+1 ,θn ) − h(θn )} ,→ conditions pour que la perturbation stochastique soit négligeable. Discrétisation de l’EDO : ! N ! N N X X X γn+j θn+N = θn + γj+n h(θn+j ) ≈ θn + γn+j h(θn ). PN k=1 γn+k j=1 j=1 j=1 ,→ conditions pour que la discrétisation poursuive la trajectoire déterministe de l’EDO Conditions pour la stabilité et la convergence de l’EDO : Z u V (θs+u ) = V (θs ) + h∇V (θs+r ); h(θs+r )i dr ≤ V (θs ) 0 dès qu’il existe une fonction (de Lyapunov) V vérifiant h∇V (θ); h(θ)i ≤ 0 Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Fonction de Lyapunov Fonction de Lyapunov Définition Une fonction V : Θ → R+ est une fonction de Lyapunov pour le champ h si pour toute solution {θt ,t ∈ R+ } de l’EDO θ̇ = h(θ) de condition initiale θ0 t 7→ V (θt ) est décroissante Lorsque V est de classe C 1 , cela est vrai dès que h∇V (θ); h(θ)i ≤ 0 ∀θ ∈ Θ. Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Fonction de Lyapunov Fonction de Lyapunov Définition Une fonction V : Θ → R+ est une fonction de Lyapunov pour le champ h si pour toute solution {θt ,t ∈ R+ } de l’EDO θ̇ = h(θ) de condition initiale θ0 t 7→ V (θt ) est décroissante Lorsque V est de classe C 1 , cela est vrai dès que h∇V (θ); h(θ)i ≤ 0 ∀θ ∈ Θ. I Que déduit-on de l’existence d’une telle fonction? Si la suite {V (θn ),n ≥ 0} est décroissante (et minorée) alors elle converge. Si l’ensemble {θ,V (θ) ≤ V (θ0 )} est borné, alors la suite {θn ,n ≥ 0} est bornée. Moyennant des conditions sur l’ensemble {θ, h∇V (θ); h(θ)i = 0} suite {θn ,n ≥ 0} converge vers cet ensemble. , la Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Lemme de Robbins-Siegmund Lemme de Robbins-Siegmund (simplifié) Lemme Soit {Vn ,n ≥ 0} et {Wn ,n ≥ 0} des processus Fn -adaptés positifs. {a Pn ,n ≥ 0} Pet {bn ,n ≥ 0} des suites déterministes positives telles que n an + n bn < ∞. On suppose de plus que E[V0 ] < ∞ et E [ Vn+1 | Fn ] ≤ (1 + an ) Vn − Wn + bn , Alors, P 1 P − p.s. Wn < +∞ P-p.s. p.s. 2 Vn −→ V∞ et E[V∞ ] < +∞ 3 supn≥1 E[Vn ] < ∞. ,→ à démontrer Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Convergence de la suite {V (θn ),n ≥ 0} Convergence de la suite {V (θn ),n ≥ 0} A. Il existe des fonctions h : Rd → Rd et H : Rq × Rd → Rd telles que, pour tout θ ∈ Θ, E|H(Z,θ)| < +∞ et E[H(Z,θ)] = h(θ) . B. Il existe une fonction V : Rd → R+ continûment différentiable telle que a. b. c. d. ∇V est Lipshitzienne et |∇V |2 ≤ C(1 + V ), h∇V ˆ ; hi ≤ 0,˜ E |H(Z,θ)|2 ≤ C(1 + V (θ)). la {γn ,n ≥ 0} est une suite de pas déterministe, positive telle que Psuite 2 n γn+1 < +∞. Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Convergence de la suite {V (θn ),n ≥ 0} Convergence de la suite {V (θn ),n ≥ 0} A. Il existe des fonctions h : Rd → Rd et H : Rq × Rd → Rd telles que, pour tout θ ∈ Θ, E|H(Z,θ)| < +∞ et E[H(Z,θ)] = h(θ) . B. Il existe une fonction V : Rd → R+ continûment différentiable telle que a. b. c. d. ∇V est Lipshitzienne et |∇V |2 ≤ C(1 + V ), h∇V ˆ ; hi ≤ 0,˜ E |H(Z,θ)|2 ≤ C(1 + V (θ)). la {γn ,n ≥ 0} est une suite de pas déterministe, positive telle que Psuite 2 n γn+1 < +∞. Théorème Supposons A et B. Soit θ0 tel que E[V (θ0 )] < +∞ et {Zn ,n ≥ 0} des v.a. i.i.d. de même loi que Z et indépendante de θ0 . Alors 1 supn E [V (θn )] < ∞. 2 θn+1 − θn −→ 0 3 V (θn ) −→ V∞ et E[V∞ ] < +∞. P 0 ≤ − n≥1 γn+1 h∇V (θn ); h(θn )i < +∞ P-p.s. 4 p.s. p.s. ,→ à démontrer Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Convergence de la suite {V (θn ),n ≥ 0} Remarques Les conditions Ba et Bb entrainent que V est au plus à croissance quadratique. V (θ) ≤ V (θ0 ) + |∇V (θ0 )| |θ − θ0 | + k∇V kLip |θ − θ0 |2 Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Convergence de la suite {V (θn ),n ≥ 0} Remarques Les conditions Ba et Bb entrainent que V est au plus à croissance quadratique. V (θ) ≤ V (θ0 ) + |∇V (θ0 )| |θ − θ0 | + k∇V kLip |θ − θ0 |2 Le résultat lim supn V (θn ) < +∞ P − p.s. entraine que {θn ,n ≥ 0} reste dans un ensemble de niveau de V . Si on suppose de plus que ces ensembles de niveau sont bornés alors lim sup |θn | < +∞ n P − p.s. Il suffit par exemple de supposer que (stabilité) lim|θ|→+∞ V (θ) = +∞ . Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Convergence de la suite {θn ,n ≥ 0} Convergence de la suite {θn ,n ≥ 0} Théorème Sous les hypothèses du théorème précédent ET C. h est continue, D. a. lim|θ|→∞ V (θ) = +∞, b. L’équation h∇V (θ); h(θ)i = 0 admet une solution unique θ∗ et {θ,V (θ) = V (θ∗ )} = {θ∗ }. E. P n γn = +∞. p.s. Alors, θn −→ θ∗ . ,→ à démontrer Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Application I : algorithme de Robbins-Monro Application I : Algorithme de Robbins-Monro On souhaite calculer E [φ(Z)] . On cherche donc le zéro de la fonction h(θ) = E [φ(Z)] − θ = E [φ(Z) − θ] . On met en oeuvre l’algorithme : θn+1 = θn + γn+1 (φ(Zn+1 ) − θn ) . Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Application I : algorithme de Robbins-Monro Application I : Algorithme de Robbins-Monro On souhaite calculer E [φ(Z)] . On cherche donc le zéro de la fonction h(θ) = E [φ(Z)] − θ = E [φ(Z) − θ] . On met en oeuvre l’algorithme : θn+1 = θn + γn+1 (φ(Zn+1 ) − θn ) . Fonction de Lyapunov : V (θ) = kθ − θ? k2 où θ? = E [φ(Z)]. Par application des résultats précédents, limn θn = θ? . Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Application I : algorithme de Robbins-Monro Application I : Algorithme de Robbins-Monro On souhaite calculer E [φ(Z)] . On cherche donc le zéro de la fonction h(θ) = E [φ(Z)] − θ = E [φ(Z) − θ] . On met en oeuvre l’algorithme : θn+1 = θn + γn+1 (φ(Zn+1 ) − θn ) . Fonction de Lyapunov : V (θ) = kθ − θ? k2 où θ? = E [φ(Z)]. Par application des résultats précédents, limn θn = θ? . Dans le cas particulier où γn = 1/n, on a θn = n 1X φ(Zk ). n k=1 Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Application II : algorithme de gradient stochastique Application II : Algorithme de gradient stochastique On cherche un zéro de θ 7→ ∇V (θ) dans le cas où ∇V est de la forme ∇V (θ) = −E [H(Z,θ)] . On met en oeuvre l’algorithme θn+1 = θn + γn+1 H(Zn+1 ,θn ) Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Application II : algorithme de gradient stochastique Application II : Algorithme de gradient stochastique On cherche un zéro de θ 7→ ∇V (θ) dans le cas où ∇V est de la forme ∇V (θ) = −E [H(Z,θ)] . On met en oeuvre l’algorithme θn+1 = θn + γn+1 H(Zn+1 ,θn ) Fonction de Lyapunov : V est un candidat naturel mais pour les théorèmes de convergence, sa croissance doit être au plus quadratique lorsque θ 7→ V (θ) est strictement convexe de minimum unique θ? , la fonction Ṽ (θ) = 0.5kθ − θ? k2 est aussi Fonction de Lyapunov. Lorsque le triplet (h,H,V ) vérifie les conditions des théorèmes précédents, on peut établir la convergence de {θn ,n ≥ 0} vers l’ensemble {θ,∇V (θ) = 0}. Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Application II : algorithme de gradient stochastique Application numérique def On souhaite évaluer la prime d’option I(K) = E [φ(Z)] ” “ √ φ(Z) = exp(−rT ) S0 exp((r − 0.5σ 2 )T + σ T Z) − K + lorsque S0 = 50 r = 0.1 T =1 σ = 0.1 Coefficient de variation Prime d’option europeenne 9 35 8 30 7 25 6 20 5 4 15 3 10 2 5 1 0 20 30 40 50 60 70 80 0 20 90 Strike K gauche Evolution du coefficient de variation 30 40 50 60 Strike K p Var[φ(Z)]/E[φ(Z)] en fonction du strike K. droite Evolution de la prime en fonction du strike. ,→ Si K est grand, la méthode de Monte Carlo est inefficace 70 80 90 Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Application II : algorithme de gradient stochastique On met en oeuvre l’algorithme de gradient stochastique θn+1 = θn + γn+1 Ha (Zn+1 ,θn ) où (cf. TD) p Ha (θ,z) = − exp(−a 1 + kθk2 ) φ2 (z − θ) (2θ − z). K=60 a=2σ √ T γn =min{ 1 ,0.001} (100+n)0.8 θ0 =(log(K/S0 )−(r−0.5σ 2 )T )/(σ p (T )) Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Application II : algorithme de gradient stochastique On met en oeuvre l’algorithme de gradient stochastique θn+1 = θn + γn+1 Ha (Zn+1 ,θn ) où (cf. TD) p Ha (θ,z) = − exp(−a 1 + kθk2 ) φ2 (z − θ) (2θ − z). K=60 a=2σ √ T γn =min{ 1 ,0.001} (100+n)0.8 θ0 =(log(K/S0 )−(r−0.5σ 2 )T )/(σ p (T )) On compare deux algorithmes d’échantillonnage d’importance 1. on commence par déterminer limn θn . Et on estime I par un estimateur d’échantillonnage d’importance avec θ? = limn θn . n 1X Î = φ(Zk + θ? ) exp(−0.5kθ? k2 − θ? T Zk ) n k=1 Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Application II : algorithme de gradient stochastique On met en oeuvre l’algorithme de gradient stochastique θn+1 = θn + γn+1 Ha (Zn+1 ,θn ) où (cf. TD) p Ha (θ,z) = − exp(−a 1 + kθk2 ) φ2 (z − θ) (2θ − z). K=60 a=2σ √ T γn =min{ 1 ,0.001} (100+n)0.8 θ0 =(log(K/S0 )−(r−0.5σ 2 )T )/(σ p (T )) On compare deux algorithmes d’échantillonnage d’importance 1. on commence par déterminer limn θn . Et on estime I par un estimateur d’échantillonnage d’importance avec θ? = limn θn . n 1X Î = φ(Zk + θ? ) exp(−0.5kθ? k2 − θ? T Zk ) n k=1 2. On calcule l’estimateur de I au fur et à mesure de la mise à jour de θn : θn+1 = θn + γn+1 Ha (Zn+1 ,θn ) „ « 1 1 In+1 = 1 − In + φ(Zn+1 + θn ) exp(−0.5kθn k2 − θnT Zn+1 ) n+1 n+1 = n+1 1 X φ(Zk + θk−1 ) exp(−0.5kθk−1 k2 − θk−1 T Zk ) n+1 k=1 Méthodes de Réduction de Variance : Méthodes adaptatives Approximation stochastique Application II : algorithme de gradient stochastique 1.6 ISoptimal et IS adaptatif 0.625 1.5 IS optimal IS adaptatif 0.62 1.4 0.615 1.3 0.61 1.2 0.605 1.1 0.6 1 0.595 0.9 0.8 0.59 0 1 2 3 4 5 6 7 4 0.585 0 2 4 x 10 0.606 12 14 16 4 x 10 3 Monte Carlo Vraie Valeur IS avec drift optimal 0.604 2.5 0.602 2 0.6 1.5 0.598 1 0.596 0.594 6 8 10 Nombre d’iterations Rapport des ecarts−type (IS / MC) Estimation de la prime 0.5 0 200 400 600 800 1000 1200 x 1000 tirages 1400 1600 1800 2000 0 0 200 400 600 800 1000 1200 Nombre de tirages 1400 1600 1800 2000 haut gauche Trajectoire de la suite {θn ,n ≥ 0}. On lit : limn θn = 1.54. haut droite Comparaison des estimateurs de I par échantillonnage d’importance avec drift optimal (θ = 1.54) et par échantillonnage d’importance adaptatif bas gauche Evolution de l’estimation de I en fonction du nombre de termes dans la somme de Monte Carlo, par l’estimateur de Monte Carlo classique (trait plein) et l’estimateur d’échantillonnage d’importance en θ = 1.54 (dash-dot) bas droite Evolution du rapport des écarts-type des estimateurs Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares III. Méthodes de Monte Carlo pour la simulation d’événements rares Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Evénements rares Evénements rares On s’intéresse au problème de l’estimation de petit (ordre 10−3 ou moins) ,→ On parle alors d’ “événement rare” def I = P(A) lorsque I est Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Evénements rares Evénements rares def I = P(A) On s’intéresse au problème de l’estimation de petit (ordre 10−3 ou moins) lorsque I est ,→ On parle alors d’ “événement rare” Exemple d’évènements rares Soient Z1 , · · · Zn des v.a. i.i.d. d’espérance E[Z]. On cherche P(Z1 + · · · + Zn > nx) pour n grand. La loi des grands nombres dit que quand n est grand n 1X Zk ∼ E [Z] . n k=1 Donc P(Z1 + · · · + Zn > nx) sera d’autant plus petit que x > E[X]. Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Evénements rares Monte Carlo pour les événements rares En écrivant P(A) = E [1IA ] on peut approcher cette probabilité par une méthode de Monte Carlo naı̈ve (MCn). L’écart-type de l’estimateur MCn calculé avec n tirages i.i.d. est donnée par p n−1/2 I (1 − I) Donc quand I → 0, l’écart-type tend vers zero ! mais cette précision doit être comparée à l’ordre de grandeur de la quantité à estimer. Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Evénements rares Comment évaluer l’inefficacité de la méthode de Monte Carlo naı̈ve? 1 Par l’erreur relative, qui compare l’écart-type à la quantité à estimer p √ I (1 − I) 1−I = √ → +∞ quand I → 0 I I Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Evénements rares Comment évaluer l’inefficacité de la méthode de Monte Carlo naı̈ve? 1 Par l’erreur relative, qui compare l’écart-type à la quantité à estimer p √ I (1 − I) 1−I = √ → +∞ quand I → 0 I I 2 Par le nombre de simulations nécessaires pour obtenir une précision de α% en terme de largeur d’IC à 95% p „ «2 „ «2 I (1 − I) α 100 1−I 100 1 √ 1.96 = I ⇐⇒ n = 1.96 ∼ 1.96 100 α I α I n Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Evénements rares Quand déclare-t-on qu’un estimateur d’un événement rare est performant? Soit {Ax ,x ≥ 0} une famille d’événements rares telle que limx→+∞ P(Ax ) = 0. Soit µ̂(x) un estimateur sans biais de P(Ax ). On cherche un algorithme qui produit des estimateurs vérifiant l’une ou l’autre des propriétés suivantes : 1 Estimateur à erreur relative bornée p Var(µ̂(x)) lim sup < +∞ P(Ax ) x En particulier, pour de tels estimateurs, le nombre de simulations nécessaires pour obtenir une précision de α% reste borné quand P(Ax ) → 0. Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Evénements rares Quand déclare-t-on qu’un estimateur d’un événement rare est performant? Soit {Ax ,x ≥ 0} une famille d’événements rares telle que limx→+∞ P(Ax ) = 0. Soit µ̂(x) un estimateur sans biais de P(Ax ). On cherche un algorithme qui produit des estimateurs vérifiant l’une ou l’autre des propriétés suivantes : 1 Estimateur à erreur relative bornée p Var(µ̂(x)) lim sup < +∞ P(Ax ) x En particulier, pour de tels estimateurs, le nombre de simulations nécessaires pour obtenir une précision de α% reste borné quand P(Ax ) → 0. 2 Estimateur logarithmiquement efficace : p Var(µ̂(x)) ∀ > 0, lim sup =0 P(Ax )1− x En pratique, pas de différence entre les algorithmes vérifiant l’une ou l’autre propriété. Dans certains problèmes, on sait construire des estimateurs vérifiant la seconde propriété mais, à ce jour, on n’en connaı̂t pas vérifiant la première. Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Echantillonnage d’importance pour les événements rares Echantillonnage d’importance pour les événements rares Pour le calcul de I = P(Z ∈ A) , où Z est de densité f , le changement de loi optimal est donné par g? = R f 1IA f 1IA dλ ,→ c’est la loi conditionnelle de Z sachant l’événement A. pas à densité la conclusion reste vraie si Z n’est Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Echantillonnage d’importance pour les événements rares Echantillonnage d’importance pour les événements rares Pour le calcul de I = P(Z ∈ A) , où Z est de densité f , le changement de loi optimal est donné par g? = R f 1IA f 1IA dλ ,→ c’est la loi conditionnelle de Z sachant l’événement A. la conclusion reste vraie si Z n’est pas à densité La loi g? n’est connue qu’à une constante de normalisation près. Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Echantillonnage d’importance pour les événements rares Echantillonnage d’importance pour les événements rares Pour le calcul de I = P(Z ∈ A) , où Z est de densité f , le changement de loi optimal est donné par g? = R f 1IA f 1IA dλ ,→ c’est la loi conditionnelle de Z sachant l’événement A. la conclusion reste vraie si Z n’est pas à densité La loi g? n’est connue qu’à une constante de normalisation près. Comment simuler sous la loi de Z sachant A? (i) Simuler Xk de même loi que Z indépendamment des tirages passés X1 , · · · ,Xk−1 (ii) Si Xk ∈ A alors poser Y = Xk , sinon répéter. On peut montrer que (à faire) a. Y a pour loi la loi conditionnelle de Z sachant A. b. le nombre de tirages nécessaires pour obtenir Y suit une loi géométrique de paramètre P(A). Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Echantillonnage d’importance adaptatif Algorithme d’échantillonnage d’importance adaptatif Proposé par Rubinstein (1997), pour calculer P(φ(Z) ≥ x) Z∼f par une méthode d’échantillonnage d’importance avec loi instrumentale dans la famille P = {g(·,θ), θ ∈ Θ} Algorithme Etant donnée une approximation courante g(·,θ(t) ) (1) Simuler un n-échantillon Z1 , · · · ,Zn sous la loi g(·,θ(t) ) (2) Prendre x(t+1) tel que δn réalisations φ(Zk ) soient supérieures à x(t+1) . (3) Si x(t+1) < x 0 (i) Retenir les N 0 = δN réalisations dépassant le seuil, notées Z10 , · · · ,ZN 0 (ii) Mettre à jour la loi de proposition 0 g (t+1) = argmaxg∈P N 1 X f (Zk0 ) log g(Zk0 ) 0 N k=1 g (t) (Zk0 ) (iii) Reprendre à l’étape 1. (4) Si x(t+1) ≥ x, poser g? = g(·,θ(t) ). Arrêt de l’algorithme. Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Echantillonnage d’importance adaptatif Que fait l’algorithme? Partant d’une loi de proposition courante g (t) , on approche la loi conditionnelle de Z sachant φ(Z) ≥ x(t+1) , où Z ∼ g (t) , Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Echantillonnage d’importance adaptatif Que fait l’algorithme? Partant d’une loi de proposition courante g (t) , on approche la loi conditionnelle de Z sachant φ(Z) ≥ x(t+1) , où Z ∼ g (t) , on utilise ces tirages pour approcher la quantité Z Ef [log g(Z)|φ(Z) ≥ x] ∝ log g(z) f (z)1Iφ(z)≥x dz par une méthode d’ échantillonnage d’importance avec la loi conditionnelle en guise de loi instrumentale (d’où l’introduction du ratio d’importance) 0 N 1 X f (Zk0 ) log g(Zk0 ) (t) (Z 0 ) N0 g k k=1 Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Echantillonnage d’importance adaptatif Que fait l’algorithme? Partant d’une loi de proposition courante g (t) , on approche la loi conditionnelle de Z sachant φ(Z) ≥ x(t+1) , où Z ∼ g (t) , on utilise ces tirages pour approcher la quantité Z Ef [log g(Z)|φ(Z) ≥ x] ∝ log g(z) f (z)1Iφ(z)≥x dz par une méthode d’ échantillonnage d’importance avec la loi conditionnelle en guise de loi instrumentale (d’où l’introduction du ratio d’importance) 0 N 1 X f (Zk0 ) log g(Zk0 ) (t) (Z 0 ) N0 g k k=1 Les seuils x(t) sont choisis a posteriori (une fois les tirages faits) pour garantir assez de points dans la somme de Monte Carlo ET pour croı̂tre vers le seuil x. Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Echantillonnage d’importance adaptatif Implémentation Choix de la famille paramétrique Θ ⊆ Rd et une famille de lois paramétriques P la mise à jour (famille exponentielle courbe) telle que 0 argmaxg∈P N 1 X f (Zk0 ) log g(Zk0 ) 0 N k=1 g (t) (Zk0 ) a une solution explicite. Par exemple : lois gaussiennes, lois de Student, mélange de gaussiennes, mélange de Student, · · · . Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Echantillonnage d’importance adaptatif Implémentation Choix de la famille paramétrique Θ ⊆ Rd et une famille de lois paramétriques P la mise à jour (famille exponentielle courbe) telle que 0 argmaxg∈P N 1 X f (Zk0 ) log g(Zk0 ) 0 N k=1 g (t) (Zk0 ) a une solution explicite. Par exemple : lois gaussiennes, lois de Student, mélange de gaussiennes, mélange de Student, · · · . Choix de δ Du choix de δ dépend la convergence et la vitesse de convergence de l’algorithme. En pratique, δ ∈ (1%,10%) Si x(t) reste bloqué sous le seuil x, il faut diminuer δ. Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Exemple Exemple Soit une cible localisée en (0,0), et des civils localisés dans un bâtiment rectangulaires de coordonnées SW (4, − 0.25) et NE (5,0.25) unité : 100m Une bombe visant la cible tombe au point de coordonnées (X,Y ), (X,Y ) ∼ N2 (0,Id). Quelle est la probabilité que la bombe tombe à moins de 100m du bâtiment abritant les civils? Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Exemple Probabilité d’un événement rare Evénement rare Il s’agit très certainement d’un événement rare car le bâtiment est à plusieurs écarts-types de la position moyenne de la bombe. Formulation du problème Notons h(M ) la distance du point M = (X,Y ) au bâtiment. On cherche P(h(M ) ≤ 1) Changement de loi (I) On cherche un changement de loi sur l’abscisse uniquement (vu le schéma) gθ,1 (x,y) = N (θ,1)[x] N (0,1)[y] Changement de loi (II) Changement de loi plus général (sans changer la moyenne de Y ) gθ,σ2 ,σ2 (x,y) = N (θ,σ12 )[x] N (0,σ22 )[y] 1 2 Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Exemple Changement de loi (I) La mise à jour des densités instrumentales revient à mettre à jour le paramètre θ selon la formule 1−1 0 0 N N0 X X N (0,1)[Xk0 ] @ A θt+1 = ωk ωk Xk0 ωk = N (θt ,1)[Xk0 ] k=1 k=1 4 5 4 3 5 3 2 4 2 3 1 1 2 0 0 −1 1 −1 0 −2 −1 −2 −2 −3 −3 −3 −4 −4 −4 −4 −3 −2 −1 0 1 2 3 4 5 −5 −2 N = 5000 Puis (x(1) ,θ (1) )=(1.84;2.57) On trouve −1 0 1 2 3 δ = 1% 4 5 θ 6 (0) 7 −5 −1 = 0 (x(2) ,θ (2) )=(0,4.20) −→ arrêt de l’algorithme P(h(X,Y )≤1)=[7.82±0.21] 10−4 , calculé à partir de 50 000 tirages. 0 1 2 3 4 5 6 7 8 9 Méthodes de Réduction de Variance : Méthodes adaptatives Méthodes de Monte Carlo pour la simulation d’événements rares Exemple Changement de loi (II) La mise à jour des densités instrumentales revient à maximiser 0 N X ωk n o 2 0 2 0 log N (θ,σ1 )[Xk ] + log N (0,σ2 )[Yk ] k=1 ωk = 0 ] N (0,1)[Y 0 ] N (0,1)[Xk k 2 )[X 0 ] N (0,σ 2 )[Y 0 ] N (θt ,σ1,t 2,t k k ce qui se traduit par les mises à jour θt+1 = 0 N X 0 ω̄k Xk k=1 0 N X 2 0 2 2 σ1,t+1 = ω̄k {Xk } − θt+1 k=1 0 N X ω̄k = ωk /( ωj ) j=1 0 N X 2 0 2 σ2,t+1 = ω̄k {Yk } k=1 A convergence de l’algorithme, on obtient la même estimation de la probabilité, avec un intervalle de confiance plus précis.