Telechargé par rim.ouazine96

Série-N3-PDM

publicité
Master d’Informatique Décisionnelle (2011-2012)
Faculté des Sciences et Techniques
Module : Processus de Décision de Markov
Université Sultan Moulay Slimane
Chapitre 3 : Processus de Décision de Markov
Série N°3
Exercice 1 : Soit Xn un processus de Bernoulli d’espace d’état E= {0,1} : A(0)= A(1)= {1,2}.
2
−1
On définit un PDM par les récompenses: pour i=0 ( ) , pour i=1 ( ) ;
4
1
La matrice de transition associée à l'action 1 est la suivante : (0.5 0.5) ;
1
0
La matrice de transition associée à l'action 2 est la suivante : (
0
1
).
0.5 0.5
1. Déterminer l’ensemble de toutes les stratégies déterministes (FD).
2. Déterminer une stratégie stationnaire puis l’ensemble de toutes les stratégies
stationnaires (FS).
3. Soit la stratégie stationnaire f telle que f(0, 1):= 1 ; f(1, 2):= 0 . Calculer la fonction
coût Vα( f ) avec un facteur α = 0.5.
4. Soit la stratégie pure f1 telle que f1 (0,2):= 0 ; f1 (1, 1):=1. Calculer la fonction coût
(f1 ).
Exercice 2 :
Appliquer l’Algorithme classique de la stratégie améliorée, au PDM défini par la figure
suivante avec E ={1 , 2 , 3}.
(2,1)
1
( 1 , 1)
2
(4 , 1 )
(6,1)
( 3 , 1)
(9,1)
(8,1)
3
(7,1)
1
(5,1)
Master d’Informatique Décisionnelle (2011-2012)
Faculté des Sciences et Techniques
Module : Processus de Décision de Markov
Université Sultan Moulay Slimane
Problème: Soit un PDM avec espace d’états 𝐸 = {1, 2} . La matrice de transition P et les
gains au niveau de chaque état sont définis par:
Etat i=1
:
- R(état<1>,a1) = 1 ) --> 0,5
0.5
- R(état<1>,a2) = 2 ) --> 0.4
0.6
Etat i=2
:
- R(état<2>,a1) = 2) -->
1
0
- R(état<2>,a2) = 4 ) -->
0
1
I. On considère le critère d’actualisation avec un facteur α = 0.5.
1. Déterminer l’ensemble des stratégies pures.
2. Déterminer la forme des stratégies stationnaires.
3. Soit la stratégie stationnaire f telle que f(1, 1):= 0.5 ; f(2, 2):= 1 . Calculer la fonction
coût Vα( f ).
4. Déterminer une stratégie optimale en utilisant l’algorithme de la stratégie améliorée
(Donner les résultats de chaque itération).
II. On considère le critère de la moyenne .
Soit la stratégie pure f1 telle que f1 (1,2):= 0 ; f1 (2, 1):= 1.
1. Calculer la fonction coût (f1 ) et le vecteur u(f1 ) en résolvant un système linéaire.
2. Calculer une stratégie à gain moyen optimale en utilisant l’algorithme de la stratégie
améliorée (partant de f1 ).
2
Téléchargement