Master d’Informatique Décisionnelle (2011-2012) Faculté des Sciences et Techniques Module : Processus de Décision de Markov Université Sultan Moulay Slimane Chapitre 3 : Processus de Décision de Markov Série N°3 Exercice 1 : Soit Xn un processus de Bernoulli d’espace d’état E= {0,1} : A(0)= A(1)= {1,2}. 2 −1 On définit un PDM par les récompenses: pour i=0 ( ) , pour i=1 ( ) ; 4 1 La matrice de transition associée à l'action 1 est la suivante : (0.5 0.5) ; 1 0 La matrice de transition associée à l'action 2 est la suivante : ( 0 1 ). 0.5 0.5 1. Déterminer l’ensemble de toutes les stratégies déterministes (FD). 2. Déterminer une stratégie stationnaire puis l’ensemble de toutes les stratégies stationnaires (FS). 3. Soit la stratégie stationnaire f telle que f(0, 1):= 1 ; f(1, 2):= 0 . Calculer la fonction coût Vα( f ) avec un facteur α = 0.5. 4. Soit la stratégie pure f1 telle que f1 (0,2):= 0 ; f1 (1, 1):=1. Calculer la fonction coût (f1 ). Exercice 2 : Appliquer l’Algorithme classique de la stratégie améliorée, au PDM défini par la figure suivante avec E ={1 , 2 , 3}. (2,1) 1 ( 1 , 1) 2 (4 , 1 ) (6,1) ( 3 , 1) (9,1) (8,1) 3 (7,1) 1 (5,1) Master d’Informatique Décisionnelle (2011-2012) Faculté des Sciences et Techniques Module : Processus de Décision de Markov Université Sultan Moulay Slimane Problème: Soit un PDM avec espace d’états 𝐸 = {1, 2} . La matrice de transition P et les gains au niveau de chaque état sont définis par: Etat i=1 : - R(état<1>,a1) = 1 ) --> 0,5 0.5 - R(état<1>,a2) = 2 ) --> 0.4 0.6 Etat i=2 : - R(état<2>,a1) = 2) --> 1 0 - R(état<2>,a2) = 4 ) --> 0 1 I. On considère le critère d’actualisation avec un facteur α = 0.5. 1. Déterminer l’ensemble des stratégies pures. 2. Déterminer la forme des stratégies stationnaires. 3. Soit la stratégie stationnaire f telle que f(1, 1):= 0.5 ; f(2, 2):= 1 . Calculer la fonction coût Vα( f ). 4. Déterminer une stratégie optimale en utilisant l’algorithme de la stratégie améliorée (Donner les résultats de chaque itération). II. On considère le critère de la moyenne . Soit la stratégie pure f1 telle que f1 (1,2):= 0 ; f1 (2, 1):= 1. 1. Calculer la fonction coût (f1 ) et le vecteur u(f1 ) en résolvant un système linéaire. 2. Calculer une stratégie à gain moyen optimale en utilisant l’algorithme de la stratégie améliorée (partant de f1 ). 2