Résumé
Cette thèse porte sur la résolution de problèmes de décision séquentielle sous incertitude,
modélisés sous forme de processus décisionnels de Markov (PDM) dont l’espace d’état
et d’action sont tous les deux de grande dimension. La résolution de ces problèmes avec
un bon compromis entre qualité de l’approximation et passage à l’échelle est encore un
challenge. Les algorithmes de résolution dédiés à ce type de problèmes sont rares quand
la dimension des deux espaces excède 30, et imposent certaines limites sur la nature des
problèmes représentables.
Nous avons proposé un nouveau cadre, appelé PDMF3, ainsi que des algorithmes
de résolution approchée associés. Un PDMF3est un processus décisionnel de Markov à
espace d’état et d’action factorisés (PDMF-AF) dont non seulement l’espace d’état et
d’action sont factorisés mais aussi dont les politiques solutions sont contraintes à une
certaine forme factorisée, et peuvent être stochastiques. Les algorithmes que nous avons
proposés appartiennent à la famille des algorithmes de type itération de la politique et
exploitent des techniques d’optimisation continue et des méthodes d’inférence dans les
modèles graphiques.
Ces algorithmes de type itération de la politique ont été validés sur un grand nombre
d’expériences numériques. Pour de petits PDMF3, pour lesquels la politique globale opti-
male est disponible, ils fournissent des politiques solutions proches de la politique globale
optimale. Pour des problèmes plus grands de la sous-classe des processus décisionnels de
Markov sur graphe (PDMG), ils sont compétitifs avec des algorithmes de résolution de
l’état de l’art en termes de qualité. Nous montrons aussi que nos algorithmes permettent
de traiter des PDMF3de très grande taille en dehors de la sous-classe des PDMG, sur des
problèmes jouets inspirés de problèmes réels en agronomie ou écologie. L’espace d’état
et d’action sont alors tous les deux de dimension 100, et de taille 2100. Dans ce cas, nous
comparons la qualité des politiques retournées à celle de politiques expertes.
Dans la seconde partie de la thèse, nous avons appliqué le cadre et les algorithmes
proposés pour déterminer des stratégies de gestion des services écosystémiques dans un
paysage agricole. Les adventices, plantes sauvages des milieux agricoles, présentent des
fonctions antagonistes, étant à la fois en compétition pour les ressources avec la culture
et à la base de réseaux trophiques dans les agroécosystèmes. Nous cherchons à explorer
quelles organisations du paysage (ici composé de colza, blé et prairie) dans l’espace et
dans le temps permettent de fournir en même temps des services de production (rende-
ment en céréales, fourrage et miel), des services de régulation (régulation des populations
d’espèces adventices et de pollinisateurs sauvages) et des services culturels (conservation
d’espèces adventices et de pollinisateurs sauvages). Pour cela, nous avons développé un
modèle de la dynamique des adventices et des pollinisateurs et de la fonction de récom-
pense pour différents objectifs (production, maintien de la biodiversité ou compromis
entre les services). L’espace d’état de ce PDMF3est de taille 32100, et l’espace d’ac-
tion de taille 3100, ce qui en fait un problème de taille conséquente. La résolution de
ce PDMF3a conduit à identifier différentes organisations du paysage permettant d’at-
teindre différents bouquets de services écosystémiques, qui diffèrent dans la magnitude
de chacune des trois classes de services écosystémiques.