96
Chapitre 4. Méthodes de minimisation de l’énergie a posteriori
Maximiser la probabilité a posteriori (3.4.2) est équivalent à minimiser l’énergie a
posteriori (appelé aussi critère du MAP) décrite dans l’équation (3.4.4). La minimisation
du critère du MAP est problématique parce que la fonction de potentiel peut être non
convexe et donc peut admettre des minima locaux.
On peut classer les algorithmes de minimisation en deux catégories avec les sous-
catégories correspondantes:
- les algorithmes stochastiques:
¾ de type recuit simulé:
- recuit avec dynamique de Metropolis;
- échantillonneur de Gibbs avec recuit;
¾ algorithmes génétiques (peu utilisés) [KOZ 93], [CHA 97].
- les algorithmes déterministes. Le plus utilisés sont:
- modes conditionnels itérés (ICM = Iterated Conditional Modes);
- non-convexité graduelle (GNC = Graduated Non-Convexity);
- recuit en champ moyen (MFA = Mean Field Annealing).
Les algorithmes stochastiques assurent la convergence théorique vers un minimum
global de l’énergie du critère du MAP, mais ont comme défaut d’être très lents. Les
algorithmes déterministes sont plus rapides, mais peuvent rester piégés dans un minimum
local de l’énergie MAP.
4.1. Algorithmes stochastiques
Les algorithmes stochastiques d’optimisation (minimisation) sont basés sur une
analogie avec le procédé de recuit, utilisé par exemple en métallurgie et en verrerie. Pour
obtenir la cristallisation la plus parfaite possible (correspondant à un état moléculaire le
plus ordonné possible), on porte le matériau à très haute température, puis on le laisse se
refroidir très lentement.
Le recuit simulé fait partie d’une classe d’algorithmes de relaxation stochastique de
type Monte-Carlo, qui s’appuient sur une recherche partiellement aléatoire dans l’espace
des solutions. A chaque pas de l’algorithme, la solution précédente est vue comme une
perturbation aléatoire. Par rapport aux algorithmes déterministes itératifs basés sur la
minimisation du gradient, lesquels évoluent selon la direction de décroissance de la
fonction à minimiser, le recuit simulé permet l’exploration de telles solutions dont
certaines peuvent s’éloigner temporairement du minimum, pour éviter la convergence vers
un minimum local.
97
La probabilité d’accepter une croissance de la fonction à minimiser est contrôlée
par un paramètre appelé température. Le principe général des algorithmes de recuit est
donné dans (4.1).
Le système est porté à une température suffisamment grande pour pouvoir accepter
toutes les évolutions possibles du système. Puis la température est diminuée selon une loi
de refroidissement. A chaque température, le système doit évoluer suffisamment pour
atteindre un état d’équilibre. L’algorithme général est de la forme:
(4.1)
La convergence de l’algorithme est strictement liée à la loi de refroidissement. La
décroissance logarithmique de la température [GEM 84]:
)1ln( +
=i
Tτ , i=1,2,..., où τ est une constante et i est l’indice d’itération (4.2)
assure la convergence théorique vers un minimum global de la fonction.
Nous décrivons les 2 algorithmes qui permettent de calculer un nouvel état du
système à une température donnée: le recuit simulé avec dynamique de Metropolis et
l’échantillonneur de Gibbs avec recuit.
4.1.1. Recuit avec dynamique de Metropolis
Dans le cas de la dynamique de Metropolis (qui est la plus proche du processus
physique du recuit), la variation de température est assez lente pour qu’on puisse
considérer qu’à une température donnée, le système a le temps d’évoluer jusqu'à un état le
plus ordonné possible qui correspond au point d’équilibre thermique à cette température.
Cet équilibre est caractérise par le fait que la probabilité pour que le système se trouve
dans un état I est [CHA 94]:
()
)(exp
1
)( IE
Z
Ip , (4.3)
où :
()
=
I
IEZ )(exp β est la fonction de partition du système. E(I) est
l’énergie du système correspondant à la configuration I. La constante β est: β=1/k·T, où T
est la température absolue du système et k la constante de Boltzmann. On remarque que
cette équation est similaire à l’équation (3.2.8).
Initialisation à une température Tmax élevée
Répéter
Calculer le nouvel état (E) du système
Diminuer la température selon la loi de refroidissement (Ti+1=f(Ti))
Jusqu’à atteindre une température Tmin " basse" (voir nulle) qui garantisse la
convergence vers un minimum
98
Lorsque la température est élevée, tous les états sont équiprobables. Donc, une
baisse brutale de température risquerait de figer le matériau dans une configuration trop
désordonnée. Lorsque T tend vers 0, la configuration la plus probable est celle
correspondant à l’énergie minimale. Le matériau est alors un cristal parfait.
Pour l’application de la technique de recuit aux images, on considère que la grille
des pixels représente les atomes du matériau et les niveaux de gris représente leurs états
possibles. Donc, une image représente une configuration I, à laquelle on associe l’énergie
E(I) et une probabilité de réalisation donnée par (4.3). A chaque température, on effectue
de petites perturbations du système, jusqu'à ce que celui-ci se trouve dans son état
d’équilibre ”thermique”. En général, la perturbation consiste à modifier légèrement la
valeur d’un pixel en lui ajoutant une valeur aléatoire (appelée grain). Une autre possibilité
consiste à échanger la valeur de deux pixels.
A chaque pas de l’algorithme on génère une nouvelle solution candidate (une
perturbation), d’une manière aléatoire. Si cette solution conduit à une décroissance de
l’énergie E<0, la solution est acceptée. Sinon, la solution est acceptée en conformité
avec une distribution exponentielle de probabilité (p):
>
=01
0)exp(
Esi
EsiT
p ,
,
(4.4)
T est la température et E représente la variation d’énergie due à la
perturbation. Si la température est grande, la probabilité d’accepter une configuration
augmentant l’énergie est plus grande que dans le cas où la température serait faible.
Une description de l’algorithme de recuit simulé utilisant la dynamique de
Metropolis est la suivante [MUR 97] (I(k) est la configuration à l’itération k):
(4.5)
1. Initialiser i=0 et T=Tmax. On choisit de manière aléatoire la configuration
initiale I(0);
2. Générer aléatoirement une nouvelle solution candidate (perturbation) I(i+1);
3. Calculer : E=E(I(i+1))-E(I(i));
4. Calculer la probabilité :
>
=01
0)exp(
Esi
EsiT
p ,
,
5. Si p=1, on accepte la perturbation. Sinon, on tire aléatoirement un
nombre, en conformité avec une distribution uniforme entre 0 et 1. Si ce
nombre est égal ou plus petit que p, on accepte la perturbation : I(i+1)=I(0).
Sinon : I(i+1)=I(i) ;
6. Incrémenter: i=i+1. Si : iNmax, où Nmax est prédéfini, revenir en 2;
7. Initialiser: i=0 et I(0)= I(Nmax). On réduit T en conformité avec la loi de
refroidissement. Si : T>Tmin, aller en 2. Sinon, Arrêt.
99
Parce que les perturbations sont générées d’une manière aléatoire, l’algorithme
nécessite un grand nombre d’itérations pour converger, quand l’espace d’état est grand,
quand I est continu ou quand le nombre des composantes du vecteur inconnu est grand.
Le fait d’accepter des configurations d’énergie supérieures permet d’éviter le
problème des minima locaux de l’énergie E.
4.1.2. Echantillonneur de Gibbs avec recuit
Dans le cas de l’échantillonneur de Gibbs, l’analogie avec le processus physique de
recuit et moins directe, parce que même si l’algorithme est bien de la forme (4.1), on ne
laisse pas forcement le système se stabiliser à chaque température.
Au lieu de générer les perturbations d’une manière aléatoire et de décider après si
elles sont acceptées ou pas, dans le cas d’échantillonneur Gibbs, les perturbations sont
générées en conformité avec des fonctions de densité de probabilité conditionnelles
locales, qui dérivent d’une distribution de Gibbs. Le nouvel état du système est calculé de
la façon suivante: on modifie la valeur de niveau de gris d’un pixel p, en lui affectant la
valeur a, qui dépend des valeurs des voisins de p et d’une variable aléatoire A, ayant une
distribution quelconque (par ex. uniforme). Les sites sont explorés de façon cyclique. En
considérant que l’énergie peut se mettre sous la forme d’une somme de potentiels locaux
et comme l’image est considérée comme un champ de Markov, on peut écrire:
()
==
== T
devoiIaIE
Z
aIp p r rp
psin),(|)(
exp
1
))(( (4.6.1)
Ecrire E(I) sous forme de somme de potentiels locaux suppose que le voisinage ait
un support de petite taille.
Une description de l’échantillonneur de Gibbs avec recuit est:
(4.6.2)
1. Initialiser: i=0 et T=Tmax. Choisir de manière aléatoire la configuration
initiale (I(0));
2. Scruter chaque pixel p pour perturber la valeur de I(p) correspondante. La
perturbation est calculée de la manière suivante:
a) Pour chaque position on calcule la probabilité conditionnelle de I(p) (voir
4.6.1) afin de prendre toutes les valeurs possibles dans l’espace des
solutions, en fonction des valeurs actuelles (données) des voisins de la
position courante.
b) Ensuite, on calcule les probabilités pour tous les éléments de S et on
effectue un tirage d’une nouvelle valeur de I(p) dans cette distribution.
3. Répéter l’étape 2 un nombre de pas suffit à une température donnée, puis
faire décroître la température et répéter 2. On remarque que les probabilités
conditionnelles dépendent de la température.
100
4.1.3. Conclusions
Les algorithmes stochastiques de type recuit convergent en probabilité vers un
minimum global du critère du MAP, indépendamment de la configuration initiale. Dans le
cas où l’énergie du MAP s’écrirait comme une somme de termes locaux, on peut utiliser
l’échantillonneur de Gibbs avec recuit. Dans le cas contraire, on utilise le recuit simulé
avec dynamique de Metropolis [CHA 94].
Les algorithmes de recuit ont un coût de calcul important. De plus, même si la
convergence est prouvée en théorie, il n’est pas toujours possible en pratique de se placer
dans les bonnes conditions. Par exemple, si l’on veut s’affranchir du problème des minima
locaux, il est nécessaire d’adopter une décroissance logarithmique de la température, ce
qui peut ne pas être possible en pratique. C’est ce qui fait écrire à Donald Geman, à
propos de l’échantillonneur de Gibbs [GEM 92]: ”nous n’avons aucune garantie d’obtenir
un véritable minimum avec une quantité finie de calculs”.
4.2. Algorithmes déterministes
L’énergie issue du critère du MAP est la plupart de temps non convexe. Dans ce
cas, les algorithmes déterministes sont tous sous-optimaux, dans le sens qu’ils ne
permettent d’atteindre qu’un minimum local de l’énergie, la transition d’une configuration
à une autre n’étant pas possible que si l’énergie est inférieure.
Les algorithmes déterministes les plus connus, de descente simple du type gradient,
gradient conjugué, ou modes conditionnels itérés (ICM=Iterated Conditional Modes)
risquent de rester piégés dans des minima locaux éloignés du minimum global, donc les
estimées obtenues risquent d’être de mauvaise qualité. Diverses stratégies ont été
proposées afin d’obtenir des solutions de bonne qualité et les plus connues sont la Non-
Convexité Graduelle (GNC=Graduated Non-Convexity) et le recuit en champ moyen
(MFA=Mean Field Annealing).
4.2.1. Modes conditionnels itérés (ICM)
L’algorithme ICM a été proposé par Besag [BES 86]. Il est également appelé
relaxation de Gauss-Seidel non linéaire à cause du fait que l’algorithme ICM est proche
formellement de l’algorithme de relaxation de Gauss-Seidel, utilisé en analyse numérique
pour résoudre des systèmes linéaires de grande taille [PER 93].
L’algorithme ICM est appelé aussi recuit gelé (Metropolis gelé ou Gibbs gelé),
parce que cet algorithme est un cas particulier de l’algorithme de Metropolis ou de
l’échantillonneur de Gibbs: dans l’étape 4 de l’algorithme de Metropolis (4.5), la
probabilité d’accepter des perturbations qui augmente l’énergie, est toujours nulle. Besag
1 / 35 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !