ALGORITHME EM : THEORIE
ET APPLICATION AU MODÈLE MIXTE
Jean-Louis FOULLEY*
RESUME
Cet article présente une synthèse pédagogique sur la théorie de l'algorithme EM et
son utilisation dans les modèles linéaires mixtes en vue du calcul des estimations
des composantes de variance par maximum de vraisemblance.
Dans une première partie, on rappelle les bases théoriques de l'algorithme. L'accent
est mis sur l'importance du concept de données manquantes et sur l'identité de
Fisher qui permet bien de comprendre pourquoi l'algorithme présente deux phases :
la
lre
consiste en la détermination de l'espérance de la logvraisemblance des données
complètes (dite de ce fait E) par rapport à la distribution conditionnelle des données
manquantes sachant les données observées et les valeurs courantes du paramètre
;
la
seconde (dite M) permet d'actualiser ces valeurs courantes par maximisation de la
fonction obtenue précédemment. On présente ensuite les principales propriétés de
l'algorithme notamment l'accroissement monotone de la vraisemblance des données
observées, la convergence vers un point stationnaire de cette vraisemblance et ses
caractéristiques.
On termine par un inventaire des principales variantes : Gradient-
EM, ECM , ECME, EM stochastique, EM
supplémenté
et PX-EM.
La deuxième partie traite plus
spécifiquement
du calcul des estimations du maxi-
mum de vraisemblance dans le cadre du modèle linéaire mixte gaussien. On considère
tout d'abord l'application de l'algorithme EM standard à un ou plusieurs facteurs
aléatoires indépendants en envisageant une estimation par maximum de vraisem-
blance standard (ML) ou résiduelle (REML). On introduit ensuite une variante de
cet algorithme dit EM normalisé dans laquelle les effets aléatoires sont standardisés.
On montre comment cette technique de standardisation permet d'obtenir des esti-
mations REML (ou ML) de paramètres décrivant un modèle structurel de variances
hétérogènes. On termine enfin par le cas du modèle linéaire mixte à plusieurs facteurs
aléatoires corrélés en décrivant l'algorithme EM à la fois sous sa forme classique et
sous la version dite PX d'expansion paramétrique qui améliore nettement les per-
formances de l'algorithme.
Mots clés : Algorithme EM; Modèles mixtes; Composantes de variance; ML;
REML; PX-EM.
ABSTRACT
This paper
présents
a pedagogical review about
the
theory of
the
EM algorithm
and its use in
mixed
linear
models
for Computing variance component estimations
by maximum likelihood. In the
first
part of the paper, emphasis is put on the
concept of missing information and the Fisher identity which
helps
to explain why
the algorithm
deals
with two steps. The first one (the so called E step) consists in
*
INRA,
Station de Génétique Quantitative et Appliquée, 78352 Jouy en Josas Cedex
Journal de la Société Française de Statistique, tome 143, n° 3-4, 2002