Théorie ergodique

publicité
Introduction à la théorie ergodique
Cours de licence 3, ENS Lyon
Cours de Cyril Houdayer
Printemps 2014
Ces notes sont celles d’un cours de première année donné en 2014 à l’ENS Lyon par Cyril Houdayer.
Elles ont été tapées par Matthieu Dussaule. Ce cours a été donné dans le cadre d’un prémaster, c’està-dire un cours de niveau master adressé à des étudiants en licence pendant un demi-semestre. Il s’agit
d’une introduction à la théorie ergodique. Il existe autant de façon d’enseigner la théorie ergodique que
d’enseignants (selon les mots de l’enseignant) et ce texte est donc imprégné du point de vue de Cyril
Houdayer. On présentera d’abord les systèmes dynamiques mesurés et topologiques puis on abordera les
grands théorèmes ergodiques. La dernière partie est un exemple d’utilisation de la théorie ergodique, on
y étudie les marches aléatoires dans SLd (R).
Il existe de nombreuses références en théorie ergodique. On conseille par exemple la lecture de [Wal82],
livre très complet et qui couvre très largement les trois premiers chapitres de ce cours. On conseille
également de lire [Par04] dans la même optique.
Table des matières
1 Systèmes dynamiques mesurables
1.1 Rotations du cercle et décalages de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Notions d’ergodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Autour de la récurrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
2
2
5
2 Systèmes dynamiques topologiques
8
2.1 Quelques rappels en analyse fonctionnelle et en théorie de la mesure . . . . . . . . . . . . 8
2.2 Unique ergodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3 Les
3.1
3.2
3.3
théorèmes ergodiques
14
Le théorème de von Neumann . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Le théorème de Birkhoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Le théorème de Kingman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4 Marches aléatoires dans SLd (R)
21
4.1 Le groupe SLd (R) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2 Premier exposant de Lyapounov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1
1
Systèmes dynamiques mesurables
1.1
Rotations du cercle et décalages de Bernoulli
Soit (X, X , µ) un espace de probabilité, c’est-à-dire que X est une tribu sur X et µ une mesure de
probabilité pour la tribu X . Considérons une transformation mesurable T : (X, X ) → (X, X ). On peut
alors définir la mesure poussée en avant T∗ µ par T∗ µ(U ) = µ(T −1 U ) pour U une partie mesurable de
X. C’est encore une mesure de probabilité.
Définition 1.1.1. On dit qu’une telle transformation T préserve la mesure si T∗ µ = µ. Dans ce cas,
on dit que (X, X , µ, T ) est un système dynamique qui préserve la mesure, abrégé dorénavant en système
dynamique qpm.
Remarque 1.1.1. Il suffit de vérifier que µ(T −1 U ) = µ(U ) pour U dans une sous-partie C de X stable
par intersection finie et telle que σ(C) = X .
Lemme 1.1.2. Soit T une transformation mesurable. Alors T préserve la mesure µ si et seulement si
pour toute fonction f ∈ L1 (X, X , µ),
Z
Z
f ◦ T dµ =
f dµ.
X
X
Les deux premiers exemples de systèmes dynamiques qpm sont les rotations du cercle et les décalages
de Bernoulli.
1. Rotations sur le cercle On note S1 = T1 = R/Z. C’est un groupe compact. On le munit de la
mesure de Lebesgue régularisée pour que la masse totale soit 1. Cette mesure est invariante par
rotation. Soit α ∈ R, on pose
Tα : T1 →
T1
2iπα
x 7→ e
x
Alors Tα préserve la mesure de Lebesgue.
En fait, plus généralement, si G est un groupe compact, on peut le munir d’une mesure de
probabilité invariante par translation à gauche et à droite et de masse finie. De plus, si on impose
que la mesure soit une mesure de probabilité, alors elle est unique. On l’appelle mesure de Haar.
Alors, la translation Tg : x ∈ G 7→ gx ∈ G préserve la mesure de Haar par définition.
2. Décalage de Bernoulli Soit (X, X , µ) un espace de probabilité. On pose Y = X N (l’ensemble des
suites de X, qu’on interprète aussi comme l’ensemble des mots infinis écrits avec l’alphabet X),
Y = X ⊗N et ν = µ⊗N les tribus et mesures produits. On considère alors
T :
XN →
XN
(xn ) 7→ (xn+1 )
Alors T préserve la mesure. On l’appelle décalage de Bernoulli, ou bien shift dans la littérature
anglaise. On rappelle à ce propos que la tribu X ⊗N est engendrée par les cylindres, c’est-à-dire
les ensembles de la forme {xk1 = ω1 , ..., xkm = ωm }, où m ∈ N∗ , k1 , ..., km ∈ Z, ω1 , ..., ωm ∈ X.
Pour tout > 0 et pour toute partie mesurable U ∈ X ⊗N , on peut trouver une réunion finie de
cylindres V ∈ X ⊗N telle que µ(U ∆V ) ≤ . Autrement dit, on peut approximer de manière aussi
fine que l’on veut toute partie mesurable par une réunion finie de cylindres.
Si C = {xk1 = ω1 , ..., xkm = ωm } est un cylindre, l’ensemble {ω1 , ..., ωm } est appelé support de
C. On dit que deux cylindres sont indépendants si leurs supports sont disjoints. Cette appellation
est justifiée puisque la mesure d’une intersection de deux cylindres indépendants est le produit
des mesures des deux cylindres.
1.2
Notions d’ergodicité
On considère maintenant un système dynamique qpm (X, X , µ, T ). On dit que T est ergodique pour
µ ou bien que µ est ergodique pour T (selon le point de vue) si pour toute partie mesurable U de X
telle que T −1 U = U , µ(U ) ∈ {0, 1}. Autrement dit, toute partie invariante par T est soit pleine soit
négligeable. On définit l’opérateur de Koopman
UT :
L2 (X, X , µ) → L2 (X, X , µ)
ξ
7→
ξ◦T
2
C’est un opérateur unitaire. En effet,
Z
Z
Z
(ξη) ◦ T dµ =
ξηdµ = hξ, ηi.
hUT (ξ), UT (η)i =
(ξ ◦ T )(η ◦ T )dµ =
X
X
X
Cet opérateur a toujours 1 pour valeur propre, puisque UT (1X ) = 1X . Il est relié à la notion d’ergodicité
par le théorème suivant.
Théorème 1.2.1. Soit (X, X , µ) un système dynamique qpm, alors les conditions suivantes sont équivalentes :
1. T est ergodique,
2. pour toute partie mesurable U de X, si µ(T −1 U ∆U ) = 0, alors µ(U ) ∈ {0, 1},
S −n
3. pour toute partie mesurable U de X telle que µ(U ) > 0, µ(
T U ) = 1,
n∈N
4. pour toutes parties mesurables U et V de X telles que µ(U ), µ(V ) > 0, il existe un entier n tel
que µ(T −n U ∩ V ) > 0,
5. toute fonction mesurable f : X → C telle que f ◦ T = f est constante µ-p.p.,
6. 1 est valeur propre simple de UT .
Démonstration. On va montrer deux chaînes d’implications : 1⇒2⇒3⇒4⇒1 et 3⇒5⇒6⇒1.
Supposons donc que T est ergodique. Soit U ∈ X tel que µ(T −1 U ∆U ) = 0. On note
[
\
Vn :=
T −k U, V :=
Vn .
n
k≥n
C’est-à-dire que V est la limite supérieure des ensembles T −n U . Puisque T −1 Vn = Vn+1 , on a T −1 V = V ,
donc par ergodicité, µ(V ) ∈ {0, 1}. Considérons à présent U ∆Vn . Par définition, cet ensemble est inclus
dans l’union
[
(U ∆T −k U ).
k≥n
Or, U ∆T −k U est lui-même inclus dans l’union
k−1
[
T −j U ∆T −(j+1) U.
j=0
Enfin,
µ(T −j U ∆T −(j+1) U ) = µ(T −j (U ∆T −1 U )) = µ(U ∆T −1 U ) = 0.
Finalement, µ(U ∆Vn ) = 0, donc µ(U ∆V ) = 0. On a donc µ(V ) = µ(U ∆V ) ∈ {0, 1}, et par conséquent,
µ(U ) ∈ {0, 1}.
Supposons à présent la propriété 2 vérifiée :
pour toute partie mesurable U de X, si µ(T −1 U ∆U ) = 0, alors µ(U ) ∈ {0, 1}.
S
Soit U ∈ X de mesure strictement positive. On pose V = n T −n U . Alors T −1 V ⊂ V et µ(T −1 V ) =
µ(V ), donc µ(V \ T −1 V ) = 0. Puisque T −1 V ⊂ V , on a V \ T −1 V = V ∆T −1 V , donc en appliquant la
propriété 2, µ(V ) ∈ {0, 1}. Enfin, U ⊂ V et µ(U ) > 0, donc µ(V ) = 1.
Supposons maintenant la propriété 3 vérifiée :
S
pour toute partie mesurable U de X telle que µ(U ) > 0, µ( n∈N T −n U ) = 1.
S
Soient U, V ∈ XSde mesures strictement positives. En appliquant la propriété 3, µ( n T −n U ) = 1, donc
µ(V ) = µ(V ∩ n T −n U ). Puisque V est de mesure strictement positive, il en va de même de l’un des
membres de cette union.
Supposons enfin la propriété 4 vérifiée :
pour toutes parties mesurables U et V de X telles que µ(U ), µ(V ) > 0, il existe un entier n tel que
µ(T −n U ∩ V ) > 0.
Montrons que T est ergodique. Soit U ∈ X tel que T −1 U = U . Alors µ(U ∩ (X \ U )) = 0, ce qu’on récrit
µ(T −n U ∩ (X \ U )) = 0, pour tout n ∈ N, de sorte que soit µ(U ) = 0 soit µ(X \ U ) = 0, puisqu’on a
supposé la propriété 4 vérifiée. Ainsi, µ(U ) = 0 ou µ(U ) = 1.
3
On a donc montré 1⇒2⇒3⇒4⇒1.
Supposons maintenant la propriété 3 vérifiée. Soit f : X → C une fonction borélienne. On suppose
que f = f ◦ T µ-presque partout. Quitte à raisonner sur parties réelles et parties imaginaires, on peut
supposer que f est à valeur réelle. On note Ut := {x ∈ X, f (x) ≥ t}. C’est un ensemble mesurable et
t 7→ µ(Ut ) est une fonction décroissante. Puisque f = f ◦ T presque partout, µ(Ut ∆T −1 Ut ) = 0, donc
µ(Ut ) ∈ {0, 1}. Ainsi, il existe t ∈ R tel que pour s < t, µ(Us ) = 1 et pour s > t, µ(Us ) = 0. On en
conclut que f = t µ-p.p.
Supposons que la propriété 5 est vérifiée :
toute fonction mesurable f : X → C telle que f ◦ T = f est constante µ-p.p.
Par définition, un vecteur propre de UT pour la valeur propre 1 est une fonction qui vérifie f = f ◦ T
µ-p.p., donc tout vecteur propre pour la valeur propre 1 est proportionnel à 1X dans L2 (X, X , µ).
Supposons enfin que 1 est valeur propre simple de UT . On montre que T est ergodique. Soit U ∈ X
tel que T −1 U = U . Considérons la fonction 1U . Alors c’est par définition un vecteur propre de UT pour
la valeur propre 1, de sorte que 1U est proportionnelle à 1X . On en déduit que µ(U ) ∈ {0, 1}.
On a donc montré 3⇒5⇒6⇒1, ce qui achève la preuve.
Remarque 1.2.1. Il est utile d’interpréter la propriété 3 ainsi : on ne peut pas casser le système dynamique
mesuré en deux sous-systèmes non triviaux.
Remarque 1.2.2. Les propriétés 5 et 6 énoncent la même chose, l’une pour les fonctions mesurables,
l’autre pour les fonctions L2 . En pratique, il suffit donc de vérifier que la propriété f = f ◦ T ⇒ f est
constante pour les fonctions f qui sont L2 .
Revenons aux exemples dont on a déjà discuté, les rotations du cercle et les décalages de Bernoulli.
Proposition 1.2.2. Une rotation du cercle Tα : T1 → T1 est ergodique pour la mesure de Lebesgue
(mesure de Haar) si et seulement si α est irrationnel.
Démonstration. On donne une preuve, particulièrement efficace, qui fait appel aux séries de Fourier. On
considère les fonctions ek : x ∈ T1 7→ xk ∈ C, pour k ∈ Z. Les (ek ) forment une base orthonormée de
L2 (T1 , B, λT1 ) (d’après la théorie de Fourier).
Supposons que α est irrationnel. Soit f : T1 → C une fonction L2 telle que f = f ◦ Tα . Alors en
notant ck le k-ième coefficient de Fourier de f (k ∈ Z), on a
X
kf k22 =
|ck |2
k∈Z
et puisque f = f ◦ Tα ,
ck = e2iπkα ck .
P
Pour k 6= 0, on a donc ck = 0. Enfin f = k∈Z ck ek dans L2 , de sorte que f est constante presque
partout. On a donc prouvé que T est ergodique.
Réciproquement, si α = pq ∈ Q, on a eq ◦ Tα = eq et eq n’est pas presque partout constante, donc T
n’est pas ergodique.
Proposition 1.2.3. Le décalage de Bernoulli T : (X N , X ⊗N , µ⊗N ) → (X N , X ⊗N , µ⊗N ) est ergodique.
Démonstration. Soit U ∈ X ⊗N tel que T −1 U = U et soit > 0. Il existe une réunion finie de cylindres
V telle que µ(U ∆V ) ≤ . Il existe un entier n ∈ N, tel que T −n V et V aient des supports disjoints. En
particulier, T −n V et X N \ V sont indépendants, donc
µ⊗N (T −n V ∩ (X N \ V )) = µ⊗N (T −n V )µ⊗N (X N \ V )
et puisque T préserve la mesure,
µ⊗N (T −n V ∩ (X N \ V )) = µ⊗N (V )µ⊗N (X N \ V ).
D’autre part, en revenant à U , on a
µ⊗N (U )µ⊗N (X N \ U ) ≤ (µ⊗N (V ) + )(µ⊗N (X N \ V ) + ) ≤ µ⊗N (V )µ⊗N (X N \ V ) + 2 + 2 .
4
Enfin,
µ⊗N (T −n V ∩ (X N \ V )) ≤ µ⊗N (T −n V ∆V ) ≤ µ⊗N (T −n V ∆U ) + et en utilisant que T −1 U = U ,
µ⊗N (T −n V ∩ (X N \ V )) ≤ µ⊗N (T −n (V ∆U )) + ≤ µ⊗N (V ∆U ) + ≤ 2.
Finalement, pour tout > 0,
µ⊗N (U )µ⊗N (X N \ U ) ≤ 4 + 2
et donc
µ⊗N (U ) ∈ {0, 1}.
Ainsi, T est ergodique.
1.3
Autour de la récurrence
Le principe de la récurrence au sens dynamique est de formaliser l’idée qu’avec une transformation
chaotique, on repasse une infinité de fois par le même endroit. On va donner une version qualitative et
une version quantitative de ce principe.
Soit (X, X , µ, T ) un système dynamique qui préserve la mesure et soient U ⊂ X et x ∈ U . On dit
que x est récurrent si T (x) repasse une infinité de fois dans U .
Théorème 1.3.1 (Récurrence de Poincaré). Soit U ∈ X . Presque tout point de U est récurrent. Formellement, il existe V ⊂ U mesurable tel que µ(U ) = µ(V ) et tel que pour tout x ∈ V , on peut trouver
une suite strictement croissante nk de N telle que pour tout k, T nk (x) ∈ U .
Ce théorème a été publié par Henri Poincaré dans le très célèbre mémoire [Poi90].
Remarque 1.3.1. Dans le cas où U est de mesure nulle, ce théorème ne dit rien. En effet, on peut choisir
V = ∅ et obtenir la même conclusion. Par contre, dès que U est suffisamment gros (de mesure strictement
positive), le théorème s’applique et a une véritable signification.
S
Démonstration. Soit n ∈ N. On pose Wn = k≥n T −k U . Par définition, T
Wn = T −n W0 et (Wn ) est une
suite décroissante. Puisque T ∗ µ = µ, on a µ(Wn ) = µ(W0 ). Ainsi, µ( n∈N Wn ) = µ(W0 ) (car µ est
finie). Posons alors
!
\
−n
V = U ∩ lim supT U = U ∩
Wn .
n∈N
Alors µ(U ) = µ(V ) et V convient.
Cette propriété de récurrence est particulièrement intéressante lorsque le système dynamique est
inversible. On dit qu’un système dynamique qui préserve la mesure (X, X , µ, T ) est inversible lorsque T
est une application bi-mesurable, i.e. mesurable, bijective et d’inverse mesurable. On a alors par définition
que T −1 préserve aussi la mesure. Pour un tel système, si U ⊂ X est mesurable, de mesure strictement
positive et si x ∈ U , on pose ΩU (x) = inf{n ≥ 1, T n (x) ∈ U }. D’après le théorème de récurrence de
Poincaré, pour presque tout point x de U , ΩU (x) est fini. On définit alors TU : x ∈ U 7→ T ΩU (x) (x) ∈ U .
On appelle TU l’application de premier retour en U , ou application induite par T sur U . On observe
que ΩU : U → N
S∪ {∞} est
mesurable. En effet, pour n ∈ N, on pose Un = {x ∈ U, ΩU (x) = n}. Alors
n−1
−n
Un = T U \
j=1 Uj , donc par récurrence, pour tout n, Un est mesurable. D’autre part, le lieu
S
infini de ΩU est U \
j∈N Uj , donc c’est également un ensemble mesurable. Ainsi, TU est bien une
application mesurable.
Remarque 1.3.2. On n’a en fait pas besoin de l’inversibilité du système dynamique pour définir ΩU et
TU , mais ce sera le cas pour toutes les propriétés qu’on va énoncer maintenant.
On rappelle qu’on note Un = {x ∈ U, ΩU (x) = n}. On note également U∞ = {x ∈ U, ΩU (x) = ∞},
Xn = {x ∈ X, ΩU (x) = n} et X∞ = {x ∈ X, ΩU (x) = ∞}. On a ainsi Un = Xn ∩ U . Puisque le système
dynamique est inversible, T −n est une application mesurable, donc T n (Un ) est mesurable. On peut ainsi
presque partout décomposer l’application TU en une somme disjointe d’applications
G
TU : U → U =
T n : Un → T n (Un ).
µ−p.p.
n≥1
5
On appelle n-ième tour
Un t T Un t ... t T n−1 Un et on appelle gratte-ciel
F de Kakutani l’ensemble
n−1
de Kakutani l’ensemble n≥1 (Un t ... t T
Un ).
Il sera utile de considérer le sous-espace de probabilité engendré par U : On note U la sous-tribu
1
engendrée par U , c’est-à-dire U = {U ∩ V, V ∈ X } et on pose µU (U ∩ V ) = µ(U
) µ(U ∩ V ) (on rappelle
qu’on a choisi U tel que µ(U ) > 0). Avec ces notations, (U, U, µU ) et un espace de probabilité, muni
d’une application mesurable TU (en effet, on a déjà montré que TU préserve la mesure µ, on en déduit
que TU préserve également la mesure µU .
Proposition 1.3.2. Avec les mêmes notations et toujours sous l’hypothèse que T est bi-mesurable, si
T est ergodique pour µ, alors TU est ergodique pour µU .
Démonstration. Supposons que TU n’est pas ergodique. Il existe donc V ⊂ U tel que TU (V ) = V µ − p.p.
F
Fn−1
et 0 < µ(V ) < µ(U ). On définit W := n≥1 j=0 T j (V ∩ Un ).
F
Fn−1
F
Fn
Alors F
T W = W µ − p.p. En effet, T (W ) F
= n≥1 j=0 T j+1 (V ∩ Un ) = n≥1 j=1 T j (V ∩ Un ). Or,
µ − p.p., n≥1 T n (V ∩ Un ) = TU (V ) = V = n≥1 V ∩ Un .
Il suffit donc de montrer que 0 < µ(W ) < 1 pour conclure que T n’est pas ergodique. Déjà, V ⊂ W
et 0 < µ(V ), donc 0 < µ(W ). On montre à présent que µ((U \ V ) ∩ W ) = 0, ce qui permet de conclure,
car alors µ((U \ V ) ∪ W ) = µ(U \ V ) + µ(W ) et par le choix de V , µ(U \ V ) 6= 0, donc µ(W ) < 1. Pour
montrer cela, on montre que pour tous 0 ≤ j ≤ n − 1, µ((U \ V ) ∩ T j (V ∩ Un )) = 0 et pour montrer cela,
on montre que pour tout m, pour tous 0 ≤ j ≤ n − 1, µ((Um \ V ) ∩ T j (V ∩ Un )) = 0.
1. Si j = 0, alors soit m 6= n, dans ce cas Un et Um sont disjoints, soit m = n, dans ce cas Un \ V et
Un ∩ V sont disjoints. Dans tous les cas, la mesure à laquelle on s’intéresse est nulle.
2. Si 1 ≤ j ≤ n − 1, alors T j (V ∩ Um ) ∩ U = ∅, mais Un ⊂ U , ce qui permet également de conclure.
La version quantitative du théorème de Poincaré est énoncée dans la proposition suivante. C’est un
résultat dû à Mark Kac [Kac47].
Proposition 1.3.3 (Kac). Soit (X, X , µ, T ) un système dynamique qui préserve la mesure. On suppose
de plus que le système est ergodique. Soit U ∈ X de mesure non nulle. Alors, avec les mêmes notations
que précédemment,
Z
ΩU dµ = 1
U
et le gratte-ciel est de mesure pleine.
Démonstration. Le gratte-ciel est de mesure pleine car
U qui est de mesure strictement positive. Donc
1=
X n−1
X
F
n≤1
µ(T j Un ) =
n≥1 j=0
F
X
0≤j≤n−1
T j Un est T -invariant et contient
nµ(Un ),
n≥1
puisque T préserve la mesure. D’autre part, (ΩU )|Un = n, donc
Z
XZ
1=
ΩU dµ =
ΩU dµ.
n≥1
Un
U
Le lemme suivant (appelé traditionnellement lemme, bien que son importance en théorie ergodique
soit capitale) a été prouvé indépendamment par Shizuo Kakutani (1943) et Vladimir Rohlin (1948).
On rappelle qu’une mesure borélienne µ sur un espace X est dite extérieurement régulière si pour tout
borélien B, la mesure de B est l’infimum des mesures des ouverts qui contiennent B.
Lemme 1.3.4 (Lemme de Kakutani-Rohlin). Soit (X, X , µ, T ) un système dynamique qui préserve la
mesure. On suppose de plus que la mesure est borélienne et extérieurement régulière et que les ouverts
sont de mesure non nulle. On le suppose de plus inversible et ergodique et on suppose que µ est sans
atome. Alors, pour tout > 0 F
et pour tout entier n ≥ 1, il existe V ∈ X tel que V, T V, ..., T n−1 V sont
deux-à-deux disjoints et µ(X \ 0≤j≤n−1 T j V ) ≤ .
6
Remarque 1.3.3. La condition d’être extérieurement régulière est importante comme on va le voir dans
la démonstration, mais n’est pas très difficile à obtenir. Par exemple toute mesure borélienne finie sur
un espace métrique est extérieurement régulière. On n’entrera pas dans les détails ici, mais les espaces
de probabilité les plus importants et ceux qu’on rencontre en pratique dans la nature sont les espaces
standards, ou espaces de Lebesgue. Ils ont été introduits et étudiés par V. Rohlin. La condition que les
ouverts soient de mesure non nulle est vérifiée pour ces espaces.
Démonstration. Soient > 0 et n ≥ 1 un entier. Puisque la mesure µ n’a pas d’atome et qu’elle est
extérieurement régulière, il existe un ouvert U de mesureFarbitrairement
petite. Soit donc U un ouvert
F
tel que 0 < µ(U ) < n . Par ergodicité de T , on écrit X = n≥1 0≤j≤n−1 T j Un . Définissons alors V par
V :=
G
G
T jn Uk .
k≥n 0≤j≤bk/nc−1
F
F
F
F
Alors T V = k≥n 0≤j≤bk/nc−1 T jn+1 Uk , · · · , T n−1 V = k≥n 0≤j≤bk/nc−1 T jn+n−1 Uk et ces ensembles sont deux-à-deux disjoints. Par ailleurs,
X
X
X
µ(X \ V t T V t · · · t T n−1 V ) ≤
nµ(Uk ) +
(n − 1)µ(Uk ) ≤ n
µ(Uk ) ≤ nµ(U ) ≤ .
k≥n
1≤k≤n−1
7
k≥1
2
Systèmes dynamiques topologiques
On aborde à présent l’étude des systèmes dynamiques toologiques. Le cadre qu’on se fixe est celui
d’un espace métrique (X, d) compact muni d’une transformation T : X → X continue. On dit que (X, T )
est un système dynamique topologique. La question qu’on se pose est la suivante : quelles sont les
mesures qui préservent T ?
On aura besoin de quelques résultats d’analyse fonctionnelle. On ne prouvera pas tout et pour (beaucoup) plus de détails, on réfère par exemple à [AB06] ou à [Rud91] (selon les goûts).
2.1
Quelques rappels en analyse fonctionnelle et en théorie de la mesure
On considère l’espace M(X) des mesures signées boréliennes complexes à variations bornées sur X.
Cet espace est normé par exemple par kµk := |µ|(X). On appelle cette norme la norme de variation
totale de µ (voir les paragraphes 10.2 pour la définition des mesures signées et 10.10 pour celle de la
norme de variation totale de [AB06]). On rappelle simplement que
X
|µ|(X) := sup{
|µ(Aj )|},
j∈J
F
où le supremum est pris sur toutes les partitions finies X = j∈J Aj de X.
Un théorème de représentation (corollaire 14.15 de [AB06]) nous donne alors que l’application
Z
0
µ ∈ M(X) 7→ f 7→ f dµ ∈ C 0 (X)
est surjective et isométrique.
0
On rappelle également que la topologie préfaible sur C 0 (X) est décrite par la convergence
préfaible : on dit qu’une suite (µn ) converge préfaiblement vers µ si pour toute fonction continue f
sur X, l’intégrale de f selon µn converge vers l’intégrale def selon µ. La topologie préfaible est moins
0
fine que la topologie définie par la norme duale sur C 0 (X) , c’est-à-dire que la convergence en norme
implique la convergence préfaible.
Le théorème suivant, dit de Banach-Alaoglu est très important (voir théorème 6.21 dans [AB06]).
Théorème 2.1.1. La boule unité de M(X) est préfaiblement compacte.
D’autre part, puisque X est compact, C 0 (X) est séparable (cf théorème de Stone-Weirestrass) et on
obtient le théorème suivant (voir théorème 6.30 dans [AB06]).
Théorème 2.1.2. La boule unité de M(X) est métrisable.
Enfin, l’espace des mesures de probabilité Prob(X) := {µ ∈ M(X), f ≥ 0 ⇒ µ(f ) ≥ 0, µ(X) = 1}
est un sous-espace convexe et fermé pour la topologie de la norme sur M(X). On en déduit que c’est
un fermé de la boule unité de M(X) pour la topologie préfaible (voir théorème 5.98 dans [AB06]). En
particulier, il est lui aussi compact pour la topologie préfaible.
On déduit de tout ceci que si (µn ) est une suite de mesures de probabilité sur X, il existe une soussuite (µσ(n) ) de (µn ) qui converge en topologie préfaible vers une mesure de probabilité µ, i.e. pour toute
fonction continue f sur X, l’intégrale de f selon µσ(n) converge vers l’intégrale de f selon µ.
Soit à présent T : X → X une application continue. On dispose alors de la poussée en avant T∗ µ
d’une mesure de probabilité µ. On a donc une application T∗ : µ ∈ Prob(X) 7→ T∗ µ ∈ Prob(X). Cette
application et préfaiblement continue. Ainsi, si µn converge préfaiblement vers µ, alors T∗ µn converge
préfaiblement vers T∗ µ.
Le théorème suivant a été démontré d’abord par Markov en 1936 puis par Kakutani dans un cadre
plus général en 1938 C’est un résultat de point fixe. On ne l’énonce que dans un cadre particulier dans
lequel on sera en mesure de donner une preuve. Pour un énoncé général et une preuve complète, voir
[Kak38].
Théorème 2.1.3 (Markov-Kakutani). Soit T : X → X une application continue (X est toujours un
espace métrique compact). Alors il existe une mesure de probabilité µ sur X telle que T∗ µ = µ.
Démonstration. On part d’une mesure de probabilité ν quelconque sur X, par exemple un Dirac en un
point. On pose alors
X
1
T∗k ν.
νn =
n+1
0≤k≤n
8
Alors νn est encore une mesure de probabilité. On extrait de cette suite (νn ) une sous-suite convergente
(νσ(n) ). On note ν la mesure de probabilité limite. Alors,
kT∗ νσ(n) − νσ(n) k ≤
1
2
σ(n)+1
kν − T∗
νk ≤
.
σ(n) + 1
σ(n) + 1
En particulier, T∗ νσ(n) − νσ(n) converge fortement, donc préfaiblement vers 0 et donc T∗ νσ(n) converge
préfaiblement vers ν. Par continuité, T∗ νσ(n) converge préfaiblement vers T∗ ν, donc T∗ ν = ν.
Remarque 2.1.1. Pour conclure, on a utilisé que la topologie de la convergence préfaible est séparée.
Précisément, si µn converge préfaiblement vers µ et vers ν, alors µ = ν. En effet, pour toute fonction
continue f , on a alors µ(f ) = ν(f ) = lim µn (f ). Puisque la mesure est finie, toutes les fonctions indicatrices sont intégrables. On utilise alors la densité des fonctions continues dans les fonctions intégrables
(voir théorème 13.9 dans [AB06]) pour conclure : pour tout borélien A de X, µ(A) = ν(A).
On notera à présent ProbT (X) l’ensemble des mesures de probabilité T -invariantes :
ProbT (X) := {µ ∈ Prob(X), T∗ µ = µ}.
L’ensemble ProbT (X) est convexe dans l’espace vectoriel M(X). De manière générale, si K est un
convexe d’un espace vectoriel E et si x ∈ K est un point quelconque de K, on dit que x est un point
extrémal ou plus simplement que x est extrémal si x ne peut pas s’écrire comme somme convexe de
deux points différents de lui-même, i.e. si l’égalité x = ty + (1 − t)z, où t ∈ [0, 1] implique que x = y ou
que x = z.
La proposition suivante donne une nouvelle caractérisation des mesures µ ergodiques pour T . On
utilisera le théorème de décomposition de Radon-Nikodym-Lebesgue, valable pour des mesures σ-finies,
donc en particulier pour des mesures de probabilité (voir le théorème 10.61 pour la partie décomposition
du théorème et le théorème 13.18 pour la partie dérivée de Radon-Nikodym dans [AB06]). Si µ et ν
sont deux mesures sur un espace mesuré (X, X ), on dit que µ est absolument continue par rapport à ν,
ce qu’on note µ << ν, si pour tout ensemble mesurable A tel que ν(A) = 0, µ(A) = 0. On dit qu’une
mesure λ sur (X, X ) est concentrée sur un ensemble mesurable E si pour tout ensemble mesurable A,
µ(A \ E) = 0. On dit aussi que µ et ν sont étrangères, ce qu’on note µ ⊥ ν, s’il existe un ensembe
mesurable E tel que µ est concentrée sur E et ν est concentrée sur X \ E. On utilisera précisément le
résultat suivant.
Théorème 2.1.4. Soient µ et ν deux mesures de probabilité (plus généralement σ-finies) sur un espace
mesuré (X, X ). Alors il existe un unique couple (µ1 , µ2 ) de mesures finies (plus généralement σ-finies)
telles que µ = µ1 + µ2 avec µ1 << ν et µ2 ⊥ ν. D’autre part, il existe une unique (à égalité ν-presque
partout près) fonction mesurable et positive f sur X telle que pour tout ensemble mesurable A,
Z
µ1 (A) =
f dν.
A
On appelle f la dérivée de Radon-Nikodym de µ1 par rapport à ν. En particulier, si µ << ν, on obtient
qu’il existe une dérivée de Radon-Nikodym de µ par rapport à ν.
Théorème 2.1.5. Soit (X, d) un espace métrique (on n’a pas besoin de le supposer compact dans ce
théorème) et soit T : X → X une application borélienne. Soit µ ∈ ProbT (X) une mesure T -invariante.
Alors µ est ergodique pour T si et seulement si µ est un point extrémal de ProbT (X).
Démonstration. Supposons µ non ergodique. Alors, il existe un ensemble borélien U tel que T −1 U = U
1
1
avec µ(U ) ∈]0, 1[. On définit µ1 = µ(U
) µ|U et µ2 = µ(X\U ) µ|X\U de sorte que µ1 et µ2 sont deux mesures
de probabilité T -invariantes distinctes de µ et telles que µ = µ(U )µ1 + (1 − µ(U ))µ2 . Ainsi, µ n’est pas
extrémal dans ProbT (X).
Réciproquement, supposons que µ est ergodique. Soient µ1 , µ2 deux mesures T -invariantes et t ∈]0, 1[
tels que µ = tµ1 + (1 − t)µ2 . En particulier, µ1 << µ. On note f la dérivée de Radon-Nikodym de µ1
par rapport à µ. Il suffit de montrer que f = 1 µ-presque partout pour en conclure que µ1 = µ. On pose
U = {x ∈ X, f (x) < 1}. Alors, on a la décomposition suivante :
Z
Z
−1
−1
µ1 (U ) = µ1 (U ∩ T U ) + µ1 (U \ T U ) =
f dµ +
f dµ.
U ∩T −1 U
9
U \T −1 U
De même, on décompose µ1 (T −1 U ) en
µ1 (T
−1
Z
Z
U) =
f dµ +
T −1 U ∩U
f dµ.
T −1 U \U
Puisque µ1 est T -invariante, µ1 (U ) = µ1 (T −1 U ). En particulier,
Z
Z
f dµ =
f dµ.
U \T −1 U
T −1 U \U
Or, µ est elle aussi T -invariante, donc µ(T −1 U \ U ) = µ(U \ T −1 U ). D’autre part, sur U \ T −1 U , f (x) < 1
et sur T −1 U \U , f (x) ≥ 1. Donc µ(T −1 U \U ) = µ(U \T −1 U ) = 0. On en déduit que µ(U ∆T −1 U ) ∈ {0, 1}
de sorte que µ(U ) = 0 par ergodicité de µ. Si µ(U ) = 1, alors on obtient
Z
1 = µ(U ) =
f dµ,
U
ce qui est absurde puisque f < 1 sur U . Donc µ(U ) = 0 et f ≥ 1 µ-presque partout. De même, on montre
que f ≤ 1 µ-presque partout de sorte que f = 1 µ-presque partout et donc µ1 = µ, donc µ est extrémale
dans ProbT (X).
On remarque qu’on a montré que si µ et ν sont T -invariantes avec ν ergodique et si µ << ν, alors en
fait µ = ν, fait que l’on réutilisera dans la preuve de la proposition suivante.
Proposition 2.1.6. Avec les mêmes notations que dans le théorème précédent, si µ1 et µ2 sont deux
mesures T -invariantes et ergodiques pour T , alors soit µ1 et µ2 sont étrangères, soit elles sont égales.
Démonstration. Utilisons la décomposition de Radon-Nikodym-Lebesgue de µ1 par rapport à µ2 et écrivons donc µ1 = tν1 + (1 − t)ν2 où ν1 et ν2 sont deux mesures de probabilité sur X, ν1 << µ2 et ν2 ⊥ µ2 .
Or µ1 et µ2 sont toutes deux T -invariantes, de sorte que µ1 = tT∗ ν1 +(1−t)T∗ ν2 avec T∗ ν1 << T∗ µ2 = µ2
et T∗ ν2 ⊥ T∗ µ2 = µ2 . On obtient donc une nouvelle décomposition de Radon-Nikodym-Lebesgue de µ1
par rapport à µ2 et par unicité, on en conclut que tT∗ ν1 = tν1 et (1 − t)T∗ ν2 = (1 − t)ν2 . Puisque µ1
est extrémale car ergodique on en conclut que µ1 = ν1 ou µ1 = ν2 . Dans le premier cas, µ1 << µ2 mais
puisque µ2 est ergodique, on en conclut que µ1 = µ2 et dans le deuxième cas, on a bien µ1 ⊥ µ2 .
On généralise la définition de point extrémal qu’on a donnée. On considère un espace vectoriel normé
E. On suppose que la topologie préfaible sur l’espace vectoriel dual continu de E est séparée (typiquement
dans notre situation où le dual continu est l’espace des mesures signées à variations bornées). Si K ⊂ E 0
est convexe, non vide et compact pour la topologie préfaible, en particulier il est fermé préfaible (dans
un espace séparé tout compact est fermé, voir [Bou07][I,9]). Ainsi, si A est une partie de E 0 incluse dans
K, son adhérence A est également incluse dans K. Soit A une telle partie, qu’on suppose non vide. On
dit que A est extrémale si quels que soient x, y ∈ K et t ∈]0, 1[, si tx + (1 − t)y ∈ A, alors x, y ∈ A.
C’est vraiment une généralisation de ce qui précède. En effet, puisque la topologie préfaible est séparée,
les singletons sont des fermés préfaibles (voir [Bou07][I,8]), donc un point x est extrémal si et seulement
si la partie {x} l’est.
Tout comme le lemme de Markov-Kakutani plus haut, le prochain résultat qu’on va citer ne sera pas
énoncé dans sa forme la plus générale. Il s’agit du théorème de Krein-Milman. Le résultat qu’on donne
maintenant est le corollaire 7.66 dans [AB06] et a plutôt le statut de lemme pour montrer le théorème
de Krein-Milman dans sa forme générale (théorème 7.68). On utilisera également le lemme de Zorn (voir
théorème 2 de [Bou06][III,2]).
Théorème 2.1.7. Soit E un espace vectoriel normé. On suppose que la topologie préfaible sur l’espace
vectoriel dual continu de E est séparée. Soit K ⊂ E 0 un convexe non vide et compact pour la topologie
préfaible. Alors K possède un point extrémal.
Démonstration. On fera la démonstration dans le cas où l’espace vectoriel est réel. En passant aux
parties réelles et imaginaires, on peut adapter la démonstration au cas où l’espace vectoriel est complexe,
ce qu’on laisse en exercice.
Avec ce qu’on a dit précédemment, il suffit de montrer qu’il existe un singleton qui est extrémal en
tant que partie. Considérons l’ensemble C des fermés préfaibles inclus dans K, non vides et extrémaux.
On remarque que K est extrémal dans lui même, de sorte que C est non vide. On définit un ordre sur
C en disant que A1 est plus petit que A2 si A2 ⊂ A1 . Montrons que pour cet ordre, C est inductif. Soit
10
T
(Ai )i∈I une partie de C totalement ordonnée. Définissons alors A = i∈I Ai . D’après la définition de
partie extrémale, une intersection de fermés extrémaux est extrémale (et fermée). D’autre part, K est
compact et les Ai sont fermés dans K et tels que toute intersection finie est non vide, puisque l’ordre
est totale sur la partie (Ai )i∈I . Donc A est aussi non vide, de sorte que A ∈ C. Enfin A majore tous les
éléments de la famille (Ai )i∈I . On utilise le lemme de Zorn pour trouver un élément maximal de C qu’on
note B.
Montrons que B est un singleton. On suppose que f1 et f2 sont distincts et appartiennent tous les
deux à B. En particulier, il existe v ∈ E, tel que f1 (v) 6= f2 (v). On peut supposer que f1 (v) < f2 (v).
L’application f ∈ E 0 7→ f (v) ∈ R est continue pour la topologie préfaible. En effet, on a défini qu’une
suite (fn ) de E 0 converge vers f préfaiblement si pour tout v ∈ E, fn (v) converge vers f (v) (cette
application est en fait continue par définition de la topologie préfaible, voir la définition 5.90 dans
[AB06]). En particulier, puisque B est un compact préfaible, cette application est majorée et atteint
sa borne supérieure. Soit f0 ∈ B telle que f0 (v) = max{f (v), f ∈ B}. Alors f0 6= f1 . Définissons
B0 = {f ∈ B, f (v) = f0 (v)}. Alors B0 est non vide, fermé pour la topologie préfaible et extrémal. On
aboutit à une absurdité car B0 ⊂ B et B0 6= B, ce qui contredit la maximalité de B. On a donc trouvé
un singleton extrémal ce qui permet de conclure.
En combinant le théorème caractérisant les mesures ergodiques comme mesures extrémales parmi les
mesures invariantes et le théorème de Krein-Milman, on obtient en particulier que pour tout système
dynamique topologique (X, T ), il existe une mesure µ ergodique pour T . S’il en existe plusieurs, alors
elles sont étrangères.
2.2
Unique ergodicité
Nous nous intéressons maintenant à la situation dans laquelle il existe une unique mesure ergodique.
Dans ce cas, l’application T est dite uniquement ergodique. En fait comme le montre le théorème
suivant, il revient à dire qu’il n’existe qu’une seule mesure de probabilité T -invariante sur X. On introduit
dès à présent la notion de somme de Birkhoff, notion qu’on réutilisera tout au long de ce cours, notamment
dans le chapitre suivant. Si (X, X ) est un espace mesurable et f : X → X est une application mesurable
pour X , on appelle suite des sommes de Birkhoff associées à f et note (Sn ) la suite d’application
définie par
n
1X
f ◦ T k (x).
Sn (x) =
n
k=1
Théorème 2.2.1. Soit (X, d) un espace métrique compact et soit T : X → X une application continue.
Alors les assertions suivantes sont équivalentes :
1. Il existe une unique mesure de probabilité T -invariante sur X.
2. Il existe une unique mesure ergodique parmi les mesures de probabilité T -invariantes sur X.
3. Pour toute fonction continue f sur X, il existe un scalaire cf tel que la somme de Birkhoff associée
à f converge simplement vers cf .
Dans le cas où ces assertions sont vérifiées, le scalaire cf est l’intégrale de f selon l’unique mesure de
probabilité T -invariante sur X.
Démonstration. On commence par montrer que les deux premières assertions sont équivalentes. S’il existe
une unique mesure de probabilité sur X, en particulier, elle est extrémale donc ergodique, donc il existe
une unique mesure ergodique. La preuve qu’on va donner pour la réciproque est essentiellement la même
que celle du théorème de Krein-Milman. On l’écrit entièrement pour la commodité du lecteur. S’il existe
une unique mesure de probabilité ergodique µ, alors supposons qu’il existe une mesure invariante µ0
différente de µ. Il existe en particulier une fonction continue f telle que l’intégrale selon µ de f soit
différente de l’intégrale selon µ0 de f . Quitte à passer à −f , il existe donc une fonction f telle que
Z
Z
f dµ <
f dµ0 .
X
X
Par continuité préfaible de l’application qui à ν associe l’intégrale de f selon ν et par compacité préfaible
de l’espace des mesures de probabilité T -invariantes sur X, il existe une mesure de probabilité T -invariante
µ0 sur X telle que
Z
Z
f dµ0 = max{ f dν, ν ∈ ProbT (X)}.
X
X
11
Définissons alors
Z
K = {ν ∈ ProbT (X),
Z
f dµ0 =
X
f dν}.
X
L’ensemble K est convexe, non vide, fermé pour la topologie préfaible et extrémal dans ProbT (X) de
sorte que d’après le théorème de Krein-Milman, il existe un point extrémal ν0 dans K. Puisque K est
lui-même extrémal dans ProbT (X), ν0 est un point extrémal dans ProbT (X), donc en particulier ν0 est
ergodique, ce qui est absurde puisque µ ∈
/ K, donc µ 6= ν0 .
Montrons à présent que la première et la dernière assertion sont équivalentes. Soit f une fonction
continue sur X et soit x ∈ X. On considère la suite de mesure (µn ) définie par
n
µn =
1X
δT k (x) .
n
k=1
On va montrer que µn converge préfaiblement vers l’unique mesure de probabilité T -invariante µ. Par
compacité, il suffit de montrer que µ est l’unique valeur d’adhérence de µn . Si (µσ(n) ) est une sous-suite
2
de sorte
convergente vers une mesure ν, alors T∗ µσ(n) converge vers T∗ ν. Or, kT∗ µσ(n) − µσ(n) k ≤ σ(n)
que T∗ µσ(n) − µσ(n) converge fortement, donc préfaiblement vers 0. Ainsi, T∗ µσ(n) converge aussi vers ν
et donc T∗ ν = ν, d’où ν = µ par unicité. En particulier, l’intégrale de f selon µn converge vers l’intégrale
de f selon µ, ce qui revient exactement à dire que la somme de Birkhoff associée à f converge en x
vers l’intégrale de f selon µ. Puisque c’est vrai pour tout x, on a bien montré la dernière assertion.
Réciproquement, si l’on suppose la convergence simple des sommes de Birkhoff assocéies à f vers un
même scalaire cf indépendant de x, si µ est une mesure de probabilité T -invariante sur X, par simple
convergence dominée, l’intégrale des sommes de Birkhoff selon µ converge vers cf . Or, puisque la mesure
est T -invariante, l’intégrale des sommes de Birkhoff associées à f est toujours égale à l’intégrale de f .
On obtient donc que l’intégrale de f selon µ est égale à cf , et ce pour toute fonction continue f et toute
mesure de probabilité T -invariante sur X. En particulier, si µ1 et µ2 sont deux telles mesures, pour toute
fonction f , les intégrales de f selon µ1 et µ2 sont égales. On en conclut que µ1 = µ2 . En effet, les fonctions
continues étant denses dans les fonctions mesurables, on en déduit que les intégrales de l’indicatrice d’un
borélien selon µ1 où selon µ2 sont égales.
Remarque 2.2.1. On définit, de même qu’on a défini la topologie préfaible sur le dual E 0 d’un espace
vectoriel normé E, la topologie faible directement sur E en disant qu’une suite (xn ) de points de E
converge faiblement vers un point x de E si pour toute forme linéaire (continue) f ∈ E 0 , f (xn ) converge
vers f (x). Pour que les assertions du théorème précédent soient vérifiées, il suffit que la dernière d’entre
elles soit vérifiée sur une sous-algèbre A de l’algèbre des fonctions continues sur X C 0 (X) dense pour la
topologie faible. On laisse le soin au lecteur d’adapter un tout petit peu la preuve précédente dans cette
situation (exercice). En particulier, c’est vrai pour une sous-algèbre dense pour la topologie de la norme
(topologie forte).
La notion d’application uniquement ergodique n’est pas vide, comme le montre la proposition suivante :
Proposition 2.2.2. Soit Tα : T1 → T1 une rotation du cercle. On rappelle que Tα (x) = e2iπα x. Alors
Tα est uniquement ergodique si et seulement si α est irrationnel.
Démonstration. On a déjà vu que si α est rationnel, alors Tα n’est pas ergodique pour la mesure de
Lebesgue sur T1 . Or, cette mesure est Tα -invariante, donc en particulier, Tα n’est pas uniquement
ergodique.
Réciproquement, supposons que α soit irrationnel. On définit l’application fk : x ∈ T1 7→ xk ∈ T1 .
Alors, si (Sn ) est la suite des sommes de Birkhoff associée à f , on a
1 2iπkt
Sn (e2iπt ) =
e
+ e2iπk(t+α) + ... + e2iπk(t+nα) .
n
Donc, si k = 0, Sn (x) = 0 et sinon,
Sn (x) =
1 2iπkt 1 − e2iπk(n+1)α
e
.
n
1 − e2iπkα
En particulier, Sn (x) converge simplement vers 1 si k = 0 et vers 0 sinon. Puisque les applications
x 7→ xk sont denses dans C 0 (T1 ), on peut appliquer le théorème précédent pour en conclure que Tα est
uniquement ergodique. On en conclut en particulier que l’unique mesure de probabilité Tα -invariante sur
T1 est la mesure de Lebesgue.
12
Par contre, l’autre exemple donné précédemment, c’est-à-dire le décalage de Bernoulli, n’est pas
uniquement ergodique. Par exemple si A = {0, 1} et X = AN , X est un espace métrique compact. On
considère la décalage de Bernoulli T : X → X. On rappelle que l’image par T d’une suite de terme général
xn est la suite de terme général xn+1 . On considère la mesure de Bernoulli µp = pδ{0} + (1 − p)δ{1} , où
p ∈]0, 1[. Alors pour tout p, µp est une mesure ergodique pour T , ce qui donne un continuum de mesures
ergodiques. En fait, l’espace ProbT (X) est difficilement classifiable.
13
3
Les théorèmes ergodiques
Dans toute cette partie, on va considérer un système dynamique qui préserve la mesure (X, µ, T ). Si
f : X → C est une fonction mesurable et si x ∈ X, on rappelle qu’on note
n
Sn =
1X
f ◦ T k (x).
n
k=1
On appelle suite des sommes de Birkhoff associées à f la suite de fonctions (Sn ). Ces sommes de Birkhoff
représentent la moyenne temporelle de f le long de l’orbite x. En effet, on peut interpréter la suite (T k (x))
comme l’évolution au cours du temps de l’application T appliquée en x. Les théorèmes ergodiques qu’on
va énoncer comparent cette moyenne temporelle de f avec la moyenne spatiale de f , c’est-à-dire avec
l’intégrale de f selon une mesure T -invariante.
3.1
Le théorème de von Neumann
Le premier théorème ergodique qu’on énonce compare les sommes de Birkhoff et l’intégrale de f dans
l’espace L2 .
Théorème 3.1.1 (von Neumann). Soit (X, X , µ) un espace de probabilité, soit T : X → X une application mesurable qui préserve la mesure µ et qui est ergodique pour µ. Soit enfin f une application L2
définie sur X. Alors, les sommes de Birkhoff associées à f convergent vers l’intégrale de f selon µ en
norme L2 :
Z
n
1X
L2
f ◦ T k (x) −→
f dµ.
n→+∞ X
n
k=1
Démonstration. On rappelle la définition de l’opérateur de Koopman
UT : f ∈ L2 (X) 7→ f ◦ T ∈ L2 (X).
Cet opérateur est une isométrie de L2 (X), comme on l’a déjà vu. Définissons K comme l’adhérence dans
L2 (X) du sous-espace vectoriel engendré par les fonctions de la forme UT (g) − g avec g ∈ L2 (X). C’està-dire que K est l’adhérence de l’image de UT − Id. Alors, l’orthogonal de K pour le produit scalaire
usuel sur L2 est l’espace vectoriel de dimension 1 engendré par la fonction indicatrice 1X .
Donnons une preuve de ce fait. Déjà, si f = λ1X , λ ∈ C, alors pour toute fonction g ∈ L2 (X), on a
hf, UT g − gi = hUT∗ f − f, gi = 0,
puisque UT∗ f = f . En effet, UT est une isométrie de L2 , donc UT∗ ◦ UT = UT ◦ UT∗ = Id. En particulier,
UT∗ est aussi une isométrie. Par ailleurs, f est un vecteur propre de UT pour la valeur propre 1. Ainsi,
hUT∗ f − f, UT∗ f − f i = hUT∗ f, UT∗ f i + hf, f i − hUT∗ f, f i − hf, UT∗ f i = 2hf, f i − hf, UT f i − hUT f, f i = 0.
Réciproquement, soit f ∈ K ⊥ . Alors, pour toute fonction g ∈ L2 (X),
hf, UT g − gi = hUT∗ f − f, gi = 0,
donc UT∗ f = f . Ainsi, par le même calcul que précédemment, en échangeant les rôles de UT et UT∗ , on
obtient que UT f = f . Or, puisque T est ergodique pour µ, 1 est valeur propre simple de UT , c’est-à-dire,
f est constante.
Puisque K est un sous-espace vectoriel fermé de L2 (X) et L2 (X) est complet, on en conclut que
⊥
L2 (X) = K ⊕ C1X .
Pour montrer que la somme de Birkhoff associée à une fonction L2 f converge vers son intégrale, on va
distinguer selon que f ∈ K ou f ∈ C1X . Il suffira de montrer que c’est vrai dans ces deux situations.
Dans le deuxième cas, f est constante, donc pour tout entier k ≥ 1, f ◦ T k = f et en particulier,
Sn = f . Enfin, puisque f est constante, elle est égale à son intégrale, donc Sn reste constante égale à
cette intégrale.
14
Pour traiter le premier cas, on commence par supposer que f = UT g − g avec g ∈ L2 (X). Alors les
sommes de Birkhoff se télescopent pour donner
Sn =
1 n
(U g − g) −→ 0,
n→+∞
n T
car UT étant une isométrie, kUT g − gkL2 ≤ 2kgkL2 . Or, puisque la mesure µ est T -invariante et que
f = g ◦ T − g, son intégrale selon µ est nulle. Plus généralement, si f est dans l’adhérence de l’image
de UT − Id, alors, il existe une suite de fonctions L2 (fn ) telle que fn converge en norme L2 vers f .
L’inégalité de Cauchy-Schwarz donne alors (on rappelle que µ est une mesure de probabilité)
Z
Z
|fn − f |dµ ≤
X
|fn − f |2 dµ
1/2 Z
X
1/2 Z
1/2
1X dµ
=
|fn − f |2 dµ
.
X
X
Donc, fn converge en norme L1 vers f , et en particulier, l’intégrale de fn converge vers l’intégrale de f .
Puisque les fonctions fn sont d’intégrale nulle, il en va de même pour f . Soit à présent > 0, alors il
existe une fonction L2 f˜ dans l’image de UT − Id, telle que kf˜ − f kL2 ≤ /2. D’autre part, puisque UT
est une isométrie, il en va de même de UTk pour tout entier k ≥ 1. En particulier,
n
1 X UTk ≤ 1.
n
k=1
On obtient donc
n
1 X
k UT f n
k=1
L2
n
1 X
k ˜
≤
UT f n
k=1
L2
n
1 X
k ˜
+
UT (f − f )
n
k=1
L2
n
1 X
k ˜
≤
UT f n
k=1
+ f˜ − f L2
L2
.
D’après le cas où la fonction est dans l’image de UT − Id, on a pour n assez grand,
n
1 X
k ˜
UT f ≤
n
2
2
k=1
L
et donc finalement, pour n assez grand,
n
1 X
k UT f n
k=1
≤ .
L2
En utilisant ce résultat, on peut aussi montrer que si f, g ∈ L2 et si Sn désigne la somme de Birkhoff
associée à f , alors
Z
Z
Z
Sn gdµ −→
f dµ
gdµ.
X
n→+∞
X
X
C’est une simple application de l’inégalité de Cauchy-Schwarz. En fait, on retrouve ce résultat en disant
que Sn converge fortement vers f dans L2 (X) (i.e. converge pour la topologie de la norme) donc converge
vers f pour la topologie faible. Ici, la topologie faible et la topologie préfaible sont les mêmes (on rappelle
en particulier que le dual topologique de L2 (X) est canoniquement L2 (X)).
Remarque 3.1.1. Si l’application T n’est pas ergodique, on peut quand même dire quelque chose. On
n’a plus L2 (X) = K ⊕ C1X , mais on a toujours L2 (X) = K ⊕ Ker(UT − Id). On décompose alors une
fonction f en une somme f = f1 + f2 avec f1 ∈ K et f2 ∈ Ker(UT − Id). On laisse le lecteur adapter un
peu la preuve ci-dessus pour montrer que Sn converge en norme L2 vers l’intégrale de f2 selon µ.
Ce résultat a été prouvé par John von Neumann dans l’article [Neu32]. Le langage est un peu différent
de celui employé dans ce cours mais le résultat est le même.
3.2
Le théorème de Birkhoff
On a donc montré que Sn converge dans L2 vers l’intégrale de f , i.e. les moyennes temporelles de f
convergent vers la moyenne spatiale. C’est le théorème de von Neumann. En fait, cette convergence est
presque sûre. C’est le théorème de Birkhoff.
15
Théorème 3.2.1. Soit (X, X , µ) un espace de probabilité, soit T : X → X une application mesurable qui
préserve la mesure µ et qui est ergodique pour µ. Soit enfin f une application L1 définie sur X. Alors,
les sommes de Birkhoff associées à f convergent presque sûrement vers l’intégrale de f selon µ :
n
1X
µ−p.p.
f ◦ T k (x) −→
n→+∞
n
Z
k=1
f dµ.
X
On utilisera le lemme suivant, qu’on nomme lemme de l’inégalité maximale. Si (X, X , µ) est un espace
mesuré et T : X → X est une application qui préserve la mesure et si (φn ) est une suite de fonctions L1
définies sur X, on dit que la suite (φn ) est sous-additive lorsque
∀n, m ≥ 1, φn+m ≤ φm ◦ T n + φn .
Lemme 3.2.2. Soit (X, X , µ) est un espace mesuré et T : X → X est une application qui préserve la
mesure. Soit (φn ) une suite sous-additive de fonctions L1 définies sur X. On note φ∗ := sup{φn , n ∈ N∗ }.
Alors,
Z
φ1 dµ ≥ 0.
{φ∗ >0}
Démonstration. On définit ψn = max{0, S
φ1 , ..., φn } et ψ0 = 0. Les fonctions ψn sont positives. On pose
Xn = {ψn > 0} de sorte que {φ∗ > 0} = n≥1 Xn . On va montrer que
Z
∀n ≥ 1,
φ1 dµ ≥ 0.
Xn
Soit x ∈ Xn , alors ψn (x) = φk(x) (x), où 1 ≤ k(x) ≤ n. Si k(x) = 1, alors φ1 (x) = ψn (x), sinon
ψn (x) = φk(x)−1+1 (x) ≤ φk(x)−1 (T (x)) + φ1 (x). Dans tous les cas, φ(x) ≥ ψn (x) − ψn−1 (T (x)). On a
donc
Z
Z
Z
φ1 dµ ≥
ψn dµ −
ψn−1 ◦ T dµ.
Xn
Xn
Xn
Or, si x ∈
/ Xn , ψn (x) = 0 donc
Z
Z
ψn dµ =
Xn
ψn dµ.
X
D’autre part, quel que soit x ∈ X, ψn−1 (T (x)) ≥ 0, donc
Z
Z
Z
ψn−1 ◦ T dµ ≤
ψn−1 ◦ T dµ =
ψn−1 dµ,
Xn
X
X
puisque µ est T -invariante. On obtient donc finalement, en utilisant que ψn ≥ ψn−1 ,
Z
Z
φ1 dµ ≥
(ψn − ψn−1 )dµ ≥ 0.
Xn
X
Pour conclure, si φ1 était positive, il resterait simplement à voir que {φ∗ > 0} est l’union croissante des
ensembles Xn . On pourrait alors conclure par convergence monotone. Dans le cas général, il suffit de
voir que
Z
≤ kφ1 kL1 ,
φ
dµ
1
Xn
ce qui permet de conclure par convergence dominée. On remarque qu’il suffisait donc de supposer que φ1
est intégrable. Cependant, avec la condition de sous-addiivité, une récurrence immédiate montre que si
φ1 est intégrable, alors toutes les fonctions φn le sont. On remarque aussi qu’on n’a pas vraiment besoin
de la condition de sous-additivité, mais seulement de la condition
∀n ≥ 1, φn+1 ≤ φ1 ◦ T n + φn .
Prouvons à présent le théorème de Birkhoff.
16
Démonstration. On reprend les mêmes notations que dans le théorème. On note (Sn ) la suite des sommes
de Birkhoff associées à f . Pour montrer le théorème, quitte à passer aux parties réelles et imaginaire, on
peut supposer que f est à valeurs réelles.
Si α < β sont deux nombres rationnels, on pose
Xα,β = {x ∈ X, lim inf Sn (x) < α < β < lim sup Sn (x)}.
n→+∞
n→+∞
Puisque les rationnels sont denses dans les réels, le complémentaire de tous les Xα,β est l’ensemble des
points où Sn converge. Puisque les rationnels sont dénombrables, il suffit donc de montrer que pour tous
α < β rationnels, Xα,β est de µ-mesure nulle pour en conclure que Sn converge presque sûrement.
Notons que
1
n−1
Sn−1 (x) = f ◦ T (x) −→ 0.
Sn (x) −
n→+∞
n
n
Or Sn (x) converge si et seulement si Sn−1 (x) converge, donc on a montré que Sn (x) converge si et
seulement si Sn (T (x)) converge. En d’autres termes, T −1 Xα,β = Xα,β . Par ergodicité, on a donc
µ(Xα,β ) ∈ {0, 1}. Supposons que µ(Xα,β ) = 1. On applique alors le lemme de l’inégalité maximale
à l’espace Xα,β et à la suite définie par φn = n(Sn − β). On vérifie que φn+m = φm ◦ T n + φn . Alors,
puisque β < lim sup Sn (x) sur tout Xα,β , {φ∗ > 0} est égal à Xα,β tout entier. En particulier,
n→+∞
Z
(f ◦ T − β)dµ ≥ 0.
Xα,β
De même, en appliquant le lemme de l’inégalité maximale au même espace et à la suite définie par
φn = n(α − Sn ), on trouve
Z
(α − f ◦ T )dµ ≥ 0.
Xα,β
Donc, en combinant les deux inégalités, (α − β)µ(Xα,β ) ≥ 0, i.e. α ≥ β, ce qui est absurde. Ainsi,
µ(Xα,β ) = 0 et Sn converge presque sûrement. On remarque ici qu’on n’a pas besoin de l’hypothèse
d’erogdicité pour en déduire la convergence de Sn . Le lemme de l’inégalité maximale montre directement
que Xα,β est de mesure nulle, car on aboutirait à la même absurdité si on avait seulement µ(Xα,β ) > 0
plutôt que µ(Xα,β ) = 1. Par contre, pour identifier la limite comme étant l’intégrale de f , on va avoir
besoin de l’hypothèse d’ergodicité.
Notons ψ la limite presque sûre de Sn . On a déjà remarqué que Sn (x) − n−1
n Sn−1 (x) converge vers
0. En particulier, ψ ◦ T = ψ presque sûrement (là où ψ est la limite de Sn ). Donc, par ergodicité, ψ est
constante presque sûrement : ψ = λf 1X µ-presque partout. Il reste donc à montrer que λf est l’intégrale
de f selon µ. Si f est presque sûrement bornée, cela découle du théorème de convergence dominée. Sinon,
on conclut par densité des fonctions presque sûrement bornées dans les fonctions intégrables. En effet,
les fonctions continues à support compactes sont presque sûrement bornées et cet espace est dense dans
les fonctions intégrables. On pourra noter que si f est en fait L2 , alors il suffit d’appliquer le théorème
de von Neumann pour trouver que la limite presque sûre est l’intégrale de f . En effet, on sait déjà que
Sn converge dans L2 vers cette intégrale, donc le long d’une sous-suite, Sn converge presque sûrement
vers cette intégrale, et puisqu’on sait déjà que la convergence presque sûre a lieu, la limite est forcément
la limite le long de toute sous-suite.
Ce théorème a été prouvé par George David Birkhoff dans [Bir31]. De manière un peu étonnante,
cet article est publié avant celui de von Neumann. En fait, l’article de von Neumann a été écrit avant
mais a mis plus de temps à être publié. D’ailleurs, Birkhoff y fait référence dans le sien en disant que le
théorème de von Neumann, non encore publié, montre une convergence en moyenne et que lui va montrer
une convergence presque sûre.
Le théorème de Birkhoff a des applications théoriques. Par exemple, on peut déduire de ce théorème
la loi forte des grands nombres :
Théorème 3.2.3 (Loi forte des grands nombres). Soit (Xn ) une suite de variables aléatoires réelles
indépendantes et identiquement distribuées de loi µ. On suppose que E[|X1 |] < ∞, c’est-à-dire, puisque
les Xn sont identiquement distribuées, qu’on suppose que les Xn sont intégrables. Alors,
n
1X
p.s.
Xk −→ E[X1 ].
n
k=1
17
Démonstration. On pose (Ω, P) = (RN , µ⊗N ). Si ω = (xn ) ∈ Ω, Xn (ω) = xn . On considère alors le
décalage de Bernoulli T sur l’espace RN . C’est une application ergodique pour la mesure µ⊗N . On peut
donc appliquer le théorème de Birkhoff. Puisque la somme de Birkhoff Sn (ω) est exactement la somme
1
n (X1 (ω) + ... + Xn (ω)), on obtient directement le théorème.
3.3
Le théorème de Kingman
Le dernier théorème ergodique qu’on étudie dans ce cours est le théorème de Kingman, aussi connu
sous le nom de théorème ergodique sous-additif. Si (an ) est une suite réelle, on dit que (an ) est sousadditive si
∀n, m ∈ N∗ , an+m ≤ an + am .
On commence par énoncer un lemme très classique relatif aux suites sous-additives.
Lemme 3.3.1 (Fekete). Soit (an ) une suite réelle sous-additive. Alors, la suite ( n1 an ) converge et de
plus
1
1
lim an = inf{ ak , k ∈ N∗ }.
n→+∞ n
k
Démonstration. Notons l la borne inférieure de l’ensemble { k1 ak , k ∈ N∗ } Soit r > l un nombre réel. Il
1
existe un entier m ≥ 1 tel que m
am < r. Si n ≥ m est un entier, on écrit la division euclidienne de n par
m:
n = qm + r0 , 0 ≤ r0 ≤ m − 1.
On a alors, par sous-additivité,
1
1
1
1
q
1
1
an ≤ aqm + ar0 ≤ am + an0 ≤ am + max{|a1 |, ..., |am−1 |}.
n
n
n
n
n
m
n
Puisque le terme tout à droite dans l’inégalité ci-dessus tend vers 0 lorsque n tend vers l’infini, on obtient
qu’il existe n0 ≥ 1 tel que
1
∀n ≥ n0 , an ≤ r.
n
Ceci étant vrai pour tout r > l, on en déduit que ( n1 an ) converge vers l.
Ce lemme porte le nom de lemme de Fekete. En réalité, énoncé tel quel, c’est un résultat de Pólya
et Szegö qu’on retrouve dans [PS76], mais les auteurs eux-mêmes réfèrent à l’article [Fek23] de Fekete,
bien que l’énoncé qu’ils citent est un cas particulier du leur. Le nom de lemme de Fekete est resté.
Théorème 3.3.2 (Kingman). Soit (X, X , µ) un espace de probabilité, soit T : X → X une application
mesurable qui préserve la mesure µ et qui est ergodique pour µ. Soit enfin (fn ) une suite de fonctions
réelles définies sur X. On suppose que fn ∈ L1 (X) pour tout n ≥ 1 et que la suite (fn ) est sous-additive,
c’est-à-dire que
∀n, m ≥ 1, fm+n ≤ fm ◦ T n + fn .
Alors,
1
1
µ−p.p.
fn −→ inf{
n n→+∞
n
Démonstration. Notons
an =
1
n
Z
X
Z
fn dµ, n ∈ N∗ }.
X
1
fn dµ, l = inf{ ak , k ∈ N∗ }.
k
La suite (an ) est sous-additive. En effet, puisque T préserve la mesure,
Z
Z
Z
an+m =
fm+n dµ ≤
fm ◦ T n dµ +
fn dµ = am + an .
X
X
X
Tout d’abord, montrons qu’on peut supposer que les fonctions fn sont toutes négatives. En effet,
posons
n−1
X
gn = fn −
f1 ◦ T k .
k=0
Par sous-additivité de fn , on trouve que gn est négative. D’autre part, gn est L1 et la suite (gn ) est
encore sous-additive.
18
Pn−1
D’après le théorème de Birkhoff, ( n1 k=0 f1 ◦ T k ) converge vers l’intégrale de f selon µ, puisque f1
est L1 . Enfin,
Z
Z
Z
1
1
inf{
gn dµ, k ∈ N∗ } = inf{
fn dµ, k ∈ N∗ } −
f1 dµ,
k X
k X
X
donc si le résultat est vrai pour (gn ), il est vrai aussi pour (fn ).
Supposons donc que pour tout n, fn ≤ 0. On va montrer que ( n1 fn ) converge µ-presque partout.
Soient α, β deux rationnels. On pose
1
1
Xα = {x ∈ X, lim inf ( fn (x)) < α}, Yβ = {x ∈ X, lim sup( fn (x)) > β}.
n→+∞ n
n→+∞ n
Puisque fn+1 ≤ fn ◦ T + f1 , on a T −1 Xα ⊂ Xα et Yβ ⊂ T −1 Yβ . Or, T préserve la mesure donc
µ(T 1 Xα ∆Xα ) = 0 = µ(Yβ ∆T 1 Yβ ) et donc par ergodicité, µ(Xα ) ∈ {0, 1} et µ(Yβ ) ∈ {0, 1}. Pour
montrer que ( n1 fn ) converge presque sûrement, il suffit de montrer que pour tous rationnels α < β,
µ(Xα ∩ Yβ ) = 0. Supposons le contraire, alors le lemme de l’inégalité maximale appliqué à l’espace
Xα ∩ Yβ et à la suite (fn − β) montre que
Z
(f − β)dµ ≥ 0,
Xα ∩Yβ
puisque dans ce cas, {φ∗ > 0} = Xα ∩ Yβ . De même, en appliquant le lemme de l’inégalité au même
espace et à la suite (α − fn ), on montre que
Z
(α − f )dµ ≥ 0.
Xα ∩Yβ
En combinant ces deux inégalités, on trouve que α ≥ β, ce qui est absurde. Finalement, ( n1 fn ) converge
presque sûrement. Comme dans la preuve du théorème de Birkhoff, on remarque qu’on n’a pas besoin
de l’hypothèse d’ergodicité pour montrer la convergence presque partout. Par contre pour déterminer la
limite, on aura besoin de cette hypothèse.
Notons ψ la limite presque sûre de ( n1 fn ). Puisqu’on a supposé les fonctions fn négatives, ψ est
négative presque sûrement, de sorte que l’intégrale de ψ selon µ a un sens, même si l’on ne sait pas
encore si ψ est intégrable ou pas. Le lemme de Fatou nous donne
Z
Z
Z
1
1
−ψdµ =
lim − fn dµ ≤ lim inf
− fn dµ.
n→+∞
n→+∞
n
n
X
X
X
Le lemme de Fekete nous donne alors que cette dernière limite inférieure est égale à −l et donc l’intégrale
de −ψ est plus petite que −l de sorte que ψ est intégrable. D’autre part, on a aussi montré que
Z
l≤
ψdµ,
X
donc il suffit de montrer que ψ ≤ l µ-presque partout. Soit m ≥ 1, on décompose (q + 1)m + r en
qm + m + r et on utilise la sous-additivité pour obtenir
f(q+1)m+r ≤ fqm + fm+r ◦ T qm .
On décompose ensuite qm en (q −1)m+m pour obtenir fqm ≤ f(q−1)m +fm ◦T (q−1)m , puis on décompose
(q − 1)m en (q − 2)m + m. On obtient finalement, par une récurrence immédiate,
fqm ≤
q−1
X
fm ◦ T jm .
j=0
On décompose ensuite m + r en (m + r − 1) + 1 pour obtenir fm+r ◦ T qm ≤ f1 ◦ T qm + fm+r−1 ◦ T ◦ T qm ,
puis par récurrence,
m+r−1
X
qm
fm+r ◦ T
≤
f1 ◦ T qm+j .
j=0
19
Finalement,
f(q+1)m+r ≤
q−1
X
fm ◦ T jm +
m+r−1
X
j=0
f1 ◦ T qm+j .
j=0
On décompose maintenant (q + 1)m + r en (qm + 1) + (m + r − 1) pour obtenir
f(q+1)m+r ≤ fqm+1 + fm+r−1 ◦ T qm+1 .
On majore le premier terme ainsi
fqm+1 ≤ f1 + fqm ◦ T ≤ f1 +
q−1
X
fm ◦ T jm+1 .
j=0
Pour le deuxième, on obtient
fm+r−1 ◦ T qm+1 ≤
m+r−1
X
f1 ◦ T qm+j
j=1
de sorte que finalement,
f(q+1)m+r ≤ f1 +
q−1
X
fm ◦ T jm+1 +
m+r−1
X
j=0
f1 ◦ T qm+j .
j=1
Plus généralement, si k ≤ m − 1, on a
f(q+1)m+r ≤ fk +
q−1
X
fm ◦ T jm+k +
m+r−1
X
j=0
f1 ◦ T qm+j .
j=k
En sommant ces m inégalités pour k = 0, ..., m − 1, on obtient
m × f(q+1)m+r ≤
mq−1
X
fm ◦ T j + (f1 + ... + fm−1 ) + (
m+r−1
X
j=0
j=0
f1 ◦ T qm+j + ... +
m+r−1
X
f1 ◦ T qm+j ).
j=m−1
On va diviser toute cette inégalité par qm. On s’intéresse d’abord à (f1 + ...fm−1 ). Si on divise cette
somme de m − 1 termes par qm, on obtientPquelque chose qui tend vers 0 quand q tend vers l’infini.
m+r−1
On s’intéresse maintenant à chaque somme j=k
f1 ◦ T qm+j . Lorsque q est suffisamment grand, en
divisant par 2qm, on obtient une partie avec un nombre uniformément borné des sommes de Birkhoff
S2qm associées à f1 , de sorte qu’en divisant par qm, on obtient quelque chose qui tend aussi vers 0. On
a donc finalement
mq−1
1 X
fm ◦ T j + reste,
f(q+1)m+r ≤
m j=0
1
qui tend vers 0 lorsque q tend vers l’infini. D’autre part, qm
f(q+1)m+r converge presque
P
mq−1
1
j
sûrement vers ψ et qm j=0 fm ◦ T converge presque sûrement vers l’intégrale de fm selon µ, d’après
le théorème de Birkhoff, lorsque q tend vers l’infini. L’inégalité précédente donne donc, en passant à la
limite presque sûre,
Z
1
fm dµ, µ − p.p.
ψ≤
m X
En particulier, ψ ≤ l presque sûrement. On a donc ψ = l presque sûrement, ce qui achève la preuve du
théorème. On remarque que contrairement à la preuve du théorème de Birkhoff, on a calculé directement
la valeur de la limite presque sûre que l’on cherchait, avant même de montrer que cette limite était
presque sûrement constante. Iil serait difficile de montrer directement que c’est le cas, mais on peut le
faire. On peut en fait montrer, sans hypothèse d’ergodicité, que la limite est invariante par T .
avec
1
qm reste
Ce théorème a été prouvé par Kingman dans le tout premier volume du journal Annals of Probability
(et dans le sixième numéro de ce volume) (voir [Kin76]). Il implique en particulier
la convergence des
Pn
sommes de Birkhoff vers l’intégrale de f , en désignant par fn la fonction k=1 f ◦ T k . C’est donc le
plus général des théorèmes ergodiques qu’on ait énoncé, mais on a quand même utilisé le théorème de
Birkhoff dans la preuve. On se servira du théorème de Kingman dans la prochaine partie de ce cours,
l’étude des marches aléatoires dans SLd (R).
20
4
Marches aléatoires dans SLd (R)
L’étude des marches aléatoires dans SLd (R) s’inscrit plus généralement dans l’étude des marches
aléatoires sur les groupes de Lie. Cette théorie a été développée notamment par Furstenberg et Kesten
dans les années 60 et 70 et on ne s’étonnera pas de trouver plusieurs résultats portant leur nom dans ce
cours. Pour une étude des groupes de Lie centrée sur les groupes linéaires, on pourra consulter [MT86]
et pour une étude plus moderne du sujet, on pourra consulter [Bum13]. Enfin, pour l’étude des marches
aléatoires sur les groupes de Lie, on pourra consulter [GKR77], cependant le contenu de ce dernier livre
est nettement plus avancé que ce que l’on va dire ici.
4.1
Le groupe SLd (R)
On commence par étudier quelques rappels sur le groupe SLd (R). On désigne par GLd (R) le groupe
des isomorphismes linéaires de Rd et par SLd (R) le sous-groupe de GLd (R) des isomorphismes linéaires
de déterminant 1. Si d = 1, alors SLd (R) est réduit à {1}. Dans toute la suite, on suppose que d ≥ 2.
Le groupe SLd (R) est un groupe de Lie, c’est-à-dire un objet en groupe dans la catégorie des variétés
lisses. Plus concrètement, c’est une variété lisse (ici lisse veut dire C ∞ ) et un groupe tel que la multiplication et le passage à l’inverse soient des applications lisses. Rassurons un lecteur qui n’aurait jamais
entendu parler de variétés lisses : on ne s’intéressera pas à cet aspect dans ce cours. Permettons nous
tout de même de lui conseiller de se renseigner sur ce sujet passionnant, par exemple en lisant [Lee13]
(livre dans lequel les groupes de Lie son d’ailleurs abordés).
On rappelle que sur un groupe topologique, une mesure de Haar est une mesure borélienne invariante
par translation à gauche. Puisque SLd (R) est un groupe de Lie, c’est en particulier un groupe topologique
localement homéomorphe à Rd , donc localement compact. En particulier, il admet une mesure de Haar
et celle-ci est unique à multiplication par une constante près. On pourra voir par exemple [Wei79] pour
une preuve de ce fait, livre que l’on conseille par ailleurs de lire. Attention la preuve est un peu difficile
et réclame l’axiome du choix, alors qu’on n’en a en fait pas besoin. Henri Cartan a montré l’existence et
l’unicité d’une mesure de Haar sur un groupe localement compact sans utiliser l’axiome du choix dans
[Car40]. D’autre part, pour le lecteur intéressé, on a ici affaire à un groupe de Lie et on peut construire
une mesure de Haar à partir d’une n-forme différentielle invariante à gauche.
D’autre part, SLd (R) est un groupe quasi-simple, ce qui signifie que son centre est fini. En effet,
lorsque d est impair, le centre de SLd (R) est réduit à {Id} et lorsque d est pair à {−Id, Id}. On pourra
consulter par exemple [Per96] pour une preuve de ce fait.
Enfin, en tant qu’espace topologique, SLd (R) est un espace métrique. C’est un sous-espace métrique
de Md (R) que l’on munit de la norme subordonnée à la norme k.k2 dans Rd .
Soit µ une mesure de probabilité sur SLd (R), muni de sa tribu borélienne. On définit le support de
µ comme étant le plus petit fermé de mesure 1. En particulier le support de µ est non vide. C’est aussi
l’intersection de tous les fermés de mesure 1. On note Gµ l’adhérence du sous-groupe de SLd (R) engendré
par le support de µ. Pour simplifier les notations, on notera également G := SLd (R). Définissons alors
∗
∗
Ω = GN et P = µ⊗N . On appelle espace des trajectoires l’ensemble Ω. On rappelle que le décalage
de Bernoulli est l’application T : Ω → Ω qui à une suite de terme général gn associe la suite de terme
général gn+1 . On rappelle également que T préserve la mesure, c’est une application ergodique pour P.
On s’intéresse à la marche aléatoire de loi µ. On peut la définir avec des variables aléatoires indépendantes et identiquement distribuées de loi µ. Si (gk ) est une telle suite de variables aléatoires,
alors la marche aléatoire au temps n est le produit gn ...g1 . On peut aussi la définir plus directement en
s’intéressant à l’application
Sn :
Ω
→
G
ω = (gk )k∈N∗ 7→ gn ...g1
qui est une variable aléatoire à valeur dans G. On rappelle la définition du produit de convolution (à
droite) dans un groupe probabilisé. Si (G, G) est un groupe mesurable et si ν et λ sont deux mesures
de probabilité sur G, on appelle produit de convolution de ν et λ et on note ν ∗ λ la mesure de
probabilité définie par
Z
ν ∗ λ(A) =
1A (xy)dν(y)dλ(x),
G
pour un ensemble mesurable A de G. La loi de marche aléatoire est Sn ∗ P = µ ∗ ... ∗ µ, avec n facteurs
dans le produit de convolution, ce qu’on notera aussi µ∗n . On fera l’hypothèse supplémentaire sur µ que
21
son premier moment logarithmique est fini, i.e.
Z
log(kgk)dµ(g) < ∞.
G
On laisse en exercice le fait que pour g ∈ SLd (R), kgk ≥ 1.
On aura par ailleurs besoin du lemme algébrique (ou géométrique, selon le goût) suivant.
Lemme 4.1.1. Soit M ∈ SLd (R). Alors il existe deux matrices orthogonales U1 , U2 ∈ Od (R) et une
Qd
matrice diagonale D = diag(λ1 , ..., λd ) avec λ1 ≥ ... ≥ λd > 0 et j=1 λj = 1.
Démonstration. On commence par décomposer la matrice sous forme polaire : M = OS avec O orthogonale et S symétrique définie positive. Puisque M est de déterminant 1, et S de déterminant positif,
O est de déterminant positif, donc de déterminant 1 (c’est une matrice orthogonale) et donc S est de
déterminant 1. On diagonalise ensuite S dans une base orthonormale : S = P t DP avec P orthogonale
et D diagonale. Puisque S est définie positive, ses valeurs propres (qui sont celles de D) sont toutes
strictement positive. Quitte à conjuguer par une matrice de transposition (en particulier orthogonale),
on peut les ordonner, de sorte que D est de la forme annoncée dans le théorème. Il suffit à présent de
poser U1 = OP t et U2 = P .
On appelle décomposition KAK de M cette écriture de M sous la forme U1 DU2 . Puisque les matrices
orthogonales préservent la norme, on a kM k = kDk ≥ 1, ce qui répond par ailleurs à l’exercice kgk ≥ 1
pour g ∈ SLd (R).
Le premier résultat qu’on énonce a été prouvé par Harry Furstenberg et Harry Kesten dans l’article
[FK60].
Théorème 4.1.2 (Furstenberg-Kesten). Avec les mêmes notations, la suite ( n1 log(kSn k)) converge
presque sûrement vers une constante λ ≥ 0. D’autre part, on a
Z
Z
1
1
λ = inf{
log(kSn k)dP, n ∈ N∗ } = inf{
log(kgk)dµ∗n , n ∈ N∗ }.
n Ω
n G
Démonstration. Posons fn = log(kSn k). Alors la fonction f1 est L1 car le premier moment logarithmique
de µ est fini. D’autre part,
fm+n (ω) = log(kgm+n ...gn+1 gn ...g1 k) ≤ log(kgm+n ...gn+1 k) + log(kgn ...g1 k) = fm ◦ T n (ω) + fn (ω).
Donc la suite (fn ) est sous-additive et en particulier les fonctions fn sont toutes L1 . On peut donc
appliquer le théorème de Kingman qui donne exactement le résultat annoncé. Enfin les fonctions fn sont
toutes positives donc λ est positif.
4.2
Premier exposant de Lyapounov
On va maintenant s’intéresser de plus près à la constante λ dans le théorème de Furstenberg-Kesten.
On l’appelle premier exposant de Lyapounov de la marche aléatoire de loi µ sur SLd (R). On se pose
la question suivante : quand est-ce que λ est strictement positif ? L’intérêt de cette question réside par
exemple dans le fait que si λ > 0, alors en particulier kgn ...g1 k est équivalent à eλn et donc la marche
aléatoire s’échappe à l’infini. On va donner une condition suffisante pour que λ > 0.
Soit H un sous-groupe de SLd (R). On dit que H est irréductible si les seuls sous-espace de Rd
invariants par H sont {0} et Rd . On dit que H est fortement irréductible si tous les sous-groupes
d’indice fini de H sont irréductibles. En particulier H étant d’indice nul dans lui-même, si H est fortement
irréductible, il est irréductible.
Si U est un borélien de G, alors U −1 := {x ∈ G, ∃y ∈ U, x = y −1 } est aussi borélien, puisque
l’application g 7→ g −1 est un homéomorphisme. On dit que la mesure de probabilité µ est symétrique
si pour tout borélien U de G, µ(U ) = µ(U −1 ).
Le reste de ce cours est consacré à la démonstration du théorème suivant, prouvé par Furstenberg
dans [Fur63]. Dans cet article, Furstenberg prouve de nombreux résultats et ne se limite pas aux marches
aléatoires dans les groupes linéaires.
Théorème 4.2.1 (Furstenberg). Avec les mêmes notations que précédemment, si l’on suppose de plus
que µ est symétrique et que Gµ est non compact et fortement irréductible, alors λ > 0.
22
Démonstration. On notera pour tout le reste de la preuve V = Rd . Le groupe G agit linéairement sur
V . Si l’on munit V de la mesure de Lebesgue, que l’on note λV , alors la formule du changement de
variable montre que l’action de G préserve la mesure, c’est-à-dire que pour tout g ∈ G, l’application
linéaire g : V → V préserve λV . Plus généralement, on se donne une mesure ν sur V qui est préservée
par l’action de G. Si f est une fonction L2 définie sur V et g ∈ G, on définit g · f : v 7→ f (g −1 · v).
Puisque l’action de G préserve la mesure, g · f est encore L2 . On a ainsi défini une action de G sur L2 (V ).
Définissons à présent l’opérateur
Pµ : L2 (V ) → Z L2 (V )
ξ
7→
g · ξdµ(g)
G
qu’on appelle opérateur de moyenne. Montrons que Pµ est continu. En fait, on va même montrer que
kPµ k ≤ 1. En effet,
2
Z
Z Z
−1
2
2
|Pµ ξ(v)| dν(v) =
kPµ ξkL2 =
ξ(g · v)dµ(g) dν(v).
V
G
V
L’inégalité de Cauchy-Schwarz donne
2 Z
Z
ξ(g −1 · v)dµ(g) ≤
|ξ(g −1 · v)|2 dµ(g),
G
G
puisque µ est une mesure de probabilité. Enfin, on ne manipule que des quantités positives (et même
intégrables) donc d’après le théorème de Fubini, et puisque la mesure ν est invariante par l’action de G,
Z Z
2
kPµ ξkL2 ≤
|ξ(v)|2 dν(v)dµ(g) = kξk2L2 .
G
V
2
Calculons l’adjoint de Pµ . Soient ξ, η ∈ L (V ). Alors,
Z Z
Z Z
−1
hPµ ξ, ηi =
ξ(g · v)dµ(g) η(v)dν(v) =
ξ(v)η(g · v)dν(v)dµ(g).
V
G
V
G
On a utilisé le théorème de Fubini (on ne manipule que des quantités intégrables) et l’invariance de la
mesure ν. Si l’on note µ̌ la mesure miroire de µ définie par µ̌(U ) = µ(U −1 ) pour un borélien U de G, on
obtient donc
Z Z
Z Z
hPµ ξ, ηi =
ξ(v)g −1 · η(v)dµ(g)dν(v) =
ξ(v)g · η(v)dµ̌(g)dν(v) = hξ, Pµ̌ ηi.
V
G
V
G
Ainsi l’adjoint de Pµ est Pµ̌ . Puisque l’on a supposé la mesure symétrique, µ̌ = µ et en particulier, Pµ
est auto-adjoint. Notons par ailleurs que pour tout entier n ≥ 1, Pµn = Pµ∗n .
Admettons dans un premier temps que kPµ k < 1. Si g ∈ G, on écrit la décomposition KAK de g, i.e.
g = U1 DU2 , où D = diag(λ1 , ..., λd ), λ1 ≥ ... ≥ λd > 0. Dans cette écriture, λ1 est la plus grande valeur
propre de g, c’est donc sa norme, puisque l’on a choisi la norme subordonnée à la norme k.k2 de V . En
particulier, kg −1 k = λ1d . Or, on rappelle que g est de déterminant 1 et donc que le produit des λj fait 1.
On en déduit que λ1d = λ1 ...λd−1 et donc que 1 ≤ kg −1 k ≤ kgkd−1 .
Soit c un réel tel que c > d2 . On note ξ(v) = min{1, kvk−c }. Alors ξ ∈ L2 (V ). De plus, si 1 ≤ kvk ≤ 2
et si g ∈ G, alors
ξ(g −1 · v) ≥ kg −1 vk−c ≥ kg −1 k−c kvk−c ≥ 2−c kgk−c(d−1) .
D’autre part,
hPµn ξ, 1{1≤kvk≤2} i =
Z
Z
{1≤kvk≤2}
ξ(g −1 · v)dµ∗n (g)dν(v) ≥ 2−c
G
Z Z
G
et donc
hPµn ξ, 1{1≤kvk≤2} i ≥ K
Z
kgk−c(d−1) dλ(v)dµ∗n (g)
{1≤kvk≤2}
kgk−c(d−1) dµ∗n (g),
G
où K > 0 est une constante. On en déduit, par l’inégalité de Cauchy-Schwarz, que
Z
1
kgk−c(d−1) dµ∗n (g) ≤ kPµ kn kxi kk1{1≤kvk≤2} k ≤ K 0 kPµ kn .
K
G
23
D’autre part, la fonction logarithme est concave et la mesure µ∗n est une mesure de probabilité. Donc
l’inégalité de Jensen concave donne
Z
Z
−c(d−1)
∗n
−c(d−1)
∗n
log(kgk
)dµ (g) ≤ log
kgk
dµ (g) .
G
G
On trouve ainsi
Z
−c(d − 1)log(kgk)dµ∗n (g) ≤ K 00 + nlog(kPµ k).
G
Enfin, puisque kPµ k < 1, on a
0<
1
K 00
1
1
log(
)≤
+
c(d − 1)
kPµ k
n
n
Z
log(kgk)dµ∗n .
G
Or, le terme à droite tend vers λ quand n tend vers l’infini. On en déduit donc que
λ≥
1
1
log(
) > 0.
c(d − 1)
kPµ k
Il ne reste donc qu’à montrer que kPµ k < 1.
On note toujours V = Rd . Si W est un sous-espace vectoriel de V , on notera Pr(W ) l’espace projectif
associé. On rappelle que Pr(V ), aussi noté RP d−1 ou encore P(Rd ) est l’ensemble des droites de Rd . Il
peut être représenté par le quotient Sd−1 /(x ∼ −x), où Sd−1 est la sphère unité de Rd et on le munit
de la topologie quotient associée. Il s’agit d’un espace compact. C’est aussi le quotient des vecteurs non
nuls de Rd par la relation d’équivalence x ∼ λx, λ ∈ R∗ . Si W est un sous-espace vectoriel de V , alors
on voit Pr(W ) comme un sous-espace de Pr(V ).
Puisqu’une matrice de SLd (R) transforme une droite en une droite, le groupe SLd (R) agit sur Pr(V ).
Il agit donc aussi sur l’ensemble des mesures de probabilité sur cet espace par poussée en avant. Si η est
une mesure de probabilité sur Pr(V ), on note Stab(η) le stabilisateur de η, c’est-à-dire l’ensemble des
éléments g de SLd (R) tels que g∗ η = η.
Lemme 4.2.2. Soit η une mesure de probabilité sur Pr(V ). Ou bien le stabilisateur de η est un sousgroupe compact de SLd (R), ou bien il existe deux sous-espaces vectoriels non triviaux V1 et V2 de V tels
que la mesure η est supportée par Pr(V1 ) ∪ Pr(V2 ).
Démonstration. Notons H le stabilisateur de η et supposons que H n’est pas compact. On note (gn )
une suite de H sans valeur d’adhérence. On utilise la décomposition KAK pour écrire gn = U1,n Dn U2,n
avec Dn diagonale et U1,n , U2,n orthogonales. Par compacité du groupe orthogonal, la suite Dn n’a pas
de valeur d’adhérence non plus et on peut supposer que la norme de Dn tend vers l’infini. On écrit
Dn = diag(λ1,n , ..., λd,n ), λ1,n ≥ ... ≥ λd,n > 0 de sorte que λ1,n tend vers l’infini et λd,n tend vers
0 lorsque n tend vers l’infini. Par compacité, on peut supposer que kggnn k converge vers une matrice A
lorsque n tend vers l’infini. Puisque kgn k = λ1,n diverge vers l’infini, par continuité du déterminant, la
matrice limite A est non inversible (rappelons que les matrices gn sont dans SLd (R)). D’autre, part, pour
tout n, kggnn k est de norme 1, donc par continuité, A est également de norme 1 et en particulier A 6= 0.
Notons k la dimension du noyau A. Par ce qui précède, 0 < k < d. De même que l’espace projectif
Pr(V ), l’ensemble des sous-espaces vectoriels de V de dimension k forme un espace compact, appelé
Grasmannienne de dimension k. Le lecteur intéressé pourra consulter l’exemple 1.15 de [Lee13] pour une
construction précise de la Grasmannienne de dimension k. Dans la preuve qu’il s’agit bien d’une variété,
l’auteur explique qu’on peut recouvrir la Grasmannienne par un nombre fini de cartes, ce qui assure la
compacité. Dans le cadre de ce cours, on se contentera d’admettre la compacité. En particulier, on peut
supposer que les espaces gn ·(Ker(A)) convergent vers un espace de dimension k, que l’on note V1 . Notons
alors V2 l’image de A. Puisque 0 < k < d, V1 et V2 sont deux sous-espaces vectoriels non triviaux de V .
/ Pr(V1 ), alors kg1n k gn · v
Si v ∈ Pr(V1 ), alors gn · v converge vers la projection de v sur Pr(V1 ) et si v ∈
représente le même élément que gn · v dans Pr(V ), de sorte que gn · v converge vers Av dans Pr(V ),
puisque kg1n k gn · v converge vers Av 6= 0. En particulier, gn · v converge vers un point de Pr(V2 ).
Montrons enfin que la mesure η est supportée par Pr(V1 ) ∪ Pr(V2 ). Soit ϕ une fonction continue sur
l’espace compact Pr(V ) à support dans Pr(V ) \ (Pr(V1 ) ∪ Pr(V2 )). Puisque pour tout n, gn préserve η,
on a
Z
Z
Z
Z
ϕ(v)dη(v) =
ϕ(gn · v)dη(v) =
ϕ(gn · v)dη(v) +
ϕ(gn · v)dη(v).
Pr(V )
Pr(V )
Pr(V )\Pr(Ker(A))
Pr(Ker(A))
Par convergence dominée, les deux intégrales convergent vers 0, ce qui permet de conclure.
24
Pour achever la démonstration, procédons par l’absurde et supposons que kPµ k = 1. Alors, il existe
une suite de fonctions L2 de norme 1 (ξn ) telle que kPµ ξn −ξn k converge vers 0 lorsque n tend vers l’infini.
En effet, sinon, il existe une constante c > 0 telle que pour tout vecteur ξ de norme 1, kPµ ξ − ξk ≥ c,
de sorte que pour tout vecteur ξ, kPµ ξ − ξk ≥ ckξk. En particulier, puisque Pµ − Id est autoadjoint,
l’orthogonal de l’adhérence de son image est le même espace que son noyau, donc est nul, ce qui montre
que Pµ − Id est injectif et d’image dense, et que son inverse, défini sur l’espace dense Im(Pµ − Id) est
un opérateur borné (par 1/c). Ainsi, 1 n’est pas dans le spectre de Pµ . D’autre part, le supremum des
valeurs spectrales est la norme de Pµ , et le spectre est fermé, ce qui assure que 1 est valeur spectrale. On
aboutit donc à une absurdité. Pour plus de détails sur la théorie des opérateurs utilisée ici, on pourra
consulter le chapitre 6 de [AA02].
On considère donc une telle suite (ξn ). Alors, puisque kξn k = 1 et kPµ ξn −ξn k converge vers 0, kPµ ξn k
converge vers 1. Or
kPµ ξn − ξn k2 = kPµ ξn k2 + kξn k2 − 2hPµ ξn , ξn i −→ 0,
n→∞
donc hPµ ξn , ξn i converge vers 1 lorsque n tend vers l’infini. En utilisant Fubini, on obtient donc
Z
hg · ξn , ξn idµ(g) −→ 1,
n→∞
G
donc
Z
kg · ξn − ξn k2 dµ(g) −→ 0.
n→∞
G
Quitte à extraire, on a donc pour µ-presque tout g ∈ G que kg · ξn − ξn kL2 converge vers 0. Par l’inégalité
de Cauchy-Schwarz, appliquée à la fonction L1 g|ξn |2 − |ξn |2 , on obtient que kg · |ξn |2 − |ξn |2 kL1 converge
vers 0 pour µ-presque tout g.
On rappelle qu’on note λV la mesure de Lebesgue sur V . On considère pour chaque n la mesure
νn de densité |ξn |2 par rapport à λV , i.e. dνn = |ξn |2 dλV . Puisque kξn kL2 = 1, νn est une mesure de
probabilité sur V et par ce qui précède, g∗ νn − νn converge fortement vers 0. La mesure de Lebesgue est
sans atome et il en va de même des mesures νn de sorte que l’on peut considérer νn comme une mesure
de probabilité sur V \ {0}.
On dispose d’une projection de V \ {0} sur Pr(V ) et l’on considère la poussée en avant de νn par
cette projection. On obtient une mesure de probabilité ηn sur Pr(V ). Par compacité de l’espace projectif,
on peut extraire une suite de (ηn ) qui converge préfaiblement (voir les rappels d’analyse fonctionnelle
du deuxième chapitre de ce cours) vers une mesure limite que l’on note η et qui vérifie g∗ η = η pour
µ-presque tout g, puisque g∗ ηn − ηn converge fortement vers 0 pour µ-presque tout g. En particulier, le
groupe Gµ est un sous-groupe du stabilisateur de η.
On rappelle à présent qu’on a supposé Gµ non compact. Puisque Gµ est fermé, le stabilisateur de η
ne peut pas être compact et du lemme précédent on déduit l’existence de deux sous-espaces vectoriels
non triviaux V1 et V2 de V tels que la mesure η soit supportée par Pr(V1 ) ∪ Pr(V2 ).
Notons r le minimum des entiers k > 0 tels qu’il existe un sous-espace vectoriel W de V de dimension k
tel que η(Pr(W )) 6= 0. Alors, 1 ≤ r < d. Si W1 et W2 sont deux sous-espaces vectoriels distincts de même
dimension r, leur intersection est de dimension strictement plus petite, donc η(Pr(W1 )∩Pr(W2 )) = 0. On
en déduit que η(Pr(W1 ) ∪ Pr(W2 )) = η(Pr(W1 )) + η(Pr(W2 )). Plus généralement, si W1 , ..., Wm sont des
espaces vectoriels de dimension r, η(Pr(W1 ) ∪ ... ∪ Pr(Wm )) = η(Pr(W1 )) + ... + η(Pr(Wm )). Si > 0 est
fixé, il n’y a donc qu’un nombre fini de sous-espaces vectoriels W de dimension r tels que η(Pr(W )) ≥ .
et par conséquent, le supremum des nombres η(Pr(W )) pour W de dimension r est atteint. D’autre part,
si on note δ ce supremum, il n’y a qu’un nombre fini d’espaces W de dimension r tels que η(Pr(W )) = δ.
Notons F = {W1 , ..., Wl } ces espaces pour lesquels le supremum est atteint. Alors, si W ∈ F et g ∈ Gµ ,
η(Pr(g −1 W )) = η(g −1 Pr(W )) = η(Pr(W )), donc F est Gµ -invariant. Choisissons W dans F et désignons
par Γµ le stabilisateur de W . Alors, puisque F est fini, Γµ est d’indice fini dans Gµ . Enfin, Γµ stabilise
un sous-espace vectoriel de V non trivial. On a donc contredit le fait que Gµ est fortement irréductible.
On en déduit que kPµ k < 1 et donc que λ > 0, ce qui achève la preuve.
25
Références
[AA02]
Yuri Abramovich et Charalambos Aliprantis. An invitation to operator theory. American
Mathematical Society, 2002.
[AB06]
Charalambos Aliprantis et Kim Border. Infinite dimensional analysis, a hitchhiker’s
guide. Springer, 2006.
[Bir31]
George Birkhoff. « Proof of the ergodic theorem ». In : Proceedings of the National Academy
of Sciences of the United States of America 17 (1931), p. 70–82.
[Bou06]
Nicolas Bourbaki. Théorie des ensembles. Springer, 2006.
[Bou07]
Nicolas Bourbaki. Topologie générale chapitres 1 à 4. Springer, 2007.
[Bum13]
Daniel Bump. Lie Groups. Springer, 2013.
[Car40]
Henri Cartan. « Sur la mesure de Haar ». In : Comptes rendus de l’académie des sciences
de Paris 211 (1940), p. 759–762.
[Fek23]
Michael Fekete. « Über die Verteilung der Wurzeln bei gewissen algebraischen Gleichungen
mit ganzzahligen Koeffizienten ». In : Mathematische Zeitschrift 17 (1923), p. 228–249.
[FK60]
Harry Furstenberg et Harry Kesten. « Products of random matrices ». In : Annals of
mathematical statistics 31 (1960), p. 457–469.
[Fur63]
Harry Furstenberg. « Noncommuting random products ». In : Transactions of the American mathematical society 108 (1963), p. 377–428.
[GKR77]
Yves Guivarc’h, Michael Keane et Bernard Roynette. Marches aléatoires sur les groupes
de Lie. Springer, 1977.
[Kac47]
Mark Kac. « On the notion of recurrence in discrete stochastic processes ». In : Bulletin of
the American Mathematical Society 53 (1947), p. 1002–1010.
[Kak38]
Shizuo Kakutani. « Two fixed-point theorems concerning bicompact convex sets ». In : Proceedings of the Imperial Academy 14 (1938), p. 242–245.
[Kin76]
John Kingman. « Subadditive ergodic theory ». In : Annals of Probability 1 (1976), p. 883–
909.
[Lee13]
John Lee. Introduction to smooth manifolds. Springer, 2013.
[MT86]
Rached Mneimé et Frédéric Testard. Introduction à la théorie des groupes de Lie classiques.
Hermann, 1986.
[Neu32]
John von Neumann. « Proof of the Quasi-ergodic Hypothesis ». In : Proceedings of the National Academy of Sciences of the United States of America 18 (1932), p. 70–82.
[Par04]
William Parry. Topics in Ergodic Theory. Cambridge University Press, 2004.
[Per96]
Daniel Perrin. Cours d’algèbre. Ellipses, 1996.
[Poi90]
Henri Poincaré. « Sur le problème des trois corps et les équations de la dynamique ». In :
Acta Mathematica 13 (1890), p. 1–270.
[PS76]
George Pó1ya et Gabor Szegö. Problems and Theorems in Analysis. Springer, 1976.
[Rud91]
Walter Rudin. Functional analysis. McGraw-Hill, 1991.
[Wal82]
Peter Walters. An introduction to ergodic theory. Springer, 1982.
[Wei79]
André Weil. L’intégration dans les groupes topologiques et ses applications. Hermann, 1979.
26
Téléchargement