Introduction à la théorie ergodique Cours de licence 3, ENS Lyon Cours de Cyril Houdayer Printemps 2014 Ces notes sont celles d’un cours de première année donné en 2014 à l’ENS Lyon par Cyril Houdayer. Elles ont été tapées par Matthieu Dussaule. Ce cours a été donné dans le cadre d’un prémaster, c’està-dire un cours de niveau master adressé à des étudiants en licence pendant un demi-semestre. Il s’agit d’une introduction à la théorie ergodique. Il existe autant de façon d’enseigner la théorie ergodique que d’enseignants (selon les mots de l’enseignant) et ce texte est donc imprégné du point de vue de Cyril Houdayer. On présentera d’abord les systèmes dynamiques mesurés et topologiques puis on abordera les grands théorèmes ergodiques. La dernière partie est un exemple d’utilisation de la théorie ergodique, on y étudie les marches aléatoires dans SLd (R). Il existe de nombreuses références en théorie ergodique. On conseille par exemple la lecture de [Wal82], livre très complet et qui couvre très largement les trois premiers chapitres de ce cours. On conseille également de lire [Par04] dans la même optique. Table des matières 1 Systèmes dynamiques mesurables 1.1 Rotations du cercle et décalages de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Notions d’ergodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Autour de la récurrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 2 5 2 Systèmes dynamiques topologiques 8 2.1 Quelques rappels en analyse fonctionnelle et en théorie de la mesure . . . . . . . . . . . . 8 2.2 Unique ergodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3 Les 3.1 3.2 3.3 théorèmes ergodiques 14 Le théorème de von Neumann . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Le théorème de Birkhoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Le théorème de Kingman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4 Marches aléatoires dans SLd (R) 21 4.1 Le groupe SLd (R) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4.2 Premier exposant de Lyapounov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1 1 Systèmes dynamiques mesurables 1.1 Rotations du cercle et décalages de Bernoulli Soit (X, X , µ) un espace de probabilité, c’est-à-dire que X est une tribu sur X et µ une mesure de probabilité pour la tribu X . Considérons une transformation mesurable T : (X, X ) → (X, X ). On peut alors définir la mesure poussée en avant T∗ µ par T∗ µ(U ) = µ(T −1 U ) pour U une partie mesurable de X. C’est encore une mesure de probabilité. Définition 1.1.1. On dit qu’une telle transformation T préserve la mesure si T∗ µ = µ. Dans ce cas, on dit que (X, X , µ, T ) est un système dynamique qui préserve la mesure, abrégé dorénavant en système dynamique qpm. Remarque 1.1.1. Il suffit de vérifier que µ(T −1 U ) = µ(U ) pour U dans une sous-partie C de X stable par intersection finie et telle que σ(C) = X . Lemme 1.1.2. Soit T une transformation mesurable. Alors T préserve la mesure µ si et seulement si pour toute fonction f ∈ L1 (X, X , µ), Z Z f ◦ T dµ = f dµ. X X Les deux premiers exemples de systèmes dynamiques qpm sont les rotations du cercle et les décalages de Bernoulli. 1. Rotations sur le cercle On note S1 = T1 = R/Z. C’est un groupe compact. On le munit de la mesure de Lebesgue régularisée pour que la masse totale soit 1. Cette mesure est invariante par rotation. Soit α ∈ R, on pose Tα : T1 → T1 2iπα x 7→ e x Alors Tα préserve la mesure de Lebesgue. En fait, plus généralement, si G est un groupe compact, on peut le munir d’une mesure de probabilité invariante par translation à gauche et à droite et de masse finie. De plus, si on impose que la mesure soit une mesure de probabilité, alors elle est unique. On l’appelle mesure de Haar. Alors, la translation Tg : x ∈ G 7→ gx ∈ G préserve la mesure de Haar par définition. 2. Décalage de Bernoulli Soit (X, X , µ) un espace de probabilité. On pose Y = X N (l’ensemble des suites de X, qu’on interprète aussi comme l’ensemble des mots infinis écrits avec l’alphabet X), Y = X ⊗N et ν = µ⊗N les tribus et mesures produits. On considère alors T : XN → XN (xn ) 7→ (xn+1 ) Alors T préserve la mesure. On l’appelle décalage de Bernoulli, ou bien shift dans la littérature anglaise. On rappelle à ce propos que la tribu X ⊗N est engendrée par les cylindres, c’est-à-dire les ensembles de la forme {xk1 = ω1 , ..., xkm = ωm }, où m ∈ N∗ , k1 , ..., km ∈ Z, ω1 , ..., ωm ∈ X. Pour tout > 0 et pour toute partie mesurable U ∈ X ⊗N , on peut trouver une réunion finie de cylindres V ∈ X ⊗N telle que µ(U ∆V ) ≤ . Autrement dit, on peut approximer de manière aussi fine que l’on veut toute partie mesurable par une réunion finie de cylindres. Si C = {xk1 = ω1 , ..., xkm = ωm } est un cylindre, l’ensemble {ω1 , ..., ωm } est appelé support de C. On dit que deux cylindres sont indépendants si leurs supports sont disjoints. Cette appellation est justifiée puisque la mesure d’une intersection de deux cylindres indépendants est le produit des mesures des deux cylindres. 1.2 Notions d’ergodicité On considère maintenant un système dynamique qpm (X, X , µ, T ). On dit que T est ergodique pour µ ou bien que µ est ergodique pour T (selon le point de vue) si pour toute partie mesurable U de X telle que T −1 U = U , µ(U ) ∈ {0, 1}. Autrement dit, toute partie invariante par T est soit pleine soit négligeable. On définit l’opérateur de Koopman UT : L2 (X, X , µ) → L2 (X, X , µ) ξ 7→ ξ◦T 2 C’est un opérateur unitaire. En effet, Z Z Z (ξη) ◦ T dµ = ξηdµ = hξ, ηi. hUT (ξ), UT (η)i = (ξ ◦ T )(η ◦ T )dµ = X X X Cet opérateur a toujours 1 pour valeur propre, puisque UT (1X ) = 1X . Il est relié à la notion d’ergodicité par le théorème suivant. Théorème 1.2.1. Soit (X, X , µ) un système dynamique qpm, alors les conditions suivantes sont équivalentes : 1. T est ergodique, 2. pour toute partie mesurable U de X, si µ(T −1 U ∆U ) = 0, alors µ(U ) ∈ {0, 1}, S −n 3. pour toute partie mesurable U de X telle que µ(U ) > 0, µ( T U ) = 1, n∈N 4. pour toutes parties mesurables U et V de X telles que µ(U ), µ(V ) > 0, il existe un entier n tel que µ(T −n U ∩ V ) > 0, 5. toute fonction mesurable f : X → C telle que f ◦ T = f est constante µ-p.p., 6. 1 est valeur propre simple de UT . Démonstration. On va montrer deux chaînes d’implications : 1⇒2⇒3⇒4⇒1 et 3⇒5⇒6⇒1. Supposons donc que T est ergodique. Soit U ∈ X tel que µ(T −1 U ∆U ) = 0. On note [ \ Vn := T −k U, V := Vn . n k≥n C’est-à-dire que V est la limite supérieure des ensembles T −n U . Puisque T −1 Vn = Vn+1 , on a T −1 V = V , donc par ergodicité, µ(V ) ∈ {0, 1}. Considérons à présent U ∆Vn . Par définition, cet ensemble est inclus dans l’union [ (U ∆T −k U ). k≥n Or, U ∆T −k U est lui-même inclus dans l’union k−1 [ T −j U ∆T −(j+1) U. j=0 Enfin, µ(T −j U ∆T −(j+1) U ) = µ(T −j (U ∆T −1 U )) = µ(U ∆T −1 U ) = 0. Finalement, µ(U ∆Vn ) = 0, donc µ(U ∆V ) = 0. On a donc µ(V ) = µ(U ∆V ) ∈ {0, 1}, et par conséquent, µ(U ) ∈ {0, 1}. Supposons à présent la propriété 2 vérifiée : pour toute partie mesurable U de X, si µ(T −1 U ∆U ) = 0, alors µ(U ) ∈ {0, 1}. S Soit U ∈ X de mesure strictement positive. On pose V = n T −n U . Alors T −1 V ⊂ V et µ(T −1 V ) = µ(V ), donc µ(V \ T −1 V ) = 0. Puisque T −1 V ⊂ V , on a V \ T −1 V = V ∆T −1 V , donc en appliquant la propriété 2, µ(V ) ∈ {0, 1}. Enfin, U ⊂ V et µ(U ) > 0, donc µ(V ) = 1. Supposons maintenant la propriété 3 vérifiée : S pour toute partie mesurable U de X telle que µ(U ) > 0, µ( n∈N T −n U ) = 1. S Soient U, V ∈ XSde mesures strictement positives. En appliquant la propriété 3, µ( n T −n U ) = 1, donc µ(V ) = µ(V ∩ n T −n U ). Puisque V est de mesure strictement positive, il en va de même de l’un des membres de cette union. Supposons enfin la propriété 4 vérifiée : pour toutes parties mesurables U et V de X telles que µ(U ), µ(V ) > 0, il existe un entier n tel que µ(T −n U ∩ V ) > 0. Montrons que T est ergodique. Soit U ∈ X tel que T −1 U = U . Alors µ(U ∩ (X \ U )) = 0, ce qu’on récrit µ(T −n U ∩ (X \ U )) = 0, pour tout n ∈ N, de sorte que soit µ(U ) = 0 soit µ(X \ U ) = 0, puisqu’on a supposé la propriété 4 vérifiée. Ainsi, µ(U ) = 0 ou µ(U ) = 1. 3 On a donc montré 1⇒2⇒3⇒4⇒1. Supposons maintenant la propriété 3 vérifiée. Soit f : X → C une fonction borélienne. On suppose que f = f ◦ T µ-presque partout. Quitte à raisonner sur parties réelles et parties imaginaires, on peut supposer que f est à valeur réelle. On note Ut := {x ∈ X, f (x) ≥ t}. C’est un ensemble mesurable et t 7→ µ(Ut ) est une fonction décroissante. Puisque f = f ◦ T presque partout, µ(Ut ∆T −1 Ut ) = 0, donc µ(Ut ) ∈ {0, 1}. Ainsi, il existe t ∈ R tel que pour s < t, µ(Us ) = 1 et pour s > t, µ(Us ) = 0. On en conclut que f = t µ-p.p. Supposons que la propriété 5 est vérifiée : toute fonction mesurable f : X → C telle que f ◦ T = f est constante µ-p.p. Par définition, un vecteur propre de UT pour la valeur propre 1 est une fonction qui vérifie f = f ◦ T µ-p.p., donc tout vecteur propre pour la valeur propre 1 est proportionnel à 1X dans L2 (X, X , µ). Supposons enfin que 1 est valeur propre simple de UT . On montre que T est ergodique. Soit U ∈ X tel que T −1 U = U . Considérons la fonction 1U . Alors c’est par définition un vecteur propre de UT pour la valeur propre 1, de sorte que 1U est proportionnelle à 1X . On en déduit que µ(U ) ∈ {0, 1}. On a donc montré 3⇒5⇒6⇒1, ce qui achève la preuve. Remarque 1.2.1. Il est utile d’interpréter la propriété 3 ainsi : on ne peut pas casser le système dynamique mesuré en deux sous-systèmes non triviaux. Remarque 1.2.2. Les propriétés 5 et 6 énoncent la même chose, l’une pour les fonctions mesurables, l’autre pour les fonctions L2 . En pratique, il suffit donc de vérifier que la propriété f = f ◦ T ⇒ f est constante pour les fonctions f qui sont L2 . Revenons aux exemples dont on a déjà discuté, les rotations du cercle et les décalages de Bernoulli. Proposition 1.2.2. Une rotation du cercle Tα : T1 → T1 est ergodique pour la mesure de Lebesgue (mesure de Haar) si et seulement si α est irrationnel. Démonstration. On donne une preuve, particulièrement efficace, qui fait appel aux séries de Fourier. On considère les fonctions ek : x ∈ T1 7→ xk ∈ C, pour k ∈ Z. Les (ek ) forment une base orthonormée de L2 (T1 , B, λT1 ) (d’après la théorie de Fourier). Supposons que α est irrationnel. Soit f : T1 → C une fonction L2 telle que f = f ◦ Tα . Alors en notant ck le k-ième coefficient de Fourier de f (k ∈ Z), on a X kf k22 = |ck |2 k∈Z et puisque f = f ◦ Tα , ck = e2iπkα ck . P Pour k 6= 0, on a donc ck = 0. Enfin f = k∈Z ck ek dans L2 , de sorte que f est constante presque partout. On a donc prouvé que T est ergodique. Réciproquement, si α = pq ∈ Q, on a eq ◦ Tα = eq et eq n’est pas presque partout constante, donc T n’est pas ergodique. Proposition 1.2.3. Le décalage de Bernoulli T : (X N , X ⊗N , µ⊗N ) → (X N , X ⊗N , µ⊗N ) est ergodique. Démonstration. Soit U ∈ X ⊗N tel que T −1 U = U et soit > 0. Il existe une réunion finie de cylindres V telle que µ(U ∆V ) ≤ . Il existe un entier n ∈ N, tel que T −n V et V aient des supports disjoints. En particulier, T −n V et X N \ V sont indépendants, donc µ⊗N (T −n V ∩ (X N \ V )) = µ⊗N (T −n V )µ⊗N (X N \ V ) et puisque T préserve la mesure, µ⊗N (T −n V ∩ (X N \ V )) = µ⊗N (V )µ⊗N (X N \ V ). D’autre part, en revenant à U , on a µ⊗N (U )µ⊗N (X N \ U ) ≤ (µ⊗N (V ) + )(µ⊗N (X N \ V ) + ) ≤ µ⊗N (V )µ⊗N (X N \ V ) + 2 + 2 . 4 Enfin, µ⊗N (T −n V ∩ (X N \ V )) ≤ µ⊗N (T −n V ∆V ) ≤ µ⊗N (T −n V ∆U ) + et en utilisant que T −1 U = U , µ⊗N (T −n V ∩ (X N \ V )) ≤ µ⊗N (T −n (V ∆U )) + ≤ µ⊗N (V ∆U ) + ≤ 2. Finalement, pour tout > 0, µ⊗N (U )µ⊗N (X N \ U ) ≤ 4 + 2 et donc µ⊗N (U ) ∈ {0, 1}. Ainsi, T est ergodique. 1.3 Autour de la récurrence Le principe de la récurrence au sens dynamique est de formaliser l’idée qu’avec une transformation chaotique, on repasse une infinité de fois par le même endroit. On va donner une version qualitative et une version quantitative de ce principe. Soit (X, X , µ, T ) un système dynamique qui préserve la mesure et soient U ⊂ X et x ∈ U . On dit que x est récurrent si T (x) repasse une infinité de fois dans U . Théorème 1.3.1 (Récurrence de Poincaré). Soit U ∈ X . Presque tout point de U est récurrent. Formellement, il existe V ⊂ U mesurable tel que µ(U ) = µ(V ) et tel que pour tout x ∈ V , on peut trouver une suite strictement croissante nk de N telle que pour tout k, T nk (x) ∈ U . Ce théorème a été publié par Henri Poincaré dans le très célèbre mémoire [Poi90]. Remarque 1.3.1. Dans le cas où U est de mesure nulle, ce théorème ne dit rien. En effet, on peut choisir V = ∅ et obtenir la même conclusion. Par contre, dès que U est suffisamment gros (de mesure strictement positive), le théorème s’applique et a une véritable signification. S Démonstration. Soit n ∈ N. On pose Wn = k≥n T −k U . Par définition, T Wn = T −n W0 et (Wn ) est une suite décroissante. Puisque T ∗ µ = µ, on a µ(Wn ) = µ(W0 ). Ainsi, µ( n∈N Wn ) = µ(W0 ) (car µ est finie). Posons alors ! \ −n V = U ∩ lim supT U = U ∩ Wn . n∈N Alors µ(U ) = µ(V ) et V convient. Cette propriété de récurrence est particulièrement intéressante lorsque le système dynamique est inversible. On dit qu’un système dynamique qui préserve la mesure (X, X , µ, T ) est inversible lorsque T est une application bi-mesurable, i.e. mesurable, bijective et d’inverse mesurable. On a alors par définition que T −1 préserve aussi la mesure. Pour un tel système, si U ⊂ X est mesurable, de mesure strictement positive et si x ∈ U , on pose ΩU (x) = inf{n ≥ 1, T n (x) ∈ U }. D’après le théorème de récurrence de Poincaré, pour presque tout point x de U , ΩU (x) est fini. On définit alors TU : x ∈ U 7→ T ΩU (x) (x) ∈ U . On appelle TU l’application de premier retour en U , ou application induite par T sur U . On observe que ΩU : U → N S∪ {∞} est mesurable. En effet, pour n ∈ N, on pose Un = {x ∈ U, ΩU (x) = n}. Alors n−1 −n Un = T U \ j=1 Uj , donc par récurrence, pour tout n, Un est mesurable. D’autre part, le lieu S infini de ΩU est U \ j∈N Uj , donc c’est également un ensemble mesurable. Ainsi, TU est bien une application mesurable. Remarque 1.3.2. On n’a en fait pas besoin de l’inversibilité du système dynamique pour définir ΩU et TU , mais ce sera le cas pour toutes les propriétés qu’on va énoncer maintenant. On rappelle qu’on note Un = {x ∈ U, ΩU (x) = n}. On note également U∞ = {x ∈ U, ΩU (x) = ∞}, Xn = {x ∈ X, ΩU (x) = n} et X∞ = {x ∈ X, ΩU (x) = ∞}. On a ainsi Un = Xn ∩ U . Puisque le système dynamique est inversible, T −n est une application mesurable, donc T n (Un ) est mesurable. On peut ainsi presque partout décomposer l’application TU en une somme disjointe d’applications G TU : U → U = T n : Un → T n (Un ). µ−p.p. n≥1 5 On appelle n-ième tour Un t T Un t ... t T n−1 Un et on appelle gratte-ciel F de Kakutani l’ensemble n−1 de Kakutani l’ensemble n≥1 (Un t ... t T Un ). Il sera utile de considérer le sous-espace de probabilité engendré par U : On note U la sous-tribu 1 engendrée par U , c’est-à-dire U = {U ∩ V, V ∈ X } et on pose µU (U ∩ V ) = µ(U ) µ(U ∩ V ) (on rappelle qu’on a choisi U tel que µ(U ) > 0). Avec ces notations, (U, U, µU ) et un espace de probabilité, muni d’une application mesurable TU (en effet, on a déjà montré que TU préserve la mesure µ, on en déduit que TU préserve également la mesure µU . Proposition 1.3.2. Avec les mêmes notations et toujours sous l’hypothèse que T est bi-mesurable, si T est ergodique pour µ, alors TU est ergodique pour µU . Démonstration. Supposons que TU n’est pas ergodique. Il existe donc V ⊂ U tel que TU (V ) = V µ − p.p. F Fn−1 et 0 < µ(V ) < µ(U ). On définit W := n≥1 j=0 T j (V ∩ Un ). F Fn−1 F Fn Alors F T W = W µ − p.p. En effet, T (W ) F = n≥1 j=0 T j+1 (V ∩ Un ) = n≥1 j=1 T j (V ∩ Un ). Or, µ − p.p., n≥1 T n (V ∩ Un ) = TU (V ) = V = n≥1 V ∩ Un . Il suffit donc de montrer que 0 < µ(W ) < 1 pour conclure que T n’est pas ergodique. Déjà, V ⊂ W et 0 < µ(V ), donc 0 < µ(W ). On montre à présent que µ((U \ V ) ∩ W ) = 0, ce qui permet de conclure, car alors µ((U \ V ) ∪ W ) = µ(U \ V ) + µ(W ) et par le choix de V , µ(U \ V ) 6= 0, donc µ(W ) < 1. Pour montrer cela, on montre que pour tous 0 ≤ j ≤ n − 1, µ((U \ V ) ∩ T j (V ∩ Un )) = 0 et pour montrer cela, on montre que pour tout m, pour tous 0 ≤ j ≤ n − 1, µ((Um \ V ) ∩ T j (V ∩ Un )) = 0. 1. Si j = 0, alors soit m 6= n, dans ce cas Un et Um sont disjoints, soit m = n, dans ce cas Un \ V et Un ∩ V sont disjoints. Dans tous les cas, la mesure à laquelle on s’intéresse est nulle. 2. Si 1 ≤ j ≤ n − 1, alors T j (V ∩ Um ) ∩ U = ∅, mais Un ⊂ U , ce qui permet également de conclure. La version quantitative du théorème de Poincaré est énoncée dans la proposition suivante. C’est un résultat dû à Mark Kac [Kac47]. Proposition 1.3.3 (Kac). Soit (X, X , µ, T ) un système dynamique qui préserve la mesure. On suppose de plus que le système est ergodique. Soit U ∈ X de mesure non nulle. Alors, avec les mêmes notations que précédemment, Z ΩU dµ = 1 U et le gratte-ciel est de mesure pleine. Démonstration. Le gratte-ciel est de mesure pleine car U qui est de mesure strictement positive. Donc 1= X n−1 X F n≤1 µ(T j Un ) = n≥1 j=0 F X 0≤j≤n−1 T j Un est T -invariant et contient nµ(Un ), n≥1 puisque T préserve la mesure. D’autre part, (ΩU )|Un = n, donc Z XZ 1= ΩU dµ = ΩU dµ. n≥1 Un U Le lemme suivant (appelé traditionnellement lemme, bien que son importance en théorie ergodique soit capitale) a été prouvé indépendamment par Shizuo Kakutani (1943) et Vladimir Rohlin (1948). On rappelle qu’une mesure borélienne µ sur un espace X est dite extérieurement régulière si pour tout borélien B, la mesure de B est l’infimum des mesures des ouverts qui contiennent B. Lemme 1.3.4 (Lemme de Kakutani-Rohlin). Soit (X, X , µ, T ) un système dynamique qui préserve la mesure. On suppose de plus que la mesure est borélienne et extérieurement régulière et que les ouverts sont de mesure non nulle. On le suppose de plus inversible et ergodique et on suppose que µ est sans atome. Alors, pour tout > 0 F et pour tout entier n ≥ 1, il existe V ∈ X tel que V, T V, ..., T n−1 V sont deux-à-deux disjoints et µ(X \ 0≤j≤n−1 T j V ) ≤ . 6 Remarque 1.3.3. La condition d’être extérieurement régulière est importante comme on va le voir dans la démonstration, mais n’est pas très difficile à obtenir. Par exemple toute mesure borélienne finie sur un espace métrique est extérieurement régulière. On n’entrera pas dans les détails ici, mais les espaces de probabilité les plus importants et ceux qu’on rencontre en pratique dans la nature sont les espaces standards, ou espaces de Lebesgue. Ils ont été introduits et étudiés par V. Rohlin. La condition que les ouverts soient de mesure non nulle est vérifiée pour ces espaces. Démonstration. Soient > 0 et n ≥ 1 un entier. Puisque la mesure µ n’a pas d’atome et qu’elle est extérieurement régulière, il existe un ouvert U de mesureFarbitrairement petite. Soit donc U un ouvert F tel que 0 < µ(U ) < n . Par ergodicité de T , on écrit X = n≥1 0≤j≤n−1 T j Un . Définissons alors V par V := G G T jn Uk . k≥n 0≤j≤bk/nc−1 F F F F Alors T V = k≥n 0≤j≤bk/nc−1 T jn+1 Uk , · · · , T n−1 V = k≥n 0≤j≤bk/nc−1 T jn+n−1 Uk et ces ensembles sont deux-à-deux disjoints. Par ailleurs, X X X µ(X \ V t T V t · · · t T n−1 V ) ≤ nµ(Uk ) + (n − 1)µ(Uk ) ≤ n µ(Uk ) ≤ nµ(U ) ≤ . k≥n 1≤k≤n−1 7 k≥1 2 Systèmes dynamiques topologiques On aborde à présent l’étude des systèmes dynamiques toologiques. Le cadre qu’on se fixe est celui d’un espace métrique (X, d) compact muni d’une transformation T : X → X continue. On dit que (X, T ) est un système dynamique topologique. La question qu’on se pose est la suivante : quelles sont les mesures qui préservent T ? On aura besoin de quelques résultats d’analyse fonctionnelle. On ne prouvera pas tout et pour (beaucoup) plus de détails, on réfère par exemple à [AB06] ou à [Rud91] (selon les goûts). 2.1 Quelques rappels en analyse fonctionnelle et en théorie de la mesure On considère l’espace M(X) des mesures signées boréliennes complexes à variations bornées sur X. Cet espace est normé par exemple par kµk := |µ|(X). On appelle cette norme la norme de variation totale de µ (voir les paragraphes 10.2 pour la définition des mesures signées et 10.10 pour celle de la norme de variation totale de [AB06]). On rappelle simplement que X |µ|(X) := sup{ |µ(Aj )|}, j∈J F où le supremum est pris sur toutes les partitions finies X = j∈J Aj de X. Un théorème de représentation (corollaire 14.15 de [AB06]) nous donne alors que l’application Z 0 µ ∈ M(X) 7→ f 7→ f dµ ∈ C 0 (X) est surjective et isométrique. 0 On rappelle également que la topologie préfaible sur C 0 (X) est décrite par la convergence préfaible : on dit qu’une suite (µn ) converge préfaiblement vers µ si pour toute fonction continue f sur X, l’intégrale de f selon µn converge vers l’intégrale def selon µ. La topologie préfaible est moins 0 fine que la topologie définie par la norme duale sur C 0 (X) , c’est-à-dire que la convergence en norme implique la convergence préfaible. Le théorème suivant, dit de Banach-Alaoglu est très important (voir théorème 6.21 dans [AB06]). Théorème 2.1.1. La boule unité de M(X) est préfaiblement compacte. D’autre part, puisque X est compact, C 0 (X) est séparable (cf théorème de Stone-Weirestrass) et on obtient le théorème suivant (voir théorème 6.30 dans [AB06]). Théorème 2.1.2. La boule unité de M(X) est métrisable. Enfin, l’espace des mesures de probabilité Prob(X) := {µ ∈ M(X), f ≥ 0 ⇒ µ(f ) ≥ 0, µ(X) = 1} est un sous-espace convexe et fermé pour la topologie de la norme sur M(X). On en déduit que c’est un fermé de la boule unité de M(X) pour la topologie préfaible (voir théorème 5.98 dans [AB06]). En particulier, il est lui aussi compact pour la topologie préfaible. On déduit de tout ceci que si (µn ) est une suite de mesures de probabilité sur X, il existe une soussuite (µσ(n) ) de (µn ) qui converge en topologie préfaible vers une mesure de probabilité µ, i.e. pour toute fonction continue f sur X, l’intégrale de f selon µσ(n) converge vers l’intégrale de f selon µ. Soit à présent T : X → X une application continue. On dispose alors de la poussée en avant T∗ µ d’une mesure de probabilité µ. On a donc une application T∗ : µ ∈ Prob(X) 7→ T∗ µ ∈ Prob(X). Cette application et préfaiblement continue. Ainsi, si µn converge préfaiblement vers µ, alors T∗ µn converge préfaiblement vers T∗ µ. Le théorème suivant a été démontré d’abord par Markov en 1936 puis par Kakutani dans un cadre plus général en 1938 C’est un résultat de point fixe. On ne l’énonce que dans un cadre particulier dans lequel on sera en mesure de donner une preuve. Pour un énoncé général et une preuve complète, voir [Kak38]. Théorème 2.1.3 (Markov-Kakutani). Soit T : X → X une application continue (X est toujours un espace métrique compact). Alors il existe une mesure de probabilité µ sur X telle que T∗ µ = µ. Démonstration. On part d’une mesure de probabilité ν quelconque sur X, par exemple un Dirac en un point. On pose alors X 1 T∗k ν. νn = n+1 0≤k≤n 8 Alors νn est encore une mesure de probabilité. On extrait de cette suite (νn ) une sous-suite convergente (νσ(n) ). On note ν la mesure de probabilité limite. Alors, kT∗ νσ(n) − νσ(n) k ≤ 1 2 σ(n)+1 kν − T∗ νk ≤ . σ(n) + 1 σ(n) + 1 En particulier, T∗ νσ(n) − νσ(n) converge fortement, donc préfaiblement vers 0 et donc T∗ νσ(n) converge préfaiblement vers ν. Par continuité, T∗ νσ(n) converge préfaiblement vers T∗ ν, donc T∗ ν = ν. Remarque 2.1.1. Pour conclure, on a utilisé que la topologie de la convergence préfaible est séparée. Précisément, si µn converge préfaiblement vers µ et vers ν, alors µ = ν. En effet, pour toute fonction continue f , on a alors µ(f ) = ν(f ) = lim µn (f ). Puisque la mesure est finie, toutes les fonctions indicatrices sont intégrables. On utilise alors la densité des fonctions continues dans les fonctions intégrables (voir théorème 13.9 dans [AB06]) pour conclure : pour tout borélien A de X, µ(A) = ν(A). On notera à présent ProbT (X) l’ensemble des mesures de probabilité T -invariantes : ProbT (X) := {µ ∈ Prob(X), T∗ µ = µ}. L’ensemble ProbT (X) est convexe dans l’espace vectoriel M(X). De manière générale, si K est un convexe d’un espace vectoriel E et si x ∈ K est un point quelconque de K, on dit que x est un point extrémal ou plus simplement que x est extrémal si x ne peut pas s’écrire comme somme convexe de deux points différents de lui-même, i.e. si l’égalité x = ty + (1 − t)z, où t ∈ [0, 1] implique que x = y ou que x = z. La proposition suivante donne une nouvelle caractérisation des mesures µ ergodiques pour T . On utilisera le théorème de décomposition de Radon-Nikodym-Lebesgue, valable pour des mesures σ-finies, donc en particulier pour des mesures de probabilité (voir le théorème 10.61 pour la partie décomposition du théorème et le théorème 13.18 pour la partie dérivée de Radon-Nikodym dans [AB06]). Si µ et ν sont deux mesures sur un espace mesuré (X, X ), on dit que µ est absolument continue par rapport à ν, ce qu’on note µ << ν, si pour tout ensemble mesurable A tel que ν(A) = 0, µ(A) = 0. On dit qu’une mesure λ sur (X, X ) est concentrée sur un ensemble mesurable E si pour tout ensemble mesurable A, µ(A \ E) = 0. On dit aussi que µ et ν sont étrangères, ce qu’on note µ ⊥ ν, s’il existe un ensembe mesurable E tel que µ est concentrée sur E et ν est concentrée sur X \ E. On utilisera précisément le résultat suivant. Théorème 2.1.4. Soient µ et ν deux mesures de probabilité (plus généralement σ-finies) sur un espace mesuré (X, X ). Alors il existe un unique couple (µ1 , µ2 ) de mesures finies (plus généralement σ-finies) telles que µ = µ1 + µ2 avec µ1 << ν et µ2 ⊥ ν. D’autre part, il existe une unique (à égalité ν-presque partout près) fonction mesurable et positive f sur X telle que pour tout ensemble mesurable A, Z µ1 (A) = f dν. A On appelle f la dérivée de Radon-Nikodym de µ1 par rapport à ν. En particulier, si µ << ν, on obtient qu’il existe une dérivée de Radon-Nikodym de µ par rapport à ν. Théorème 2.1.5. Soit (X, d) un espace métrique (on n’a pas besoin de le supposer compact dans ce théorème) et soit T : X → X une application borélienne. Soit µ ∈ ProbT (X) une mesure T -invariante. Alors µ est ergodique pour T si et seulement si µ est un point extrémal de ProbT (X). Démonstration. Supposons µ non ergodique. Alors, il existe un ensemble borélien U tel que T −1 U = U 1 1 avec µ(U ) ∈]0, 1[. On définit µ1 = µ(U ) µ|U et µ2 = µ(X\U ) µ|X\U de sorte que µ1 et µ2 sont deux mesures de probabilité T -invariantes distinctes de µ et telles que µ = µ(U )µ1 + (1 − µ(U ))µ2 . Ainsi, µ n’est pas extrémal dans ProbT (X). Réciproquement, supposons que µ est ergodique. Soient µ1 , µ2 deux mesures T -invariantes et t ∈]0, 1[ tels que µ = tµ1 + (1 − t)µ2 . En particulier, µ1 << µ. On note f la dérivée de Radon-Nikodym de µ1 par rapport à µ. Il suffit de montrer que f = 1 µ-presque partout pour en conclure que µ1 = µ. On pose U = {x ∈ X, f (x) < 1}. Alors, on a la décomposition suivante : Z Z −1 −1 µ1 (U ) = µ1 (U ∩ T U ) + µ1 (U \ T U ) = f dµ + f dµ. U ∩T −1 U 9 U \T −1 U De même, on décompose µ1 (T −1 U ) en µ1 (T −1 Z Z U) = f dµ + T −1 U ∩U f dµ. T −1 U \U Puisque µ1 est T -invariante, µ1 (U ) = µ1 (T −1 U ). En particulier, Z Z f dµ = f dµ. U \T −1 U T −1 U \U Or, µ est elle aussi T -invariante, donc µ(T −1 U \ U ) = µ(U \ T −1 U ). D’autre part, sur U \ T −1 U , f (x) < 1 et sur T −1 U \U , f (x) ≥ 1. Donc µ(T −1 U \U ) = µ(U \T −1 U ) = 0. On en déduit que µ(U ∆T −1 U ) ∈ {0, 1} de sorte que µ(U ) = 0 par ergodicité de µ. Si µ(U ) = 1, alors on obtient Z 1 = µ(U ) = f dµ, U ce qui est absurde puisque f < 1 sur U . Donc µ(U ) = 0 et f ≥ 1 µ-presque partout. De même, on montre que f ≤ 1 µ-presque partout de sorte que f = 1 µ-presque partout et donc µ1 = µ, donc µ est extrémale dans ProbT (X). On remarque qu’on a montré que si µ et ν sont T -invariantes avec ν ergodique et si µ << ν, alors en fait µ = ν, fait que l’on réutilisera dans la preuve de la proposition suivante. Proposition 2.1.6. Avec les mêmes notations que dans le théorème précédent, si µ1 et µ2 sont deux mesures T -invariantes et ergodiques pour T , alors soit µ1 et µ2 sont étrangères, soit elles sont égales. Démonstration. Utilisons la décomposition de Radon-Nikodym-Lebesgue de µ1 par rapport à µ2 et écrivons donc µ1 = tν1 + (1 − t)ν2 où ν1 et ν2 sont deux mesures de probabilité sur X, ν1 << µ2 et ν2 ⊥ µ2 . Or µ1 et µ2 sont toutes deux T -invariantes, de sorte que µ1 = tT∗ ν1 +(1−t)T∗ ν2 avec T∗ ν1 << T∗ µ2 = µ2 et T∗ ν2 ⊥ T∗ µ2 = µ2 . On obtient donc une nouvelle décomposition de Radon-Nikodym-Lebesgue de µ1 par rapport à µ2 et par unicité, on en conclut que tT∗ ν1 = tν1 et (1 − t)T∗ ν2 = (1 − t)ν2 . Puisque µ1 est extrémale car ergodique on en conclut que µ1 = ν1 ou µ1 = ν2 . Dans le premier cas, µ1 << µ2 mais puisque µ2 est ergodique, on en conclut que µ1 = µ2 et dans le deuxième cas, on a bien µ1 ⊥ µ2 . On généralise la définition de point extrémal qu’on a donnée. On considère un espace vectoriel normé E. On suppose que la topologie préfaible sur l’espace vectoriel dual continu de E est séparée (typiquement dans notre situation où le dual continu est l’espace des mesures signées à variations bornées). Si K ⊂ E 0 est convexe, non vide et compact pour la topologie préfaible, en particulier il est fermé préfaible (dans un espace séparé tout compact est fermé, voir [Bou07][I,9]). Ainsi, si A est une partie de E 0 incluse dans K, son adhérence A est également incluse dans K. Soit A une telle partie, qu’on suppose non vide. On dit que A est extrémale si quels que soient x, y ∈ K et t ∈]0, 1[, si tx + (1 − t)y ∈ A, alors x, y ∈ A. C’est vraiment une généralisation de ce qui précède. En effet, puisque la topologie préfaible est séparée, les singletons sont des fermés préfaibles (voir [Bou07][I,8]), donc un point x est extrémal si et seulement si la partie {x} l’est. Tout comme le lemme de Markov-Kakutani plus haut, le prochain résultat qu’on va citer ne sera pas énoncé dans sa forme la plus générale. Il s’agit du théorème de Krein-Milman. Le résultat qu’on donne maintenant est le corollaire 7.66 dans [AB06] et a plutôt le statut de lemme pour montrer le théorème de Krein-Milman dans sa forme générale (théorème 7.68). On utilisera également le lemme de Zorn (voir théorème 2 de [Bou06][III,2]). Théorème 2.1.7. Soit E un espace vectoriel normé. On suppose que la topologie préfaible sur l’espace vectoriel dual continu de E est séparée. Soit K ⊂ E 0 un convexe non vide et compact pour la topologie préfaible. Alors K possède un point extrémal. Démonstration. On fera la démonstration dans le cas où l’espace vectoriel est réel. En passant aux parties réelles et imaginaires, on peut adapter la démonstration au cas où l’espace vectoriel est complexe, ce qu’on laisse en exercice. Avec ce qu’on a dit précédemment, il suffit de montrer qu’il existe un singleton qui est extrémal en tant que partie. Considérons l’ensemble C des fermés préfaibles inclus dans K, non vides et extrémaux. On remarque que K est extrémal dans lui même, de sorte que C est non vide. On définit un ordre sur C en disant que A1 est plus petit que A2 si A2 ⊂ A1 . Montrons que pour cet ordre, C est inductif. Soit 10 T (Ai )i∈I une partie de C totalement ordonnée. Définissons alors A = i∈I Ai . D’après la définition de partie extrémale, une intersection de fermés extrémaux est extrémale (et fermée). D’autre part, K est compact et les Ai sont fermés dans K et tels que toute intersection finie est non vide, puisque l’ordre est totale sur la partie (Ai )i∈I . Donc A est aussi non vide, de sorte que A ∈ C. Enfin A majore tous les éléments de la famille (Ai )i∈I . On utilise le lemme de Zorn pour trouver un élément maximal de C qu’on note B. Montrons que B est un singleton. On suppose que f1 et f2 sont distincts et appartiennent tous les deux à B. En particulier, il existe v ∈ E, tel que f1 (v) 6= f2 (v). On peut supposer que f1 (v) < f2 (v). L’application f ∈ E 0 7→ f (v) ∈ R est continue pour la topologie préfaible. En effet, on a défini qu’une suite (fn ) de E 0 converge vers f préfaiblement si pour tout v ∈ E, fn (v) converge vers f (v) (cette application est en fait continue par définition de la topologie préfaible, voir la définition 5.90 dans [AB06]). En particulier, puisque B est un compact préfaible, cette application est majorée et atteint sa borne supérieure. Soit f0 ∈ B telle que f0 (v) = max{f (v), f ∈ B}. Alors f0 6= f1 . Définissons B0 = {f ∈ B, f (v) = f0 (v)}. Alors B0 est non vide, fermé pour la topologie préfaible et extrémal. On aboutit à une absurdité car B0 ⊂ B et B0 6= B, ce qui contredit la maximalité de B. On a donc trouvé un singleton extrémal ce qui permet de conclure. En combinant le théorème caractérisant les mesures ergodiques comme mesures extrémales parmi les mesures invariantes et le théorème de Krein-Milman, on obtient en particulier que pour tout système dynamique topologique (X, T ), il existe une mesure µ ergodique pour T . S’il en existe plusieurs, alors elles sont étrangères. 2.2 Unique ergodicité Nous nous intéressons maintenant à la situation dans laquelle il existe une unique mesure ergodique. Dans ce cas, l’application T est dite uniquement ergodique. En fait comme le montre le théorème suivant, il revient à dire qu’il n’existe qu’une seule mesure de probabilité T -invariante sur X. On introduit dès à présent la notion de somme de Birkhoff, notion qu’on réutilisera tout au long de ce cours, notamment dans le chapitre suivant. Si (X, X ) est un espace mesurable et f : X → X est une application mesurable pour X , on appelle suite des sommes de Birkhoff associées à f et note (Sn ) la suite d’application définie par n 1X f ◦ T k (x). Sn (x) = n k=1 Théorème 2.2.1. Soit (X, d) un espace métrique compact et soit T : X → X une application continue. Alors les assertions suivantes sont équivalentes : 1. Il existe une unique mesure de probabilité T -invariante sur X. 2. Il existe une unique mesure ergodique parmi les mesures de probabilité T -invariantes sur X. 3. Pour toute fonction continue f sur X, il existe un scalaire cf tel que la somme de Birkhoff associée à f converge simplement vers cf . Dans le cas où ces assertions sont vérifiées, le scalaire cf est l’intégrale de f selon l’unique mesure de probabilité T -invariante sur X. Démonstration. On commence par montrer que les deux premières assertions sont équivalentes. S’il existe une unique mesure de probabilité sur X, en particulier, elle est extrémale donc ergodique, donc il existe une unique mesure ergodique. La preuve qu’on va donner pour la réciproque est essentiellement la même que celle du théorème de Krein-Milman. On l’écrit entièrement pour la commodité du lecteur. S’il existe une unique mesure de probabilité ergodique µ, alors supposons qu’il existe une mesure invariante µ0 différente de µ. Il existe en particulier une fonction continue f telle que l’intégrale selon µ de f soit différente de l’intégrale selon µ0 de f . Quitte à passer à −f , il existe donc une fonction f telle que Z Z f dµ < f dµ0 . X X Par continuité préfaible de l’application qui à ν associe l’intégrale de f selon ν et par compacité préfaible de l’espace des mesures de probabilité T -invariantes sur X, il existe une mesure de probabilité T -invariante µ0 sur X telle que Z Z f dµ0 = max{ f dν, ν ∈ ProbT (X)}. X X 11 Définissons alors Z K = {ν ∈ ProbT (X), Z f dµ0 = X f dν}. X L’ensemble K est convexe, non vide, fermé pour la topologie préfaible et extrémal dans ProbT (X) de sorte que d’après le théorème de Krein-Milman, il existe un point extrémal ν0 dans K. Puisque K est lui-même extrémal dans ProbT (X), ν0 est un point extrémal dans ProbT (X), donc en particulier ν0 est ergodique, ce qui est absurde puisque µ ∈ / K, donc µ 6= ν0 . Montrons à présent que la première et la dernière assertion sont équivalentes. Soit f une fonction continue sur X et soit x ∈ X. On considère la suite de mesure (µn ) définie par n µn = 1X δT k (x) . n k=1 On va montrer que µn converge préfaiblement vers l’unique mesure de probabilité T -invariante µ. Par compacité, il suffit de montrer que µ est l’unique valeur d’adhérence de µn . Si (µσ(n) ) est une sous-suite 2 de sorte convergente vers une mesure ν, alors T∗ µσ(n) converge vers T∗ ν. Or, kT∗ µσ(n) − µσ(n) k ≤ σ(n) que T∗ µσ(n) − µσ(n) converge fortement, donc préfaiblement vers 0. Ainsi, T∗ µσ(n) converge aussi vers ν et donc T∗ ν = ν, d’où ν = µ par unicité. En particulier, l’intégrale de f selon µn converge vers l’intégrale de f selon µ, ce qui revient exactement à dire que la somme de Birkhoff associée à f converge en x vers l’intégrale de f selon µ. Puisque c’est vrai pour tout x, on a bien montré la dernière assertion. Réciproquement, si l’on suppose la convergence simple des sommes de Birkhoff assocéies à f vers un même scalaire cf indépendant de x, si µ est une mesure de probabilité T -invariante sur X, par simple convergence dominée, l’intégrale des sommes de Birkhoff selon µ converge vers cf . Or, puisque la mesure est T -invariante, l’intégrale des sommes de Birkhoff associées à f est toujours égale à l’intégrale de f . On obtient donc que l’intégrale de f selon µ est égale à cf , et ce pour toute fonction continue f et toute mesure de probabilité T -invariante sur X. En particulier, si µ1 et µ2 sont deux telles mesures, pour toute fonction f , les intégrales de f selon µ1 et µ2 sont égales. On en conclut que µ1 = µ2 . En effet, les fonctions continues étant denses dans les fonctions mesurables, on en déduit que les intégrales de l’indicatrice d’un borélien selon µ1 où selon µ2 sont égales. Remarque 2.2.1. On définit, de même qu’on a défini la topologie préfaible sur le dual E 0 d’un espace vectoriel normé E, la topologie faible directement sur E en disant qu’une suite (xn ) de points de E converge faiblement vers un point x de E si pour toute forme linéaire (continue) f ∈ E 0 , f (xn ) converge vers f (x). Pour que les assertions du théorème précédent soient vérifiées, il suffit que la dernière d’entre elles soit vérifiée sur une sous-algèbre A de l’algèbre des fonctions continues sur X C 0 (X) dense pour la topologie faible. On laisse le soin au lecteur d’adapter un tout petit peu la preuve précédente dans cette situation (exercice). En particulier, c’est vrai pour une sous-algèbre dense pour la topologie de la norme (topologie forte). La notion d’application uniquement ergodique n’est pas vide, comme le montre la proposition suivante : Proposition 2.2.2. Soit Tα : T1 → T1 une rotation du cercle. On rappelle que Tα (x) = e2iπα x. Alors Tα est uniquement ergodique si et seulement si α est irrationnel. Démonstration. On a déjà vu que si α est rationnel, alors Tα n’est pas ergodique pour la mesure de Lebesgue sur T1 . Or, cette mesure est Tα -invariante, donc en particulier, Tα n’est pas uniquement ergodique. Réciproquement, supposons que α soit irrationnel. On définit l’application fk : x ∈ T1 7→ xk ∈ T1 . Alors, si (Sn ) est la suite des sommes de Birkhoff associée à f , on a 1 2iπkt Sn (e2iπt ) = e + e2iπk(t+α) + ... + e2iπk(t+nα) . n Donc, si k = 0, Sn (x) = 0 et sinon, Sn (x) = 1 2iπkt 1 − e2iπk(n+1)α e . n 1 − e2iπkα En particulier, Sn (x) converge simplement vers 1 si k = 0 et vers 0 sinon. Puisque les applications x 7→ xk sont denses dans C 0 (T1 ), on peut appliquer le théorème précédent pour en conclure que Tα est uniquement ergodique. On en conclut en particulier que l’unique mesure de probabilité Tα -invariante sur T1 est la mesure de Lebesgue. 12 Par contre, l’autre exemple donné précédemment, c’est-à-dire le décalage de Bernoulli, n’est pas uniquement ergodique. Par exemple si A = {0, 1} et X = AN , X est un espace métrique compact. On considère la décalage de Bernoulli T : X → X. On rappelle que l’image par T d’une suite de terme général xn est la suite de terme général xn+1 . On considère la mesure de Bernoulli µp = pδ{0} + (1 − p)δ{1} , où p ∈]0, 1[. Alors pour tout p, µp est une mesure ergodique pour T , ce qui donne un continuum de mesures ergodiques. En fait, l’espace ProbT (X) est difficilement classifiable. 13 3 Les théorèmes ergodiques Dans toute cette partie, on va considérer un système dynamique qui préserve la mesure (X, µ, T ). Si f : X → C est une fonction mesurable et si x ∈ X, on rappelle qu’on note n Sn = 1X f ◦ T k (x). n k=1 On appelle suite des sommes de Birkhoff associées à f la suite de fonctions (Sn ). Ces sommes de Birkhoff représentent la moyenne temporelle de f le long de l’orbite x. En effet, on peut interpréter la suite (T k (x)) comme l’évolution au cours du temps de l’application T appliquée en x. Les théorèmes ergodiques qu’on va énoncer comparent cette moyenne temporelle de f avec la moyenne spatiale de f , c’est-à-dire avec l’intégrale de f selon une mesure T -invariante. 3.1 Le théorème de von Neumann Le premier théorème ergodique qu’on énonce compare les sommes de Birkhoff et l’intégrale de f dans l’espace L2 . Théorème 3.1.1 (von Neumann). Soit (X, X , µ) un espace de probabilité, soit T : X → X une application mesurable qui préserve la mesure µ et qui est ergodique pour µ. Soit enfin f une application L2 définie sur X. Alors, les sommes de Birkhoff associées à f convergent vers l’intégrale de f selon µ en norme L2 : Z n 1X L2 f ◦ T k (x) −→ f dµ. n→+∞ X n k=1 Démonstration. On rappelle la définition de l’opérateur de Koopman UT : f ∈ L2 (X) 7→ f ◦ T ∈ L2 (X). Cet opérateur est une isométrie de L2 (X), comme on l’a déjà vu. Définissons K comme l’adhérence dans L2 (X) du sous-espace vectoriel engendré par les fonctions de la forme UT (g) − g avec g ∈ L2 (X). C’està-dire que K est l’adhérence de l’image de UT − Id. Alors, l’orthogonal de K pour le produit scalaire usuel sur L2 est l’espace vectoriel de dimension 1 engendré par la fonction indicatrice 1X . Donnons une preuve de ce fait. Déjà, si f = λ1X , λ ∈ C, alors pour toute fonction g ∈ L2 (X), on a hf, UT g − gi = hUT∗ f − f, gi = 0, puisque UT∗ f = f . En effet, UT est une isométrie de L2 , donc UT∗ ◦ UT = UT ◦ UT∗ = Id. En particulier, UT∗ est aussi une isométrie. Par ailleurs, f est un vecteur propre de UT pour la valeur propre 1. Ainsi, hUT∗ f − f, UT∗ f − f i = hUT∗ f, UT∗ f i + hf, f i − hUT∗ f, f i − hf, UT∗ f i = 2hf, f i − hf, UT f i − hUT f, f i = 0. Réciproquement, soit f ∈ K ⊥ . Alors, pour toute fonction g ∈ L2 (X), hf, UT g − gi = hUT∗ f − f, gi = 0, donc UT∗ f = f . Ainsi, par le même calcul que précédemment, en échangeant les rôles de UT et UT∗ , on obtient que UT f = f . Or, puisque T est ergodique pour µ, 1 est valeur propre simple de UT , c’est-à-dire, f est constante. Puisque K est un sous-espace vectoriel fermé de L2 (X) et L2 (X) est complet, on en conclut que ⊥ L2 (X) = K ⊕ C1X . Pour montrer que la somme de Birkhoff associée à une fonction L2 f converge vers son intégrale, on va distinguer selon que f ∈ K ou f ∈ C1X . Il suffira de montrer que c’est vrai dans ces deux situations. Dans le deuxième cas, f est constante, donc pour tout entier k ≥ 1, f ◦ T k = f et en particulier, Sn = f . Enfin, puisque f est constante, elle est égale à son intégrale, donc Sn reste constante égale à cette intégrale. 14 Pour traiter le premier cas, on commence par supposer que f = UT g − g avec g ∈ L2 (X). Alors les sommes de Birkhoff se télescopent pour donner Sn = 1 n (U g − g) −→ 0, n→+∞ n T car UT étant une isométrie, kUT g − gkL2 ≤ 2kgkL2 . Or, puisque la mesure µ est T -invariante et que f = g ◦ T − g, son intégrale selon µ est nulle. Plus généralement, si f est dans l’adhérence de l’image de UT − Id, alors, il existe une suite de fonctions L2 (fn ) telle que fn converge en norme L2 vers f . L’inégalité de Cauchy-Schwarz donne alors (on rappelle que µ est une mesure de probabilité) Z Z |fn − f |dµ ≤ X |fn − f |2 dµ 1/2 Z X 1/2 Z 1/2 1X dµ = |fn − f |2 dµ . X X Donc, fn converge en norme L1 vers f , et en particulier, l’intégrale de fn converge vers l’intégrale de f . Puisque les fonctions fn sont d’intégrale nulle, il en va de même pour f . Soit à présent > 0, alors il existe une fonction L2 f˜ dans l’image de UT − Id, telle que kf˜ − f kL2 ≤ /2. D’autre part, puisque UT est une isométrie, il en va de même de UTk pour tout entier k ≥ 1. En particulier, n 1 X UTk ≤ 1. n k=1 On obtient donc n 1 X k UT f n k=1 L2 n 1 X k ˜ ≤ UT f n k=1 L2 n 1 X k ˜ + UT (f − f ) n k=1 L2 n 1 X k ˜ ≤ UT f n k=1 + f˜ − f L2 L2 . D’après le cas où la fonction est dans l’image de UT − Id, on a pour n assez grand, n 1 X k ˜ UT f ≤ n 2 2 k=1 L et donc finalement, pour n assez grand, n 1 X k UT f n k=1 ≤ . L2 En utilisant ce résultat, on peut aussi montrer que si f, g ∈ L2 et si Sn désigne la somme de Birkhoff associée à f , alors Z Z Z Sn gdµ −→ f dµ gdµ. X n→+∞ X X C’est une simple application de l’inégalité de Cauchy-Schwarz. En fait, on retrouve ce résultat en disant que Sn converge fortement vers f dans L2 (X) (i.e. converge pour la topologie de la norme) donc converge vers f pour la topologie faible. Ici, la topologie faible et la topologie préfaible sont les mêmes (on rappelle en particulier que le dual topologique de L2 (X) est canoniquement L2 (X)). Remarque 3.1.1. Si l’application T n’est pas ergodique, on peut quand même dire quelque chose. On n’a plus L2 (X) = K ⊕ C1X , mais on a toujours L2 (X) = K ⊕ Ker(UT − Id). On décompose alors une fonction f en une somme f = f1 + f2 avec f1 ∈ K et f2 ∈ Ker(UT − Id). On laisse le lecteur adapter un peu la preuve ci-dessus pour montrer que Sn converge en norme L2 vers l’intégrale de f2 selon µ. Ce résultat a été prouvé par John von Neumann dans l’article [Neu32]. Le langage est un peu différent de celui employé dans ce cours mais le résultat est le même. 3.2 Le théorème de Birkhoff On a donc montré que Sn converge dans L2 vers l’intégrale de f , i.e. les moyennes temporelles de f convergent vers la moyenne spatiale. C’est le théorème de von Neumann. En fait, cette convergence est presque sûre. C’est le théorème de Birkhoff. 15 Théorème 3.2.1. Soit (X, X , µ) un espace de probabilité, soit T : X → X une application mesurable qui préserve la mesure µ et qui est ergodique pour µ. Soit enfin f une application L1 définie sur X. Alors, les sommes de Birkhoff associées à f convergent presque sûrement vers l’intégrale de f selon µ : n 1X µ−p.p. f ◦ T k (x) −→ n→+∞ n Z k=1 f dµ. X On utilisera le lemme suivant, qu’on nomme lemme de l’inégalité maximale. Si (X, X , µ) est un espace mesuré et T : X → X est une application qui préserve la mesure et si (φn ) est une suite de fonctions L1 définies sur X, on dit que la suite (φn ) est sous-additive lorsque ∀n, m ≥ 1, φn+m ≤ φm ◦ T n + φn . Lemme 3.2.2. Soit (X, X , µ) est un espace mesuré et T : X → X est une application qui préserve la mesure. Soit (φn ) une suite sous-additive de fonctions L1 définies sur X. On note φ∗ := sup{φn , n ∈ N∗ }. Alors, Z φ1 dµ ≥ 0. {φ∗ >0} Démonstration. On définit ψn = max{0, S φ1 , ..., φn } et ψ0 = 0. Les fonctions ψn sont positives. On pose Xn = {ψn > 0} de sorte que {φ∗ > 0} = n≥1 Xn . On va montrer que Z ∀n ≥ 1, φ1 dµ ≥ 0. Xn Soit x ∈ Xn , alors ψn (x) = φk(x) (x), où 1 ≤ k(x) ≤ n. Si k(x) = 1, alors φ1 (x) = ψn (x), sinon ψn (x) = φk(x)−1+1 (x) ≤ φk(x)−1 (T (x)) + φ1 (x). Dans tous les cas, φ(x) ≥ ψn (x) − ψn−1 (T (x)). On a donc Z Z Z φ1 dµ ≥ ψn dµ − ψn−1 ◦ T dµ. Xn Xn Xn Or, si x ∈ / Xn , ψn (x) = 0 donc Z Z ψn dµ = Xn ψn dµ. X D’autre part, quel que soit x ∈ X, ψn−1 (T (x)) ≥ 0, donc Z Z Z ψn−1 ◦ T dµ ≤ ψn−1 ◦ T dµ = ψn−1 dµ, Xn X X puisque µ est T -invariante. On obtient donc finalement, en utilisant que ψn ≥ ψn−1 , Z Z φ1 dµ ≥ (ψn − ψn−1 )dµ ≥ 0. Xn X Pour conclure, si φ1 était positive, il resterait simplement à voir que {φ∗ > 0} est l’union croissante des ensembles Xn . On pourrait alors conclure par convergence monotone. Dans le cas général, il suffit de voir que Z ≤ kφ1 kL1 , φ dµ 1 Xn ce qui permet de conclure par convergence dominée. On remarque qu’il suffisait donc de supposer que φ1 est intégrable. Cependant, avec la condition de sous-addiivité, une récurrence immédiate montre que si φ1 est intégrable, alors toutes les fonctions φn le sont. On remarque aussi qu’on n’a pas vraiment besoin de la condition de sous-additivité, mais seulement de la condition ∀n ≥ 1, φn+1 ≤ φ1 ◦ T n + φn . Prouvons à présent le théorème de Birkhoff. 16 Démonstration. On reprend les mêmes notations que dans le théorème. On note (Sn ) la suite des sommes de Birkhoff associées à f . Pour montrer le théorème, quitte à passer aux parties réelles et imaginaire, on peut supposer que f est à valeurs réelles. Si α < β sont deux nombres rationnels, on pose Xα,β = {x ∈ X, lim inf Sn (x) < α < β < lim sup Sn (x)}. n→+∞ n→+∞ Puisque les rationnels sont denses dans les réels, le complémentaire de tous les Xα,β est l’ensemble des points où Sn converge. Puisque les rationnels sont dénombrables, il suffit donc de montrer que pour tous α < β rationnels, Xα,β est de µ-mesure nulle pour en conclure que Sn converge presque sûrement. Notons que 1 n−1 Sn−1 (x) = f ◦ T (x) −→ 0. Sn (x) − n→+∞ n n Or Sn (x) converge si et seulement si Sn−1 (x) converge, donc on a montré que Sn (x) converge si et seulement si Sn (T (x)) converge. En d’autres termes, T −1 Xα,β = Xα,β . Par ergodicité, on a donc µ(Xα,β ) ∈ {0, 1}. Supposons que µ(Xα,β ) = 1. On applique alors le lemme de l’inégalité maximale à l’espace Xα,β et à la suite définie par φn = n(Sn − β). On vérifie que φn+m = φm ◦ T n + φn . Alors, puisque β < lim sup Sn (x) sur tout Xα,β , {φ∗ > 0} est égal à Xα,β tout entier. En particulier, n→+∞ Z (f ◦ T − β)dµ ≥ 0. Xα,β De même, en appliquant le lemme de l’inégalité maximale au même espace et à la suite définie par φn = n(α − Sn ), on trouve Z (α − f ◦ T )dµ ≥ 0. Xα,β Donc, en combinant les deux inégalités, (α − β)µ(Xα,β ) ≥ 0, i.e. α ≥ β, ce qui est absurde. Ainsi, µ(Xα,β ) = 0 et Sn converge presque sûrement. On remarque ici qu’on n’a pas besoin de l’hypothèse d’erogdicité pour en déduire la convergence de Sn . Le lemme de l’inégalité maximale montre directement que Xα,β est de mesure nulle, car on aboutirait à la même absurdité si on avait seulement µ(Xα,β ) > 0 plutôt que µ(Xα,β ) = 1. Par contre, pour identifier la limite comme étant l’intégrale de f , on va avoir besoin de l’hypothèse d’ergodicité. Notons ψ la limite presque sûre de Sn . On a déjà remarqué que Sn (x) − n−1 n Sn−1 (x) converge vers 0. En particulier, ψ ◦ T = ψ presque sûrement (là où ψ est la limite de Sn ). Donc, par ergodicité, ψ est constante presque sûrement : ψ = λf 1X µ-presque partout. Il reste donc à montrer que λf est l’intégrale de f selon µ. Si f est presque sûrement bornée, cela découle du théorème de convergence dominée. Sinon, on conclut par densité des fonctions presque sûrement bornées dans les fonctions intégrables. En effet, les fonctions continues à support compactes sont presque sûrement bornées et cet espace est dense dans les fonctions intégrables. On pourra noter que si f est en fait L2 , alors il suffit d’appliquer le théorème de von Neumann pour trouver que la limite presque sûre est l’intégrale de f . En effet, on sait déjà que Sn converge dans L2 vers cette intégrale, donc le long d’une sous-suite, Sn converge presque sûrement vers cette intégrale, et puisqu’on sait déjà que la convergence presque sûre a lieu, la limite est forcément la limite le long de toute sous-suite. Ce théorème a été prouvé par George David Birkhoff dans [Bir31]. De manière un peu étonnante, cet article est publié avant celui de von Neumann. En fait, l’article de von Neumann a été écrit avant mais a mis plus de temps à être publié. D’ailleurs, Birkhoff y fait référence dans le sien en disant que le théorème de von Neumann, non encore publié, montre une convergence en moyenne et que lui va montrer une convergence presque sûre. Le théorème de Birkhoff a des applications théoriques. Par exemple, on peut déduire de ce théorème la loi forte des grands nombres : Théorème 3.2.3 (Loi forte des grands nombres). Soit (Xn ) une suite de variables aléatoires réelles indépendantes et identiquement distribuées de loi µ. On suppose que E[|X1 |] < ∞, c’est-à-dire, puisque les Xn sont identiquement distribuées, qu’on suppose que les Xn sont intégrables. Alors, n 1X p.s. Xk −→ E[X1 ]. n k=1 17 Démonstration. On pose (Ω, P) = (RN , µ⊗N ). Si ω = (xn ) ∈ Ω, Xn (ω) = xn . On considère alors le décalage de Bernoulli T sur l’espace RN . C’est une application ergodique pour la mesure µ⊗N . On peut donc appliquer le théorème de Birkhoff. Puisque la somme de Birkhoff Sn (ω) est exactement la somme 1 n (X1 (ω) + ... + Xn (ω)), on obtient directement le théorème. 3.3 Le théorème de Kingman Le dernier théorème ergodique qu’on étudie dans ce cours est le théorème de Kingman, aussi connu sous le nom de théorème ergodique sous-additif. Si (an ) est une suite réelle, on dit que (an ) est sousadditive si ∀n, m ∈ N∗ , an+m ≤ an + am . On commence par énoncer un lemme très classique relatif aux suites sous-additives. Lemme 3.3.1 (Fekete). Soit (an ) une suite réelle sous-additive. Alors, la suite ( n1 an ) converge et de plus 1 1 lim an = inf{ ak , k ∈ N∗ }. n→+∞ n k Démonstration. Notons l la borne inférieure de l’ensemble { k1 ak , k ∈ N∗ } Soit r > l un nombre réel. Il 1 existe un entier m ≥ 1 tel que m am < r. Si n ≥ m est un entier, on écrit la division euclidienne de n par m: n = qm + r0 , 0 ≤ r0 ≤ m − 1. On a alors, par sous-additivité, 1 1 1 1 q 1 1 an ≤ aqm + ar0 ≤ am + an0 ≤ am + max{|a1 |, ..., |am−1 |}. n n n n n m n Puisque le terme tout à droite dans l’inégalité ci-dessus tend vers 0 lorsque n tend vers l’infini, on obtient qu’il existe n0 ≥ 1 tel que 1 ∀n ≥ n0 , an ≤ r. n Ceci étant vrai pour tout r > l, on en déduit que ( n1 an ) converge vers l. Ce lemme porte le nom de lemme de Fekete. En réalité, énoncé tel quel, c’est un résultat de Pólya et Szegö qu’on retrouve dans [PS76], mais les auteurs eux-mêmes réfèrent à l’article [Fek23] de Fekete, bien que l’énoncé qu’ils citent est un cas particulier du leur. Le nom de lemme de Fekete est resté. Théorème 3.3.2 (Kingman). Soit (X, X , µ) un espace de probabilité, soit T : X → X une application mesurable qui préserve la mesure µ et qui est ergodique pour µ. Soit enfin (fn ) une suite de fonctions réelles définies sur X. On suppose que fn ∈ L1 (X) pour tout n ≥ 1 et que la suite (fn ) est sous-additive, c’est-à-dire que ∀n, m ≥ 1, fm+n ≤ fm ◦ T n + fn . Alors, 1 1 µ−p.p. fn −→ inf{ n n→+∞ n Démonstration. Notons an = 1 n Z X Z fn dµ, n ∈ N∗ }. X 1 fn dµ, l = inf{ ak , k ∈ N∗ }. k La suite (an ) est sous-additive. En effet, puisque T préserve la mesure, Z Z Z an+m = fm+n dµ ≤ fm ◦ T n dµ + fn dµ = am + an . X X X Tout d’abord, montrons qu’on peut supposer que les fonctions fn sont toutes négatives. En effet, posons n−1 X gn = fn − f1 ◦ T k . k=0 Par sous-additivité de fn , on trouve que gn est négative. D’autre part, gn est L1 et la suite (gn ) est encore sous-additive. 18 Pn−1 D’après le théorème de Birkhoff, ( n1 k=0 f1 ◦ T k ) converge vers l’intégrale de f selon µ, puisque f1 est L1 . Enfin, Z Z Z 1 1 inf{ gn dµ, k ∈ N∗ } = inf{ fn dµ, k ∈ N∗ } − f1 dµ, k X k X X donc si le résultat est vrai pour (gn ), il est vrai aussi pour (fn ). Supposons donc que pour tout n, fn ≤ 0. On va montrer que ( n1 fn ) converge µ-presque partout. Soient α, β deux rationnels. On pose 1 1 Xα = {x ∈ X, lim inf ( fn (x)) < α}, Yβ = {x ∈ X, lim sup( fn (x)) > β}. n→+∞ n n→+∞ n Puisque fn+1 ≤ fn ◦ T + f1 , on a T −1 Xα ⊂ Xα et Yβ ⊂ T −1 Yβ . Or, T préserve la mesure donc µ(T 1 Xα ∆Xα ) = 0 = µ(Yβ ∆T 1 Yβ ) et donc par ergodicité, µ(Xα ) ∈ {0, 1} et µ(Yβ ) ∈ {0, 1}. Pour montrer que ( n1 fn ) converge presque sûrement, il suffit de montrer que pour tous rationnels α < β, µ(Xα ∩ Yβ ) = 0. Supposons le contraire, alors le lemme de l’inégalité maximale appliqué à l’espace Xα ∩ Yβ et à la suite (fn − β) montre que Z (f − β)dµ ≥ 0, Xα ∩Yβ puisque dans ce cas, {φ∗ > 0} = Xα ∩ Yβ . De même, en appliquant le lemme de l’inégalité au même espace et à la suite (α − fn ), on montre que Z (α − f )dµ ≥ 0. Xα ∩Yβ En combinant ces deux inégalités, on trouve que α ≥ β, ce qui est absurde. Finalement, ( n1 fn ) converge presque sûrement. Comme dans la preuve du théorème de Birkhoff, on remarque qu’on n’a pas besoin de l’hypothèse d’ergodicité pour montrer la convergence presque partout. Par contre pour déterminer la limite, on aura besoin de cette hypothèse. Notons ψ la limite presque sûre de ( n1 fn ). Puisqu’on a supposé les fonctions fn négatives, ψ est négative presque sûrement, de sorte que l’intégrale de ψ selon µ a un sens, même si l’on ne sait pas encore si ψ est intégrable ou pas. Le lemme de Fatou nous donne Z Z Z 1 1 −ψdµ = lim − fn dµ ≤ lim inf − fn dµ. n→+∞ n→+∞ n n X X X Le lemme de Fekete nous donne alors que cette dernière limite inférieure est égale à −l et donc l’intégrale de −ψ est plus petite que −l de sorte que ψ est intégrable. D’autre part, on a aussi montré que Z l≤ ψdµ, X donc il suffit de montrer que ψ ≤ l µ-presque partout. Soit m ≥ 1, on décompose (q + 1)m + r en qm + m + r et on utilise la sous-additivité pour obtenir f(q+1)m+r ≤ fqm + fm+r ◦ T qm . On décompose ensuite qm en (q −1)m+m pour obtenir fqm ≤ f(q−1)m +fm ◦T (q−1)m , puis on décompose (q − 1)m en (q − 2)m + m. On obtient finalement, par une récurrence immédiate, fqm ≤ q−1 X fm ◦ T jm . j=0 On décompose ensuite m + r en (m + r − 1) + 1 pour obtenir fm+r ◦ T qm ≤ f1 ◦ T qm + fm+r−1 ◦ T ◦ T qm , puis par récurrence, m+r−1 X qm fm+r ◦ T ≤ f1 ◦ T qm+j . j=0 19 Finalement, f(q+1)m+r ≤ q−1 X fm ◦ T jm + m+r−1 X j=0 f1 ◦ T qm+j . j=0 On décompose maintenant (q + 1)m + r en (qm + 1) + (m + r − 1) pour obtenir f(q+1)m+r ≤ fqm+1 + fm+r−1 ◦ T qm+1 . On majore le premier terme ainsi fqm+1 ≤ f1 + fqm ◦ T ≤ f1 + q−1 X fm ◦ T jm+1 . j=0 Pour le deuxième, on obtient fm+r−1 ◦ T qm+1 ≤ m+r−1 X f1 ◦ T qm+j j=1 de sorte que finalement, f(q+1)m+r ≤ f1 + q−1 X fm ◦ T jm+1 + m+r−1 X j=0 f1 ◦ T qm+j . j=1 Plus généralement, si k ≤ m − 1, on a f(q+1)m+r ≤ fk + q−1 X fm ◦ T jm+k + m+r−1 X j=0 f1 ◦ T qm+j . j=k En sommant ces m inégalités pour k = 0, ..., m − 1, on obtient m × f(q+1)m+r ≤ mq−1 X fm ◦ T j + (f1 + ... + fm−1 ) + ( m+r−1 X j=0 j=0 f1 ◦ T qm+j + ... + m+r−1 X f1 ◦ T qm+j ). j=m−1 On va diviser toute cette inégalité par qm. On s’intéresse d’abord à (f1 + ...fm−1 ). Si on divise cette somme de m − 1 termes par qm, on obtientPquelque chose qui tend vers 0 quand q tend vers l’infini. m+r−1 On s’intéresse maintenant à chaque somme j=k f1 ◦ T qm+j . Lorsque q est suffisamment grand, en divisant par 2qm, on obtient une partie avec un nombre uniformément borné des sommes de Birkhoff S2qm associées à f1 , de sorte qu’en divisant par qm, on obtient quelque chose qui tend aussi vers 0. On a donc finalement mq−1 1 X fm ◦ T j + reste, f(q+1)m+r ≤ m j=0 1 qui tend vers 0 lorsque q tend vers l’infini. D’autre part, qm f(q+1)m+r converge presque P mq−1 1 j sûrement vers ψ et qm j=0 fm ◦ T converge presque sûrement vers l’intégrale de fm selon µ, d’après le théorème de Birkhoff, lorsque q tend vers l’infini. L’inégalité précédente donne donc, en passant à la limite presque sûre, Z 1 fm dµ, µ − p.p. ψ≤ m X En particulier, ψ ≤ l presque sûrement. On a donc ψ = l presque sûrement, ce qui achève la preuve du théorème. On remarque que contrairement à la preuve du théorème de Birkhoff, on a calculé directement la valeur de la limite presque sûre que l’on cherchait, avant même de montrer que cette limite était presque sûrement constante. Iil serait difficile de montrer directement que c’est le cas, mais on peut le faire. On peut en fait montrer, sans hypothèse d’ergodicité, que la limite est invariante par T . avec 1 qm reste Ce théorème a été prouvé par Kingman dans le tout premier volume du journal Annals of Probability (et dans le sixième numéro de ce volume) (voir [Kin76]). Il implique en particulier la convergence des Pn sommes de Birkhoff vers l’intégrale de f , en désignant par fn la fonction k=1 f ◦ T k . C’est donc le plus général des théorèmes ergodiques qu’on ait énoncé, mais on a quand même utilisé le théorème de Birkhoff dans la preuve. On se servira du théorème de Kingman dans la prochaine partie de ce cours, l’étude des marches aléatoires dans SLd (R). 20 4 Marches aléatoires dans SLd (R) L’étude des marches aléatoires dans SLd (R) s’inscrit plus généralement dans l’étude des marches aléatoires sur les groupes de Lie. Cette théorie a été développée notamment par Furstenberg et Kesten dans les années 60 et 70 et on ne s’étonnera pas de trouver plusieurs résultats portant leur nom dans ce cours. Pour une étude des groupes de Lie centrée sur les groupes linéaires, on pourra consulter [MT86] et pour une étude plus moderne du sujet, on pourra consulter [Bum13]. Enfin, pour l’étude des marches aléatoires sur les groupes de Lie, on pourra consulter [GKR77], cependant le contenu de ce dernier livre est nettement plus avancé que ce que l’on va dire ici. 4.1 Le groupe SLd (R) On commence par étudier quelques rappels sur le groupe SLd (R). On désigne par GLd (R) le groupe des isomorphismes linéaires de Rd et par SLd (R) le sous-groupe de GLd (R) des isomorphismes linéaires de déterminant 1. Si d = 1, alors SLd (R) est réduit à {1}. Dans toute la suite, on suppose que d ≥ 2. Le groupe SLd (R) est un groupe de Lie, c’est-à-dire un objet en groupe dans la catégorie des variétés lisses. Plus concrètement, c’est une variété lisse (ici lisse veut dire C ∞ ) et un groupe tel que la multiplication et le passage à l’inverse soient des applications lisses. Rassurons un lecteur qui n’aurait jamais entendu parler de variétés lisses : on ne s’intéressera pas à cet aspect dans ce cours. Permettons nous tout de même de lui conseiller de se renseigner sur ce sujet passionnant, par exemple en lisant [Lee13] (livre dans lequel les groupes de Lie son d’ailleurs abordés). On rappelle que sur un groupe topologique, une mesure de Haar est une mesure borélienne invariante par translation à gauche. Puisque SLd (R) est un groupe de Lie, c’est en particulier un groupe topologique localement homéomorphe à Rd , donc localement compact. En particulier, il admet une mesure de Haar et celle-ci est unique à multiplication par une constante près. On pourra voir par exemple [Wei79] pour une preuve de ce fait, livre que l’on conseille par ailleurs de lire. Attention la preuve est un peu difficile et réclame l’axiome du choix, alors qu’on n’en a en fait pas besoin. Henri Cartan a montré l’existence et l’unicité d’une mesure de Haar sur un groupe localement compact sans utiliser l’axiome du choix dans [Car40]. D’autre part, pour le lecteur intéressé, on a ici affaire à un groupe de Lie et on peut construire une mesure de Haar à partir d’une n-forme différentielle invariante à gauche. D’autre part, SLd (R) est un groupe quasi-simple, ce qui signifie que son centre est fini. En effet, lorsque d est impair, le centre de SLd (R) est réduit à {Id} et lorsque d est pair à {−Id, Id}. On pourra consulter par exemple [Per96] pour une preuve de ce fait. Enfin, en tant qu’espace topologique, SLd (R) est un espace métrique. C’est un sous-espace métrique de Md (R) que l’on munit de la norme subordonnée à la norme k.k2 dans Rd . Soit µ une mesure de probabilité sur SLd (R), muni de sa tribu borélienne. On définit le support de µ comme étant le plus petit fermé de mesure 1. En particulier le support de µ est non vide. C’est aussi l’intersection de tous les fermés de mesure 1. On note Gµ l’adhérence du sous-groupe de SLd (R) engendré par le support de µ. Pour simplifier les notations, on notera également G := SLd (R). Définissons alors ∗ ∗ Ω = GN et P = µ⊗N . On appelle espace des trajectoires l’ensemble Ω. On rappelle que le décalage de Bernoulli est l’application T : Ω → Ω qui à une suite de terme général gn associe la suite de terme général gn+1 . On rappelle également que T préserve la mesure, c’est une application ergodique pour P. On s’intéresse à la marche aléatoire de loi µ. On peut la définir avec des variables aléatoires indépendantes et identiquement distribuées de loi µ. Si (gk ) est une telle suite de variables aléatoires, alors la marche aléatoire au temps n est le produit gn ...g1 . On peut aussi la définir plus directement en s’intéressant à l’application Sn : Ω → G ω = (gk )k∈N∗ 7→ gn ...g1 qui est une variable aléatoire à valeur dans G. On rappelle la définition du produit de convolution (à droite) dans un groupe probabilisé. Si (G, G) est un groupe mesurable et si ν et λ sont deux mesures de probabilité sur G, on appelle produit de convolution de ν et λ et on note ν ∗ λ la mesure de probabilité définie par Z ν ∗ λ(A) = 1A (xy)dν(y)dλ(x), G pour un ensemble mesurable A de G. La loi de marche aléatoire est Sn ∗ P = µ ∗ ... ∗ µ, avec n facteurs dans le produit de convolution, ce qu’on notera aussi µ∗n . On fera l’hypothèse supplémentaire sur µ que 21 son premier moment logarithmique est fini, i.e. Z log(kgk)dµ(g) < ∞. G On laisse en exercice le fait que pour g ∈ SLd (R), kgk ≥ 1. On aura par ailleurs besoin du lemme algébrique (ou géométrique, selon le goût) suivant. Lemme 4.1.1. Soit M ∈ SLd (R). Alors il existe deux matrices orthogonales U1 , U2 ∈ Od (R) et une Qd matrice diagonale D = diag(λ1 , ..., λd ) avec λ1 ≥ ... ≥ λd > 0 et j=1 λj = 1. Démonstration. On commence par décomposer la matrice sous forme polaire : M = OS avec O orthogonale et S symétrique définie positive. Puisque M est de déterminant 1, et S de déterminant positif, O est de déterminant positif, donc de déterminant 1 (c’est une matrice orthogonale) et donc S est de déterminant 1. On diagonalise ensuite S dans une base orthonormale : S = P t DP avec P orthogonale et D diagonale. Puisque S est définie positive, ses valeurs propres (qui sont celles de D) sont toutes strictement positive. Quitte à conjuguer par une matrice de transposition (en particulier orthogonale), on peut les ordonner, de sorte que D est de la forme annoncée dans le théorème. Il suffit à présent de poser U1 = OP t et U2 = P . On appelle décomposition KAK de M cette écriture de M sous la forme U1 DU2 . Puisque les matrices orthogonales préservent la norme, on a kM k = kDk ≥ 1, ce qui répond par ailleurs à l’exercice kgk ≥ 1 pour g ∈ SLd (R). Le premier résultat qu’on énonce a été prouvé par Harry Furstenberg et Harry Kesten dans l’article [FK60]. Théorème 4.1.2 (Furstenberg-Kesten). Avec les mêmes notations, la suite ( n1 log(kSn k)) converge presque sûrement vers une constante λ ≥ 0. D’autre part, on a Z Z 1 1 λ = inf{ log(kSn k)dP, n ∈ N∗ } = inf{ log(kgk)dµ∗n , n ∈ N∗ }. n Ω n G Démonstration. Posons fn = log(kSn k). Alors la fonction f1 est L1 car le premier moment logarithmique de µ est fini. D’autre part, fm+n (ω) = log(kgm+n ...gn+1 gn ...g1 k) ≤ log(kgm+n ...gn+1 k) + log(kgn ...g1 k) = fm ◦ T n (ω) + fn (ω). Donc la suite (fn ) est sous-additive et en particulier les fonctions fn sont toutes L1 . On peut donc appliquer le théorème de Kingman qui donne exactement le résultat annoncé. Enfin les fonctions fn sont toutes positives donc λ est positif. 4.2 Premier exposant de Lyapounov On va maintenant s’intéresser de plus près à la constante λ dans le théorème de Furstenberg-Kesten. On l’appelle premier exposant de Lyapounov de la marche aléatoire de loi µ sur SLd (R). On se pose la question suivante : quand est-ce que λ est strictement positif ? L’intérêt de cette question réside par exemple dans le fait que si λ > 0, alors en particulier kgn ...g1 k est équivalent à eλn et donc la marche aléatoire s’échappe à l’infini. On va donner une condition suffisante pour que λ > 0. Soit H un sous-groupe de SLd (R). On dit que H est irréductible si les seuls sous-espace de Rd invariants par H sont {0} et Rd . On dit que H est fortement irréductible si tous les sous-groupes d’indice fini de H sont irréductibles. En particulier H étant d’indice nul dans lui-même, si H est fortement irréductible, il est irréductible. Si U est un borélien de G, alors U −1 := {x ∈ G, ∃y ∈ U, x = y −1 } est aussi borélien, puisque l’application g 7→ g −1 est un homéomorphisme. On dit que la mesure de probabilité µ est symétrique si pour tout borélien U de G, µ(U ) = µ(U −1 ). Le reste de ce cours est consacré à la démonstration du théorème suivant, prouvé par Furstenberg dans [Fur63]. Dans cet article, Furstenberg prouve de nombreux résultats et ne se limite pas aux marches aléatoires dans les groupes linéaires. Théorème 4.2.1 (Furstenberg). Avec les mêmes notations que précédemment, si l’on suppose de plus que µ est symétrique et que Gµ est non compact et fortement irréductible, alors λ > 0. 22 Démonstration. On notera pour tout le reste de la preuve V = Rd . Le groupe G agit linéairement sur V . Si l’on munit V de la mesure de Lebesgue, que l’on note λV , alors la formule du changement de variable montre que l’action de G préserve la mesure, c’est-à-dire que pour tout g ∈ G, l’application linéaire g : V → V préserve λV . Plus généralement, on se donne une mesure ν sur V qui est préservée par l’action de G. Si f est une fonction L2 définie sur V et g ∈ G, on définit g · f : v 7→ f (g −1 · v). Puisque l’action de G préserve la mesure, g · f est encore L2 . On a ainsi défini une action de G sur L2 (V ). Définissons à présent l’opérateur Pµ : L2 (V ) → Z L2 (V ) ξ 7→ g · ξdµ(g) G qu’on appelle opérateur de moyenne. Montrons que Pµ est continu. En fait, on va même montrer que kPµ k ≤ 1. En effet, 2 Z Z Z −1 2 2 |Pµ ξ(v)| dν(v) = kPµ ξkL2 = ξ(g · v)dµ(g) dν(v). V G V L’inégalité de Cauchy-Schwarz donne 2 Z Z ξ(g −1 · v)dµ(g) ≤ |ξ(g −1 · v)|2 dµ(g), G G puisque µ est une mesure de probabilité. Enfin, on ne manipule que des quantités positives (et même intégrables) donc d’après le théorème de Fubini, et puisque la mesure ν est invariante par l’action de G, Z Z 2 kPµ ξkL2 ≤ |ξ(v)|2 dν(v)dµ(g) = kξk2L2 . G V 2 Calculons l’adjoint de Pµ . Soient ξ, η ∈ L (V ). Alors, Z Z Z Z −1 hPµ ξ, ηi = ξ(g · v)dµ(g) η(v)dν(v) = ξ(v)η(g · v)dν(v)dµ(g). V G V G On a utilisé le théorème de Fubini (on ne manipule que des quantités intégrables) et l’invariance de la mesure ν. Si l’on note µ̌ la mesure miroire de µ définie par µ̌(U ) = µ(U −1 ) pour un borélien U de G, on obtient donc Z Z Z Z hPµ ξ, ηi = ξ(v)g −1 · η(v)dµ(g)dν(v) = ξ(v)g · η(v)dµ̌(g)dν(v) = hξ, Pµ̌ ηi. V G V G Ainsi l’adjoint de Pµ est Pµ̌ . Puisque l’on a supposé la mesure symétrique, µ̌ = µ et en particulier, Pµ est auto-adjoint. Notons par ailleurs que pour tout entier n ≥ 1, Pµn = Pµ∗n . Admettons dans un premier temps que kPµ k < 1. Si g ∈ G, on écrit la décomposition KAK de g, i.e. g = U1 DU2 , où D = diag(λ1 , ..., λd ), λ1 ≥ ... ≥ λd > 0. Dans cette écriture, λ1 est la plus grande valeur propre de g, c’est donc sa norme, puisque l’on a choisi la norme subordonnée à la norme k.k2 de V . En particulier, kg −1 k = λ1d . Or, on rappelle que g est de déterminant 1 et donc que le produit des λj fait 1. On en déduit que λ1d = λ1 ...λd−1 et donc que 1 ≤ kg −1 k ≤ kgkd−1 . Soit c un réel tel que c > d2 . On note ξ(v) = min{1, kvk−c }. Alors ξ ∈ L2 (V ). De plus, si 1 ≤ kvk ≤ 2 et si g ∈ G, alors ξ(g −1 · v) ≥ kg −1 vk−c ≥ kg −1 k−c kvk−c ≥ 2−c kgk−c(d−1) . D’autre part, hPµn ξ, 1{1≤kvk≤2} i = Z Z {1≤kvk≤2} ξ(g −1 · v)dµ∗n (g)dν(v) ≥ 2−c G Z Z G et donc hPµn ξ, 1{1≤kvk≤2} i ≥ K Z kgk−c(d−1) dλ(v)dµ∗n (g) {1≤kvk≤2} kgk−c(d−1) dµ∗n (g), G où K > 0 est une constante. On en déduit, par l’inégalité de Cauchy-Schwarz, que Z 1 kgk−c(d−1) dµ∗n (g) ≤ kPµ kn kxi kk1{1≤kvk≤2} k ≤ K 0 kPµ kn . K G 23 D’autre part, la fonction logarithme est concave et la mesure µ∗n est une mesure de probabilité. Donc l’inégalité de Jensen concave donne Z Z −c(d−1) ∗n −c(d−1) ∗n log(kgk )dµ (g) ≤ log kgk dµ (g) . G G On trouve ainsi Z −c(d − 1)log(kgk)dµ∗n (g) ≤ K 00 + nlog(kPµ k). G Enfin, puisque kPµ k < 1, on a 0< 1 K 00 1 1 log( )≤ + c(d − 1) kPµ k n n Z log(kgk)dµ∗n . G Or, le terme à droite tend vers λ quand n tend vers l’infini. On en déduit donc que λ≥ 1 1 log( ) > 0. c(d − 1) kPµ k Il ne reste donc qu’à montrer que kPµ k < 1. On note toujours V = Rd . Si W est un sous-espace vectoriel de V , on notera Pr(W ) l’espace projectif associé. On rappelle que Pr(V ), aussi noté RP d−1 ou encore P(Rd ) est l’ensemble des droites de Rd . Il peut être représenté par le quotient Sd−1 /(x ∼ −x), où Sd−1 est la sphère unité de Rd et on le munit de la topologie quotient associée. Il s’agit d’un espace compact. C’est aussi le quotient des vecteurs non nuls de Rd par la relation d’équivalence x ∼ λx, λ ∈ R∗ . Si W est un sous-espace vectoriel de V , alors on voit Pr(W ) comme un sous-espace de Pr(V ). Puisqu’une matrice de SLd (R) transforme une droite en une droite, le groupe SLd (R) agit sur Pr(V ). Il agit donc aussi sur l’ensemble des mesures de probabilité sur cet espace par poussée en avant. Si η est une mesure de probabilité sur Pr(V ), on note Stab(η) le stabilisateur de η, c’est-à-dire l’ensemble des éléments g de SLd (R) tels que g∗ η = η. Lemme 4.2.2. Soit η une mesure de probabilité sur Pr(V ). Ou bien le stabilisateur de η est un sousgroupe compact de SLd (R), ou bien il existe deux sous-espaces vectoriels non triviaux V1 et V2 de V tels que la mesure η est supportée par Pr(V1 ) ∪ Pr(V2 ). Démonstration. Notons H le stabilisateur de η et supposons que H n’est pas compact. On note (gn ) une suite de H sans valeur d’adhérence. On utilise la décomposition KAK pour écrire gn = U1,n Dn U2,n avec Dn diagonale et U1,n , U2,n orthogonales. Par compacité du groupe orthogonal, la suite Dn n’a pas de valeur d’adhérence non plus et on peut supposer que la norme de Dn tend vers l’infini. On écrit Dn = diag(λ1,n , ..., λd,n ), λ1,n ≥ ... ≥ λd,n > 0 de sorte que λ1,n tend vers l’infini et λd,n tend vers 0 lorsque n tend vers l’infini. Par compacité, on peut supposer que kggnn k converge vers une matrice A lorsque n tend vers l’infini. Puisque kgn k = λ1,n diverge vers l’infini, par continuité du déterminant, la matrice limite A est non inversible (rappelons que les matrices gn sont dans SLd (R)). D’autre, part, pour tout n, kggnn k est de norme 1, donc par continuité, A est également de norme 1 et en particulier A 6= 0. Notons k la dimension du noyau A. Par ce qui précède, 0 < k < d. De même que l’espace projectif Pr(V ), l’ensemble des sous-espaces vectoriels de V de dimension k forme un espace compact, appelé Grasmannienne de dimension k. Le lecteur intéressé pourra consulter l’exemple 1.15 de [Lee13] pour une construction précise de la Grasmannienne de dimension k. Dans la preuve qu’il s’agit bien d’une variété, l’auteur explique qu’on peut recouvrir la Grasmannienne par un nombre fini de cartes, ce qui assure la compacité. Dans le cadre de ce cours, on se contentera d’admettre la compacité. En particulier, on peut supposer que les espaces gn ·(Ker(A)) convergent vers un espace de dimension k, que l’on note V1 . Notons alors V2 l’image de A. Puisque 0 < k < d, V1 et V2 sont deux sous-espaces vectoriels non triviaux de V . / Pr(V1 ), alors kg1n k gn · v Si v ∈ Pr(V1 ), alors gn · v converge vers la projection de v sur Pr(V1 ) et si v ∈ représente le même élément que gn · v dans Pr(V ), de sorte que gn · v converge vers Av dans Pr(V ), puisque kg1n k gn · v converge vers Av 6= 0. En particulier, gn · v converge vers un point de Pr(V2 ). Montrons enfin que la mesure η est supportée par Pr(V1 ) ∪ Pr(V2 ). Soit ϕ une fonction continue sur l’espace compact Pr(V ) à support dans Pr(V ) \ (Pr(V1 ) ∪ Pr(V2 )). Puisque pour tout n, gn préserve η, on a Z Z Z Z ϕ(v)dη(v) = ϕ(gn · v)dη(v) = ϕ(gn · v)dη(v) + ϕ(gn · v)dη(v). Pr(V ) Pr(V ) Pr(V )\Pr(Ker(A)) Pr(Ker(A)) Par convergence dominée, les deux intégrales convergent vers 0, ce qui permet de conclure. 24 Pour achever la démonstration, procédons par l’absurde et supposons que kPµ k = 1. Alors, il existe une suite de fonctions L2 de norme 1 (ξn ) telle que kPµ ξn −ξn k converge vers 0 lorsque n tend vers l’infini. En effet, sinon, il existe une constante c > 0 telle que pour tout vecteur ξ de norme 1, kPµ ξ − ξk ≥ c, de sorte que pour tout vecteur ξ, kPµ ξ − ξk ≥ ckξk. En particulier, puisque Pµ − Id est autoadjoint, l’orthogonal de l’adhérence de son image est le même espace que son noyau, donc est nul, ce qui montre que Pµ − Id est injectif et d’image dense, et que son inverse, défini sur l’espace dense Im(Pµ − Id) est un opérateur borné (par 1/c). Ainsi, 1 n’est pas dans le spectre de Pµ . D’autre part, le supremum des valeurs spectrales est la norme de Pµ , et le spectre est fermé, ce qui assure que 1 est valeur spectrale. On aboutit donc à une absurdité. Pour plus de détails sur la théorie des opérateurs utilisée ici, on pourra consulter le chapitre 6 de [AA02]. On considère donc une telle suite (ξn ). Alors, puisque kξn k = 1 et kPµ ξn −ξn k converge vers 0, kPµ ξn k converge vers 1. Or kPµ ξn − ξn k2 = kPµ ξn k2 + kξn k2 − 2hPµ ξn , ξn i −→ 0, n→∞ donc hPµ ξn , ξn i converge vers 1 lorsque n tend vers l’infini. En utilisant Fubini, on obtient donc Z hg · ξn , ξn idµ(g) −→ 1, n→∞ G donc Z kg · ξn − ξn k2 dµ(g) −→ 0. n→∞ G Quitte à extraire, on a donc pour µ-presque tout g ∈ G que kg · ξn − ξn kL2 converge vers 0. Par l’inégalité de Cauchy-Schwarz, appliquée à la fonction L1 g|ξn |2 − |ξn |2 , on obtient que kg · |ξn |2 − |ξn |2 kL1 converge vers 0 pour µ-presque tout g. On rappelle qu’on note λV la mesure de Lebesgue sur V . On considère pour chaque n la mesure νn de densité |ξn |2 par rapport à λV , i.e. dνn = |ξn |2 dλV . Puisque kξn kL2 = 1, νn est une mesure de probabilité sur V et par ce qui précède, g∗ νn − νn converge fortement vers 0. La mesure de Lebesgue est sans atome et il en va de même des mesures νn de sorte que l’on peut considérer νn comme une mesure de probabilité sur V \ {0}. On dispose d’une projection de V \ {0} sur Pr(V ) et l’on considère la poussée en avant de νn par cette projection. On obtient une mesure de probabilité ηn sur Pr(V ). Par compacité de l’espace projectif, on peut extraire une suite de (ηn ) qui converge préfaiblement (voir les rappels d’analyse fonctionnelle du deuxième chapitre de ce cours) vers une mesure limite que l’on note η et qui vérifie g∗ η = η pour µ-presque tout g, puisque g∗ ηn − ηn converge fortement vers 0 pour µ-presque tout g. En particulier, le groupe Gµ est un sous-groupe du stabilisateur de η. On rappelle à présent qu’on a supposé Gµ non compact. Puisque Gµ est fermé, le stabilisateur de η ne peut pas être compact et du lemme précédent on déduit l’existence de deux sous-espaces vectoriels non triviaux V1 et V2 de V tels que la mesure η soit supportée par Pr(V1 ) ∪ Pr(V2 ). Notons r le minimum des entiers k > 0 tels qu’il existe un sous-espace vectoriel W de V de dimension k tel que η(Pr(W )) 6= 0. Alors, 1 ≤ r < d. Si W1 et W2 sont deux sous-espaces vectoriels distincts de même dimension r, leur intersection est de dimension strictement plus petite, donc η(Pr(W1 )∩Pr(W2 )) = 0. On en déduit que η(Pr(W1 ) ∪ Pr(W2 )) = η(Pr(W1 )) + η(Pr(W2 )). Plus généralement, si W1 , ..., Wm sont des espaces vectoriels de dimension r, η(Pr(W1 ) ∪ ... ∪ Pr(Wm )) = η(Pr(W1 )) + ... + η(Pr(Wm )). Si > 0 est fixé, il n’y a donc qu’un nombre fini de sous-espaces vectoriels W de dimension r tels que η(Pr(W )) ≥ . et par conséquent, le supremum des nombres η(Pr(W )) pour W de dimension r est atteint. D’autre part, si on note δ ce supremum, il n’y a qu’un nombre fini d’espaces W de dimension r tels que η(Pr(W )) = δ. Notons F = {W1 , ..., Wl } ces espaces pour lesquels le supremum est atteint. Alors, si W ∈ F et g ∈ Gµ , η(Pr(g −1 W )) = η(g −1 Pr(W )) = η(Pr(W )), donc F est Gµ -invariant. Choisissons W dans F et désignons par Γµ le stabilisateur de W . Alors, puisque F est fini, Γµ est d’indice fini dans Gµ . Enfin, Γµ stabilise un sous-espace vectoriel de V non trivial. On a donc contredit le fait que Gµ est fortement irréductible. On en déduit que kPµ k < 1 et donc que λ > 0, ce qui achève la preuve. 25 Références [AA02] Yuri Abramovich et Charalambos Aliprantis. An invitation to operator theory. American Mathematical Society, 2002. [AB06] Charalambos Aliprantis et Kim Border. Infinite dimensional analysis, a hitchhiker’s guide. Springer, 2006. [Bir31] George Birkhoff. « Proof of the ergodic theorem ». In : Proceedings of the National Academy of Sciences of the United States of America 17 (1931), p. 70–82. [Bou06] Nicolas Bourbaki. Théorie des ensembles. Springer, 2006. [Bou07] Nicolas Bourbaki. Topologie générale chapitres 1 à 4. Springer, 2007. [Bum13] Daniel Bump. Lie Groups. Springer, 2013. [Car40] Henri Cartan. « Sur la mesure de Haar ». In : Comptes rendus de l’académie des sciences de Paris 211 (1940), p. 759–762. [Fek23] Michael Fekete. « Über die Verteilung der Wurzeln bei gewissen algebraischen Gleichungen mit ganzzahligen Koeffizienten ». In : Mathematische Zeitschrift 17 (1923), p. 228–249. [FK60] Harry Furstenberg et Harry Kesten. « Products of random matrices ». In : Annals of mathematical statistics 31 (1960), p. 457–469. [Fur63] Harry Furstenberg. « Noncommuting random products ». In : Transactions of the American mathematical society 108 (1963), p. 377–428. [GKR77] Yves Guivarc’h, Michael Keane et Bernard Roynette. Marches aléatoires sur les groupes de Lie. Springer, 1977. [Kac47] Mark Kac. « On the notion of recurrence in discrete stochastic processes ». In : Bulletin of the American Mathematical Society 53 (1947), p. 1002–1010. [Kak38] Shizuo Kakutani. « Two fixed-point theorems concerning bicompact convex sets ». In : Proceedings of the Imperial Academy 14 (1938), p. 242–245. [Kin76] John Kingman. « Subadditive ergodic theory ». In : Annals of Probability 1 (1976), p. 883– 909. [Lee13] John Lee. Introduction to smooth manifolds. Springer, 2013. [MT86] Rached Mneimé et Frédéric Testard. Introduction à la théorie des groupes de Lie classiques. Hermann, 1986. [Neu32] John von Neumann. « Proof of the Quasi-ergodic Hypothesis ». In : Proceedings of the National Academy of Sciences of the United States of America 18 (1932), p. 70–82. [Par04] William Parry. Topics in Ergodic Theory. Cambridge University Press, 2004. [Per96] Daniel Perrin. Cours d’algèbre. Ellipses, 1996. [Poi90] Henri Poincaré. « Sur le problème des trois corps et les équations de la dynamique ». In : Acta Mathematica 13 (1890), p. 1–270. [PS76] George Pó1ya et Gabor Szegö. Problems and Theorems in Analysis. Springer, 1976. [Rud91] Walter Rudin. Functional analysis. McGraw-Hill, 1991. [Wal82] Peter Walters. An introduction to ergodic theory. Springer, 1982. [Wei79] André Weil. L’intégration dans les groupes topologiques et ses applications. Hermann, 1979. 26