Combien les nombres entiers ont-ils de facteurs

publicité
Combien les nombres entiers ont-ils de facteurs premiers ?
Denis CHOIMET
Université de Brest
Jeudi 4 mai 2017
Table des matières
1 Introduction
1
2 Le théorème de Hardy-Ramanujan
2.1 Probabilités sur un ensemble fini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Heuristique du théorème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Le théorème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
4
4
5
3 La méthode des moments
3.1 Rappels sur la convergence en loi . . . . . . . . . .
3.2 Convergence en loi et moments . . . . . . . . . . .
3.3 Lois de probabilité caractérisées par leurs moments
3.4 Le théorème fondamental . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
8
9
11
4 Le théorème d’Erdös-Kac
4.1 Un théorème central limite non équidistribué
4.2 Le théorème . . . . . . . . . . . . . . . . . . .
4.2.1 Étape 1 . . . . . . . . . . . . . . . . .
4.2.2 Étape 2 . . . . . . . . . . . . . . . . .
4.2.3 Étape 3 . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
12
13
15
16
17
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Dans toute la suite :
• la notation log désigne le logarithme népérien,
• la lettre p désigne toujours un nombre premier.
Les paragraphes 1 et 2 de ce texte sont élémentaires, et reprennent en gros le contenu de l’exposé donné
à Brest. Les paragraphes 3 et 4 utilisent nettement plus de matériel en probabilités et en analyse fonctionnelle.
1
Introduction
Dans un article de 1917 ([9]) souvent considéré comme l’acte de naissance de la « théorie probabiliste
des nombres », G. H. Hardy et S. Ramanujan s’intéressent au nombre ω(n) de diviseurs premiers deux
à deux distincts d’un entier n ≥ 2. Ainsi :
ω(26 ) = 1 et ω(24 · 36 · 52 ) = 3.
On ne tient donc pas compte des multiplicités des facteurs premiers dans cette définition. Il est évident
que la fonction ω présente de grandes irrégularités : elle vaut 1 en toute puissance d’un nombre premier,
tandis que par exemple
ω(p1 p2 . . . pr ) = r
1
si p1 , . . . , pr sont des nombres premiers deux à deux distincts. Le bon sens nous inciterait donc tout au
plus à espérer des régularités en moyenne de cette fonction. Or, une estimée en moyenne de la fonction
ω n’est pas difficile à obtenir : on écrit
X
XX
X
1,
1=
ω(n) =
n≤x p|n
n≤x
pm≤x
où la dernière somme est indexée par les couples (p, m) formés d’un nombre premier p et d’un entier
m ≥ 1 tels que pm ≤ x. De là,
X x
X X
X
X1
1=
ω(n) =
=x
+ O(x).
p
p
p≤x p|m≤x
n≤x
p≤x
p≤x
Pour aller plus loin, nous allons utiliser une estimée donnée par Mertens en 1874 (voir [10] p. 351),
non-triviale mais qui reste élémentaire 1 :
X1
= log log x + O(1)
(1)
p
p≤x
On obtient alors
X
ω(n) = x log log x + O(x).
(2)
n≤x
Ainsi, la moyenne de ω sur les entiers ≤ x est sensiblement égale à log log x.
Remarque 1. Il est intéressant de regarder ce que devient ce résultat lorsqu’on tient compte des multiplicités. Posons
donc
r
X
αr
Ω(n) =
i=1
Q
i
si n = ri=1 pα
i , les pi étant premiers et deux à deux distincts et les αi des entiers ≥ 1. Ainsi, Ω(n) est le nombre de
facteurs premier de n, chacun étant compté un nombre de fois égal à sa multiplicité. On a cette fois
X
X
X x x + 2 + ... ,
Ω(n) =
1=
p
p
α
n≤x
la somme
P
pα m≤x
p m≤x
p≤x
étant étendue aux triplets (p, α, m) – où p est premier et α, m ∈ N∗ – vérifiant pα m ≤ x. De là,
X
X
X
X x
X
x
1
Ω(n) ≤
ω(n) +
+
+
.
.
.
=
,
ω(n) + x
p2
p3
p(p
− 1)
p
n≤x
n≤x
p≤x
la dernière somme écrite étant finie. On a donc
X
n≤x
Ω(n) = x log log x + O(x),
(3)
n≤x
ce qui montre que le comportement en moyenne des fonctions ω et Ω est le même. Plus précisément, on a
1 X
(Ω(n) − ω(n)) = O(1),
x
(4)
n≤x
estimée qui nous sera utile plus loin.
Il n’est pas difficile d’obtenir une majoration simple de ω(n), en utilisant deux fonctions arithmétiques
usuelles ainsi qu’une nouvelle estimée non-triviale, mais élémentaire toujours, de Tchebychev (1850).
Nous poserons
X
X
π(x) =
1 et θ(x) =
log p.
p≤x
p≤x
Ainsi, π(x) est le nombre d’entiers premiers ≤ x. L’estimée de Tchebychev peut s’écrire
A
x
x
≤ π(x) ≤ B
,
log x
log x
où A et B sont deux constantes > 0. Là encore, nous renvoyons à [10] p. 345 pour la preuve, obtenue
essentiellement en étudiant finement les diviseurs premiers de certains coefficients binomiaux. On en
déduit facilement deux résultats qui vont nous être utiles :
1. On entend par là qu’elle n’utilise pas de méthodes de variable complexe.
2
(i) log pn ∼ log n quand n → +∞, où pn désigne le n-ième nombre premier,
π(x)
(ii) limx→+∞ θ(x)
log x = 1.
Remarque 2. L’estimée de Tchebychev est précisée par le fameux Théorème des Nombres Premiers
de Hadamard et de la Vallée Poussin, selon lesquel π(x) ∼ logx x quand x → +∞. L’énoncé (ii) dit que
ce théorème s’exprime aussi sous la forme θ(x) ∼ x.
Démonstration. Tout d’abord, l’estimée de Chebychev donne log x ∼ log π(x), d’où log pn ∼ log π(pn ) = log n. Ensuite,
on a bien sûr θ(x) ≤ π(x) log x d’où
θ(x)
lim
≤ 1.
x→+∞ π(x) log x
En sens inverse, fixons α ∈]0, 1[. On a
X
θ(x) ≥
X
log p ≥ α log x
xα <p≤x
d’où
1 = α log x (π(x) − π(xα ))
xα <p≤x
θ(x)
π(xα )
≥α 1−
π(x) log x
π(x)
et donc, grâce à l’estimée de Tchebychev :
lim
x→+∞
θ(x)
≥ α.
π(x) log x
En faisant tendre α vers 1, on obtient
1 ≤ lim
x→+∞
θ(x)
θ(x)
≤ lim
≤ 1,
x→+∞ π(x) log x
π(x) log x
d’où le résultat.
Revenons à la fonction ω. Nous noterons (pn )n≥1 la suite strictement croissante des nombres premiers.
Le cas où ω(n) est aussi grand que possible devant n est celui où n = p1 . . . pr (on considère ici n
comme fonction de r). On a alors
log n =
r
X
(ii)
(i)
log pi = θ(pr ) ∼ π(pr ) log pr = r log pr ∼ r log r.
i=1
On en déduit que log log n ∼ log r, d’où finalement, pour les n comme ci-dessus 2 :
ω(n) = r ∼
Ainsi, l’ordre de grandeur « maximal » de ω(n) est
log n
.
log log n
log n
log log n .
On va voir dans la suite (paragraphe 2) que ces deux résultats (comportement en moyenne et borne
supérieure) sont très loin d’épuiser la question : ce qu’on découvert Hardy et Ramanujan, c’est que ω(n)
est génériquement beaucoup plus petit que cette borne : non pas de l’ordre de logloglogn n , mais plutôt de
l’ordre de log log n (pour n = 1080 , logloglogn n ' 35 et log log n ' 5 !). Le paragraphe 4 étudie ensuite les
« fluctuations » par rapport à la moyenne de ω(n), et établit un remarquable théorème central limite
dû à Erdös et Kac, dans un contexte de variables aléatoires dépendantes. Auparavant, on aura fait
(paragraphe 3) tous les rappels nécessaires sur la notion de convergence en loi, et présenté la méthode
des moments qui est l’ingrédient essentiel de la preuve du théorème d’Erdös-Kac.
2. Dans le cas général, si n =
Qr
i=1
i
pα
i et N = p1 · · · pr , on a
ω(n) = ω(N ) ≤ C
log N
log n
≤C
pour n assez grand.
log log N
log log n
3
2
2.1
Le théorème de Hardy-Ramanujan
Probabilités sur un ensemble fini
Nous n’aurons besoin ici que de notions très élémentaires de probabilités. Fixons un entier n ≥ 1.
L’intervalle d’entiers [[1, n]] sera noté Ωn dans la suite. À toute partie A de Ωn , on associe le réel
Pn (A) =
|A|
.
n
L’application Pn : P(Ωn ) → [0, 1] ainsi définie s’appelle la probabilité uniforme sur Ωn . Elle possède les
propriétés suivantes :
(i) Pn (∅) = 0 et Pn (Ωn ) = 1,
(ii) A ∩ B = ∅ ⇒ Pn (A ∪ B) = Pn (A) + Pn (B).
Une variable aléatoire définie sur Ωn est simplement une application X : Ωn → R. On lui associe deux
grandeurs :
• son espérance, définie par
n
X
1X
En (X) =
X(i) =
xPn (X = x),
n
x
i=1
la somme étant étendue à l’ensemble (fini) des valeurs de X,
• sa variance, définie par
Vn (X) = E (X − En (X))2 = En (X 2 ) − En (X)2 .
Nous aurons besoin d’une inégalité fondamentale, due à Bienaymé et Tchebychev, qui exprime de façon
quantitative que la variance donne une information sur la dispersion d’une variable aléatoire autour
de son espérance :
Vn (X)
Pn (|X − En (X)| ≥ ε) ≤
.
ε2
En particulier, si C est une constante strictement positive,
Pn (|X − En (X)| ≥ CVn (X)1/2 ) ≤ C −2 .
Par exemple, en prenant C = 10, l’inégalité
de Bienaymé-Tchebychev diti que X se trouvera avec
h
probabilité ≥ 99% dans l’intervalle En (X) − 10σn (X), En (X) + 10σn (X) , où σn (X) := Vn (X)1/2
s’appelle l’écart-type de X.
2.2
Heuristique du théorème
À tout nombre premier p, on associe la fonction indicatrice des multiples de p, définie par
1 si p|n
∗
δp : N → {0, 1}, n 7→
0 sinon.
On a alors
ω(n) =
X
δp (n)
p≤n
la somme étant étendue à l’ensemble des nombres premiers inférieurs ou égaux à n.
Restreinte à l’ensemble Ωn , la fonction δp est une variable aléatoire de Bernoulli, de paramètre
n
o 1 n
1
Pn (δp = 1) = Card i ∈ Ωn /p|i =
.
n
n p
Si n est grand, on a donc Pn (δp = 1) ' p1 , de sorte que la restriction de δp à Ωn suit « presque » la loi
de Bernoulli de paramètre p1 . Par ailleurs, si on se donne des nombres premiers deux à deux distincts
4
p1 , . . . , pr , un entier est divisible par tous les pi si et seulement s’il est divisible par leur produit. Par
conséquent, si n est grand, on a
n
o
1
Card i ∈ Ωn /p1 . . . pr |i
n
n
1
1
'
=
n p1 . . . pr
p1 . . . pr
' Pn (δp1 = 1) · · · Pn (δpr = 1).
Pn (δp1 = 1, . . . , δpr = 1) =
Ainsi, les δp induisent des variables aléatoires sur Ωn qui sont, lorsque n est grand, « approximativement
indépendantes ». De là, l’idée de « tricher » et de considérer, en oubliant momentanément les δp , une
suite (Xp ) de variables aléatoires indexée par les nombres premiers, définies sur un même espace
probabilisé (Ω, A, P), indépendantes, et telles que Xp suive la loi de Bernoulli de paramètre p1 . En
posant
X
Xp ,
Sn =
p≤n
on définit une variable aléatoire qui a des chances de se comporter, du point de vueprobabiliste,
comme
P
P
1
1
1
3
ω sur Ωn . L’espérance de Sn vaut en := p≤n p et sa variance vn := p≤n p 1 − p , toutes deux
équivalentes à log log n quand n → +∞ en vertu de l’estimée (1) de Mertens. D’après l’inégalité de
Bienaymé-Tchebychev, on aura
Sn = log log n + θn (log log n)1/2 ,
où θn est une variable aléatoire qui sera, avec forte probabilité, « pas trop grande ».
2.3
Le théorème
Théorème 1 (Hardy-Ramanujan). Pour toute suite (γn ) de réels strictement positifs tendant vers
+∞, on a
Pn |ω − log log n| ≥ γn (log log n)1/2 → 0 quand n → +∞,
c’est-à-dire
o
n
.
1
Card i ∈ Ωn |ω(i) − log log n| ≥ γn (log log n)1/2 → 0 quand n → +∞,
n
Remarque 3. Le théorème de Hardy-Ramanujan reste valable si on remplace ω par la fonction Ω définie à la remarque
1, et qui compte le nombre de diviseurs premiers comptés avec multiplicité d’un entier. En effet, on a par l’inégalité de
Markov et (4) :
En (|Ω − ω|)
1
Pn (|Ω − ω| ≥ γn (log log n)1/2 ) ≤
→ 0,
=
O
γn (log log n)1/2
γn (log log n)1/2
d’où
γn
γn
Pn |Ω − log log n| ≥ γn (log log n)1/2 ≤ Pn |ω − log log n| ≥
(log log n)1/2 + Pn |Ω − ω| ≥
(log log n)1/2 → 0.
2
2
Le théorème de Hardy-Ramanujan implique en particulier que, pour tout ε > 0,
ω
Pn − 1 ≥ ε → 0,
log log n
autrement dit que log ωlog n converge vers 1 en probabilité. Nous sommes donc en présence d’une loi
faible des grands nombres. La preuve que nous allons donner du théorème n’est pas celle de [9], mais
celle, beaucoup plus simple, donnée par P. Turán en 1934 ([14]).
Sur la figure suivante, on a représenté la fonction ω ainsi qu’une bande de largeur (log log n)1/2 (« l’écarttype ») autour de sa « moyenne » log log n.
3. Rappelons que la variance est additive sur les variables aléatoires indépendantes.
5
h
i
Figure 1 – Les fluctuations de ω(n) dans l’intervalle log log n±(log log n)1/2 (remerciements à Franz
Ridde)
Démonstration. D’après l’inégalité de Bienaymé-Tchebychev, on a
E ((ω − log log n)2 )
n
Pn |ω − log log n| ≥ γn (log log n)1/2 ≤
γn2 log log n
(5)
Il reste à majorer le numérateur du majorant. Celui-ci vaut
En (ω − log log n)2 = En (ω 2 ) − 2En (ω) log log n + (log log n)2 .
D’une part,
En (ω) =
X
p≤n
X1
1Xn 1X
1X n
=
+
+ O(1),
O(1) =
En (δp ) =
n
p
n
p n
p
p≤n
p≤n
p≤n
p≤n
d’où
En (ω) = log log n + O(1)
(6)
d’après (1). D’autre part,
2
En (ω ) =
X
p,q≤n
1X n
1 X
n
+
En (δp δq ) =
n
p
n
pq
p≤n
p6=q≤n
1Xn 1 X n
≤
+
n
p n
pq
p≤n
p6=q≤n

2
X1 X 1
X1

=
−
+
p
p2
p
p≤n
p≤n
p≤n
2
= (log log n) + O(log log n).
(7)
Ainsi, (6) et (7) donnent
En (ω − log log n)2 = O(log log n),
et le résultat suit grâce à (5).
Du fait que log log n croît très lentement vers +∞, on déduit du théorème précédent le résultat suivant,
qui exprime gross modo le fait que « presque tout entier n possède approximativement log log n diviseurs
premiers » :
6
Théorème 2. Pour toute suite (γn ) de réels strictement positifs tendant vers +∞, on a
n
.
o
Pn i ∈ Ωn |ω(i) − log log i| ≥ γi (log log i)1/2
→ 0 quand n → +∞.
Démonstration. Posons λn = log log n. Si i ∈ Ωn vérifie
1/2
n1/2 ≤ i ≤ n et |ω(i) − λi | ≥ γi λi ,
alors
|λi − λn | ≤ log 2,
donc
λi
log 2
1
≤
−
1
≤ pour n assez grand.
λn
λn
2
De là,
|ω(i) − λn |
1/2
1/2
≥
λn
λi
1/2
λn
|ω(i) − λi |
1/2
−
λi
|λi − λn |
1/2
λi
!
1
≥√
2
γi −
d’où
|ω(i) − λn |
1/2
λn
1
≥ γn0 , avec γn0 = min √
1/2
n ≤i≤n
2
γi −
log 2
log 2
1/2
!
,
λi
!
1/2
λi
Dès lors,
Pn
n
.
o
1/2
i ∈ Ωn |ω(i) − λi | ≥ γi λi
est majoré par
n
.
o
n1/2
+ Pn i ∈ Ωn |ω(i) − λn | ≥ γn0 λ1/2
n
n
qui tend vers 0 d’après le théorème 1, puisque γn0 → +∞.
3
La méthode des moments
On décrit ici une méthode permettant de montrer des convergences en loi sans utiliser les fonctions
caractéristiques. Elle aura ses mérites au moins dans deux situations : lorsque l’indépendance (ce sera
le cas ici) ou la commutativité (cf. par exemple la théorie des matrices aléatoires) seront en défaut.
3.1
Rappels sur la convergence en loi
Étant donné des variables aléatoires réelles Xn (n ≥ 1) et X (pas forcément définies sur le même espace
probabilisé), on dit que Xn converge en loi vers X si l’un des quatre énoncés équivalents suivants est
vérifié :
(i) pour toute fonction continue et bornée 4 de R vers C, on a E(f (Xn )) → E(f (X)), ou encore :
Z
Z
f (x)dPXn (x) → f (x)dPX (x),
où la notation PY désigne la loi d’une variable aléatoire réelle Y et où les intégrales sont étendues
à R;
(ii) pour tout x ∈ R tel que PX ({x}) = 0, PXn (] − ∞, x]) → PX (] − ∞, x]) quand n → +∞,
(iii) pour tout borélien B de R dont la frontière ∂B vérifie PX (∂B) = 0, on a PXn (B) → PX (B),
(iv) pour tout t ∈ R, φXn (t) := E(eitXn ) → E(eitX ) =: φX (t) quand n → +∞ (théorème de Lévy).
Pour l’équivalence des quatre énoncés, voir [1] pp. 335 et 349.
Remarque 4.
• Dans l’énoncé (ii), l’ensemble des x ∈ R tels que PX ({x}) > 0 est au plus dénombrable.
• Dans l’énoncé (iv), φX est appelée la fonction caractéristique de la variable aléatoire X.
4. ou, de façon équivalente, tendant vers 0 en ±∞.
7
L
• On utilisera la notation Xn → X pour exprimer la convergence en loi.
Le lemme technique suivant nous sera très utile dans la suite. Introduisons d’abord une notion supplémentaire : pour chaque n ≥ 1, on se donne une variable aléatoire réelle Xn définie sur un espace
probabilisé (Ωn , An , Pn ) qui peut varier avec n. On dira que Xn converge en probabilité vers 0, et on
P
P
P
écrira Xn → 0 si, pour tout δ > 0, Pn (|Xn | ≥ δ) → 0. On écrira Xn → 1 pour signifier que Xn − 1 → 0.
L
P
P
Lemme 1. On suppose que Un → 1, que Vn → 0 et que Xn → X.
L
(i) Xn + Vn → X,
P
(ii) Vn Xn → 0,
L
(iii) Un Xn + Vn → X.
Démonstration.
(i) On va utiliser le théorème de Lévy. Soit donc t ∈ R fixé. On a
|φXn +Vn (t) − φX (t)| ≤ |φXn +Vn (t) − φXn (t)| + |φXn (t) − φX (t)| ≤ E|eitVn − 1| + |φXn (t) − φX (t)|
et il suffit donc de montrer que E|eitVn − 1| → 0. Or, étant donné δ > 0, on a
Z
Z
E|eitVn − 1| =
|eitVn − 1|dPn +
|eitVn − 1|dPn
|Vn |≥δ
|Vn |<δ
≤ 2Pn (|Vn | ≥ δ) + δ|t|.
De là, limn E|eitVn − 1| ≤ δ|t|, d’où le résultat en faisant tendre δ vers 0.
(ii) Fixons δ > 0. Pour tout x > 0 tel que PX ({±xδ}) = 0, on a
Pn (|Xn | ≥ xδ) → P(|X| ≥ xδ).
Par ailleurs,
Pn (|Vn Xn | ≥ δ) ≤ Pn (|Vn | ≥ x−1 ) + Pn (|Xn | ≥ xδ),
d’où
lim Pn (|Vn Xn | ≥ δ) ≤ P(|X| ≥ xδ)
n
puis
lim Pn (|Vn Xn | ≥ δ) ≤ 0
n
en faisant tendre x vers +∞ (en évitant un nombre dénombrable de valeurs), d’où le résultat.
(iii) Ce point découle directement des deux précédents, en écrivant
Un Xn + Yn = Xn + (Un − 1)Xn + Yn
et en utilisant le fait (facile) que la somme de deux variables aléatoires convergeant en probabilité
vers 0 en fait autant.
3.2
Convergence en loi et moments
Théorème 3. Soit (Xn )n≥1 une suite de variables aléatoires réelles. On suppose que
L
(i) Xn → X,
(ii) E(|Xn |p+ε ) ≤ C pour tout n ≥ 1, où p est un entier ≥ 1 et ε > 0 est fixé.
Alors
E(|X|p ) < +∞ et E(Xnp ) → E(X p ) quand n → +∞.
Démonstration. On va utiliser un argument classique de troncature. Pour tout A > 0, définissons la
fonction
 p
 A si x ≥ A
xp si |x| ≤ A
φA : R → R, x 7→

(−A)p si x ≤ −A.
8
D’après l’hypothèse (i), et puisque la fonction x 7→ φA (|x|) est continue et bornée, on a
lim E(φA (|Xn |)) = E(φA (|X|)).
n→+∞
Comme les normes Lp croissent avec p, il existe une constante C 0 > 0 telle que
E(|Xn |p ) = kXn kpp ≤ kXn kpp+ε ≤ C 0 pour tout n ≥ 1.
A fortiori, on a
E(φA (|Xn |)) ≤ C 0
d’où, en passant à la limite quand n → +∞,
E(φA (|X|)) ≤ C 0 .
Le lemme de Fatou donne alors
p
E(|X| ) = E
lim φA (|X|) ≤ lim E(φA (|X|)) ≤ C 0 ,
A→+∞
A→+∞
ce qui prouve que
E(|X|p ) < +∞.
(8)
On a alors envie d’écrire
lim
lim E(φA (Xn )) = lim
A→+∞ n→+∞
lim E(φA (Xn )),
n→+∞ A→+∞
(9)
ce qui donnera, par convergence dominée,
lim E(φA (X)) = lim E(Xnp ),
n→+∞
A→+∞
soit, à nouveau par convergence dominée – utilisant (8) – :
E(X p ) = lim E(Xnp ).
n→+∞
Pour cela, on a besoin de montrer que E(φA (Xn )) converge uniformément en n vers E(Xnp ) quand
A → +∞. Or,
|E(Xnp ) − E(φA (Xn ))| ≤ E |Xn |p 1|Xn |>A ≤ A−ε E |Xn |p+ε ≤ CA−ε ,
ce qui termine la démonstration 5 .
3.3
Lois de probabilité caractérisées par leurs moments
Dans tout ce paragraphe, toutes les mesures de probabilité considérées sont définies sur la tribu borélienne de R. On supposera également toujours qu’elles admettent des moments de tout ordre. Nous
dirons qu’une probabilité P est caractérisée par ses moments si toute probabilité Q sur R qui a les
mêmes moments que P, c’est-à-dire qui vérifie 6
Z
Z
xn dP(x) = xn dQ(x) pour tout n ∈ N
est égale à P. Le théorème suivant donne une condition suffisante (et facile à vérifier) pour qu’il en soit
ainsi.
5. Au cours du calcul, on a utilisé la majoration
|xp − φA (x)| ≤ |x|p 1|x|>A pour x ∈ R,
facile à vérifier en discutant selon la parité de p.
6. les deux intégrales étant absolument convergentes.
9
Théorème
4. Soit (un )n≥0 une suite complexe telle que le rayon de convergence de la série entière
P un n
n! z soit non nul. Alors il existe au plus une probabilité P sur R telle que
Z
xn dP(x) = un pour n ≥ 0.
Démonstration. Soit P une telle probabilité. Notons φ la fonction caractéristique de P, définie par
Z
φ(t) = eitx dP(x) pour t ∈ R,
P un n
et R le rayon de convergence de la série entière
n! z . L’idée de la preuve est de montrer que la
fonction φ est analytique, et que son développement en série entière au voisinage de 0 est déterminé
par les un . Nous aurons besoin du
Lemme 2. Si on pose
Z
vn =
Alors les séries entières
P un
n!
z n et
P vn
n! z
n
|x|n dP(x) pour n ≥ 0.
ont le même rayon de convergence R.
Démonstration. On a bien sûr |un | ≤ vn . Inversement, on a bien sûr v2n = u2n . Par ailleurs,
Z
Z
2n+1
v2n+1 = |x|
dP(x) ≤ (1 + x2n+2 )dP(x) = 1 + u2n+2 ,
d’où
v2n+1
1
u2n+2
1
u2n+2
≤
+
=
+ 2(n + 1)
.
(2n + 1)!
(2n + 1)! (2n + 1)!
(2n + 1)!
(2n + 2)!
Soit alors r ∈]0, R[, et s ∈]r, R[. Il existe une constante C > 0 telle que
u2n+2 2n+1 ≤ C et 2(n + 1)r2n+1 ≤ Cs2n+1 pour n ≥ 0.
(2n + 2)! s
On a alors
u
2n+2
2n+1
≤ C 2,
2(n + 1)
r
(2n + 2)!
ce qui prouve que la suite de terme général
v2n+1 2n+1
(2n+1)! r
est bornée et achève la preuve.
Fixons à présent t, h ∈ R tels que |h| < R. On a
Z
φ(t + h) =
ei(t+h)x dP(x) =
Z
eitx
∞
X
(ihx)n
n=0
n!
dP(x) =
Z
∞
X
(ih)n
n=0
n!
xn eitx dP(x),
l’intégration terme à terme étant licite puisque
∞ Z ∞
X
X
itx (ihx)n |h|n
dP(x) =
e
vn < +∞
n! n!
n=0
n=0
d’après le lemme 2. Ainsi, la fonction φ est analytique sur R. De plus, ce qui précède appliqué en t = 0
donne
Z
∞
∞
X
X
(ih)n
un
φ(h) =
xn dP(x) =
(ih)n pour |h| < R.
n!
n!
n=0
n=0
Ainsi, deux probabilités ayant les un pour moments auront des fonctions caractéristiques analytiques
sur R, et qui coïncident dans un voisinage de 0. Ces fonctions caractéristiques seront donc égales, et
on sait que cela implique l’égalité des probabilités (voir [1]).
10
Exemple 1. La loi de Gauss, de densité
x2
1
f (x) = √ e− 2
2π
est caractérisée par ses moments. En effet, les moments d’ordre impair sont tous nuls et, pour tout
R +∞
x2
entier k ≥ 1, le moment d’ordre pair u2k := √12π −∞ x2k e− 2 dx est égal après changement de variable
t=
x2
2
à
2k
√
π
+∞
2k
1
u
e du = √ Γ k +
2
π
0
k
1
2
3
1
1
k−
= √
k−
··· Γ
2
2
2
2
π
= (2k − 1)(2k − 3) · · · 1
(2k)!
,
=
2k k!
P u2k 2k
est infini.
de sorte que le rayon de convergence de la série entière
(2k)! z
Z
k− 21 −u
Remarque 5. Pour un exemple de probabilité non caractérisée par ses moments (la loi « log-normale »),
voir [6] p. 227. Voir aussi [13], qui aborde en détail le problème des moments.
3.4
Le théorème fondamental
Commençons par quelques rappels de théorie de la mesure. Nous noterons C0 l’espace des fonctions
continues de R vers C tendant vers 0 en ±∞, muni de la norme de la convergence uniforme, et C0∗
l’espace dual des formes linéaires continues sur C0 . Un théorème dû à F. Riesz (voir [12]) dit que les
éléments de C0∗ sont en bijection avec les mesures boréliennes (complexes et finies) sur R. De façon
précise, pour toute forme linéaire φ ∈ C0∗ , il existe une unique mesure borélienne P sur R telle que
Z
φ(f ) = f dP pour f ∈ C0 .
De plus, la forme linéaire φ est positive (au sens où f ≥ 0 ⇒ φ(f ) ≥ 0) si et seulement si la mesure P l’est, et dans ce cas, kφk = P(R), où k · k désigne la norme sur C0∗ subordonnée à k · k∞ . En
particulier, toute mesure de probabilité sur R peut être vue comme un élément de la boule unité de C0∗ .
On peut munir C0∗ de la topologie définie par la norme k · k, mais une autre topologie nous intéressera
ici davantage : la topologie préfaible, dont un système fondamental de voisinages de 0 est formé des
ensembles
{φ ∈ C0∗ /|φ(fi )| < ε pour 1 ≤ i ≤ p}
où ε > 0, l’entier p décrivant N∗ et f1 , . . . , fp étant des éléments de C0 . On voit immédiatement qu’une
suite (φn )n≥1 d’éléments de C0∗ converge (préfaiblement) vers φ ∈ C0∗ si et seulement si
φn (f ) → φ(f ) pour toute f ∈ C0 .
La boule unité fermée B de (C0∗ , k · k) possède deux propriétés remarquables : la topologie induite sur
B par la topologie préfaible est métrisable (car C0 est séparable), et B munie de cette topologie induite
est un espace compact. Pour tout cela, voir [3]. Voici deux conséquences importantes de ces propriétés.
• Si (Pn )n≥1 est une suite de mesures de probabilité, il existe une mesure positive P et une
extraction φ telles que
Z
Z
f dPφ(n) →
f dP pour toute f ∈ C0 .
La mesure P n’est en général pas une probabilité : on a seulement P(R) ≤ 1. Mais c’est le cas
(« il n’y a pas de perte de masse à l’infini ») si la suite (Pn )n≥1 est tendue, au sens où, pour
tout ε > 0, il existe A > 0 tel que
Pn ([−A, A]) ≥ 1 − ε pour tout n ≥ 1.
11
• Si Pn (n ≥ 1) et P sont des probabilités telles que, pour toute extraction φ, l’on ait
Z
Z
f dPφ(n) → f dP pour toute f ∈ C0 ,
alors
Z
Z
f dPn →
f dP pour toute f ∈ C0 .
En effet, dans un espace métrique compact, une suite converge si et seulement si elle possède
une unique valeur d’adhérence.
Théorème 5. Soit Xn et X des variables aléatoires réelles admettant des moments de tout ordre. On
suppose que :
(i) la loi de X est caractérisée par ses moments,
(ii) pour chaque entier k ≥ 1, E(Xnk ) → E(X k ) quand n → +∞.
L
Alors Xn → X.
Démonstration. Notons Pn (resp. P) la loi de Xn (resp. X). Soit Q une mesure positive et φ une
extraction telles que
Z
Z
f dPXφ(n) → f dQ pour toute f ∈ C0 .
On va montrer que Q n’est autre que la loi de X, ce qui donnera le résultat en vertu du second fait
qu’on vient de rappeler. Tout d’abord, Q est une probabilité, car la suite (PXn )n≥1 est tendue : en
effet, pour A > 0, on a
P(|Xn | > A) ≤ A−2 E(Xn2 ) ≤ CA−2 .
Fixons alors une variable aléatoire réelle Y de loi Q. Comme la loi de X est caractérisée par ses
moments, il suffit dès lors de montrer que Y possède des moments de tout ordre, et que
E(X k ) = E(Y k ) pour tout k ≥ 1.
Fixons donc un entier k ≥ 1, et un entier pair N > k. La suite de terme général E(XnN ) = E(|Xn |N )
L
est bornée (car convergente), et Xφ(n) → Y , donc d’après le théorème 3, on a
k
E(|Y |k ) < +∞ et E(Xφ(n)
) → E(Y k ).
De là, E(X k ) = E(Y k ) par unicité de la limite (cf. (ii)), ce qui donne le résultat puisque la loi de X
est caractérisée par ses moments.
4
Le théorème d’Erdös-Kac
La preuve que nous donnerons n’est pas la preuve historique ([5]), mais celle donnée par Billingsley ([2]).
L’idée, déjà rencontrée au paragraphe 2.2, consiste à « imiter » la fonction ω par une somme de variables
aléatoires indépendantes auxquelles les versions usuelles du théorème central limite s’appliquent.
4.1
Un théorème central limite non équidistribué
Théorème 6. Soit (Xn )n≥1 une suite de variables aléatoires indépendantes, centrées, et uniformément
bornées : |Xn | ≤ C pour n ≥ 1. On note σn2 la variance de Xn , et on pose
Sn = X1 + . . . + Xn , sn = (σ12 + . . . + σn2 )1/2 et Sn∗ =
Si sn → +∞, alors (Sn∗ )n≥1 converge en loi vers la loi normale N(0, 1).
12
Sn
.
sn
Démonstration. Par indépendance des Xk , s2n est la variance de Sn , donc Sn∗ est une variable aléatoire
centrée et réduite. Fixons t ∈ R. Grâce à l’indépendance des Xk à nouveau, on dispose de l’égalité
suivante entre fonctions caractéristiques :
φSn∗ (t) =
n
Y
φXk
k=1
t
sn
.
Par ailleurs, on peut écrire pour chaque k ≥ 1 une majoration de Taylor du type
|φXk (t) − 1| ≤ σk2
|t|2
.
2
Puisque les σk2 sont uniformément bornés (par C 2 ) et sn → +∞, il existe un entier N ≥ 1 tel que
t
φX
k sn − 1 < 1 pour n ≥ N et 1 ≤ k ≤ n,
ce qui permet de considérer, au voisinage de 1, la version continue du logarithme définie par
log z = −
∞
X
(1 − z)n
n=1
n
pour |z − 1| < 1.
De façon précise, on pousse un peu plus loin la majoration taylorienne :
3
3
2
φX (t) − 1 + σ 2 t ≤ E(|Xk |3 ) |t| ≤ Cσ 2 |t| ,
k
k
k
2
6
6
ce qui donne
φXk
t
sn
σ 2 t2
= 1 − k2 + O
2sn
σk2
s3n
,
le O étant absolu, et en utilisant une inégalité du type
1
| log(z) − (z − 1)| ≤ M |z − 1|2 pour |z − 1| ≤ ,
2
où M > 0 est une constante réelle, on en déduit l’estimée
2
σk
σk2 t2
t
log φXk
,
=− 2 +O
sn
2sn
s3n
le O étant à nouveau absolu. De là,
n
X
k=1
log φXk
t
sn
n
X
σk2
t2
=− +O
2
s3n
!
=−
k=1
t2
+ O(s−1
n ).
2
En définitive,
t2
φSn∗ (t) → e− 2 quand n → +∞,
ce qui termine la preuve grâce au théorème de Lévy.
4.2
Le théorème
Théorème 7 (Erdös-Kac). Pour tout réel x, on a
Z x
. ω(i) − log log i
2
1
− t2
√
Pn
i ∈ Ωn
≤
x
→
e
dt quand n → +∞.
(log log i)1/2
2π −∞
13
(10)
Remarque 6. Nous établirons le théorème sous la forme plus maniable suivante :
Z x
. ω(i) − log log n
2
1
− t2
√
i ∈ Ωn
e
Pn
≤
x
→
dt quand n → +∞.
(log log n)1/2
2π −∞
(11)
Pour comprendre pourquoi (11) implique (10), il suffit d’écrire, en posant λn = log log n :
!
1/2
ω(i) − λi
λn
ω(i) − λn λn − λi
= 1/2
+
=: Un (i)(Xn (i) + Yn (i)),
1/2
1/2
1/2
λi
λi
λn
λn
P
P
et de montrer que Un → 1 et Yn → 0, le résultat découlant du lemme 1. Commençons par Un . Étant
donné δ > 0, on a
1/2
1/2
Pn (|Un − 1| ≥ δ) = Pn (λn1/2 − λi ≥ δλi ).
Or, si n1/2 ≤ i ≤ n, on a
1/2
λ1/2
n − λi
1/2
ce dernier majorant étant < δλi
=
λn − λi
1/2
1/2
λn + λi
≤
log 2
1/2
,
λn
pour n assez grand. Pour ces mêmes n, on aura donc
Pn (|Un − 1| ≥ δ) ≤ Pn ([[1, n1/2 ]]) ≤ n−1/2 → 0.
Pour Yn , les choses sont analogues : si n1/2 ≤ i ≤ n, alors |λn − λi | ≤ log 2, donc pour n assez grand
|Yn (i)| < δ pour n1/2 ≤ i ≤ n,
d’où
Pn (|Yn | ≥ δ) ≤ Pn ([[1, n1/2 ]]) ≤ n−1/2 → 0,
d’où le résultat.
P
L’idée de P
la preuve est maintenant de mimer la somme p≤n δp (égale à ω sur Ωn ) par la variable
aléatoire p≤n Xp , où les Xp sont des variables de Bernoulli indépendantes indexées par les nombres
premiers et telles que P(Xp = 1) = p1 . La preuve se fait alors en trois étapes.
• Étape 1 : troncature. Pour des raisons techniques qui apparaîtront plus loin, on utilise plutôt
les variables aléatoires
X
Sn :=
Xp ,
p≤αn
où (αn ) est une suite tendant vers +∞. Cette étape consiste à montrer que si cette suite est
judicieusement choisie, la preuve du théorème se réduit à établir que
Z x
−t2
ωn − e n
1
Pn
≤x → √
(12)
e− 2 dt quand n → +∞,
σn
2π −∞
où
ωn =
X
δp ,
p≤αn
X 1
X 1
1
2
en := E(Sn ) =
et σn = V (Sn ) =
1−
.
p
p
p
p≤αn
p≤αn
• Étape 2. On montre que, pour chaque entier r ≥ 1,
Sn − en r
ωn − e n r
E
− En
→ 0 quand n → +∞.
σn
σn
14
(13)
• Étape 3. On montre enfin que, pour chaque entier r ≥ 1,
Sn − en r
E
→ µr quand n → +∞,
σn
où µr =
√1
2π
R
xr e −
x2
2
(14)
dx est le r-ième moment de la loi standard de Gauss.
Il en résulte que
En
ωn − e n
σn
r → µr quand n → +∞.
Puisque la loi normale standard est caractérisée par ses moments (cf. l’exemple 1), on déduit du
théorème 5 que
ωn − e n L
→ N(0, 1)
σn
ce qui établit (12) et termine la preuve du théorème d’Erdös-Kac.
4.2.1
Étape 1
On note d’abord que
ω − ωn
1
=
En
σn
σn
X
αn <p≤n
1
En (δp ) =
σn
X
αn <p≤n
1 n
1
≤
n p
σn
X
αn <p≤n
1
.
p
On va imposer à la suite (αn ) une première condition, qui exprime qu’elle ne tend pas trop lentement
vers l’infini :
X 1
= o (log log n)1/2 .
(15)
p
αn <p≤n
On a alors
σn2 =
X 1
X1
+ O(1) =
+ o (log log n)1/2 ∼ log log n,
p
p
p≤αn
p≤n
d’où σn ∼ (log log n)1/2 , et donc
En
L’inégalité de Markov implique alors que
ω − ωn
σn
ω−ωn P
σn →
→ 0.
0, donc
ω − en L
ωn − en L
→ N(0, 1) ⇔
→ N(0, 1)
σn
σn
grâce au lemme 1. Ensuite, on écrit 7
ω − e
en − log log n ω − log log n
σn
n
=
+
σn
σn
(log log n)1/2
(log log n)1/2
|
{z
}
{z
}
|
→0
→1
et on conclut en utilisant à nouveau le lemme 1 que
ωn − en L
ω − log log n L
→ N(0, 1) ⇔
→ N(0, 1)
1/2
σn
(log log n)
7. On a
en − log log n =
X1
− log log n −
p
p≤n
X
αn <p≤n
1
= O(1) + o (log log n)1/2 = o (log log n)1/2 .
p
15
4.2.2
Étape 2
Fixons n et r des entiers ≥ 1. Notons q1 < . . . < qs les nombres premiers ≤ αn . La formule du
multinôme donne
X
r!
Snr = (Xq1 + . . . + Xqs )r =
X β1 · · · Xqβss ,
β1 ! · · · βs ! q1
β1 +...+βs =r
mais nous allons plutôt l’écrire avec des exposants strictement positifs :
Snr
=
r X
X
t=1
r!
β1 ! · · · βt !
X
Xpβ11 · · · Xpβtt ,
p1 <...<pt ≤αn
où la deuxième somme est indexée par les t-uplets (β1 , . . . , βt ) d’entiers strictement positifs de somme
égale à r, et où la notation pi désigne un nombre premier. Puisque les Xp sont des variables de Bernoulli
indépendantes, on en déduit que
E(Snr ) =
=
=
r X
X
t=1
r X
X
t=1
r X
X
t=1
r!
β1 ! · · · βt !
X
E(Xpβ11 ) · · · E(Xpβtt )
p1 <...<pt ≤αn
r!
β1 ! · · · βt !
X
E(Xp1 ) · · · E(Xpt ) (intérêt d’avoir βi > 0)
p1 <...<pt ≤αn
r!
β1 ! · · · βt !
X
p1 <...<pt ≤αn
1
.
p1 · · · pt
(16)
On obtient de la même façon (mais sans pouvoir profiter de l’indépendance !) :
En (ωnr )
r X
X
=
t=1
r X
X
=
t=1
Comme la distance entre
1
p1 ···pt
et
1
n
j
n
p1 ···pt
r!
β1 ! · · · βt !
r!
β1 ! · · · βt !
k
X
E(δp1 · · · δpt )
p1 <...<pt ≤αn
X
p1 <...<pt ≤αn
est au plus égale à
n
1
.
n p1 · · · pt
1
n,
on obtient
r
1 XX
r!
|E(Snr ) − En (ωnr )| ≤
n
β1 ! · · · βt !
t=1
X
p1 <...<pt ≤αn
d’où
|E(Snr ) − En (ωnr )| ≤
(17)

r
1X 
1=
1
n
p≤αn
αnr
.
n
Le binôme de Newton donne alors
r X r E(Snk ) − E(ωnk ) (−en )r−k |E((Sn − en )r − (ωn − en )r )| ≤ k
k=0
r
X
r αnr r−k
≤
e
k n n
k=0
d’où, puisque en ≤ αn :
|e((Sn − en )r − (ωn − en )r )| ≤
(αn + en )r
(2αn )r
≤
.
n
n
(18)
Si on impose à la suite (αn ) la condition supplémentaire
αn = o(nε ) pour tout ε > 0,
16
(19)
r
qui exprime cette fois que αn ne tend pas trop vite vers l’infini, on obtient alors αnn → 0, et a fortiori
(13). Notons pour terminer cette étape que les conditions (15) et (19) sont aisément réalisables :
cherchons αn sous la forme nεn , où εn → 0. On a alors, via (1) :
X
αn <p≤n
1
1
log n
+ O(1) = log
+ O(1),
= log
p
log αn
εn
et il suffit de choisir par exemple log ε1n = (log log n)1/3 .
4.2.3
Étape 3
On va l’obtenir comme conséquence du théorème central limite 6, selon lequel
Sn − e n L
→ N(0, 1).
σn
n
Pour pouvoir en déduire que les moments de Snσ−e
convergent vers ceux de la loi normale standard, il
n
suffit d’après le théorème 3 de montrer que, pour chaque entier pair r ≥ 1,
Sn − en r
< +∞.
(20)
sup E
σn
n≥1
Pour le voir, posons Yp = Xp − p1 (variables aléatoires centrées et indépendantes) et utilisons à nouveau
la formule du multinôme :

r 
X
E((Sn − en )r ) = E 
Yp  
p≤αn
=
r X
X
t=1
r!
β1 ! · · · βt !
X
E(Ypβi1 ) · · · E(Ypβit ),
1
t
p1 <...<pt ≤αn
où la deuxième somme est indexée par les t-uplets (β1 , . . . , βt ) d’entiers strictement positifs de somme
égale à r. Notons alors que si p est un nombre premier et β un entier ≥ 1, alors
= 0 si β = 1
β
E(Yp )
≤ E(Yp2 ) si β ≥ 2,
la dernière majoration étant due au fait que |Yp | ≤ 1. De là,
r
E((Sn − en ) ) ≤
r X
X
t=1
≤
r X
X
t=1
=
r X
X
t=1
r!
β1 ! · · · βt !
X
E(Yp21 ) · · · E(Yp2t )
p1 <...<pt ≤αn
t

r!

β1 ! · · · βt !
X
E(Yp2 )
p≤αn
r!
σ 2t ,
β1 ! · · · βt ! n
la seconde somme de chaque ligne étant indexée par les t-uplets (β1 , . . . , βt ) d’entiers ≥ 2 de somme
égale à r. Pour un tel t-uplet, on a certainement 2t ≤ r. Par ailleurs, si n est assez grand, σn ≥ 1, d’où
σn2t ≤ σnr . En définitive, on dispose d’une majoration de la forme
E((Sn − en )r ) ≤ Cr σnr ,
où Cr est une constante qui ne dépend que de r, ce qui prouve (20) et termine la preuve du théorème
d’Erdös-Kac.
17
Références
[1] P. Billingsley, Probability and Measure, 3rd edition, Wiley, 1995
[2] P. Billingsley, On the Central Limit Theorem for the Prime Divisor Function, Amer. Math.
Monthly, Vol. 76, Feb. 1969, pp. 132-139
[3] H. Brézis, Analyse fonctionnelle, théorie et applications, Dunod, 1999
[4] P. Diaconis, G. H. Hardy and Probability ? ? ?, Bull. London Math. Soc., 34 (2002), pp. 385-402.
Cet article, facile à trouver sur le Web, contient d’intéressantes réflexions sur les rapports, réels ou
supposés, de Hardy avec les probabilités.
[5] P. Erdös & M. Kac, The Gaussian Law of Errors in the Theory of Additive Number-theoretic
Functions, Amer. Jour. Math. 62, 1940, pp. 738-742.
[6] W. Feller, An Introduction to Probability Theory and its Applications, vol. 2, 2nd edition, Wiley,
1971
[7] G. H. Hardy, L’apologie d’un mathématicien, Belin, 1985. Texte classique, où Hardy exprime sa
vision du métier de mathématicien (cet ouvrage contient aussi une intéressante biographie de Hardy
par C. P. Snow).
[8] G. H. Hardy, Ramanujan, Twelve Lectures on Subjects suggested by his Life and Work, AMS
Chelsea, 2002. Livre extraordinaire, donc le premier chapitre est une biographie de Ramanujan.
[9] G. H. Hardy & S. Ramanujan, The normal number of prime factors of a number n, Quarterly
Journal of Mathematics, 48, 1917, pp. 76-92
[10] G. H. Hardy & E. M. Wright, An Introduction to the Theory of Numbers, 5th edition, Oxford
University Press, 1979
[11] R. Kanigel, The Man who knew Infinity, Washington Square Press, 1991. Biographie agréable à
lire et très documentée de Ramanujan, récemment portée à l’écran (avec Jeremy Irons dans le rôle
de G. H. Hardy).
[12] W. Rudin, Real and Complex Analysis, 3rd edition, McGraw Hill, 1987
[13] J. M. Stoyanov, Counterexamples in Probability, 3rd edition, Dover, 2013
[14] P. Turán, On a Theorem of Hardy and Ramanujan, Jour. Lond. Math. Soc. 9, 1934, pp. 274-276
18
Téléchargement