PHY 1223: Relativité Restreinte

publicité
UNIVERSITE CATHOLIQUE DE LOUVAIN
Faculté des Sciences
Département de Physique
PHY 1223: Relativité Restreinte
Notes partielles de support au cours
Jan Govaerts
Année Académique
2007-2008
The development of the general ability for independent thinking and judgement should always
be placed foremost, not the acquisition of special knowledge. If a person masters the fundamentals
of his subject and has learned to think and work independently, he will surely find his way and
besides will better be able to adapt himself to progress and changes than the person whose training
principally consists in the acquiring of detailed knowledge.
Albert Einstein (1879-1955)
Nature uses only the longest threads to weave her patterns, so each small piece of her fabric
reveals the organization of the entire tapestry.
Richard P. Feynman (1918-1988)
i
Avant-propos
Ce support de cours est repris, en partie, d’un syllabus ayant été rédigé rapidement pour
le cours FSA 1404 (Physique 4: Partie 2) de la Seconde Candidature FSA 12 (Ingénieur Civil)
de la Faculté des Sciences Appliquées à l’Université catholique de Louvain, n’existant plus depuis
septembre 2001. Ce même texte a servi ensuite de support pour le cours FSA 1630 de Physique
Moderne du Trimestre T6 de la réforme Candis2000 dans cette même Faculté, programme ayant
pris fin en septembre 2005.
Sont proposés ici uniquement les chapitres de ce syllabus dont le contenu recouvre la matière
de ce nouveau cours PHY 1223, en y incluant également un chapitre descriptif de la physique
des particules élémentaires et des interactions fondamentales, offert à la curiosité naturelle des
étudiants de physique, car en effet nombreux sont les étudiants et d’autres personnes m’ayant
signalé leur intérêt dans ce chapitre en dehors de toute nécessité d’étude ou d’examen. Ce
document est donc un support écrit en complément au cours en soit, pour lequel d’autres ouvrages
sont encore recommandés. Il s’agit donc d’un outil d’étude comme d’autres dans lequel nous
viendrons puiser des éléments pour le cours oral n’apparaissant pas dans ces autres ouvrages.
Mais il ne s’agit pas d’un texte comprenant l’entièreté de l’enseignement oral de ce cours. Certains
des chapitres de la matière enseignée sont à trouver dans les ouvrages de référence indiqués par
ailleurs.
Puisque la liste est disponible, voici en outre quelques ouvrages de vulgarisation scientifique
concernant certains des sujets traités ou mentionnés dans ces notes, avec souvent également une
certaine perspective historique des développements conceptuels,
• M. Cribier, M. Spiro et D. Vignaud, La lumière des neutrinos (Seuil, Paris, 1995).
• J. E. Dodd, The Ideas of Particle Physics, Second Edition (Cambridge University Press,
Cambridge, 1991).
• R. Feynman, La Nature de la Physique (Seuil, Paris, 1980).
• R. P. Feynman, QED: The Strange Theory of Light and Matter (Princeton University Press,
Princeton, 1985).
• B. Greene, The Elegant Universe (Jonathan Cape, London, 1999)
• H. Pagels, The Cosmic Onion (Penguin Books, London, 1984).
• E. Segrè, From X-Rays to Quarks (W. H. Freeman, San Francisco, 1980).
• Christine Sutton, Spaceship Neutrino (Cambridge University Press, Cambridge, 1992).
• S. Weinberg, The First Three Minutes (Bantam Books, New York, 1979).
• S. Weinberg, The Discovery of Subatomic Particles (W. H. Freeman, New York, 1983).
• S. Weinberg, Dreams of a Final Theory: the Search for the Fundamental Laws of Nature
(Vintage, London, 1993).
Jan Govaerts
Louvain-la-Neuve, Septembre 2007
When you read all this stuff, don’t just try to learn it. Think of it this way: What
one fool can do, another can do better.
Richard P. Feynman (1918-1988)
ii
Constantes fondamentales
c = 299 792 458 m/s
h = 6,626 068 76(52) · 10−34 J · s
h̄ =
h
= 1,054 571 596(82) · 10−34 J · s = 6,582 118 89(26) · 10−22 MeV · s
2π
e = 1,602 176 462(63) · 10−19 C
h̄c = 197,326 960 2(77) MeV · fm
(h̄c)2 = 0,389 379 292(30) GeV2 · mbarn
me = 0,510 998 902(21) MeV/c2 = 9,109 381 88(72) · 10−31 kg
mp = 938,271 998(38) MeV/c2 = 1,672 621 58(13) · 10−27 kg
mn = 939,565 33(4) MeV/c2 = 1,674 927 16(14) · 10−27 kg
md = 1 875,612 762(75) MeV/c2
1 uma = 931,494 013(37) MeV/c2 = 1,660 538 73(13) · 10−27 kg
ǫ0 =
1
= 8,854 187 817 . . . · 10−12 F/m
µ0 c2
µ0 = 4π · 10−7 N/A2 = 12,566 370 614 . . . · 10−7 N/A2
α=
1
e2
=
= 7,297 352 533(27) · 10−3
4πǫ0 h̄c
137,035 999 76(50)
GN = 6,673(10) · 10−11 J · m/kg2
Nombre d’Avogadro
NA = 6,022 141 99(47) · 1023 mol−1
Constante de Boltzmann
k = 1,380 650 3(24) · 10−23 J/K
Table des matières
1 Les Principes de la Relativité Restreinte
1.1 La mécanique de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
2
1.2
1.3
Les postulats géométriques de la relativité restreinte . . . . . . . . . . . . . . . . . 11
Les transformations spéciales de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4
1.5
La géométrie de l’espace-temps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
La simultanéité des événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.6
1.7
La dilatation du temps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
La contraction des longueurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.8
1.9
Le théorème d’addition relativiste des vitesses . . . . . . . . . . . . . . . . . . . . . 27
Les postulats dynamiques de la relativité restreinte . . . . . . . . . . . . . . . . . . 29
1.9.1
1.9.2
La quantité de mouvement relativiste . . . . . . . . . . . . . . . . . . . . . 30
Equation fondamentale relativiste du mouvement . . . . . . . . . . . . . . . 31
1.9.3
L’énergie relativiste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.9.4 Le quadri-vecteur énergie-moment . . . . . . . . . . . . . . . . . . . . . . . 35
1.10 Covariance relativiste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1.10.1 Quadri-vecteurs et métrique de Minkowski . . . . . . . . . . . . . . . . . . . 40
1.10.2 Groupes de Lorentz et de Poincaré . . . . . . . . . . . . . . . . . . . . . . . 44
1.10.3 Covariance relativiste des équations de Maxwell . . . . . . . . . . . . . . . . 47
1.11 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
1.12 Appendice 1: Conservation de la quantité de mouvement relativiste . . . . . . . . . 56
1.13 Appendice 2: Complément mathématique . . . . . . . . . . . . . . . . . . . . . . . 59
2 Cinématique Relativiste et Particules
66
2.1 Cinématique relativiste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.1.1
2.1.2
2.2
2.1.3 Diffusion de deux corps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Probabilités de transitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
2.2.1
2.2.2
2.3
Désintégration en deux corps . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Désintégration en trois corps . . . . . . . . . . . . . . . . . . . . . . . . . . 76
Temps de vie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
Section efficace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Mécanique quantique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
2.3.1 Equation de Schrödinger et fonction d’onde . . . . . . . . . . . . . . . . . . 97
TABLE DES MATIÈRES
2.3.2
2.4
0
L’atome d’hydrogène et le modèle de l’atome de Bohr . . . . . . . . . . . . 101
2.3.3 Propriétés ondulatoires et corpusculaires de la lumière . . . . . . . . . . . . 106
Les unités de mesure du monde quantique relativiste . . . . . . . . . . . . . . . . . 108
3 Particules et Interactions Fondamentales
110
3.1 Les trois générations de quarks et leptons . . . . . . . . . . . . . . . . . . . . . . . 111
3.2
Les quatre interactions fondamentales . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.2.1 L’interaction électromagnétique . . . . . . . . . . . . . . . . . . . . . . . . . 117
3.2.2
3.2.3
L’interaction gravitationnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 118
Echelles de temps et d’énergies . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.2.4
L’interaction faible . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
3.3
3.2.5 L’interaction forte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
Interactions fondamentales et symétrie de jauge . . . . . . . . . . . . . . . . . . . . 136
3.4
3.5
Quelques problèmes ouverts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Appendice: L’effet Aharonov-Bohm . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
Chapitre 1
Les Principes de la Relativité
Restreinte
Subtle is the Lord ...
Albert Einstein (1879-1955)
Comme d’autres cours de physique l’ont amplement illustré, la mécanique est l’étude de
la dynamique de systèmes physiques, c’est-à-dire la description de leur évolution temporelle.
En d’autres mots, la mécanique est concernée par la description d’événements physiques, ces
événements ayant lieu en des points spécifiques de l’espace et à des instants particuliers. Par
rapport à un repère cartésien dans l’espace et dans le temps, par exemple, de tels événements
sont donc caractérisés par les coordonnées cartésiennes (x, y, z) de ces points de l’espace, et par
la coordonnée temporelle t de l’instant auquel l’événement a lieu.
Cependant, une telle description des événements est nécessairement relative au choix d’un
repère, c’est-à-dire au choix d’un observateur. C’est ainsi qu’un même événement sera décrit
par une autre collection de coordonnées (t′ ; x′ , y ′ , z ′ ) par rapport à un autre repère ou un autre
observateur. La question qui se pose donc est de savoir de quelle manière les coordonnées d’un
même événement sont reliées les unes aux autres pour des choix de repères différents.
Dans le cas de la mécanique non relativiste d’Isaac Newton (1642-1727), nous savons comment cette question est résolue, en terme des transformations de Galilée (Galile Galilei (15641642)) entre référentiels inertiels. Néanmoins, lorsque les conséquences physiques des concepts qui
expliquent les raisons d’être de ces transformations sont confrontées à des découvertes physiques
faites au XIXème siècle en électromagnétisme, c’est-à-dire bien après les contributions fondamentales de Newton, on est irrémédiablement amené à une incohérence inhérente aux concepts mêmes
de la géométrie de l’espace et du temps dans la mécanique de Newton. Il est alors indispensable de
modifier d’une manière on ne peut plus fondamentale ces concepts mêmes, conduisant ainsi à ce
qu’il est convenu d’appeler la mécanique de la relativité restreinte d’Albert Einstein (1879-1955).
1
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
2
Dans ce chapitre, afin de souligner les différences fondamentales entre les concepts de la
mécanique non relativiste de Newton et ceux de la mécanique relativiste d’Einstein, nous commencerons tout d’abord par rappeler les divers concepts et principes à la base de la mécanique
de Newton ainsi que leurs diverses conséquences physiques, mais d’un point de vue différent de
celui développé jusqu’ici dans les cours de mécanique et qui sera également celui utilisé ensuite
pour la discussion des concepts de la mécanique de la relativité restreinte. C’est ainsi que nous
verrons comment en modifiant la formulation de quelques principes d’une manière qui peut sembler somme toute assez triviale, la compréhension même que nous pouvons avoir de la nature
– ontologique même – de l’espace et du temps se voit fondamentalement remise en question,
tandis que les conséquences physiques de cette construction conceptuelle qui n’ont de cesse de
choquer notre intuition toute non relativiste, n’en sont pas moins magnifiquement confirmées par
l’expérience!
Remarquons également que cette formulation relativiste de la mécanique de systèmes physiques, incluant non seulement des systèmes matériels mais également les systèmes radiatifs
dans lesquels les phénomènes électromagnétiques, par exemple, sont à l’oeuvre, ne comprend
pas encore les aspects quantiques des propriétés physiques du monde matériel. Notons seulement ici que la mécanique quantique non relativiste, représentée essentiellement par l’équation
de Schrödinger (Erwin Schrödinger (1887-1961)) discutée dans un cours de mécanique quantique,
est une mécanique se basant sur les mêmes conceptions euclidiennes de l’espace et du temps que
la mécanique classique – c’est-à-dire non quantique – et non relativiste de Newton. En particulier, l’équation de Schrödinger est invariante sous les transformations de Galilée entre référentiels
inertiels. Le fait que la nature soit en réalité à la fois relativiste (dans le sens de la relativité
restreinte telle que discutée dans ce chapitre) et quantique (dans le sens discuté dans un cours de
mécanique quantique) implique qu’il faut considérer le mariage de ces deux grands cadres d’idées
propres au XXème siècle, conduisant ainsi à la théorie quantique des champs relativistes décrivant
d’une manière cohérente à la fois les propriétés corpusculaires et celles ondulatoires des particules élémentaires relativistes et de leurs interactions fondamentales. Quelques considérations
sommaires concernant les théories quantiques de champs relativistes sont discutées au chapitre 2.
1.1
La mécanique de Newton
Avant d’aborder spécifiquement les postulats de base de la mécanique de la relativité restreinte,
il est utile de les contraster avec ceux de la mécanique non relativiste que nous rappelons ici,
cependant dans un langage quelque peu nouveau en comparaison aux points de vue développés
dans les cours de mécanique jusqu’ici.
La géométrie de l’espace et du temps
Dans la mécanique de Newton, le postulat de base pour ce qui concerne la géométrie de
l’espace physique et du temps, est que chacun de ces espaces peut être assimilé à un espace
affine euclidien, de dimension trois pour l’espace et de dimension unité pour le temps. Ainsi,
dans la mécanique de Newton, l’espace et le temps sont chacun séparément des espaces absolus,
indépendants de l’observateur et des événements physiques qui s’y déroulent. De plus, de ce
point de vue, l’espace physique à trois dimensions est donc à la fois homogène et isotrope, et
invariant sous la transformation de parité, c’est-à-dire invariant sous les translations de l’espace,
les rotations de l’espace, et l’inversion de l’orientation de l’espace (par réflexion par rapport à
un point, par exemple). De même, l’espace associé au temps est homogène, c’est-à-dire invariant
sous les translations dans le temps, et invariant également sous le renversement du temps.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
3
En raison même de ces diverses propriétés, afin de pouvoir spécifier la position de points
dans l’espace et dans le temps, il est indispensable d’introduire un choix de repère dans chacun de
ces espaces, c’est-à-dire une origine et un choix de vecteurs de base dans l’espace vectoriel associé
à tout espace affine. Néanmoins, aucun principe physique ou géométrique ne dicte a priori de
quelle manière choisir ces repères, soulevant ainsi la question de savoir comment spécifier un même
point par rapport à des repères différents, et de quelle manière les coordonnées de ce point dans
ces différents repères sont reliées les unes aux autres.
D’une façon générale, les transformations entre repères cartésiens s’obtiennent par la composition des transformations mentionnées ci-dessus, à savoir les translations, rotations et changement
d’orientation de l’espace, et les translations et le renversement du temps dans l’espace associé au
temps. D’un point de vue mathématique, l’ensemble de ces diverses transformations définit un
groupe, à savoir le groupe euclidien E(3) à trois dimensions pour l’espace, et le groupe euclidien
E(1) à une dimension pour le temps.
Ces transformations et ces propriétés d’invariance, ou encore les groupes que ces transformations définissent, sont donc des caractéristiques synonymes des propriétés géométriques
de l’espace et du temps, telles que postulées en mécanique non relativiste. En particulier, ces
groupes de transformations laissent invariants des éléments géométriques bien spécifiques. Ainsi
dans l’espace, le groupe euclidien E(3) laisse invariantes les distances relatives entre événements
dans l’espace, soit,
(~x1 − ~x2 )2 ,
(1.1)
où ~x1 et ~x2 sont les vecteurs position de deux événements physiques dans l’espace, pour un certain
choix de repère dans l’espace. De même, le groupe euclidien E(1) dans le temps laisse invariant
l’intervalle de temps absolu entre deux événements, soit,
(t1 − t2 )2
,
(1.2)
t1 et t2 étant évidemment les coordonnées temporelles de deux événements pour un certain choix
de repère dans le temps. En effet, un groupe euclidien est précisément caractérisé par le fait
que ses transformations laissent invariantes les distances relatives entre points géométriques de
l’espace affine euclidien correspondant.
A ce titre, il est sans doute utile de rappeler le point suivant. Le groupe euclidien E(n) est
le groupe d’invariance d’un espace affine euclidien de dimension n. Associé à cet espace, il existe
un espace vectoriel euclidien de même dimension n dont le groupe d’invariance est le groupe
orthogonal O(n), ce dernier groupe étant un sous-groupe du groupe euclidien E(n). Ce qui
distingue ces deux groupes est le fait que le groupe euclidien E(n) comprend les translations dans
l’espace affine euclidien, qui sont donc composées avec les rotations et l’inversion de l’orientation
des espaces affine et vectoriel, ces dernières transformations étant associées au groupe orthogonal
O(n). La raison pour laquelle les translations n’agissent pas sur l’espace vectoriel, est que celui-ci
est défini comme l’ensemble des classes d’équivalence sous transport parallèle des couples ordonnés
de points de l’espace affine. Et puisque les positions relatives de points de cet espace affine sont
donc des représentants de ces classes d’équivalence, affirmer l’invariance sous le groupe euclidien
E(n) des intervalles relatifs de l’espace affine – tout comme explicité ci-dessus dans le cas de
l’espace physique et du temps – équivaut à affirmer l’invariance de l’espace vectoriel associé à cet
espace affine sous le groupe orthogonal O(n), à savoir essentiellement le groupe euclidien E(n)
dont on a factorisé les translations dans l’espace affine. Cette correspondance entre les groupes
d’invariance d’un espace affine et de son espace vectoriel associé, se retrouvera également pour
l’espace-temps de la relativité restreinte.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
4
Figure 1.1: Changement de référentiels inertiels.
Le principe d’inertie
Cependant, parmi l’infinité de repères cartésiens existant pour un espace affine euclidien,
seul un sous-ensemble – infini lui aussi – de repères convient pour l’étude du mouvement de
systèmes mécaniques soumis à l’action de forces dans l’espace physique. En effet, il est nécessaire
de pouvoir caractériser le mouvement d’un corps libre, c’est-à-dire non soumis à une force, et une
telle caractérisation nécessite avant toute chose le choix d’un repère. C’est ainsi que nous savons
de quelle manière le Premier Principe de Newton, ou encore le principe d’inertie, détermine
l’ensemble des référentiels inertiels par rapport auxquels les lois du mouvement peuvent être
énoncées. Le rôle de ces référentiels inertiels est donc fondamental à la construction conceptuelle
de toute mécanique.
Les uns par rapport aux autres, les référentiels inertiels sont en mouvement relatif de
vitesse relative constante, tandis que l’ensemble des transformations reliant ces référentiels forme
le groupe de Galilée. Ces transformations de Galilée se composent des translations à vitesse
constante dans l’espace, des translations et des rotations indépendantes du temps dans l’espace,
de l’inversion de l’orientation de l’espace, des translations constantes dans le temps, et finalement
du renversement du temps.
En termes mathématiques, si R1 et R2 sont des référentiels inertiels d’origines respectives
O1 et O2 , leur position relative possède la dépendance temporelle suivante,
→
~0 (t − t0 ) + X
~0
O1 O2 (t) = V
,
(1.3)
~0 et X
~ 0 sont des vecteurs constants, respectivement la vitesse relative constante et la position
où V
relative à l’instant (t = t0 ) du point O2 par rapport au point O1 . Les vecteurs position ~x(t) et
~x ′ (t′ ) d’un même point par rapport aux référentiels R1 et R2 , respectivement, satisfont alors les
transformations de Galilée,
t′ = η(t − t0 ) ,
(1.4)
h
~0 (t − t0 ) − X
~ 0 , ~v ′ (t′ ) = η ~v (t) − V
~0
~x ′ (t′ ) = ~x(t) − V
i
, ~a ′ (t′ ) = ~a(t) ,
(1.5)
η = ±1 étant un signe associé à la possibilité du renversement du temps, et t0 une valeur constante
représentant une translation constante dans le temps.
Il est utile de considérer un exemple simple de ces transformations de Galilée générales.
Imaginons que le mouvement relatif des deux référentiels soit tel que leurs vecteurs de base soient
identiques dans l’espace et dans le temps, que le mouvement ait lieu parallèlement aux axes de coordonnées x et x′ , et que les origines des deux référentiels dans l’espace et dans le temps coı̈ncident
à l’instant (t = 0 = t′ ) (voir la Fig. 1.1). Nous avons alors pour les coordonnées cartésiennes d’un
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
5
même point dans l’espace et dans le temps les transformations de Galilée suivantes,
t′ = t
t = t′
,
x′ = x − v0 t ,
y′
,
x = x′ + v0 t′
,
(1.6)
y′
,
,
= y
,
y =
z′ = z
,
z = z′
ainsi que pour les composantes du vecteur vitesse de ce point dans chacun des deux référentiels
inertiels,
vx′ = vx − v0 ,
vx = vx′ + v0 ,
vy′ = vy
,
vy = vy′
,
vz′ = vz
,
vz = vz′
,
(1.7)
où v0 est donc la vitesse relative du second référentiel par rapport au premier dans la direction
des x positifs. En particulier, ces dernières relations pour les composantes des vecteurs vitesses
correspondent au théorème d’addition des vitesses en mécanique non relativiste.
Remarquons également que ces relations de transformations pour les composantes parallèles
aux axes de coordonnées x et x′ illustrent le fait que la description d’événements est relative aux
observateurs. La relativité des observateurs et des observations est en fait une propriété inhérente
à toute mécanique, et n’est donc pas spécifique à la mécanique relativiste. Comme nous allons le
voir, ce qui est relatif dans la mécanique de la relativité restreinte est la nature même de l’espace
et du temps par rapport à un observateur!
De ces transformations de Galilée pour l’exemple simple considéré ici, il suit une séries de
conséquences intéressantes pour les événements physiques. Considérons deux tels événements caractérisés par les coordonnées cartésiennes (t1 ; x1 , y1 , z1 ) et (t2 ; x2 , y2 , z2 ) dans le premier référentiel, et par les coordonnées cartésiennes (t′1 ; x′1 , y1′ , z1′ ) et (t′2 ; x′2 , y2′ , z2′ ) dans le second référentiel.
Ces coordonnées sont donc liées par les relations,
t′1 = t1
t′2 = t2
,
x′1 = x1 − v0 t1
,
,
x′2 = x2 − v0 t2
y1′ = y1
,
y2′ = y2
,
z1′ = z1
,
z2′ = z2
.
,
(1.8)
Simultanéité
Considérons l’intervalle de temps qui sépare les deux événements, dans chaque référentiel.
Nous avons donc,
t′2 − t′1 = t2 − t1 .
(1.9)
Il est clair que le fait que ces intervalles de temps soient indépendants du référentiel considéré, est
une conséquence immédiate du caractère absolu du temps dans la mécanique de Newton. Ainsi,
les intervalles de temps sont invariants (en norme) sous les transformations de Galilée.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
6
De plus, si deux événements sont simultanés dans un référentiel, soit (t2 − t1 = 0), ils le
restent dans tout autre référentiel, en raison du caractère absolu du temps.
Distance entre événements
Considérons la distance qui sépare les deux événements dans chaque référentiel inertiel.
Nous avons donc pour cette distance carrée,
(x′2 − x′1 )2 + (y2′ − y1′ )2 + (z2′ − z1′ )2 = [(x2 − x1 ) − v0 (t2 − t1 )]2 + (y2 − y1 )2 + (z2 − z1 )2 . (1.10)
Par conséquent, la distance dans l’espace d’événements simultanés, pour lesquels (t2 − t1 = 0), est
invariante sous les transformations de Galilée. Il n’y a donc pas de contraction des longueurs en
mécanique non relativiste, lorsque celles-ci sont mesurées par rapport à des référentiels inertiels
différents en mouvement relatif uniforme. Il est clair que ce résultat est une conséquence du
caractère absolu de l’espace (et du temps) dans la mécanique de Newton.
Le théorème d’addition galiléen des vitesses
Nous avons déjà vu en (1.7) de quelle manière les composantes du vecteur vitesse d’un
même point par rapport à des référentiels inertiels différents de l’espace sont reliées au travers des
transformations de Galilée. A nouveau, ces relations sont conséquence directe du caractère linéaire
de l’espace vectoriel sous-jacent aux espaces affines euclidiens associés à l’espace physique et au
temps en mécanique de Newton. En particulier, ce théorème d’addition des vitesses détermine
des relations linéaires entre ces composantes des vecteurs vitesses.
Le principe de relativité galiléen
Nous savons également de quelle manière l’équation fondamentale de la dynamique d’un
point matériel – le Deuxième Principe de Newton – peut s’exprimer en terme de la variation
instantanée de la quantité de mouvement de ce point,
d~
p
F~ =
dt
,
p~ = m~v
,
(1.11)
p~ étant cette quantité de mouvement et F~ la force à laquelle le point matériel de masse inertielle
m est soumis. Puisque le membre de droite de cette relation est en fait le produit de la masse
inertielle et de l’accélération de ce point matériel, et que cette dernière grandeur vectorielle est
indépendante du choix de référentiel inertiel, nous en concluons que les équations du mouvement
de la mécanique de Newton sont invariantes sous les transformations de Galilée. Nous savons en
effet pour quelles raisons un tel principe de relativité galiléen doit nécessairement être satisfait par
les équations du mouvement, car l’absence de force ne peut se déterminer que par rapport à un
référentiel inertiel, sans que le choix de ce dernier ne soit spécifié en aucune manière par le principe
d’inertie. C’est ainsi que les lois du mouvement – le Deuxième Principe dans la mécanique de
Newton – doivent être indépendantes du choix de référentiel inertiel – le Premier Principe dans
la mécanique de Newton –, ce qui constitue l’énoncé du principe de relativité en général.
Le principe de l’action et de la réaction ou des actions réciproques
Afin de compléter cette discussion des trois Principes de la mécanique de Newton, considérons finalement le principe de l’action et de la réaction. Nous savons de quelle manière ce
principe implique la loi de conservation de la quantité de mouvement totale P~ d’un système li~ nulle. En effet, l’équation du mouvement
bre ou soumis à un système de forces de résultante R
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
7
correspondante est,
dP~
~ = ~0 .
=R
(1.12)
dt
En particulier, nous savons également comment, en séparant un système libre de quantité de
mouvement totale P~ constante en deux sous-systèmes S1 et S2 en interaction mutuelle et de
quantités de mouvement totales respectives P~1 et P~2 , telles que,
P~ = P~1 + P~2
dP~1 dP~2
dP~
= ~0 =
+
dt
dt
dt
,
,
(1.13)
~12 et F21 responsables de la variation de ces quantités de mouvealors nécessairement les forces F
~
~
ment totales P1 et P2 , définies par,
dP~1
F~12 =
dt
,
dP~2
F~21 =
dt
,
(1.14)
satisfont le principe de l’action et de la réaction, F~12 = −F~21 . Ainsi, plutôt que d’insister sur
le Troisième Principe, ou encore le principe des actions réciproques, il est permis d’insister de
manière équivalente sur la loi de la conservation de la quantité de mouvement de tout système
mécanique libre.
Maintenant, lorsque nous considérons l’ensemble de ces résultats et principes, nous aboutissons à un paradoxe, car rien de ceci, à strictement parler1 , n’est correct du point de vue physique!
En effet, considérons par exemple une source lumineuse fixée en l’origine du référentiel R2
émettant un rayon lumineux dans la direction des x′ positifs. La vitesse de ce faisceau lumineux
dans ce référentiel est donc donnée par les composantes,
vx′ = c ,
vy′ = 0 ,
vz′ = 0 .
(1.15)
Par conséquent, en raison du théorème d’addition des vitesses (1.7) basé sur les transformations
de Galilée, la vitesse de ce même rayon lumineux dans le référentiel R1 possède les composantes
suivantes,
vx = c + v0 > c , vy = 0 , vz = 0 .
(1.16)
Ce résultat est semblable à ce qu’il serait pour tout autre objet matériel, tel un passager se
déplaçant dans un train en mouvement. A priori, il suffit d’ajouter à la vitesse du passager
relative au train, la vitesse du train relative à la Terre, pour obtenir la vitesse du passager par
rapport à la Terre.
Cependant, dans le cas de la lumière, cette loi d’addition linéaire des vitesses implique que
la vitesse de la lumière par rapport au référentiel R1 est supérieure à la vitesse c de la lumière
dans le vide! Etant les héritiers d’Einstein, une telle conclusion ne peut que nous choquer au
plus haut point, puisque nous savons très bien qu’il est impossible d’observer dans un référentiel
inertiel quelconque des objets, et a fortiori la lumière, se déplacer à des vitesses supérieures à celle
c de la lumière dans le vide! Mais comment les physiciens sont-ils arrivés à une telle conviction,
qui, comme nous le verrons, se trouve inscrite dans les concepts fondamentaux de la mécanique
de la relativité restreinte?
1
C’est-à-dire en pratique pour des vitesses v proches de celle c de la lumière dans le vide!
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
8
Pour cela, il faut faire référence à un développement fondamental de la physique ayant
vu ses conclusions dans la seconde moitié du XIXème siècle, à savoir la formulation des lois
de l’électromagnétisme classique2 , ou encore des équations de Maxwell (James Clerck Maxwell
(1831-1879)), décrivant l’évolution temporelle des champs électriques et magnétiques créés par des
distributions de charges et de courants électriques. En particulier dans le vide, ces équations font
intervenir des constantes fondamentales caractérisant les propriétés électriques et magnétiques
du vide, en terme de coefficients de permittivité électrique ǫ0 et perméabilité magnétique µ0 qui
sont donc également des constantes fondamentales pour les interactions électromagnétiques. Or,
ces mêmes équations de Maxwell dans le vide prédisent l’existence d’ondes électromagnétiques,
dont la vitesse de propagation c est déterminée précisément en terme de ces deux constantes
fondamentales par la relation,
1
.
(1.17)
c= √
ǫ0 µ 0
Ces ondes électromagnétiques ont été mises en évidence expérimentalement pour la première
fois en 1887 par Heinrich Hertz (1857-1894), constituant ainsi un triomphe pour les équations de
Maxwell. De plus numériquement, la valeur obtenue par la relation ci-dessus pour la vitesse de ces
ondes coı̈ncidait pratiquement avec la valeur alors connue pour la vitesse de la lumière dans le vide,
montrant ainsi que la lumière visible est une manifestation, dans un certain régime de fréquences,
de phénomènes purement électromagnétiques! Les équations de Maxwell de l’électromagnétisme
classique sont ainsi l’un des grands monuments conceptuels de la physique, un monument encore
toujours aussi imposant et fondamental dans la physique de ce début du XXIème siècle!
Mais le paradoxe qui apparaı̂t ainsi entre les conclusions de la mécanique non relativiste
de Newton et celles des lois de l’électromagnétisme de Maxwell, ne saurait être plus dramatique!
En effet, le principe de relativité galiléen se trouve inscrit dans les équations dynamiques mêmes
de la mécanique de Newton. En particulier, les prédictions physiques des équations utilisées ne
sauraient donc dépendre du choix de référentiel inertiel. Néanmoins, les équations de Maxwell
prédisent l’existence de processus ondulatoires électromagnétiques dont la vitesse de propagation est déterminée de manière unique, en terme d’une seule même valeur numérique, par ces
équations, et ceci a priori pour tout choix de référentiel inertiel! Or, en vertu du théorème
d’addition des vitesses, cette valeur devrait dépendre du choix de référentiel inertiel3 , tandis que
les équations de Maxwell conduisent à une seule valeur sans que le choix de référentiel ne soit
spécifié. En d’autres mots, les équations de Maxwell ne sont certainement pas invariantes sous
les transformations de Galilée! C’est Hendrik Antoon Lorentz (1853-1928) qui le premier, s’est
posé la question de déterminer le groupe d’invariance des équations de Maxwell, découvrant ainsi
le groupe de Lorentz qui porte son nom, et qui est introduit dans la section 1.3.
Ainsi, la physique à la fin du XIXème siècle se trouvait confrontée à une question fondamentale incontournable: les équations fondamentales de la nature sont-elles invariantes sous le
groupe de Galilée de la mécanique de Newton, ou sous le groupe de Lorentz des équations de
Maxwell, ou encore ne sont-elles invariantes sous aucun de ces deux groupes? Quels sont les
principes et équations fondamentaux qu’il faut modifier, ceux de la mécanique de Newton ou
2
C’est-à-dire sans la considération de phénomènes électromagnétiques quantiques.
Remarquons que la vitesse c prédite par (1.17) étant si élevée, pour des vitesses habituelles faibles par rapport
à cette vitesse de la lumière, la variation numérique prédite par le théorème d’addition galiléen des vitesses en (1.7)
pour la vitesse de la lumière par rapport à des référentiels inertiels en mouvement relatif, serait extrêmement faible,
et aurait pu a priori être restée inobservée jusqu’à la fin du XIXème siècle. Ce n’est que pour des vitesses relatives
proches de celle de la lumière que l’on pourrait tâcher de mettre en évidence une variation dans la vitesse de la
lumière en fonction du mouvement de l’observateur. Néanmoins, du point de vue des principes et des concepts de
base de la mécanique de Newton, cette prédiction unique pour la vitesse de la lumière dans le vide constitue un
réel paradoxe, que seule l’expérience pouvait résoudre, soit en modifiant les principes mêmes de la mécanique de
Newton, soit en modifiant les équations de Maxwell de l’électromagnétisme.
3
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
9
ceux de l’électromagnétisme? En raison des succès dans la description de l’un et de l’autre de ces
deux domaines de phénomènes physiques en terme de ces équations, les avis étaient évidemment
partagés! Ainsi, diverses alternatives de solutions étaient proposées, mais comme toujours en
physique, seule l’expérience a pu finalement trancher laquelle de ces possibilités n’était pas en
conflit avec les phénomènes observés dans la nature.
Ainsi, une idée qui s’impose d’emblée est que les équations de Maxwell ne sont valables
que par rapport à un seul référentiel inertiel, celui dans lequel la vitesse de la lumière possède
la valeur numérique (1.17) prédite par ces équations. Evidemment, une telle idée de l’existence
d’un référentiel inertiel absolu va à l’encontre de l’esprit même du Premier Principe de Newton,
qui ne peut distinguer en aucune manière le choix d’un référentiel inertiel. En fait, une telle
proposition pourrait même remettre en question l’idée que l’espace physique est assimilable à
un espace affine euclidien, car un tel espace est homogène et isotrope, expliquant ainsi pourquoi
le choix d’un repère demeure arbitraire. Mais si les équations de l’électromagnétisme supposent
implicitement l’existence d’un référentiel absolu, ces concepts d’homogénéité et d’isotropie ne
sont plus nécessairement des propriétés de l’espace par rapport à un référentiel inertiel arbitraire.
Cependant, nous savons que ces propriétés mêmes sont essentielles pour l’existence des lois de
conservation de la quantité de mouvement et du moment angulaire dans tout référentiel inertiel!
Nous aboutissons ainsi à un autre dilemme!
En fait, cette idée de référentiel inertiel absolu a été poussée plus loin encore, pour une
raison d’inspiration plus physique que géométrique. En effet, même encore au début du XXème
siècle, il était difficile d’imaginer que les ondes électromagnétiques puissent se propager dans le
vide, tandis que toutes les autres ondes alors connues – telles les ondes acoustiques ou à la surface
d’un liquide – nécessitent un support matériel. Par conséquent, il avait également été proposé que
les ondes électromagnétiques se propagent dans un milieu matériel inconnu jusqu’alors, appelé
éther, ce milieu étant donc immobile par rapport au référentiel inertiel particulier pour lequel les
équations de Maxwell seraient valables. Cependant, cet éther doit posséder une série de propriétés
physiques remarquables et a priori incompatibles. En effet, la vitesse de la lumière étant si
élevée, l’éther doit être essentiellement infiniment rigide4 . Mais d’autre part, les équations de
Maxwell étant linéaires dans les champs électriques et magnétiques, les ondes électromagnétiques
se propagent en accord avec le principe de superposition, et donc d’une manière indépendante
de leur amplitude! Par conséquent, l’éther devrait être parfaitement élastique également. Par
ailleurs, toujours pour les mêmes raisons de linéarité, l’éther doit propager de la même manière les
signaux de fréquence arbitrairement petite ou élevée, et donc être parfaitement transparent. Et
finalement, l’éther doit être parfaitement fluide sans opposer aucune force de friction au passage
de corps matériels, dont le mouvement est décrit par l’équation fondamentale de la mécanique
de Newton. Un tel ensemble de propriétés requises pour l’existence de l’éther est difficilement
concevable!
D’autres suggestions ont également été faites. Si l’on prend le point de vue que les concepts
de l’espace et du temps de la mécanique de Newton sont corrects, on pourrait par exemple imaginer
modifier les équations de Maxwell afin de les rendre invariantes sous le groupe de Galilée. Une
alternative serait de rendre les équations de Newton invariantes sous le groupe de Lorentz, en
modifiant en conséquence les Principes fondamentaux de la mécanique de Newton, ce qui sans
doute, comme le suggèrent déjà les remarques ci-dessus, nécessite une révision de nos concepts
de la géométrie de l’espace et du temps.
En fait, commme nous allons le voir dans la section 1.2, c’est en effet cette dernière possibilité qui s’avère être la voie à suivre. Et comme toujours lorsque les concepts fondamentaux de
4
Par analogie, pensons à la vitesse de propagation des vibrations et du son dans une barre métallique; plus la
barre est rigide, plus la vitesse du son est élevée.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
10
Figure 1.2: L’expérience de Michelson et Morley.
la physique sont remis en question, et que le physicien se trouve à la croisée des chemins, seule
l’expérience peut indiquer l’avenue vers la vérité.
L’expérience qui a résolu le dilemme décrit ci-dessus est un test on ne peut plus ingénieux
de l’existence de l’éther, initialement conçu pour mettre en évidence la variation de la vitesse de
la lumière en fonction de la vitesse de l’observateur relative à l’éther. Cette célèbre expérience,
réalisée tout d’abord par Albert Abraham Michelson (1852-1931) en 1887, et ensuite répétée en
collaboration avec Edward Williams Morley (1838-1923), consiste en une mesure d’interférence
d’un faisceau lumineux avec lui-même mais ayant parcouru des chemins différents et perpendiculaires l’un à l’autre (voir la Fig. 1.2). En effet, les variations attendues dans la vitesse de la
lumière étant extrêmement faibles, il fallait disposer d’un instrument de mesure des plus sensibles,
et à la fin du XIXème siècle, l’interférométrie lumineuse offrait le plus d’attrait de ce point de
vue. Or, puisque le dispositif expérimental est lié au mouvement de la Terre relativement à
l’éther hypothétique, la vitesse de la lumière relativement à l’éther dans les deux branches de
l’interféromètre serait différente. Par conséquent, la figure d’interférence observée devrait se
déplacer en fonction de l’orientation relative de l’appareil par rapport à la direction du mouvement
de la Terre, si l’éther lié à un référentiel inertiel absolu devait exister.
Or, à la grande surprise de Michelson et Morley, et d’un grand nombre de leurs contemporains, l’expérience donnait un résultat parfaitement négatif! Dans la limite des précisions
expérimentales, aucune dépendance dans un glissement des franges d’interférence n’était observé
lorsque l’appareil était tourné par rapport à la Terre! Les expérimentateurs avaient beau inventer
toutes les astuces imaginables pour réduire au mieux les incertitudes expérimentales, rien n’y faisait: aucun effet n’était observé! La vitesse de la lumière ne peut dépendre du choix de référentiel
inertiel!
Par conséquent, la solution au paradoxe de la physique de la fin du XIXème siècle n’était
pas à trouver dans la notion d’éther: l’éther n’existe pas! Et c’est ainsi que d’une manière
incontournable, et sur base d’une seule expérience à la fois simple et ingénieuse dans son concept
allant au cœur même du problème, il a fallu non seulement modifier les équations du mouvement
de Newton pour des corps matériels dont la vitesse approche celle de la lumière dans le vide, mais
également réviser d’une manière fondamentale nos concepts et nos notions mêmes de la nature de
l’espace et du temps, et de leur géométrie. Ce sont ces nouveaux concepts et leurs conséquences
physiques que le reste de ce chapitre s’attache à introduire.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
1.2
11
Les postulats géométriques de la relativité restreinte
Les concepts de base de la relativité restreinte remontent à Albert Einstein, qui les a énoncés
en 1905. Il faut également savoir que durant cette même année 1905, alors qu’il n’était qu’un
simple employé au Bureau Suisse des Brevets à Berne, Einstein a donné l’explication correcte
de l’effet photoélectrique, introduisant ainsi la notion de photon ou quantum de lumière, ainsi
que l’explication correcte du mouvement brownien, confirmant ainsi d’une manière définitive
l’existence des atomes et des molécules! D’ailleurs, officiellement le Prix Nobel lui a été décerné
en 1922 pour son travail sur l’effet photoélectrique, en une période déjà politiquement très troublée
en Allemagne, et non pour ses théories de la relativité restreinte et de la relativité générale.
Il est permis de dire que la relativité restreinte est la mécanique relativiste des référentiels
inertiels, de la même manière que les concepts de l’espace et du temps et le principe d’inertie
chez Newton posent les bases de la mécanique non relativiste de ces référentiels.
Le point de vue adopté par Einstein peut être énoncé de la manière suivante, en terme de
quatre postulats ou principes fondamentaux.
1. Le principe de linéarité: l’espace et le temps déterminent un certain espace affine – c’està-dire une collection de points à laquelle on peut associer un espace vectoriel de même
dimension – invariant sous un certain groupe de transformations linéaires. Cependant, ce
groupe d’invariance, ainsi que la géométrie qui lui est associée, doit encore être spécifié sur
base des concepts qui suivent.
2. Le principe d’inertie: les lois de la physique, et en particulier du mouvement, doivent être
formulées par rapport à des repères particuliers dans l’espace et le temps, à savoir des
référentiels inertiels. Ces référentiels inertiels sont en mouvement relatif de vitesse relative
constante, tandis que les transformations entre ces référentiels inertiels déterminent un
groupe d’invariance de l’espace et du temps en tant qu’espace affine.
3. Le principe de relativité: bien que la formulation des lois de la physique nécessite le choix
d’un référentiel spécifique, ces lois doivent être indépendantes de ce choix. L’expression
mathématique des lois de la physique doit être invariante sous le groupe de transformation
reliant tous les référentiels inertiels entre eux, c’est-à-dire que la forme mathématique de ces
équations exprimées en terme des variables associées à chaque référentiel doit être identique
pour chacun de ceux-ci.
4. Le principe fondamental de la relativité: la vitesse c de la lumière dans le vide est la même
pour tout référentiel inertiel.
Considérant l’ensemble de ces postulats concernant la géométrie de l’espace et du temps, il
est clair que tels que formulés ici, les trois premiers s’appliquent directement à la mécanique non
relativiste de Newton, les groupes d’invariance correspondants étant les groupes euclidiens E(3) et
E(1) pour l’espace et le temps, et le groupe de Galilée pour les transformations entre référentiels
inertiels. Mais bien évidemment, c’est le quatrième postulat ci-dessus qui est fondamentalement
nouveau, et qui est en contradiction directe avec les conséquences des concepts de la mécanique
de Newton qui incluent la notion de temps absolu. Dans cette dernière mécanique, la vitesse de
la lumière ne peut pas ne pas dépendre du choix de référentiel inertiel! Néanmoins, l’expérience
de Michelson et Morley a indiqué sans équivoque – dans la limite de précision des mesures –
que ce quatrième postulat doit être vrai, et qu’il est donc nécessaire de modifier les concepts
de la mécanique de Newton! Ainsi une fois encore, nous rencontrons ce fait remarquable qu’en
modifiant quelque peu le point de vue ou l’expression d’un concept, la signification physique qu’il
acquiert, et les conséquences auxquelles il conduit, peuvent être fondamentalement nouvelles.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
12
Pour la petite histoire, il est intéressant de savoir qu’au moment de formuler les postulats de la relativité restreinte en 1905, Einstein ne connaissait sans doute ni l’existence et ni le
résultat de l’expérience de Michelson et Morley. “Simplement”, sur base d’une intuition physique
remarquable et d’une conviction sans faille dans les équations de Maxwell, il s’est convaincu que
la vitesse de la lumière dans le vide ne pouvait dépendre du choix de référentiel inertiel, et il a
su découvrir comment modifier d’une manière a priori minimale les concepts de la mécanique de
Newton, et comment conduire à leurs conclusions ultimes les conséquences incontournables du
quatrième postulat ci-dessus. La théorie de la relativité restreinte est l’un des grands monuments
intellectuels du XXème siècle!
Tout au cours de ce chapitre, nous allons voir pour quelles raisons le quatrième postulat cidessus modifie d’une manière fondamentale notre compréhension de la géométrie et de la nature
même de l’espace et du temps, et conduit à une série de conséquences physiques remarquables,
impossibles en mécanique de Newton, mais vérifiées quotidiennement en physique des particules!
Ce quatrième postulat concernant la vitesse de la lumière dans le vide est donc central pour la
théorie de la relativité restreinte, et en fait également pour la théorie de la relativité générale.
En outre, soulignons qu’en raison de ce postulat, la vitesse de la lumière dans le vide c
acquiert un statut totalement nouveau, en tant qu’une constante fondamentale de la nature,
nécessairement associée à une caractérisation de la géométrie de l’espace et du temps, d’une
manière que nous explicitons par la suite. C’est bien pour cela aussi qu’il est possible de construire
un système d’unités fondamentales sur base directe de cette constante fondamentale de la nature.
En effet, rappelons que la définition de l’unité de temps dans le S.I. (Système International
d’unités) est basée sur un processus quantique, à savoir une transition atomique bien spécifique,
et qu’à son tour celle d’unité de longueur implique la distance parcourue par la lumière dans le vide
durant un intervalle de temps fixé, cette distance étant donc directement liée à la valeur de c qui
s’avère ainsi être indépendante du choix de référentiel inertiel et revêtue d’un caractère absolu
comme constante géométrique fondamentale de la géométrie de l’espace-temps en mécanique
relativiste. Comme toujours pour un principe fondamental de la physique, l’énoncé du postulat
de la constance de la vitesse de la lumière possède dans toute sa simplicité une signification
physique d’une richesse extraordinaire, dont nous allons explorer dans ces notes quelques-unes
des conséquences!
1.3
Les transformations spéciales de Lorentz
Considérons à nouveau la situation simple d’un choix de référentiels inertiels telle qu’illustrée
dans la Fig. 1.1, le second référentiel R2 se déplaçant à une vitesse constante v0 dans la direction
des x positifs par rapport au référentiel R1 . Dans le but d’établir les transformations entre
les coordonnées associées à ces deux référentiels, il nous faut tenir compte des quatre postulats
énoncés dans la section 1.2. Ainsi, en vertu du premier postulat, ces transformations doivent être
des transformations linéaires entre les coordonnées cartésiennes respectives. Cependant, puisque
nous supposons que les origines des deux référentiels coı̈ncident dans l’espace et dans le temps à
l’instant (t = 0 = t′ ), la relation entre les coordonnées x et x′ est nécessairement de la forme,
x′ = γ(x − v0 t) ,
x = γ(x′ + v0 t′ )
.
(1.18)
En effet, la position de l’origine du référentiel R2 correspond à la coordonnée (x′ = 0) à chaque
instant, tandis que ce même point possède dans le référentiel R1 une coordonnée x telle que
(x = v0 t) étant donné l’hypothèse de vitesse relative constante v0 du repère R2 par rapport
au repère R1 . Par conséquent, en raison du postulat de linéarité, la coordonnée x′ doit être
proportionnelle à la combinaison (x−v0 t), avec un facteur γ sans dimension physique à déterminer.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
13
D’autre part, en vertu du principe de relativité, le même raisonnement peut s’appliquer à la
coordonnée x associée au référentiel R1 , en terme des coordonnées x′ et t′ dans le référentiel R2 .
Par conséquent, la coordonnée x est nécessairement proportionnelle à la combinaison (x′ + v0 t′ ),
avec un coefficient de proportionnalité identique γ en raison du principe de relativité, puisqu’en
effet rien ne permet a priori de distinguer les deux référentiels inertiels. Ainsi, la forme générale
des relations linéaires entre les coordonnées t, t′ , x et x′ est déterminée de manière univoque en
terme d’un seul facteur γ inconnu, uniquement sur base des trois premiers postulats discutés dans
la section 1.2, à savoir les principes de linéarité, d’inertie et de relativité.
Par ailleurs, les relations entre les coordonnées transverses au mouvement relatif des deux
référentiels restent invariantes,
y′ = y , z′ = z .
(1.19)
En effet, dans ces directions transverses, les coordonnées d’un événement ne peuvent dépendre
du choix de référentiel inertiel, une manifestation de l’homogénéité et de l’isotropie de l’espace
physique dans ces directions transverses au mouvement relatif des deux référentiels inertiels.
Il nous reste donc à déterminer encore les relations de transformations entre les coordonnées
temporelles t et t′ d’un même événement tel qu’observé dans chacun des deux référentiels. Dans
ce but, composons les deux transformations des coordonnées x et x′ en (1.18), conduisant à,
x = γ γ(x − v0 t) + v0 t′
dont la solution est,
′
t =γ
"
γ2 − 1
x
t− 2
γ v0
#
,
.
(1.20)
(1.21)
Un raisonnement semblable en terme de la coordonnée x′ conduit également au résultat suivant,
t=γ
"
γ2 − 1 ′
x
t + 2
γ v0
′
#
,
(1.22)
et ceci en accord avec le principe de relativité, puisque seul le signe de v0 change.
De ces expressions, nous pouvons immédiatement conclure que si le temps était considéré comme étant absolu, c’est-à-dire que les intervalles de temps entre événements ne peuvent
dépendre du choix de référentiel inertiel, nécessairement le facteur γ devrait être égal à l’unité,
γ=1 .
(1.23)
Il est clair que dans un tel cas, nous retrouvons précisément les transformations de Galilée,
montrant une fois encore que les trois principes de linéarité, d’inertie et de relativité, auxquels
le concept d’un temps absolu est ainsi adjoint plutôt que celui de la constance de la vitesse de la
lumière, conduisent effectivement à la mécanique de Newton, au moins pour ce qui concerne la
caractérisation de la géométrie de l’espace et du temps sous-jacente à cette mécanique.
La remarque précédente montre également que le facteur γ ne peut être déterminé sur base
uniquement des trois postulats de linéarité, d’inertie et de relativité. Le postulat d’un temps
absolu conduit aux transformations de Galilée de la mécanique de Newton, tandis que le postulat
de la vitesse constante de la lumière conduit aux transformations entre référentiels inertiels de la
relativité restreinte.
Afin de déterminer le facteur γ sur base de la constance de la vitesse de la lumière dans
tout référentiel inertiel, considérons la situation suivante. A l’instant (t = 0 = t′ ), une impulsion
14
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
lumineuse est envoyée dans la direction des x et x′ positifs. Cet événement est donc caractérisé
par les coordonnées,
t = 0 ,
t′ = 0 ,
x = 0 ,
x′ = 0 ,
y = 0 ,
y′ = 0 ,
z = 0 ,
z′ = 0 .
(1.24)
A un temps ultérieur, puisqu’en vertu du postulat fondamental de la relativité, la vitesse c de la
lumière est indépendante du choix de référentiel inertiel, nécessairement la position de l’impulsion
lumineuse dans chaque référentiel est donnée par,
x = ct
x′ = ct′
,
.
(1.25)
Par conséquent, si l’on se réfère aux transformations en (1.18), nous avons pour le cas d’une
telle impulsion lumineuse,
ct′ = γ(ct − v0 t) .
(1.26)
Or, la relation (1.21) implique également,
t′ = γ(t −
γ2 − 1
ct)
γ 2 v0
.
(1.27)
L’ensemble de ces deux conditions permet alors de résoudre explicitement pour le facteur γ,
conduisant ainsi au résultat recherché,
1
γ=q
1 − β02
Nous avons alors également,
γ2 − 1 =
β02
1 − β02
,
,
β0 =
v0
c
.
γ2 − 1
= β02
γ2
(1.28)
.
(1.29)
En conclusion, nous avons obtenu les transformations entre les deux référentiels inertiels
considérés, qui satisfont aux quatre postulats de linéarité, d’inertie, de relativité et de constance
de la vitesse de la lumière dans tout référentiel inertiel. Ces transformations sont donc données
par,
,
t = √ 1 2 t′ + vc20 x′
,
t′ = √ 1 2 t − vc20 x
1−β0
x′ =
1
1−β02
√
1−β0
(x − v0 t)
,
x =
√
1
1−β02
y′ = y
,
y = y′
,
z′ = z
,
z = z′
,
(x′ + v0 t′ )
,
(1.30)
où (β0 = v0 /c). Ces transformations portent le nom de transformations spéciales5 de Lorentz ,
du nom de Hendrik Antoon Lorentz (1853-1928). En effet, ces transformations sont spéciales en
5
En anglais, on parle de “Lorentz boosts”.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
15
ce qu’elles forment un sous-ensemble du groupe complet des transformations entre référentiels
inertiels, à savoir les transformations associées à des référentiels en mouvement relatif de vitesse
constante. Nous avons établi les transformations spéciales de Lorentz ici en considérant deux
référentiels possédant les même vecteurs de base dans l’espace et dont les origines dans le temps
et l’espace coı̈ncident à un instant particulier.
De manière plus générale, il est possible de considérer des référentiels inertiels dont les
vecteurs de base dans l’espace sont différents mais restent néanmoins indépendants du temps, et
dont les origines en mouvement relatif ne coı̈ncident pas nécessairement à aucun instant spécifique.
Le mouvement relatif à vitesse constante des origines de ces référentiels conduit à une transformation spéciale de Lorentz du type ci-dessus, tandis que le changement de vecteurs de base détermine
une rotation dans l’espace, et que la différence dans les origines à un instant spécifique détermine
une translation constante dans l’espace. Par conséquent, le groupe complet des transformations
entre référentiels inertiels en relativité restreinte s’obtient par la composition des translations constantes dans l’espace, des transformations spéciales de Lorentz associées aux translations à vitesse
constante dans l’espace, des rotations dans l’espace, des transformations inversant l’orientation
de l’espace ou du temps, ainsi que des translations constantes dans le temps.
Afin de caractériser les groupes d’invariance ainsi obtenus, et également les géométries
qu’ils déterminent, il est utile de souligner une distinction semblable à celle rappelée dans la
section 1.1 dans le cadre de la mécanique de Newton. En effet, l’espace et le temps étant des
espaces affines, ils leur sont associés des espace vectoriels sur lesquels le groupe de transformations
entre référentiels inertiels induit des transformations agissant sur des éléments caractérisant les
positions relatives des points de l’espace et du temps. Ces positions relatives ne font donc pas
intervenir les translations constantes dans le temps et l’espace mentionnées ci-dessus.
On peut ainsi distinguer tout d’abord le groupe de Lorentz 6 , composé des transformations
spéciales de Lorentz, des rotations dans l’espace, du changement de l’orientation de l’espace,
et du renversement du temps. Ne faisant pas intervenir de translations constantes ni dans le
temps et ni dans l’espace, ce groupe de Lorentz agit directement sur l’espace vectoriel sous-jacent
à l’espace affine caractérisant l’espace et le temps. Nous verrons dans la section 1.4 de quelle
manière le groupe de Lorentz détermine effectivement la géométrie de l’espace et du temps. En
réalité, Lorentz avait découvert ce groupe comme étant le groupe d’invariance des équations
de Maxwell de l’électromagnétisme – les champs électriques et magnétiques étant effectivement
caractérisés par des grandeurs vectorielles –, quelques années avant qu’Einstein ne pose les bases
de la mécanique de la relativité restreinte telles que développées ici.
Ensuite, agissant non pas sur les vecteurs mais directement sur les points des espaces
affines associés au temps et à l’espace, nous avons le groupe de Poincaré 7 – du nom de Jules
Henri Poincaré (1854-1912) –, composé des transformations du groupe de Lorentz ainsi que des
translations constantes dans le temps et dans l’espace.
Ce sont donc ces transformations de Poincaré, comprenant donc les transformations spéciales de Lorentz, qui, en relativité restreinte, jouent le rôle des transformations de Galilée
en mécanique non relativiste. Comme la discussion ci-dessus le démontre, c’est le postulat
d’invariance de la vitesse de la lumière, plutôt que le concept d’un temps absolu, qui détermine
finalement la forme des transformations spéciales de Lorentz. Comme nous allons l’établir dans la
suite, ce sont les conséquences physiques et géométriques auxquelles ces transformations spéciales
de Lorentz conduisent, qui obligent une révision complète en relativité restreinte des concepts de
6
En mécanique de Newton, le groupe correspondant est le sous-groupe du groupe de Galilée ignorant les trans~ 0 = ~0.
lations constantes dans le temps et l’espace, soit les transformations en (1.4) et (1.5) avec t0 = 0 et X
7
A nouveau en mécanique de Newton, le groupe correspondant est le groupe de Galilée, comprenant donc les
translations constantes dans l’espace et dans le temps.
16
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
l’espace et du temps tels que postulés à la base de la mécanique de Newton.
Cependant, avant de considérer ces diverses conséquences fondamentalement nouvelles, il
convient de faire encore quelques remarques additionnelles.
Transformations spéciales de Lorentz générales
Dans la discussion ci-dessus aboutissant à la détermination des transformations spéciales
de Lorentz, nous avons supposé un mouvement relatif des deux référentiels inertiels assez particulier. Bien évidemment, en raison des propriétés d’homogénéité et d’isotropie de l’espace à trois
dimensions, la position relative et la direction du mouvement relatif de ces deux repères peut être
quelconque, avec des résultats essentiellement identiques à ceux établis ci-dessus.
Ainsi, si le référentiel R2 se déplace avec une vitesse relative ~v0 par rapport au référentiel
R1 , mais que leurs origines dans le temps et l’espace coı̈ncident à un instant particulier (choisi
ici comme étant l’instant t = 0 = t′ ), les transformations spéciales de Lorentz correspondantes
pour les vecteurs position d’un même événement observé de chacun de ces deux référentiels, sont
données par,
t′ = √ 1 2 t − ~vc02·~x
,
1−β0
~x′
= ~x +
~v0
v0
√1 2
1−β0
−1
~
v0
v0
· ~x −
√v0 t 2
1−β0
(1.31)
,
où (v0 = |~v0 |) et (β0 = v0 /c). Il est immédiat de vérifier que ces expressions reproduisent les
résultats en (1.30) pour la situation correspondante.
Forme covariante des transformations spéciales de Lorentz
Il est également possible d’exprimer les transformations spéciales de Lorentz sous une forme
ne faisant intervenir que des grandeurs possédant la même dimension physique, en l’occurrence
celle d’une longueur. En effet, la constante fondamentale c permet de convertir des unités de
temps en des unités de longueur par simple multiplication. Introduisant les notations devenues
standard dans la littérature,
~ = v~0
β
c
,
β=
v0
c
,
les transformations (1.30) s’écrivent alors,
1
γ=p
1 − β2
,
(1.32)
ct′ = γ(ct − βx) , x′ = γ(x − βct) , y ′ = y , z ′ = z ,
(1.33)
ou encore pour les transformations générales (1.31),
ct′ = γ ct − β~ · ~x
,
h
~x′ = ~x + β̂ (γ − 1)β̂ · ~x − βγct
i
,
(1.34)
~
avec évidemment β̂ = β/β
= ~v0 /v0 le vecteur normé pointant dans la direction de la vitesse
relative ~v0 des deux référentiels inertiels.
Remarquons que sous cette forme, les quantités ct et les coordonnées du vecteur position ~x
jouent des rôles semblables. Espace et temps sont ainsi mis sur le même pied, tandis que sous les
changements de référentiels inertiels, ces deux types de grandeurs se combinent l’une avec l’autre
pour contribuer aux coordonnées d’espace et de temps dans le second référentiel! Les expressions
ci-dessus rendent manifeste cette propriété, laquelle correspond à la notion de covariance d’un
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
17
quadri-vecteur discutée dans les sections 1.9 et 1.10. Mais la conclusion autrement plus importante
qu’il convient de souligner ici, est qu’en relativité restreinte, espace et temps ne sont plus des
espaces absolus, indépendants des observateurs, mais deviennent relatifs à l’observateur ! Ainsi,
l’espace et le temps pour un observateur inertiel incluent “un peu” de temps et “un peu” d’espace
d’un autre observateur inertiel! Avoir imposé que la vitesse de la lumière – c’est-à-dire la dérivée
d’une position par rapport au temps – est constante pour tout observateur inertiel – plutôt que
l’existence d’un temps absolu identique pour tout tel observateur –, implique donc que l’espace
et le temps sont des concepts géométriques et physiques relatifs à l’observateur , contrairement à
notre intuition physique élémentaire inscrite dans les principes mêmes de la mécanique de Newton,
et qui incluent donc les concepts d’un temps et d’un espace absolus! C’est ainsi que la physique
et l’étude des phénomènes naturels a conduit au début du XXème siècle à une nouvelle révolution
intellectuelle et philosophique quant à la nature de la réalité physique et géométrique de l’espace
et du temps, après les révolutions de la mécanique non relativiste et de la loi universelle de la
gravitation de Newton!
Dans la section 1.4, nous verrons que bien que l’espace et le temps soient relatifs à l’observateur, l’espace-temps avec sa géométrie propre maintient en relativité restreinte un statut
d’espace absolu, indépendant de l’observateur inertiel.
La limite non relativiste et les transformations de Galilée
Bien que la mécanique de la relativité restreinte transcende celle de Newton, il reste
néanmoins nécessaire que pour des vitesses faibles en comparaison à celle de la lumière dans le
vide, les prédictions de la relativité restreinte coı̈ncident pour toutes fins pratiques avec celles de la
mécanique de Newton, cette dernière rendant compte effectivement des phénomènes mécaniques
dans ce domaine de vitesses.
Ainsi, considérons les transformations spéciales de Lorentz (1.30) ou (1.31) lorsque la vitesse
v0 relative des deux référentiels est faible devant celle de la lumière dans le vide,
v0 ≪ c .
(1.35)
Dans ce cas, nous avons pour un développement au premier ordre en β = v0 /c,
β=
v0
c
,
γ≃1 ,
(1.36)
et nous obtenons donc,
t′ ≃ t , x′ ≃ x − v0 t , y ′ = y , z ′ = z ,
(1.37)
t′ ≃ t , ~x ′ ≃ ~x − ~v0 t .
(1.38)
ou encore,
Par conséquent, nous retrouvons bien les transformations de Galilée correspondant à un tel
changement de référentiel inertiel. En d’autres mots, les résultats cinématiques de la mécanique
de Newton sont reproduits par la mécanique de la relativité restreinte dans la limite des faibles
vitesses par rapport à celle de la lumière dans le vide, soit v0 /c → 0. Lorsque nous aurons
discuté les lois du mouvement en relativité restreinte, nous verrons qu’effectivement cette correspondance entre les deux mécaniques pour les petites vitesses est également valable au niveau de
la dynamique de ces deux théories.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
18
Figure 1.3: Onde lumineuse sphérique.
1.4
La géométrie de l’espace-temps
Comme nous l’avons vu, en relativité restreinte, l’espace et le temps n’ont plus un statut absolu
par rapport aux observateurs inertiels. Ce fait remarquable est une conséquence directe du
postulat de la constance de la vitesse de la lumière pour tout tel observateur, et se traduit dans
les transformations spéciales de Lorentz par une combinaison linéaire des coordonnées spatiales
~x et temporelles t définissant ces mêmes coordonnées dans un autre référentiel en mouvement
relatif à vitesse constante par rapport au premier.
Néanmoins, il est permis de poser la question de savoir s’il existe encore une réalité
géométrique invariante, combinant donc l’espace et le temps, qui soit laissée invariante sous
les transformations des groupes de Lorentz et de Poincaré. Rappelons ici que ce qui distingue
ces deux groupes est que le premier s’applique en fait aux vecteurs de l’espace vectoriel associé
aux espaces affines du temps et de l’espace – c’est-à-dire aux positions relatives d’événements
dans l’espace et le temps –, tandis que le second, le groupe de Poincaré, s’applique directement
aux points de l’espace et du temps, comprenant ainsi également les translations constantes dans
ces deux espaces. C’est pour cette raison que la caractérisation de la géométrie laissée invariante
par les groupes de Lorentz et de Poincaré peut se discuter d’une manière équivalente du point de
vue de l’un ou de l’autre de ces deux groupes8 . Pour ce qui concerne les rotations dans l’espace,
les choses sont évidemment claires; celles-ci laissent invariantes les notions de distance et d’angle
dans l’espace, c’est-à-dire essentiellement la norme des vecteurs position ~x des événements. Il
nous faut donc déterminer de quelle manière combiner les coordonnées – relatives au choix d’un
référentiel inertiel – de l’espace et du temps ~x et ct, ayant la même dimensions physique, afin
d’identifier une grandeur géométrique invariante sous les transformations spéciales de Lorentz.
En effet, pour toutes les autres transformations composant les groupes de Lorentz et de Poincaré,
les propriétés d’invariance des positions relatives d’événements dans le temps et dans l’espace
sont évidentes.
Puisque la lumière joue un rôle tout à fait fondamental en relativité restreinte, considérons
une onde lumineuse sphérique émise à l’instant (t = 0) de l’origine d’un référentiel inertiel (voir
la Fig. 1.3) – ou encore à l’instant (t = t0 ) et du point de position ~x0 . L’onde étant sphérique et
se propageant à la vitesse c, nous avons donc,
(ct)2 − ~x2 = 0
8
,
(1.39)
De la même manière qu’en mécanique non relativiste, soit le groupe orthogonal O(3) de l’espace vectoriel
euclidien, soit le groupe euclidien E(3) de l’espace affine euclidien, détermine une même géométrie euclidienne de
chacun de ces deux espaces intrinséquement liés l’un à l’autre.
19
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
ou encore,
[c(t − t0 )]2 − (~x − ~x0 )2 = 0 .
(1.40)
Cependant, puisque la vitesse de la lumière est indépendante du choix de référentiel inertiel, nous
avons par rapport à un second référentiel également,
(ct)2 − ~x2 = 0 = (ct′ )2 − (~x ′ )2
ou encore,
2
[c(t − t0 )]2 − (~x − ~x0 )2 = 0 = c(t′ − t′0 )
,
(1.41)
− (~x ′ − ~x0 ′ )2
.
(1.42)
Par conséquent, ces résultats suggèrent qu’en fait la combinaison (ct)2 − ~x2 , ou de manière plus
générale pour l’espace affine la combinaison [c(t − t0 )]2 − (~x − ~x0 )2 , est un invariant sous les
transformations des groupes de Lorentz et de Poincaré, au moins lorsque ces combinaisons sont
identiquement nulles, comme c’est le cas pour la propagation de la lumière.
Afin de vérifier cette suggestion en général, considérons l’action d’une transformation de
Lorentz générale sur cette combinaison9 (ct)2 −~x2 . Il est clair que pour les rotations dans l’espace,
qui forment un sous-groupe du groupe de Lorentz complet, cette combinaison est invariante,
puisque de telles rotations ne modifient pas la coordonnée temporelle ct, tandis qu’elles affectent
les coordonnées spatiales d’une manière telle que la norme carrée ~x2 du vecteur position ~x reste
invariante. Ceci ne laisse donc plus qu’à considérer l’action des transformations spéciales de
Lorentz sur cette combinaison. Pour cela, considérons cette combinaison dans le second référentiel
inertiel en mouvement relatif à vitesse constante ~v0 . En raison de l’invariance sous les rotations
dans l’espace, il est toujours possible, sans perte de généralité aucune, de supposer que cette
vitesse ~v0 est alignée suivant l’axe des x positifs, c’est-à-dire supposer que l’on est dans la situation
illustrée10 dans la Fig. 1.1, pour laquelle les transformations spéciales de Lorentz sont spécifiées
par les relations en (1.30). Nous avons donc ainsi,
2
2
2
(ct′ )2 − x′ − y ′ − z ′ = [γ(ct − βx)]2 − [γ(x − βct)]2 − y 2 − z 2
,
(1.43)
expression dont un simple développement conduit au résultat recherché, soit,
2
2
2
(ct′ )2 − x′ − y ′ − z ′ = (ct)2 − x2 − y 2 − z 2
.
(1.44)
Par conséquent, la combinaison,
(ct)2 − ~x2
,
(1.45)
définit effectivement un invariant relativiste sous le groupe de Lorentz de l’espace vectoriel associé
à l’espace et au temps, tandis que la combinaison,
[c(t − t0 )]2 − (~x − ~x0 )2
,
(1.46)
définit un invariant relativiste sous le groupe de Poincaré de l’espace affine du temps et de l’espace.
Ces deux grandeurs déterminent donc la géométrie de l’espace-temps, considéré comme un seul
9
La discussion étant équivalente soit du point de vue de l’espace vectoriel associé à l’espace affine en terme du
groupe de Lorentz, soit de celui de l’espace affine lui-même en terme du groupe de Poincaré, nous nous concentrons
ici sur le premier point de vue, sachant que le second serait basé sur la combinaison [c(t − t0 )]2 − (~
x−~
x20 ) associée à
la position relative d’événements dans l’espace et le temps, et pour laquelle l’action de translations constantes dans
l’espace et le temps, qui avec le groupe de Lorentz composent donc le groupe de Poincaré, serait sans conséquence.
10
En effet par ailleurs, par des translations constantes dans le temps et l’espace qui n’affectent pas la présente
discussion, il est toujours possible de s’assurer que les origines des deux référentiels coı̈ncident effectivement en un
instant particulier, tel qu’il est également supposé dans la situation de la Fig. 1.1.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
20
espace mathématique combinant à la fois les points de l’espace physique à trois dimensions, et les
points de l’espace à une dimension associé au temps. Bien que l’espace et le temps séparément ne
sont pas invariants sous les groupes de Lorentz et de Poincaré, mais sont relatifs à l’observateur
inertiel, l’espace-temps quant à lui est un espace invariant, absolu et indépendant de l’observateur
inertiel.
De la même manière que la combinaison (~x = x2 + y 2 + z 2 ) définit un invariant pour le
groupe d’invariance de l’espace affine euclidien, et que cet invariant est associé à une métrique
définie positive et caractérise donc la géométrie euclidienne d’un tel espace, les invariants en (1.45)
et (1.46) caractérisent la géométrie de l’espace-temps. Il est clair que la métrique ainsi définie
sur l’espace-temps n’est pas définie positive, possédant les valeurs propres (+1) associée à la
direction temporelle et (−1) associées aux directions spatiales. Cette métrique non définie positive
porte le nom de métrique de Minkowski, du nom du mathématicien Hermann Minkowski (18641909), et l’espace géométrique possédant une telle métrique est appelé l’espace de Minkowski . La
géométrie de Minkowski est donc une géométrie non euclidienne, et en effet, il a fallu attendre la
première moitié du XIXème siècle pour que les mathématiciens se convainquent de la possibilité
de l’existence de telles géométries, tandis qu’il n’aura fallu alors qu’un autre demi-siècle pour
que ce nouveau type de géométrie trouve sa juste place en physique, à commencer en relativité
restreinte en 1905, et ensuite de manière plus dramatique encore en relativité générale en 1915!
Par conséquent, l’invariant de l’espace-temps caractéristique de la géométrie de Minkowski
est la grandeur définie soit en (1.45), soit en (1.46), suivant que l’on considère l’espace vectoriel
sous-jacent à l’espace-temps en tant qu’espace affine, soit l’espace-temps lui-même, respectivement. L’une ou l’autre de ces grandeurs invariantes associées à un événement est donc une
caractéristique invariante de Lorentz ou de Poincaré de cet événement. Remarquons que dans la
définition de ces grandeurs, la vitesse c de la lumière dans le vide détermine l’échelle fondamentale
reliant temps et espace, confirmant ainsi son statut de constante fondamentale de la nature. Ce
n’est que parce que nous exprimons la vitesse de la lumière en terme d’unités proches de notre
perception macroscopique quotidienne que la valeur numérique de cette vitesse est si élevée, tandis que cette valeur détermine les échelles de temps et de distance pour lesquelles temps et espace
sont comparables, et pour lesquelles donc les effets relativistes peuvent se manifester, et conduire
à des déviations aux prédictions de la mécanique non relativiste de Newton.
Nous avons ainsi complétement cerné les conséquences géométriques des quatre postulats
géométriques de la relativité restreinte, pour ce qui concerne l’espace, le temps et l’espace-temps.
L’espace-temps forme donc une entité géométrique absolue et indépendante de l’observateur inertiel, combinant d’une manière invariante l’espace et le temps qui eux, par contre, ne sont plus
absolus comme en mécanique de Newton, mais deviennent relatifs à l’observateur inertiel. Cependant, les échelles de temps et d’espace pour lesquelles ces effets deviennent observables sont celles
de la vitesse de la lumière, c’est-à-dire qu’ils restent extrêmement faibles pour les situations de
vitesses quotidiennes à notre échelle.
Nous avons également montré que le groupe d’invariance des lois de la physique en relativité restreinte, auquel le principe de la relativité fait référence, est le groupe de Poincaré, qui
comprend comme sous-groupe le groupe de Lorentz. Le groupe de Poincaré est également le
groupe d’invariance de l’espace-temps lui-même en tant qu’espace affine. En fait, c’est le groupe
de Poincaré qui correspond en relativité restreinte au groupe de Galilée de la mécanique non
relativiste.
Le groupe de Poincaré détermine les transformations entre référentiels inertiels, ceux-ci
étant spécifiés par le principe d’inertie. Le groupe de Poincaré se compose des translations
constantes dans l’espace, des transformations spéciales de Lorentz entre référentiels en mouvement
relatif à vitesse constante, des rotations dans l’espace, des inversions de l’orientation de l’espace,
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
21
Figure 1.4: Le cône de lumière.
des translations constantes dans l’origine du temps, et du renversement du temps. L’ensemble de
ces transformations laisse invariante la métrique de Minkowski de l’espace-temps, cette dernière
étant caractérisée par l’invariant,
s2 = (ct)2 − ~x2 ,
(1.47)
ou de manière plus générale pour des positions relatives arbitraires dans l’espace-temps,
(∆s)2 = (c∆t)2 − (∆~x)2
.
(1.48)
Parmi ces invariants caractérisant les événements, on peut distinguer ceux dits de genre
lumière, tels que,
s2 = 0 , (∆s)2 = 0 ,
(1.49)
ceux dits de genre temps, tels que,
s2 > 0
,
(∆s)2 > 0 ,
(1.50)
et finalement ceux dits de genre espace, tels que,
s2 < 0
,
(∆s)2 < 0 .
(1.51)
En effet, la propagation de la lumière est caractérisée par l’invariant (∆s)2 = 0, c’est-à-dire
des événements situés sur la surface d’un cône centré en la source de la lumière et donc l’axe est
parallèle à l’axe temporel du référentiel inertiel considéré dans l’espace-temps. Ce cône porte donc
le nom de cône de lumière (voir la Fig. 1.4). Par contre, des événements se propageant moins
rapidement que la lumière dans le vide, et dont la vitesse est donc inférieure en norme à c, sont
tels que l’invariant (∆s)2 est nécessairement strictement positif. En particulier, lorsque de tels
événements possèdent une vitesse nulle, l’invariant ∆s se réduit au temps physique (∆t = t − t0 )
multiplié par la vitesse c de la lumière, car leur position, alors constante, peut être choisie comme
l’origine du référentiel inertiel. Par conséquent, de tels événements sont bien de genre temps, et
sont caractérisés par une propagation causale, c’est-à-dire avec une vitesse inférieure à celle c de
la lumière. En particulier, cette classe d’événements est toujours située à l’intérieur du cône de
lumière.
Finalement, les événements de genre espace sont ceux pour lesquels il ne peut exister de
relation causale, car ils seraient associés à une propagation dont la vitesse serait supérieure à
celle de la lumière! En effet, comme nous le verrons dans la section 1.9, la vitesse de la lumière
c constitue une limite supérieure en relativité restreinte à la vitesse de propagation de tout
événement physique. Un exemple d’un invariant (∆s)2 de genre espace est celui défini par deux
événements simultanés par rapport à un référentiel inertiel spécifique. Ayant lieu au même instant,
l’intervalle de temps qui les sépare est alors identiquement nul, et l’invariant (∆s)2 relatif à ces
22
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
deux événements se réduit alors à l’opposé de la norme carrée du vecteur position relative des
deux événements dans le référentiel considéré; cet invariant est donc strictement négatif.
Cette classification des événements en différents genres correspond également à la possibilité
suivante. En géométrie euclidienne, nous savons qu’à l’aide d’une rotation appropriée laissant la
métrique euclidienne invariante, il est toujours possible d’amener un vecteur donné à pointer
dans une direction spécifique de l’espace euclidien. De même pour la géométrie de Minkowski,
le groupe de Lorentz étant essentiellement un groupe de pseudo-rotations dans l’espace-temps
laissant invariante une métrique non définie positive sur cet espace-temps – ces pseudo-rotations
comprenant donc les transformations spéciales de Lorentz et les rotations spatiales habituelles –,
il devrait être clair qu’il est toujours possible de trouver une transformation de Lorentz spécifique
pouvant amener un vecteur spécifique de l’espace-temps à pointer dans une direction spécifique
de l’espace-temps. Cependant, puisque de telles transformations laissent invariante la grandeur
s2 qui détermine le genre de l’événement, ceci ne peut se faire que pour chacune de ces trois
classes d’événements séparément. Ainsi pour un événement de genre temps, il existe toujours un
choix de référentiel inertiel tel que cet événement soit aligné sur l’axe temporel du référentiel.
De même pour un événement de genre espace, il existe toujours un choix de référentiel amenant
l’événement uniquement dans une direction spatiale. Et finalement pour un événement de genre
lumière, il existe toujours un choix de référentiel amenant l’événement comme pointant dans une
direction particulière de l’espace, tout en restant fixé sur le cône de lumière et possédant donc
une composante temporelle non nulle.
1.5
La simultanéité des événements
Nous avons vu à la section 1.1 qu’en mécanique non relativiste, en raison du caractère absolu
du temps et de l’espace, la simultanéité des événements est un concept absolu, indépendant du
choix de référentiel inertiel. Etant donné qu’en relativité restreinte, temps et espace deviennent
des concepts relatifs à l’observateur inertiel, il n’est pas exclu que la notion de simultanéité elle
aussi devienne relative à ce choix.
Pour étudier cette question, considérons les transformations spéciales de Lorentz (1.30),
pour les coordonnées (t1 ; x1 , y1 , z1 ), (t2 ; x2 , y2 , z2 ), (t′1 ; x′1 , y1′ , z1′ ) et (t′2 ; x′2 , y2′ , z2′ ) de deux événements, respectivement par rapport aux référentiels inertiels R1 et R2 , le second étant en mouvement relatif à vitesse constante de norme v0 dans la direction des x positifs par rapport au
premier. Nous avons donc,
ct2 − ct1 = γ (ct′2 − ct′1 ) + β(x′2 − x′1 )
,
(1.52)
ce qui pour des événements simultanés dans le référentiel R2 , avec (ct′2 − ct′1 = 0), conduit à,
ct2 − ct1 = βγ(x′2 − x′1 ) .
(1.53)
Par conséquent, si par rapport au référentiel dans lequel ils sont simultanés les deux événements
ne coı̈ncident pas dans l’espace, ils ne peuvent être simultanés dans aucun autre référentiel inertiel
en mouvement relatif par rapport au premier, car nous obtenons,
∆t =
v0
q
c2 1 −
v02 /c2
∆x′ 6= 0 .
(1.54)
En d’autres mots, la notion de simultanéité n’est pas absolue en relativité restreinte, mais
est relative à l’observateur . Deux événements ne peuvent être simultanés qu’au plus dans un seul
23
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
référentiel inertiel11 ! Ainsi en relativité restreinte, il n’y a aucun sens à parler d’événements simultanés sans également spécifier le référentiel inertiel dans lequel cette simultanéité est observée.
1.6
La dilatation du temps
Considérons maintenant des événements ayant lieu au même point de l’espace par rapport au
référentiel inertiel R2 , mais à des instants différents, soit,
ct′1 6= ct′2
,
~x1 ′ = ~x2 ′
.
(1.55)
Une situation concrète peut être par exemple une horloge en mouvement relatif de vitesse constante par rapport au référentiel inertiel R1 d’un observateur.
Utilisant alors les transformations spéciales de Lorentz en (1.30), nous avons donc pour
l’intervalle de temps qui sépare ces deux événements dans le référentiel R1 ,
ct2 − ct1 = γ (ct′2 − ct′1 ) + β(x′2 − x′1 ) = γ c(t′2 − t′1 )
soit finalement,
∆t′
∆t = γ ∆t′ = q
1 − v02 /c2
.
,
(1.56)
(1.57)
Or, puisque le facteur γ est nécessairement supérieur à l’unité, l’intervalle temporel ∆t, tel
qu’observé dans le référentiel en mouvement relatif à vitesse constante v0 par rapport au référentiel
où les deux événements ont lieu au même endroit – celui dans lequel l’horloge est au repos –,
est toujours supérieur à l’intervalle temporel ∆t′ séparant les événements dans le repère où ils
sont “au repos”. Ce résultat correspond au phénomène remarquable de la dilatation du temps en
relativité restreinte. Le temps étant une notion relative à l’observateur, les intervalles temporels
dépendent du choix de référentiel, et pour tout référentiel en mouvement relatif par rapport au
référentiel propre des événements, ces intervalles temporels sont plus importants que dans le
référentiel propre.
Désintégration des anti-muons cosmiques
Une situation physique courante expliquée par le phénomène remarquable de la dilatation
du temps est celle de certains rayonnements à la surface de la Terre créés par les collisions dans la
haute atmosphère des rayons cosmiques. Ces rayons cosmiques produisent des particules appelées
anti-muons, qui se désintègrent en un positron et deux neutrinos,
µ+ → e+ + νe + ν µ
.
(1.58)
Dans leur référentiel propre, c’est-à-dire celui dans lequel ils sont au repos, le temps de vie moyen
de ces anti-muons est de τpropre = 2,2 µs. Si par exemple leur vitesse est de,
v = 0,99 c
,
(1.59)
la distance moyenne parcourue par les anti-muons avant qu’ils ne se désintègrent serait alors de,
d = v τpropre = 0,99 c × 2,2 µs = 653 m
11
,
(1.60)
Par là, on entend évidemment l’ensemble des référentiels inertiels fixes par rapport à un référentiel spécifique.
Des translations ou des rotations indépendantes du temps déterminent des référentiels dans lesquels des événements
simultanés restent simultanés. Dans la présente discussion, il s’agit évidemment de transformations entre référentiels
en mouvement de vitesse relative constante mais non nulle.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
24
une distance beaucoup trop petite pour qu’ils puissent atteindre la surface de la Terre! Néanmoins,
on observe les anti-muons cosmiques au niveau de la mer, et d’ailleurs, c’est ainsi que ces particules
ont été découvertes! Comment expliquer cette observation?
Bien évidemment, il s’agit du phénomène de dilatation du temps. En effet, bien que le
temps de vie des anti-muons ne soit que de 2,2 µs, ceci est le temps de vie dans leur référentiel
propre, tandis que pour un observateur à la surface de la Terre, il voit ces anti-muons se déplacer
à une vitesse non nulle de 0,99 c, par exemple. Par conséquent, dans le référentiel inertiel de
l’observateur , le temps de vie moyen des anti-muons en mouvement relatif à cette vitesse est
donné par,
τobservé = γ τpropre = 15,6 µs ,
(1.61)
le facteur de dilatation relativiste étant de γ = 7,1. Par conséquent, la distance moyenne parcourue par les anti-muons avant qu’ils ne se désintègrent est en fait donnée par,
d = v τobservé = 4 640 m
,
(1.62)
une distance qui leur permet effectivement d’atteindre la surface de la Terre depuis leur point de
production dans l’atmosphère.
Le paradoxe des jumeaux
Il existe un paradoxe célèbre concernant le phénomène déconcertant à première vue de la
dilatation du temps, le paradoxe dit des jumeaux. Imaginons deux jumeaux identiques, dont
l’un reste sur la Terre tandis que l’autre part pour un voyage interplanétaire dans un engin se
déplaçant à une grande vitesse, proche de celle de la lumière. Par conséquent, par rapport au
premier jumeau, le second vieillira beaucoup moins rapidement, et lors de son retour sur la Terre,
il trouvera donc son frère grand-père tandis que lui sera encore un jeune étudiant de physique!
Le paradoxe est que a priori, en raison du principe de relativité, le jumeau resté sur la Terre
est lui aussi en mouvement relatif à grande vitesse par rapport à son frère, et donc il devrait lui
aussi vieillir moins rapidement que son frère en voyage! La résolution du paradoxe est que pour
pouvoir revenir sur la Terre, le second jumeau devra quitter sa trajectoire de vitesse constante
pour changer de direction, et il subira donc une accélération, ce que le premier jumeau ne subit
pas. La situation n’est donc pas symétrique entre les deux jumeaux. Or, les lois de la relativité
restreinte ne concernent que des référentiels inertiels en mouvement relatif de vitesse constante12 .
Pour une description adéquate de ce problème, on peut avoir recours à la théorie de la relativité
générale, qui est aussi une théorie des repères non inertiels comme une représentation équivalente
de l’interaction gravitationnelle, basée sur le célèbre Principe d’Equivalence entre masse inertielle
et masse gravitationnelle. Cependant il reste possible d’analyser ce problème dans le cadre de la
relativité restreinte en introduisant une succession de référentiels inertiels instantanés coı̈ncidant
avec le point accéléré en chaque instant et en intégrant le facteur de dilatation du temps le long
de la trajectoire suivie.
1.7
La contraction des longueurs
De la même manière que l’on peut observer la dilatation du temps en relativité restreinte en
raison du caractère relatif du temps, il faut s’attendre à une variation des longueurs en changeant
12
Si l’espace n’était pas infini comme l’est l’espace-temps de Minkowski, on pourrait imaginer que dans des
situations particulières, le second jumeau puisse revenir à son point de départ tout en voyageant à vitesse constante!
De telles géométries fermées dans le temps existent effectivement, mais alors comme solutions aux équations de la
relativité générale, tandis qu’en relativité restreinte, l’espace-temps est nécessairement celui de Minkowski.
25
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
Figure 1.5: Contraction des longueurs.
de référentiel inertiel en raison de la relativité de l’espace. Considérons donc dans le référentiel
inertiel R2 une tige immobile, alignée suivant l’axe de coordonnée x′ , et de longueur au repos L0
(voir la Fig. 1.5). Associées aux extrémités de la tige, nous avons donc des coordonnées x′1 et x′2
telles que,
x′2 − x′1 = L0 ,
(1.63)
tandis que la mesure de ces positions, et donc de la longueur de la tige, dans ce référentiel au
repos par rapport à la tige, est faite à des instants t′1 et t′2 qui peuvent soit coı̈ncider, soit être
différents, chacune de ces deux situations étant sans conséquence sur la mesure puisque la tige
est au repos dans le référentiel R2 .
Considérons alors la mesure de la longueur de la tige dans le référentiel R1 de l’observateur
qui voit donc se déplacer la tige dans la direction des x positifs avec une vitesse constante v0 .
Afin d’effectuer cette mesure, l’observateur est contraint de déterminer les coordonnées x1 et x2
des deux extrémités de la tige au même instant (t2 = t1 ) dans le référentiel auquel il est lié. En
effet, si la mesure de la position de ces extrémités n’était pas faite simultanément, la longueur
vraie de la tige dans le référentiel R1 ne serait obtenue, puisque la tige se serait déplacée durant
l’intervalle de temps intervenant dans la mesure.
Utilisant alors les relations des transformations spéciales de Lorentz en (1.30), nous avons
pour les coordonnées parallèles au mouvement de la tige,
x′2 − x′1 = γ [(x2 − x1 ) − βc(t2 − t1 )] = γ(x2 − x1 ) ,
t2 − t1 = 0
,
(1.64)
tandis que les coordonnées transverses sont telles que,
y2′ − y1′ = y2 − y1
,
z2′ − z1′ = z2 − z1
.
(1.65)
Par conséquent, la longueur L de la tige telle qu’observée dans le référentiel R1 par rapport auquel
elle est en mouvement à vitesse constante dans la direction des x, est donnée par,
L0
x′ − x′1
=
= L0
L = x2 − x1 = 2
γ
γ
s
1−
v02
c2
,
(1.66)
où L0 est la longueur au repos de la tige. Par contre, les dimensions de la tige transverses à son
mouvement ne sont pas modifiées.
Ainsi, le résultat (1.66) implique une contraction de la longueur au repos de la tige lorsqu’observée en mouvement de vitesse constante, le facteur de contraction étant donné par 1/γ. Cependant, cette contraction des longueurs n’a lieu que pour les dimensions spatiales de l’objet parallèles
à son mouvement, tandis que les dimensions transverses ne sont ni contractées, ni dilatées.
Remarquons qu’il est également possible de mesurer la longueur de la tige en utilisant
une autre approche, à savoir en connaissant la vitesse v0 de la tige et en mesurant l’intervalle
de temps qui sépare le passage de chacune des deux extrémités de la tige en un même point
spécifié de l’espace, cet intervalle de temps étant observé dans le référentiel inertiel R1 . En raison
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
26
de la dilatation du temps, il est clair qu’il doit y avoir contraction des longueurs associées aux
dimensions parallèles au mouvement.
Nous avons ainsi établi trois conséquences des transformations spéciales de Lorentz, c’est-àdire trois conséquences physiques des postulats de la relativité restreinte, à savoir la relativité de la
notion de simultanéité, la dilatation du temps et la contraction des longueurs, qui certainement
toutes trois choquent notre intuition physique toute non relativiste. Une façon géométrique
de comprendre l’existence de ces phénomènes peut être suggérée de la manière suivante. En
géométrie euclidienne, caractérisée par une métrique définie positive, nous savons que les rotations
définissent des transformations laissant cette métrique ainsi que l’espace et la géométrie de celui-ci
invariants. Néanmoins, si l’on projette les points transformés sur un plan spécifique – imaginons
le cas d’un espace affine euclidien à trois dimensions –, en raison du phénomène de parallaxe,
les points projetés ne sont pas invariants car la projection fait intervenir le cosinus d’un certain
angle13 . Par conséquent, dans le plan projeté, il y a en fait un phénomène de contraction des
longueurs, associé à cette parallaxe, même en géométrie euclidienne, lorsqu’une projection à un
sous-espace est considérée.
Or, dans le cas de l’espace-temps à quatre dimensions, les notions de temps et d’espace
sont relatives au référentiel inertiel utilisé, mais sont également définies en terme de projections
spécifiques de l’espace-temps sur des sous-espaces à une ou trois dimensions, ces sous-espaces
étant fonction du référentiel. Par rapport au cas de la géométrie euclidienne qui vient d’être
décrit, la seule différence est dans le caractère non défini positif de la métrique de Minkowski,
avec la conséquence que les rotations dans le cas euclidien correspondent maintenant au groupe
de Lorentz qui comprend aussi bien les rotations spatiales que les transformations spéciales de
Lorentz. Par conséquent, lors de la définition du temps et de l’espace impliquée par le choix
d’un référentiel inertiel ou d’un autre référentiel en mouvement relatif à vitesse constante par
rapport au premier, après tout il n’est pas du tout surprenant de voir apparaı̂tre des phénomènes
de parallaxe tout comme en géométrie euclidienne. Cependant, comparé à ce dernier cas, en
raison du caractère non défini positif de la métrique de Minkowski, ces phénomènes de parallaxe
ne conduisent pas seulement à des contractions – c’est le cas pour des intervalle de points dans
l’espace-temps de genre espace –, mais conduisent également à des dilatations – comme c’est le
cas pour des intervalles de points de l’espace-temps de genre temps. C’est ainsi que par analogie,
on peut comprendre qu’en raison de la structure géométrique de l’espace-temps de Minkowski,
les phénomènes remarquables relativistes de dilatation du temps et de contraction des longueurs
doivent en effet exister dans cette mécanique, en raison du postulat de la constance de la vitesse
de la lumière dans tout référentiel inertiel.
Il est également possible d’illustrer ces propriétés, en réduisant la dimension de l’espacetemps. Dans le cas de la géométrie euclidienne, les rotations laissent invariantes des sphères
centrées sur l’origine du référentiel, puisque la métrique est définie positive et est donnée par une
somme de termes carrés qui paramétrise ainsi une sphère,
x2 + y 2 + z 2 = constante
.
(1.67)
Si l’on imagine projeter cette sphère sur un plan passant par son centre, l’intersection de la sphère
avec ce plan définit un grand méridien de la sphère ainsi qu’un cercle dans le plan. Il est clair
que des rotations de la sphère autour d’un axe situé dans ce plan impliquent une rotation de ce
grand méridien qui projeté sur le plan, donne lieu à une ellipse qui est la contraction du cercle
initial dans la direction transverse à l’axe de rotation.
13
Imaginons par exemple la surface d’une simple feuille de papier, que l’on tourne autour d’un axe situé dans
la feuille et perpendiculaire à la ligne de visée de l’observateur. Il est clair qu’en tournant la feuille, les distances
mesurées dans le plan de la feuille apparaı̂tront contractées.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
27
Figure 1.6: Hyperboloı̈de invariant dans l’espace-temps.
De la même manière dans le cas de l’espace-temps de Minkowski, les transformations de
Lorentz laissent invariants des hyperboloı̈des centrés sur l’origine du référentiel dans l’espacetemps (voir la Fig. 1.6). En effet, dans ce cas, la métrique invariante est non définie positive, et
est donnée par une somme et des différences de termes carrés qui paramétrisent une telle surface
possédant trois dimensions et plongée dans un espace-temps de quatre dimensions,
(ct)2 − x2 − y 2 − z 2 = constante
.
(1.68)
En fonction du signe de cette valeur constante, l’axe de l’hyperboloı̈de est celui du temps dans
le cas d’une constante de genre temps, ou est dirigé dans l’espace dans le cas d’une constante de
genre espace. Le cas d’une constante de genre lumière est un cas dégénéré d’un hyperboloı̈de associé au cône de lumière. Ici également, on peut considérer la surface définie par l’intersection de
l’un de ces trois types d’hyperboloı̈des avec une hypersurface à trois dimensions. La déformation
sous les transformations spéciales de Lorentz de la projection de cette intersection démontre les
phénomènes de dilatation temporelle et de contraction spatiale sous de telles transformations. Il
est relativement plus simple d’imaginer ce type de transformation dans le cas d’un espace-temps
de dimension deux, illustré dans la Fig. 1.6. Dans ce cas, il suffit d’imaginer une droite, soit de
genre temps, soit de genre espace, passant par l’origine du référentiel. Les points d’intersection
de cette droite soit avec une hyperbole de genre temps, soit avec une hyperbole de genre espace,
définissent des intervalles de temps ou des intervalles de longueur. Sous l’action d’une transformation spéciale de Lorentz, soit on se déplace le long de ces hyperboles, et les projections des
points transformés sur les même droites montrent que ces intervalles de temps ou d’espace sont
effet dilatés ou contractés, respectivement, soit les droites de genre temps et de genre espace
voient leurs directions changer et leurs points d’intersection avec les hyperboles définissent alors
des intervalles de temps ou d’espace qui à nouveau sont dilatés ou contractés, respectivement.
Cette description géométrique traduit donc les conclusions des calculs analytiques ci-dessus, basés
sur les expressions (1.30) des transformations spéciales de Lorentz.
1.8
Le théorème d’addition relativiste des vitesses
Parmi les conséquences des postulats géométriques de la mécanique non relativiste de Newton,
un résultat également important est celui du théorème d’addition des vitesses, qui en particulier
impliquerait que la vitesse de la lumière devrait dépendre du choix de référentiel inertiel, un
résultat en contradiction avec le postulat fondamental de la relativité restreinte. Par conséquent,
nécessairement la loi d’addition des vitesses en relativité restreinte doit être différente de celle
en mécanique de Newton, et en particulier, elle ne saurait être linéaire dans les composantes des
vitesses.
28
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
Considérons donc les transformations spéciales de Lorentz (1.30). Par définition, les vitesses
par rapport à chacun des deux référentiels inertiels R1 et R2 font intervenir les dérivées soit par
rapport à la variable t dans le premier cas, soit par rapport à la variable t′ dans le second cas.
Ce changement de variable conduit donc à la relation suivante entre opérations de différentiation
par rapport à chacune de ces deux variables,
1
dt d
1
d
d
= ′
=
v0
′
dt
dt dt
γ 1 − c2 vx dt
,
(1.69)
où vx est la composante suivant l’axe x de la vitesse d’un point matériel par rapport au référentiel
R1 , puisque nous avons, sur base de (1.30),
dt′
=γ
dt
1−
v0
vx
c2
.
(1.70)
Un simple calcul conduit alors au théorème d’addition des vitesses de la relativité restreinte,
1
vx′ =
1−
v0
c2
vx
(vx − v0 )
,
vy′ =
q
v02
1
c2 1− v20 vx vy
,
vz′ =
q
v02
1
c2 1− v20 vx vz
.
1−
1−
(1.71)
c
c
Vérifions que ces relations de transformation impliquent effectivement que la vitesse de la
lumière est indépendante du choix de référentiel inertiel. En effet, il est immédiat de constater
que pour la configuration,
vx = c , vy = 0 , vz = 0 ,
(1.72)
les expressions (1.71) conduisent aux composantes suivantes dans le référentiel R2 ,
vx′ = c ,
vy′ = 0 ,
vz′ = 0 .
(1.73)
Cette conclusion est donc en accord avec le postulat fondamental de la relativité restreinte.
Il est également intéressant de vérifier que dans la limite des vitesses v0 petites en comparaison à celle de la lumière,
v0 ≪ c ,
(1.74)
le théorème relativiste d’addition des vitesses (1.71) reproduit celui de la mécanique de Newton.
Qu’il doive en être ainsi est clair, puisque nous avons déjà vérifié que dans la même limite, les
transformations spéciales de Lorentz (1.30) reproduisent les transformations de Galilée correspondantes. Ainsi, sur base des relations (1.71), nous avons dans la limite (1.74),
vx′ ≃ vx − v0
,
vy′ ≃ vy
,
vz′ ≃ vz
.
(1.75)
Le théorème d’addition des vitesses galiléen est donc bien reproduit en relativité restreinte dans
la limite non relativiste (v0 ≪ c).
Finalement, il est une dernière propriété qu’il est intéressant d’établir, à savoir de quelle
manière les normes des vitesses d’un même point matériel pour des choix de référentiels inertiels
différents sont reliées entre elles. Sur base du théorème d’addition des vitesses (1.71), un calcul
explicite conduit ainsi à la relation suivante,
2
h
′ 2
2
(~v ) − c
i
v
h
i
1 − c20
2
2
~
v
−
c
=
(1 − vc20 vx )2
.
(1.76)
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
1.9
29
Les postulats dynamiques de la relativité restreinte
Il est utile de récapituler ce que nous avons discuté jusqu’à présent, en le contrastant à nouveau
avec ce que nous connaissons pour la mécanique de Newton.
En mécanique non relativiste, l’espace et le temps sont chacun considérés comme des espaces absolus, caractérisés par une géométrie affine euclidienne. Dans ces deux espaces, il est
nécessaire d’introduire des repères, qui en général ne sont pas nécessairement inertiels. Dans le
cas de la relativité restreinte, l’espace et le temps sont relatifs à l’observateur, tandis que l’espacetemps est absolu. Par rapport à un observateur inertiel, cet espace-temps est caractérisé par la
géométrie de Minkowski, dont la structure métrique est non définie positive, une conséquence
immédiate du postulat de la constance de la vitesse de la lumière dans tout référentiel inertiel.
Néanmoins, contrairement à la mécanique de Newton, la mécanique de la relativité restreinte
n’est concernée que par des référentiels inertiels. En effet, une description relativiste utilisant
des repères non inertiels nécessite la théorie de la relativité générale, qui peut en effet être considérée à la fois comme une théorie dynamique des repères non inertiels, et comme une théorie
de la géométrie de l’espace-temps dont une courbure non nulle équivaut à la représentation des
interactions gravitationnelles.
Aussi bien en mécanique de Newton qu’en relativité restreinte, les référentiels inertiels sont
caractérisés par le principe d’inertie. Dans le premier cas, il s’agit de la spécification d’un repère
dans l’espace et d’un repère dans le temps, tels que la vitesse d’un corps libre observée de ces
repères soit constante. Dans le cas de la relativité restreinte, il s’agit de la spécification d’un repère
dans l’espace-temps, caractérisé par la même propriété pour le mouvement d’un corps libre. De
plus, dans le cas de la mécanique de Newton, les transformations liant les référentiels inertiels
forment le groupe de Galilée, tandis qu’en relativité restreinte, ces transformations sont celles
du groupe de Poincaré, dont le groupe de Lorentz est le sous-groupe ignorant les translations
constantes dans l’espace-temps. Dans les deux cas, chacun de ces groupes sont des groupes
d’invariance de l’espace et du temps, ou de l’espace-temps, respectivement. Et finalement, en
mécanique non relativiste, la notion de simultanéité est absolue, ainsi que celles de temps et espace,
tandis qu’en mécanique relativiste, ces trois notions sont relatives à l’observateur, conduisant à
la dilatation du temps et à la contraction des longueurs.
En mécanique non relativiste, nous avons encore les Deuxième et Troisième Principes de
Newton, qui déterminent la dynamique de corps matériels en interaction. De tels principes
dynamiques nous manquent encore pour la mécanique relativiste. Or, nous avons vu que le
Deuxième Principe peut également s’énoncer en terme de la quantité de mouvement,
d~
p
~
=F
dt
,
(1.77)
tandis que le Troisième Principe de l’action et de la réaction peut aussi s’énoncer en terme de la
loi de la conservation de la quantité de mouvement d’un corps libre.
Ainsi, nous sommes amenés à nous demander s’il est possible de généraliser ces notions au
cas relativiste, c’est-à-dire trouver une notion de quantité de mouvement relativiste qui pour des
vitesses faibles en comparaison de celle c de la lumière dans le vide, se réduise à la notion non
relativiste, et qui d’autre part satisfait encore une équation du mouvement donnée par (1.77). De
plus, cette notion relativiste de quantité de mouvement devrait être telle qu’une loi de conservation
de la quantité de mouvement, et de l’énergie mécanique, puisse être formulée, jouant ainsi le rôle
du Troisième Principe en mécanique non relativiste. Dans la suite, nous allons montrer que de
tels postulats dynamiques de la relativité restreinte sont en effet possibles, conduisant ainsi en
particulier à la notion du quadri-vecteur énergie-quantité de mouvement d’un point matériel ou
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
30
d’un système physique, se transformant sous le groupe de Lorentz comme les quatre composantes
d’un quadri-vecteur position (ct, ~x) dans l’espace-temps.
1.9.1
La quantité de mouvement relativiste
La définition non relativiste de la quantité de mouvement d’un point matériel de masse inertielle
m et de vitesse ~v est,
p~ = m~v .
(1.78)
Pour se convaincre que cette définition n’est pas acceptable au niveau relativiste, il suffit
de considérer par exemple la collision élastique de deux masses m identiques et libres, d’une part
dans le référentiel inertiel de leur centre de masse, et d’autre part dans un autre référentiel inertiel,
utilisant pour cela le théorème d’addition relativiste des vitesses (1.71). Une analyse relativement
simple (présentée dans l’Appendice 1 en fin de ce chapitre) montre alors que si l’on suppose la
conservation de la quantité de mouvement totale dans le référentiel du centre de masse, alors
cette même quantité de mouvement totale n’est pas conservée dans un autre référentiel inertiel!
Afin d’étendre la notion de quantité de mouvement au cas relativiste, il est clair que
puisqu’elle doit faire intervenir la vitesse, et donc une dérivée temporelle, parmi l’ensemble des
référentiels inertiels possibles, celui lié au point matériel joue certainement un rôle particulier
caractérisé par la notion de temps propre τ du point matériel. Cette notion de temps propre
est simplement celle du temps tel que mesuré dans le référentiel inertiel lié au point matériel
libre, dont l’origine coı̈ncide avec ce point à tout instant. L’invariant relativiste de longueur s2 en
(1.45) correspondant est donc également donné par ce temps propre τ en terme de (cτ )2 , puisque
le vecteur position du point matériel libre est identiquement nul, ~x = ~0, dans son référentiel
propre,
s2 = (cτ )2 − ~x 2 = (cτ )2 .
(1.79)
Par conséquent, par rapport à tout autre référentiel inertiel, la position (ct, ~x ) dans l’espacetemps est également caractérisée par le même invariant définissant ainsi le temps propre τ de ce
point matériel,
s2 = (ct)2 − ~x 2 = (cτ )2 ,
(1.80)
qui donc, par construction, est un invariant relativiste propre au point matériel considéré.
Or, nous savons qu’en raison de la dilatation du temps, le temps observé dans un référentiel
inertiel arbitraire est lié au temps propre par la relation,
t=γτ
,
1
γ=p
1 − β2
,
β=
v
c
.
(1.81)
Ceci suggère donc de définir la quantité de mouvement relativiste en terme de la dérivée du
vecteur position ~x du point matériel dans le référentiel de l’observateur, par rapport au temps
propre du point matériel, cette dernière notion étant donc un invariant relativiste, propre au point
matériel considéré,
d~x
.
(1.82)
~p = m
dτ
Par construction, le vecteur p~ se transforme donc sous le groupe de Lorentz de la même manière
que le vecteur position ~x. Puisque nous avons,
dt d
d
=
dτ
dτ dt
,
(1.83)
31
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
nous obtenons ainsi la définition de la quantité de mouvement relativiste d’un point matériel,
p = mγ
~
m~v
d~x
= m γ ~v = q
2
dt
1 − vc2
.
(1.84)
Tout d’abord, remarquons que dans la limite de vitesses petites en comparaison à celle c
de la lumière, cette définition coı̈ncide bien avec celle en mécanique de Newton. De plus, il est
possible de vérifier explicitement que lorsque cette définition est utilisée, la loi de conservation de
la quantité de mouvement totale est effectivement satisfaite quel que soit le choix de référentiel
inertiel, dans le cas indiqué plus haut de la collision élastique de deux points matériels de même
masse m. Cet exercice nécessite d’utiliser le théorème d’addition relativiste des vitesses, et sa
résolution est présentée dans l’Appendice 1 en fin de ce chapitre.
Ensuite, soulignons que la définition (1.84) implique que la quantité de mouvement diverge
lorsque la vitesse v du point matériel atteint la vitesse de la lumière. En d’autres mots, un point
matériel initialement au repos ne peut jamais atteindre et dépasser la vitesse c de la lumière!
Nous étant ainsi convaincus que la définition (1.84) est effectivement correcte, il devient
possible de formuler les lois dynamiques de la mécanique relativiste.
1.9.2
Equation fondamentale relativiste du mouvement
Ayant défini la quantité de mouvement relativiste p~ en (1.84), l’équation fondamentale de la
dynamique en relativité restreinte s’écrit,
d~
p
~
=F
dt
.
(1.85)
Bien que cette expression soit identique à l’équation de la dynamique non relativiste, ses implications physiques sont différentes puisque la quantité de mouvement ne coı̈ncide pas avec celle de
la mécanique de Newton pour des vitesses proches de celle de la lumière. Ainsi, bien que la force
F~ entraı̂ne une variation de la quantité de mouvement, celle-ci ne peut croı̂tre d’une manière
arbitrairement élevée puisque le point matériel ne peut jamais dépasser la vitesse de la lumière.
Sur base de la définition (1.84), il est immédiat de calculer explicitement la variation instantanée de la quantité de mouvement,
d~
p
m
=
2
dt
(1 − vc2 )3/2
"
v2
~v˙ 1 − 2
c
!
~v · ~v˙
+ 2 ~v
c
#
.
(1.86)
Par conséquent, en raison de la composante parallèle à la vitesse dans le membre de droite de
cette expression, en relativité restreinte la force appliquée F~ et l’accélération d~v /dt à laquelle cette
force conduit, ne sont en général pas des vecteurs parallèles, comme c’est le cas en mécanique
~ et l’accélération d~v /dt ne deviennent parallèles l’une à l’autre
non relativiste. En effet, la force F
que dans la limite de vitesses v petites en comparaison à celle c de la lumière.
Remarquons également qu’un simple calcul montre que la projection de la vitesse sur la
variation de la quantité de mouvement du point matériel est donnée par une dérivée totale par
rapport au temps,


d  mc2 
d~
p
q
.
(1.87)
=
~v ·
2
dt
dt
1− v
c2
32
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
1.9.3
L’énergie relativiste
Dans le but d’identifier l’énergie relativiste d’un point matériel, considérons la puissance développée par la force F~ responsable de la variation de sa quantité de mouvement p~,
~
P = ~v · F
.
(1.88)
Utilisant l’équation du mouvement (1.85) ainsi que le résultat (1.87), nous avons,


d  mc2 
d~
p
d h 2 i
q
=
mc γ
P = ~v · F~ = ~v ·
=
2
dt
dt
dt
1− v
c2
.
(1.89)
Cette relation suggère donc d’identifier l’énergie relativiste E d’un point matériel avec la
~ est la dérivée totale par rapport au temps, soit,
grandeur dont la puissance de la force F
mc2
E = mc2 γ = q
2
1 − vc2
,
(1.90)
tandis que la quantité de mouvement relativiste peut encore s’exprimer comme,
p~ = m γ ~v = mc γ
~
~v
mc2 β
m~v
2 ~
q
,
p
~
c
=
mc
γ
β
=
,
=q
2
2
c
1 − vc2
1 − vc2
(1.91)
~ = ~v /c. Remarquons que cette grandeur E possède en effet les dimensions physiques d’une
avec β
énergie, puisque sa dérivée temporelle est une puissance. De plus, de par sa construction même, la
grandeur ainsi définie possède nécessairement des propriétés bien définies sous les transformations
de Lorentz.
Cette notion d’énergie relativiste suscite évidemment une série de remarques.
Energie de masse
Dans le cas d’un point matériel de masse non nulle au repos, ~v = ~0, l’énergie relativiste E
se réduit à la célèbre relation,
E = mc2 .
(1.92)
En d’autres mots, en relativité restreinte, et en raison directe du postulat de l’invariance de
la vitesse de la lumière dans tout référentiel inertiel, tout corps matériel possède un contenu
énergétique mécanique directement lié à sa masse inertielle m, et donné par mc2 . Puisque dans
les unités S.I., la vitesse de la lumière prend une valeur numérique extrêmement élevée, ce contenu
énergétique est extrêmement important à nos échelles quotidiennes.
Cette équivalence, valable en relativité restreinte, entre la masse inertielle et cette énergie
dite énergie de masse, conduit à des propriétés physiques et à des applications remarquables.
Ainsi par exemple, lorsqu’un système de protons et de neutrons se lie pour former un noyau, la
liaison du système conduit à une perte d’énergie14 , et par conséquent, en raison de l’équivalence
relativiste entre masse et énergie, cette perte d’énergie se traduit nécessairement par un défaut de
14
Pensons par exemple au problème de Kepler attractif pour des solutions elliptiques. Dans ce cas, l’énergie
mécanique non relativiste totale du système est inférieure à ce qu’elle est lorsque les deux corps matériels sont
infiniment éloignés l’un de l’autre. L’énergie de liaison est bien négative.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
33
masse nucléaire. En d’autres mots, la masse totale du système lié est inférieure à la somme des
masses de ses constituants. Ces défauts de masse sont donc une caractérisation importante de la
structure nucléaire, et ne peuvent être compris que dans le contexte de la relativité restreinte.
Par ailleurs, il est bien connu qu’une application importante de ce phénomène – ou au plus
haut point regrettable, suivant ce que fait l’homme du savoir qu’il acquiert – est celui de l’énergie
nucléaire, libérée sous des formes plus ou moins “douces” ou violentes. En effet, lorsqu’on prend
conscience qu’associée à une variation de masse ∆m d’un milligramme par exemple,
∆m = 10−6 kg
,
(1.93)
l’énergie ainsi libérée est de15 ,
∆E = ∆m c2 = 9 · 1010 joules
,
(1.94)
on comprend que les énergies ainsi mises en jeu deviennent rapidement extrêmement importantes,
même pour des défauts de masse nucléaires qui dans les unités du S.I. peuvent sembler dérisoires!
Une autre conséquence de la notion d’énergie de masse est que la masse inertielle d’un corps
matériel peut se mesurer en unités d’énergie divisée par c2 . C’est ainsi par exemple que l’on dit
que la masse de l’électron, mélectron ≃ 9, 1 · 10−31 kg, est de
mélectron ≃ 511 keV/c2
,
(1.95)
où l’unité d’énergie ici est celle du keV, soit 1 000 eV, l’électron-volt (eV) étant l’énergie acquise
par un électron sous une différence de potentiel électrique de 1 volt, soit,
1 eV ≃ 1,6 · 10−19 J .
(1.96)
En fait, de mesurer les masses dans de telles unités d’énergie s’avère être extrêmement utile dans
le monde de la physique des particules élémentaires, comme nous le verrons au chapitre 2.
Energie cinétique
Considérant l’énergie relativiste d’un point matériel en mouvement, il est intéressant de
développer la définition (1.90) en série pour des vitesses faibles en comparaison à celle c de la
lumière, soit un développement en série en v/c. Nous obtenons ainsi,
1
mc2
≃ mc2 + mv 2 + · · ·
E = mc2 γ = q
v2
2
1 − c2
,
(1.97)
où les termes indiqués en pointillés correspondent à des contributions d’ordre au moins égal à v 4 .
Dans cette expression, on reconnaı̂t le premier terme comme étant l’énergie de masse du
point matériel, tandis que le second terme est son énergie cinétique non relativiste définie en
mécanique de Newton. Bien évidemment, la différence entre l’énergie relativiste E d’un point
matériel et son énergie de masse, est l’énergie associée à sa vitesse, c’est-à-dire l’énergie cinétique
relativiste du point matériel,
T = E − mc2 = mc2 (γ − 1)
15
.
(1.98)
Uniquement à titre de comparaison qui s’avère être totalement non physique, supposant une champ de pesanteur
g = 9, 81 m·s−2 uniforme sur de grandes distances, cette énergie libérée correspondrait, pour la même masse ∆m
de 10−6 kg, à une énergie potentielle de pesanteur associée à une variation d’altitude de ∆h = 9, 2 × 1015 m, soit
encore ∆h = 31 millions d’années-lumière!
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
34
Dans la limite non relativiste, soit lorsque (v ≪ c), cette énergie cinétique coı̈ncide donc bien
avec la notion non relativiste. En particulier, remarquons que les équations du mouvement pour
les quantité de mouvement et énergie cinétique d’un point matériel sont données par les mêmes
expressions qu’en mécanique non relativiste,
d~
p
= F~
dt
,
dT
=P
dt
,
(1.99)
où cependant les quantité de mouvement ~p et énergie cinétique T sont maintenant les grandeurs
relativistes, soit p~ = γm~v et T = (γ − 1)mc2 avec γ = (1 − ~v 2 /c2 )−1/2 .
Vitesse limite
Tout comme la quantité de mouvement ~p d’un point matériel diverge lorsque la norme v
de sa vitesse atteint la valeur c de celle de la lumière, de même son énergie relativiste E diverge
dans cette limite. Par conséquent, un point matériel de masse inertielle m non nulle ne peut se
déplacer à des vitesses supérieures à celle de la lumière dans le vide. La vitesse de la lumière c
est donc une limite supérieure à toute propagation d’information réelle dans l’espace-temps. A
nouveau, cette conclusion remarquable est une conséquence directe du postulat de la constance
de la vitesse de la lumière dans tout référentiel inertiel.
Particules de masse nulle
Jusqu’à présent, les points matériels que nous avons considérés, aussi bien en mécanique de
Newton qu’en relativité restreinte, possèdent toujours une masse inertielle m strictement positive
et non nulle. Cependant, il devient possible maintenant de concevoir des particules possédant
une masse exactement nulle, mais dont ni l’énergie et ni la quantité de mouvement ne sont nulles.
Cependant, de telles particules doivent nécessairement se déplacer à la vitesse de la lumière, v = c.
En effet, ce n’est que dans cette situation que le rapport,
m
q
1−
v2
c2
,
(1.100)
qui apparaı̂t aussi bien dans la définition de l’énergie relativiste E en (1.90) que dans celle de la
quantité de mouvement p~ en (1.91), est alors non déterminé, et peut donc le cas échéant prendre
une valeur finie et non nulle. De plus, comme nous le montrons ci-dessous, la norme |~
p |c de
la quantité de mouvement multipliée par la vitesse de la lumière c est alors égale à l’énergie
relativiste E de la particule.
Un exemple d’une telle particule de masse nulle est le photon, c’est-à-dire le quantum
d’énergie du rayonnement électromagnétique, et donc en particulier de la lumière dans le spectre
visible. Si les neutrinos avaient tous une masse exactement nulle, eux aussi se déplaceraient
alors à la vitesse de la lumière. Mais les indications expérimentales les plus récentes suggèrent
en fait que les trois espèces connues de neutrinos sont de masse non nulle, bien que fort faible
en comparaison avec celle de l’électron (pouvant même atteindre des valeurs aussi petites que
quelques 10−5 eV/c2 ).
Ainsi, nous avons deux situations possibles pour ce qui concerne les particules. Soit une particule possède une masse inertielle non nulle, et sa vitesse est alors toujours strictement inférieure
35
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
à la vitesse c de la lumière, soit sa masse est exactement nulle, et sa vitesse est alors strictement égale à celle c de la lumière, quelle que soit la valeur de son énergie ou de sa quantité de
mouvement relativistes E = |~
p |c.
1.9.4
Le quadri-vecteur énergie-moment
Etant donné les définitions (1.91) et (1.90) des quantité de mouvement et énergie relativistes, et
la relation (1.81) liant le temps physique associé à un référentiel inertiel et le temps propre, nous
pouvons également écrire,
p~ = mγ ~v = m
d~x
d~x
= mc
dτ
d(cτ )
,
E = mc2 γ = mc2
dt
d(ct)
= mc2
dτ
d(cτ )
.
(1.101)
Puisque le temps propre τ est un invariant relativiste, ces relations montrent que les quantité
de mouvement ~
pc et énergie E relativistes se transforment sous le groupe de Lorentz de la même
manière que les coordonnées ~x et ct d’un événement dans l’espace-temps. Dans la section 1.3,
nous avons vu comment les composantes (ct, ~x ) d’un événement se transforment sous le groupe
de Lorentz, et en particulier sous les transformations spéciales de Lorentz. Sous la forme donnée
en (1.31), les composantes ct et ~x, qui possèdent la même dimension physique d’une longueur,
se transforment d’une manière bien spécifique qui caractérise leurs propriétés sous l’action du
groupe de Lorentz.
Or, en géométrie euclidienne, nous savons sous quelle condition une collection de trois
nombres peut être identifiée aux trois composantes cartésiennes d’un vecteur d’un espace vectoriel
euclidien, à savoir que ces trois nombres doivent se transformer sous l’action du groupe des
rotations comme les trois composantes d’un vecteur, en terme de la matrice représentant cette
rotation.
De même en relativité restreinte, une collection de quatre nombres définit les composantes
d’un vecteur de l’espace-temps si et seulement si ces quatre nombres se transforment sous l’action
des transformations de Lorentz, et en particulier des transformations spéciales de Lorentz, comme
les coordonnées (ct, ~x ) d’un événement dans l’espace-temps. Un tel vecteur est alors appelé
un quadri-vecteur . Ainsi tout quadri-vecteur, dont les quatre composantes possèdent la même
dimension physique, se transforment sous le groupe de Lorentz comme les composantes (ct, ~x )
d’un point ou d’un vecteur de l’espace-temps. En particulier pour les transformations spéciales
de Lorentz, ces transformations sont données par les relations (1.33) et (1.34).
En d’autres mots, les composantes (ct, ~x ), ou encore (t, ~x/c), d’un point de l’espace-temps
définissent les composantes d’un quadri-vecteur par rapport à un référentiel inertiel spécifique.
Mais d’autre part, le temps propre τ apparaissant dans les définitions (1.101) est un invariant relativiste, et par conséquent, la collection de quatre nombres (E/c, p~ ), ou encore (E, p~c), possédant
la même dimension physique, définit elle aussi les composantes d’un quadri-vecteur!
Ainsi, un point matériel peut être caractérisé par son quadri-vecteur énergie-moment, dont
les composantes par rapport à un référentiel inertiel spécifique sont données par,
(E, p~c) .
(1.102)
Affirmer que cette collection de grandeurs physiques détermine un quadri-vecteur, signifie que
sous l’action des transformations spéciales de Lorentz, ces composantes se transforment de la
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
36
manière suivante (voir (1.33)),
E ′ = γ [E − β px c]
,
p′x c = γ [px c − β E]
,
(1.103)
p′y c = py c ,
p′z c = pz c .
De plus, puisque tout quadri-vecteur (x0 , ~x) possède une longueur invariante relativiste s
donnée par16 ,
s2 = (x0 )2 − ~x2 , x0 = ct,
(1.104)
le quadri-vecteur énergie-moment est lui aussi caractérisé par sa longueur invariante relativiste.
Dans le cas présent, cet invariant est obtenu comme étant,
s2 = E 2 − (~
pc)2 = (mc2 γ)2 − (mcγ~v )2 = (mc2 )2
.
(1.105)
En d’autres mots, la longueur invariante relativiste s du quadri-vecteur énergie-moment d’un point
matériel coı̈ncide avec son énergie de masse mc2 . A posteriori, ce résultat n’est pas surprenant,
puisque d’une part la longueur invariante est un invariant indépendant du choix de référentiel
inertiel, et que d’autre part, cet invariant ne peut prendre que la valeur mc2 pour un point
matériel au repos.
Par conséquent, non seulement la masse inertielle caractérise l’inertie d’un point matériel,
mais en relativité restreinte, cette masse caractérise également l’invariant associé à l’énergie et à
la quantité du mouvement relativistes du point matériel.
En particulier, une valeur nulle pour cet invariant est a priori possible, correspondant à
une particule de masse inertielle nulle, une possibilité qui est clairement exclue dans le cadre de
la mécanique non relativiste de Newton. Dans ce cas particulier, la valeur nulle de cet invariant
permet de déterminer la relation entre la quantité de mouvement ~p et l’énergie E d’une particule
de masse nulle. En effet, nous avons alors,
E 2 − (~
pc)2 = 0 ,
(1.106)
et donc, puisque l’énergie est toujours positive,
E = |~
p |c = pc .
(1.107)
Par ailleurs, les relations générales liant l’énergie, la quantité de mouvement et la vitesse d’une
particule, données en (1.101), impliquent directement la détermination suivante de la vitesse,
~v
~ = p~c ,
=β
c
E
(1.108)
que la particule soit de masse nulle ou non. Par conséquent, une particule de masse nulle, m = 0,
~ = 1 ou
possède une vitesse qui nécessairement est toujours celle c de la lumière dans le vide, |β|
encore |~v | = c, en accord avec la même conclusion déjà établie plus haut. Par contre pour une
particule de masse m non nulle, nous avons donc
|~
p |c =
16
q
E 2 − (mc2 )2 < E,
(1.109)
En effet, cette grandeur est invariante aussi bien sous les rotations dans l’espace que sous les transformations
spéciales de Lorentz, et donc finalement sous l’ensemble des transformations du groupe de Lorentz.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
37
Figure 1.7: Classification des particules suivant le genre temps, le genre lumière, et le genre
espace.
impliquant dans ce cas que la vitesse d’une telle particule est toujours de norme strictement
~ < 1 ou encore |~v | < c, également en accord avec
inférieure à celle de la lumière dans le vide, |β|
les considérations précédentes à ce sujet.
La caractérisation des particules en terme de leur invariant de masse permet également leur
classification déjà ébauchée plus haut. Ainsi, nous avons tout d’abord les particules de genre
temps, c’est-à-dire telles que,
E 2 − (~
pc)2 > 0 ,
(1.110)
qui en fait correspondent à toutes les particules connues de masse non nulle. Le quadri-vecteur
énergie-moment de telles particules est toujours situé sur la nappe positive d’un hyperboloı̈de
de révolution centré autour de l’axe de l’énergie (voir la Fig. 1.7). Ces particules sont donc
caractérisées par une masse réelle et strictement positive. Remarquons que pour des particules de
genre temps, il est toujours possible de trouver un référentiel inertiel tel que leur quadri-vecteur
énergie-moment se réduise à (E = mc2 , p~c = ~0). Ce référentiel n’est donc rien d’autre que le
référentiel propre de la particule libre.
Ensuite, nous avons les particules de genre lumière, pour lesquelles l’invariant énergiemoment est identiquement nul,
E 2 − (~
pc)2 = 0 .
(1.111)
De telles particules sont donc de masse nulle, et puisque leur quadri-vecteur se situe toujours
sur le cône de lumière (voir la Fig. 1.7), leur vitesse est toujours exactement celle de la lumière.
Toutes les particules connues de masse nulle sont donc de genre lumière. En raison de la relation
(E = |~
p |c), il n’est pas possible de trouver de référentiel inertiel tel que la quantité de mouvement
soit nulle, mais il existe toujours un référentiel inertiel tel que cette quantité de mouvement pointe
dans une direction spécifique de l’espace.
Et finalement, a priori, il serait également possible d’avoir des particules de genre espace,
soit telles que,
E 2 − (~
pc)2 < 0 .
(1.112)
Cependant, de telles particules ne peuvent exister dans la nature, si les postulats de la mécanique
de la relativité restreinte sont corrects. En effet, de telles particules seraient caractérisées par
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
38
une masse inertielle non nulle mais purement imaginaire, puisque l’invariant (mc2 )2 serait alors
négatif ! De plus, de telles particules se déplaceraient plus vite que la lumière17 conduisant ainsi
à des phénomènes violant le principe de causalité suivant lequel les effets ne peut que suivre
leur cause chronologiquement dans le temps, quel que soit le référentiel inertiel dans lesquels
ces phénomènes sont observés. En particulier, pour de telles particules, il existerait toujours
un référentiel inertiel tel que leur énergie relativiste E soit identiquement nulle, sans que leur
quantité de mouvement ne le soit. De telles particules, appelées tachyons ou encore tachyoniques,
ne sauraient exister dans la nature, et effectivement encore aucune particule tachyonique n’a
jamais été mise en évidence expérimentalement. C’est ainsi que l’on peut affirmer qu’en relativité
restreinte, la vitesse de la lumière est effectivement une limite supérieure à toute transmission
d’information réelle, et à toute propagation de particules, que celles-ci soient de masse nulle ou
non.
Soulignons également qu’il est de loin beaucoup plus commode en relativité restreinte de
travailler explicitement avec les quantités de mouvement et les énergies relativistes, qu’avec les
vitesses et les énergies cinétiques, ceci en raison de la relation fondamentale entre ces diverses
grandeurs physiques,
E 2 = (~
pc)2 + (mc2 )2
,
E=
q
(~
pc)2 + (mc2 )2
,
(1.113)
et le fait que ces grandeurs satisfont des relations linéaires sous les transformations spéciales de
Lorentz, ce qui n’est certes pas le cas pour les composantes des vecteurs vitesses pour des choix
de référentiels inertiels différents, contrairement à la situation en mécanique non relativiste. Par
ailleurs, pour un système libre non soumis à des forces externes, nous avons la loi de conservation
du quadri-vecteur énergie-moment,
dE
=0 ,
dt
d~
p ~
=0 .
dt
(1.114)
De la même manière qu’en mécanique non relativiste, ces deux lois de conservation permettent
souvent de résoudre des problèmes de collisions élastiques ou inélastiques entre points matériels,
ou même de désintégrations de particules élémentaires. Ainsi ce sont les notions d’énergie et de
quantité de mouvement relativistes qui sont naturelles pour la description de la dynamique de
particules de masse nulle ou non dans la mécanique de la relativité restreinte.
Ainsi par exemple, il existe une particule massive de charge électrique nulle interagissant
avec les protons et les neutrons, appelée π 0 , et se désintégrant préférentiellement en deux photons,
π0 → γ + γ
.
(1.115)
Se plaçant dans le référentiel au repos du π 0 , ou encore le référentiel du centre de masse des deux
photons, il est possible de calculer les énergies et quantités de mouvement de chacun des deux
photons produits. En effet, l’énergie disponible initialement dans ce référentiel est simplement
l’énergie de masse du π 0 , soit,
(1.116)
E = mπ0 c2 ,
17
Nous avons vu plus haut qu’une particule pouvant être observée au repos, ne peut jamais posséder une vitesse
supérieure à celle de la lumière. En effet, une telle particule est de genre temps, et son quadri-vecteur énergiemoment est donc toujours situé sur un hyperboloı̈de dont l’axe de symétrie est celui de l’énergie. Il serait donc
possible d’arguer que le fait qu’une particule de genre espace possède toujours une vitesse supérieure à celle de la
lumière, n’est pas une raison suffisante pour exclure une telle possibilité dans la nature, puisqu’en effet de telles
particules ne peuvent jamais être amenées au repos. Néanmoins, il existe encore d’autres raisons rendant l’existence
de telles particules impossible en physique, y compris des raisons non mentionnées ici, de cohérence mathématique
et physique des théories quantiques de telles particules.
39
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
Figure 1.8: Désintégration π 0 → γ1 + γ2 dans le référentiel inertiel au repos du π 0 .
tandis que dans l’état final, cette même énergie est donnée par la somme des énergies des deux
photons, soit,
E = Eγ1 + Eγ2 .
(1.117)
Par conséquent, puisque l’énergie totale doit être conservée, nous avons,
Eγ1 + Eγ2 = mπ0 c2
.
(1.118)
Par ailleurs, la quantité de mouvement initiale du π 0 étant nulle, la somme de celles des deux
photons doit l’être également, par simple conservation de cette grandeur physique, soit,
p~γ1 + p~γ2 = ~0
.
(1.119)
Or, les photons étant de masse identiquement nulle, nous avons nécessairement,
Eγ1 = |~
pγ1 |c
,
Eγ2 = |~
pγ2 |c .
(1.120)
Substituant ces relations dans les expressions de conservation de l’énergie-moment, nous en concluons que les deux photons possèdent des quantités de mouvement égales en norme et opposées
en direction, et se partagent donc à part égale l’énergie de masse du π 0 ,
Eγ1 =
1
m 0 c2 = Eγ2
2 π
.
(1.121)
Cette solution aux conditions de conservation des énergie et quantité de mouvement pour
ce processus physique possède une interprétation géométrique immédiate en terme des quadrivecteurs associés à chacune de ces particules. Représentant la situation dans un espace-temps de
dimension deux – ce qui est effectivement le cas pour cette désintégration en deux corps considérée
dans le repère au repos de la particule qui se désintègre –, la Fig. 1.8 indique de quelle manière
la solution ci-dessus peut s’obtenir immédiatement sur base de la décomposition géométrique des
quadri-vecteurs correspondants. Il est clair que de telles considérations ne sauraient exister en
mécanique non relativiste de Newton, puisque la notion d’énergie de masse fait alors totalement
défaut.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
1.10
Covariance relativiste
1.10.1
Quadri-vecteurs et métrique de Minkowski
40
L’analyse développée jusqu’ici établit donc que le concept géométrique qui est central à la
mécanique de la relativité restreinte est celui d’un espace-temps absolu muni d’une géométrie
pseudo-euclidienne de Minkowski, à laquelle la notion vectorielle associée est celle de quadrivecteur18 . En outre, les notions d’espace et de temps deviennent relatives au choix de référentiel
inertiel, c’est-à-dire d’observateur, tandis que dans la limite de vitesses négligeables devant celle
c de la lumière dans le vide, v/c ≪ 1, ou encore dans la limite où la constante c devient infinie,
v/c → 0 ou encore c → ∞, les propriétés de la mécanique non relativiste de Newton sont reproduites, avec en particulier un espace et un temps absolus, et une géométrie euclidienne pour
chacun de ces espaces physiques.
On peut ainsi considérer les quadri-vecteurs associés aux événements spatio-temporels, ou
encore, aux points de l’espace-temps. En raison des relations sous les transformations de Lorentz
des composantes de quadri-vecteurs, il est utile d’introduire la notation compacte suivante,
xµ = (x0 , ~x) , ~x = (xi ) , µ = 0, 1, 2, 3 , i = 1, 2, 3,
(1.122)
x0 = ct
(1.123)
où
définit la composante temporelle de ce point en terme d’une grandeur ayant la même dimension
physique d’une longueur que les composantes spatiales ~x du quadri-vecteur spécifiant la position
dans l’espace de l’événement pour le choix de référentiel inertiel associé au système de coordonnées
spatio-temporelles utilisé. Il est conventionnel de réserver les indices grecs µ, ν, ρ, · · · = 0, 1, 2, 3
pour les quatre composantes spatio-temporelles de quadri-vecteurs, tandis que les indices latins
i, j, k, · · · = 1, 2, 3 le sont pour leurs composantes spatiales. Par ailleurs, la position de ces indices
comme indices supérieurs est essentielle, pour les raisons qui sont précisées ci-dessous19 .
Un autre exemple de quadri-vecteur rencontré est, évidemment, celui caractérisant les
énergie et quantité de mouvement relativistes d’un point matériel de masse m nulle ou non,
à savoir
pµ = (E, p~c),
(1.124)
avec bien sûr dans le cas d’une particule de masse m non nulle
1
~ = ~v ,
, β
E = γmc2 , ~
pc = γmc2 β~ , γ = q
c
1 − β~ 2
(1.125)
~v étant la vitesse de ce point, tandis que pour une particule de masse m = 0 nulle,
E = |~
p |c,
(1.126)
p~ étant sa quantité de mouvement.
Ce qui qualifie les grandeurs xµ ou pµ au titre de quadri-vecteurs sont leurs propriétés de
transformation sous le groupe de Lorentz, et en particulier sous les transformations spéciales de
18
Cette conclusion est à
Newton, à savoir que dans
géométrie euclidienne pour
19
Et qui sont totalement
mettre en parallèle avec celle analogue valable pour la mécanique non relativiste de
ce cas, ce sont l’espace et le temps qui chacun sont des espaces absolus, munis d’une
laquelle c’est la notion habituelle de vecteur qui est essentielle.
justifiées dans l’Appendice 2 en fin de ce chapitre.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
41
Lorentz pour lesquelles les composantes temporelles et spatiales de ces grandeurs vectorielles sont
mélangées de la manière discutée précédemment. De ce point de vue, les quantités suivantes,
t,
~x
c
,
E
, p~ ,
c
(1.127)
définissent également les composantes de quadri-vecteurs, possédant les même propriétés de transformation sous le groupe de Lorentz, et correspondent évidemment aux quadri-vecteurs xµ /c et
pµ /c, respectivement.
Il est clair que ces deux classes d’exemples de quadri-vecteurs correspondent aux quadrivecteurs position et énergie-moment relativistes, respectivement, d’un événement ou d’un point
matériel dans la mécanique de la relativité restreinte20 . Chacun de ces quadri-vecteur peut
également être caractérisé par l’invariant relativiste correspondant, à savoir
s2 = x0
2
− ~x2
,
E 2 − (~
pc)2 = mc2
2
.
(1.128)
Ces expressions rendent explicite la structure métrique associée à la géométrie pseudo-euclidienne
de l’espace-temps de Minkowski, en terme d’un tenseur métrique gµν donné par la matrice




(gµν ) = 
1 0
0
0
0 −1 0
0
0 0 −1 0
0 0
0 −1





,
µ, ν = 0, 1, 2, 3,
(1.129)
et appelé métrique de Minkowski, tel que nous avons
s2 = gµν xµ xν ,
mc2
2
= gµν pµ pν .
(1.130)
Dans ces expressions, la convention dite d’Einstein est utilisée, à savoir que la sommation sur
toute paire d’indices répétés est implicite, en l’occurrence les indices µ et ν qui sont donc sommés
sur leurs valeurs µ, ν = 0, 1, 2, 3 associées aux quatre dimensions de l’espace-temps. Ici également,
la position des indices µ et ν pour le tenseur métrique gµν est importante, pour les raisons qui
deviendront claires dans la suite21 .
En particulier, il est maintenant possible de définir un autre type de quadri-vecteur que ceux
considérés jusqu’ici, en utilisant la métrique de Minkowski et son inverse pour faire “descendre”
ou “monter” les indices spatio-temporels. L’inverse gµν de cette métrique est bien sûr définie par
les conditions
gµρ gρν = δµ ν , gµρ gρν = δµ ν ,
(1.131)
soit en termes matriciels,




(gµν ) = 
20
1 0
0
0
0 −1 0
0
0 0 −1 0
0 0
0 −1





,
µ, ν = 0, 1, 2, 3.
(1.132)
Au même titre que les notions non relativistes des grandeurs vectorielles ~x et p
~ = m~v mesurent la position
spatiale et la quantité de mouvement non relativistes, respectivement, d’un point matériel en mécanique non
relativiste de Newton. En particulier, ces dernières notions non relativistes sont effectivement reproduites dans la
~ → ~0, comme il se doit.
limite non relativiste β
21
Voir également l’Appendice 2 de ce chapitre.
42
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
Ainsi, nous pouvons maintenant introduire les quadri-vecteurs suivants, portant cette fois des
indices inférieurs,
xµ = gµν xν , pµ = gµν pν ,
(1.133)
soit en terme de leurs composantes,
xµ = x0 , −~x
, pµ = (E, −~
pc) .
(1.134)
Notons que nous avons également les relations inverses suivantes, montrant l’importance d’un
usage correct dans la position des indices supérieurs et inférieurs dans ces expressions,
xµ = gµν xν , pµ = gµν pν .
(1.135)
Par conséquent, les invariants relativistes associés prennent les diverses formes d’expressions suivantes,
2
s2 = gµν xµ xν = xµ xµ = xµ xµ = gµν xµ xν , gµν pµ pν = pµ pµ = pµ pµ = gµν pµ pν = mc2 ,
(1.136)
relations que l’on peut encore écrire sous la forme compacte suivante, étant entendu que les divers
indices doivent être contractés haut et bas de manière invariante à l’aide de la métrique,
s2 = x · x = x2 , p2 = p · p = mc2
2
,
(1.137)
puisque la métrique de Minkowski définit en effet un produit interne non défini positif22 sur
l’espace vectoriel des quadri-vecteurs associés à l’espace affine quadri-dimensionnel pseudo-euclidien qui caractérise en termes mathématiques l’espace-temps physique de la relativité restreinte.
La métrique de Minkowski étant pseudo-euclidienne – c’est-à-dire constante partout mais non
définie positive, et pouvant donc toujours être ramenée par diagonalisation et changement de
facteurs d’échelles de distances à la forme matricielle donnée plus haut avec une valeur propre
(+1) et trois valeurs propres (−1), donc une métrique de signature (1, 3) – implique qu’il existe
des quadri-vecteurs non nuls dont pourtant le “carré” (au sens de la métrique de Minkowski)
est nul – ce sont les quadri-vecteurs de genre lumière situés sur la surface du cône de lumière –,
ainsi que des quadri-vecteurs non nuls dont le “carré” est strictement négatif – ce sont les quadrivecteurs de genre espace, situés à l’extérieur du cône de lumière. Seuls les quadri-vecteurs de
genre temps, situés à l’intérieur du cône de lumière, possèdent un “carré” strictement positif.
En réalité, la position des indices spatio-temporels sur ces deux classes de quadri-vecteurs
possède une signification géométrique, qui sera explicitée dans la prochaine section sur base des
propriétés de transformation de ces grandeurs sous le groupe de Lorentz. Afin de distinguer ces
deux classes de quadri-vecteurs, on parle ainsi23 des quadri-vecteurs contravariants tels xµ et pµ ,
et des vecteurs covariants tels xµ et pµ , et nous verrons que les propriétés de transformation sous
le groupe de Lorentz de ces deux classes de quadri-vecteurs sont en quelque sorte “opposées”,
d’où ce choix de qualificatif24 .
22
Si ce produit interne était défini positif, le mathématicien utiliserait alors le qualificatif de “produit scalaire”.
Notons l’abus de language sans conséquence. Les grandeurs telles xµ ou xµ désignent en fait les composantes
des vecteurs dont il est question ici, ces composantes étant définies pour un choix donné de référentiel inertiel dans
l’espace-temps, à savoir le choix d’un origine dans cet espace affine de dimension 4, et le choix de 4 vecteurs de base
dans l’espace vectoriel associé. Il serait donc plus correct de dire que xµ sont les composantes du quadri-vecteur
contravariant pour un tel référentiel, tandis que xµ sont celles du quadri-vecteur covariant qui lui est associé dans
l’espace vectoriel dual à l’aide de la métrique de Minkowski (voir l’Appendice 2 de ce chapitre).
24
Ces divers points sont discutés dans un contexte général dans l’Appendice 2 de ce chapitre.
23
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
43
Ces considérations peuvent évidemment être mises en parallèle avec la situation pour
une géométrie euclidienne, par exemple celle tri-dimensionnelle pour l’espace physique dans la
mécanique non relativiste de Newton. La mesure de longueurs invariantes euclidiennes est alors
définie par
~x2 = δij xi xj , ~p2 = δij pi pj ,
(1.138)
rendant ainsi manifeste le fait que la géométrie euclidienne est caractérisée par une structure
métrique dont le tenseur métrique δij possède la représentation matricielle suivante,


1 0 0


(δij ) =  0 1 0 
0 0 1
i, j = 1, 2, 3,
(1.139)
et dont la métrique inverse est bien sûr donnée par le tenseur δij . Ici également, il est possible
de descendre ou monter les indices portés par les vecteurs ~x et ~p,
xi = δij xj , xi = δij xj , pi = δij pj , pi = δij pj ,
(1.140)
transformant ainsi les vecteurs contravariants ~x = (xi ) et p~ = (pi ) en les vecteurs covariants xi
et pi . Ces deux classes de vecteurs se transforment effectivement sous les rotations toutes deux
comme des vecteurs, mais l’un en terme de la matrice de rotation correspondante tandis que
l’autre en terme de la transposée de cette même matrice25 , sachant que le groupe des rotations à
trois dimensions O(3) est celui des matrices 3 × 3 orthogonales, c’est-à-dire les matrices dont la
transposée est égale à leur inverse. Cette dernière remarque constitue l’une des caractérisations qui
permet de distinguer les vecteurs covariants des vecteurs contravariants, et s’applique également
aux quadri-vecteurs de l’espace-temps de Minkowski en terme des transformations de Lorentz,
comme discuté dans la prochaine section. Une caractérisation alternative mais équivalente, et
d’ordre plus mathématique, qui constitue également la définition même de ces deux classes de
vecteurs – définition discutée dans l’Appendice 2 de ce chapitre –, est liée à l’existence de la
métrique euclidienne δij (ou de Minkowski gµν dans le cas relativiste). En effet, il est bien
connu que pour un espace vectoriel muni d’un produit interne (donc un produit scalaire dans le
cas euclidien), il y a isomorphisme entre cet espace vectoriel et l’espace vectoriel dual des formes
linéaires définies sur le premier, cet isomorphisme étant défini en terme de la métrique euclidienne
précisément comme étant la transformation d’un vecteur contravariant xi dans le vecteur covariant
xi = δij xj , appartenant à l’espace vectoriel dual. Ainsi, cette distinction entre ces deux classes
de vecteurs covariants et contravariants est celle entre un espace vectoriel et son dual, dans le
cas particulier où l’espace vectoriel est en outre muni d’une structure métrique, c’est-à-dire une
géométrie. Dans le cas d’une métrique euclidienne, puisque le tenseur métrique δij se réduit à la
matrice unité, les composantes de ces vecteurs duaux sont identiques, bien que leurs propriétés
de transformation sous les rotations à n dimensions, c’est-à-dire sous le groupe O(n), soient
différentes26 . Cependant dans le cas de la métrique pseudo-euclidienne de Minkowski, en raison
des composantes négatives du tenseur gµν correspondant, il est clair que la distinction est encore
plus importante, ne fût-ce que sur un plan pratique de calculs, et explique en partie pourquoi
il est essentiel de positionner correctement les indices contravariants (supérieurs) et covariants
(inférieurs) des composantes des quadri-vecteurs (et en général de tous tenseurs) dans l’espacetemps de Minkowski, et d’avoir compris quelle est la signification géométrique et algébrique de ces
indices. Cependant, comme discuté dans la section suivante, cette distinction dans ces indices est
également importante pour pouvoir caractériser les propriétés d’invariance, et plus généralement,
25
26
Voir l’Appendice 2 de ce chapitre.
Ce point est explicité dans l’Appendice 2.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
44
de covariance de diverses grandeurs physiques sous les groupes de Lorentz et de Poincaré, et en
particulier sous les transformations spéciales de Lorentz entre référentiels inertiels en mouvement
relatif uniforme.
1.10.2
Groupes de Lorentz et de Poincaré
En terme d’un quadri-vecteur xµ ou xµ , nous avons vu que la longueur invariante correspondante
est donnée par
s2 = x · x = gµν xµ xν = gµν xµ xν .
(1.141)
Plus généralement pour deux points dans l’espace-temps dont les positions sont caractérisées par
leurs quadri-vecteurs positions xµ1 et xµ2 relatifs à l’origine d’un référentiel inertiel, la distance
invariante entre ces deux événements est définie par
(∆s)2 = (x2 − x1 ) · (x2 − x1 ) = gµν (xµ2 − xµ1 ) (xν2 − xν1 ) .
(1.142)
Par définition, le groupe de Poincaré est le groupe de transformations linéaires sur l’espace
affine des points de l’espace-temps laissant invariante cette distance (∆s)2 entre événements.
Outre les translations constantes dans l’espace-temps, le groupe de Poincaré se compose donc
également des transformations de Lorentz laissant invariante la longueur s2 des quadri-vecteurs,
cette quantité étant donc définie sur l’espace vectoriel pseudo-euclidien à 4 dimensions associé à
l’espace affine de l’espace-temps de Minkowski27 .
La représentation la plus générale possible d’une transformation linéaire pour les événements de l’espace-temps s’écrit donc
xµ′ = Λµ ν xν + aµ , xµ ′ = Λµ ν xν + aµ ,
(1.143)
tandis que pour les quadri-vecteurs eux-mêmes,
xµ′ = Λµ ν xν , xµ ′ = Λµ ν xν ,
(1.144)
où les différents indices sont montés ou descendus à l’aide de la métrique de Minkowski. Les
quantités Λµ ν et aµ sont des paramètres constants, mais dont les propriétés de covariance sous les
transformations de Lorentz doivent être celles indiquées par la nature covariante ou contravariante
des indices qu’elles portent. Ainsi, les constantes aµ doivent être interprétées comme un quadrivecteur qui représente la translation constante dans l’espace-temps associée à cette transformation
du groupe de Poincaré. Il est clair que ce quadri-vecteur ne contribue pas dans l’évaluation des
conditions d’invariance de la quantité (∆s)2 associée à la distance entre les événements dans
l’espace-temps. Ceci ne laisse plus que les paramètres Λµ ν , qui doivent être tels que la longueur
s2 reste elle aussi invariante. Sur base de sa définition, il faut donc que nous ayons les conditions
suivantes satisfaites,
gρσ Λρ µ Λσ ν = gµν , gρσ Λρ µ Λσ ν = gµν ,
(1.145)
conditions dont les solutions définissent précisément les (représentations matricielles associées au
choix de référentiel inertiel des) transformations de Lorentz laissant s2 invariant. En raison de
la signature (1, 3) non définie positive de la métrique de Minkowski, il est clair que ce groupe
27
Encore une fois, cette situation est à comparer avec celle du groupe de Galilée, qui se compose des translations
uniformes et des rotations dans l’espace, ainsi que des translations constantes et du renversement du temps. Il
serait possible de développer en parallèle avec la discussion présentée dans cette section une analyse en tous points
analogue pour la géométrie euclidienne du temps et de l’espace dans la mécanique non relativiste de Newton, chose
que nous ne ferons pas ici, mais à laquelle les lecteurs de ces notes sont invités tout au moins de réfléchir.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
45
de transformation est le groupe pseudo-orthogonal O(1, 3), qui se compose des rotations dans
l’espace, des transformations spéciales de Lorentz, et des transformations changeant l’orientation
de l’espace ou du temps.
Ainsi, considérant une transformation de Lorentz arbitraire Λµ ν – satisfaisant donc les conditions en (1.145) – ainsi qu’une translation constante dans l’espace-temps aµ , les propriétés
de covariance des quadri-vecteurs contravariants et covariants sous ces transformations sont
spécifiées par les relations en (1.143) et (1.144). Par extension, les mêmes relations de transformations (1.144) s’appliquent à tous les indices contravariants et covariants que peut porter un
tenseur quelconque. Ainsi par exemple, les membres de gauche des relations (1.145) correspondent précisément aux transformations de la métrique de Minkowski sous les transformations de
Lorentz, et dont les valeurs doivent donc coı̈ncider avec celles de la métrique non transformée, de
manière à exprimer l’invariance de cette dernière sous ces transformations. Ceci constitue donc
la signification géométrique et algébrique des indices covariants et contravariants, et il est donc
important de les manipuler avec soin afin de maintenir manifestes les propriétés de covariance
relativiste de toutes relations entre quadri-vecteurs, et plus généralement entre tenseurs.
Considérons plus spécifiquement diverses classes de solutions aux conditions (1.145), c’està-dire divers types de transformations de Lorentz. Il est possible, par exemple, d’effectuer une
transformation linéaire qui ne mélange que les composantes µ = 2, 3 d’un quadri-vecteur xµ ,
laissant donc celles µ = 0, 1 invariantes. Puisque l’invariant s2 s’écrit explicitement
s2 = (x0 )2 − (x1 )2 − (x2 )2 − (x3 )2 ,
(1.146)
il est clair que de telles transformations laissant cette longueur invariante ne peuvent que correspondre à des rotations dans le plan (23) de l’espace-temps, avec éventuellement un changement
de l’orientation dans ce plan, et donc aussi de l’espace-temps. Ainsi une solution générale aux
conditions (1.145) n’agissant que dans le plan (23), avec donc Λ0 1 = 0 = Λ1 0 mais Λ2 3 6= 0,
Λ3 2 6= 0, correspond au choix




Λµ ν = 
1
0
0
0
0
0
0
1
0
0
0 cos θ
sin θ
0 ∓ sin θ ± cos θ



,

(1.147)
θ représentant bien sûr l’angle de la rotation, tandis que le signe supérieur (resp. inférieur)
est associé à une rotation de déterminant (+1) (resp. (−1)) et donc ne changeant pas (resp.
changeant) l’orientation de l’espace-temps (remarquons que nous avons également det Λµ ν = ±1).
Notons que la raison pour laquelle les solutions à (1.145) dans ce cas s’expriment en terme des
fonctions trigonométriques cos θ et sin θ est l’identité
cos2 θ + sin2 θ = 1,
(1.148)
qui est en correspondance directe avec la métrique euclidienne dans le plan (23), soit
(x2 )2 + (x3 )2 .
(1.149)
De manière plus générale, toute rotation dans l’espace à trois dimensions correspond à la
transformation de Lorentz
!
1 0
µ
,
(1.150)
Λ ν=
0 Ri j
où Ri j est la matrice associée à cette rotation dans l’espace telle que
δkl Rk i Rl j = δij , Ri k Rj l δkl = δij ,
(1.151)
46
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
et définissant donc une matrice orthogonale de O(3) de déterminant (±1) suivant que cette
rotation préserve ou non l’orientation de l’espace, et donc de l’espace-temps.
Considérons maintenant les transformations de Lorentz qui mélangent la composante temporelle µ = 0 avec les composantes spatiales µ = i = 1, 2, 3. Prenant le cas particulier de
transformations qui n’affectent que les composantes µ = 0, 1 par exemple, sur base de la longueur
invariante s2 en (1.146), il est clair que de telles transformations devront cette fois faire intervenir
les fonctions hyperboliques cosh α et sinh α satisfaisant l’identité
cosh2 α − sinh2 α = 1,
(1.152)
en correspondance directe avec la métrique pseudo-euclidienne dans le plan (01) de l’espace-temps,
(x0 )2 − (x1 )2 .
(1.153)
Effectivement, la solution la plus générale aux conditions (1.145) dans ce cas est donnée par




Λµ ν = 
η 0 cosh α η 0 sinh α
η 1 sinh α η 1 cosh α
0
0
0
0
0
0
1
0
0
0
0
1



,

(1.154)
où α est un paramètre réel arbitraire – l’“angle” de la pseudo-rotation hyperbolique dans le plan
(01) – et η 0 = ±1, η 1 = ±1 sont des choix de signes arbitraires liés à un changement d’orientation
de l’espace-temps si η 0 η 1 = −1, du temps si η 0 = −1, et de l’espace si η 1 = −1.
Une telle transformation de Lorentz correspond donc à une transformation spéciale de
Lorentz associée à une transformation entre référentiels inertiels en mouvement relatif uniforme,
avec une vitesse relative dans la direction µ = 1 dont la valeur est déterminée par le paramètre
α. En effet, prenant le cas η 0 = +1 = η 1 ne changeant l’orientation ni du temps ni de l’espace,
et comparant la matrice ci-dessus aux expressions covariantes en (1.33) établies pour une telle
transformation, nous obtenons la correspondance
1
v0
cosh α = γ = p
, sinh α = −βγ , tanh α = −β = − .
2
c
1−β
(1.155)
Plus généralement, les transformations de Lorentz telles que Λ0 i 6= 0, Λi 0 6= 0 pour un au moins
des indices (i = 1, 2, 3) correspondent aux transformations spéciales de Lorentz associées à un
mouvement relatif uniforme dans la direction vectorielle dans l’espace définie par ces trois nombres
Λi 0 dont un au moins est non nul.
Ainsi en conclusion, le groupe de Poincaré de transformations de l’espace-temps laissant
invariante la distance relativiste (∆s)2 entre événements, se compose des transformations de
Lorentz et des translations constantes dans l’espace-temps. Les transformations de Lorentz, quant
à elles, agissent sur l’espace vectoriel associé à l’espace-temps comme espace affine, et se composent
des rotations habituelles dans l’espace et dans le temps, ainsi que des transformations spéciales de
Lorentz mélangeant espace et temps et associées à des mouvements relatifs uniformes. Finalement,
nous savons comment dans la limite ~v /c → ~0, ou encore c → ∞, ces diverses transformations se
réduisent à celles qui définissent le groupe de Galilée, les transformations spéciales de Lorentz
correspondant alors aux translations spatiales de vitesse relative constante.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
1.10.3
47
Covariance relativiste des équations de Maxwell
Comme expliqué dans la section 1.1, ce qui a motivé Einstein à postuler le principe fondamental
de la relativité – une vitesse de la lumière dans le vide c indépendante de l’observateur inertiel –
est la prédiction, sur base des équations de Maxwell, d’ondes électromagnétiques dont la vitesse
est indépendante du référentiel inertiel et coı̈ncide avec celle de la lumière dans le vide. Il est donc
intéressant d’établir explicitement que les équations de Maxwell sont effectivement compatibles
avec ce principe d’invariance relativiste, à savoir que ces équations sont invariantes sous le groupe
d’invariance de l’espace-temps de Minkowski, le groupe de Poincaré dont les transformations
sont définies en (1.143). Pour ce faire, nous allons exploiter au maximum les avantages de la
notation covariante relativiste associée aux quadri-vecteurs, et introduite dans les deux sections
précédentes. Dans ce but, la première tâche à compléter est de donner une expression covariante
aux équations de Maxwell.
~ et magnétique B,
~ ainsi que des sources de densités de
En terme des champs électrique E
~
charge ρ et de courant J, dans le Système International d’unités, ces équations prennent la forme
suivante. Nous avons d’une part les deux équations de Maxwell homogènes,
~
~ ·B
~ =0 , ∇
~ ×E
~ + ∂ B = ~0,
∇
∂t
(1.156)
et d’autre part les deux équations de Maxwell inhomogènes,
~
~ ·E
~ = 1ρ , ∇
~ ×B
~ − µ0 ǫ0 ∂ E = µ0 J,
~
∇
ǫ0
∂t
(1.157)
où ǫ0 et µ0 sont, respectivement, les permittivité électrique et perméabilité magnétique du vide,
qui satisfont la condition
ǫ0 µ0 c2 = 1.
(1.158)
En particulier, rappelons que ces dernières relations impliquent également l’équation locale de
continuité ou de conservation du courant électromagnétique, à savoir
∂ρ ~ ~
+ ∇ · J = 0.
∂t
(1.159)
Il est bien connu que les équations de Maxwell homogènes (1.156) peuvent se résoudre en
~ tels que
terme de potentiels scalaire Φ et vecteur A
~
~ =∇
~ × A,
~
~ = −∇Φ
~ − ∂A , B
E
∂t
(1.160)
où cependant ces grandeurs sont définies aux transformations suivantes près,
Φ′ = Φ +
∂χ
~′ = A
~ − ∇χ,
~
, A
∂t
(1.161)
χ(~x, t) étant une fonction arbitraire définie sur l’espace-temps. Cette liberté dans le choix des
potentiels scalaire et vecteur correspond à une symétrie du système qui est locale dans l’espacetemps et qui est extrêmement large puisque la fonction χ(~x, t) peut être choisie de manière
totalement arbitraire. Ce principe de symétrie porte le nom de symétrie de jauge, et joue un rôle
fondamental aujourd’hui en physique, non seulement pour l’électromagnétisme, mais également
pour une description de toutes les interactions fondamentales de la nature28 .
28
Ce point est plus spécifiquement discuté au chapitre 3.
48
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
~ et B
~
En raison des dimensions physiques de ces grandeurs, il est clair que les quantités E/c
~
d’une part, ainsi que Φ/c et A d’autre part, possèdent la même dimension, suggérant d’introduire
le quadri-vecteur suivant,
Φ ~
µ
A =
,A ,
(1.162)
c
appelé potentiel ou encore champ électromagnétique, et qui est donc défini aux transformations
de jauge (1.161) près, soit sous une forme covariante relativiste,
µ
A′ = Aµ +
∂χ
.
∂xµ
(1.163)
Par ailleurs, sur base des équations inhomogènes (1.157) exprimées encore une fois pour les
~ et B
~ de même dimension physique, et utilisant la relation 1/ǫ0 = µ0 c2 , introduisons
grandeurs E/c
le quadri-vecteur de densité de courant électromagnétique
J µ = cρ, J~ =
1
ρ, J~ .
µ 0 ǫ0 c
(1.164)
Finalement, nous utiliserons également la notation suivante
∂µ =
∂
∂
, ∂µ =
,
µ
∂x
∂xµ
(1.165)
pour désigner les dérivées partielles par rapport aux coordonnées spatio-temporelles des points
de l’espace-temps. Les propriétés de covariance relativiste indiquées par les positions de l’indice
µ sur ces opérateurs de différentiation sont discutées et confirmées ci-dessous.
A l’aide de ces diverses grandeurs, il ne reste plus maintenant qu’à exprimer les équations
de Maxwell sous une forme manifestement covariante relativiste. Dans ce but, considérons le
“rotationnel” quadri-dimensionnel du champ électromagnétique Aµ ,
Fµν = ∂µ Aν − ∂ν Aµ ,
(1.166)
appelé tenseur électromagnétique ou encore tenseur de Faraday 29 (Michael Faraday (1791-1867)).
Ce tenseur est donc antisymétrique dans ses deux indices spatio-temporels µ et ν, Fνµ = −Fµν ,
et est également manifestement invariant sous les transformations de jauge (1.163). Un calcul
explicite et immédiat montre alors que nous avons les composantes suivantes,
F0i =
Ei
, Fij = −ǫijk B k ,
c
(1.167)
où, pour la seconde relation, le tenseur ǫijk est le tenseur totalement antisymétrique dans l’espace
euclidien à trois dimensions, avec la valeur ǫ123 = +1 (c’est-à-dire que nous avons F12 = −B 3 ,
F23 = −B 1 et F31 = −B 2 ). Ainsi,
Fµν
29



=


0
1
− Ec
2
− Ec
3
− Ec
E1
c
E2
c
E3
c
B2
0
−B 3
B3
0
−B 1
−B 2 B 1
0






 , F µν = 




0
E1
c
E2
c
E3
c
1
2
3
− Ec − Ec − Ec
0
−B 3 B 2
B3
0
−B 1
−B 2 B 1
0



.


(1.168)
En anglais, ce champ tensoriel est souvent qualifié de “field strength”, pour champ de force électromagnétique,
puisque, comme nous allons le voir, les composantes de ce tenseur sont liées aux champs électrique et magnétique.
49
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
Par ailleurs, considérant le tenseur totalement antisymétrique dans l’espace-temps ǫµνρσ , tel
que ǫ0123 = +1 et donc ǫ0123 = −1, introduisons également le tenseur de Faraday dual totalement
antisymétrique,
1
∗ µν
F = ǫµνρσ Fρσ ,
(1.169)
2
dont les composantes sont donc
∗
F 0i = −B i ,
soit
∗




F µν = 
∗
F ij = ǫijk
Ek
,
c
(1.170)
0 −B 1 −B 2 −B 3
2
E3
B1
0
− Ec 

c
.
1
3
E

0
B 2 − Ec
c
E1
E2
3
− c
0
B
c

(1.171)
Il suit alors par un simple calcul explicite que les équations de Maxwell homogènes (1.156)
sont équivalentes aux équations suivantes
∂ν ∗ F νµ = 0,
(1.172)
tandis que les équations de Maxwell inhomogènes (1.157) sont équivalentes aux expressions,
∂ν F νµ = µ0 J µ =
1 µ
J .
ǫ0 c2
(1.173)
En particulier, en raison de l’antisymétrie du tenseur Fµν , la divergence quadri-dimensionnelle
trivialement nulle de cette dernière relation, ∂µ ∂ν F νµ = 0, conduit immédiatement à l’équation
de continuité du courant électromagnétique sous la forme invariante relativiste,
∂µ J µ = 0,
(1.174)
dont l’expression en terme des composantes de J µ = (cρ, J~ ) coı̈ncide en effet avec celle en (1.159).
Ayant réussi à exprimer les équations de Maxwell sous une forme apparemment covariante relativiste dans l’espace-temps, il nous faut maintenant vérifier que cette propriété de covariance est effectivement obtenue. Pour cela, il suffit de supposer que les champ et courants
électromagnétiques Aµ et J µ se transforment comme des quadri-vecteurs sous le groupe de
Lorentz, soit
µ
µ
A′ = Λµ ν Aν , J ′ = Λµ ν J ν ,
(1.175)
Λµ ν étant la transformation de Lorentz correspondante, et également de vérifier que les dérivées
partielles ∂µ et ∂ µ se transforment bien comme suggéré par la position de l’indice µ dans chaque
cas, à savoir,
∂µ′ =
∂
∂
∂
µ
ν ∂
= Λµ ν ∂ν , ∂ ′ =
= Λµ ν
= Λµ ν ∂ ν ,
µ = Λµ
′
ν
′
∂x
∂x
∂x µ
∂xν
(1.176)
pour toute transformation de Poincaré de la forme (1.143) pour les coordonnées spatio-temporelles. Or, les conditions (1.145) peuvent encore s’écrire,
Λρ µ Λρ ν = δµ ν ,
(1.177)
(Λ−1 )µ ν = (t Λ)µ ν = Λν µ .
(1.178)
montrant donc que nous avons
50
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
Ainsi,
∂
∂
∂xν ∂
=
= (Λ−1 )ν µ ν = Λµ ν ∂ν ,
(1.179)
µ
µ
′
′
ν
∂x
∂x ∂x
∂x
confirmant donc que les opérateurs ∂µ se transforment effectivement comme les composantes
d’un vecteur covariant sous les transformations de Lorentz et de Poincaré. Une analyse semblable
s’applique évidemment aux opérateurs ∂ µ , mais ce résultat est immédiat puisque les indices spatiotemporels sont montés et descendus à l’aide de la métrique de Minkowski gµν et son inverse gµν ,
qui sont des tenseurs constants dans l’espace-temps.
En conclusion, ayant réussi à exprimer les équations de Maxwell sous une forme manifestement covariante relativiste dans l’espace-temps, leur covariance sous les groupes de Lorentz et de
Poincaré est donc immédiate. Notons que s’il avait fallu vérifier cette covariance en terme des
équations écrites sous la forme non covariante (1.156) et (1.157), le travail aurait été particulièrement laborieux, en raison des divers changements de variables liés aux coordonnées spatiotemporelles, ainsi que la nécessité de déterminer les règles de transformations pour les champs
électrique et magnétique sous le groupe de Lorentz. Que ces dernières ne sont pas celles de
quadri-vecteurs est indiqué par le fait que ces champs sont les composantes du tenseur Fµν qui,
bien sûr, ne se transforme pas comme un simple quadri-vecteur mais plutôt sous les relations
suivantes,
′
= Λµ ρ Λν σ Fρσ .
(1.180)
Fµν
∂µ′ =
~ ainsi que les densités de charge et de courant
Par contre, les potentiels scalaire Φ/c et vecteur A,
~ se transforment comme les composantes de chacun des quadri-vecteurs
électromagnétiques cρ et J,
µ
µ
~
A = (Φ/c, A ) et J = (cρ, J~ ), respectivement, comme indiqué en (1.175), c’est-à-dire avec les
mêmes relations de transformation que les composantes x0 et ~x du quadri-vecteur xµ = (x0 , ~x ).
Par conséquent, pour les transformations de Lorentz qui correspondent à de simples rotations dans l’espace, il est clair que les champs électrique et magnétique se transforment tous
deux comme des vecteurs de l’espace, soumis aux mêmes rotations30 . Cependant, c’est pour les
transformations spéciales de Lorentz que les choses se compliquent, conduisant alors à un mélange
entre les champs électrique et magnétique, qui ne sont donc que deux manifestations physiques
duales du champ électromagnétique Aµ en fonction du choix de référentiel inertiel.
A titre d’exemple, considérons encore une fois la transformation spéciale de Lorentz (1.33)
dans le plan (01), avec la matrice Λµ ν correspondante sous la forme donnée en (1.154) avec
η 0 = 1 = η 1 . Un calcul explicite mais immédiat montre alors que nous avons
E2
E1
E′2
E′1
=
,
=γ
− βB 3
c
c
c
c
"
B
′1
=B
1
, B
′2
"
E3
=γ B +β
c
2
#
#
E3
E′3
=γ
+ βB 2 ,
,
c
c
"
, B
′3
"
#
#
E3
.
=γ B −β
c
3
(1.181)
(1.182)
Plus généralement, pour la transformation spéciale de Lorentz associée à un mouvement
relatif uniforme de vitesse v dans la direction n̂ de l’espace, avec n̂2 = 1 (voir (1.34)),
0
h
x′ = γ x0 − βn̂ · ~x
l’on obtient,
i
~′
~
~
E
E
E
= γ − (γ − 1) n̂ ·
c
c
c
30
h
i
, ~x ′ = ~x + n̂ (γ − 1) n̂ · ~x − βγx0 ,
!
~ ,
n̂ + βγ n̂ × B
(1.183)
(1.184)
Les équations de Maxwell (1.156) et (1.157) étant manifestement exprimées sous une forme vectorielle dans
l’espace, leur covariance sous les rotations spatiales est immédiate.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
~
~ ′ = γB
~ − (γ − 1) n̂ · B
~ n̂ − βγ n̂ × E
B
c
!
.
51
(1.185)
Comme exemple d’application, considérons une charge ponctuelle q en mouvement de
vitesse constante ~v = βcn̂. Dans son référentiel au repos, la solution aux équations de Maxwell
est évidemment donnée par le champ électrique coulombien,
~ ′ (~x ′ , t′ ) =
E
q ~x ′
~ ′ (~x ′ , t′ ) = ~0.
, B
4πǫ0 |~x ′ |3
(1.186)
Obtenir le champ électromagnétique de cette charge en mouvement comme solution aux équations
de Maxwell est alors immédiat, sur base de la covariance relativiste de ces équations, alors qu’une
résolution explicite dans le référentiel où la charge est vue en mouvement est beaucoup plus laborieuse. Sur base des expressions générales ci-dessus pour la transformations spéciale de Lorentz
correspondante, on trouve alors31 ,
q
γ ~x − n̂βx0
,
4πǫ0 |~x + n̂ ((γ − 1)n̂ · ~x − βγx0 )|3
(1.187)
q
βγ n̂ × ~x
.
4πǫ0 c |~x + n̂ ((γ − 1)n̂ · ~x − βγx0 )|3
(1.188)
γ x1 − βx0
q
E =
,
4πǫ0 |γ 2 (x1 − βx0 )2 + (x2 )2 + (x3 )2 |3/2
(1.189)
γx2
q
,
4πǫ0 |γ 2 (x1 − βx0 )2 + (x2 )2 + (x3 )2 |3/2
(1.190)
~ x, t) =
E(~
~ x, t) =
B(~
Dans le cas particulier où le mouvement se fait exactement dans le direction x1 positive, à savoir
n̂ = (1, 0, 0), ces résultats se réduisent aux expressions,
1
E2 =
E3 =
γx3
q
,
4πǫ0 |γ 2 (x1 − βx0 )2 + (x2 )2 + (x3 )2 |3/2
B 1 = 0,
B2 =
B3 =
−βγx3
q
,
4πǫ0 c |γ 2 (x1 − βx0 )2 + (x2 )2 + (x3 )2 |3/2
βγx2
q
.
4πǫ0 c |γ 2 (x1 − βx0 )2 + (x2 )2 + (x3 )2 |3/2
(1.191)
(1.192)
(1.193)
(1.194)
Ceci conclue donc la discussion des propriétés de covariance relativiste des équations de
Maxwell, et de quelques-unes de leurs conséquences, avec en particulier une illustration qu’une
propriété de symétrie – en l’occurrence l’invariance des lois de l’électromagnétisme sous le groupe
de Poincaré – permet d’obtenir des solutions générales à ces équations par l’action de la symétrie
sur des solutions particulières.
Cependant, afin de pouvoir conclure à la covariance relativiste de tous les phénomènes
électromagnétiques, il nous faut encore établir cette propriété pour l’équation qui gouverne le
mouvement de points matériels portant une charge électrique q et soumis à des champs électrique
31
Notons que pour le champ magnétique nous avons 1/(4πǫ0 c2 ) = µ0 /(4π).
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
52
~ et B.
~ Cette équation est évidemment celle de la force de Lorentz, qui s’écrit
et magnétique E
sous la forme vectorielle
i
h
d
~ + ~v × B
~ .
(1.195)
p~ = q E
dt
Afin d’obtenir une forme covariante relativiste de cette équation, il nous faut non seulement
~ mais également
utiliser bien sûr la définition relativiste de la quantité de mouvement, p~c = mc2 γ β,
disposer d’une équation pour la composante temporelle du quadri-vecteur énergie-moment de la
particule, pµ = (E, p~c) avec E = mc2 γ. Pour cela, nous savons qu’il suffit de projeter l’équation
de Lorentz sur la vitesse, pour obtenir l’équation qui gouverne l’évolution dynamique de l’énergie
relativiste de la particule en fonction de la puissance développée par la force de Lorentz,
d
~
E = q~v · E.
dt
(1.196)
Lorsque nous avions introduit les notions de quantité de mouvement et énergie relativistes
de telle manière que ces grandeur possèdent leurs propriétés de covariance relativiste, qui sont
celles de tout quadri-vecteur xµ = (ct, ~x), nous avions utilisé le fait que bien que la notion de
temps t ne soit pas invariante, celle de temps propre τ l’est, et permet donc d’exprimer toute
dérivée temporelle en terme d’une dérivée par rapport à τ . En raison de la relation t = γτ , nous
avons
1 d
d
=
,
(1.197)
d(ct)
γ d(cτ )
permettant d’exprimer les équations de Lorentz ci-dessus sous la forme
~
E
d~
pc
~×B
~
= qcγ
+β
d(cτ )
c
"
#
,
~
dE
~ · E.
= qcγ β
d(cτ )
c
(1.198)
Remarquons cependant que cette notion de temps propre, telle qu’introduite ici, ne s’applique
que pour des particules de masse m strictement non nulle. En réalité, la question de savoir s’il
peut exister dans le nature des particules de masse nulle mais portant une charge électrique non
nulle reste encore ouverte, surtout lorsqu’elle est posée dans un contexte également quantique et
non seulement relativiste. Par conséquent, les développements qui suivent dans le reste de cette
section ne s’appliquent qu’au cas d’une particule de masse non nulle, m 6= 0.
Introduisons maintenant le quadri-vecteur
uµ =
d
dxµ
~
=
(ct, ~x) = γ(1, β),
d(cτ )
d(cτ )
(1.199)
qui mesure donc le quadri-vecteur de la vitesse relativiste du point matériel, et qui coı̈ncide ainsi
pµ
avec l’énergie-moment de la particule normalisée à son énergie de masse, uµ = mc
2 , dans le cas
d’une particule de masse non nulle. Il est alors immédiat de vérifier que nous avons
γ
~
E
~×B
~
+β
c
!i
~·
= F i ν uν , γ β
~
E
= F 0 ν uν .
c
(1.200)
Ainsi, les équations de Lorentz ci-dessus peuvent s’exprimer sous une forme manifestement covariante en terme des quadri-vecteurs énergie-moment ou vitesse relativistes, pµ ou uµ ,
respectivement, comme suit,
duµ
qc
dpµ
= qc F µ ν uν ,
=
F µ ν uν ,
d(cτ )
d(cτ )
mc2
(1.201)
établissant donc également d’emblée leur covariance relativiste sous le groupe de Poincaré de
l’espace-temps de Minkowski.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
1.11
53
Conclusion
En conclusion, dans ce chapitre, nous avons donc discuté de quelle manière il est possible de
modifier la mécanique non relativiste de Newton en une mécanique dans laquelle le fait physique
incontournable que la vitesse de la lumière dans le vide est indépendante du référentiel inertiel, est
inscrit de façon fondamentale dans la géométrie de l’espace-temps avec sa métrique de Minkowski
pseudo-euclidienne. Les lois du mouvement, à savoir l’équation du mouvement
d~
p
= F~
dt
(1.202)
ainsi que la conservation de la quantité de mouvement totale d’un système libre, ont été modifiées en conséquence, tout simplement en introduisant les notions relativistes de quantité de
mouvement et d’énergie, qui se réduisent aux notions de la mécanique de Newton dans la limite de vitesses faibles devant celle c de la lumière dans le vide, mais qui impliquent d’une
part, un contenu énergétique à la masse inertielle avec l’énergie de masse E = mc2 , et d’autre
part une limite supérieure égale à c à la transmission dans l’espace-temps de manière causale de
toute information et de toute énergie, une transmission à la vitesse de la lumière ne pouvant se
faire qu’en utilisant des particules de masse nulle. L’ensemble de ces concepts géométriques et
dynamiques définit dont la mécanique de la relativité restreinte telle que formulée par Einstein,
qui transcende donc la mécanique de Newton dans le régime relativiste de vitesses comparables à
celle de la lumière dans le vide, mais qui sinon reproduit les résultats de la mécanique de Newton
dans la limite c → ∞ ou encore v/c → 0. Par conséquent, il existe un parallélisme fort étroit entre
les fondements conceptuels de ces deux mécaniques, et nous avons tâché de démontrer que la seule
différence réellement essentielle et qui est à l’origine des différences physiques si profondes entre
ces deux mécaniques, est le fait que le postulat d’un temps et d’un espace absolus chez Newton
est remplacé chez Einstein par le postulat de la constance de la vitesse de la lumière dans le vide
pour tout observateur inertiel. Afin de rendre ce dernier postulat cohérent avec les structures
linéaires – c’est-à-dire celles d’espaces affines – de l’espace et du temps physiques, nous avons vu
que nécessairement il faut introduire alors la notion d’un espace-temps absolu, tandis que celles
d’espace et de temps deviennent relatives à l’observateur inertiel, avec toutes les conséquences
cinématiques et dynamiques que nous avons discutées.
En quelque sorte, il ne “reste” plus maintenant qu’à spécifier la nature des forces appliquées
au système, pour étudier et résoudre leur dynamique relativiste. Nous avons vu que les équations
de l’électromagnétisme, à savoir les équations de Maxwell et l’équation de Lorentz, fournissent
un tel exemple d’une interaction fondamentale pour laquelle nous disposons d’une description
covariante relativiste, et donc cohérente avec les propriétés relativistes de l’espace-temps. La
même question se pose donc pour les autres interactions fondamentales dans la nature, dont
les diverses forces observées autour de nous dans le monde macroscopique ne sont que diverses
manifestations effectives. Comme discuté au chapitre 3, il existe encore trois autres interactions
fondamentales, outre l’interaction électromagnétique, à savoir les interactions fortes et faibles, et
évidemment l’interaction gravitationnelle.
Cependant, dans un contexte relativiste avec transmission à vitesse finie de toute information, énergie et donc interaction, la notion de force caractéristique de la mécanique non relativiste
de Newton doit faire place à la notion de champ, comme le cas de l’électromagnétisme l’illustre
déjà. En effet, si l’agent d’une interaction occupe une position dans l’espace qui varie en fonction
du temps, les interactions dont cet agent est responsable et qui agissent sur d’autres éléments
physiques placés ailleurs dans l’espace ne peuvent voir leur action changer en fonction du temps
qu’en se propageant dans l’espace au cours du temps à une vitesse finie limitée par la vitesse c de
la lumière dans le vide. Le véhicule pour de telles interactions cohérentes avec les principes de la
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
54
relativité restreinte ne peut donc qu’être un champ relativiste, comme c’est le cas par exemple du
champ électromagnétique Aµ qui constitute ainsi le véhicule de cette interaction fondamentale
entre points matériels portant une charge électrique. Ainsi chacune des interactions fondamentales doit être caractérisée en terme de champs relativistes définis sur l’espace-temps, dont les
équations dynamiques invariantes relativistes déterminent leur dynamique de propagation dans
l’espace-temps et la variation spatio-temporelle de leur action sur les éléments physiques soumis
à leurs interactions. Comme nous le verrons au chapitre 2, dès que de tels champs sont quantifiés, de manière à rendre leur dynamique relativiste cohérente également avec les principes de la
mécanique quantique, il leur est alors associé des particules relativistes, les quantas de ces champs,
dont la masse est évidemment liée à la vitesse de propagation de ces champs dans l’espace-temps.
Ainsi par exemple, le photon est le quantum associé au champ électromagnétique Aµ (xµ ), et le
fait que ce champ se propage à la vitesse de la lumière implique que la masse du photon est nulle.
Ceci est également le cas pour les champs associés aux interactions fortes et gravitationnelles.
tandis que ceux associés aux interactions faibles sont massifs et se propagent donc à une vitesse
inférieure à celle c de la lumière dans le vide.
Dans le cas des interactions fortes et faibles, un tel formalisme covariant relativiste s’inspire
en fait considérablement des propriétés du formalisme discuté plus haut dans le cas de l’électromagnétisme, et se base directement sur la généralisation du principe de symétrie de jauge observé
pour l’électromagnétisme. La complication additionnelle pour ces interactions cependant, est
qu’elles n’agissent qu’à des échelles de distance propres aux noyaux, soit de l’ordre de 10−15 m
et en-deçà, c’est-à-dire dans le domaine de l’infiniment petit, domaine dans lequel les notions de
mécanique quantique doivent alors s’appliquer, plutôt que celles des mécaniques dites “classiques”
– en opposition à “quantique” – de Newton et Einstein. Ce problème conduit à la formulation des
théories quantiques et relativistes de champs, dont nous dirons quelques mots dans le chapitre 2,
et qui fournissent un cadre naturel pour la description des interactions fondamentales entre particules élémentaires, y compris donc les interactions électromagnétiques, dont nous avons donné
ici la description classique – non quantifiée – et relativiste en terme du champ électromagnétique
Aµ (xµ ).
Cependant, il apparaı̂t que l’interaction gravitationnelle joue une rôle tout à fait distingué
des trois autres interactions. Newton, avec la Loi Universelle de la Gravitation, avait fourni, dans
le cadre de sa mécanique non relativiste, un formalisme parfaitement adéquat pour la description
de cette interaction, mais qui est en conflit avec le principe fondamental de la relativité restreinte
de la constance de la vitesse de la lumière dans le vide. Ainsi, dès qu’Einstein avait complété sa
mécanique relativiste en 1905, il s’est attaché à l’élargir de telle manière à y inclure non seulement
l’interaction électromagnétique – ce qui était immédiat, comme nous l’avons vu – mais également
l’interaction gravitationnelle – les deux seules interactions fondamentales connues à l’époque
d’Einstein. Ce n’est qu’en 1915 qu’il a finalement abouti, avec la théorie de la relativité générale,
c’est-à-dire une théorie invariante relativiste de la gravitation. Cette théorie est directement basée
sur le principe d’équivalence entre masse inertielle et masse gravitationnelle, ou encore dans un
contexte relativiste, l’équivalence entre énergie et gravitation, et conduit à une dernière révolution
conceptuelle de nature géométrique: l’espace-temps n’est plus absolu mais possède une géométrie
– et sans doute une topologie – dynamique dont l’évolution temporelle est déterminée par la
distribution de masse et d’énergie dans l’espace-temps. En d’autres mots, l’espace-temps possède
une géométrie dynamique caractérisée par une métrique gµν (xµ ) fonction de l’espace-temps – il
s’agit du champ relativiste associé à l’interaction gravitationnelle – dont la courbure est causée par
la distribution de matière et d’énergie dans l’espace-temps, conduisant aux effets qui caractérisent
l’interaction gravitationnelle avec toutes les conséquences et questions fascinantes que cela suscite
aussi bien pour la cosmologie que pour l’existence de structures géométriques uniques – telles les
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
55
trous noirs – qui pourraient exister dans l’univers. Avec la théorie de la relativité générale,
Einstein a ouvert une réelle boı̂te de Pandore dont les surprises ne commencent que maintenant,
en ce début du XXIème siècle, a être explorées de manière systématique et avec une méthode
scientifique de plus en plus rigoureuse en raison des développements technologiques.
Evidemment, toutes ces avancées conceptuelles laissent la question importante suivante encore ouverte. Dans un régime non seulement relativiste mais également quantique, les théories
quantiques des champs relativistes fournissent un cadre adéquat, et il faudrait donc également
“marier” maintenant la gravitation dans un formalisme relativiste avec la mécanique quantique,
c’est-à-dire développer une théorie quantique du champ métrique gµν (xµ ) de la gravitation. C’est
ici que se pose l’un des plus grands problèmes restant ouverts en physique fondamentale en ce
début de XXIème siècle: aucun formalisme cohérent pour la gravitation quantique n’est encore
établi de manière irréfutable à ce jour, et il semble bien que pour y aboutir il faille considérer
des théories au-delà des théories quantiques des champs relativistes décrivant des particules
ponctuelles, pour y inclure des objets topologiques étendus tels des cordes et autres membranes
(“superstrings and M -theory”, en anglais). En effet, les théories des supercordes et de différentes
formes de supermembranes – le mot “super” faisant référence à un type de symétries extrêmement
riches entre particules de spin entier et demi-entier – fournissent actuellement le seul cadre conceptuel connu permettant un mariage cohérent de la mécanique quantique, de la relativité et de
la gravitation, et ce y compris les trois autres interactions fondamentales.
Cependant, dans la suite de ce cours, nous ne discuterons pas, évidemment, de tels développements. Nous nous attacherons plutôt à introduire aux concepts de base de la physique des
particules élémentaires et de leurs interactions fortes, faibles et électromagnétiques – ignorant donc
leurs interactions gravitationnelles – dans le contexte d’une mécanique quantique et relativiste, et
à décrire de façon sommaire quelques-unes de leurs propriétés. Ensuite, nous pourrions appliquer
de telles considérations au monde du noyau de l’atome, c’est-à-dire de la physique nucléaire,
en indiquant comment il est possible d’élaborer une description quantique et non nécessairement
relativiste des interactions nucléaires au sein des noyaux en terme d’un formalisme effectif, propre
à ce domaine d’échelles de distance, de temps et d’énergie, qui trouve sa justification aujourd’hui,
à l’aube du XXIème siècle, dans la physique fondamentale des particules élémentaires.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
56
Figure 1.9: Collision élastique de deux points matériels libres de même masse, dans le référentiel
inertiel de leur centre de masse.
1.12
Appendice 1: Conservation de la quantité de mouvement
relativiste
Cet Appendice considère l’analyse proposée dans la section 1.9.1 de ce chapitre, concernant la
définition de la quantité de mouvement relativiste d’un point matériel.
Considérons ainsi deux points matériels libres de même masse m1 = m = m2 , libres de
toutes forces, se déplaçant dans un plan, et subissant une collision élastique l’un avec l’autre.
Pour autant que leur quantité de mouvement soit parallèle à leur vitesse, avec un facteur de
proportionalité fonction de leur masse et éventuellement de la norme de leur vitesse, il est clair
que dans le référentiel inertiel de leur centre de masse, les vitesses de ces deux points matériels
sont égales en norme mais opposées en direction. En effet, par définition du référentiel inertiel
du centre de masse de ce système, la quantité de mouvement totale des deux points matériels est
identiquement nulle. Les deux quantités de mouvement étant nécessairement égales en normes
(pour raison de symétrie du problème), elles sont donc également opposées en direction.
Ainsi dans le référentiel du centre de masse des deux points matériels, nous avons la situation
représentée dans la Fig. 1.9. De plus, il devrait être clair qu’il est alors également toujours possible
de choisir deux axes de coordonnées cartésiennes x et y dans le plan du mouvement, qui soient
à la fois perpendiculaires entre eux et qui constituent les bissectrices des différents angles définis
par les trajectoires rectilignes du processus de collision élastique. L’orientation de ces deux axes
de coordonnées est choisie de telle manière que les deux composantes vx et vy de la vitesse du
point matériel de masse m1 = m soient toutes deux positives avant la collision. Celles du point
matériel de masse m2 sont donc toutes deux négatives avant la collision, et données par (−vx ) et
(−vy ).
En conclusion, avant la collision, les composantes des vitesses des deux points matériels,
dans le référentiel inertiel de leur centre de masse, sont données par, respectivement,
m1 :
(vx , vy )
,
m2 :
(−vx , −vy )
.
(1.203)
Cependant, après la collision, ces composantes deviennent (voir la Fig. 1.9),
m1 :
(vx , −vy )
,
m2 :
(−vx , vy )
.
(1.204)
Avant d’envisager le calcul de la quantité de mouvement totale du système sur base de
l’une ou de l’autre définition possible de la quantité de mouvement relativiste d’un point matériel,
considérons la description de cette même collision élastique telle que vue d’un référentiel inertiel
57
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
autre que celui du centre de masse. Sur base du théorème d’addition relativiste des vitesses donné
en (1.71), ainsi que des composantes déterminées ci-dessus dans le référentiel inertiel du centre
de masse, il est immédiat de déterminer les composantes des vitesses des deux points matériels
dans tout autre référentiel inertiel.
De manière à être spécifique cependant, considérons le référentiel inertiel qui, par rapport
à celui du centre de masse, est en mouvement relatif de vitesse constante vx > 0 dans la direction
des coordonnées x positives. Un simple calcul montre alors qu’avant la collision, les vitesses des
deux points matériels possèdent les composantes suivantes dans ce second référentiel inertiel,
m1 :

0 , q
vy
1−
vx2
c2


,

m2 :

−2vx
vx2
c2
1+
,
−vy
1+
vx2
c2
s
1−

vx2 
c2
,
(1.205)
tandis qu’après la collision élastique, et toujours dans ce second référentiel inertiel, nous obtenons,
m1 :

0 , q
−vy
1−
vx2
c2


,

−2vx
vy

,
2
vx2
1 + c2
1 + vcx2
m2 :

s
v2
1 − x2 
c
.
(1.206)
Ces résultats étant établis, nous sommes en mesure maintenant d’étudier les propriétés de
conservation de l’une ou de l’autre définition éventuelle de la quantité de mouvement relativiste.
Considérons tout d’abord le cas de la définition valable en mécanique non relativiste de Newton,
à savoir,
p~ = m~v ,
(1.207)
conduisant ainsi à la définition suivante pour la quantité de mouvement totale du système, soit
avant, soit après la collision,
P~ = m1~v1 + m2~v2 ,
(1.208)
~v1 et ~v2 désignant évidemment les vitesses des points matériels correspondants. Sur base des
décompositions établies ci-dessus (ainsi que de la définition du référentiel du centre de masse),
il est clair que dans le référentiel du centre de masse, cette quantité de mouvement totale P~ est
identiquement nulle aussi bien avant qu’après la collision,
P~ = ~0 .
(1.209)
La définition envisagée semble donc bien être cohérente du point de vue de la conservation de la
quantité de mouvement totale du système, tout au moins dans le référentiel du centre de masse!
Cependant, considérons maintenant l’évaluation de la quantité de mouvement totale du
système ainsi définie mais cette fois dans le second référentiel inertiel, pour lequel les vitesses
des deux points matériels possèdent les composantes spécifiées plus haut. Un calcul explicite
montre alors qu’avant la collision, les composantes de la quantité de mouvement totale P~ définie
en (1.208) sont données par,
P~ :

−2mvx

1+
vx2
c2
, mvy

s

v2
1 
1
1 − x2 
2 −
2
v
x
c 1− 2
1 + vcx2
c
,
(1.210)
tandis qu’après la collision, ces mêmes composantes deviennent,
P~ :

−2mvx

1+
vx2
c2
, −mvy
s


1 
v2
1
1 − x2 
2 −
2
v
c 1 − x2
1 + vcx2
c
.
(1.211)
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
58
Ces composantes n’étant pas toutes identiques aux précédentes, nécessairement il est exclu que la
quantité de mouvement totale définie en (1.208) sur base de la notion non relativiste de quantité
de mouvement en (1.207) satisfasse une loi de conservation en accord avec le Principe de Relativité
et la constance de la vitesse de la lumière dans le vide, c’est-à-dire de manière indépendante du
choix de référentiel inertiel pour la mécanique de la relativité restreinte. En d’autres mots, la
notion de quantité de mouvement introduite en mécanique de Newton n’est pas appropriée aux
transformations de la relativité restreinte entre référentiels inertiels. Il est indispensable de fournir
une définition nouvelle pour la quantité de mouvement relativiste, qui soit en accord avec la loi
de conservation de cette grandeur physique.
Pour cela, considérons maintenant la notion relativiste introduite dans la section 1.9.1, à
savoir dans le cas d’un point matériel de masse m et de vitesse ~v ,
m~v
p~ = γm~v = q
2
1 − ~vc2
.
(1.212)
Dans ce cas, la quantité de mouvement totale du système considéré ici est donnée par,
P~ = m1 γ1~v1 + m2 γ2~v2
,
(1.213)
aussi bien avant qu’après la collision, et ceci indépendamment du choix de référentiel inertiel.
Vérifions donc si cette définition-ci satisfait à la loi de conservation de la quantité de mouvement
totale du système, quel que soit le choix de référentiel inertiel.
Tout d’abord, dans le référentiel inertiel du centre de masse, il devrait être évident que la
quantité de mouvement totale maintient une valeur identiquement nulle aussi bien avant qu’après
la collision. En effet, ce fait étant valable pour la définition précédente, il le reste pour la nouvelle
définition, car ces deux définitions ne diffèrent que par le facteur de dilation relativiste γ, qui est
identique pour les deux points matériels dans ce référentiel, pour raison de symétrie. Par ailleurs,
cette conclusion reste incontournable, puisque par définition, le référentiel du centre de masse
est précisément celui dans lequel la quantité de mouvement totale du système est identiquement
nulle.
Considérons maintenant la situation dans le second référentiel utilisé déjà plus haut. Dans
ce cas, un calcul explicite des composantes de la quantité de mouvement totale définie en (1.213)
montre qu’avant la collision, aussi bien qu’après la collision, ces quantités prennent exactement
les mêmes valeurs, à savoir,
P~ :


r
 1−
−2mvx
vx2
c2
1−



, 0
v2 +v2
x
c2
y
.
(1.214)
En d’autres mots, c’est la définition (1.212) qui constitue le choix correct pour une quantité de
mouvement relativiste satisfaisant la loi de conservation de la quantité de mouvement en relativité
restreinte.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
1.13
59
Appendice 2: Complément mathématique
Dans cet Appendice, nous discutons de manière générale la notion d’espace vectoriel dual associé
à une espace vectoriel donné sur les nombres réels, dans le cas d’espaces vectoriels de dimension
finie n ≥ 1. Le but de ce complément mathématique est d’expliciter les notions de vecteurs
contravariants et covariants, et les propriétés de covariance sous les transformations linéaires
dans ces espaces vectoriels qui distinguent ces deux classes de vecteurs. Ce rappel est en rapport
direct avec la discussion de covariance relativiste de la section 1.10.
Considérons ainsi un espace vectoriel Vn de dimensions finie n ≥ 1, muni d’une base de
vecteurs {~ei ; i = 1, 2, · · · , n}, donc telle que tout vecteur ~x appartenant à cet espace possède une
décomposition vectorielle unique dans cette base en terme de composantes réelles dénotées xi
(i = 1, 2, · · · , n) et donnée par,
~x = ~ei xi ,
(1.215)
la convention habituelle de sommation sur les indices répétés étant utilisée ici ainsi que partout
ailleurs dans ces notes. Soulignons également la position particulière des indices pour ces diverses
grandeurs, dont le rôle, et donc l’importance apparaissent dans la suite et sont directement liés
aux propriétés de covariance des vecteurs sous les transformations linéaires dans l’espace vectoriel
Vn .
Considérons alors une transformation linéaire arbitraire mais régulière, agissant sur Vn , qui
à tout vecteur ~x associe un autre vecteur ~x ′ tel que
~x 7−→ ~x ′ = A(~x ),
(1.216)
où A désigne cet opérateur linéaire. En particulier, étant régulière son action sur les vecteurs
de base ~ei définit de nouveaux vecteurs de base ~e ′i , ~e ′i = A(~ei ). La décomposition réciproque
de l’une de ces bases dans l’autre base détermine une représentation matricielle de l’opérateur A
associée à ce choix de base. Pour cette représentation matricielle de l’action de la transformation
linéaire régulière sur les vecteurs de base, nous choisissons de l’écrire sous la forme
~e ′i = ~ej (A−1 )j i ,
~ei = ~e ′j Aj i .
(1.217)
Les coefficients réels Ai j définissent une matrice n × n inversible représentant l’opérateur A dans
la base {~ei },
A : (Ai j ).
(1.218)
L’inverse de cette matrice de déterminant non nul est dénoté A−1 , et possède des éléments de
matrice tels que
(A−1 )i k Ak j = δi j = Ai k (A−1 )k j .
(1.219)
Cette matrice inverse représente bien sûr l’opérateur linéaire inverse A−1 ,
~ei = A−1 (~e ′i ) = ~e ′j Aj i .
(1.220)
Considérant alors un vecteur quelconque ~x et sa décomposition dans chacune de ces deux
bases, les formules de transformation de ses composantes sous une telle action de changement de
vecteurs de base s’obtiennent en considérant les relations suivantes,
i
~x = ~ei xi = ~e ′j Aj i xi = ~e ′i x′ ,
(1.221)
démontrant donc que sous une telle transformation linéaire nous avons
i
x′ = Ai j xj ,
j
xi = (A−1 )i j x′ .
(1.222)
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
60
Remarquons déjà ici que les relations de transformation pour ces composantes sont en
quelque sorte “opposées” à celles pour les vecteurs de base en (1.217), montrant donc les propriétés
de covariance différentes de ces diverses grandeurs sous les transformations linéaires dans Vn ,
avec en particulier la position des indices supérieurs et inférieurs permettant de s’assurer de la
cohérence de ces relations, pour autant que l’on veille constamment à les placer correctement. Un
indice supérieur se transforme donc avec la matrice A à gauche, tandis qu’un indice inférieur avec
la matrice A−1 à droite, étant entendu qu’il y a sommation – produit matriciel – sur les indices
supérieurs ou inférieurs qui sont répétés et donc ainsi contractés.
Considérons maintenant l’espace vectoriel dual Vn∗ associé à l’espace vectoriel Vn , c’est-àdire, par définition, l’espace vectoriel des formes linéaires définies sur Vn . Pour rappel, une forme
linéaire sur Vn est une fonction x∗ de Vn dans les réels, qui à tout vecteur ~x dans Vn associe un
nombre réel x∗ (~x ), et qui de plus satisfait des propriétés de linéarité dans l’argument vectoriel ~x,
c’est-à-dire que l’image de toute combinaison linéaire est la combinaison linéaire des images,
x∗ (λα~x α ) = λα x∗ (~x α ),
(1.223)
pour toute suite de vecteurs ~x α et de nombres réels λα .
Il est clair – ou immédiat de démontrer – que cet ensemble de formes linéaires peut être
muni d’opérations d’addition et de multiplication par les nombres réels telles que cet ensemble
possède la structure d’un espace vectoriel sur les réels, dénoté Vn∗ et appelé l’espace vectoriel dual
à Vn . De plus, si Vn est dimension finie n ≥ 1, alors nécessairement son dual Vn∗ est également
de la même dimension finie n. En réalité, étant donné la base {~ei } dans Vn , il lui est associé une
base canonique dans Vn∗ , appelée la base duale, que nous dénoterons ei∗ (i = 1, 2, · · · , n). Cette
base duale est donc un ensemble de formes linéaire sur Vn , qui sont choisies de telle manière que
leurs valeurs pour les vecteurs de base {~ei } sont données par
ei∗ (~ej ) = δi j ,
(1.224)
δi j étant bien sûr le symbole de Kronecker habituel.
Pour ce choix de base duale, nous avons donc en particulier,
ei∗ (~x ) = ei∗ (~ej ) xj = xi .
(1.225)
En d’autres mots, la base duale est l’ensemble des formes linéaires qui pour chaque vecteur ~x dans
Vn lui font correspondre ses composantes xi dans la base ~ei . En raison de cette interprétation,
il est clair que ces formes ei∗ sont effectivement des formes linéaires et forment bien une base de
l’espace vectoriel dual Vn∗ .
Finalement, considérons une forme linéaire x∗ quelconque dans Vn∗ . Dans la base duale, elle
possède donc une décomposition de la forme
x∗ = xi ei∗ ,
(1.226)
où les xi (i = 1, 2, · · · , n) sont des nombres réels. Ainsi, étant donné la base {~ei } dans Vn , on peut
associer à tout vecteur ~x ses composantes xi , tandis qu’à tout vecteur x∗ dans l’espace vectoriel
dual Vn∗ on peut faire correspondre ses composantes xi dans la base {ei∗ } duale à {~ei }. Afin de
distinguer ces deux types de vecteurs appartenant à ces deux espaces vectoriels duaux l’un à
l’autre, on désigne les vecteurs ~x dans Vn comme étant des vecteurs contravariants, tandis que
ceux appartenant au dual Vn∗ sont des vecteurs covariants. Par extension, la même terminologie
est utilisée pour les composantes de ces vecteurs dans les bases respectives, soit (xi ) définit (les
composantes d’)un vecteur contravariant, tandis que (xi ) définit (celles d’)un vecteur covariant.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
61
La position des indices pour les grandeurs introduites pour l’espace dual Vn∗ a son importance également, qui se justifie en considérant leurs propriétés sous les transformations linéaires
dans Vn , de la même manière que discuté déjà plus haut pour les grandeurs introduites dans Vn .
Ainsi, considérons une transformation linéaire régulière A dans Vn , qui transforme donc la base
{~ei } dans une autre base {~e ′i },
~e ′i = A(~ei ) = ~ej (A−1 )j i .
(1.227)
Désignons alors par e′ i∗ les vecteurs de la base dans Vn∗ qui est duale à la base transformée ~e ′i
dans Vn . Par définition, nous avons donc
i
e′ ∗ (~e ′j ) = δi j .
(1.228)
De plus, ces mêmes formes peuvent être décomposées dans la base ei∗ , soit
i
e′ ∗ = U i j ej∗ .
(1.229)
Les composantes U i j peuvent être déterminées simplement en utilisant cette dernière relation
dans (1.228) et en y substituant l’expression des ~e ′i en terme des ~ei . Il suit alors
U i k (A−1 )k j = δi j ,
(1.230)
montrant que les coefficients U i j sont déterminés par les éléments de la matrice A, U i j = Ai j .
Ainsi, nous pouvons écrire
i
j
e′ ∗ = Ai j ej∗ ,
ei∗ = (A−1 )i j e′ ∗ .
(1.231)
Les relations de transformation des vecteurs de base dans Vn∗ étant ainsi connues, il ne reste
plus qu’à établir celles pour les composantes de tout vecteur x∗ dans l’espace dual décomposé par
rapport à chacune des deux bases duales, ei∗ et e′ i∗ ,
i
x∗ = xi ei∗ = x′i e′ ∗ .
(1.232)
Par simple substitution des relations en (1.231), il suit
x′i = xj (A−1 )j i ,
xi = x′j Aj i .
(1.233)
Remarquons qu’en (1.231) et (1.233), nous reconnaissons les mêmes types de transformations qu’en (1.217) et (1.222) en terme des positions des indices et de l’action des matrices A
et A−1 . Encore une fois, un indice supérieur se transforme avec la matrice A contractée de la
gauche, tandis qu’un indice inférieur se transforme avec la matrice A−1 contractée de la droite,
de manière telle que les indices contractés soient adjacents. En raison de la nature des vecteurs
associés aux composantes xi et xi , on peut dire ainsi que les indices supérieurs se transforment de
manière contravariante, et ceux inférieurs de manière covariante, et que sous les transformations
linéaires ces indices sont contractés avec ceux de la matrice A ou A−1 de manière telle que les
propriétés de covariance soient maintenues pour chacun d’entre eux.
Par extension, on peut considérer les combinaisons linéaires des produits de vecteurs covariants et contravariants, dont les composantes définissent celles de tenseurs portant des indices des
deux natures. Sous transformations linéaires, ces composantes tensorielles se combinent avec les
matrices A et A−1 de manière telle que les propriétés de covariance de chacun des indices soient
préservées, rendant manifestes les propriétés covariantes du tenseur. Ainsi, pour un tenseur
T i1 i2 ···ir ji j2 ···js , nous avons
T
′ i1 i2 ···ir
j1 j2 ···js
= Ai1 k1 Ai2 k2 · · · Air kr T k1 k2 ···kr l1 l2 ···ls (A−1 )l1 j1 (A−1 )l2 j2 · · · (A−1 )ls js .
(1.234)
62
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
Il est donc clair qu’en prenant soin de positionner correctement les indices covariants et contravariants dans toute relation tensorielle, les propriétés de covariance de cette relation sont manifestes,
d’où l’utilité de cette notation et de la notion de vecteurs contravariants et covariants.
Les espaces Vn et Vn∗ étant des espace vectoriels de même dimension n, il serait a priori
possible de mettre en correspondance univoque les vecteurs covariants et contravariants, par
exemple en associant les vecteurs de base qui sont duaux l’un à l’autre, à savoir associer le
vecteur ei∗ dans Vn∗ au vecteur ~ei dans Vn , et par extension associer au vecteur ~x = ~ei xi dans
Vn le vecteur x∗ = xi ei∗ dans Vn∗ . Cependant, un tel isomorphisme n’est pas nécessairement
compatible avec les transformations linéaires dans Vn , puisque nous avons vu que les propriétés
covariantes de ces deux bases sont différentes, un fait qui est rendu explicite par l’expression
x∗ = xi ei∗ dans laquelle la paire d’indices contravariants est sommée, pouvant donc ne pas
nécessairement conduire à une grandeur vectorielle sous les transformations linéaires. Il n’existe
donc pas d’isomorphisme naturel entre Vn et Vn∗ qui soit cohérent avec les propriétés de covariance
opposées de ces deux espaces vectoriels. Clairement, la raison en est qu’il n’existe pas de structure
naturelle qui permettrait d’amener l’indice supérieur dans xi en une position inférieure, de manière
telle que sa combinaison linéaire avec les vecteurs ei∗ de la base duale puisse conduire à une
grandeur covariante et vectorielle dans Vn∗ .
Cependant, une telle structure naturelle permettant de déplacer les indices vers le haut ou
vers le bas de manière cohérente avec les propriétés de covariance existe dans le cas d’un espace
vectoriel Vn métrique, c’est-à-dire muni d’un produit interne – dénoté ~x · ~y – introduit dans Vn , à
savoir une forme bilinéaire symétrique dans Vn ×Vn associant à toute paire de vecteurs dans Vn un
nombre réel32 . Associé à un tel produit interne, considérons le tenseur métrique gij caractérisant
donc la géométrie de Vn maintenant, et dont les composantes dans la base {~ei } sont définies par
gij = ~ei · ~ej .
(1.235)
La notation même indique les propriétés de covariance dans les deux indices de cet objet, celui-ci
se transformant comme un tenseur covariant symétrique dans ses deux indices. Par extension
linéaire, cette structure métrique détermine la géométrie sur Vn par
~x · ~y = gij xi y j ,
(1.236)
xi et y i étant les composantes des deux vecteurs ~x et ~y , respectivement, dans la base {~ei }.
Dans le cas d’un produit interne non dégénéré – aucune valeur propre nulle pour la forme
quadratique symétrique associée –, le tenseur métrique gij définit une matrice inversible dont
l’inverse possède les éléments de matrice gij tels que
gik gkj = δi j = gjk gki .
(1.237)
Ainsi, nous voyons que la structure métrique gij et son inverse gij permettent de monter ou
descendre les indices covariants et contravariants tout en maintenant leurs propriétés de covariance. Ce dernier point peut être établi en considérant l’isomorphisme canonique rendu possible
de manière naturelle par l’existence de la structure métrique.
Ainsi, étant donné un vecteur arbitraire ~x dans Vn , associons-lui de manière unique une
forme linéaire dénotée x∗ et définie par
x∗ (~y ) = ~x · ~y = gij xi y j .
(1.238)
32
Le cas d’un produit scalaire, et donc d’un espace vectoriel euclidien, correspond à un produit interne qui soit
de plus défini positif.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
63
Or, cette forme x∗ possède une décomposition de la forme
x∗ = xi ei∗ ,
(1.239)
x∗ (~y ) = xi ei∗ (~y ) = xi y i .
(1.240)
et par conséquent nous avons également
Par comparaison de ces deux évaluations de x∗ (~y ), il suit immédiatement que nous devons avoir
xi = gij xj ,
(1.241)
c’est-à-dire que le tenseur métrique permet d’associer de manière univoque à tout vecteur contravariant ~x dans Vn un vecteur covariant x∗ dans Vn∗ , une correspondance qui, par construction,
est cohérente avec les propriétés de covariance de ces vecteurs sous transformations linéaires.
Cette correspondance se traduit en terme des composantes de ces vecteurs dans les bases duales
par la relation (1.241).
Inversement, considérons maintenant un élément quelconque x∗ dans Vn∗ ,
x∗ = xi ei∗ .
(1.242)
Il est alors immédiat de lui faire correspondre de manière univoque un vecteur ~x = ~ei xi dans Vn
tel que
xi = gij xj ,
(1.243)
complétant ainsi l’isomorphisme canonique entre un espace vectoriel métrique Vn et son dual Vn∗ .
Il y a donc correspondance univoque entre les vecteurs contravariants et ceux covariants, leurs
composantes étant reliées par les relations en (1.241) et (1.243) permettant de monter et descendre
les indices covariants et contravariants de manière cohérente avec les propriétés de covariance de
ces grandeurs sous les transformations linéaires.
Remarquons en outre que l’association (1.243) permet d’étendre le produit interne dans Vn
à un produit interne dans l’espace dual Vn∗ , soit pour x∗ = xi ei∗ et y∗ = yi ei∗ ,
x∗ · y∗ = gij xi yj = xi y i = xi yi = gij xi y j = ~x · ~y.
(1.244)
Ce résultat montre également que lorsqu’un indice contravariant est contracté avec un indice
covariant, cela équivaut à l’évaluation du produit interne dans l’espace vectoriel Vn ou son dual
Vn∗ .
Finalement, considérons la question des transformations linéaires O non dégénérées laissant
le produit interne invariant, que celui-ci soit donc évalué dans Vn ou dans Vn∗ . En considérant les
propriétés de transformation établies plus haut pour les différentes grandeurs introduites dans Vn
et Vn∗ – vecteurs, bases, composantes, tenseur métrique et son inverse et expressions du produit
interne –, il est clair que la condition d’invariance du produit interne s’exprime par les deux
conditions
gkℓ Ok i Oℓ j = gij ,
Oi k Oj ℓ gkℓ = gij ,
(1.245)
où Oi j correspond à la représentation matricielle de l’opérateur O dans le base {~ei }, O(~ei ) =
~ej (O−1 )j i . Ces deux conditions sont encore équivalentes à
gℓk Ok m gmi Oℓ j = δi j ,
Oi k gjm Om ℓ gℓk = δi j .
(1.246)
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
64
Introduisant alors l’opérateur transposé t O dont la représentation matricielle t O est donnée par
les éléments de matrice33
t
O : (t O)i j = gjk Ok l gli ,
(1.247)
ces mêmes relations exprimant l’invariance du produit interne s’écrivent,
t
O O = 11
,
O (t O) = 11.
(1.248)
En d’autres termes, les transformations linéaires O laissant invariantes les structures géométriques
dont Vn et Vn∗ sont munis à l’aide du produit interne, possèdent une représentation matricielle O
telle que
t
O = O−1 .
(1.249)
Il s’agit donc de transformations orthogonales, dont les inverses sont égales à leurs transposées.
Ces considérations suggèrent également d’appliquer le tenseur métrique gij et son inverse
gij pour monter ou descendre les indices des représentations matricielles Ai j de transformations
linéaires quelconques. Ainsi par exemple, nous pouvons définir
Aij = gik Ak j , Aij = Ai k gkj , Ai j = gik Ak l glj = Aik gkj = gik Akj ,
(1.250)
pour autant que l’on veille à maintenir le même ordre dans les indices hauts et bas, même lorsque
les deux types d’indices apparaissent pour une même grandeur, comme nous l’avons fait jusqu’ici.
Utilisant cette liberté de monter et descendre les indices, nous avons de manière générale pour la
transposée t A d’un opérateur linéaire A quelconque,
t
A:
(t A)i j = gjk Ak l gli = Aj i ,
(1.251)
correspondant à la notion habituelle, mais à l’aide d’une construction cohérente avec les propriétés
de covariance de vecteurs. Utilisant ces notations, nous pouvons également écrire, étant donné
(1.222) et (1.233),
x′
i
i
= Ai j xj = Aij xj = xj (t A)j = xj (t A)ji ,
j
t
−1
j
t
−1
x′i = xj (A−1 )j i = xj A−1
ji = ( (A ))i xj = ( (A ))ij x ,
(1.252)
illustrant une fois encore les propriétés de covariance “opposées” pour les (composantes des)
vecteurs contravariants et covariants. En particulier, lorsque la transformation A est une transformation orthogonale, A = O, nous avons de plus que t O = O−1 , montrant que dans un tel cas
les vecteurs covariants et contravariants se transforment de la manière suivante
i
i
x′ = Oi j xj = xj (O−1 )j ,
x′i = xj (O−1 )j i = Oi j xj .
(1.253)
Tous ces résultats établissent donc l’utilité et l’élégance de la notation covariante et contravariante dans les indices des composantes des vecteurs et de leurs vecteurs duaux, et de manière
plus générale, pour les tenseurs portant à la fois les deux types d’indices. Tant que l’on prend soin
de ne pas modifier l’ordre des indices, et de les monter ou descendre à l’aide du tenseur métrique
et de son inverse, les grandeurs manipulées possèdent chacune des propriétés de covariance sous
les transformations linéaires dans ces espaces vectoriels qui sont explicites.
33
Dans le cas d’une métrique euclidienne gij = δij , cette définition coı̈ncide évidemment avec la notion de
transposée d’une matrice. Cependant, dans le cas d’une métrique non dégénérée quelconque gij , il est important
d’inclure les divers facteurs gij et g ij mesurant les longueurs et angles des vecteurs de base, afin d’obtenir un
opérateur t O covariant, c’est-à-dire cohérent avec les propriétés linéaires d’un espace vectoriel.
CHAPITRE 1. LES PRINCIPES DE LA RELATIVITÉ RESTREINTE
65
En guise de conclusion, notons que pour une structure métrique non dégénérée et arbitraire, donc représentée par le tenseur gij dans la base {~ei }, il existe toujours34 une base pseudoorthonormée – définie à une transformation orthogonale O près – telle que le tenseur métrique
devienne diagonal et avec valeurs propres normalisées soit à (+1) soit à (−1). Ainsi en général
la métrique gij possède p valeurs propres positives et q valeurs propres négatives, avec p + q = n,
et pour un choix de base pseudo-orthonormée {~ei }, le tenseur gij se réduit à la matrice diagonale
avec p valeurs (+1) et q valeurs (−1) sur la diagonale, correspondant à une métrique de signature
(p, q). Pour un tel choix de base pseudo-orthonormée, les représentations des transformations
orthogonales O laissant la métrique invariante correspondent aux matrices n × n orthogonales,
formant le groupe O(p, q), montrant donc qu’en général, le groupe d’invariance de la géométrie
d’un espace vectoriel Vn de signature (p, q) est le groupe orthogonal O(p, q).
Le cas (p = n, q = 0) est celui de la géométrie euclidienne à n dimensions. Ici, la distinction
entre vecteurs covariants et contravariants devient moins cruciale, puisque le tenseur métrique
gij = δij se réduit à la matrice unité dans une base orthonormée, et donc les composantes contravariantes ou covariantes d’un vecteur sont confondues. Cependant, les propriétés de covariance
des vecteurs restent différentes suivant qu’ils appartiennent à l’espace vectoriel Vn ou à son dual
Vn∗ . Par ailleurs, les transformations orthogonales O correspondent alors à la composition des
rotations et réflexions à n dimensions, changeant ou non l’orientation de l’espace vectoriel suivant le signe positif ou négatif, det O = ±1, respectivement, du déterminant de la matrice de
représentation de cette transformation dans une base orthonormée.
Le cas (p = 1, q = 3) correspond à celui de l’espace-temps de Minkowski de la relativité
restreinte d’Einstein. Ici, la distinction entre vecteurs covariants et contravariants est importante,
car même dans une base pseudo-orthonormée, les composantes de ces vecteurs peuvent différer par
des signes. Le groupe des transformations orthogonales O(1, 3) se compose alors des rotations
dans l’espace – associé aux trois dimensions pour lesquelles la métrique diagonalisée prend la
valeur (−1) –, des transformations spéciales de Lorentz mélangeant temps et espace, et des
transformations changeant l’orientation de l’espace-temps, soit en changeant la direction de l’axe
temporel ou sinon l’orientation de l’espace. Ce sont ces transformations qui font l’objet de la
discussion à la section 1.10.2.
34
En effet, la matrice gij étant symétrique, est diagonalisable par une matrice orthogonale, et les valeurs propres
correspondantes, dont aucune n’est nulle pour une métrique non dégénérée, peuvent être normalisées aux valeurs
(+1) ou (−1) en fonction de leur signe, par un simple changement d’échelle dans la norme des vecteurs propres
correspondants.
Chapitre 2
Cinématique Relativiste et Particules
Dans ce chapitre, nous mettons en oeuvre quelques-unes des considérations discutées dans le
chapitre 1, dans le contexte de désintégrations et de réactions entre particules, que celles-ci soient
des particules élémentaires – telles l’électron ou le photon – ou des particules composées – telles
les noyaux atomiques. Par ailleurs, nous décrivons très brièvement quelques aspects de base de
la mécanique quantique. Lorsque cette mécanique est combinée avec la relativité restreinte, l’on
obtient un formalisme dans lequel les particules sont comprises comme correspondant aux quanta
de champs relativistes, représentant ainsi à la fois les propriétés corpusculaires et ondulatoires de
la matière, et un formalisme dans lequel les interactions entre particules, avec en particulier la
possibilité de leur création et annihilation, trouvent une représentation immédiate. Avec cette
très brève motivation pour la théorie quantique des champs relativistes comme une description
adéquate du monde microscopique de l’atome, du noyau atomique et des particules élémentaires,
nous concluons par quelques considérations liées aux choix d’unités appropriées pour ces vastes
domaines de la physique.
2.1
Cinématique relativiste
Le monde physique étant relativiste, il est clair qu’il faut appliquer une cinématique relativiste,
basée sur les notions de quantité de mouvement et énergie relativistes, lors de l’étude de tout
processus physique. En particulier, le fait remarquable que la masse inertielle est associée à une
forme d’énergie relativiste – l’énergie de masse – nécessite que les bilans d’énergie tiennent compte
de cette contribution potentielle, ce qui n’est possible que dans le formalisme de la mécanique de
la relativité restreinte.
Par ailleurs, c’est un fait expérimental que dans la nature il existe des particules – élémentaires ou non – qui peuvent se désintégrer, en produisant d’autres particules, ou par ailleurs, lors
de réactions de diffusion entre des particules, qu’il est possible de voir la production d’autres
particules encore. Dans chaque cas, l’énergie disponible au processus comprend les énergies de
masse des particules, ces énergies pouvant ainsi se matérialiser sous la forme de particules de
nature différente. Il est clair que de telles transformations de particules, tout en conservant
l’énergie et la quantité de mouvement totales, ne peuvent être comprises que dans un contexte
relativiste; il est exclu de ne jamais pouvoir donner une description de tels processus physiques
dans le cadre de la mécanique de Newton.
Cependant, les aspects relativistes seuls ne suffisent pas pour expliquer que de tels processus
soient possibles. La relativité restreinte permet de rendre compte des bilans énergie-moment dans
66
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
67
ces processus – au travers de la cinématique relativiste – mais les phénomènes physiques qui en
sont directement responsables doivent être, quant à eux, formulés dans le cadre de la mécanique
quantique, conduisant à une description quantique relativiste des interactions fondamentales entre
particules élémentaires. Ainsi, après avoir considéré la cinématique relativiste de quelques classes
générales de processus de désintégration ou de diffusion de particules, il nous faudra considérer
les aspects quantiques qui permettent d’expliquer l’existence de ces processus. Ce dernier point
fait l’objet de commentaires dans la seconde moitié de ce chapitre, ainsi que dans le chapitre 3.
Finalement, une dernière remarque s’impose. Pour les besoins de la discussion de la
cinématique relativiste des processus considérés ici, nous supposerons que les régions spatiales
dans lesquelles ces processus ont lieu sont fort petites – typiquement de l’ordre de l’échelle de
l’atome ou du noyau atomique, ou moindre encore, soit de l’ordre de l’angström ou du fermi ou
moins encore (1 angström=1 Å=10−10 m, 1 fermi=1 fm=10−15 m) – de telle manière que lorsque
les particules en interaction sont à l’extérieur de cette “zone d’influence”, elles sont en réalité libres, possédant donc chacune des énergies et quantités de mouvement bien définies et conservées,
suivant ainsi des trajectoires rectilignes uniformes par rapport à un référentiel inertiel arbitraire.
En particulier, l’interaction gravitationnelle – de la Terre, ou de ces particules les unes avec les
autres – est ainsi négligée1 .
2.1.1
Désintégration en deux corps
Considérons le cas le plus simple qui puisse s’imaginer, à savoir la désintégration – ou encore
la transmutation – d’une particule de masse m en deux autres particules de masses m1 et m2 .
Désignant ces particules par les symboles X, X1 et X2 , respectivement, nous avons donc la
réaction
X → X1 + X2 .
(2.1)
Chacune de ces particules possède son quadri-vecteur énergie-moment, que nous désignerons,
respectivement, par pµ , pµ1 et pµ2 , étant donné le choix d’un référentiel inertiel spécifique mais
autrement arbitraire. Ainsi, la conservation de l’énergie et quantité de mouvement totale de ce
système s’exprime par les quatre conditions
pµ = pµ1 + pµ2
,
µ = 0, 1, 2, 3,
(2.2)
p~c = ~p1 c + p~2 c.
(2.3)
soit encore,
p0 = p01 + p02
,
Cependant, les valeurs des énergies et quantités de mouvement de ces particules sont liées par les
relations
(p0 )2 = (~
pc)2 + (mc2 )2 , (p01 )2 = (~
p1 c)2 + (m1 c2 )2 , (p02 )2 = (~
p2 c)2 + (m2 c2 )2 ,
(2.4)
avec en particulier la quantité de mouvement p~c de la particule X étant donnée comme valeur
initiale.
Ainsi, considérons une valeur donnée de la quantité de mouvement d’une des deux particules
finales, p~1 par exemple pour la particule X1 . La quantité de mouvement de l’autre particule
est alors univoquement déterminée par les trois conditions vectorielles en (2.2) associées aux
composantes spatiales µ = i = 1, 2, 3, en l’occurrence
p~2 = p~ − ~p1 .
1
Nous reviendrons sur les intensités des diverses interactions fondamentales dans le chapitre 3.
(2.5)
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
68
Cependant, la condition de conservation de l’énergie, associée à la composante temporelle µ = 0
en (2.2), impose alors l’équation
q
(~
p1 c)2 + (m1 c2 )2 +
q
(~
pc − p~1 c)2 + (m2 c2 )2 =
q
(~
pc)2 + (mc2 )2 .
(2.6)
Cette dernière contrainte de conservation permet de déterminer la valeur de |~
p1 |c pour une direction donnée du vecteur p̂1 = p~1 /|~
p1 | relative à celle de p̂ = p~/|~
p |, c’est-à-dire pour une direction
donnée de l’émission de la particule X1 par rapport à celle de la particule X qui se désintègre. En
conséquence, les énergie et quantité de mouvement de chacune des deux particules produites sont
univoquement déterminées pour une valeur donnée de cette direction angulaire relative. En particulier, leurs énergies p01 et p02 prennent des valeurs bien spécifiques, montrant que dans une telle
désintégration à deux corps, le spectre d’énergie des particules produites est discret, mais est fonction de la direction d’émission de l’une d’entre elles par rapport à la direction du mouvement de la
particule se désintégrant. Les contraintes cinématiques déterminent donc ce spectre d’émission en
énergie en fonction de cet angle, mais ne déterminent en rien la valeur de l’angle. Cette dernière
est donc directement liée à la nature de l’interaction responsable de la désintégration, faisant intervenir entre autre les propriétés vis-à-vis de cette interaction de la particule initiale. En d’autres
mots, la distribution des valeurs obtenues pour l’angle est une signature de l’interaction responsable, tandis que la cinématique relativiste permet de déterminer de manière unique les énergies
et quantités de mouvement des deux particules produites en fonction de cet angle d’émission.
Afin d’être explicite, nous allons résoudre les conditions ci-dessus pour deux choix particuliers de référentiels inertiels. Un premier choix naturel est évidemment le référentiel de la
particule initiale, à savoir celui dans lequel celle-ci est initialement au repos – ce qui n’est possible que si sa masse est non nulle, m 6= 0. Ensuite, nous considérerons un référentiel dans lequel
cette même particule est vue en mouvement, de manière à comprendre comment la cinématique
est alors modifiée de par ce mouvement uniforme du système dans son ensemble.
Référentiel du centre de masse
Puisque d’une part la quantité de mouvement de la particule X est nulle dans le référentiel
dans lequel elle est repos, ~
p ∗ = ~0, et que d’autre part la quantité de mouvement totale est
conservée, nécessairement la quantité de mouvement totale des deux particules produites est
identiquement nulle elle aussi dans ce même référentiel,
p~1∗ + p~2∗ = ~0.
(2.7)
En d’autres mots, le référentiel propre de la particule qui se désintègre est également celui du
centre de masse du système, aussi bien avant qu’après la désintégration. Notons par ailleurs
que nous utilisons une notation conventionnelle à l’aide d’un astérisque “∗ ” pour désigner les
grandeurs ramenées au référentiel du centre de masse, telle pour ~p1∗ .
Substituant cette dernière relation dans la condition de conservation de l’énergie, nous avons
alors,
q
(~
p1∗ c)2
+ (m1
c2 )2
+
q
(~
p1∗ c)2 + (m2 c2 )2 = mc2 ,
(2.8)
montrant déjà que dans le référentiel du centre de masse, la cinématique est indépendante de la
direction d’émission des deux particules, aucune direction priviligiée dans l’espace n’étant définie
puisque la particule initiale est au repos. Ainsi, cette remarque implique que la dépendance
angulaire de la cinématique discutée plus haut n’est qu’un effet cinématique lié à un choix de
référentiel dans lequel la particule initiale serait en mouvement. Cette dépendance sera donc
élaborée pour le second choix de référentiel inertiel considéré ci-dessous.
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
69
La solution à l’équation (2.8) est immédiate. Une simple analyse montre que nous avons,
E1∗ = p∗0
1 =
i
1 h
2 2
2 2
2 2
(mc
)
+
(m
c
)
−
(m
c
)
,
1
2
2mc2
i
1 h
2 2
2 2
2 2
(mc
)
+
(m
c
)
−
(m
c
)
,
2
1
2mc2
1
1/2
2 2
2 2
2 2
λ
(mc
)
,
(m
c
)
,
(m
c
)
,
|~
p1∗ |c =
1
2
2mc2
où la fonction λ(x, y, z) est définie par
E2∗ = p∗0
2 =
λ(x, y, z) = x2 + y 2 + z 2 − 2xy − 2xz − 2yz.
(2.9)
(2.10)
(2.11)
(2.12)
Notons que ces expressions n’ont de sens que lorsque m 6= 0, c’est-à-dire lorsque le référentiel
propre à la particule initiale – dans laquelle elle est au repos – existe effectivement.
Ces résultats suscitent encore d’autres commentaires. Tout d’abord, il est clair, étant donné
la condition (2.8), qu’une telle désintégration n’est possible – sur le plan purement cinématique –
que si nous avons
mc2 ≥ m1 c2 + m2 c2 ,
(2.13)
montrant donc que c’est bien la différence entre les énergies de masse totales initiale et finale qui
se voit convertie sous une forme cinétique des deux particules produites. Ce constat justifie donc
la définition de la chaleur Q – ou encore “le Q” – d’une telle réaction, soit
Q = mc2 − m1 c2 − m2 c2 ,
(2.14)
qui mesure donc l’énergie totale effectivement disponible pour la réaction. Lorsque la valeur Q
est négative, la réaction est interdite cinématiquement – il est impossible de conserver à la fois
les énergie et quantité de mouvement totales –, tandis que si Q = 0, le processus a tout juste lieu
au seuil de la réaction, conduisant aux deux particules X1 et X2 produites au repos, p~1∗ = ~0. Ce
n’est que lorsque Q > 0 que ces deux particules sont produites chacune avec une énergie cinétique
non nulle, données par
T1∗ = E1∗ − m1 c2 =
i
i
Q h 2
1 h
2
2 2
2 2
2
2
(mc
−
m
c
)
−
(m
c
)
=
mc
−
m
c
+
m
c
,
1
2
1
2
2mc2
2mc2
(2.15)
T2∗ = E2∗ − m2 c2 =
i
i
1 h
Q h 2
2
2 2
2 2
2
2
(mc
−
m
c
)
−
(m
c
)
mc
−
m
c
+
m
c
=
,
2
1
2
1
2mc2
2mc2
(2.16)
et donc telles que
T1∗ + T2∗ = Q,
(2.17)
montrant que la valeur Q est effectivement répartie entre les énergies cinétiques des deux particules
produites en relation avec les valeurs de leurs (énergies de) masses. Notons que cette dernière
identité exprime encore une fois la conservation de l’énergie totale du processus dans le référentiel
inertiel de son centre de masse,
h
i
h
i
E1∗ − m1 c2 + E2∗ − m2 c2 = Q = mc2 − m1 c2 − m2 c2
soit
E1∗ + E2∗ = mc2 .
(2.18)
Ces considérations permettent également de comprendre comment l’approximation non
relativiste peut être obtenue. Pour des valeurs de Q fort petites devant celle de l’énergie de
masse initiale mc2 , Q ≪ mc2 , les énergies cinétiques des produits de désintégration resteront
faibles elles aussi – par rapport aux énergies de masse correspondantes – ce qui justifie alors une
70
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
approximation non relativiste. Ainsi, en utilisant mc2 = m1 c2 + m2 c2 + Q, l’approximation au
premier ordre en Q de la quantité λ (mc2 )2 , (m1 c2 )2 , (m2 c2 )2 trouve
λ (mc2 )2 , (m1 c2 )2 , (m2 c2 )2 ≃ 8(m1 c2 )(m2 c2 ) m1 c2 + m2 c2 Q + · · · ,
(2.19)
conduisant pour la quantité de mouvement des produits de réaction, toujours dans la même
approximation au premier ordre,
|~
p1∗ |c
≃
s
2(m1 c2 )(m2 c2 )
Q.
(m1 c2 + m2 c2 )
(2.20)
Or, ce même résultat s’obtient en considérant l’approximation non relativiste à la condition de
conservation de l’énergie (2.8),
m1 c2 + T1∗ + m2 c2 + T2∗ = mc2
où
T1∗ ≃
soit
T1∗ + T2∗ = Q,
(|~
p1∗ |c)2
(|~
p1∗ |c)2
∗
,
T
≃
,
2
2m1 c2
2m2 c2
(2.21)
(2.22)
p1∗ , ayant été utilisée. Notons que
la relation de conservation de la quantité de mouvement, p~2∗ = −~
∗
∗
la condition T1 +T2 = Q peut être considérée dans un contexte non relativiste – dans les situations
de vitesses où cela est justifié – à condition d’affirmer qu’il existe une quantité d’énergie positive
disponible – le Q de la réaction avec Q ≥ 0 – et pouvant être convertie en énergie cinétique non
relativiste. Cependant, l’origine physique de cette énergie mesurée par Q reste inexpliquée dans
le contexte seul de la mécanique non relativiste de Newton, et ce n’est que dans le contexte de la
relativité restreinte d’Einstein que cette énergie peut être comprise en terme de différences dans
les énergies de masse des particules initiales et finales intervenant dans la réaction. Par ailleurs,
ce n’est que dans ce même contexte relativiste que les énergies et quantités de mouvement sont
obtenues correctement, certainement pour des vitesses comparables à c.
Exemples
Considérons quelques exemples de telles désintégrations en deux corps observées dans le
référentiel inertiel de la particule initiale.
a) Le premier cas correspond à la désintégration
π + → µ + + νµ ,
(2.23)
du pion chargé π + dans l’anti-muon µ+ et le neutrino de saveur muonique νµ , dont la description
sera élaborée au chapitre 3. Les énergies de masse de ces particules sont données par
mπ+ c2 = 139,57 MeV , mµ+ c2 = 105,66 MeV , mνµ c2 ≃ 0 MeV.
(2.24)
Puisque mπ+ − mµ+ − mνµ > 0, cette réaction est permise, et les résultats ci-dessus conduisent
alors aux valeurs
Eµ∗+ = 109,78 MeV , Eν∗µ = 29,80 MeV , |~
pµ∗+ |c = |~
pν∗µ |c = 29,80 MeV,
(2.25)
ainsi que
βµ∗+ = 0,271 , γµ∗+ = 1,039 , βν∗µ = 1.
(2.26)
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
71
Ces valeurs pour la vitesse et le facteur de dilatation relativiste γµ∗+ du µ+ montrent que les effets
relativistes sont non négligeables dans cette réaction, bien que sa valeur Q reste faible par rapport
à l’énergie de masse du µ+ , Q/(mµ+ c2 ) = 0,321.
b) Comparons maintenant la situation précédente à la réaction
π + → e+ + νe ,
(2.27)
où cette fois c’est l’anti-électron – ou positron – qui est produit avec le neutrino de saveur électronique νe . Puisque nous avons
mπ+ c2 = 139,57 MeV , me+ c2 = 0,511 MeV , mνe ≃ 0 MeV,
(2.28)
il suit cette fois-ci,
Ee∗+ = 69,786 MeV , Eν∗e = 69,784 MeV , |~
pe∗+ |c = |~
pν∗e |c = 69,748 MeV,
(2.29)
et donc
βe∗+ = 0,999973 , γe∗+ = 136,57 , βν∗e = 1,
(2.30)
montrant que la valeur Q de cette réaction étant considérablement plus grande que la masse
du positron, Q/(me+ c2 ) = 272,13, la vitesse de cette particule ne diffère de c que d’une faible
fraction, 1 − βe∗+ = 2,7 · 10−5 .
Remarquons que dans ces désintégrations du π + en une particule chargée et un neutrino,
l’énergie de la particule chargée, bien que déterminée de manière unique, dépend de la masse
éventuelle non nulle du neutrino. C’est ainsi que des expériences cherchent à mesurer avec grande
précision le spectre des particules chargées produites dans la désintégration du π + – en vol ou à
l’arrêt – afin de déterminer un effet cinématique directement lié à une masse éventuellement non
nulle des neutrinos produits dans ces processus.
c) Revenons au cas de la désintégration
π 0 → γ + γ,
(2.31)
déjà discutée au chapitre 1. Puisque nous avons
mπ0 c2 = 134,98 MeV , mγ c2 = 0 MeV,
(2.32)
il suit immédiatement
Eγ∗1 = Eγ∗2 = |~
pγ∗1 |c = |~
pγ∗2 |c =
1
m 0 c2 = 67,49 MeV,
2 π
(2.33)
les photons produits se déplaçant évidemment à la vitesse de la lumière dans le vide, βγ∗1 = 1 = βγ∗2 .
d) Considérons cette fois un exemple fictif, mais pour lequel les échelles d’énergie sont celles caractéristiques de la physique nucléaire au sein des noyaux atomiques. Imaginons qu’une première
particule de masse mc2 = 10 GeV – un noyau dans un état quantique excité, dont la masse
correspond environ à celle totale de dix protons et neutrons –, se désintègre vers un niveau
quantique d’énergie inférieure avec ∆E = mc2 − m1 c2 = 10 MeV en émettant un photon. Puisque
dans un tel cas,
mc2 = 10 000 MeV , m1 c2 = 9 990 MeV , m2 c2 = 0 MeV,
(2.34)
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
72
il suit immédiatement
E1∗ = 9 990,005 MeV , E2∗ = 9,995 MeV , |~
p1∗ |c = 9,995 MeV,
(2.35)
β1∗ = 10−3 , γ1∗ = 1 + 5 · 10−7 , β2∗ = 1.
(2.36)
ainsi que
Par conséquent, le Q = ∆E = 10 MeV de cette réaction étant si faible devant les énergies de
masse mc2 et m1 c2 , la particule massive produite ne recule pratiquement pas – sa vitesse n’est
qu’un millième de c – tandis que le photon porte pratiquement toute l’énergie disponible pour
la réaction, E2 ≃ ∆E, à 0,5% près. Clairement, si les valeurs de m et m1 étaient encore plus
grandes pour un même Q de réaction, la particule massive produite ne reculerait pratiquement
plus du tout sous l’effet de l’émission du photon, lui laissant donc toute l’énergie disponible ∆E
pour sa production.
Référentiel arbitraire
Considérons maintenant la cinématique de la désintégration (2.1) dans un référentiel inertiel
arbitraire, donc dans lequel a priori la particule X initiale est en mouvement dans la direction
p̂ = p~/|~
p|. Dans ce cas, il suffirait de résoudre maintenant la condition (2.2), soit
q
(~
p1
c)2
+ (m1
c2 )2
+
q
(~
p2
c)2
+ (m2
c2 )2
=
q
(~
pc)2 + (mc2 )2 ,
(2.37)
avec la relation p~2 = ~
p − p~1 . Bien qu’il soit possible de considérer ce problème explicitement,
la solution est assez laborieuse à obtenir, et son expression ne conduit pas à une interprétation
transparente.
En réalité, une approche alternative et plus élégante consiste à considérer la solution obtenue
dans le référentiel inertiel du centre de masse, et à lui appliquer la transformation spéciale de
Lorentz amenant la particule initiale X à se mouvoir dans la direction et avec la vitesse observées.
Ce faisant, nous sommes assurés de construire la solution aux conditions (2.2), celles-ci étant
covariantes sous le groupe de Lorentz, et, étant satisfaites dans le référentiel propre de X1 , elles
le restent dans tout autre référentiel inertiel.
Ainsi, l’énergie-moment de la particule initiale X est donnée par
E = p0 = γmc2 , ~pc = βγmc2 p̂.
(2.38)
Ces grandeurs s’obtiennent en terme du quadri-vecteur de cette particule dans son référentiel
inertiel au repos, p∗ µ = (mc2 , ~0), à l’aide de la transformation spéciale de Lorentz Λµ ν telle que
pµ = Λµ ν p∗ ν , soit
(2.39)
E = Λ0 ν p∗ ν = mc2 Λ0 0 , pi c = Λi ν p∗ ν = mc2 Λi 0 .
Par conséquent, nous devons avoir,
Λ0 0 = γ
,
Λi 0 = βγ p̂i
,
i = 1, 2, 3.
(2.40)
Afin de déterminer les autres éléments de matrice, à savoir Λ0 i et Λi j , il faut alors considérer les
conditions définissant les transformations de Lorentz,
gρσ Λρ µ Λσ ν = Λ0 µ Λ0 ν − Λk µ Λk ν = gµν ,
(2.41)
en sachant par ailleurs, en raison de la covariance vectorielle sous les rotations spatiales, que
les éléments Λ0 i doivent être proportionnels aux composantes p̂i du vecteur p̂ associé à cette
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
73
Figure 2.1: Cinématique de la désintégration en deux corps, dans le référentiel du centre de masse,
et dans un référentiel inertiel arbitraire.
transformation de Lorentz, que les éléments Λi j doivent être donnés par une combinaison linéaire
de δij et p̂i p̂j , et finalement, que la transformation de Lorentz cherchée ne change pas l’orientation
ni du temps, et ni de l’espace. Considérant alors ces diverses conditions, la solution unique est
donnée par
!
γ
βγ p̂i
µ
,
(2.42)
Λ ν=
βγ p̂i δij + (γ − 1)p̂i p̂j
reproduisant la transformation spéciale de Lorentz dans la direction p̂ déjà discutée au chapitre 1.
En effet, appliquée à un quadri-vecteur x∗µ = (x∗0 , ~x ∗ ), nous avons pour le quadri-vecteur transformé,
h
i
h
i
x0 = γ x∗ 0 + β p̂ · ~x ∗ , ~x = ~x ∗ + βγx∗ 0 + (γ − 1)p̂ · ~x ∗ p̂.
(2.43)
Il ne reste donc plus qu’à appliquer ces transformations aux quadri-vecteurs p∗ µ1 = (E1∗ , p~1∗ ) et
p1∗ ) des particules X1 et X2 , respectivement, dans le référentiel inertiel au repos de
p∗ µ2 = (E2∗ , −~
p1∗ |c étant donc données par les relations (2.9), (2.10) et
la particule X, les grandeurs E1∗ , E2∗ et |~
(2.11).
Par conséquent, la solution aux conditions (2.2) de conservation de l’énergie et de la quantité
de mouvement dans la réaction (2.1) est donnée par,
E1 = γ [E1∗ + β p̂ · p~1∗ c] , p~1 c = p~1∗ c + [βγE1∗ + (γ − 1)p̂ · ~p1∗ c] p̂,
(2.44)
E2 = γ [E2∗ − β p̂ · ~
p1∗ c] , p~2 c = −~
p1∗ c + [βγE2∗ − (γ − 1)p̂ · p~1∗ c] p̂,
(2.45)
dont l’interprétation est transparente au travers de sa contruction explicite à l’aide de la transformation de Lorentz appropriée.
Il est évidemment possible de vérifier que ces expressions satisfont les conditions (2.2). Nous
avons d’une part pour l’énergie totale,
E1 + E2 = γ [E1∗ + E2∗ ] = γmc2 = E,
(2.46)
tandis que pour la quantité de mouvement totale,
p~1 c + ~
p2 c = βγ [E1∗ + E2∗ ] p̂ = βγmc2 p̂ = p~c,
(2.47)
comme il se doit.
Il est également possible de déterminer les angles θ1 et θ2 des directions d’émission des deux
particules X1 et X2 , respectivement, par rapport à la direction p̂ de propagation de la particule
initiale X. Pour cela, il suffit de décomposer les vecteurs p~1 et p~2 en terme d’une composante
longitudinale ou parallèle et d’une composante perpendiculaire à p̂, composantes dont le rapport
détermine ainsi la tangente de l’angle correspondant (voir la Fig. 2.1). Dans ce but, introduisons
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
74
également l’angle θ ∗ de la direction d’émission de la particule X1 dans le référentiel du centre de
masse par rapport à la même direction p̂,
p̂ · p~1∗ c = |~
p1∗ |c cos θ ∗ .
(2.48)
p̂ · p~1 c = γ [βE1∗ + p̂ · p~1∗ c] , p~1 c − (p̂ · ~p1 c) p̂ = ~p1∗ c − (p̂ · p~1∗ c) p̂,
(2.49)
p̂ · p~2 c = γ [βE2∗ − p̂ · ~
p1∗ c] , p~2 c − (p̂ · p~2 c) p̂ = −~
p1∗ c + (p̂ · p~1∗ c) p̂,
(2.50)
Ainsi, nous obtenons
conduisant aux expressions cherchées,
tan θ1 =
β1∗ sin θ ∗
β2∗ sin θ ∗
1
1
,
tan
θ
=
,
2
∗
γ [β + β1 cos θ ∗ ]
γ [β − β2∗ cos θ ∗ ]
(2.51)
avec bien sûr les vitesses normalisées à c dans le référentiel du centre de masse,
β1∗ =
|~
p1∗ c|
|~
p ∗ c|
, β2∗ = 1 ∗ .
∗
E1
E2
(2.52)
Notons en particulier l’apparition du facteur de dilatation relativiste γ dans le dénominateur de
ces expressions lorsque la particule initiale est en mouvement. Ce facteur est donc le seul terme de
correction relativiste en comparaison de formules analogues valables en mécanique non relativiste
obtenues sur base des transformations de Galilée.
La condition cinématique assurant que cette réaction soit possible reste évidemment que
sa valeur Q soit positive, même pour un choix de référentiel arbitraire. En effet, si la réaction
a lieu, elle a lieu également dans le référentiel du centre de masse, ce qui nécessite la condition
Q ≥ 0. Le fait que l’énergie totale du système E = γmc2 soit supérieure à mc2 dans tout autre
référentiel ne modifie en rien la situation, l’énergie excédentaire ne pouvant en aucune manière
servir à la création des particules finales. Cette énergie doit rester disponible dans sa totalité
pour le mouvement du centre de masse du système, dont l’énergie et la quantité de mouvement
sont conservées aussi bien avant qu’après la désintégration. Une manière de s’en convaincre est
de considérer cette énergie additionnelle, à savoir l’énergie cinétique du centre de masse donnée
par
T = (γ − 1)mc2 = E − mc2 = E1 + E2 − mc2 = T1 + m1 c2 + T2 + m2 c2 − mc2 = T1 + T2 − Q, (2.53)
ou encore
T = (γ − 1)mc2 = T1 + T2 − [T1∗ + T2∗ ] = [E1 − E1∗ ] + [E2 − E2∗ ] .
(2.54)
En effet, cette dernière expression établit que toute l’énergie excédentaire liée au mouvement
de la particule initiale est utilisée dans l’état final uniquement pour communiquer aux particules
produites les énergies et quantités de mouvement nécessaires à la conservation de l’énergie-moment
de leur centre de masse en mouvement.
Ceci conclut la discussion de la réaction (2.1) dans le cas d’une particule initiale de masse
non nulle, m 6= 0. En effet, la solution générale telle que construite ici se base sur celle obtenue
dans le référentiel propre de cette particule, ce qui suppose implicitement la condition m 6= 0,
un tel référentiel n’existant que pour des particules se déplaçant à un vitesse inférieure à c. Il
nous reste donc encore à considérer le cas particulier lorsque m = 0 pour un choix arbitraire
de référentiel inertiel, à savoir résoudre les conditions cinématiques (2.2) pour la désintégration
d’une particule de masse nulle, m = 0, en deux particules de masses nulles ou non.
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
75
Cependant, une telle situation est impossible sauf dans un seul cas particulièrement singulier, en raison des conditions de conservation de l’énergie et de la quantité de mouvement dans
un tel processus. En effet, considérant les conditions (2.2) et contractant les membres de gauche
et droite de cette relation entre quadri-vecteurs avec eux-mêmes, il suit immédiatement que nous
avons p2 = (p1 + p2 )2 – où le carré de ces quadri-vecteurs s’évalue évidemment avec la métrique
de Minkowski –, soit encore
(mc2 )2 = 0 = p21 + p22 + 2p1 · p2 = (m1 c2 )2 + (m2 c2 )2 + 2p1 · p2 ,
(2.55)
conduisant donc à la restriction
p1 · p2 = −
i
1h
(m1 c2 )2 + (m2 c2 )2 ≤ 0.
2
(2.56)
Par ailleurs, nous avons également
p1 · p2 = E1 E2 − ~p1 c · ~p2 c = E1 E2 [1 − β1 β2 cos θ12 ] ,
(2.57)
où β1 et β2 sont les vitesses normalisées à c des particules produites, et θ12 l’angle défini par leurs
directions d’émission. Or, sur base de cette dernière expression, nous avons nécessairement la
condition p1 · p2 > 0, sauf dans la situation particulière θ12 = 0 avec β1 = 1 = β2 conduisant à
p1 · p2 = 0. Ces dernières valeurs sont donc les seules pour lesquelles la condition p1 · p2 ≤ 0 peut
également être satisfaite, mais elles correspondent à la production de deux particules de masses
nulles, m1 = 0 = m2 , émises dans la même direction, soit p~2 = p~1 . Cependant, la condition de
conservation de la quantité de mouvement implique par ailleurs ~p2 = p~ − ~p1 , et par conséquent
nous avons nécessairement
1
1
m1 = 0 = m2 , p~1 = p~ = p~2 , E1 = E = E2 .
2
2
(2.58)
En d’autres mots, ce n’est que pour cette configuration cinématique toute particulière, et uniquement pour deux particules de masse nulle produites, qu’il est possible d’observer la désintégration
d’une particule de masse nulle. Sur le plan pratique, puisque la seule particule de masse nulle
connue est le photon, cette discussion implique qu’éventuellement un photon peut se convertir
en deux photons d’énergies et quantités de mouvement identiques et donc de valeurs moitiés de
celles initiales, et se propageant donc exactement dans la même direction que le photon initial.
Sur le plan énergétique, la détection de ces deux photons équivaut donc à celle du photon initial, sans la possibilité de faire la différence. Cependant, si l’on tient compte de la différence de
fréquences – ou de couleurs – liée à la différence dans leurs énergies qui sont dans un rapport
de deux, il devient concevable d’observer ainsi la conversion d’un photon en deux photons de
fréquences moitiés de la fréquence initiale2 .
Néanmoins, le positron a été découvert en 1932 par Carl Anderson (1905-1991) précisément
par la désintégration d’un photon – produit par les rayons cosmiques – en un électron, e− , et un
positron, e+ , une réaction conservant la charge électrique, mais produisant donc pourtant deux
particules de masse non nulle à partir d’un seul photon. Or, comme nous venons de le démontrer,
les lois de conservation de l’énergie et de la quantité de mouvement interdisent une telle réaction!
L’explication est simple cependant. La matérialisation de l’énergie électromagnétique du photon
incident en deux particules massives n’est possible qu’en faisant passer le photon initial dans
un matériau – par exemple du plomb – impliquant ainsi qu’il ne s’agit pas en réalité d’une
2
Pour rappel, l’énergie E d’un photon est liée à sa fréquence ν par la relation quantique E = hν, la constante
h = 6,626 · 10−34 J·s, ou h̄ = h/(2π) = 1,055 · 10−34 J·s, étant la constante de Planck, à savoir la constante
fondamentale de la mécanique quantique.
76
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
réaction de désintégration mais plutôt d’une réaction de diffusion dans laquelle le photon incident
diffuse sur le champ coulombien d’un noyau du matériau, conduisant à la production de la paire
électron-positron ainsi qu’au recul du noyau initial. Il s’agit donc d’une réaction de deux corps
en trois corps, et les conditions de conservation de l’énergie-moment totale sont alors aisément
rencontrées, le noyau initial pouvant appartenir à l’atmosphère – ce fût le cas de l’expérience de
Carl Anderson, dans laquelle le positron fût détecté à l’aide d’une plaque photographique dans un
champ magnétique, la courbure de la trace donnant le signe de la charge électrique de la particule
observée – ou à un autre matériau plus dense, le plomb étant intéressant en raison de la charge
électrique élevée, Z = 82, de ce noyau, conduisant à un champ coulombien de grande intensité.
2.1.2
Désintégration en trois corps
Considérons maintenant la désintégration
X → X1 + X2 + X3 ,
(2.59)
d’une particule X en trois particules X1 , X2 et X3 , de masses respectives m, m1 , m2 et m3 , avec
m1 ≥ m2 ≥ m3 . Les énergies-moments de ces particules sont également dénotés pµ , pµ1 , pµ2 et pµ3 ,
respectivement, avec donc les conditions cinématiques de conservation
pµ = pµ1 + pµ2 + pµ3 ,
ou encore
E
p~c
!
=
E1
p~1 c
!
+
E2
p~2 c
!
(2.60)
+
E3
p~3 c
!
.
(2.61)
Le but ici n’étant pas de donner un développement complet de la cinématique d’une telle
réaction, considérons d’emblée le référentiel du centre de masse du système, soit celui pour lequel
p~ ∗ = ~0. Nous avons alors, par exemple,
~3∗ = −~
p
p1∗ − ~p2∗ ,
(2.62)
ne laissant alors que la condition de conservation de l’énergie totale à résoudre
q
(~
p1∗ c)2 + (m1 c2 )2 +
+
q
q
(~
p2∗ c)2 + (m2 c2 )2 +
∗ + (m c2 )2 =
(~
p1∗ c)2 + (~
p2∗ c)2 + 2|~
p1∗ c||~
p2∗ c| cos θ12
3
(2.63)
mc2 ,
∗ désigne l’angle entre les deux vecteurs p
~1∗ et ~p2∗ .
où θ12
Par conséquent, dans le cas d’une telle réaction, la solution aux conditions de conservation
d’énergie-moment nécessite de spécifier cette fois la quantité de mouvement de l’une des trois
particules produites ainsi que la direction d’émission d’une autre de ces particules par rapport à
∗ et de la
la première. Ainsi par exemple, il nous faut spécifier les valeurs de p~1∗ ainsi que de θ12
direction du plan formé par les vecteurs p~1∗ et ~p2∗ , afin de pouvoir déterminer les valeurs de p~2∗ et
p~3∗ , et ainsi donner une description complète de la cinématique du processus. De plus, la valeur
de |~
p1∗ | – ou de l’énergie E1∗ – est bornée supérieurement, E1∗ ≤ E1∗max , en raison de l’énergie
initiale finie mc2 disponible pour la réaction. Cependant, toutes les valeurs de E1∗ comprises entre
m1 c2 et E1∗max sont a priori possibles, sans restriction, montrant que pour une désintégration à
trois corps – ou plus – le spectre en énergie des particules produites est un spectre continu. Le
cas du spectre discret dans le cas d’une désintégration en deux corps est donc une situation qui
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
77
se distingue de ce point de vue-là de toutes les autres désintégrations de particules en trois corps
ou plus.
Clairement, la notion de valeur Q de réaction s’étend à la réaction (2.59), et plus généralement, à toute désintégration à n corps. Cette valeur est donc encore donnée par la différence des
énergies de masse initiales et finales,
h
i
Q = mc2 − m1 c2 + m2 c2 + m3 c2 ,
(2.64)
qui mesure toute l’énergie réellement disponible à la réaction pour la matérialisation des particules
X1 , X2 et X3 avec leurs énergies cinétiques T1∗ , T2∗ et T3∗ , respectivement, et doit donc être positive,
Q ≥ 0.
Bien que nous ne souhaitons pas présenter ici les expressions de la solution aux contraintes
cinématiques, il est immédiat de déterminer les valeurs des énergies maximales des spectres
d’émission. Si l’on considère ainsi la particule Xi , son énergie Ei∗ atteint une valeur maximale
lorsqu’une des deux autres particules, soit Xj avec j 6= i, est produite au repos3 , l’autre, soit Xk
avec k 6= i, j, possédant une quantité de mouvement équilibrant celle de la particule Xi . Une
telle situation correspond donc en fait à une désintégration en deux corps, la particule produite
immobile Xj ne jouant que le rôle d’un spectateur tandis que l’énergie réellement disponible pour
le mouvement des deux autres particules Xi et Xk est mc2 − mj c2 = Q + mi c2 + mk c2 . Sur base
de la solution (2.9) pour la désintégration en deux corps, il suit donc
p~j∗ = ~0 :
Ei∗max,j =
h
i
1
2
2 2
2 2
2 2
(mc
−
m
c
)
+
(m
c
)
−
(m
c
)
.
j
i
k
2(mc2 − mj c2 )
(2.65)
Par conséquent, l’énergie maximale possible pour la particule Xi est donnée par le maximum des
deux valeurs Ei∗max,j pour les deux valeurs possibles de j 6= i,
h
Ei∗max = max Ei∗max,j , Ei∗max,k
i
,
j 6= i , k 6= i , j 6= k.
(2.66)
En particulier, lorsque m2 = 0 = m3 , nous obtenons directement
E1∗max =
1 2
(mc2 )2 + (m1 c2 )2
∗max
∗max
2
,
E
=
E
=
mc
−
m
c
.
1
2
3
2mc2
2
(2.67)
a) Comme premier exemple, considérons la désintégration
µ+ → e+ + νe + ν µ ,
(2.68)
avec les valeurs
mµ c2 = 105,66 MeV , me c2 = 0,511 MeV , mνe c2 ≃ 0 MeV , mνµ c2 ≃ 0 MeV.
(2.69)
Il suit alors
Ee∗max = 52,83 MeV , |~
pe∗max |c = 52,83 MeV , βe∗max = 0,99995 , γe∗max = 103,4.
(2.70)
b) Considérons maintenant la réaction
τ + → µ + + νµ + ν τ ,
(2.71)
3
Deux particules produites au repos est exclu en raison de la conservation de la quantité de mouvement totale,
sauf dans le cas particulier d’une production au seuil lorsque Q = 0, auquel cas les trois particules sont produites
au repos, aucune énergie ne restant disponible pour leurs énergies cinétiques.
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
78
avec les valeurs
mτ c2 = 1 777,05 MeV , mντ c2 ≃ 0 MeV.
(2.72)
Il suit alors
Eµ∗max = 891,67 MeV , |~
pµ∗max |c = 885,38 MeV , βµ∗max = 0,993 , γµ∗max = 8,44.
(2.73)
De même pour la réaction
τ + → e+ + νe + ν τ ,
(2.74)
nous avons
Ee∗max = 888,53 MeV , |~
pe∗max |c = 888,53 MeV , βe∗max = 1 − 1,7 · 10−7 , γe∗max = 1 738,8.
(2.75)
Tout comme pour la désintégration du π + en deux corps, ici également le mode de désintégration du τ + en un positron plutôt qu’un µ+ conduit à une vitesse de l’électron pratiquement
égale à c alors que celle du µ+ en diffère encore de 0,7 %, en raison du rapport de masses
mµ /me ≃ 207.
c) Considérons maintenant la désintégration β − du neutron,
n → p + e− + ν e ,
(2.76)
avec les valeurs
mn c2 = 939,55563 MeV , mp c2 = 938,27231 MeV , me c2 = 0,511 MeV , mνe c2 ≃ 0 MeV.
(2.77)
Il suit alors
Ee∗max = 1,283 MeV , |~
pe∗max |c = 1,176 MeV , βe∗max = 0,917 , γe∗max = 2,51,
(2.78)
ces valeurs étant obtenues lorsque le neutrino est produit avec une énergie nulle, p~ν∗e = ~0. Remarquons que si le neutrino ν e possède une masse non nulle, cette valeur maximale Ee∗max diminue
en conséquence, puisqu’il y a alors moins d’énergie disponible à la réaction, la valeur Q diminuant. Clairement, cet effet cinématique d’une masse non nulle du neutrino est le plus prononcé
pour l’énergie cinétique maximale de recul de l’électron par opposition au proton, ces effets
cinématiques étant également proportionnels au rapport des masses carrées des particules impliquées. C’est ainsi que des recherches d’effets cinématiques liés à une masse non nulle du
neutrino ν e dans les désintégrations β ± s’attachent à mesurer avec grande précision le spectre en
énergie de l’électron – ou du positron – émis au voisinage de sa valeur maximale en énergie.
La sensibilité à l’effet recherché est d’autant plus importante que la valeur de cette énergie
maximale est faible. De ce point de vue, la meilleure situation est réalisée dans la désintégration
β − du tritium,
3
H →3 He + e− + ν e ,
(2.79)
pour laquelle l’énergie maximale de l’électron est de Ee∗max = 18,7 keV. Actuellement, la limite
sur la masse du neutrino ν e obtenue à l’aide de cette réaction est de
mνe c2 ≤ 3 eV,
(2.80)
cette approche à une mesure directe de la masse du neutrino νe ayant sans doute épuisé maintenant
toutes ses ressources technologiques de précision.
79
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
D’un point de vue historique quant à la découverte de l’existence des neutrinos νe et ν e ,
les désintégrations β ± de noyaux atomiques ont joué un rôle essentiel. En effet, typiquement
les produits de ces désintégrations incluent des particules chargées électriquement et donc relativement facilement détectables, tandis que les neutrinos échappent extrêmement facilement à
toute détection, n’ayant que des interactions faibles avec toute matière. Par conséquent, dans
leurs études expérimentales de ces modes de désintégrations au début du XXème siècle, les physiciens supposaient qu’il s’agissait de désintégrations à deux corps, à savoir le noyau fille de la
désintégration accompagné soit d’un électron, soit d’un positron, suivant le cas. Par conséquent,
sur base purement cinématique, le spectre d’émission, du rayonnement β ± par exemple, devrait
être discret, alors qu’expérimentalement il était observé comme étant continu, ce qui a constitué
un réel paradoxe pendant longtemps, à tel point que même des gens aussi prestigieux que Niels
Bohr (1885-1962) sont allés jusqu’à proposer que les principes de conservation de l’énergie et
de la quantité de mouvement sont violés dans le monde microscopique. Il aura fallu attendre
1930 pour que Wolfgang Pauli (1900-1958) propose4 l’existence d’une troisième particule, neutre
électriquement et n’ayant pratiquement aucune interaction pour avoir échappé à toute détection
jusqu’alors, produite conjointement avec le rayonnement β ± , à savoir le neutrino. La motivation
principale de Pauli pour une hypothèse aussi audacieuse était évidemment le souci de préserver
les lois de conservation de l’énergie et de la quantité de mouvement (et également du moment
angulaire, ce qui nécessite que le neutrino ait un spin 1/2 tout comme l’électron, car en effet sinon
cette loi de conservation serait violée dans les désintégration β ± ). Il aura fallu attendre 1956 pour
que l’existence de cette particule élusive entre toutes soit finalement établie expérimentalement
en observant ses interactions dans une cible fort dense.
2.1.3
Diffusion de deux corps
Considérons maintenant une réaction de diffusion de deux corps, à nouveau le cas le plus simple
étant la production de deux autres corps dans l’état final,
X1 + X2 → Y1 + Y2 .
(2.81)
Les masses des particules initiales, X1 et X2 , et finales, Y1 et Y2 , sont désignées par M1 , M2 et
m1 , m2 , respectivement, tandis que leurs énergies-moments sont, dans le même ordre,
X1 :
pµ1
=
p01
p~1 c
!
, X2 :
pµ2
=
p02
~p2 c
!
, Y1 :
q1µ
=
q10
~q1 c
!
, Y2 :
q2µ
=
!
q20
,
~q2 c
(2.82)
les conditions cinématiques de conservation de l’énergie-moment totale étant
pµ1 + pµ2 = q1µ + q2µ .
(2.83)
Par définition, la valeur Q d’une telle réaction est donnée par la différence des énergies de
masse totales initiales et finales, soit
Q = [M1 + M2 ] c2 − [m1 + m2 ] c2 .
(2.84)
Cependant, contrairement au cas de la désintégration d’une particule, de telles réactions de
diffusion sont possibles également pour des valeurs strictement négatives de Q, à condition,
4
Dans une lettre restée célèbre, qu’il adressait à ses collègues rassemblés pour une rencontre scientifique à laquelle
il s’excusait de ne pouvoir participer, étant retenu à Zürich... parce qu’en réalité il allait à un bal où il avait invité
sa future épouse!
80
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
Figure 2.2: Cinématique de la diffusion de deux corps en deux corps, dans le référentiel du centre
de masse, et dans le référentiel inertiel de la cible.
évidemment, que l’énergie totale disponible pour la réaction dans le référentiel inertiel du centre de masse soit au moins égale à la somme des énergies de masse des particules finales, ces
dernières pouvant alors être produites à l’arrêt dans ce référentiel. Néanmoins, tout comme dans
le cas de désintégrations, si le référentiel considéré n’est pas celui du centre de masse, l’énergie
cinétique associée au mouvement du centre de masse n’est pas disponible pour la réaction ellemême, mais reste affectée au mouvement du centre de masse également après que la réaction ait
eu lieu, puisque l’énergie-moment total du système, qui est celui de son centre de masse, doit être
conservé.
√
L’énergie totale disponible pour la réaction est en fait donnée par la quantité s où s est
définie par
s = (p1 + p2 )2 = (q1 + q2 )2 .
(2.85)
√
En effet, cette quantité s est un invariant relativiste, qui coı̈ncide précisément avec l’énergie
q2∗
totale disponible dans le référentiel du centre de masse car nous avons alors p~1∗ + ~p2∗ = ~0 = ~q1∗ + ~
et donc
√
∗0
∗0
∗0
s = p∗0
(2.86)
1 + p2 = q 1 + q 2 .
En d’autres mots, la condition physique pour l’existence d’une réaction telle que (2.81) est donnée
par
√
√
s − [m1 + m2 ] c2 ≥ 0 ou encore Q ≥ [M1 + M2 ] c2 − s,
(2.87)
√
2
où nécessairement (M1 + M2 )c − s ≤ 0. Cette condition généralise donc celle Q ≥ 0 dans le cas
√
de réactions de désintégration d’une seule particule, pour lequel s vaut alors l’énergie de masse
de cette particule initiale. Lorsque Q > 0, on parle ainsi d’une réaction exotherme ou encore
exothermique, tandis que si Q < 0 la réaction est dite endotherme ou encore endothermique.
Référentiel du centre de masse
De manière explicite maintenant, considérons tout d’abord le choix du référentiel du centre
de masse (voir Fig. 2.2), donc tel que p~1∗ + p~2∗ = ~0 = ~q1∗ + ~q2∗ . La condition de conservation de la
quantité de mouvement implique donc
~q2∗ = −~q1∗ ,
(2.88)
laissant ainsi la condition de conservation de l’énergie à résoudre,
q
(~
q1∗ c)2 + (m1 c2 )2 +
q
(~q1∗ c)2 + (m2 c2 )2 =
√
s.
(2.89)
Par conséquent pour la réaction (2.81), une fois la direction d’émission q̂1∗ = ~q1∗ /|~q1∗ | de la particule
Y1 fixée, celle de la particule Y2 lui est opposée, tandis que la valeur commune de leur quantité
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
81
de mouvement |~
q1∗ |c est fixée par cette dernière équation de conservation de l’énergie. La seule
liberté cinématique pour une telle diffusion de deux corps en deux corps est dans la direction
d’émission de l’une des particules finales.
La résolution de la condition (2.89) est immédiate, et conduit aux expressions suivantes,
i
1 h
q1∗0 = √ s + (m1 c2 )2 − (m2 c2 )2 ,
2 s
(2.90)
i
1 h
q2∗0 = √ s + (m2 c2 )2 − (m1 c2 )2 ,
2 s
(2.91)
1
|~
q1∗ |c = √ λ1/2 s, (m1 c2 )2 , (m2 c2 )2 ,
2 s
(2.92)
la fonction λ(x, y, z) étant définie en (2.12).
A titre d’exemple, considérons les réactions
e+ + e− → µ+ + µ−
,
e+ + e− → γ + γ,
(2.93)
à l’énergie maximale à laquelle l’accélérateur du LEP – Large Electron Positron collider – au
CERN – Centre Européen pour la Recherche Nucléaire, Genève, Suisse – a fonctionné jusqu’au
début novembre 2000, dans une configuration de deux faisceaux d’énergies égales correspondant
donc au référentiel inertiel du centre de masse,
√
s = 200 GeV.
(2.94)
Sur base des expressions établies ci-dessus ainsi que des masses de ces diverses particules, nous
avons alors pour la première réaction
qµ∗0+ = qµ∗0− = 100 GeV
,
|~qµ∗+ |c = |~qµ∗− |c = 99,9999 GeV,
βµ∗+ = βµ∗− = 1 − 5,6 · 10−7
, γµ∗+ = γµ∗− = 946,43,
(2.95)
(2.96)
tandis que pour la seconde les deux photons sont produits avec des énergies et quantités de
mouvements toutes égales à 100 GeV.
De même, on peut considérer l’annihilation e+ − e− en deux photons dans la limite de
√
particules initiales au repos, correspondant à s = 2me c2 = 1 022 keV. Dans ce cas, on assiste à
la production de deux photons émis dans des directions opposées, chacun possédant une énergie et
une quantité de mouvement égales à me c2 = 511 keV. Ce processus est à la base de l’application
médicale de tomographie par positrons (PET, pour “positron emission tomography”), dans laquelle les photons de 511 keV ainsi émis dans l’annihilation de positrons avec des électrons d’un
tissu biologique, ces positrons étant produits dans la désintégration d’un noyau radioactif implanté
dans ce tissu, permettent de reconstruire la densité de tissu dans la région de production de ces
photons et d’identifier les régions d’activité biologique où s’implante de préférence l’agent traceur
radioactif.
Référentiel de la cible
Dans le cas de réactions de diffusion telles celle en (2.81), un autre choix de référentiel inertiel
souvent rencontré est celui pour lequel l’une des deux particules initiales, X2 par exemple, est
au repos – p02 = M2 c2 et p~2 = ~0 – et joue donc rôle de cible tandis que l’autre particule, X1
82
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
en l’occurrence, celui de projectile (voir Fig. 2.2). Pour un tel choix de référentiel – appelons-le
“référentiel de la cible” –, l’énergie invariante de la réaction est donnée par
√
s = (p1 + p2 )2 = (p01 + p02 )2 − (~
p1 c)2 = (M1 c2 )2 + (M2 c2 )2 + 2(M2 c2 )E1 ,
(2.97)
T1 = E1 − M1 c2 étant donc l’énergie cinétique du projectile, tandis que E1 = p01 désigne son
énergie relativiste.
Pour obtenir la solution aux conditions cinématiques (2.83) dans le référentiel de la cible,
il suffirait de considérer la solution explicite donnée en (2.90), (2.91) et (2.92) dans celui du
centre de masse, et de lui appliquer la transformation spéciale de Lorentz amenant la particule
X2 au repos. Cette transformation est donc associée à la direction p̂1 = ~p1 /|~
p1 | du mouvement
~ = p~ ∗ c/p∗0 et un facteur de dilatation relativiste
de la particule X1 , avec une vitesse normalisée β
2
1
2
γ = p∗0
2 /(M2 c ). Les expressions correspondantes n’étant pas d’un intérêt immédiat ici, nous
nous retenons de les donner, et laissons au lecteur le soin de les établir comme exercice utile.
Cependant, afin d’illustrer que l’approche alternative qui consiste en la résolution explicite
des conditions (2.83) dans le référentiel de la cible n’est pas fort élégante, considérons la condition
de conservation de l’énergie
q
(~q1
c)2
+ (m1
c2 )2
+
q
(~
q1 c)2 + (~
p1 c)2 − 2|~
p1 c||~q1 c| cos θ + (m2 c2 )2 = E1 + M2 c2 ,
(2.98)
dans laquelle celle de conservation de la quantité de mouvement,
~q2 = ~p1 − ~q1
(2.99)
est déjà utilisée, l’angle θ étant donc celui défini par les deux vecteurs ~q1 et ~p1 et qui mesure la
direction d’émission de la particule Y1 par rapport à celle du mouvement de X1 dans le référentiel
de la cible. Introduisant alors l’invariant relativiste,
p1 c)2
A = E12 + (M2 c2 )2 + 2(M2 c2 )E1 + (m1 c2 )2 − (m2 c2 )2 − (~
= (M1 c2 )2 + (M2 c2 )2 + (m1 c2 )2 − (m2 c2 )2 + 2(M2 c2 )E1
=
(2.100)
√
s + (m1 c2 )2 − (m2 c2 )2 ,
l’on peut obtenir, après quelques lignes de calculs,
|~q1 |c =
1
1
2 (E1 +M2 c2 )2 −|~
p1 c|2 cos2 θ ×
h
i
p1 c|2 cos2 θ) ,
A|~
p1 c| cos θ + (E1 + M2 c2 ) A2 − 4(m1 c2 )2 ((E1 + M2 c2 )2 − |~
(2.101)
expression qui, à son tour, permettrait l’évaluation des énergies q10 et q20 des particules produites,
que nous ne donnons pas ici non plus.
×
p
Malgré le peu d’élégance de ce résultat, appliquons-le à la réaction d’annihilation électronpositron
e+ + e− → γ + γ,
(2.102)
dans le référentiel de la cible, l’électron étant considéré ici comme étant la particule au repos. Le
résultat (2.101) se réduit alors à l’expression
|~
q1 |c = me c2 1+
Ee
m c2
e
|~
pe |c
Ee
me c2 − me c2
1+
cos θ
,
(2.103)
83
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
me , Ee et p~e étant donc les masse, énergie et quantité de mouvement du positron incident, et θ
l’angle d’émission d’un des deux photons dans l’état final, cet angle étant mesuré par rapport à
la direction incidente du positron. En particulier, dans la limite où le positron est lui aussi au
repos au moment de l’annihilation, p~e = ~0, par exemple lorsque l’électron et le positron forment
un état lié analogue à l’atome d’hydrogène appelé “positronium”, nous retrouvons le résultat
déjà discuté plus haut dans le référentiel du centre de masse pour cette réaction, à savoir que les
deux photons produits partagent alors à parts égales l’énergie de masse totale disponible 2me c2 ,
possédant ainsi chacun une énergie me c2 = 511 keV.
Un autre exemple de processus de grand intérêt en physique, entre autre comme moyen
de détection de rayonnements, est celui de la diffusion Compton (Arthur Compton (1892-1962))
d’un photon sur un électron au repos
γ + e− → γ + e− .
(2.104)
Si θ désigne l’angle de diffusion du photon réfléchi par rapport à la direction de celui incident
– la particule Y1 ci-dessus étant donc associée au photon dans l’état final –, le résultat (2.101)
conduit à l’expression suivante pour l’énergie Eγ′ du photon diffusé,
Eγ′ = |~q1 |c =
1+
Eγ
Eγ
(1 −
me c2
cos θ)
,
(2.105)
Eγ étant bien sûr l’énergie du photon incident. Evaluant alors l’énergie de l’électron dans l’état
final, son énergie cinétique est donnée par
Te′ =
Eγ2
(1 − cos θ)
me c2
.
Eγ
1 + me c2 (1 − cos θ)
(2.106)
Par conséquent, lorsque l’angle de diffusion est nul – diffusion vers l’avant, θ = 0 –, en réalité
aucune interaction avec l’électron n’a lieu puisqu’aussi bien le photon que l’électron maintiennent
leurs valeurs initiales d’énergie et de quantité de mouvement. Par contre, c’est pour un angle de
diffusion de θ = π radians, c’est-à-dire pour une diffusion à 180 degrés dans laquelle l’électron
recule dans la direction incidente du photon, que l’énergie de recul de l’électron est la plus grande,
et celle du photon diffusé la plus petite, respectivement,
E2
θ=π:
Te′ =
2 meγc2
1+
E
2 meγc2
, Eγ′ =
Eγ
E
1 + 2 meγc2
.
(2.107)
Ainsi par exemple, pour un photon incident de 40 keV, l’énergie cinétique maximale de recul
de l’électron est de 5,415 keV et celle minimale du photon de 34,585 keV, sachant que me c2 =
511 keV.
Evidemment, bien d’autres situations encore de diffusion à deux corps pourraient être considérées, comme par exemple la diffusion élastique de deux protons, p + p → p + p, que nous ne
discutons pas ici. Rappelons néanmoins que bien que les relations cinématiques qui soient correctes dans toutes les situations sont celles relativistes, lorsqu’on étudie une situation physique
pour laquelle les énergies cinétiques en jeu sont très faibles devant les énergies de masse des particules impliquées, T ≪ mc2 ou encore γ ≃ 1 et β ≪ 1, il est parfaitement justifié de considérer des
relations cinématiques non relativistes, qui dans certaines situations entraı̂nent des manipulations
algébriques quelque peu moins laborieuses que celles relativistes, pour autant que l’on maintienne
explicites dans les bilans d’énergie les contributions des énergies de masse des particules, comme
nous l’avons déjà indiqué dans la section 2.1.1 dans le cas de la désintégration en deux corps.
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
2.2
84
Probabilités de transitions
Les situations cinématiques rencontrées dans les divers processus de désintégration et de diffusion
discutés dans la section 2.1 montrent donc qu’en général les énergies et quantités de mouvement
des particules dans l’état final dépendent des directions relatives dans lesquelles elles sont émises,
ces directions étant elles-mêmes relatives aux directions des particules incidentes dans l’état initial.
Pour des valeurs données de ces directions, ainsi que souvent des quantités de mouvement d’un
sous-ensemble des particules dans l’état final, la configuration cinématique complète de cet état
peut être déterminée par les conditions de conservation des énergie et quantité de mouvement
totales.
Pourtant, rien dans ces contraintes cinématiques ne permet de déterminer ces directions
angulaires et quantité de mouvement qui doivent être spécifiées. En d’autres termes, ce qui
détermine la distribution angulaire spatiale des produits de désintégration ou de diffusion, et au
travers de celle-ci la cinématique de ces produits, sont les propriétés physiques des interactions
responsables du processus observé. En particulier, ces processus étant du domaine de la physique
corpusculaire à ses plus petites échelles de distances, les interactions qui leurs sont associées
doivent être décrites dans le cadre de la mécanique quantique, faisant l’objet d’un autre cours de
physique. L’une des caractéristiques fondamentales de la mécanique quantique est que les propriétés physiques de la matière doivent être comprises en terme de probabilités. Par conséquent,
la mécanique quantique associe, avec des règles discutées dans les cours de mécanique quantique
et de théories quantiques des champs relativistes, une certaine probabilité que telle réaction entre
particules ait lieu avec telle distribution des particules produites, et ce y compris les propriétés
physiques de ces particules autres que celles purement cinématiques considérées jusqu’ici, comme
par exemple les états de polarisation de spin de ces particules, ou le fait que ce soit un type
de particule plutôt qu’un autre qui soit produit, etc. C’est ainsi que les règles de la mécanique
quantique ainsi que la description quantique des interactions fondamentales permettent, d’une
manière que nous ne discuterons pas ici, de déterminer les probabilités d’observer les diverses
classes de réactions entre particules ci-dessus dans leurs configurations cinématiques physiquement accessibles sur base de la conservation de l’énergie-moment total de tels systèmes.
Les règles de la mécanique quantique non relativiste et relativiste sont développées dans
d’autres cours de physique, où il est alors expliqué de quelle manière, dans ce dernier cas, la quantification de champs relativistes permet de développer une mécanique quantique relativiste pour
la description des particules et de leurs interactions. C’est dans ce contexte finalement, que les
diverses distributions de probabilités mentionnées ci-dessus peuvent être calculées explicitement,
avec des techniques appropriées de théories quantiques des champs.
Néanmoins, sans pouvoir calculer ces probabilités, il reste possible de les définir en indiquant de quelle manière elles sont associées aux divers processus de désintégration et de diffusion
considérés jusqu’ici. C’est ainsi qu’en particulier, d’une part pour une désintégration, on peut
caractériser la probabilité de désintégration d’une particule, conduisant à la notion de son temps
de vie, et d’autre part pour une diffusion entre particules, on peut caractériser la probabilité de
les voir diffuser dans certaines directions avec certaines énergies, conduisant à la notion de section
efficace. Ce sont ces deux notions qui sont discutées dans cette section.
2.2.1
Temps de vie
Considérons un processus donné de désintégration d’une particule spécifique, tel les exemples des
sections 2.1.1 et 2.1.2, pour un nombre arbitraire n ≥ 2 de particules dans l’état final,
X → X1 + X2 + · · · + Xn .
(2.108)
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
85
Comme indiqué à plusieurs reprises, un tel processus est possible en raison, d’une part, des propriétés relativistes des particules, et d’autre part, des propriétés quantiques de leurs interactions.
Si la nature était soit non relativiste, ou soit non quantique, de tels phénomènes observés ne
pourraient pas trouver d’explication.
En particulier, les propriétés quantiques associent une probabilité à cette réaction de conversion d’énergie de masse en énergies de masses et cinétiques des particules produites. Le point
important ici est que cette probabilité est indépendante du temps. En effet, puisque les lois de
la physique doivent être indépendantes du choix de référentiel inertiel, et donc en particulier du
choix d’une origine dans la mesure des temps – condition qui garantit la conservation de l’énergie,
en vertu du théorème d’Emmy Noether (1882-1935) valable également en mécanique relativiste, à
condition que les interactions fondamentales, et non seulement l’espace-temps, soient invariantes
sous les translations dans le temps –, les équations de la mécanique quantique doivent posséder
cette invariance, et par conséquent la probabilité de désintégration d’une particule donnée en
une collection donnée d’autres particules ne peut dépendre du temps: il ne peut s’agir que d’un
nombre qui n’est pas fonction du temps.
En termes physiques, cette propriété se traduit de la manière suivante. Aussi longtemps
qu’ait déjà pu exister la particule observée, la probabilité qu’elle se désintègre dans le mode
considéré reste identique à chaque instant. Tant qu’elle ne s’est pas encore désintégrée, elle garde
à chaque instant la même probabilité de se désintégrer. Si l’on compare une telle situation à toute
vie biologique, force est de constater que les particules élémentaires tout simplement ne vieillissent
pas! A chaque instant elles ont toujours la même probabilité de mourir tant qu’elles sont encore
en vie, ce qui n’est certainement pas le cas des êtres humains! Comme nous allons le voir, c’est
précisément ce caractère d’absence de vieillissement des particules instables qui explique la loi
radioactive de désintégration d’une population de particules identiques suivant une décroissance
temporelle exponentielle. Cette loi a été découverte empiriquement sur base expérimentale par
Lord Ernest Rutherford (1871-1937) en observant l’activité d’échantillons radioactifs, c’est-à-dire
le nombre de désintégrations dans cet échantillon par unité de temps.
Considérons ainsi, d’une part, la probabilité P (t) que la particule ait survécu jusqu’à
l’instant t, et d’autre part, la probabilité λ par unité de temps qu’elle se désintègre. Notons
que cette probabilité λ, donc indépendante du temps, se mesure dans les unités inverses du temps
(s−1 ) dans le Système International (S.I.) d’unités. Par conséquent, à un instant ultérieur t + dt
associé à un élément temporel dt, la probabilité que la particule ait encore survécu est donnée
par
P (t + dt) = (1 − λdt) P (t),
(2.109)
conduisant à l’équation différentielle
dP (t)
= −λ P (t),
dt
(2.110)
P (t) = P0 e−λt ,
(2.111)
dont la solution est évidemment
P0 étant la probabilité d’avoir survécu jusqu’à l’instant t = 0. Si par exemple la particule est
créée à l’instant t = 0, nécessairement P0 = 1.
Connaissant la probabilité de survie P (t), il est possible, par exemple, de calculer le temps
moyen durant lequel la particule survit depuis l’instant de sa création. Choisissant cet instant
comme étant t = 0, ce temps moyen est donc donné par
R∞
dt tP (t)
,
< t >= R0∞
0
dt P (t)
(2.112)
86
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
conduisant ainsi au temps de vie moyen τ de la particule pour le mode de désintégration considéré,
τ =< t >=
1
.
λ
(2.113)
De la même manière pour un échantillon de particules toutes identiques, le nombre N (t)
de celles ayant survécu jusqu’à l’instant t depuis leur création en nombre N0 est déterminé par
la loi exponentielle de décroissance radioactive
N (t) = N0 e−λt = N0 e−t/τ ,
(2.114)
et par conséquent, le temps de vie moyen de cet échantillon est lui aussi donné par la quantité
τ = 1/λ. Notons qu’au terme d’un temps de vie moyen, l’échantillon a décrû d’un facteur
e−1 ≃ 0,368,
N (τ ) = N0 e−1 ≃ 0,368 N0 .
(2.115)
Le temps de vie moyen, ou temps de vie tout simplement, est à comparer également au demitemps de vie ou demi-vie τ1/2 , à savoir le temps au terme duquel la population de l’échantillon a
décrû d’un facteur deux,
1
N (τ1/2 ) = N0 = N0 e−τ1/2 /τ ,
(2.116)
2
soit
1
τ ≃ 1,443 τ1/2 .
(2.117)
τ1/2 = τ ln 2 ≃ 0,693 τ , τ =
ln 2 1/2
Finalement, considérant l’équation différentielle satisfaite par P (t), ou également N (t),
dN (t)
1
= −λ N (t) = − N (t),
dt
τ
(2.118)
il apparaı̂t que la grandeur λ non seulement mesure la probabilité de désintégration par unité de
temps ou l’inverse du temps de vie τ , mais qu’elle caractérise également le taux de transition par
unité de temps de l’état initial dans l’état final, ou encore le taux de désintégration de la particule
dans le mode considéré.
Lorsqu’une même particule possède divers modes de désintégration5 distingués par un indice
i = 1, 2, · · · , N , il est clair qu’il existe ainsi un taux de transition λi associé à chacun de ces modes,
le taux de transition total étant donc donné par la somme de ces taux de transitions partiels,
λ=
N
X
λi .
(2.119)
i=1
Par conséquent, chacun de ces modes est également caractérisé par le temps de vie moyen partiel
correspondant τi = λ−1
i , le temps de vie “total” de la particule étant néanmoins donné par
τ=
1
1
.
= PN
λ
i=1 λi
(2.120)
Il est alors plus commode d’introduire les rapports de branchement de chacun des modes de
désintégration, à savoir les taux de transitions relatifs au taux total,
Bi =
5
τ
+
λi
λi
= PN
,
λ
j=1 λj
(2.121)
Nous en avons vus des exemples, tels π + → µ+ + νµ et π + → e+ + νe , ou encore τ + → µ+ + νµ + ν τ et
→ e + + νe + ν τ .
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
87
de telle manière que λi = Bi λ = Bi /τ . C’est ainsi que les valeurs tabulées des propriétés
de particules instables reprennent les valeurs du temps de vie moyen ainsi que des rapports de
branchement de leurs divers modes de désintégration.
A titre d’exemple, le temps de vie moyen du π + est de τ (π + ) = 26 · 10−9 s, avec les rapports
de branchement des modes dominants suivants
B(π + → µ+ + νµ ) = 0,99987,
B(π + → µ+ + νµ + γ) = (1,24 ± 0,25) · 10−4 ,
B(π +
→
e+
+ νe ) = 1,23 ·
(2.122)
10−4 ,
B(π + → e+ + νe + γ) = 1,61 · 10−7 .
De même, les temps de vie moyens du µ+ et τ + sont, respectivement, τ (µ+ ) = 2,197 · 10−6 s
et τ (τ + ) = 290 · 10−15 s, montrant que les temps de vie des particules élémentaires peuvent
facilement varier sur plusieurs ordres de grandeurs. Plus tard au chapitre 3, nous indiquerons
quelques-uns des facteurs physiques qui fixent les échelles de ces temps de vie.
Evidemment, de telles considérations sont également valables pour les noyaux atomiques.
Ainsi par exemple
τ (n) ≃ 887 s
τ (3 H) = 17,8 années
τ (238 U ) = 6,446 · 109 années
,
,
,
τ1/2 (n) ≃ 615 s,
τ1/2 (3 H) = 12,33 années,
(2.123)
τ1/2 (238 U ) = 4,468 · 109 années,
montrant que la disparité dans ces valeurs peut être énorme, et pourtant, une explication peut
en être donnée dans le cadre de la physique nucléaire, en terme de phénomènes quantiques (effet quantique tunnel dans le cas des désintégrations α) et des intensités des trois interactions
fondamentales pouvant être responsables de telles désintégrations.
L’utilité de ces notions de temps de vie, de taux de transition et de rapports de branchement
est fort large, avec évidemment de nombreuses applications concrètes. Mentionnons ici simplement le cas de la datation radioactive au 14 C, dont la production dans la haute atmosphère par
les rayons cosmiques est relativement stable sur des milliers d’années et dont l’absorption par les
tissus vivants cesse à leur mort. Le temps de vie τ (14 C) étant de 5 730 années, en comparant
alors la proportion de 14 C par rapport au 12 C stable dans l’échantillon – en mesurant l’activité
du 14 C –, il devient possible d’évaluer l’âge du spécimen sachant que cette proportion lors de la
vie du spéciment avait atteint une saturation à l’équilibre de valeur connue. Cette méthode est
fiable sur des échelles de quelques dizaines de milliers d’années, mais ne l’est pas pour le passé
récent, en raison de la production humaine accrue de carbone dans l’atmosphère contenant donc
une proportion différente de 14 C relative au 12 C, surtout depuis les tests nucléaires des années
1950 et 1960.
Pour la datation radioactive des âges géologiques, c’est-à-dire de l’ordre de plusieurs centaines de millions d’années, voire le milliard d’années, il faut avoir recours à des méthodes plus
élaborées, qui considèrent des chaı̂nes de désintégrations radioactives dans lesquelles les produits
de désintégration sont à leur tour instables avec leurs temps de vie propres, conduisant ainsi à des
proportions de produits radioactifs qui varient en fonction du temps, permettant ainsi, une fois
les temps de vie connus, de déterminer l’âge d’échantillons datant de plusieurs millions d’années.
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
88
A titre d’illustration, considérons une telle situation où nous avons
λ
X1 →1 X2 +Y ,
↓
(2.124)
λ2
X2 → X3 + Z,
les particules X3 , Y et Z étant donc stables. A chacune de ces désintégrations est associé un taux
de transition λ1 et λ2 , respectivement, conduisant donc aux équations suivantes pour l’évolution
temporelle des populations N1 (t) et N2 (t) des particules X1 et X2 dans l’échantillon,
dN2 (t)
dN1 (t)
= −λ1 N1 (t) ,
= −λ2 N2 (t) + λ1 N1 (t).
dt
dt
(2.125)
Etant donné les valeurs initiales N10 et N20 de ces populations à l’instant t = 0, celles-ci évoluent
suivant les lois de désintégration suivantes,
N1 (t) = N10 e−λ1 t , N2 (t) = N20 +
λ1
λ1
N 0 e−λ2 t −
N 0 e−λ1 t .
λ1 − λ2 1
λ1 − λ2 1
(2.126)
Ainsi par exemple, si à l’instant initial t = 0 l’on crée uniquement des particules de type X1 en
nombre N10 et qu’on les laisse se désintégrer, les populations de l’échantillon au cours du temps
sont données par
N1 (t) = N10 e−λ1 t , N2 (t) =
h
i
λ1
N10 e−λ2 t − e−λ1 t .
λ1 − λ2
(2.127)
En fonction du rapport des taux de transitions λ1 /λ2 , surtout si ceux-ci sont comparables,
l’évolution de la population N2 (t) relative à N1 (t) possède donc la dépendance temporelle caractéristique
h
i
λ1
N2 (t)
=
1 − e−(λ2 −λ1 )t ,
(2.128)
N1 (t)
λ2 − λ1
permettant le cas échéant la détermination de l’âge de l’échantillon.
Dans des cas bien plus complexes, ce sont exactement les mêmes réseaux d’équations
couplées de désintégrations de populations qui s’utilisent, par exemple également pour calculer
l’évolution temporelle des combustibles et des déchets nucléaires dans les centrales nucléaires
électriques, ou d’autres sources de radioactivité encore dans lesquelles plusieurs produits de
désintégration coexistent et se régénèrent mutuellement par chaı̂nes de désintégrations successives.
Ces désintégrations soulèvent évidemment la question de l’activité radioactive d’échantillons
et des risques qu’ils présentent pour la santé. Par définition, l’activité d’un échantillon est le
nombre de désintégrations observées par unité de temps, soit en général Ai (t) = λi Ni (t) où
Ni (t) désigne donc le nombre total, à savoir la population de toutes les particules de type i
possédant un taux de désintégration λi par unité de temps. Dans le cas particulier d’une chaı̂ne
de désintégration à un seul niveau, cette activité peut encore s’exprimer comme
A(t) = λ N (t) = −
dN (t)
,
dt
(2.129)
où N (t) est la somme des nombres de toutes les particules instables dans l’échantillon. Dans le
cas d’un seul élément qui se désintègre, nous avons donc
A(t) = λ N0 e−λt ,
(2.130)
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
89
Figure 2.3: Réaction à deux corps et section efficace.
indiquant la décroissance exponentielle de cette activité avec le même temps de vie moyen τ = 1/λ
que celui des éléments responsables de cette activité.
L’unité de mesure S.I. d’une activité est le becquerel (Bq), soit une désintégration par
seconde. Cependant, une autre unité est plus courante, pour des raisons historiques, à savoir le
curie (Ci), défini par
1 Ci = 1 curie = 3,7 · 1010 Bq.
(2.131)
Des sources radioactives typiques utilisées pour diverses calibrations ont des activités de l’ordre
de quelques microcuries (µCi) à quelques millicuries (mCi).
Cependant, afin de caractériser les risques que posent les radiations nucléaires, l’activité
d’un échantillon ne suffit pas. En effet, les dégâts potentiels causés dépendent bien plus de la
nature du rayonnement – masse, charge et énergie des particules produites – et de la manière
dont il interagit avec le tissu biologique et y dépose donc une partie de son énergie conduisant à
une destruction partielle ou totale de la structure moléculaire de cellules. L’activité d’une source
radioactive est donc bien un indicateur du risque potentiel qu’elle pose, mais une caractérisation
précise et correcte des dégâts occasionnés doit faire intervenir ces autres éléments physiques, qui
doivent être calibrés en terme d’unités de mesure appropriées. Ces aspects débordent quelque
peu les objectifs de ce cours, et font l’objet d’un cours spécifique de radioprotection.
2.2.2
Section efficace
Considérons un processus de diffusion de deux corps en n corps,
X1 + X2 → Y1 + Y2 + · · · Yn ,
(2.132)
et, de manière à être spécifique, considérons-le dans le référentiel de la cible X2 . Dans la pratique,
une telle réaction est réalisée en envoyant un faisceau de particules X1 sur une cible de particules
X2 , et en observant et identifiant les produits de réactions émis dans les directions de l’espace
(voir Fig. 2.3).
Le faisceau est caractérisé par son intensité I, à savoir le nombre I de particules X1 traversant par unité de temps une surface unité qui leur est perpendiculaire. L’on suppose par ailleurs
que le faisceau possède une intensité uniforme sur la section transverse de la cible, et que toutes
ces particules possèdent la même quantité de mouvement, et donc la même énergie. La cible est
caractérisée par le nombre Ncible de particules X2 qu’elle contient, et sur lesquelles la réaction
de diffusion observée peut avoir lieu. Finalement, pour une distribution cinématique donnée
des particules émises, caractérisée entre autre par les directions d’émission p̂i des particules Yi
(i = 1, 2, · · · , n), l’on observe un certain nombre d’événements dN (p̂i ) par unité de temps associés
à des éléments d’angle solide dΩp̂i définis par les directions p̂i . Il est clair que ce nombre dN (p̂i )
d’événements est proportionnel à la fois à l’intensité I du faisceau, au nombre Ncible de particules
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
90
dans la cible, et au produit ni=1 dΩp̂i des éléments d’angle solide des particules observées. Ainsi,
l’élément dσ(p̂i ) de section efficace associée à cette configuration cinématique pour la réaction de
diffusion est défini par
dN (p̂i )
dσ(p̂i ) =
,
(2.133)
INcible
Q
une grandeur qui mesure donc la section efficace – c’est-à-dire la section transverse efficace en
terme de surface – qu’offre chaque particule X2 de la cible à chaque particule X1 du faisceau
vis-à-vis de la réaction considérée et pour la configuration cinématique définie par les directions d’émission p̂i des particules Yi (i = 1, 2, · · · , n). Par ailleurs, cette section efficace peut
également dépendre de l’énergie du faisceau incident, ainsi que des énergies des particules finales,
ces dernières étant en partie fonction des angles d’émissions relatifs entre celles-ci ainsi que par
rapport à la direction du faisceau incident, en raison des contraintes cinématiques de conservation
des énergie et quantité de mouvement totales de la réaction.
Q
Finalement, puisque dσ(p̂i ) est encore proportionnel au produit ni=1 dΩp̂i , l’on peut considérer la section efficace différentielle par unité d’angle solide dΩp̂i définie par
dN (p̂i )
1
dσ(p̂i )
Qn
=
.
IN
dΩ
cible
p̂i
i=1
i=1 dΩp̂i
Qn
(2.134)
Evidemment, les mêmes considérations peuvent s’appliquer à la somme de tous les événements pour des angles solides couvrant tout l’espace pour chacune des particules produites,
conduisant ainsi à la section efficace totale, ou encore simplement la section efficace – celle cidessus étant distinguée par le mot “différentielle” –, définie par
σ=
n
Y
dσ(p̂i )
.
dΩp̂i Qn
(∞) i=1
i=1 dΩp̂i
Z
(2.135)
Cette quantité mesure donc la section efficace qu’offre chaque particule X2 de la cible vis-à-vis
de chaque particule X1 du faisceau pour la réaction considérée, quelles que soient les directions
d’émissions des particules Yi produites.
Sur base de ces définitions, il est évident que ces sections efficaces possèdent la dimension
physique d’une surface, se mesurant dans le S.I. en mètres carrés dans le cas de la section efficace
totale, et en mètres carrés par puissances de stéradians pour les sections efficaces différentielles.
Cependant une unité de section efficace – donc de surface – mieux adaptée au monde microscopique est le barn, défini par
1 barn = 10−28 m2 = 10−24 cm2 ,
(2.136)
qui s’avère être une valeur de section efficace caractéristique de la physique atomique6 .
Cette notion de section efficace n’est en soi pas liée à la mécanique quantique, et peut être
définie en mécanique classique, que cette dernière soit relativiste ou non. Par exemple, considérons
une cible simplement constituée d’un disque plein de rayon R placée perpendiculairement à un
faisceau de particules (voir Fig. 2.4), et imaginons que la masse totale du disque soit essentiellement infinie par rapport à celle de chacune des particules incidentes, et que les collisions soient
élastiques, sans modification ni de l’état du disque et ni de celui des particules incidentes. Dans
ce cas, celles parmi ces dernières qui rentrent en collision avec le disque rebondissent dessus pour
6
Sachant que le rayon typique d’un atome est de l’ordre de quelques 10−10 m, la section transverse qu’il offre
est de π · 10−20 m2 , et incluant encore un facteur α2 ≃ 10−4 , α ≃ 1/137 étant la constante de structure fine
caractéristique des interactions électromagnétiques, on aboutit effectivement à des sections efficaces de l’ordre de
quelques dizaines de barns.
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
91
Figure 2.4: Section efficace d’un disque plein.
exactement rebrousser chemin avec la même norme en vitesse, tandis que celles qui ne rencontrent
pas le disque poursuivent leur trajectoire comme si le disque n’était présent. En considérant alors
le nombre d’événements de collisions sur le disque par unité de temps et normalisé à l’intensité I
du faisceau, il est clair que la section efficace (totale) pour cette réaction est simplement donnée
par la surface qu’offre effectivement le disque au faisceau, soit πR2 si le disque lui est perpendiculaire, et sinon incluant un facteur de réduction cos θ s’il est incliné d’un angle θ par rapport à
cette direction. Ainsi, la notion de section efficace est bien celle suggérée par son nom même: il
s’agit de la section transverse qu’offre la cible de manière efficace à la réaction considérée.
En raison de la définition de section efficace, il est clair qu’il s’agit d’un notion statistique.
Un grand nombre d’événements est considéré, pour une distribution uniforme dans le faisceau
incident, conduisant à des réactions dont la configuration cinématique des particules produites
peut varier en fonction de paramètres liés à la position des particules incidentes par rapport à
la particule cible. En d’autres mots, étant de nature statistique, cette notion trouve un terrain
d’application idéal également en mécanique quantique, puisqu’il faut alors associer à une configuration cinématique donnée une notion de probabilité, et une distribution de probabilités pour
toutes les configurations cinématiques finales possibles. Répétant alors l’expérience un grand
nombre de fois, un échantillon statistique est obtenu, dont les distributions statistiques sont bien
sûr des mesures des probabilités quantiques. C’est ainsi qu’en mécanique quantique l’on peut
caractériser les observables de réactions entre particules en terme des sections efficaces totales et
différentielles correspondantes, et, sur base des règles de la mécanique quantique – relativiste ou
non –, calculer ces dernières.
Par extension, les mêmes considérations quant aux distributions des produits de réactions
peuvent s’appliquer au cas de désintégrations de particules. Ainsi, pour une désintégration donnée
en n corps,
X → Y1 + Y2 + · · · Yn ,
(2.137)
outre le taux de désintégration λ, on peut lui faire correspondre les distributions de probabilités
dΓ
i=1 dΩp̂i
Qn
(2.138)
associées aux configurations cinématiques de directions p̂i des particules finales, de telle manière
que nous avons bien sûr,
Z
n
Y
dΓ
.
(2.139)
λ=Γ=
dΩp̂i Qn
(∞) i=1
i=1 dΩp̂i
Ainsi, les grandeurs dΓ/ ni=1 dΩp̂i mesurent, pour la réaction considérée, les taux de désintégration par unité de temps et par unité d’angle solide des particules émises, d’une façon similaire à
Q
la notion de section efficace différentielle dσ(p̂i )/ ni=1 dΩp̂i vis-à-vis de la section efficace totale
σ. Ce sont donc ces observables qui sont du ressort direct de la mécanique quantique – relativiste
ou non relativiste – et de ses prédictions.
Q
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
92
Diffusion Rutherford
Il existe une autre situation, extrêmement importante à divers titres, pour laquelle il est
possible de calculer explicitement la section efficace en mécanique classique non relativiste, à
savoir la diffusion de deux points matériels de masses m1 et m2 interagissant au travers d’une
force centrale variant comme l’inverse du carré de la distance, que cette force soit attractive ou
répulsive. Cette situation correspond donc par exemple à la force attractive de la gravitation
ou encore à la force attractive ou répulsive de Coulomb (C. A. de Coulomb (1736-1806)) entre
deux charges eZ1 et eZ2 – e > 0 étant la charge électrique du proton – de signes opposés ou
identiques, respectivement. En d’autres mots, de telles diffusions sont associées aux états non liés
du problème de Kepler correspondant dont les solutions sont bien connues.
Ainsi, si F~21 désigne la force exercée par m1 sur m2 , nous avons pour cette force centrale
conservative
r̂
~ (r) , V (r) = − α ,
(2.140)
F~21 = −α 2 = −∇V
r
r
où α est une constante positive – cas attractif – ou négative – cas répulsif – donnée dans le cas
de la force de Coulomb par
e2 Z1 Z2
,
(2.141)
α=−
4πǫ0
et ~r, avec r̂ = ~r/|~r|, est la position relative du point m2 par rapport au point m1 .
Pour facilité, choisissant de travailler dans le référentiel du centre de masse7 , l’énergie
mécanique totale mais non relativiste du système ainsi que son moment angulaire sont donnés
par
1
α
1
L2
α
E0 = µ~r˙ 2 − = µṙ 2 +
−
, L = µr 2 ϕ̇,
(2.142)
2
2
r
2
2µr
r
µ = m1 m2 /(m1 + m2 ) étant la masse réduite du système, et ϕ l’angle défini par le vecteur ~r par
rapport à la direction d’approche minimale dans le plan de son mouvement.
Nous savons que les trajectoires de ce système sont des coniques, dont l’équation polaire
est de la forme
p
, e ≥ 0, p > 0,
(2.143)
r(ϕ) =
e cos ϕ ± 1
le signe supérieur (resp. inférieur) étant associé à une valeur positive (resp. négative) de α. Les
valeurs des paramètres p et e sont liées à celles des grandeurs conservées E0 et L. Pour déterminer
ces relations, il suffit de considérer l’expression de l’énergie totale utilisant le changement de
variable t(ϕ) tel que
dϕ dr
L dr
L d
dr
=
= 2
=−
dt
dt dϕ
µr dϕ
µ dϕ
1
r
=
eL
sin ϕ.
µp
(2.144)
Après substitution de cette identité ainsi que de la paramétrisation r(ϕ) dans l’expression pour
l’énergie totale E0 , et sachant que la valeur de cette dernière est constante et donc indépendante
de l’angle ϕ, la condition d’absence de terme linéaire en cos ϕ nécessite la valeur suivante pour le
facteur d’échelle de la conique,
L2
,
(2.145)
p=
|α|µ
7
Cependant, les grandeurs dans ce référentiel ne seront pas distinguées par le symbole “∗ ”, pour ne pas alourdir
inutilement les expressions.
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
93
Figure 2.5: Diffusion dans le problème de Kepler.
tandis que l’on obtient pour son excentricité e,
e=
s
1+2
L2
E0 .
α2 µ
(2.146)
Les trajectoires de diffusion, c’est-à-dire paraboliques et hyperboliques d’excentricité égales ou
supérieures à l’unité, e = 1 ou e > 1, respectivement, sont donc celles associées à une énergie
totale E0 nulle ou strictement positive, E0 = 0 ou E0 > 0, respectivement.
Connaissant les trajectoires, il est immédiat de caractériser les angles de diffusion correspondants (voir Fig. 2.5). Les directions asymptotiques incidente et diffusée étant déterminées par
les angles ϕ∞ tels que
1
(2.147)
cos ϕ∞ = ∓ ,
e
l’angle de diffusion θ – la différence angulaire entre les directions diffusée et incidente de la particule – est donc exprimé par la relation
θ = π − 2Arccos ∓
1
.
e
(2.148)
Utilisant cette identité pour l’évaluation de π/2 − θ/2 = Arccos(∓1/e), il suit alors
L2
θ
sin = ∓ 1 + 2 2 E0
2
α µ
!−1/2
.
(2.149)
Cependant, si nous désignons par v la norme de la vitesse de la particule incidente et diffusée
pour la distance infinie, v = limr→∞ |~r˙ |, et par b le paramètre d’impact de la collision, c’est-à-dire
par définition la distance entre la cible et la direction incidente du projectile (voir Fig. 2.5), nous
pouvons également écrire,
1
E0 = µv 2
2
,
L = µbv
,
et donc
θ
E2
sin = ∓ 1 + 4 20 b2
2
α
L2 = 2µE0 b2 ,
!−1/2
.
(2.150)
(2.151)
Nous sommes maintenant en mesure de calculer la section efficace associée à de telles
diffusions (voir Fig. 2.6). En raison de la symétrie axiale du problème, pour un paramètre
d’impact b donné, considérons l’ensemble des trajectoires incidentes passant au travers d’une
région annulaire de rayon interne b et d’élément de largeur db, et donc de surface 2πbdb. Pour
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
94
Figure 2.6: Section efficace de la diffusion Rutherford.
une intensité I du faisceau incident, le nombre de particules traversant cet anneau par unité de
temps est 2πIbdb. A chacune de ces trajectoires est associé un certain angle de diffusion θ, avec
un élément de variation dθ en raison de l’élément de variation db dans le paramètre d’impact b.
Les trajectoires diffusées définissent donc un angle solide
dΩ = 2π sin θdθ,
(2.152)
conduisant ainsi à la relation suivante, en raison de la définition de la section efficace différentielle
correspondante8 ,
dσ(θ)
|,
(2.153)
|2πIbdb| = |2πI sin θdθ
dθ
soit encore
dσ(θ) b db =
.
(2.154)
dθ
sin θ dθ Or, sur base de l’identité (2.151), il est immédiat d’établir que
sin θ dθ
θ
E2
= −16 20 sin4 ,
b db
α
2
(2.155)
conduisant ainsi finalement à la section efficace différentielle recherchée,
1
α2
dσ(θ)
.
=
2
dθ
16E0 sin4 θ2
(2.156)
Ce résultat possède quelques propriétés remarquables. Tout d’abord, étant exprimé en
terme de l’énergie totale, il ne dépend en aucune manière de la masse réduite du système. Cette
expression est donc d’application dans le centre de masse du système quelles que soient les masses
des particules impliquées dans cette collision élastique. De plus, le résultat est identique que la
force soit attractive ou répulsive; la seule condition est que l’énergie totale E0 dans le centre
de masse soit positive pour que ce résultat s’applique9 . Finalement, cette section différentielle
diverge vers l’avant, θ = 0, comme 1/ sin4 (θ/2), et donc la section efficace totale – obtenue en
intégrant (2.156) par rapport à θ sur l’intervalle [0, π] radians – diverge elle aussi. Ceci est dû
au fait que nous avons assimilé les particules à des points matériels et que la force elle-même
diverge en l’origine, r = 0, et par ailleurs, que la portée de l’interaction coulombienne – et
8
Les valeurs absolues sont prises pour assurer que les nombres de particules diffusées sont comptés avec des
signes positifs.
9
Dans le cas E0 = 0, les trajectoires sont paraboliques, et la notion de directions asymptotiques incidente et
diffusée ne s’applique pas alors.
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
95
donc électromagnétique – est infinie, et donc les particules ne quittent jamais vraiment leurs
sphères d’influence respectives, même lorsque la distance tend vers l’infini. Dans la pratique,
ces conditions idéalisées ne sont évidemment pas rencontrées, ne conduisant pas à des sections
efficaces infinies. Les extensions spatiales des particules impliquent que le résultat obtenu est
modifié lorsque les énergies en jeu permettent de sonder les dimensions de ces particules, tandis
que des mesures de sections efficaces à petits angles de diffusion sont fort difficiles, les détecteurs se
trouvant alors immédiatement dans le faisceau incident. Cependant, cette dépendance angulaire
de la section efficace est caractéristique de la diffusion de points matériels interagissant avec une
force centrale variant en 1/r 2 .
Le résultat (2.156) est fort important, pour diverses raisons. Tout d’abord historiquement,
c’est encore à Rutherford que l’on doit d’avoir déterminé cette section efficace, et surtout d’avoir
montré comment l’utiliser pour l’interprétation d’expériences de diffusion qu’il réalisait. Avec la
découverte de l’électron en 1897 par J. J. Thomson (1856-1940), le concept de l’atome comme
entité élémentaire sans aucune structure interne était remis en question – alors que l’hypothèse
atomistique en tant que telle n’était pas encore admise par tous, ce pour quoi il aura fallu attendre
Einstein avec son explication du mouvement brownien en 1905 –, et la question brûlante était
donc de savoir de quoi est constitué l’atome: d’une collection d’électrons, et de quoi d’autre?
Pour J. J. Thomson, il en avait l’image d’un Christmas pudding anglais fort homogène avec
une distribution de charge électrique positive essentiellement homogène, les électrons étant dispersés comme des grains d’électricité dans le volume de l’atome. Mais pour E. Rutherford, seule
l’expérience pouvait répondre à cette question fondamentale, et utilisant une source radioactive
α – les particules α sont les noyaux de l’4 He, comme Rutherford l’aura montré ensuite, et portent
une charge électrique positive –, il en a bombardé des feuilles d’or fort minces. Si le modèle
de J. J. Thomson était correct, il faudrait s’attendre à ce que les particules α soient diffusées à
peu près de la même manière dans toutes les directions, car une fois qu’elles auraient pénétré
l’atome, elles y seraient fortement diffusées par la distribution de charge positive homogène, avec
la particularité que pratiquement aucune ne serait diffusée exactement vers l’arrière. Mais à la
grande surprise de Rutherford, comparativement très peu de particules étaient diffusés en dehors
de la direction incidente θ ≃ 0 radians, tandis que pourtant il y avait quelques diffusions exactement vers l’arrière, θ = π radians, comme si les particules α rencontraient quelques fois un objet
ponctuel considérablement plus massif qu’elles, pour rebondir vers l’arrière, à l’instar d’une balle
lancée dans un tunnel et qui y rencontrerait subitement un train à l’arrêt! Pour Rutherford,
l’interprétation de son expérience était claire: toute la masse de l’atome est concentrée en son
centre, formant ainsi le noyau atomique portant une charge électrique positive équilibrant celle
du nombre total d’électrons dans l’atome, mais en un volume extrêmement faible, mesuré plus
tard comme étant environ un facteur d’échelle de distance 10−5 plus petit que le rayon de l’atome.
Et pour confirmer son interprétation, Rutherford a montré que les résultats de ses mesures concordaient avec la prédiction de la section efficace (2.156), qui depuis porte son nom, la diffusion
Rutherford. Ainsi, à titre d’exemple, nous avons les valeurs suivantes:
θ = 180◦ :
sin−4 (θ/2) = 1
θ = 90◦ :
sin−4 (θ/2) = 4
(2.157)
θ=
30◦
:
θ = 1◦ :
−4
sin
(θ/2) ≃ 223
sin−4 (θ/2) = 1,72 · 108
illustrant l’aspect dramatique de ce que Rutherford a observé. C’est ainsi que le noyau de l’atome
est né en 1911!
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
96
Mais en fait, Rutherford a aussi eu de la chance dans cette aventure, puisqu’à cette époque
les règles de la mécanique quantique n’étaient pas encore formulées, et personne ne savait comment
calculer une section efficace quantique, alors que Rutherford s’était basé sur le calcul classique
non relativiste que nous avons fait. Ceci est donc un autre aspect remarquable de la section
efficace de Rutherford, à savoir que le calcul quantique non relativiste donne exactement le même
résultat, une autre particularité unique au problème de Kepler – ce problème étant exactement
intégrable en mécanique classique, mais également en mécanique quantique, comme le démontre
la solution de l’atome hydrogène à l’équation de Schrödinger pour ce système. Ce n’est que dans
un contexte à la fois quantique et relativiste que la section efficace de Rutherford (2.156) obtient
des corrections quantiques et relativistes liées aux constantes h̄ de la mécanique quantique et c
de la relativité, nécessairement dans les combinaisons (h̄c)/(µc2 ) et E0 /(µc2 ), des rapports sans
dimension physique qui effectivement tendent vers une valeur nulle dans la limite non relativiste
c → ∞.
La section efficace de Rutherford est donc un résultat fort “robuste”, qui dans la pratique sert à la normalisation ou la calibration d’expériences en physique nucléaire. En effet,
il s’agit d’une diffusion élastique dont la section efficace est très bien connue même pour ses
valeurs absolues, qui sont donc déterminées par la combinaison suivante des charges électriques
des particules impliquées,
!2
e2 Z1 Z2
2
,
(2.158)
α =
4πǫ0
tandis que l’énergie E0 est en général connue à partir des caractéristique et de la production du
faisceau de particules incidentes.
2.3
Mécanique quantique
Cette section n’a pas pour but, évidemment, de donner une formulation complète de la mécanique
quantique non relativiste, dont le développement est entamé dans un autre cours de physique,
mais plutôt de présenter ou rappeler quelques faits liés à cette mécanique et sur lesquels nous
nous basons dans la suite de ces notes pour certaines considérations liées de manière plus étroite
avec le sujet général de ce cours.
C’est ainsi que la formulation ondulatoire de la mécanique quantique est tout d’abord très
brièvement rappelée dans la section 2.3.1. Dans la section 2.3.2, nous décrivons très rapidement
quelques résultats fondamentaux liés à l’exemple par excellence d’un état lié quantique, à savoir
l’atome d’hydrogène, et obtenons, à l’aide du modèle de Bohr, quelques-unes des caractéristiques
de base de ce système. A nouveau, ces quelques considérations seront bienvenues lors de la
discussion, au chapitre 3, des propriétés des particules élémentaires et de la caractérisation de
leurs interactions fondamentales en terme de quelques échelles typiques de grandeurs.
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
2.3.1
97
Equation de Schrödinger et fonction d’onde
Dans la représentation ondulatoire10 de la mécanique quantique, l’objet central pour la description
d’un système est la fonction d’onde ψ(~xi , t) associée à ses degrés de liberté ~xi (t) (i = 1, 2, · · · , N ),
une fonction complexe de ces variables ainsi que du temps. En d’autres mots, plutôt qu’en terme
de la configuration {~xi (t)} de ces degrés de liberté directement liée à la position dans l’espace des
points matériels qui le constitue, en mécanique quantique l’état physique d’un système est caractérisé par cette fonction d’onde ψ(~xi , t), dont l’interprétation physique en terme d’observables du
système est moins immédiate et donc peu intuitive. Cette relation entre observables physiques
et fonction d’onde d’un système quantique fait l’objet d’un cours de mécanique quantique, et
n’est donc pas discutée ici. Rappelons seulement que la fonction d’onde permet de définir la
distribution de probabilité associée à une configuration {~xi (t)} donnée du système en terme de
la densité
ρ(~xi , t) = |ψ(~xi , t)|2 ,
(2.159)
cette densité étant normalisée à l’unité, de manière à exprimer le fait que la probabilité de trouver
le système dans la totalité de l’espace est maximale, et donc unité,
N
Y
Z
(∞) i=1
d3 ~xi ρ(~xi , t) = 1 =
Z
N
Y
(∞) i=1
d3 ~xi |ψ(~xi , t|2 .
(2.160)
Par ailleurs, l’équation dynamique d’un système quantique, qui détermine donc l’évolution
spatio-temporelle de sa fonction d’onde ψ(~xi , t), est l’équation de Schrödinger, une équation non
relativiste donnée par
"
#
N
X
∂ψ(~xi , t)
1 ~2
∇~xi + V (~xi ) ψ(~xi , t) = ih̄
,
−h̄
2
i=1
2mi
∂t
(2.161)
où h̄ = h/(2π) ≃ 1,055 · 10−34 J·s désigne la constante fondamentale de la mécanique quantique, la célèbre constante introduite par Max Planck (1868-1947) le 14 décembre 1900 pour des
raisons liées à la thermodynamique à l’équilibre du corps noir11 . Par ailleurs, les points matériels
possèdent des masses mi , tandis que leurs interactions entre eux et avec des forces externes au
système sont supposées être conservatives avec une énergie potentielle totale désignée par V (~xi ).
10
Une discussion complète de la mécanique quantique se base sur les formalismes Lagrangien et Hamiltonien de la
mécanique classique, que celle-ci soit relativiste ou non. L’on obtient alors une construction d’un système quantique
en des termes algébriques abstraits, basée sur des opérateurs associés aux degrés de liberté classiques, ces opérateurs
agissant sur les états quantiques du système qui définissent un espace de Hilbert, c’est-à-dire un espace vectoriel sur
les nombres complexes. Cet espace abstrait peut trouver divers exemples de réalisations concrètes, soit en terme de
matrices – c’est la mécanique quantique matricielle développée par Werner Heisenberg (1901-1976) en 1925 –, soit
en terme de fonctions complexes – c’est la mécanique quantique ondulatoire développée par Erwin Schrödinger en
1926. C’est Paul A.M. Dirac (1902-1984) qui, en 1932, a reconnu l’identité dans leurs structures mathématiques de
ces deux représentations de la mécanique quantique, et qui en a alors donné une formulation abstraite et algébrique
dans son ouvrage The Principles of Quantum Mechanics qui reste encore à ce jour un must unique pour tout
étudiant de la mécanique quantique en raison de sa clarté lumineuse! Il existe ainsi encore d’autres représentations
mathématiques de la mécanique quantique, toutes équivalentes à la formulation abstraite, mais qui pour chacune
possèdent ainsi leurs éclairages complémentaires sur les propriétés physiques de systèmes quantiques. Parmi cellesci, il faut certainement citer la représentation par intégrale dite “des chemins” ou “intégrale fonctionnelle”, qui
considère une intégrale sur l’espace de toutes les trajectoires du système, due à Richard P. Feynman (1908-1988)
en 1949, et qui est d’une richesse incomparable.
11
Notons qu’il aura fallu attendre plus de vingt-cinq années après sa naissance pour que soit finalement donnée
une formulation cohérente de la mécanique quantique.
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
98
Dans cette section, nous ne considérons que des système d’un seul point matériel, auquel
cas l’équation de Schrödinger prend la forme,
Ĥψ(~x, t) = ih̄
∂ψ(~x, t)
,
∂t
(2.162)
l’opérateur Hamiltonien étant défini par l’opérateur différentiel12
Ĥ = −
h̄2 ~ 2
∇ + V (~x).
2m
(2.163)
Notons en particulier l’analogie de cette expression avec celle pour l’énergie totale du système en
mécanique classique (non relativiste),
E=
1 2
p~ + V (~x),
2m
(2.164)
ˆ~p = −ih̄∇,
~
(2.165)
suggérant en fait l’association
~p
↔
entre les grandeurs classiques et les opérateurs quantiques, sur laquelle nous revenons plus loin.
Parmi les états d’un tel système, ceux d’énergie bien définie sont particulièrement intéressants, correspondants à des solutions stationnaires dans le temps,
ψ(~x, t) = e−i Et/h̄ ϕ(~x) , Ĥϕ(~x) = Eϕ(~x).
(2.166)
De tels états sont donc des états propres de l’opérateur Hamiltonien Ĥ, dont la valeur propre E
s’identifie à leur énergie, comme suggéré par l’analogie indiquée ci-dessus13 .
En général, pour un potentiel V (~x) quelconque, il est difficile de trouver des solutions ϕ(~x )
exactes et analytiques à cette équation aux valeurs propres, un problème nécessaire si l’on souhaite
connaı̂tre le spectre en énergie du système quantique. Cependant, quelques exemples simples sont
possibles, s’inscrivant encore et toujours parmi ceux qui sont également exactement intégrables
en mécanique classique14 . Considérons ainsi le cas d’une particule libre, avec V (~x) = 0. Les états
stationnaires de ce système correspondent aux solutions en ondes planes associées à une quantité
de mouvement p~ de la particule qui soit constante,
ψp~ (~x, t) =
1
e−i E(~p )t/h̄ ei p~·~x/h̄ ,
(2πh̄)3/2
(2.167)
le spectre du système étant alors continu et donné par
ψp~ (~x, t) :
E(~
p) =
~2
p
,
2m
(2.168)
tandis que les fonctions d’onde planes sont orthonormalisées en terme de la fonction δ(x) de Dirac,
Z
(∞)
12
p − p~ ′ ).
d3 ~x ψp~∗ (~x, t) ψp~ ′ (~x, t) = δ(3) (~
(2.169)
Il est conventionnel d’indiquer les opérateurs à l’aide d’un “ˆ” au-dessus du symbole correspondant.
Cette association est totalement justifiée dans l’approche abstraite à la quantification mentionnée plus haut.
14
La raison en est encore et toujours l’existence de symétries, conduisant à des grandeurs conservées, en vertu
du théorème de Noether, qui expliquent alors l’intégrabilité, même quantique, du système.
13
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
99
De manière générale, cet ensemble de fonctions d’ondes, pour toutes les valeurs de ~p, peut
servir de base dans la construction des solutions à l’équation de Schrödinger de la particule libre.
Ainsi, un état quelconque possède une représentation par paquet d’onde de la forme
ψ(~x, t) =
Z
(∞)
d3 p~ −i [E(~p )t−~p·~x]/h̄
e
ϕ̃(~
p) =
(2πh̄)3
Z
(∞)
d3 ~p i p~·~x/h̄
e
ψ̃(~
p, t),
(2πh̄)3
(2.170)
où ϕ̃(~
p ) est un fonction donnée satisfaisant la normalisation
d3 p~
|ϕ(~
p )|2 = 1,
(2πh̄)3
Z
(∞)
(2.171)
de manière à ce que la fonction d’onde ψ(~x, t) soit normalisée à l’unité, tandis que l’énergie E(~
p)
reste donnée par la relation
1 2
E(~
p) =
~p .
(2.172)
2m
Cette représentation générale est également valable pour tout choix de potentiel V (~x), soit
ψ(~x, t) =
Z
(∞)
d3 ~p i p~·~x/h̄
e
ψ̃(~
p, t),
(2πh̄)3
(2.173)
paramétrisation faisant donc intervenir la transformée de Fourier (Jean Baptiste Joseph de Fourier
(1768-1830)) de la fonction d’onde,
ψ̃(~
p, t) =
Z
d3 ~x e−i p~·~x/h̄ ψ(~x, t),
(2.174)
(∞)
et conduisant ainsi à la représentation du système quantique “dans l’espace des moments” – en
terme de sa fonction d’onde ψ̃(~
p, t) dans l’espace des quantités de mouvement ~p – plutôt que “dans
l’espace de configuration” – en terme de la fonction d’onde ψ(~x, t) dans l’espace des configurations.
Notons cependant que dans ce cas général, l’énergie n’est plus donnée par E(~
p ) = p~ 2 /(2m) comme
pour une particule libre, avec comme conséquence que la dépendance temporelle de ψ̃(~
p, t) n’est
plus donnée comme en (2.170).
Sur base des propriétés des transformées de Fourier, il est alors possible d’établir les célèbres
relations d’incertitude de Heisenberg centrales à la mécanique quantique pour les observables spatiales d’une particule, à savoir les composantes de ses vecteurs position et quantité de mouvement,
1
1
1
∆x ∆px ≥ h̄ , ∆y ∆py ≥ h̄ , ∆z ∆pz ≥ h̄,
2
2
2
(2.175)
tandis qu’il est également possible de justifier la relation d’incertitude temporelle pour les mesures
de temps et d’énergie,
1
(2.176)
∆t ∆E ≥ h̄.
2
Dans ces expressions, les symboles représentent les incertitudes ou précisions avec lesquelles les
grandeurs physiques peuvent être obtenues en l’absence de toute erreur expérimentale, pour des
paires “duales” de telles grandeurs physiques. Ces incertitudes quantiques sont définies en terme
de la fonction d’onde du système. Ainsi dans le cas de la composante x du mouvement par
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
100
exemple, nous avons15
x = < x̂ >=
R
px = < p̂x >=
(∆x)2
= < (x̂ −
3 x ψ ∗ (~
x, t) x ψ(~x, t),
(∞) d ~
∂
3 x ψ ∗ (~
x, t) −ih̄ ∂x
ψ(~x, t),
(∞) d ~
R
x)2
>=
R
(∞)
(∆px )2 = < (p̂x − px )2 >=
p
d3 ~x ψ ∗ (~x, t) (x
−
∂
3 x ψ ∗ (~
x, t) (−ih̄ ∂x
(∞) d ~
R
(2.177)
x)2 ψ(~x, t),
− px )2 ψ(~x, t),
p
montrant que les quantités ∆x = (∆x)2 et ∆px = (∆px )2 mesurent, respectivement, les
valeurs moyennes des écarts aux valeurs moyennes de la position et de la quantité de mouvement
suivant l’axe de coordonnée x.
Ces incertitudes signifient que les propriétés quantiques de la matière sont telles qu’il est
exclu de connaı̂tre avec une précision absolue à la fois les deux valeurs de telles quantités physiques
conjuguées, comme en l’occurrence la position et la quantité de mouvement, ou encore l’énergie et
le temps. Par exemple, dans le cas de la particule libre dans un état de quantité de mouvement et
énergie bien définies décrit par les ondes planes (2.167), le fait que nous ayons alors |ψ(~x, t)p~ |2 =
(2πh̄)−3 montre que la probabilité de trouver la particule en un point donné de l’espace est
constante, et dans le temps, et dans l’espace – en raison de l’invariance sous les translations
spatiales et temporelle de cette solution –, et par conséquent il est impossible de la localiser
avec la moindre précision ni dans l’espace, et ni dans le temps, conduisant à |∆~x| = ∞ = ∆t.
Cet état possédant des énergie et quantité de mouvement connues avec une précision absolue,
∆E = 0 = |∆~
p |, implique que sa localisation et dans le temps et dans l’espace est exclue, en
accord avec les relations d’incertitude. Cependant, un état correspondant à un paquet d’onde
normalisable de la forme (2.170) conduit à une localisation partielle et dans l’espace et le temps,
et en énergie et quantité de mouvement, c’est-à-dire avec des valeurs finies mais non nulles des
incertitudes ∆~x et ∆~
p ainsi que ∆t et ∆E. En réalité, il existe des états quantiques saturant
les relations d’incertitudes, et depuis le progrès technologiques de trappes électromagnétiques
d’atomes, de tels états, appelés “squeezed states”, ont pu être réalisés et observés en laboratoire.
Ces “squeezed states” de systèmes quantiques sont potentiellement fort importants pour diverses
applications technologiques en télécommunications, cryptographie et ordinateurs quantiques, par
exemple. En guise d’illustration, prenant un paquet d’onde gaussien de la forme (2.170) avec
ϕ̃(~
p) =
√ !3/2
(~
p−~
p0 ) 2
h̄ 2π
−1
e 4 (∆p)2 ,
∆p
(2.178)
il est possible de vérifier que les relations d’incertitudes spatiales sont alors saturées pour t = 0.
La représentation ondulatoire rend donc compte de manière explicite des propriétés ondulatoires de la matière, en raison du caractère ondulatoire de la fonction d’onde ψ(~x, t). Ainsi,
étant donné l’onde plane (2.167) d’une particule libre d’énergie E et de quantité de mouvement p~
bien définies, il est possible d’introduire les notions de fréquence ν, de fréquence angulaire ω, de
longueur d’onde λ et de vecteur d’onde ~k quantiques associées à une particule libre non relativiste,
ν=
15
E
E
2πh̄
p~
, ω=
, λ=
, ~k = ,
2πh̄
h̄
|~
p|
h̄
(2.179)
Si la fonction d’onde Rψ(~
x, t) n’est pas normalisée à l’unité comme il est supposé dans ces expressions, il convient
x|ψ(~
x, t)|2 .
de les diviser encore par (∞) d3 ~
101
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
avec en particulier la longueur d’onde λ de de Broglie de la particule, introduite en 1923 par
Louis de Broglie (1892-1987). Ainsi, associée à la relation (2.172), nous avons donc la relation de
dispersion non relativiste pour ces ondes de matière,
h̄ ~ 2
ω(~k ) =
k .
2m
(2.180)
Par extension, l’identité (2.172) valable pour une particule massive libre non relativiste est aussi
appelée “relation de dispersion non relativiste”.
2.3.2
L’atome d’hydrogène et le modèle de l’atome de Bohr
Le système qui, sans conteste, a servi à la confirmation irréversible du formalisme de la mécanique
quantique est celui de l’atome d’hydrogène, l’état lié d’un électron et d’un proton, comme
l’exemple le plus simple et élémentaire d’un atome en général, à savoir l’état lié d’électrons et d’un
noyau atomique. Pour cela, dans la représentation ondulatoire de la mécanique quantique, il faut
étendre l’équation de Schrödinger en y couplant maintenant les champs électrique et magnétique,
~ et B,
~ de manière à rendre compte des interactions électromagnétiques des particules chargées.
E
En réalité, ce couplage de la fonction d’onde de l’atome au champ électromagnétique se fait au
~ électromagnétiques. Dans tout cours de mécanique
travers des potentiels scalaire Φ et vecteur A
quantique, il est expliqué pour quelles raisons ce couplage se traduit par l’équation de Schrödinger
suivante, dans le cas d’un seul point matériel de charge électrique q,
"
q~
h̄2 ~
∇ − i A(~
x, t)
−
2m
h̄
2
#
+ V (~x) + qΦ(~x, t) ψ(~x, t) = ih̄
∂
ψ(~x, t).
∂t
(2.181)
Cependant, il faut souligner l’aspect quelque peu baroque de cette équation, à savoir qu’elle
couple, d’une part, l’équation de Schrödinger qui est intrinsèquement non relativiste – invariante
~ qui est
sous le groupe de Galilée –, et d’autre part, le champ électromagnétique Aµ = (Φ/c, A)
intrinsèquement relativiste – covariant sous le groupe de Lorentz. Ainsi strictement parlant, cette
équation n’est pas réellement correcte – pas plus ou moins que ne l’est vraiment la mécanique
classique de Newton –, mais en ce qui concerne des systèmes quantiques dans lesquels les énergies
en jeu sont très petites en comparaison à leur énergie de masse, il reste justifié d’utiliser une telle
approximation non relativiste à un formalisme invariant relativiste et quantique à développer
par ailleurs. C’est ainsi que l’équation de Schrödinger couplée au champ électromagnétique est
valable pour des systèmes dont les vitesses – dans un sens de valeur moyenne quantique – sont
très petites en comparaison à celle c de la lumière dans le vide.
Cette équation permet donc, en principe, de comprendre tous les processus d’interactions
avec le champ électromagnétiques de systèmes quantiques non relativistes portant des charges et
des courants électriques, comme par exemple l’émission et l’absorption de photons – lumière –
par des atomes et des molécules, des systèmes de la matière condensée, ou encore des noyaux
atomiques. De tels processus quantiques constituent évidemment des domaines entiers de la
physique, avec leurs retombées technologiques importantes, que nous ne discutons pas.
Ici, nous ne considérons que le cas d’un système constitué de deux points matériels portant
des charges électriques de signes opposés q1 = eZ1 et q2 = eZ2 – Z1 et Z2 étant des entiers positifs
ou négatifs tels que Z1 Z2 < 0, puisque e > 0 désigne la charge électrique du proton. Une telle
situation se rencontre par exemple pour un seul électron de charge q = −e < 0 lié à un noyau
atomique – assimilé à un point matériel – portant une charge électrique eZ > 0, le cas du proton
correspondant à l’atome d’hydrogène, et pour un noyau quelconque à des atomes hydrogénoı̈des
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
102
de charge électrique totale e(Z − 1) ≥ 0. Le potentiel scalaire électrique associé peut alors s’écrire
dans les unités S.I.,
e2 Z1 Z2 1
Φ(r) =
, Z1 Z2 < 0,
(2.182)
4πǫ0 r
r étant la distance entre les deux charges, tandis que le potentiel vecteur magnétique est alors
~ = ~0. Ainsi pour ce système, l’équation de Schrödinger s’écrit
nul, A
"
1
h̄2 ~ 2
e2 Z1 Z2
∂
h̄2 ~ 2
∇~x1 −
∇~x2 +
ψ(~x1 , ~x2 , t) = ih̄ ψ(~x1 , ~x2 , t),
−
2m1
2m2
4πǫ0 |~x1 − ~x2 |
∂t
#
(2.183)
m1 et m2 étant les masses portées par les deux charges électriques, tandis que ~x1 et ~x2 sont leurs
vecteurs positions. Comme toujours, il est possible de séparer le mouvement du centre de masse
du système de celui relatif entre les deux points matériels, en introduisant les degrés de liberté
correspondants,
~ = m1 ~x1 + m2 ~x2 , ~r = ~x2 − ~x1 ,
(2.184)
X
m1 + m2
ainsi qu’en faisant apparaı̂tre explicitement l’onde plane associée au mouvement du centre de
masse de quantité de mouvement P~ constante,
− h̄i
ψ(~x1 , ~x2 , t) = e
~2
P
(t−t0 )
2(m1 +m2 )
~ ~
ei P ·X/h̄ ψ(~r, t),
(2.185)
où ψ(~r, t) représente donc la fonction d’onde du système dans son centre de masse. Par séparation
de variables, on trouve alors que cette fonction d’onde ψ(~r, t) doit satisfaire à l’équation de
Schrödinger dans le centre de masse, exprimée en terme de la masse réduite µ = m1 m2 /(m1 +m2 )
de ce problème quantique à deux corps,
∂
h̄2 ~ 2 e2 Z1 Z2 1
ψ(~r, t) = ih̄ ψ(~r, t).
− ∇
~
r +
2µ
4πǫ0 |~r |
∂t
"
#
(2.186)
Le problème central à résoudre est donc de déterminer le spectre des valeurs propres et solutions stationnaires à cette équation différentielle, afin d’établir la structure des niveaux d’énergie
de ce système lié – pour les énergies négatives16 – ainsi qu’une base complète d’états quantiques
en terme desquels toute autre solution non stationnaire à cette équation peut donc s’exprimer par
combinaisons linéaires. La discussion de ces solutions est donnée dans tout cours de mécanique
quantique, et nous ne la reprenons pas ici. Le seul point que nous souhaitons mentionner concerne
la description du spectre en énergie des états liés de ce système.
Les états liés de ce problème quantique à deux corps sont caractérisés par une série de
nombres entiers, appelés nombres quantiques car ils caractérisent la quantification de l’énergie
du système. Ainsi, il y a d’abord le nombre quantique principal
n = 1, 2, 3, · · · ,
(2.187)
pouvant prendre toutes les valeurs entières strictement positives. Ensuite, pour chaque valeur
de ce nombre quantique principal, le système peut se trouver dans un état de moment angulaire
donné, qui lui aussi est caractérisé par des propriétés de quantification en mécanique quantique
en termes de valeurs entières, en l’occurrence ici une valeur entière ℓ pouvant prendre une et une
seule fois chacune des valeurs comprises entre ℓ = 0 et ℓ = n − 1,
ℓ = 0, 1, 2, · · · , n − 1.
16
(2.188)
Il existe également des solutions d’énergie positive, mais dont le spectre est continu, correspondant à des états
qui ne sont pas liés mais pour lesquels les deux particules diffusent l’une sur l’autre.
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
103
Ensuite, pour chacune de ces valeurs pour n et ℓ, il existe encore une autre valeur entière quantifiée m, correspondant à la projection du moment angulaire sur un axe spécifique mais choisi
arbitrairement dans l’espace, prenant une et une seule fois chacune des valeurs comprises entre
−ℓ et ℓ,
−ℓ ≤ m ≤ ℓ.
(2.189)
Ainsi, chacune de ces combinaisons possibles de valeurs de (n, ℓ, m) est associée à un état propre
du système, dont l’énergie de liaison est alors donnée par,
En,ℓ,m
1
e2 Z1 Z2
=− µ
2
4πǫ0 h̄
!2
1
,
n2
(2.190)
montrant que pour une valeur donnée du nombre quantique principal n = 1, 2, 3, · · ·, tous les
états propres d’énergie sont dégénérés, avec une dégénérescence17 égale à n2 .
A ceci, il faut également ajouter l’aspect fort important suivant, s’appliquant aux atomes
hydrogénoı̈des. Dans ce cas, l’une des particules est toujours un électron, une particule possédant
un moment angulaire intrinsèque – ou spin – quantifié de valeur S = 1/2, et possédant deux
projections possibles de spin – par rapport à l’axe spécifique mais arbitraire de quantification
du moment angulaire – de valeurs Sz = ±1/2 mais ne conduisant pas à une variation d’énergie
en l’absence de champ magnétique. Aussi dans une telle situation, le nombre d’états quantiques
possibles est encore à multiplier par deux, puisque chacun des niveaux d’énergie décrits ci-dessus
et correspondants aux valeurs (n, ℓ, m) des nombres quantiques peut être occupé par l’électron
dans un état de spin soit “up”, soit “down”.
Lorsque cette description est étendue à des atomes avec plusieurs électrons, ces niveaux
d’énergie peuvent être remplis l’un après l’autre, de telle manière à conduire à une valeur minimale
de l’énergie du système. Cependant, en raison du principe d’exclusion de Pauli, jamais plus de
deux électrons – et alors dans des états de spin opposés – ne peuvent occuper un même niveau
d’énergie. Lorsqu’on tient compte alors de la déformation apportée au spectre en énergie de
l’atome en raison des interactions électromagnétiques de ces divers électrons entre eux et non
seulement avec le noyau atomique, l’on obtient immédiatement l’explication pour la classification
des éléments chimiques et de leurs propriétés telle que donnée par le tableau de Dmitri Mendeleev
(1834-1907), avec le remplissage successif des diverses orbitales atomiques. La stabilité de la
matière – le fait que nous ne tombons pas au travers de la chaise sur laquelle nous sommes
assis – est une conséquence des propriétés quantiques de la matière, tandis que le spin 1/2 de
l’électron implique l’extrême diversité des propriétés chimiques des éléments atomiques. Quelle
autre preuve macroscopique plus convaincante de la mécanique quantique demander!
Bien sûr, connaissant les fonctions d’onde de tels systèmes, il est également possible de
caractériser les distributions spatiales de probabilités de leurs électrons, et de calculer les propriétés atomiques et chimiques des atomes et des molécules. C’est tout le domaine de la physique
atomique, moléculaire et de la chimie quantique, dont l’importance technologique et industrielle
est évidente autour de nous, et pour lesquels des progrès technologiques en cours permettent
d’imaginer encore de nombreuses applications fort riches.
Lorsque Rutherford avait découvert l’existence du noyau atomique, et proposé le modèle
planétaire de l’atome, la grande question était de trouver une explication aux propriétés quantiques observées dans les atomes, et en particulier leurs spectres discrets d’émission et d’absorption
17
Encore une fois, l’explication de cette dégénérescence est à trouver dans l’existence d’une symétrie pour ce
problème à deux corps, précisément la même symétrie qui explique pourquoi les orbites classiques liées sont
également fermées – des ellipses. Cependant, cette dégénérescence est levée dans un formalisme relativiste pour ce
problème à deux corps.
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
104
Figure 2.7: L’atome de Bohr.
de lumière. Dans ce but, Niels Bohr, en 1913, a proposé un modèle pour l’atome d’hydrogène,
qui expliquait ces spectres d’énergie en invoquant une règle de quantification pour les trajectoires
classiques de l’électron autour du noyau. Pour conclure cette section, nous discutons ici ce modèle,
non pas pour sa valeur scientifique, mais uniquement parce qu’il permet d’obtenir rapidement les
valeurs de certaines grandeurs propres à ce type de système, sans devoir résoudre l’équation de
Schrödinger. En réalité, le modèle de Bohr, sur le plan de la physique, s’avère être totalement
erronné. Par exemple, il ne reproduit pas l’existence des diverses dégénérescences du spectre
correct. Il n’explique pas pourquoi les électrons, sur leurs orbites circulaires – ou elliptiques –
classiques ne rayonnent pas leur énergie sous forme électromagnétiques, étant pourtant constamment accélérés, et devant donc posséder un temps de vie fini – de l’ordre de 10−16 s – avant de
tomber sur le noyau! Néanmoins, pour les valeurs que nous allons considérer, il reproduit les
expressions correctes que donnent les solutions à l’équation de Schrödinger, en terme des valeurs
moyennes des observables pour les distributions de probabilité définies par les fonctions d’onde
des états propres d’énergie correspondants. C’est donc en fait le seul mérite du modèle de Bohr,
que de pouvoir rapidement reproduire ces résultats. Le fait de le discuter ici est donc en quelque
sorte une tricherie... mais qui nous permet d’obtenir facilement quelques résultats utiles pour des
considérations ultérieures.
Le modèle de Bohr est donc un modèle classique de l’atome dans lequel on imagine, à l’instar
des planètes autour du Soleil, que l’électron de charge q = −e < 0 suit une orbite circulaire autour
du noyau de charge électrique eZ > 0. Cette orbite est caractérisée par un rayon r et une vitesse
v, telles que la force centrale centripète conduise à l’accélération correspondante,
µ
e2 Z 1
v2
=
,
r
4πǫ0 r 2
(2.191)
soit
e2 Z 1
,
(2.192)
4πǫ0 µv 2
µ étant la masse réduite de l’électron et du noyau. Par conséquent, l’énergie du système est
donnée par,
1
e2 Z 1
1
E = µv 2 −
= − µv 2 .
(2.193)
2
4πǫ0 r
2
Toute cette image n’est que classique, et Bohr, afin d’interdire à l’électron, sur base d’un principe
arbitraire, de finir par tomber sur le noyau malgré tout en émettant son énergie sous une forme
électromagnétique, introduit alors une condition de quantification, que l’on peut énoncer en terme
de la longueur d’onde λ = h/p de de Broglie de l’électron (voir Fig. 2.7). L’onde quantique associée
à l’électron sur son orbite circulaire doit nécessairement définir une onde stationnaire interférant
constructivement avec elle-même, conduisant donc à une condition de quantification de la forme
r=
2πr = nλ
,
λ=
2πh̄
µv
,
n = 1, 2, 3, · · · .
(2.194)
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
105
Cette seconde condition liant le rayon r à la vitesse v permet donc de déterminer toutes les
grandeurs considérées.
Afin de donner les résultats sous une forme compacte, d’utilité immédiate au chapitre 3,
faisons apparaı̂tre explicitement la vitesse c de la lumière dans le vide, permettant ainsi de
convertir l’unité de masse en unité d’énergie, ainsi que l’unité de temps en unité de longueur.
Ce faisant, une combinaison de constantes apparaı̂t, jouant un rôle central pour les interactions
électromagnétiques puisqu’elle caractérise, indépendamment de tout système d’unités, l’intensité
de ces interactions. Il s’agit de la constante de structure fine, définie par
α=
e2
,
4πǫ0 h̄c
(2.195)
et qui caractérise donc la structure de tous les spectres atomiques. Il est possible de vérifier
que cette constante est sans dimensions physiques18 – un nombre pur, indépendant du système
d’unités – dont la valeur est
1
.
(2.196)
α≃
137,036
L’énergie du système est alors donnée par
α2 Z 2
1
En = − µc2
2
n2
,
n = 1, 2, 3, · · · ,
(2.197)
tandis que les vitesse, rayon et période correspondantes prennent les valeurs
αZ
vn
= βn =
, rn =
c
n
h̄c
µc2
2πrn
n2
2π h̄c n3
, Tn =
=
.
αZ
vn
c µc2 α2 Z 2
(2.198)
En particulier, le spectre en énergie coı̈ncide avec celui de l’équation de Schrödinger en (2.190).
De même, un calcul des valeurs moyennes des vitesses et rayons sur base des fonctions d’ondes
correspondantes reproduit également les valeurs obtenues ici sur base du modèle de Bohr, qui
donc physiquement, n’est pas correct. Néanmoins, les résultats obtenus sont corrects en raison
des dimensions physiques des grandeurs considérées, et de l’existence des seules constantes α, h̄c,
µc2 et c à disposition.
A titre d’exemple, prenons le cas particulier de l’atome d’hydrogène, avec les valeurs
mp =938,272 MeV et me c2 =0,511 MeV, ainsi que h̄c =197,327 MeV·fm. L’on obtient alors
pour l’état fondamental n = 1,
c2
E1 = −13,6 eV , β1 = 7,3 · 10−3 , r1 = 0,53 · 10−10 m , T1 = 1,52 · 10−16 s.
(2.199)
En particulier, la quantité rBohr = h̄c/(αme c2 ) ≃ 0,53 Å définit le rayon de Bohr de l’atome
d’hydrogène, dont la valeur numérique montre que le diamètre de cet atome est de l’ordre
de l’angström. Notons également l’échelle de temps associée, typique de systèmes purement
électromagnétiques, alors que la vitesse moyenne d’un électron dans un atome n’est que de l’ordre
d’un centième de celle c de la lumière – restant pourtant appréciable en termes de nos unités
macroscopiques!
Ces mêmes valeurs sont également celles typiques pour tout atome comptant Z électrons
pour un noyau de charge Z. En effet, comme l’indiquent les résultats en (2.198), les énergies de
liaison croissent avec Z 2 conduisant à des orbitales atomiques de rayons décroissant avec 1/Z et
des vitesses croissant avec Z. Cependant, au fur et à mesure que les orbitales sont occupées par
des électrons, l’effet d’écrantage de la charge du noyau par ces électron fait que pour les électrons
18
Ce fait est évident à partir des expressions données ci-après.
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
106
suivants la charge totale effective à laquelle ils se voient soumis diminue, pour atteindre finalement
une valeur e pour le dernier électron tout comme dans l’atome d’hydrogène. Par conséquent, pour
ce dernier électron, en bonne approximation, ce sont encore les relations (2.198) qui s’appliquent
avec Z = 1, conduisant ainsi à un diamètre de l’ordre de l’angström pour tous les atomes,
tandis que les électrons internes occupent des orbitales de diamètres inférieurs, et conduisant à
des différences en énergies pouvant atteindre les dizaines voire la centaine de keV, plutôt que
la dizaine d’eV de l’atome d’hydrogène (par exemple pour l’or, Z = 79, l’énergie de liaison de
l’orbite n = 1 est de l’ordre de 85 keV). Ainsi, c’est le rayon de Bohr rBohr ≃0,53 Å, c’est-à-dire
une combinaison spécifique de la constante de structure fine α caractéristique des interactions
électromagnétiques, de la masse me de l’électron et des deux constantes fondamentales h̄ et c de
la mécanique quantique et de la relativité, qui fixe l’échelle de dimension typique des atomes.
De la même manière, on pourrait considérer le cas du positronium, l’état lié d’un électron et
d’un positron. En réalité la seule différence est dans la valeur de la masse réduite µ, en l’occurrence
ici µ ≃ me /2 en comparaison avec µ ≃ me pour l’atome d’hydrogène. En conséquence, les valeurs
du spectre en énergie sont plus petites d’un facteur deux, tandis que les rayons rn et périodes
Tn sont plus grandes d’un facteur deux, alors que les vitesses βn sont indépendantes de la masse
réduite.
2.3.3
Propriétés ondulatoires et corpusculaires de la lumière
Ayant quelque peu compris maintenant comment la mécanique quantique, et au-delà dans un
contexte relativiste non discuté ici, à savoir celui de la théorie quantique des champs relativistes,
permet de représenter les propriétés à la fois corpusculaires et ondulatoires de la matière et
du rayonnement, revenons brièvement sur deux points laissés quelque peu en suspend dans les
discussions de la première partie – liée à la cinématique relativiste – de ce chapitre. En particulier,
nous avions discuté la cinématique de l’effet Compton de diffusion d’un photon sur un électron, en
supposant la notion de photon comme particule relativiste admise, et dont les énergie et quantité
de mouvement sont bien définies. Cependant historiquement, la notion de photon était plutôt
liée à des propriétés ondulatoires caractérisées en terme de fréquences et longueurs d’onde. Ayant
compris maintenant comment ces deux points de vues sont en fait des aspects complémentaires
à la nature quantique et relativiste de la matière, quelle que soit sa forme, nous pouvons clôturer
cette analyse en montrant comment les aspects cinématiques d’énergie, de quantité de mouvement
et de transformations de Lorentz se traduisent dans les aspects ondulatoire du rayonnement
électromagnétique représenté par le champ quantique µ (xµ ).
Diffusion Compton
Dans la section 2.1.3, nous avons établi que dans le référentiel de l’électron initial, l’énergie
du photon final Eγ′ dans la diffusion Compton d’un photon d’énergie Eγ sur l’électron au repos,
est donnée par la relation cinématique
Eγ′ =
1+
Eγ
Eγ
(1 −
me c2
cos θ)
,
(2.200)
où θ est l’angle de diffusion du photon final par rapport à la direction incidente du photon initial.
Or nous savons que pour un photon, dont la masse est nulle, nous avons les relations suivantes
entre sa longueur d’onde et son énergie,
λ=
2πh̄c
2πh̄c
=
, |~
p |c = Eγ .
|~
p |c
Eγ
(2.201)
107
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
Par conséquent, la relation cinématique ci-dessus implique pour les longueurs d’onde des photons
final et initial,
2πh̄c
(1 − cos θ) .
(2.202)
λ′ − λ =
me c2
Cette relation fondamentale qui détermine la manière donc la longueur d’onde de la lumière
varie en fonction de son angle de diffusion, est donc une conséquence immédiate de l’existence
du photon comme particule élémentaire relativiste, une réalité physique de la lumière qui était
loin d’être claire pour les physiciens du début du XXème siècle. C’est donc Arthur Compton qui
a vérifié cette dépendance, une expérience qui nécessite un rayonnement électromagnétique de
longueur d’onde comparable à la longueur d’onde de Compton de l’électron
λCompton =
2πh̄c
≃ 2,43 · 10−12 m,
me c2
(2.203)
c’est-à-dire des rayons X de l’ordre de 511 keV. Notons que cette longueur d’onde de Compton
caractérise également une échelle d’énergie pour laquelle les effets relativistes deviennent importants pour les électrons, pouvant conduire à la matérialisation de l’énergie sous forme d’énergie
de masse d’un électron. Il existe ainsi un longueur d’onde de Compton associée à toute particule
massive, par exemple pour le proton, λCompton ≃ 1,32 fm.
Effet Doppler relativiste
En raison du caractère de quadri-vecteur des énergie et quantité de mouvement d’une
particule, pµ = (E, p~c), nous savons comment ces grandeurs se transforment pour des changements
de référentiels inertiels, sous les transformations spéciales de Lorentz. Ainsi pour un mouvement
relatif uniforme de direction n̂ et de vitesse β, nous avons
E = γ E ′ + βn̂ · ~
p ′c
, ~pc = p~ ′ c + βγE ′ + (γ − 1)n̂ · p~ ′ c ,
(2.204)
γ = (1 − β 2 )−1/2 étant le facteur de dilatation relativiste de Lorentz, tandis que les grandeurs
~ = βn̂.
portant un prime sont celles mesurées dans le référentiel vu en mouvement de vitesse β
Dans le cas particulier du photon, dont la masse est nulle, nous avons les propriétés
spécifiques que E = |~
p |c et E ′ = |~
p ′ |c, tandis que les fréquences et longueurs d’ondes du rayonnement électromagnétique correspondant sont données par
ν=
2πh̄c
c
2πh̄c
c
, λ=
, ν ′ = ′ , λ′ = ′ .
λ
|~
p |c
λ
|~
p |c
(2.205)
Par conséquent, il est immédiat de calculer la variation de fréquence (et de longueur d’onde)
d’un rayonnement électromagnétique sous les changements de référentiels inertiels, simplement à
l’aide de la transformation spéciale de Lorentz appropriée, en raison des propriétés corpusculaires
de ce rayonnement dont les quanta sont les photons. Ainsi nous obtenons pour l’effet Doppler
relativiste du rayonnement électromagnétique,
ν = γ 1 + βn̂ · p̂ ′ ν ′ .
(2.206)
Deux cas particuliers de cette relation générale sont d’intérêt. Imaginons tout d’abord que
la source de lumière soit placée à l’origine du référentiel en mouvement, et que celle-ci se déplace
exactement vers l’origine du référentiel dans lequel le rayonnement est détecté. Dans ce cas nous
avons n̂ · p̂ ′ = +1, et donc
s
1+β ′
ν > ν ′.
(2.207)
ν = γ(1 + β) ν ′ =
1−β
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
108
En d’autres mots, lorsque la source se rapproche du détecteur, la fréquence mesurée est supérieure
à la fréquence propre de la source de rayonnement électromagnétique.
Par contre, si l’origine du référentiel en mouvement s’éloigne de celle du référentiel dans
lequel la mesure est réalisée, nous avons n̂ · p̂ ′ = −1, conduisant donc à
ν = γ(1 − β) ν ′ =
s
1−β ′
ν < ν ′.
1+β
(2.208)
Ainsi dans ce cas, l’effet est opposé, la fréquence mesurée étant inférieure à la fréquence propre de la source de rayonnement électromagnétique. Ces différents variations de fréquence (et
de longueur d’onde) sont évidemment caractéristiques de l’effet Doppler pour le rayonnement
électromagnétique.
Pour compléter ces considérations, revenons finalement au processus de désintégration à
deux corps dans lequel un point matériel massif émet un photon dont l’énergie est faible en
comparaison à l’énergie de masse de la particule initiale. Dans ce cas, nous avons vu que sous
l’effet du recul du corps massif, l’énergie du photon est légèrement inférieure à l’énergie totale
disponible ∆E pour la réaction. Il est donc justifié de dire, vu du référentiel au repos des
particules se désintégrant, que le photon produit est sujet à un effet Doppler, conduisant à une
énergie, et donc bien une fréquence inférieure à la fréquence nominale ∆E/(2πh̄). Imaginons
maintenant que la particule émettrice fasse partie en fait d’un échantillon contenant un grand
nombre de telles particules. Il est alors concevable que le photon émis puisse être réabsorbé
par une autre particule dans cet échantillon s’étant déjà désintégrée, la ramenant ainsi dans son
état initial excité. Cependant, en raison du décalage Doppler des photons émis, ceux-ci n’ont
pas exactement l’énergie ∆E nécessaire pour réaliser la transition vers l’état excité des produits
de désintégration au repos, et la situation est encore plus désavantageuse pour ces produits qui
seraient encore en mouvement suite à leur recul, car vu de leur référentiel propre, le décalage
Doppler des photons est encore plus prononcé. Par conséquent, la probabilité que les photons
émis puissent être réabsorbés dans l’échantillon par le processus inverse à celui de la désintégration
est en principe nul19 , et ceci d’autant plus que ∆E devienne comparable à l’énergie de masse des
particules mère et fille. Cependant, cette probabilité devient non nulle et maximale dans la limite
d’une masse infinie pour ces particules. Or, cette situation peut être réalisée dans la pratique! En
effet, il suffit que les particules émettrices soient liées dans un réseau cristallin, auquel cas c’est la
masse totale de tout le réseau, et non celle d’une particule émettrice seule, qui intervient dans les
conditions cinématiques de conservation d’énergie et de quantité de mouvement. Par conséquent,
cet effet Mössbauer (Rudolf Ludwig Mössbauer (1929- )) permet des mesures spectroscopiques
de grande précision, et est utilisé dans de nombreux domaines des sciences comme technique
spectroscopique.
2.4
Les unités de mesure du monde quantique relativiste
Dans tout ce chapitre, nous avons pris grand soin d’indiquer explicitement tous les facteurs de c
et h̄, ainsi que les dimensions physiques des grandeurs considérées. Mais il est clair que ce sont
toujours les mêmes combinaisons de ces deux constantes fondamentales qui apparaissent, conduisant à l’idée d’un système d’unités appropriées au monde quantique relativiste de la physique
de l’atome, du noyau et des particules élémentaires.
19
Il faut cependant ajouter que les niveaux d’excitations, en raison de leur temps de vie non nul τ , possèdent
une largeur naturelle non nulle d’origine quantique ∆E ≃ h̄/τ , ce qui implique que cette probabilité n’est pas
nécessairement exactement nulle puisqu’elle est déterminée par le recouvrement de la largeur en énergie du niveau
d’excitation et de la largeur en énergie du photon produit.
CHAPITRE 2. CINÉMATIQUE RELATIVISTE ET PARTICULES
109
Nous avons ainsi pour la mécanique de la relativité restreinte la constante fondamentale
de la nature c, la vitesse de la lumière dans le vide. Cette constante permet donc de mettre en
correspondance une échelle de temps avec une échelle de distance, ainsi qu’une échelle de masse
avec une échelle d’énergie,
c
temps ∼ espace
c
,
masse ∼ énergie,
(2.209)
soit ct et mc2 possèdent la même dimensions physique que |~x| et E, respectivement.
Par ailleurs la constante fondamentale de la nature h̄ = h/(2π), à savoir la constante de
Planck (réduite) dont les dimensions physiques sont celles d’une énergie multipliée par un temps,
joue un rôle analogue pour la mécanique quantique, permettant de mettre en correspondance une
échelle de temps avec une échelle d’énergie,
h̄
temps ∼ (énergie)−1 ,
(2.210)
soit par exemple E = hν pour l’énergie d’un photon de fréquence ν.
Par conséquent, dans une théorie à la fois quantique et relativiste, ces deux constantes fondamentales de la nature permettent de mettre en correspondance ces divers types de dimensions
physiques,
c
h̄
c
masse ∼ énergie ∼ (temps)−1 ∼ (espace)−1 ,
(2.211)
en les combinant de manière appropriée. En réalité, comme les nombreuses expressions de ce
chapitre l’ont amplement illustré, il suffit pour cela de considérer les deux combinaisons suivantes
h̄c ≃ 197,327 MeV · fm
,
c ≃ 3 · 1023 fm · s−1 ,
(2.212)
pour établir les conversions entre ces diverses dimensions physiques de masse, d’énergie, de temps
et d’espace. Ainsi par exemple, la lumière parcourt la distance de 1 fm en 3·10−24 s, ce qui correspond également à une échelle d’énergie de 197,327 MeV, ou encore une masse de 197,327 MeV/c2 ,
c’est-à-dire 3,5·10−28 kg. De la même manière, une énergie d’excitation nucléaire typique de
8 MeV correspond à une échelle de temps de 8,2·10−23 s, ou encore une distance de 25 fm
environ.
Il est donc beaucoup plus commode de convenir de ramener toutes les grandeurs physiques
à la dimension physique d’une énergie, par exemple, en la multipliant par les facteurs adéquats
de puissances des deux combinaisons fondamentales h̄c et c. Ce faisant, il devient possible de
choisir un système d’unités particulier dans lequel nous avons
h̄ = 1
,
c=1 ,
h̄c = 1,
(2.213)
et de travailler uniquement avec des grandeurs ayant des dimensions s’exprimant en unités
d’énergie. Ainsi par exemple une masse et une énergie possèdent la dimension d’une énergie,
une distance ou un temps possèdent la dimension inverse d’une énergie, une section efficace la
dimension inverse carrée d’une énergie, etc. Connaissant la dimension physique des grandeurs
physiques réelles, il suffit alors, en fin de calcul ou d’analyse, de multiplier le résultat final par le
produit des puissances de h̄c et c appropriées, pour retrouver les valeurs numériques dans le S.I.
d’unités de mesures. Ainsi par exemple la masse de l’électron de 511 keV correspond à la valeur
S.I. de 9,1·10−31 kg.
C’est ainsi que dans le monde de la physique microscopique, des atomes, noyaux et particules
élémentaires, il est conventionnel de travailler dans des unités telles que h̄ = 1 = c, et d’exprimer
toutes les grandeurs physiques en unités d’énergie. C’est donc également le choix que nous
faisons au chapitre 3 qui discute les propriétés des particules élémentaires et de leurs interactions
fondamentales.
Chapitre 3
Particules et Interactions
Fondamentales
Le but de ce chapitre est de donner une description sommaire, et par la force des choses nécessairement supercielle malheureusement, de la compréhension que nous avons actuellement, en ce début
du XXIème siècle, de la structure la plus intime de la matière et des interactions fondamentales
dont elle est le siège. Plutôt que de suivre une démarche historique, intéressante par ailleurs à
divers titres, nous nous contentons de reprendre la liste des particules élémentaires, et d’indiquer
comment, au travers de leurs diverses interactions, celles-ci permettent de comprendre la structure
de la matière autour de nous, et de toute celle qui, a priori, ait jamais existé et existera jamais dans
l’univers. En quelque sorte, nous nous contentons de donner le contenu de la boı̂te de “mécano”
de l’univers, avec quelques-unes des règles à suivre pour la “construction” de cet univers, dont
nous faisons tout autant partie que tout autre système matériel physique.
C’est ainsi que dans la section 3.1, la liste de toutes les particules de matière est discutée, à
savoir les trois générations de quarks et de leptons. Ensuite, dans la section 3.2, nous considérons
diverses grandeurs physiques qui illustrent l’existence des quatre interactions fondamentales connues dans la nature, avec une analyse des divers ordres de grandeur en intensités et énergies
qui les caractérisent. Cette discussion est basée, en partie, sur les considérations développées
au chapitre 2 pour le modèle de Bohr d’états hydrogénoı̈des. Finalement, la section 3.3 considère la description moderne de ces interactions fondamentales en terme du principe général
de symétrie de jauge, déjà mentionné au chapitre 1 dans le contexte des équations de Maxwell
pour l’électromagnétisme et étendu maintenant aux autres interactions. Ce formalisme se place
d’emblée dans le contexte général de la théorie quantique des champs relativistes, conduisant à une
description des quatre interactions fondamentales en terme d’échanges de particules spécifiques,
dont la liste vient ainsi compléter celle des champs de matière associés aux quarks et leptons de la
section 3.1. Ce dernier point fournit également l’occasion de discuter, dans la section 3.4, un des
grands problèmes ouverts actuellement dans ce domaine de la physique fondamentale, à savoir
l’origine de la masse de toutes ces particules, ainsi que quelques autres questions.
110
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
3.1
111
Les trois générations de quarks et leptons
Avec la découverte de l’électron en 1897 par J. J. Thomson fût identifiée la première des particules
considérées encore aujourd’hui comme élémentaires et fondamentales, c’est-à-dire sans posséder
aucune structure interne ou extension spatiale. Par la suite, il fût établi que l’électron possède
un spin 1/2 – c’est-à-dire un moment angulaire intrinsèque de valeur h̄/2 –, tandis que sa charge
électrique q = −e < 0 est négative. Plus tard, avec la découverte du noyau atomique par
Rutherford, et en particulier du proton comme le noyau le plus simple et associé à l’élément
chimique de l’hydrogène, force a été de constater, en raison de la neutralité électrique de la
matière, que le proton est lui aussi une particule de charge électrique q = +e > 0 positive de
valeur exactement opposée à celle de l’électron, et expliquant ainsi pourquoi un noyau comptant
Z protons doit conduire à un atome électriquement neutre comptant exactement Z électrons.
Par ailleurs, les noyaux atomiques comprennent en général également un certain nombre N de
neutrons, une autre particule donc mais de charge électrique exactement nulle, q = 01 . De plus,
en raison des propriétés de moment angulaire des noyaux, il s’avère que le proton et le neutron
sont tous deux des particules de spin 1/2. Et finalement, puisqu’un grand nombre Z de protons
peut coexister dans un même noyau en dépit de leur répulsion coulombienne2 , il doit exister une
interaction nouvelle – l’interaction nucléaire – d’une intensité considérable et contre-balançant
au moins la répulsion électromagnétique. Or, les électrons ne participent pas à cette interaction
nucléaire, à laquelle seuls les nucléons – le proton et le neutron – sont soumis.
En raison des rapports de masse des électron (me ), proton (mp ) et neutron (mn ),
1
me
=
mp
1 836,15
,
me
1
=
mn
1 838,68
,
mp
1
=
,
mn
1,0014
(3.1)
historiquement l’électron a été qualifié de lepton, signifiant “une particule légère”, tandis que le
proton et le neutron font partie des hadrons, à savoir les particules lourdes qui sont soumises
à l’interaction nucléaire. Cependant, outre les proton et neutron de spin 1/2, il existe encore
d’autres particules ayant des interactions nucléaires, mais dont le spin peut prendre aussi bien
une valeur entière que demi-entière suivant le cas. Ces deux classes générales de hadrons sont
alors distinguées en terme de mésons dans le cas de spin entier, et de baryons dans le cas de spin
demi-entier. Ainsi par exemple, le proton et le neutron sont des baryons de spin 1/2, tandis que
les pions chargés ou neutre, π ± et π 0 , sont des mésons de spin 0. De même, comme Pauli l’avait
expliqué, la désintégration β ± de noyaux nécessite, afin de préserver les lois de conservation de
l’énergie, de la quantité de mouvement et du moment angulaire, que la production de l’électron e−
ou de son anti-particule, le positron e+ , soit accompagnée d’une autre particule neutre de spin 1/2,
n’ayant pratiquement aucune interaction avec la matière – donc aucune autre interaction qu’une
interaction faible – et possédant une masse fort petite, à savoir le neutrino νe ou son anti-particule,
l’anti-neutrino ν e . Par conséquent, le lepton électron se voit adjoint un second lepton, à savoir le
neutrino de type électronique νe qui l’accompagne dans cette interaction faible responsable, entre
autre, de la désintégration β ± .
1
Les aspects spécifiques à la physique nucléaire liés aux propriétés des proton et neutron, et à la structure du
noyau atomique ne sont donc pas discutés dans ces notes.
2
Cette force de répulsion coulombienne entre deux protons atteint des valeurs énormes, à savoir quelques 230,71 N
pour l’échelle de distance de 1 fm caractéristique de la structure nucléaire, à comparer avec leur attraction gravitationnelle réciproque de 1,867·10−34 N pour la même distance.
112
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
Ainsi, nous avons la classification suivante qui commence à apparaı̂tre, à l’instar du tableau
périodique des éléments chimiques de Mendeleev,
leptons : spin 1/2
;
hadrons


 mésons : spin entier

 baryons : spin demi − entier
.
(3.2)
Jusqu’au début des années 1960, les seules particules stables connues participant directement dans la structure de la matière atomique étaient les électron, proton et neutron, le neutrino
ne jouant qu’un rôle éphémère une fois produit, en raison de ses faibles interactions. En d’autres
mots, il suffisait alors de seulement trois particules distinctes pour comprendre comment toute la
matière autour de nous et jusque dans les objets stellaires les plus éloignés – les quasars – peut
être “construite”, une richesse infinie à partir de trois briques élémentaires uniquement!
Cependant déjà vers la fin des années 1930, un premier intrus s’est glissé dans ce bel édifice, à
savoir les µ± produits dans les réactions nucléaires des rayons cosmiques dans l’atmosphère. Cette
particule possède en tous points les mêmes propriétés physiques et d’interactions que l’électron,
la seule différence étant dans sa masse dans un rapport mµ /me =206,77, permettant ainsi sa
désintégration alors que celle de l’électron e− est interdite cinématiquement, l’électron étant
la particule élémentaire chargée la moins massive. De spin 1/2 et n’ayant pas d’interactions
nucléaires, le muon négatif µ− est donc un autre lepton, frère de l’électron. A son tour, ce lepton
est accompagné d’un neutrino νµ de spin 1/2, frère du neutrino νe , conduisant ainsi à un total
de quatre leptons tous de spin 1/2. L’histoire s’est alors répétée une fois encore en 1974 avec
la découverte du lepton τ − , pour lequel la confirmation expérimentale directe de l’existence du
neutrino associé ντ n’a été accomplie qu’en juin 2000. Bien que la masse du lepton τ − soit près
de deux fois celle des nucléons – c’est-à-dire les proton p et neutron n –, le terme de “lepton”
continue d’être utilisé pour désigner cette particule, car celle-ci possède encore une fois toutes les
mêmes propriétés physiques et de ses interactions que celles de l’électron, à l’exception bien sûr
de sa masse, d’un facteur mτ /me =3 477,6 supérieure à celle de l’électron, ouvrant ainsi encore
plus de voies de désintégration que pour le muon µ− .
Par ailleurs, avec l’avènement d’accélérateurs suffisamment puissants permettant d’amener
les particules à des énergies telles que la matérialisation des particules instables devient possible,
à partir de la fin des années 1950 quantités impressionnantes de nouvelles particules hadroniques,
possédant des interactions fortes avec le noyau et les nucléons, ont été observées, continuant d’être
classifiées sous la nomenclature de mésons et de baryons. Au fur et à mesure que se dégageait
une systématique dans les propriétés de ces hadrons, l’hypothèse d’une structure en terme de
constituants plus élémentaires que les proton et neutron a été avancée. Parmi divers schémas
possibles, l’accumulation des évidences expérimentales confirma celui basé sur les quarks, des
particules de spin 1/2 portant des charges électriques fractionnaires dans l’unité de charge du
proton. Ici également, il existe six quarks distincts, appelés u (“up”), d (“down”), s (“strange”),
c (“charm”), b (“beauty or bottom”) et t (“truth or top”), apparaissant en paires tout comme
les six leptons. Ainsi les quarks u, c et t possèdent une charge électrique q = 2e/3, alors que les
quarks d, s et b portent une charge q = −e/3, ou encore Q = +2/3 et Q = −1/3, respectivement,
en unité de la charge électrique du proton, tandis que les quarks (u, d), (c, s) et (t, b) définissent
les paires de particules associées l’une à l’autre, d’une manière analogue aux paires de leptons
(νe , e− ), (νµ , µ− ) et (ντ , τ − ).
Cette structure répétitive, à l’instar de trois copies Xerox identiques, reste un mystère de
la physique des particules élémentaires, et est désignée comme étant celle des trois générations
ou familles de quarks et leptons. Dans le Tableau 3.1, nous reprenons cette classification des
éléments constituant la structure la plus intime de la matière, telle que comprise aujourd’hui.
113
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
Générations ou familles
Q
νe
< 3 eV/c2
1930
νµ
< 190 keV/c2
1960
ντ
< 18,2 MeV/c2
2000
0
e−
511 keV/c2
1896
µ−
105,66 MeV/c2
1939
τ−
1 777 MeV/c2
1976
−1
u
∼ 3 MeV/c2
1963
c
∼ 1,25 GeV/c2
1974
t
174,3 GeV/c2
1994
+2/3
d
∼ 6 MeV/c2
1963
s
∼ 130 MeV/c2
1963
b
∼ 4,2 GeV/c2
1977
−1/3
Leptons
Quarks
Tableau 3.1: Les leptons et quarks, constituants fondamentaux de la matière, les valeurs de leurs
masses et de leurs charges électriques (en unité de la charge électrique du proton ou du positron),
ainsi que l’année de leur découverte.
Ainsi, toute la matière qui existe et qui a jamais existé, et qui n’existera jamais dans l’univers,
doit-elle être constituée à partir de ces six quarks et de ces six leptons. Cependant, parmi ces
diverses particules, seules l’électron e− et les quarks u et d sont stables, et ce y compris les trois
espèces de neutrinos, dans la limite des connaissances expérimentales. Nous retrouvons ainsi à
cette échelle de structure, et non pas à celle du noyau, que toute la matière stable autour de nous
et dans l’univers n’est constituée que de trois briques élémentaires, à savoir l’électron e− et les
quarks u et d!
Ainsi par exemple, les proton et neutron sont constitués de trois quarks de la manière
suivante,
proton p : uud
;
neutron n : udd,
(3.3)
une structure certainement en accord avec le bilan des charges électriques pour ces particules. De
plus, puisque les quarks sont tous de spin 1/2, le moment angulaire total d’un état lié de trois
d’entre eux est nécessairement également de valeur demi-entière. Pour le cas de l’état lié fondamental, le moment angulaire orbital étant alors nul, seuls les moments angulaires intrinsèques de
spin des constituant contribuent, conduisant ainsi à la valeur de spin 1/2 des proton et neutron,
les deux quarks identiques ayant dans chaque cas leurs spins antiparallèles.
De la même manière, les pions chargés et neutre sont constitués d’une paire quark-antiquark,
à savoir
;
π − : du ;
π 0 : uu, dd,
(3.4)
π + : ud
où pour le π 0 nous avons en réalité une superposition quantique d’un état lié uu et dd. Encore
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
114
une fois, cette structure est cohérente avec les valeurs des charges électriques et des spins de ces
particules.
D’une manière générale, tous les baryons peuvent être compris comme étant constitués de
trois quarks, qqq, tandis que tous les mésons le sont en terme d’une paire quark-antiquark, qq,
prédisant ainsi la large zoologie hadronique observée dans les expériences aux hautes énergies.
Ce constat soulève donc la question de savoir pour quelle raison d’autres types d’états liés, tels
par exemple qq ou encore qqqq, à l’instar du noyau atomique auquel cas des nombres a priori
arbitraires de neutrons et de protons peuvent s’y trouver liés, ne sont pas possibles pour les
quarks. La réponse à cette question est directement liée aux divers nombres quantiques que ces
quarks et leptons portent.
Ainsi, chaque particule – élémentaire ou non – porte une charge électrique. Puisque la
charge électrique est conservée et prend des valeurs quantifiées – en raison de la nature corpusculaire de la matière en terme de constituants fondamentaux, et non, semble-t-il, en raison d’une règle de quantification due à la nature quantique de ces particules –, chaque particule est donc caractérisée, entre autre, par son nombre quantique de charge électrique. Bien
évidemment, les nombres quantiques que peuvent ainsi porter les particules élémentaires ne sont
pas nécessairement restreints à leur seule charge électrique conservée. Aussi par exemple le fait
qu’aucune désintégration radiative des neutrinos,
νℓ → νℓ ′ + γ
,
ℓ 6= ℓ′ ,
(3.5)
ℓ et ℓ′ désignant des saveurs leptoniques de neutrinos différentes, n’ait jamais été observée, suggère
l’existence d’un autre nombre quantique conservé associé aux divers types de neutrinos. Ainsi,
les paires (νe , e− ), (νµ , µ− ) et (ντ , τ − ) portent-elles chacune un nombre quantique leptonique de
valeur unité +1 de saveur électronique, Le , muonique, Lµ , et tauique, Lτ , respectivement, qui
doit être conservé dans les interactions. Cette règle empirique de conservation de ces nombres
quantiques leptoniques n’a jamais encore été mise en défaut dans aucune expérience, et explique
également pourquoi les leptons doivent toujours intervenir au travers de ces paires dans toutes
les interactions. Ainsi par exemple pour tout processus de désintégration dans lequel un neutrino
est produit dans l’état final, tels
π + → µ+ + νµ , τ + → µ+ + νµ + ν τ , n → p + e− + ν e ,
(3.6)
ce neutrino est nécessairement accompagné du lepton chargé correspondant, le tout en accord avec
les règles de conservation des charges électriques et des nombres leptoniques, et étant entendu
que les antiparticules portent les nombres quantiques opposés à ceux de leurs particules. Pour
les mêmes raisons, les réactions suivantes
νµ + e− → νe + µ− , ν e + e− → ν µ + µ− ,
(3.7)
sont a priori permises sur base de ces règles de sélection, tandis que
ν µ + e− → νe + µ− , νe + e− → ν µ + µ−
(3.8)
ne le sont pas bien que le bilan des charges électriques soit correct, et ceci évidemment encore
une fois en accord avec les données expérimentales.
Pour ce qui concerne les quarks, on pourrait imaginer d’une manière semblable distinguer
les trois générations de quarks en terme d’un nombre quantique analogue au nombre leptonique.
En réalité, un tel nombre quantique ne serait pas conservé, car il existe des processus de conversion
liés aux interactions faibles pouvant transformer un quark s, par exemple, en un quark u, ou encore
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
115
un quark t en un quark d. Cependant, ce qui correspondrait à la somme de ces trois nombres
quantiques de quarks est une grandeur conservée, et porte le nom de nombre baryonique B. Ainsi
par convention, le nombre baryonique du proton et du neutron est unité, B = 1, tandis que ceux
des π ± et π 0 est nul, B = 0. Par conséquent, les six quarks q portent tous un nombre baryonique
B = 1/3, tandis que les six antiquarks q possèdent un nombre baryonique B = −1/3.
Ces divers nombres quantiques des quarks et leptons n’expliquent pas pourtant pour quelle
raison les seuls états liés observés de quarks sont qqq et qq. Cette propriété est directement liée
à un autre type de nombre quantique caractéristique des interactions de ces particules, et dont
nous discuterons plus amplement à la section 3.3. En effet, les nombres quantiques leptoniques
et baryonique mentionnés ci-dessus pourraient ne pas être exactement conservés dans les interactions. Par exemple, à l’instar du nombre baryonique correspondant à la somme de nombres
quantiques qui distingueraient chacune des trois générations de quarks, il suffit que les neutrinos
soient massifs pour que les nombres leptoniques individuels, Le , Lµ et Lτ , ne soient pas conservés,
tandis que leur somme L = Le + Lµ + Lτ le reste. Cependant, les effets liés à une telle violation de
la conservation de ces nombres leptoniques de saveur sont extrêmement faibles, étant déterminés
par l’échelle de masse des neutrinos, et restent encore inobservés à ce jour en dépit d’une masse
non nulle des trois saveurs de neutrinos.
Ce qui distingue ces nombres quantiques leptoniques et baryonique de la charge électrique
par exemple, est que cette dernière est une propriété intrinsèque à l’interaction électromagnétique,
qui possède la propriété d’invariance de jauge. En réalité, cette dernière symétrie, qui, comme
nous le verrons à la section 3.3, explique l’origine de cette interaction en terme du nombre quantique de la charge électrique, implique que nécessairement la charge électrique définit un nombre
quantique qui est exactement conservé, étant associé à une symétrie fondamentale de la nature.
Considérons alors l’interaction faible responsable, entre autre, des processus de désintégra±
tion β déjà rencontrés à plusieurs reprises. Dans ces processus, les leptons interviennent toujours
par paires, d’où la structure en doublets des trois générations de leptons,
νe
e−
!
,
νµ
µ−
!
,
ντ
τ−
!
.
(3.9)
Ce constat suggère donc qu’en réalité l’interaction faible soit associée à un type de “charge faible”
différente de la charge électrique, mais qui joue pour cette interaction un rôle analogue à celui
que joue la charge électrique pour l’interaction électromagnétique. Ceci est effectivement le cas,
comme nous le discuterons à la section 3.3, et conduit à considérer que les deux membres de
chacun de ces doublets sont deux états différents d’un même objet ayant des interactions faibles,
états qui se voient distingués par les composantes “up” ou “down” de ce doublet leptonique. Cette
remarque est à mettre en parallèle avec la notion de spin pour une particule de spin 1/2, pouvant
exister soit dans un état de spin “up”, Sz = +1/2, ou de spin “down”, Sz = −1/2, ces deux états
formant un doublet sous le groupe SO(3) des rotations dans l’espace, à savoir une représentation
de dimension deux du groupe SU (2). De la même manière, les deux états leptoniques possibles
pour chaque génération de leptons correspondent à un même état d’isospin faible 3 I W = 1/2,
3
Le terme “isospin” est emprunté à la symétrie d’isospin existant entre le proton et le neutron, expliquant
pourquoi les propriétés pour l’interaction nucléaire de ces deux états du nucléon sont identiques. La raison d’être
de la symétrie d’isospin est l’identité des interactions fortes des quarks u et d qui composent les proton et neutron,
et dont la seule différence est à trouver dans leurs masses et charges électriques et qui explique pourquoi le neutron
est quelque peu plus massif que le proton puisque c’est également le cas pour le quark d vis-à-vis du quark u. La
symétrie d’isospin est donc la symétrie qui échange ces deux quarks l’un avec l’autre, à l’instar d’une rotation à
trois dimension qui échange les deux états de spin 1/2 entre eux sous l’action d’une transformation dans SU (2).
La symétrie d’isospin est donc associée au groupe SU (2), avec le doublet des quarks u et d correspondant à la
représentation de dimension deux de ce groupe, dont l’état “up” est le quark u et l’état “down” le quark d, ou
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
116
l’état IzW = +1/2 étant associé au lepton neutre, donc au neutrino, et l’état IzW = −1/2 l’étant au
lepton chargé correspondant, e− , µ− ou τ − , suivant le cas. Ainsi, c’est l’isospin faible I W = 1/2
avec ses deux valeurs de projection IzW = ±1/2 qui caractérise le nombre quantique conservé
associé aux interactions faibles. De la même manière pour les quarks, la structure en doublets
u
d
!
,
c
s
!
,
t
b
!
,
(3.10)
indique quels sont leurs nombres quantiques d’isospin faible.
Finalement, l’interaction forte responsable de la liaison des quarks dans les hadrons, et
indirectement responsable donc également de l’interaction nucléaire au sein des noyaux, doit
elle aussi être associée à un troisième type de nombre quantique exactement conservé dans ces
interactions. Les leptons n’ayant aucune interaction hadronique, ce nombre quantique ne peut
être l’apanage que des quarks seuls. Ainsi, en réalité, chacun des six quarks distincts peut encore
exister dans un parmi trois états quantiques différents, qualifiés d’états de couleur, car les règles
avec lesquelles ce nouveau nombre quantique propre aux quarks se combine sont similaires à celles
pour la composition des couleurs. Tout comme il existe trois couleurs fondamentales, le nombre
quantique de couleur peut prendre une parmi trois valeurs possibles, et donc en quelque sorte il
existe 3 × 6 = 18 quarks différents, chacun de spin 1/2 mais dans un état de couleur et de saveur
différent. Or, de la même manière que les trois couleurs fondamentales superposées forment du
blanc, de même la superposition de trois états de quarks dans les trois états de couleurs possibles
conduit à un état “blanc”, c’est-à-dire de nombre quantique de couleur nul, ou encore neutre de
couleur. Les propriétés de l’interaction forte doivent donc être telles que les seules combinaisons
de couleur possibles sont celles neutres de couleur, à savoir les états liés de trois quarks, qqq,
dans un état neutre de couleur lorsque chacun des trois quarks possède chacune des trois couleurs
distinctes, ou encore les états quark-antiquark, qq, dans lesquels le quark porte une couleur donnée
et l’antiquark l’anticouleur correspondante. C’est donc ce nombre quantique de couleur propre
aux quarks qui explique pourquoi les seuls états hadroniques observés soient formés uniquement
soit de trois quarks, qqq, soit d’un quark et d’un antiquark, qq, si l’on accepte la règle empirique
que les seuls états liés possibles sont nécessairement neutres de couleur.
Remarquons en particulier que cette règle implique qu’il est exclu de jamais observer un
quark en isolation. En effet, il s’agirait d’un état non neutre de couleur! Ainsi, dans le monde
hadronique nous sommes confrontés à une situation unique dans l’histoire de la physique, à
savoir celle d’une structure élémentaire dont les constituants ne pourront jamais être isolés, et
qui pourtant conduisent à des manifestations physiques confirmant leur existence réelle. Cette
propriété unique des quarks est appelée confinement, signifiant qu’il faudrait une quantité infinie
d’énergie pour matérialiser seul dans le vide un quark isolé. Cette propriété remarquable est donc
une caractéristique unique de l’interaction forte entre quarks, dont l’une des manifestations est
l’interaction nucléaire entre nucléons au sein du noyau atomique.
3.2
Les quatre interactions fondamentales
Ayant à disposition la liste des constituants élémentaires de la matière, à savoir l’ensemble des six
quarks et des six leptons, toutes des particules de spin 1/2 correspondant aux quanta de champs
relativistes distincts qui leurs sont associés, il est nécessaire maintenant de comprendre quelles sont
les interactions fondamentales qui, au travers de leurs interventions parallèles, sont responsables
encore pour le nucléon, le proton et le neutron jouant les mêmes rôles d’états “up” et “down” sous la symétrie
d’isospin.
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
117
des diverses structures matérielles observées à toutes les échelles de distances et d’énergies dans
l’univers. Parmi ces interactions, nous en connaissons certainement déjà deux, en l’occurrence
les interactions électromagnétique et gravitationnelle, pour la simple raison qu’ayant chacune
une portée infinie, elles peuvent toutes deux se manifester à toutes les échelles de distances, y
compris donc celles macroscopiques, astronomiques4 et même cosmologiques, bien au-delà de la
seule échelle corpusculaire et microscopique des particules élémentaires.
3.2.1
L’interaction électromagnétique
Pour commencer, considérons ainsi les propriétés de base de l’interaction électromagnétique,
exprimées dans le cadre le plus simple qui soit, à savoir l’interaction coulombienne électrostatique
entre deux charges électriques q1 et q2 ponctuelles situées à une distance r l’une de l’autre,
FC =
q1 q2 1
,
4πǫ0 r 2
(3.11)
où la constante de permittivité électrique du vide ǫ0 est donnée par les valeurs exactes
ǫ0 = 8,854 187 817 . . . · 10−12 F/m , µ0 = 4π · 10−7 N/A2 , ǫ0 µ0 c2 = 1 , c = 299 792 458 m/s.
(3.12)
Notons que pour une valeur de FC positive (resp. négative), la force est répulsive (resp. attractive). Si les valeurs de charges électriques sont exprimées dans l’unité de la charge électrique
du proton – ou du positron – e ≃ 1,602 176 462(63) · 10−19 C, soit q1 = Q1 e et q2 = Q2 e, nous
pouvons également écrire
h̄c
(3.13)
FC = α Q1 Q2 2 ,
r
où la constante de structure fine (électromagnétique) est définie par la quantité sans dimension
physique
e2
α=
.
(3.14)
4πǫ0 h̄c
Expérimentalement, la valeur de cette constante est connue avec une précision remarquable5 ,
soit6
1
,
(3.15)
α=
137,035 999 76(50)
certainement un des nombres fétiches de la physique car déterminant toutes les structures atomiques et moléculaires, comme nous l’avons déjà discuté au chapitre 2. Par ailleurs, les valeurs
expérimentales des autres constantes fondamentales sont données par7
c = 299 792 458 m · s−1 , h̄c = 197,326 960 2(77) MeV · fm , e = 1,602 176 462(63) · 10−19 C.
(3.16)
Ces diverses valeurs sont donc essentielles pour la conversion – avec la précision requise – entre les
systèmes d’unités du Système International, et celui des unités naturelles microscopiques telles
que h̄c = 1 = c discutées dans la section 2.4 du chapitre 2.
Notons que l’expression (3.13) de l’interaction coulombienne montre que la quantité h̄c/r 2
possède les dimensions d’une force, se mesurant en newtons dans le S.I. Sur base des dimensions
4
Songeons par exemple aux champs magnétiques présents, semble-t-il, partout dans l’univers.
Les mesures les plus précises de α sont basées sur l’effet Josephson, c’est-à-dire un effet tunnel quantique dans
une jonction SNS de deux supraconducteurs séparés par un isolant ou un conducteur non supraconducteur.
6
Les chiffres entre parenthèses correspondent à l’erreur expérimentale sur le même nombre des derniers chiffres
significatifs indiqués.
7
Celle de la vitesse c de la lumière résulte de la définition des unités de temps et de longueur dans le S.I.
5
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
118
physiques de la constante de Planck (réduite) h̄ – une énergie multipliée par un temps, J·s –, de
la vitesse c de la lumière dans le vide – une longueur divisée par un temps, m/s – et de la distance
inverse carrée 1/r 2 , il est immédiat de vérifier qu’il en est effectivement ainsi,
(J · s) · (m · s−1 )
(kg · m2 · s−2 · s) · (m · s−1 )
∼
∼ kg · m · s−2 ∼ N.
m2
m2
(3.17)
Finalement, juste pour l’exercice, considérons la norme de la force qui s’applique sur deux
charges électriques de valeurs absolues égales à e, soit avec |Q1 | = |Q2 | = 1, pour des distances
typiques de la structure corpusculaire, à savoir pour les échelles du noyau atomique, r = 1 fm, et
de l’atome, r = 1 Å,
r = 10−15 m :
3.2.2
|FC | = 230,71 N ; r = 10−10 m :
|FC | = 2,3071 · 10−8 N.
(3.18)
L’interaction gravitationnelle
Considérons maintenant l’interaction gravitationnelle entre deux points matériels de masses m1
et m2 séparés d’une distance r, telle que formulée par la Loi Universelle de la gravitation de
Newton pour cette force toujours attractive,
FG = GN
m1 m2
.
r2
(3.19)
Dans cette expression, la quantité GN est bien sûr la constante fondamentale qui caractérise
l’interaction gravitationnelle, à savoir la constante de Newton,
GN = 6,673(10) · 10−11 J · m/kg2 .
(3.20)
Afin de donner à cette expression une forme analogue à celle en (3.13), nous pouvons également
écrire
h̄c
GN
m1 m2 2 .
(3.21)
FC =
h̄c
r
Par conséquent, la combinaison de constantes fondamentales GN /(h̄c) propres à la gravitation,
à la mécanique quantique et à la relativité, respectivement, est une grandeur possédant la dimension physique de l’inverse d’une masse carrée. Cette simple remarque a conduit Max Planck
à introduire une constante portant depuis son nom, et caractérisant en terme d’une échelle de
masse MPlanck tous les phénomènes physiques pour lesquels les effets gravitationnels, quantiques
et relativistes interviennent tous à la fois,
MPlanck =
s
h̄c
= 2,176 7(16) · 10−8 kg = 1,221 0(9) · 1019 GeV/c2 .
GN
(3.22)
Ainsi, nous pouvons donc également exprimer l’interaction gravitationnelle statique entre deux
points matériels au repos sous la forme
FC =
m1 m2 h̄c
,
2
r2
MPlanck
(3.23)
expression qu’il est intéressant de comparer à celle (3.13) pour l’interaction électrostatique.
Ce qui joue le rôle du produit αQ1 Q2 dans ce dernier cas est maintenant joué par le rap2
. En d’autres termes, contrairement à l’interaction électromagnétique dont
port m1 m2 /MPlanck
l’intensité n’implique aucun facteur d’échelle dimensionnelle – la constante de structure fine α
119
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
étant sans dimension physique –, l’interaction gravitationnelle est intrinsèquement liée à un facteur d’échelle fondamentale caractérisée ici au travers de la masse de Planck MPlanck .
Une manière équivalente de présenter ce constat qui est fondamental à la nature de l’interaction gravitationnelle est la suivante. Nous avons vu à la section 2.4 du chapitre 2 de quelle
manière, en raison de leurs dimensions physiques respectives, les deux constantes fondamentales
de la mécanique quantique et de la relativité, h̄ et c, permettent de mettre en relation tous les
facteurs d’échelles d’une mécanique à la fois quantique et relativiste, à savoir
c
h̄
c
masse ∼ énergie ∼ (temps)−1 ∼ (espace)−1 ,
(3.24)
sans que pourtant aucune échelle absolue pour aucune de ces grandeurs ne soit fixée. Au travers
des deux constantes h̄ et c, les unités de masse (kg), de temps (s) et de longueur (m) sont donc
mises en correspondance, sans pourtant imposer dans l’absolu une valeur spécifique pour aucune
de ces grandeurs physiques. Cette situation n’est en aucune manière modifiée en introduisant
les phénomènes électromagnétiques caractérisés par la constante de structure fine α sans dimension physique, car cette interaction n’est associée à aucune échelle absolue ni dans le temps, ni
dans l’espace, ni dans les énergies et les masses, même dans un régime à la fois quantique et
relativiste. Cependant, une fois l’interaction gravitationnelle inclue également, cette interaction
étant caractérisée par la constante de Newton GN qui possède une dimension physique mettant
en relation les unités de masse, de temps et de longueur, il suit immédiatement qu’une échelle
absolue de masse, et donc aussi d’énergie, de temps et d’espace, est introduite dans la description
physique des phénomènes gravitationnels quantiques relativistes. C’est ainsi que sont associées
à l’interaction gravitationnelle l’échelle de la masse de Planck en (3.22), l’échelle d’énergie de
Planck
EPlanck = MPlanck c2 = 1,221 0(9) · 1019 GeV,
(3.25)
l’échelle de la longueur de Planck
LPlanck =
h̄c
MPlanck c2
= 1,616 · 10−35 m,
(3.26)
et l’échelle du temps de Planck,
τPlanck =
LPlanck
= 5,391 · 10−44 s.
c
(3.27)
En ces termes, la constante de Newton est également donnée par
GN = 6,707(10) · 10−39 h̄c GeV/c2
−2
.
(3.28)
Une interprétation physique possible de ces différentes valeurs est que celles-ci sont associées
aux échelles auxquelles les effets quantiques et relativistes gravitationnels deviennent importants
– le régime de la gravitation quantique relativiste. Dans le contexte de la cosmologie, si l’espacetemps est considéré comme étant de dimension quatre8 , cela signifie par exemple qu’une théorie
relativiste mais non quantique de la gravitation – telle la relativité générale d’Einstein ou ses
extensions – ne s’applique plus aux échelles d’énergie, de temps et de distance déterminées par
les grandeurs MPlanck c2 , LPlanck et τPlanck ci-dessus et pour lesquelles les effets quantiques gravitationnels deviennent importants. En d’autres mots, le célèbre modèle du Big Bang ne peut
certainement pas s’appliquer pour les premières 10−44 secondes de la création de l’univers et
pour des distances de l’ordre de 10−35 mètres, des échelles de temps et d’espace qui nécessitent
8
Ce qui n’est plus nécessairement le cas dans le contexte des théories de supercordes ou de la théorie M .
120
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
des énergies de l’ordre de 1019 GeV pour être sondées. Les notions mathématiques usuelles de
géométrie ne sont alors plus d’application dans de tels régimes physiques, et la théorie M est
une tentative – la seule qui soit prometteuse aujourd’hui – pour la formulation des nouvelles
lois de la physique et de la géométrie appropriées à de telles échelles de phénomènes physiques.
Evidemment, de telles questions à l’extrême frontière des connaissances aujourd’hui sont forts
éloignées des préoccupations technologiques actuelles, mais la même chose était valable en 1900
concernant les questions ayant conduit aux deux grandes révolutions conceptuelles du XXème siècle
que sont les mécaniques quantique et relativiste. Ce simple argument dimensionnel démontre donc
que le mariage de la gravitation, même dans une formulation relativiste, avec le cadre conceptuel
de la mécanique quantique n’est pas encore prononcé, et qu’une résolution de ces grandes questions
conduira nécessairement à une autre révolution encore, importante non seulement pour notre
compréhension de la réalité du monde matériel, mais certainement également dans le domaine
des mathématiques même des plus abstraites, dont les conséquences pourraient être d’une portée
totalement inimaginable aujourd’hui. Les mécaniques quantique et relativiste, avec tous leurs
cortèges d’applications physiques, mathématiques et hautement technologiques, sont nées d’un
semblable imbroglio conceptuel existant au début du XXème siècle, et nul ne peut prédire ce à
quoi la résolution de l’imbroglio hérité en ce début du XXIème siècle conduira. Cette aventure
dans l’exploration par l’homme de son univers est donc particulièrement fascinante!
Il est évidemment intéressant de comparer les intensités des deux interactions de portée
infinie. Ainsi, si les deux points matériels de masses m1 et m2 possèdent également des charges
électriques Q1 et Q2 , le rapport des forces gravitationnelles et électrostatiques qu’ils subissent est
donné par
m1 m2
1
FG
= 2
,
(3.29)
FC
MPlanck αQ1 Q2
et est donc indépendant de la distance entre ces deux points. Par exemple, dans le cas de deux
protons, Q1 = 1 = Q2 et m1 = mp =1,672 621 58(13)·10−27 kg= m2 , nous avons
FG
= 8,092 · 10−37 ,
FC
(3.30)
tandis que pour deux électrons, Q1 = −1 = Q2 et m1 = me =9,109 381 88(72)·10−31 kg= m2 ,
FG
= 2,4 · 10−43 .
FC
(3.31)
Ces rapports prennent donc des valeurs extrêmement faibles, montrant que a priori il est parfaitement légitime – pour les échelles d’énergie considérablement inférieures à celle de la masse de
Planck de quelques 1019 GeV – d’ignorer l’interaction gravitationnelle vis-à-vis de l’interaction
électromagnétique9 .
A titre de comparaison encore, considérons l’attraction gravitationnelle de la Terre appliquée à un proton ou à un électron à la surface de la Terre. Utilisant pour l’accélération de la
pesanteur la valeur g =9,81 m·s−2 , l’on trouve alors
proton :
FG = 1,64 · 10−26 N ; électron :
FG = 8,94 · 10−30 N.
(3.32)
Finalement, l’attraction gravitationnelle exercée par deux protons l’un sur l’autre pour les distances typiques de r =1 fm et r =1 Å prend les valeurs
r = 10−15 m : FG = 1,867 · 10−34 N ; r = 10−10 m : FG = 1,867 · 10−44 N,
9
(3.33)
La même conclusion reste valable même vis-à-vis de l’interaction forte entre les quarks qui, comme nous le
verrons plus loin, n’est que de 100 à 1 000 fois plus intense que l’interaction électromagnétique.
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
121
tandis que pour deux électrons nous avons de même,
r = 10−15 m : FG = 5,537 · 10−41 N ; r = 10−10 m : FG = 5,537 · 10−51 N.
(3.34)
Il s’agit donc de valeurs extrêmement faibles!
Avant de conclure ces considérations liées à l’interaction gravitationnelle, indiquons comment la constante de Newton GN permet de caractériser encore une autre propriété fondamentale
à cette interaction, dans un régime relativiste. Dans le cadre du problème de Kepler associé à
l’attraction gravitationnelle entre deux points matériels de masses m et M , nous savons que la
condition de vitesse de libération qui permet à la masse m d’échapper au champ d’attraction de
la masse M est donnée par la condition d’énergie mécanique totale nulle – c’est-à-dire égale à
l’énergie potentielle gravitationnelle à une distance infinie –,
1 2 GN M
v −
= 0,
2 L
r
(3.35)
r étant la distance entre les deux objets au moment où la vitesse de libération est communiquée
à la masse10 m. Par conséquent, la norme de la vitesse de libération est donnée par
vL =
s
2GN M
.
r
(3.36)
Clairement, ce résultat ne peut être valable que dans le cadre de la mécanique classique non
relativiste dans lequel il est établi. En effet, puisque a priori il n’y a pas de limite sur les valeurs
possibles pour la masse M , ou encore pour la distance r, il n’y a pas de limite supérieure possible
non plus pour cette vitesse de libération vL . Cependant, nous savons parfaitement, sur base du
principe de la relativité restreinte, qu’aucun point matériel de masse nulle ou non ne peut accéder
à une vitesse dépassant la vitesse c de la lumière dans le vide. Par conséquent, une valeur de
M ou de r telle que la vitesse de libération atteigne la valeur c doit marquer la limite du régime
physique pour lequel les effets relativistes gravitationnels – mais non quantiques – deviennent
importants. Un tel régime est donc caractérisé par des valeurs de M et de r telles que la vitesse
nécessaire à la libération d’une particule quelconque lancée à partir de la distance r dépasse la
vitesse c de la lumière. En d’autres mots, pour une valeur donnée de M , il existe une borne
inférieure r0 sur r > r0 en-deçà de laquelle, pour r < r0 , aucun point matériel, même de masse
nulle, ne peut encore s’échapper de l’attraction gravitationnelle du corps de masse M . Cette
valeur limite est donc donnée par
2GN M
.
(3.37)
r0 =
c2
Ainsi, cette quantité marque la limite pour l’existence d’un trou noir. En effet, si r0 est
supérieur au rayon de l’objet de masse M , sa valeur détermine le rayon d’un horizon entourant
le corps en-deçà duquel il est exclu de recevoir la moindre information, y compris sous forme de
lumière ou d’ondes électromagnétiques. Observé à des distances supérieures à r0 , l’objet apparaı̂t
donc comme un corps noir11 .
10
A strictement parler, le rapport m/µ, µ étant la masse réduite du problème, devrait encore multiplier la
contribution en GN M/r, mais nous supposons ici que m ≪ M , auquel cas µ ≃ m.
11
En réalité, en raison de phénomènes de fluctuations quantiques du vide en paires de particules virtuelles
au voisinage de l’horizon du trou noir, celui-ci n’est pas totalement noir, mais rayonne en fait avec un spectre
caractéristique d’un corps noir à l’équilibre thermodynamique dont la température est fonction de la masse M et
bien sur également des constantes GN , h̄ et c, ainsi que de la constante de Boltzmann (Ludwig Boltzmann (18441906)), k ≃ 1,380 650 3(24)·10−23 J/K ≃ 8,617 342(15)·10−5 eV/K. Ce rayonnement porte le nom de “rayonnement
de Hawking”, du nom de Stephen Hawking (1942- ) qui, le premier, a fait remarquer et calculé cette propriété
quantique des trous noirs gravitationnels.
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
122
Ainsi, ce simple argument dimensionnel indique qu’il doit exister des phénomènes totalement nouveaux pour une théorie relativiste de la gravitation, qui sont impossibles dans la théorie
de Newton de la gravitation non relativiste. En effet, la théorie de la relativité générale a prédit
l’existence de tels trous noirs, et dans le cas de trous noirs statiques ne portant pas de charge
électrique, la valeur de leur horizon est précisément donnée par la relation (3.37), appelé “rayon
de Schwarzschild”, du nom de Karl Schwarzschild (1873-1916) qui, le premier, a montré que les
équations de cette théorie relativiste de la gravitation possèdent de telles solutions. Depuis, des
solutions plus générales, associées à des trous noirs en rotation et portant une charge électrique,
ont été découvertes, dont la structure en horizon est alors plus complexe12 . Néanmoins, il est
remarquable que l’analyse dimensionnelle ci-dessus, uniquement basée sur des considérations
énergétiques non relativistes et la vitesse de la lumière, conduise à la valeur correcte du rayon de
Schwarzschild pour l’horizon d’un trou noir statique, obtenue dans une théorie relativiste de la
gravitation, la relativité générale.
A titre d’exemple, dans le cas de la Terre où nous avons
M⊕ = 5,974(9) · 1024 kg , R⊕ = 6,378 140 · 106 m , ρ⊕ = 5,5 · 103 kg/m3 ,
(3.38)
ρ⊕ étant la masse spécifique correspondante, nous obtenons
r⊕ = 8,87 · 10−3 m.
(3.39)
Le rayon de Schwarzschild de la Terre n’est donc que de l’ordre du centimètre, et est donc sans
aucune conséquence. Dans le cas du Soleil,
M⊙ = 1,988 9(30) · 1030 kg , R⊙ = 6,961 · 108 m , ρ⊙ = 1,41 · 103 kg/m3 ,
(3.40)
le rayon de Schwarzschild
r⊙ = 2 953 m
(3.41)
reste lui aussi inférieur au rayon du Soleil, et est donc sans conséquence. Cependant, le Soleil
serait un trou noir si son rayon était inférieur à cette valeur, ce qui conduirait à une masse
spécifique au moins égale à 1,84·1019 kg/m3 . En réalité, suite à un effondrement gravitationnel
d’une étoile, on s’attend à ce que les trous noirs les moins massifs puissent avoir une masse de
l’ordre de 3,2 fois celle du Soleil. Ainsi par exemple, un objet de masse 4M⊙ et de rayon juste
égal à son rayon de Schwarzschild est caractérisé par les valeurs suivantes,
M = 4M⊙ = 7,96 · 1030 kg , r0 = 11 813 m , ρ = 1,15 · 1018 kg/m3 .
(3.42)
Il est intéressant de comparer cette dernière valeur de masse spécifique à celle typique de la
matière nucléaire. Pour des raisons propres aux échelles de masse et de dimension des noyaux13 ,
la masse spécifique de la matière nucléaire est de l’ordre de
ρ = 2,3 · 1017 kg/m3 .
12
(3.43)
En réalité, la masse, le moment angulaire et la charge électrique d’un trou noir sont les seules caractéristiques
classiques qu’il peut porter. Une fois disparue au-delà de l’horizon, toute autre caractéristique de la matière – telle
par exemple les nombres quantiques leptoniques et baryoniques – n’est plus accessible. Cette perte d’information
conduit à un grand paradoxe dans une théorie quantique, auquel cas la probabilité quantique n’est plus conservée!
Ce paradoxe est lié à la thermodynamique quantique des trous noirs, et ce n’est que récemment qu’il a été possible
de montrer que ce grave dilemme pour une théorie quantique de la gravitation est résolu de façon toute naturelle
dans le contexte de la théorie M .
13
Le rayon moyen d’un noyau sphérique varie comme R ≃ 1.2 A1/3 fm, où A est le nombre de masse du noyau
comptant le nombre total de protons et de neutrons qui le composent, tandis que sa masse est en première approximation donnée par le nombre de masse A multipliant la masse moyenne du proton et du neutron.
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
123
Cette valeur n’est inférieure à celle minimale pour un trou noir que d’un ordre de grandeur,
laissant ainsi ouverte une petite fenêtre d’opportunité pour l’état final suite à l’effondrement
gravitationnel d’une étoile. En effet, il reste alors possible que cet état final soit en quelque sorte
une espèce de noyau géant, constitué uniquement de matière nucléaire avec la masse spécifique
ci-dessus, mais avec un rayon encore supérieur au rayon de Schwarzschild correspondant. Puisque
un tel objet doit être neutre électriquement, il doit posséder autant d’électrons que de protons
écrasés les uns sur les autres, conduisant à une configuration d’énergie minimale lorsque toutes ces
particules se sont combinées en des neutrons par une réaction β inverse e− +p → n+νe , ne laissant
derrière lui qu’une étoile à neutrons dont la masse est ainsi comprise typiquement entre 2,2 M⊙ et
3,2 M⊙ , et donc d’un rayon de l’ordre de 20 km. De tels objets correspondent aux pulsars observés
suite à l’effondrement gravitationnel d’étoiles de quelques masses solaires. Cependant, lorsque la
masse spécifique dépasse quelque peu la valeur de la matière nucléaire, suite à un effondrement
gravitationnel, l’objet n’a plus aucune autre destinée que de devenir un trou noir, et de n’être
observable essentiellement que par les effets indirects liés à son interaction gravitationnelle avec
son environnement immédiat (effet de lentille gravitationnelle, système double avec une autre
étoile ou une naine blanche), l’observation directe de son rayonnement de Hawking restant encore
du domaine des rêves des défis expérimentaux en astrophysique.
La discussion ci-dessus a également comme objectif d’illustrer comment l’analyse simple
de quelques conséquences profondes de l’existence d’une constante fondamentale associée à une
classe générale de phénomènes physiques, en l’occurrence ici l’interaction gravitationelle et la
constante de Newton GN , permet de motiver et de dégager immédiatement des considérations
d’une portée extrêmement riche, mais dont la confirmation finale ne peut que se baser sur une
analyse fouillée et en profondeur des concepts et des théories sous-jacentes, le tout s’appuyant
sans cesse sur les résultats des observations physiques.
3.2.3
Echelles de temps et d’énergies
Les autres interactions fondamentales, outre l’électromagnétisme et la gravitation, sont nécessairement d’une portée finie dont l’échelle de distance est la dimension du noyau de l’atome,
soit de l’ordre du fermi, car en effet dans le cas contraire, leurs effets se feraient sentir aux
échelles atomiques également ce qui n’est certes pas la réalité, comme les succès de la chimie le
démontrent à suffisance. Afin de dégager la nature de ces interactions au niveau corpusculaire,
il nous faut maintenant considérer les phénomènes de diffusion et de désintégrations de particules dont quelques exemples ont déjà été mentionnés dans le chapitre 2. Par ailleurs, comme
les discussions ci-dessus concernant les deux interactions de portée infinie l’ont illustré, ce qui
caractérise d’une manière fondamentale la nature d’une interaction sont les échelles d’énergie et
de temps, et donc aussi de masse et de longueur, qui lui sont associées. Nous allons donc suivre
ici une démarche analogue pour dégager les propriétés des deux autres interactions fondamentales
connues, à savoir l’interaction faible, responsable entre autre de la désintégration β des noyaux,
et l’interaction forte entre les quarks, responsable, entre autre, de l’interaction nucléaire assurant
la cohésion du noyau atomique.
En guise de préparation, considérons tout d’abord les résultats de l’équation de Schrödinger
pour l’atome d’hydrogène, rapidement rappelés dans le chapitre 2 sur base du modèle (physiquement erroné!) de Bohr. Dans l’état fondamental n = 1, nous avons donc
h̄c 1
2π h̄c 1
1
, T =
,
E = − µc2 α2 , β = α , rBohr = 2
2
µc α
c µc2 α2
(3.44)
où α désigne la constante de structure fine et où nous avons pris le cas spécifique du proton,
Z = 1.
124
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
Dans le cas de l’atome d’hydrogène, la masse réduite µ = µe est donnée par les valeurs
me c2 = 0,510 998 902(21) MeV , mp c2 = 938,271 998(38) MeV , µe c2 = 0,510 721 MeV. (3.45)
Nous avons ainsi
Ee = −13,5983 eV , βe = 7,297 · 10−3 , reBohr = 5,295 · 10−11 m , Te = 1,52 · 10−16 s. (3.46)
Ces expressions et ces valeurs numériques sont intéressantes à divers titres. L’interaction
électromagnétique n’étant associée à aucune échelle de masse ou de distance, seule la masse réduite
µ – donc essentiellement la masse de l’électron dans le cas de l’atome d’hydrogène – sert d’échelle
absolue pour les valeurs d’énergie, de temps et de longueur dans le monde atomique. Cependant,
bien que la constante de structure fine mesurant l’intensité de l’interaction électromagnétique
soit sans dimension, sa valeur intervient également dans ces diverses échelles absolues atomiques.
Ainsi clairement, si cette interaction disparaissait, α → 0, l’électron ne serait plus lié au proton,
et donc le rayon de Bohr de l’orbite de l’électron devrait tendre vers l’infini, comme l’expression
pour rBohr ci-dessus le confirme en effet, tout en ayant un valeur absolue fixée par l’échelle de
masse µc2 . De même l’énergie de liaison ainsi que la vitesse de l’électron doivent tendre vers
une valeur nulle dans la même limite, ce qui est en effet le cas, tandis que l’échelle de temps du
mouvement orbital tend alors aussi vers une valeur infinie, comme il sied à une particule qui n’est
plus liée au proton.
Ainsi, les échelles d’énergie, de temps et de longueur d’un système en interaction sont
déterminées par une combinaison des échelles de masses de ses constituants et des intensités
des interactions dont il est le siège, même lorsque ces dernières ne possèdent pas de dimensions
physiques.
A titre d’illustration, prenons encore une fois le système lié d’un proton avec une particule
de charge électrique Q = −1, mais cette fois plutôt que l’électron e− considérons la possibilité de
lier un muon négatif µ− ou encore un pion négatif π − au proton, conduisant ainsi à un atome
muonique ou à un atome pionique ou π-mésique, respectivement. En raison des valeurs des masses
de ces particules,
mµ c2 = 105,658 357(5) MeV
,
mπ± c2 = 139,570 18(35) MeV,
(3.47)
la seule différence avec le cas de l’atome d’hydrogène est dans le facteur d’échelle absolue déterminée par la valeur de la masse réduite pour chacun de ces états liés. Ainsi pour le système µ− p,
nous avons
µµ c2
= 185,941,
(3.48)
µµ c2 = 94,964 MeV , feµ =
µe c2
montrant par quel facteur d’échelle feµ toutes les grandeurs dimensionnelles sont modifiées pour
cet état lié par rapport à celles pour l’atome d’hydrogène. De même pour le système π − p, nous
avons
µπ c2
= 237,893.
(3.49)
µπ c2 = 121,497 MeV , feπ =
µe c2
Notons qu’en raison des masses proches du µ− et du π − , les valeurs pour les deux états liés µ− p
et π − p sont forcément fort voisines.
Explicitement, pour l’atome muonique nous obtenons
Eµ = −2,529 keV , βµ = 7,297 · 10−3 , rµBohr = 2,848 · 10−13 m , Tµ = 8,175 · 10−19 s, (3.50)
tandis que pour l’atome mésique π − p,
Eπ = −3,235 keV , βπ = 7,297 · 10−3 , rπBohr = 2,226 · 10−13 m , Tπ = 6,389 · 10−19 s. (3.51)
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
125
Comparées à celles pour l’atome d’hydrogène, ces valeurs diffèrent donc essentiellement par
plus de deux ordres de grandeur. Notons en particulier les échelles d’énergies de l’ordre des
rayons X pour les transitions électromagnétiques dans les atomes muoniques et mésiques, alors
qu’elles restent proches du visible pour les transitions atomiques caractéristiques du monde
atomique électronique. Par ailleurs, notons également l’échelle de temps pour cette interaction électromagnétique dans ces systèmes, allant de quelques 10−16 s pour le monde atomique
électronique à quelques 10−19 s pour les atomes muoniques et mésiques, bien que ce soit toujours
la même interaction électromagnétique qui soit directement responsable de tous ces phénomènes
physiques. Finalement, remarquons que le µ− ou le π − dans les atomes muoniques et mésiques
occupent des orbites dont les rayons restent tout de même quelques 200 fois supérieurs à ceux
des noyaux légers.
Néanmoins, ce qu’il importe de constater est que les rapports, par exemple, des échelles
d’énergies, ou encore des échelles de temps dans ces systèmes, sont directement déterminés par
les rapports des masses réduites pour chaque cas, soit en bonne approximation en l’occurrence la
masse de la particule chargée négativement qui se voit liée au proton plus massif,
µµ
Eπ
µπ
Eµ
=
= feµ = 185,941 ,
=
= feπ = 237,893,
Ee
µe
Ee
µe
(3.52)
Tπ
µe
1
µe
1
Tµ
=
= µ = 5,378 · 10−3 ,
=
= π = 4,204 · 10−3 .
Te
µµ
fe
Te
µπ
fe
(3.53)
Clairement, cette propriété est conséquence de ce qu’aucune autre échelle d’énergie ou de temps ne
soit impliquée dans ces systèmes, l’interaction électromagnétique n’étant associée à aucune échelle
physique dimensionnelle, seule son intensité étant caractérisée par la valeur de la constante de
structure fine α ≃ 1/137. Ainsi en particulier, si l’on considère les temps de vie τ ou taux
de transitions λ associés aux transitions électromagnétiques entre les divers états excités de ces
systèmes, il est clair que ces grandeurs sont directement déterminées par la combinaison α2 µ à
un facteur d’échelle près faisant intervenir une constante numérique sans dimension de l’ordre de
l’unité et sinon les constantes fondamentales h̄c et c. Par exemple, utilisant des unités naturelles
telles que h̄c = 1 = c, les taux de transitions sont déterminés en ordre de grandeur par
λ ≃ α2 µ.
(3.54)
Si dans cette expression la masse est mesurée en unité d’énergie, il suffit de multiplier le résultat
numérique correspondant par la valeur de c/(h̄c) pour obtenir la valeur numérique du taux de
transition en unités S.I., en l’occurrence s−1 . En particulier, la raison pour laquelle ce taux de
transition est proportionnel à α2 est que l’interaction électromagnétique elle-même, au niveau
des deux charges électriques qui s’attirent, est proportionnelle à α. En effet, dans le contexte de
la mécanique quantique, ce taux de transition est donnée par le carré du module de l’amplitude
quantique de la transition, cette dernière étant donc proportionnelle à α puisque donnée par
l’élément de matrice entre les états initial et final de l’opérateur électromagnétique qui lui-même
est nécessairement proportionnel à α, en l’occurrence dans un cadre non relativiste le potentiel
coulombien qui contribue à l’équation de Schrödinger et qui est bien proportionnel à la constante
de structure fine α. Ainsi de manière générale, de tels taux de transition sont caractérisés, d’une
part, par un facteur mesurant l’intensité carrée de l’interaction responsable, et d’autre part, par
un facteur d’échelle d’énergie lié aux échelles présentes dans le système soumis à cette interaction.
Cette caractérisation nous servira donc de guide dans la discussion qui suit concernant les diverses
interactions fondamentales de la nature et de quelles manières celles-ci se manifestent dans les
données expérimentales. Notons en particulier que plus l’intensité de l’interaction est importante,
plus le taux de transition est important suivant l’intensité carrée, et plus le temps de vie est court.
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
126
Ayant compris ainsi quelques moyens de caractérisation d’interactions entre particules
élémentaires, considérons en vrac un échantillon arbitraire de quelques processus de désintégration
de divers états quantiques de particules, soit de leptons seuls ou encore d’hadrons donc composés
de quarks. Dans chaque cas, nous donnons quelques modes de désintégration dominants, avec les
masse, temps de vie et rapports de branchements associés. Dans le cas d’états hadroniques, nous
indiquons la composition en quarks des états correspondants. Certains des processus considérés
ont déjà été mentionnés plus tôt dans le contexte d’autres considérations. Les deux sections suivantes s’attacheront alors à dégager la signification physique de telles valeurs, en terme des deux
autres interactions fondamentales de portée finie, à savoir les interactions faible et forte.
Le lepton µ−
Cette particule possède les valeurs suivantes
mµ c2 = 105,658 357(5) MeV
,
τµ = 2,197 03(4) · 10−6 s,
(3.55)
avec les rapports de branchements
B(µ− → e− ν e νµ ) ≃ 1,
B(µ− → e− ν e νµ γ) = (1,4 ± 0,4) · 10−2 ,
B(µ− → e− ν e νµ e+ e− ) = (3,4 ± 0,4) · 10−5 .
(3.56)
Le lepton τ −
Cette particule possède les valeurs
mτ c2 = 1 777,03+0,30
−0,26 MeV
,
ττ = (290,6 ± 1,1) · 10−15 s,
(3.57)
avec les rapports de branchements dominants suivants
B(τ − → µ− ν µ ντ ) = (17,37 ± 0,07) · 10−2 ,
B(τ − → e− ν e ντ ) = (17,83 ± 0,06) · 10−2 .
(3.58)
Les mésons π ±
Comme nous l’avons déjà indiqué plus haut, les π + et π − sont des états liés ud et ud,
respectivement. Nous avons
mπ± c2 = 139,570 18(35) MeV
,
τπ± = (2,6033 ± 0,0005) · 10−8 s,
(3.59)
avec les rapports de branchements
B(π + → µ+ νµ ) = (99,98770 ± 0,0004) · 10−2 ,
B(π + → e+ νe ) = (1,230 ± 0,004) · 10−4 ,
(3.60)
Le méson π 0
Comme nous le savons déjà, cet état hadronique est composé d’une superposition quantique
des paires uu et dd,
i
1 h
π 0 = √ uu − dd ,
(3.61)
2
127
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
avec les valeurs
mπ0 c2 = 134,976 6(6) MeV
,
τπ0 = (8,4 ± 0,6) · 10−17 s,
(3.62)
ainsi que les rapports de branchements
B(π 0 → 2γ) = (98,798 ± 0,032) · 10−2 ,
B(π 0 → e+ e− γ) = (1,198 ± 0,032) · 10−2 .
(3.63)
Les mésons K ±
K−
Les mésons K ± possèdent un spin nul et sont composés de quarks u et s, K + = us et
= us, avec les valeurs
mK ± c2 = 493,677 ± 0,016 MeV
,
τK ± = (1,2386 ± 0,0024) · 10−8 s,
(3.64)
ainsi que les quelques exemples de rapports de branchements suivants
B(K + → µ+ νµ )
B(K + → e+ νe )
B(K + → π + π 0 )
B(K + → π + π + π − )
=
=
=
=
(63,51 ± 0,18) · 10−2 ,
(1,55 ± 0,07) · 10−5 ,
(21,16 ± 0,14) · 10−2 ,
(5,59 ± 0,05) · 10−2 .
(3.65)
0
Les mésons K 0 et K
0
Les mésons K 0 et K sont de spin nul également, et sont composés de quarks d et s,
K 0 = ds ,
0
K = ds,
(3.66)
avec la valeur suivante,
mK 0 c2 = 497,672 ± 0,031 MeV.
(3.67)
Cependant, en raison de propriétés particulières des interactions faibles conduisant à la violation
des symétries sous parité et conjugaison de charge (voir la section 3.4), ces deux types de particules
se désintègrent sous deux combinaisons quantiques spécifiques appelées KS0 et KL0 en raison de
temps de vie différents,
KS0
KL0
:
:
τK 0 = (0,8935 ± 0,0008) · 10−10 s,
S
B(KS0 → π + π − ) = (68,61 ± 0,28) · 10−2 ,
B(KS0 → π 0 π 0 ) = (31,39 ± 0,28) · 10−2 ,
(3.68)
τK 0 = (5,17 ± 0,04) · 10−8 s,
L
B(KL0 → 3π 0 ) = (21,13 ± 0,27) · 10−2 ,
B(KL0 → π + π − π 0 ) = (12,55 ± 0,20) · 10−2 .
(3.69)
Le méson ρ
Tout comme le pion, le méson ρ vient en trois variétés d’états de charges ρ+ , ρ− et ρ0 , la
seule différence étant dans l’état de spins parallèles des quarks u et d et des antiquarks u et d
qui composent ces hadrons de moment angulaire orbital nul, conduisant ainsi à des particules
128
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
de spin 1, d’où encore leur de nom de mésons vectoriels (décrits en terme de champs vectoriels).
Nous avons les valeurs
mρ c2 = 769,3 ± 0,8 MeV
τρ = 4,38 · 10−24 s,
,
B(ρ → ππ) ≃ 1,
B(ρ → π ± γ) = (4,5 ± 0,5) · 10−4 ,
B(ρ → π 0 γ) = (6,8 ± 1,7) · 10−4 .
(3.70)
(3.71)
Le neutron n
Nous savons que cet hadron de spin 1/2 est composé des quarks udd, avec les valeurs
mn c2 = 939,56533 ± 0,00004 MeV
,
τn = 886,7 ± 1,9 s,
(3.72)
ainsi qu’un rapport de branchement de 100% pour son seul mode de désintégration connu de
transition β − , n → pe− ν e .
Les baryons N (1 535)
Ces particules hadroniques de spin 1/2 sont des excitations des nucléons N (939), p et n,
en terme soit d’excitation de spin soit d’excitation en moment angulaire orbital des quarks. Les
deux états de charges existants sont donc N + (1535) et N 0 (1535), composés des quarks uud et
udd, respectivement. Nous avons les valeurs
mN (1 535) c2 ≃ 1 535 MeV
,
τN (1 535) ≃ 4,4 · 10−24 s,
(3.73)
avec comme exemples de rapports de branchements
B(N (1535) → N (939)π) = (35 − 55) · 10−2 ,
B(N (1535) → pγ) = (0,15 − 0,35) · 10−2 ,
B(N (1535) → nγ) = (0,004 − 0,29) · 10−2 .
(3.74)
Les baryons ∆(1 232)
Ces états hadroniques viennent en quatre états de charge électrique possibles, ∆++ , ∆+ ,
0
∆ et ∆− . Ces baryons de spin 3/2 sont ainsi composés des quarks u et d ayant tous leurs spins
alignés mais sans aucun moment angulaire orbital, correspondant aux états uuu, uud, udd et ddd,
respectivement. A cette occasion, nous pouvons signaler ici l’une des raisons pour l’existence du
nombre quantique de couleur associé aux quarks, et déjà introduit à la section 3.1. En effet,
considérons par exemple l’état ∆++ , donc composé de trois quarks identiques u tous dans le
même état de spin, et occupant tous le même niveau fondamental de moment angulaire orbital
nul. Or, en vertu du principe d’exclusion de Pauli, un tel état serait impossible, si ce n’était
pour l’existence d’un nombre quantique qui permettrait de distinguer chacun de ces trois quarks
u, et qui ne pourrait prendre que trois valeurs distinctes, car sinon il pourrait exister encore
d’autres états dégénérés en masse avec le ∆++ (1 232). Ce nombre quantique est donc totalement
indispensable pour expliquer l’existence de cette collection de baryons, et correspond au nombre
quantique de couleur uniquement porté par les quarks. Bien sûr, il existe un grand nombre de
raisons physiques totalement indépendantes qui toutes confirment et conduisent à l’existence de
ce nombre quantique de couleur prenant exactement trois valeurs distinctes. Parmi celles-ci il
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
129
faut évidemment signaler la théorie des interactions fortes entre quarks basée sur le principe de
jauge associé à ce nombre quantique de couleur, qui sera brièvement esquissée dans la section 3.3,
et qui se voit confirmée par les expériences dans ses détails phénoménologiques les plus subtils.
Nous avons ainsi pour ces quatre états d’excitations ∆(1 232) des nucléons N (939),
m∆(1 232) c2 ≃ 1 232 MeV
,
τ∆(1 232) ≃ 5,5 · 10−24 s,
B(∆(1 232) → N (939)π) > 99%,
B(∆(1 232) → N (939)γ) = (0,52 − 0,60) · 10−2 .
(3.75)
(3.76)
Les baryons ∆(1 620)
De la même manière que les N (1 535) sont des excitations des nucléons N (939), les ∆(1 620),
de spin 1/2, sont des excitations en moment angulaire et en spin des ∆(1 232), existant en quatre
états de charge et composés des quarks u et d. Nous avons ainsi
m∆(1 620) c2 = 1 620 MeV
τ∆(1 620) = 4,4 · 10−24 s,
(3.77)
B(∆(1 620) → N (939)π) = (20 − 30) · 10−2 ,
B(∆(1 620) → N (939)γ) = (0,004 − 0,044) · 10−2 .
(3.78)
,
et pour les rapports de branchements,
Le baryon Λ
Il existe évidemment également des baryons composés des autres quarks que les quarks u et
d. Parmi ceux-ci, le plus léger est le Λ de charge électrique nulle, de spin 1/2 et composé des trois
quarks u, d et s dans un état de moment angulaire orbital nul, Λ = uds. Cet état hadronique
possède les valeurs suivantes,
mΛ c2 = 1115,683 ± 0,006 MeV
,
τΛ = (2,632 ± 0,020) · 10−10 s,
(3.79)
avec les rapports de branchements suivants,
B(Λ → pπ − ) = (63,9 ± 0,5) · 10−2 ,
B(Λ → nπ 0 ) = (35,8 ± 0,5) · 10−2 ,
B(Λ → nγ) = (1,75 ± 0,15) · 10−3 .
(3.80)
Le baryon Ω−
L’Ω− est un baryon de spin 3/2 – cette valeur est prédite mais doit encore être mesurée –
composé de trois quarks s exactement, Ω− = sss, avec les valeurs suivantes
mΩ− c2 = 1 672,45 ± 0,29 MeV
,
τΩ− = (0,821 ± 0,011) · 10−10 s,
(3.81)
avec comme exemple de rapport de branchement
B(Ω− → ΛK − ) = (67,8 ± 0,7) · 10−2 .
(3.82)
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
130
Une dernière remarque s’impose concernant ces diverses valeurs, et en particulier la large
disparité dans celles des temps de vie moyens. Il est immédiat de constater que ceux associés à des
processus purement hadroniques dans lesquels seule une réorganisation des quarks est impliquée
sans aucun changement dans leurs saveurs u, d et s – pour les exemples donnés – sont typiquement
de l’ordre de quelques 10−24 s, soit l’échelle de temps associée au temps requis par la lumière pour
parcourir une distance de l’ordre du fermi, c’est-à-dire de l’ordre de la taille des états hadroniques.
Le lecteur se pose donc certainement la question de savoir comment il est possible de mesurer
de telles échelles de temps, ce qui pose une difficulté considérable en regard des temps de vie
de l’ordre de la microseconde, de la nanoseconde, voire de l’ordre de 10−16 s, ces derniers étant
caractéristiques des interactions électromagnétiques dans les atomes électroniques.
En réalité, les valeurs de ces temps de vie hadroniques ne sont pas mesurées directement,
mais sont extraites à partir de la mesure de sections efficaces de production de ces particules. Ainsi, des particules dont l’existence est si éphémère sont mises en évidence en tant que
résonances hadroniques dans les sections efficaces. Dans une approximation non relativiste, ces
résonances sont caractérisées par une section efficace de Breit-Wigner (Gregory Breit (1899-1981),
Eugene Paul Wigner (1902-1995)) possédant, dans le référentiel du centre de masse de la réaction
de production et pour une énergie proche de celle de la résonance, une paramétrisation de la
forme
Γ2
1
,
(3.83)
σ∗ ∼ ∗
|~
p | (E ∗ − ER )2 + 41 Γ2
où E ∗ et |~
p ∗ | désignent, respectivement, les énergie cinétique et quantité de mouvement dans le
centre de masse, ER l’énergie de la résonance – la masse de la résonance produite au repos –, et
Γ finalement la largeur de la résonance14 . Le signe d’égalité approximative ci-dessus représente
le fait qu’un facteur numérique n’est pas inclu, ce facteur possédant également une dimension
physique non triviale, tandis qu’il est entendu que cette expression est donnée dans les unités
naturelles telles que h̄c = 1 = c. Ce qui importe ici est le comportement d’une telle section
efficace au voisinage de la production de la résonance, qui se manifeste donc par une soudaine
augmentation de la section efficace, et donc également de la probabilité de production de cette
particule spécifique.
La largeur Γ de la résonance mesure donc la précision avec laquelle son énergie – sa masse –
peut être déterminée, eu égard à la relation d’incertitude ∆t∆E ≥ h̄/2. Par conséquent, plus
le temps de vie de cette particule est court, plus difficile est-il de la matérialiser, et plus grande
l’incertitude avec laquelle sa masse est connue, ou encore plus grande est sa largeur en énergie
pour sa contribution à une section efficace de sa production. En d’autres mots, il est donc possible
d’associer un temps de vie τ à cette largeur en énergie Γ, bien qu’il ne soit pas possible d’effectuer
une mesure directe de ce temps de vie car la particule se désintègre pratiquement dès qu’elle est
produite. En terme des constantes de conversion d’unités h̄c et c, nous avons ainsi
τ=
h̄
h̄c
= ,
Γc
Γ
(3.84)
montrant que le taux de transition correspondant est lui aussi donné par
λ=
1
Γc
Γ
=
= .
τ
h̄c
h̄
(3.85)
C’est donc de cette manière que les valeurs tabulées des largeurs de résonance pour les états
hadroniques repris ci-dessus – largeurs toutes de l’ordre de Γ ≃ 120−150 MeV – ont été converties
dans les valeurs de temps de vie de l’ordre de 10−24 s telles que données plus haut.
14
La justification de la paramétrisation de Breit-Wigner pour une résonance est discutée dans tout livre de
mécanique quantique.
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
3.2.4
131
L’interaction faible
Parmi les quelques exemples de temps de vie donnés dans la section précédente, une chose attire
évidemment l’attention de manière immédiate. Il est clair, à l’exception de quelques cas particuliers sur lesquels nous reviendrons, que l’ensemble de ces temps de vie peut se regrouper
sous trois classes caractéristiques. D’une part, les temps de vie de l’ordre de quelques 10−6 s à
quelques 10−13 s, d’autre part les temps de vie de l’ordre de quelques 10−16 s à quelques 10−21 s,
et finalement les temps de vie de l’ordre de 10−24 s à l’extrême limite de cette échelle hadronique
de distances de l’ordre du fermi15 .
En raison de la caractérisation de l’interaction électromagnétique déjà discutée dans la
section 3.2.3, il est clair que la seconde classe de processus doit être associée à cette interaction,
ce qui est effectivement confirmé par la nature des états finaux correspondants qui comprennent
toujours au moins un photon. En particulier, la variation dans ces temps de vie est nécessairement
associée aux diverses échelles de masses – ou d’énergie – contribuant à chacun de ces processus,
d’une manière semblable à celle déjà considérée pour les transitions atomiques. Cependant, une
telle variation devient plus complexe lorsque plus d’une échelle de masse intervient. Ceci est le
cas par exemple pour la désintégration π 0 → e+ e− γ, dont le rapport de branchement est environ
100 fois inférieur à celui du mode électromagnétique dominant π 0 → 2γ. En effet, dans le cas
du mode en trois corps, nous savons que le spectre en énergie des états finaux est alors continu,
contrairement à la désintégration en deux corps. Dans ce cas, le fait que l’énergie de masse des
électron et positron produits ne soit pas nulle – bien que restant faible devant celle du π 0 – implique
que toute l’énergie de masse initiale n’est pas disponible à la réaction elle-même, conduisant ainsi
à une probabilité, et donc à un rapport de branchement, moindre16 . D’une manière générale, il
faut donc garder à l’esprit la possibilité de tels effets cinématiques de réduction dans les taux de
désintégration en analysant les trois classes d’échelles de temps de vie ci-dessus.
Néanmoins, il apparaı̂t clairement que tous les processus de désintégration faisant intervenir
les leptons µ− et τ − et les mésons π ± , K ± et KS0 , KL0 possèdent des temps de vie appartenant
à la même classe, et ceci indépendamment de ce que les états finaux de ces réactions ne comprennent que des états hadroniques ou que des états leptoniques. En comparaison à l’échelle
de temps caractéristique des processus électromagnétiques, il est évident que l’interaction – s’il
s’agit bien d’une seule même interaction responsable de tous ces processus – impliquée dans
ces désintégrations agit avec une échelle de temps plusieurs ordres de grandeur plus longue, et
qu’elle doit donc posséder une intensité beaucoup plus faible. En d’autres mots, l’existence de
ces processus de désintégration est indicative de l’existence d’une interaction faible, beaucoup
plus faible que l’interaction électromagnétique, elle-même plus faible que l’interaction forte entre
quarks responsable des processus hadroniques dont l’échelle de temps appartient à la troisième
classe de temps de vie.
Faisant l’hypothèse de simplicité – qui s’avère être correcte – qu’une seule même interaction
faible soit responsable des processus de la première classe de temps de vie, tâchons de dégager
maintenant une mesure de l’intensité de cette interaction à partir de ces temps de vie. Afin de
s’affranchir un maximum des complications cinématiques liées à la présence de diverses échelles
de masse, considérons spécifiquement les désintégrations des µ− et τ − , car en effet les masses des
particules dans les états finaux sont alors fort petites en comparaison avec celle de l’état leptonique
initial, permettant en première approximation de négliger les effets cinématiques liés à ces masses
tandis qu’aucune autre échelle liée à la structure éventuelle des µ− et τ − ne peut intervenir, ces
15
Rappelons que le temps de vie moyen τ et les rapports de branchements Bi étant connus, les temps de vie
partiels associés à chaque mode de désintégration i sont donnés par τi = τ /Bi (voir le chapitre 2).
16
En comparaison au processus π 0 → 2γ, d’autres facteurs numériques de réduction interviennent également, liés
au fait que dans le cas π 0 → e+ e− γ il s’agisse d’une désintégration en trois corps dans l’état final.
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
132
particules étant élémentaires. La preuve que cette approximation est justifiée est donnée par les
rapports de branchements pratiquement identiques des deux modes de désintégration du τ − , qui
sont associés à un temps de vie pour chacun d’entre eux de
τ (τ − → µ− ν µ ντ ) ≃ τ (τ − → e− ν e ντ ) ≃ (1,63 − 1,67) · 10−12 s.
(3.86)
La valeur de ces temps de vie doit donc pouvoir s’exprimer en terme du produit de l’intensité
carrée de l’interaction avec un facteur d’échelle nécessairement fixée par la seule échelle de
masse présente, en l’occurrence la masse mτ du lepton τ − . Cependant, contrairement au cas de
l’interaction électromagnétique, nous ne pouvons supposer que l’intensité de l’interaction faible
ne soit pas associée à une autre échelle d’énergie MW (en unités naturelles), auquel cas nous
avons une loi d’échelle de la forme
τ −1 = λ ≃
αW
δ
MW
!2
m2δ+1
≃ 1,65 · 10−12 s
τ
−1
,
(3.87)
où αW est un constante sans dimension physique caractéristique de l’interaction faible, et δ est un
certain paramètre déterminé par la dimension physique de l’intensité universelle de l’interaction
faible responsable des processus de la première classe d’échelles de temps de vie, puisqu’en effet
en unités naturelles le temps de vie possède les dimensions d’une énergie ou d’une masse. Par
ailleurs, si cette analyse dimensionnelle est valable, elle doit également s’appliquer au temps de
vie du µ− , soit
!2
−1
αW
2δ+1
−6
m
≃
2,2
·
10
s
.
(3.88)
µ
δ
MW
Faisant alors le rapport de deux valeurs numériques précédentes, il suit que la seule solution
possible est donnée par
αW
−13
δ=2 ;
MeV −2 .
(3.89)
2 ≃ 1,5 · 10
MW
Ainsi, contrairement à l’interaction électromagnétique, l’interaction faible est caractérisée
par une intensité d’interaction possédant une dimension physique, qu’il est utile de comparer à
celle α de l’interaction électromagnétique, soit
2
αW /MW
≃ 2,1 · 10−11 MeV−2 ,
α
(3.90)
ou encore en terme de l’échelle d’énergie associée à l’interaction faible
MW ≃ 220
r
αW
GeV.
α
(3.91)
En d’autres mots, si les couplages sans dimension α et αW sont du même ordre de grandeur,
αW /α ≃ 1, l’échelle d’énergie caractéristique de l’interaction faible est de quelques 220 GeV,
une énergie considérable quelques 230 fois plus élevée que la masse des nucléons et typique des
noyaux les plus massifs, et donc associée à une échelle de distance de quelques 10−18 m et une
échelle de temps de quelques 3·10−27 s. Remarquons par ailleurs que c’est donc aussi cette échelle
d’énergie si importante qui explique directement la faiblesse de cette interaction, en comparaison
avec l’interaction électromagnétique. Ce résultat constitue donc une conclusion essentielle quant
à la nature de cette interaction fondamentale entre particules élémentaires, et sert de guide
dans la formulation de la théorie correspondante. Notons également que parmi les quarks et les
leptons, puisque ne portant pas de charge électrique et n’ayant aucune interaction forte avec les
quarks, les neutrinos ne possèdent que des interactions faibles dont l’échelle d’énergie naturelle
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
133
est donc donnée par la valeur de MW ci-dessus. C’est donc encore une fois la valeur de MW
qui explique l’extrême ténuité des interactions de neutrinos avec toute matière. Lorsque Pauli
avait proposé leur existence, il avait été calculé que ceux-ci, pour les énergies avec lesquelles ils
sont produits dans des processus nucléaires tels par exemple dans le Soleil ou les étoiles – de
l’ordre de quelques MeV –, pourraient traverser plusieurs années-lumières de plomb sans subir
aucune interaction! L’interaction faible est effectivement une interaction terriblement faible... et
pourtant encore plusieurs ordres de grandeur plus intense que l’interaction gravitationnelle, dont
l’échelle d’énergie naturelle est la masse de Planck, MPlanck ≃ 1019 GeV!
L’importance de telles conclusions nécessite qu’elles soient corroborées par des arguments
indépendants. Ainsi, afin que les situations cinématiques soient comparables, considérons les
désintégrations en trois corps des mésons K ± et KL0 , dont les échelles d’énergies de masses et de
structures – extensions spatiales – en terme de quarks sont essentiellement identiques aussi bien
pour les états initiaux que finaux. Les valeurs des temps de vie partiels,
τ (K + → π + π + π − ) = 2,22 · 10−7 s,
τ (KL0 → π 0 π 0 π 0 ) = 2,45 · 10−7 s,
τ (KL0 → π + π − π 0 ) = 4,12 · 10−7 s,
(3.92)
confirment qu’il s’agit bien encore d’une seule même interaction qui soit à l’oeuvre ici, et qui
ne peut être que l’interaction faible en raison de l’échelle de temps impliquée. Cependant, il
2 de l’interaction
n’est pas possible de comparer ces valeurs absolues à l’échelle d’intensité αW /MW
faible sans également tenir compte de l’échelle de structure d’états liés de ces mésons, et de ce
que dans ces processus un quark s ou s se transforme en un quark u ou u avec l’amplitude de
probabilité associée mais restant indéterminée ici. Néanmoins, en comparaison au temps de vie
du µ− , les temps de vie ci-dessus ne sont qu’un facteur 10 plus petits, confirmant que la même
2 doit y être à l’oeuvre, à quelques facteurs numériques près liés à la
échelle d’énergie αW /MW
cinématique et à la conversion d’une saveur de quark.
Malheureusement, la situation n’est pas plus immédiate non plus sur base des désintégrations en leptons des π ± et K ± , car dans ces processus interviennent d’une part des suppressions
cinématiques, et d’autre part encore des conversions de saveurs de quarks différentes, pouvant
conduire à des facteurs numériques additionnels. Néanmoins, les échelles de temps de vie restent
comparables pour ces états initiaux et finaux d’énergies de masses similaires. Cependant, les
modes leptoniques π + → µ+ νµ , K + → µ+ νµ et π + → e+ νe , K + → e+ νe présentent une anomalie
curieuse. En effet, la masse du µ+ n’étant que de peu inférieure à celle du π + , le taux de
transition doit souffrir une réduction cinématique importante, ce qui est également le cas dans
une moindre mesure pour le K + , tandis que cette suppression ne devrait pas agir pour les modes
de désintégration en positron, e+ , dont les taux devraient donc être plus grands et les temps
de vie donc plus courts. Or, c’est tout le contraire qui est observé, les modes en positron étant
quelques 10−4 fois moins probables! Nous verrons dans la section 3.4 comment cette anomalie est
directement liée à la violation de la symétrie de parité – de réflexion de l’orientation de l’espace –
par les interactions faibles.
Par ailleurs, tous les exemples donnés indiquent également que tout processus dans lequel
une saveur de quark s est convertie en une saveur u est nécessairement médié par l’interaction
faible. En effet, y compris le cas des modes Λ → pπ − , nπ 0 ou encore Ω− → ΛK − , par exemple,
les temps de vie correspondants sont toujours de l’ordre de quelques 10−8 à 10−10 s.
Notons encore une autre anomalie, en comparant les temps de vie partiels
τ (K + → π + π 0 ) = 5,85 · 10−8 s,
τ (KS0 → π + π − ) = 1,30 · 10−10 s,
τ (KS0 → π 0 π 0 ) = 2,85 · 10−10 s,
(3.93)
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
134
Bien que les cinématiques et les quarks intervenant dans ces processus soient essentiellement
identiques, ces temps de vie diffèrent de plus de deux ordres de grandeur, alors que leurs valeurs
absolues sont caractéristiques de l’interaction faible. En réalité, cette anomalie est liée à une
propriété des interactions fortes entre quarks encore non totalement comprise aujourd’hui. Néanmoins, sans pouvoir pénétrer ici dans la description théorique de ces processus, nous constatons
qu’il nous est possible d’identifier l’existence des interactions fondamentales au travers d’une “lecture éclairée” par la cinématique relativiste et la mécanique quantique des données expérimentales,
tel un détective digne de Sherlock Holmes sur la trace des coupables.
Finalement, tournons-nous vers la dernière curiosité présentée par les exemples de processus
d’interaction faible donnés plus haut. Le temps de vie du neutron est de huit ordres de grandeur
plus long que celui du µ− , pourtant tous deux des processus à trois corps! Cependant, les masses
du neutron et du proton étant si voisines – une différence de 1,29 MeV pour une masse de
0,511 MeV pour l’électron produit –, le taux de transition souffre nécessairement une suppression
cinématique importante17 . De plus, l’état final comprend deux particules de charges électriques
opposées, conduisant à une autre correction d’origine coulombienne importante en raison de ce
que cette interaction électromagnétique est de portée infinie18 . Pour ces diverses raisons, il reste
possible que le temps de vie du neutron soit également expliqué par la même échelle d’énergie
2 caractéristique de l’interaction faible, ce qu’en effet une théorie détaillée de ce processus
αW /MW
confirme aisément19 .
En conclusion, ces quelques considérations de nature dimensionnelle nous ont permis de
dégager, à partir de quelques données expérimentales datant des années 1930 à 1965 environ, l’existence d’une interaction fondamentale faible, dont l’intensité est de plusieurs ordres
de grandeur inférieure à celle de l’interaction électromagnétique, agissante dans une très grande
diversité de processus entre quarks et leptons, et conduisant à la conversion des diverses saveurs de
quarks et de leptons aussi bien entre elles séparément pour chacune de ces deux classes de particules élémentaires qu’entre ces deux classes. En particulier, nous avons même pu identifier l’échelle
d’énergie correspondante, de l’ordre de 220 GeV, valeur pour laquelle il faudra donc trouver une
explication, esquissée dans la section 3.4. Bien évidemment, seule une analyse fouillée et complète
de tous ces processus, avec les outils appropriés de la théorie quantique des champs relativistes,
permet de conclure sans aucune équivoque à l’existence d’une telle interaction faible unique, et
donc “universelle”, à l’origine de ces processus. Néanmoins, la démarche phénoménologique et
empirique utilisée ici, qui est aussi celle du “physicien détective” dans le monde microscopique,
nous a permis de dégager les indices essentiels conduisant à la confirmation de l’existence de
l’interaction faible comme interaction fondamentale dans la nature.
3.2.5
L’interaction forte
Parmi les trois classes d’échelles de temps de vie dégagées dans les exemples de processus de
désintégrations donnés dans la section 3.2.3, les deux premières, à savoir celles de l’ordre de
quelques 10−6 s à 10−13 s et de quelques 10−16 s à 10−21 s, sont donc associées aux interactions
faible et électromagnétique. Il est donc clair que la dernière de ces classes, de temps de vie de
l’ordre 10−24 s et toujours associée à des processus ne faisant intervenir que des états hadroniques
17
En l’occurrence une correction de l’ordre de (1 − m2p /m2n )2 ≃ 7,6 · 10−6 .
Cette remarque s’applique bien sûr également aux processus faibles purement hadroniques discutés plus haut,
comptant des particules chargées dans leur état final.
19
En fait, avec le facteur de réduction cinématique de quelques 10−6 ainsi que le facteur d’échelle (mµ /mp )2 ≃
−2
10 , il est clair que le temps de vie faible τ (µ− → e− ν e νµ ) ≃ 2,2 · 10−6 s devrait conduire à un temps de vie
τ (n → e− ν e p) de l’ordre de 2,2 · 10−6 × (106 × 102 ) s ≃ 220 s, effectivement de l’ordre de la valeur expérimentale
τ (n → e− ν e p) ≃ 886,7 ± 1,9 s.
18
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
135
sans changement de saveur des quarks, est caractéristique d’une quatrième interaction fondamentale, nécessairement celle agissant entre les quarks uniquement et donc responsable entre autre de
la stabilité du noyau atomique. Il s’agit donc d’une interaction considérablement plus intense encore que l’interaction électromagnétique, dont l’intensité relative peut encore une fois être estimée
sur base des échelles de temps de vie correspondantes.
Considérant les rapports de branchements purement hadroniques ou avec une composante
électromagnétique donnés pour les états mésoniques du ρ ou les états baryoniques des N (1 535),
∆(1 232) et ∆(1 620), deux propriétés sont mises en évidence. Tout d’abord, quelle que soit
l’échelle de masse correspondante, les temps de vie, dominés par les modes hadroniques, sont tous
comparables, indiquant qu’aucune échelle dimensionnelle ne semble être associée à l’interaction
forte entre les quarks et à son intensité, cette dernière pouvant donc être caractérisée par une constante de structure forte αS à l’instar de celle de structure fine α pour l’interaction électromagnétique. Ensuite, comparant alors les rapports de branchements hadroniques et électromagnétiques,
il suit immédiatement que leurs rapports prennent dans chaque cas des valeurs typiques de l’ordre
de
α2
≃ 5 · 10−3 − 5 · 10−5 ,
(3.94)
α2S
soit
ou encore
αS ≃ (100 − 1 000) α,
(3.95)
1
1
α
≃
−
≃ α.
αS
1 000
100
(3.96)
Remarquons toutefois que bien qu’il ne semble pas nécessaire d’introduire une échelle
de masse distincte caractéristique de l’intensité de l’interaction forte, contrairement au cas de
l’interaction faible par exemple, il n’en reste pas moins vrai qu’une échelle de masse inhérente
à la structure d’états liés que sont les hadrons est implicite dans notre discussion, mais ne contribue pas dans la comparaison relative des temps de vie hadroniques car elle y contribue d’une
manière identique, quelle que soit la masse de l’état lié. En effet, tous ces états hadroniques ont
une échelle de masse ou de distance déterminée par le phénomène de confinement qui maintient
les quarks confinés au sein des hadrons, cette échelle d’énergie de confinement déterminant donc
la dimension caractéristique des hadrons. Cette échelle d’énergie est donc celle de la masse des
nucléons, par exemple, c’est-à-dire de l’ordre du GeV, ou encore 0,2 fm. Mais si l’intensité αS des
interactions fortes n’est associée à aucune échelle de masse, tandis que le confinement des quarks
l’est, cela soulève la question de savoir ce qui détermine cette échelle d’énergie du confinement
dans les interactions fortes. Ce n’est qu’une étude détaillée des effets quantiques dans la théorie
de champs correspondante – la chromodynamique quantique (voir la section 3.3) – qui permet
de répondre à cette question, avec un phénomène quantique de transmutation dimensionnelle de
l’intensité αS sans dimension en une échelle d’énergie20 .
Ainsi en conclusion, nous pouvons affirmer que sur base des évidences présentées, il existe
quatre interactions fondamentales dans la nature, agissant au sein de la structure la plus intime
de la matière et s’appliquant aux quarks et leptons élémentaires qui la composent. Ces interactions sont donc, par ordre d’intensité croissante, l’interaction gravitationnelle dont l’intensité
2
1/MPlanck
≃ 10−44 MeV−2 est caractérisée par la masse de Planck MPlanck ≃ 1019 GeV, l’interac2 ≃ 1,5 · 10−13 MeV−2 , l’interaction électromagnétique d’intensité
tion faible d’intensité αW /MW
20
En réalité, en raison d’effets de fluctuations quantiques, les intensités des interactions dépendent de l’échelle
de distance ou d’énergie à laquelle elles sont mesurées. En conséquence, c’est donc la distance à laquelle l’intensité
αS atteint sa valeur de l’ordre unité qui détermine l’échelle d’énergie associée au phénomène de confinement, de
l’ordre du GeV.
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
136
α ≃ 1/137, et finalement l’interaction forte entre quarks d’intensité αS ≃ (100 − 1 000)α ≃ 1.
Choisissant de normaliser ces intensités à celle de l’interaction forte, nous avons ainsi par ordre
de décroissance,
αS
αS
Forte
Electromagnétique
α
αS
1 αW
2
αS MW
Faible
≃ α = 7,3 · 10−3
≃ 1,5 · 10−13 MeV −2
αW m2e
2
αS MW
1
1
2
αS MPlanck
Gravitationnelle
=1
(3.97)
αW
αS
≃ 3,9 · 10−14 ;
m2p
2
MW
≃ 1,3 · 10−7
= 6,7 · 10−45 MeV−2
m2e
1
2
αS MPlanck
2
mp
1
2
αS MPlanck
= 1,75 · 10−45 ;
= 5,90 · 10−39
où pour les deux interactions les plus faibles dont l’intensité possède une échelle dimensionnelle,
nous donnons également ces valeurs normalisées soit à la masse me de l’électron (échelle atomique
typique), soit à la masse mp du proton (échelle hadronique typique)21 .
Forts de cette connaissance de la structure élémentaire de la matière en terme de quarks
et de leptons, et des propriétés de base des quatre interactions fondamentales de la nature,
nous sommes maintenant en mesure d’esquisser les théories quantiques de champs relativistes
permettant aujourd’hui une description extrêmement précise de tous ces phénomènes physiques
à ces échelles de d’énergie, de temps et de distances différant de plus de quarante ordres de
grandeur.
3.3
Interactions fondamentales et symétrie de jauge
Afin de comprendre le principe d’invariance de jauge qui est à la base de la formulation moderne de
toute théorie des interactions fondamentales, considérons à nouveau l’équation non relativiste de
Schrödinger pour une particule non relativiste de masse m couplée au champ électromagnétique,
telle que donnée dans le chapitre 2,
"
q~
h̄2 ~
∇ − i A(~
x, t)
−
2m
h̄
2
#
+ V (~x) + qΦ(~x, t) ψ(~x, t) = ih̄
∂
ψ(~x, t),
∂t
(3.98)
ou encore
h̄2 ~
q~
−
∇ − i A(~
x, t)
2m
h̄
"
2
#
+ V (~x) ψ(~x, t) = ih̄
∂
q
+ i Φ(~x, t) ψ(~x, t).
∂t
h̄
(3.99)
21
En particulier, si ces dernières valeurs sans dimension pour les interactions faible et gravitationnelle sont
normalisées finalement à la constante de structure fine α, on retrouve les valeurs en (3.30) et (3.31) des rapports
des forces gravitationnelle et coulombienne appliquées entre deux électrons ou deux protons.
137
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
Malgré cette situation quelque peu baroque du couplage d’un système invariant sous le groupe de
Galilée – la particule non relativiste – à un système invariant sous le groupe de Poincaré – le champ
électromagnétique –, il est important pour la relevance physique de cette équation qu’elle soit
compatible avec la propriété essentielle d’invariance de jauge de l’interaction électromagnétique
et de ses équations de Maxwell. Puisque de telles transformations de jauge s’expriment sous une
forme manifestement covariante dans l’espace-temps donnée par
µ
A′ (xµ ) = Aµ (xµ ) + ∂ µ χ(xµ ),
(3.100)
où χ(xµ ) est donc une fonction quelconque définie sur l’espace-temps, en terme des composantes
~ du champ électromagnétique nous avons,
Aµ = (Φ/c, A)
Φ′ (~x, t) = Φ(~x, t) + ∂t χ(~x, t)
,
~ ′ (~x, t) = A(~
~ x, t) − ∇χ(~
~ x, t).
A
(3.101)
Or, il est indispensable pour la cohérence physique de l’équation de Schrödinger ci-dessus,
que ces transformations laissent cette équation invariante. Clairement, ceci nécessite que la
fonction d’onde ψ(~x, t) du point matériel se transforme également. En réalité, il est immédiat de
vérifier que cette transformation est donnée par
ψ ′ (~x, t) = e−iqχ(~x,t)/h̄ ψ(~x, t),
(3.102)
conduisant en particulier aux propriétés
q
q
∂t + i Φ′ ψ ′ = e−iqχ/h̄ ∂t + i Φ ψ ,
h̄
h̄
~ − iqA
~ ′ ψ ′ = e−iqχ/h̄ ∇
~ ψ,
~ − iq A
∇
h̄
h̄
(3.103)
ou sous une forme covariante22
q
q
∂µ + i A′µ ψ ′ = e−iqχ/h̄ ∂µ + i Aµ ψ.
h̄
h̄
(3.104)
Mais quelle est donc la signification physique profonde de l’existence de cette symétrie de jauge
de tout système électromagnétique quantifié?
Il est bien connu que la fonction d’onde ψ(~x, t) de tout système quantique n’est définie qu’à
un facteur de phase arbitraire près,
ψ ′ (~x, t) = eiϕ ψ(~x, t),
(3.105)
car les observables sont définies en terme des carrés des modules des éléments de matrice complexes < ψ|O|ψ > d’opérateurs hermitiens, Ô† = Ô. Cependant, il est important que cette phase
arbitraire ϕ prenne une valeur constante dans tout l’espace-temps, car sinon des redéfinitions
arbitraires spatio-temporellement locales de la phase ϕ(~x, t) de la fonction d’onde conduiraient
à des conséquences observables dans des phénomènes d’interférence. Ainsi, si deux observateurs
décrivent le même système quantique, et que l’un d’eux souhaite choisir une convention de phase
différente pour la fonction d’onde du système, il est contraint d’appliquer au même instant la
22
Cette propriété est en fait centrale à toute théorie de jauge, et aux structures mathématiques correspondantes,
~ − iq A/h̄)
~
qui sont celles de fibrés sur des variétés différentielles. Une telle relation montre que l’opérateur (∇
préserve les propriétés de transformation de jauge des objets sur lesquels il s’applique, en l’occurrence la fonction
d’onde ψ. Il s’agit donc d’une extension de la dérivée spatio-temporelle – le gradient ∂µ – telle que les propriétés
de covariance sous la symétrie de jauge soient préservées, d’où le nom de dérivée covariante. En réalité, la dérivée
covariante combine la dérivée ordinaire avec une transformation de jauge de telle manière qu’intégré sur tout chemin
dans l’espace (ou l’espace-temps), l’objet obtenu au terme de l’intégrale curviligne soit encore covariant sous la
même symétrie.
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
138
même redéfinition de phase constante pour toutes les particules du système! En d’autres mots,
tout système quantique possède une symétrie de phase, caractérisée par le groupe U (1) des rotations dans le plan complexe, qui cependant doit s’appliquer de manière instantanée dans la
totalité du système. Lorsque l’ensemble de l’univers est considéré comme système quantique,
l’application de cette symétrie pose évidemment un problème conceptuel, car il est exclu, dans
un contexte relativiste, d’appliquer une telle transformation de manière instantanée dans tout
l’espace-temps, ou même dans tout système isolé étendu.
Par conséquent, si l’on veut rendre compte dans un contexte relativiste de cette symétrie
inhérente à toute formulation quantique des phénomènes physiques, il est nécessaire de pouvoir appliquer de telles transformations de phase localement dans l’espace-temps, d’une manière qui soit
à la fois compatible avec le principe de causalité ainsi que le fait qu’une telle transformation doive
rester inobservable pour toute expérience, ou en d’autres termes, que de telles transformations
de phase locales de la fonction d’onde définissent une symétrie de tous les processus quantiques
relativistes. Il est extrêmement remarquable que ce principe d’invariance de jauge puisse
être réalisé, et cette idée simple à énoncer – comme tout principe physique réellement fondamental – est l’idée maı̂tresse aujourd’hui pour la formulation de toute théorie des quatre interactions
fondamentales. Ainsi, s’il est permis de modifier localement dans l’espace-temps la phase de la
fonction d’onde d’une particule tout en assurant que cette transformation ne puisse jamais être
mise en évidence, il est indispensable qu’aussi vite que possible – à la vitesse de la lumière! –
les phases des fonctions d’onde de toutes les autres particules dans l’univers soient ajustées en
conséquence, afin qu’au terme de la transformation toutes ces phases aient été modifiées de la
même manière. En d’autres mots, afin de jauger la symétrie de phase U (1) quantique – de
la rendre locale dans l’espace-temps –, il est nécessaire d’introduire un champ de jauge de
masse nulle qui propage à la vitesse c de la lumière à toutes les autres particules dans l’univers
l’information de la transformation de phase locale appliquée à une particule. Puisque cette transformation doit également être compatible avec les propriétés de transport – gradients ou dérivées
∂µ des champs! – des particules dans l’espace-temps, ce champ de jauge doit “accompagner”23 le
gradient spatio-temporel ∂µ , nécessitant un champ vectoriel du type Aµ . Finalement, ce champ
de jauge peut se coupler aux particules avec une intensité a priori indéterminée, conduisant ainsi à
un couplage de jauge g apparaissant dans la dérivée covariante ainsi construite, (∂µ + igAµ /h̄).
En résumé, le principe d’invariance de jauge, qui consiste à rendre locale (dans l’espacetemps) une symétrie d’un système, implique nécessairement l’existence d’une interaction associée
à cette symétrie et véhiculée par la propagation d’un champ de jauge, dont les quanta correspondent aux particules qui, étant échangées entre d’autres particules, en sont les bosons de jauge
intermédiaires avec une intensité déterminée par la valeur de leur couplage de jauge g à ces autres
particules. Nous avons ainsi construit un cadre conceptuel général cohérent avec les principes
à la fois de la relativité restreinte et de la mécanique quantique, basé sur un principe unificateur extrêmement simple conduisant d’une manière on ne peut plus naturelle à des interactions
associées à une symétrie et décrites par des champs quantiques relativistes!
Dans le cas de la symétrie de phase U (1) des fonctions d’ondes de particules, ou d’une
manière plus correcte en réalité, la symétrie de phase du champ complexe associé à une particule
chargée électriquement, il apparaı̂t donc que ce principe de symétrie de jauge conduit précisément
à l’interaction électromagnétique, le champ vectoriel Aµ du photon étant celui responsable de cette
interaction, et possédant un couplage de jauge donné par la charge électrique q = eQ de chaque
particule de matière, en l’occurrence donc un couplage mesuré dans l’unité de charge électrique
√
élémentaire e ≃ 1,6 · 10−19 C, ou encore, en unités naturelles, la racine carrée α ≃ 8,54 · 10−2
de la constante de structure fine α ≃ 1/137 de l’électromagnétisme.
23
Afin de construire la dérivée covariante associée, en l’occurrence [∂µ + igAµ /h̄].
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
139
Le fait que ce principe de symétrie de jauge soit cohérent est explicitement illustré pour la
symétrie de phase U (1) par les transformations (3.101) et (3.102) laissant invariante l’équation
de Schrödinger (3.99) couplée à l’électromagnétisme. En particulier, elles montrent explicitement
qu’il est possible de construire un système quantique cohérent qui soit invariant sous toutes
transformations locales de phase des fonctions d’onde, pour autant qu’un champ vectoriel Aµ (xµ )
soit alors introduit et qui lui aussi se transforme en conséquence. Le champ de jauge se couple
alors à toute particule portant une charge électrique – et un moment magnétique, même pour une
particule neutre, comme c’est le cas du neutron –, et par conséquent ne couple pas à lui-même
puisque ne portant pas de charge électrique (notons que le champ électromagnétique Aµ (xµ ) est
réel, et ne peut donc décrire une particule chargée électriquement).
A l’instar des principes de la relativité restreinte, une fois encore nous voyons comment par
la considération de quelques résultats, idées et principes fort simples à énoncer – en l’occurrence
l’équation de Schrödinger et l’invariance de jauge des équations de Maxwell –, le progrès scientifique condensé dans ces quelques principes et équations de base y place déjà subtilement les
indices pour les progrès suivants. Le principe de jauge fondateur de toutes les interactions fondamentales se trouve déjà inscrit en filigrane dans l’équation de Schrödinger non relativiste (3.99).
Il “suffit” de trouver la bonne clef pour ouvrir les secrets que la nature nous offre au travers de
notre modélisation conceptuelle de ses phénomènes.
Ayant ainsi compris que l’interaction électromagnétique est intimement liée à la symétrie locale de phase U (1) des états quantiques de champs relativistes complexes dont les quanta sont donc
les particules chargées observées dans la nature, il devient aisé de comprendre comment étendre
ce principe de jauge aux autres interactions fondamentales. Mais avant cela, introduisons l’usage
d’un vocabulaire nouveau, faisant partie du “jargon” du physicien des particules. Dans le cas de
toute théorie relativiste d’un champ, telle par exemple celle du champ électromagnétique Aµ (xµ ),
par construction une telle théorie est invariante sous le groupe de symétrie de l’espace-temps, à
savoir le groupe de Poincaré et son sous-groupe, celui de Lorentz. Cependant, la symétrie de phase
U (1) laisse le système invariant également, sans agir sur les coordonnées spatio-temporelles xµ ou
sur les points de l’espace-temps, une manière équivalente d’exprimer la même chose. En réalité,
la symétrie de phase U (1) agit en quelque sorte uniquement sur une partie des degrés de liberté
du système, comme si elle effectuait une rotation dans l’espace défini par les deux composantes
réelle et imaginaire du champ complexe. Il est donc permis d’imaginer que cet espace à deux
dimensions soit un espace “interne”24 , et pour cette raison la transformation de phase U (1) est
qualifiée de symétrie “interne”. Les symétries d’une théorie de champs relativistes – classiques
ou quantiques – se classifient donc en terme des symétries de l’espace-temps – les groupes de
Lorentz et de Poincaré, pour l’espace-temps de Minkowski –, et des symétries internes. En raison
du théorème de Noether, des grandeurs conservées sont également associées à ces deux classes
de symétries. A celles de l’espace-temps sont ainsi associés les nombres quantiques de masse
24
En fait, ce mot ne saurait être utilisé à meilleur escient, car en effet dans le contexte de la théorie M et
des supercordes, de telles symétries n’agissant pas sur l’espace-temps sont précisément des symétries agissant sur
l’espace interne compactifié, conduisant ainsi à l’existence des nombres quantiques exactement conservés, comme
la charge électrique ou celui de couleur! Par espace interne compactifié, il faut comprendre la chose suivante. La
théorie M est une théorie dans un espace-temps de dimension 11, et les théories de supercordes sont définies dans
un espace-temps de dimension 10. Afin d’obtenir notre espace-temps à 4 dimensions, il faut donc que les dimensions
supplémentaires, donc 7 ou 6 dimensions, soient refermées sur elles-mêmes – compactifiées en un volume fini, telle
une sphère, par exemple – dont l’échelle de distance est extrêmement petite, encore inaccessible aujourd’hui même
aux énergies les plus élevées, mais expliquant l’échelle de la masse de Planck MPlanck ≃ 1019 GeV. En d’autres mots,
les dimensions supplémentaires éventuelles auraient encore échappé à nos instruments d’expériences en raison de leur
taille de loin inférieure à la résolution de ces instruments. Néanmoins, ces dimensions supplémentaires joueraient le
rôle d’un espace interne du point de vue de l’espace-temps quadri-dimensionnel, et conduiraient ainsi aux nombres
quantiques conservés associés aux symétries de jauge.
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
140
et de spin des quanta des champs considérés, tandis qu’aux symétries internes sont associés des
nombres quantiques conservés caractéristiques de ces symétries, telle la charge électrique pour la
symétrie de phase U (1) de champs complexes décrivant des particules chargées. Si de plus de
telles symétries sont jaugées, ces nombres quantiques conservés ou charges sont ceux auxquels les
bosons de jauge correspondants se couplent, conduisant ainsi aux interactions de jauge caractérisées par de telles symétries et véhiculées par les quanta de ces champs de jauge échangés entre
les particules portant les charges conservées associées à ces symétries de jauge.
Cette interprétation de symétries internes conduit également à une description alternative
de la dérivée covariante. Ainsi, en transportant un champ le long d’une chemin donné dans
l’espace-temps, la transformation correspondante du champ, ∂µ ψ(xµ ), doit être accompagnée par
une transformation de jauge interne adaptée à ce chemin et déterminée par le champ de jauge
Aµ (xµ ), de telle manière que le champ transformé sous l’effet de ces deux variations maintienne
ses propriétés de covariance sous la symétrie de jauge en chaque point du chemin considéré. Tout
en “avançant” le long du chemin, il faut qu’il “tourne” dans l’espace interne de la symétrie, de
manière telle que l’objet ainsi construit soit toujours covariant sous la symétrie considérée; c’est
l’idée de “transport parallèle” le long d’une courbe dans l’espace-temps.
De ce point de vue, considérons maintenant les autres interactions fondamentales, à commencer par l’interaction faible, qui, comme nous l’avons vu dans les sections précédentes, est donc
responsable de transitions au sein des doublets des trois générations de quarks et de leptons,
u
d
!
c
s
!
t
b
!
;
νe
e−
!
νµ
µ−
!
ντ
τ−
!
,
(3.106)
en conduisant à la conversion d’un élément “up” en un élément “down”, ou vice-versa. Comme
déjà mentionné, cette structure en doublets suggère de lui associer le nombre quantique d’isospin
faible I W = 1/2 avec ses deux composantes IzW = +1/2 et IzW = −1/2, dont le groupe de symétrie
agit sur les deux champs complexes définissant ces doublets, et est donc nécessairement le groupe
unitaire SU (2)W des matrices 2 × 2 complexes unitaires, U † = U −1 , et de déterminant unité25 ,
det U = 1 (en effet, la normalisation des champs correspondants doit être conservée, d’où la
condition d’unitarité). Cependant, imposer une telle symétrie uniquement comme une symétrie
globale, c’est-à-dire pour les transformations dans SU (2)W dont les paramètres de transformation
sont constants dans l’espace-temps, n’est pas satisfaisant sur le plan conceptuel dans un contexte
relativiste, pour les mêmes raisons que celles déjà présentées pour la symétrie U (1) ci-dessus. Il
s’agit donc de jauger cette symétrie SU (2)W , c’est-à-dire rendre la théorie invariante sous de telles
transformations dont maintenant les paramètres sont des fonctions locales de l’espace-temps.
Or, le groupe SU (2) est associé à trois types de transformations distinctes26 . Afin de
comprendre les raisons pour cela, considérons de manière générale les transformations définissant
le groupe SU (n), c’est-à-dire l’ensemble des matrices complexes n × n unitaires et de déterminant
unité,
U U † = 11 = U † U , det U = 1.
(3.107)
Une telle matrice est donc définie en terme de 2n2 paramètres réels. Cependant, la condition
d’unitarité impose n2 conditions réelles,
∗
∗
Uki
Ukj = δij = Uik Ujk
,
25
(3.108)
De la même manière que le groupe U (1) de transformations de phase d’un seul champ complexe correspond au
groupe unitaire des matrices 1 × 1 unitaires, U † = U −1 .
26
Le groupe SU (2) est associé au groupe SO(3) des rotations dans l’espace euclidien à trois dimensions – songeons
au spin d’une particule, par exemple de spin 1/2 –, et possède donc trois types de transformations indépendantes.
En effet, il existe trois types de rotations indépendantes dans l’espace à trois dimensions, par exemple les rotations
ayant comme axes un choix de trois axes perpendiculaires deux à deux, ou encore les rotations paramétrisées par
les trois angles d’Euler (Leonhard Euler (1707-1783)).
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
141
tandis que la condition de déterminant unité fixe encore une contrainte de plus, laissant ainsi un
total de 2n2 − (n2 + 1) = n2 − 1 paramètres indépendants pour les transformations du groupe
SU (n). Ainsi, le groupe SU (2) possède 3 paramètres indépendants – il s’agit d’un groupe de
dimension 3 –, tandis que le groupe SU (3) en possède 8 – un groupe de dimension 8.
Trois types distincts de transformations de jauge locales associées à SU (2)W sont donc possibles, chacune devant être accompagnée d’un champ vectoriel approprié, véhiculant l’information
de la transformation par sa propagation dans l’espace-temps. Puisqu’ici encore chacun de ces
champs est nécessairement vectoriel, les quanta de ces champs sont donc trois types distincts de
particules de spin 1, avec l’une d’entre elles anti-particule d’une autre, ces deux-ci portant des
charges électriques unités mais opposées, Q = ±1, et la troisième étant une particule neutre,
Q = 0. Tout comme le photon est le seul boson de jauge associée à la symétrie de phase U (1)
qui ne possède qu’un seul type de transformation – une rotation dans le plan complexe –, ces
trois particules sont les bosons de jauge de la symétrie SU (2)W associée aux interactions faibles,
appelés W + , W − et Z0 .
La raison pour laquelle deux de ces bosons de jauge sont nécessairement chargés électriquement avec une valeur de charge unité et sont anti-particules l’un de l’autre, est que, comme
nous l’avons vu, les interactions faibles conduisent à des conversions entre les éléments “up” et
“down” des doublets ci-dessus, et donc à des variations en charge électrique ∆Q = ±1 qui doivent
être compensées par les charges que portent les bosons de jauge responsables de ces interactions.
Cependant, puisque la symétrie interne SU (2)W est associée à une rotation à trois dimensions
euclidiennes – dans l’espace “interne” de la symétrie –, les transformations de jauge associées
aux deux bosons de jauge W ± ne fournissent que deux (combinaisons linéaires) des trois types
de rotations possibles, le troisième type devant être associé aux rotations ne mélangeant pas les
membres d’un doublet d’isospin faible. Par conséquent, le troisième boson de jauge doit être
neutre électriquement, correspondant au Z0 .
Par ailleurs, en raison de leur origine commune dans le principe d’invariance de jauge
associé à la symétrie d’isospin faible SU (2)W , une seule même constante de couplage de jauge gW
détermine les couplages de ces trois types de bosons de jauge aux champs de matière des quarks et
leptons. De plus, contrairement au cas du photon associé à l’interaction électromagnétique et ne
possédant pas d’interaction avec lui-même puisque de charge électrique nulle, les bosons de jauge
W ± et Z0 possèdent des interactions avec eux-mêmes car ils ne sont pas laissés invariants sous
l’action de la symétrie SU (2)W – des rotations autour d’axes perpendiculaires ne commutent pas
à trois dimensions, et donc les transformations de jauge associées aux bosons W ± ne commutent
pas avec celles associées au Z0 – et portent donc également des charges d’isospin faible (en réalité
avec les valeurs IzW = ±1, 0, respectivement, pour les W ± et Z0 ). Néanmoins, l’intensité de ces
interactions des bosons de jauges entre eux reste déterminée par la même constante de couplage
de jauge gW . Ainsi, le principe d’invariance de jauge est non seulement un principe auquel sont
associées des interactions fondamentales, mais est également un principe d’unification de telles
interactions, en mettant en relation l’ensemble des interactions médiées par les bosons de jauge
correspondants au travers d’une seule et même constante de couplage. De telles prédictions de
l’universalité de l’intensité des interactions faibles véhiculées par les bosons W ± et Z0 entre eux27
et les autres champs de matière font actuellement l’objet d’expériences auprès des accélérateurs
les plus puissants au monde, le LEP au CERN (arrêté depuis novembre 2000), le TEVATRON
(FERMILAB, USA) qui sera mis en route durant 2001, et le LHC au CERN à partir de 2008.
27
De manière plus précise, l’interaction de jauge est telle que seules des interactions entre 3 ou 4 bosons de
jauge sont possibles, avec une structure en moment angulaire toute spécifique faisant également l’objet des tests
expérimentaux bien sûr.
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
142
Tournons-nous maintenant vers le cas des interactions fortes entre quarks. A plusieurs
reprises déjà, nous avons signalé que cette interaction est associée au nombre quantique de couleur
porté par les quarks uniquement, et pouvant prendre trois valeurs distinctes, ainsi que celles des
anticouleurs correspondantes pour les antiquarks. Ainsi, nous sommes immédiatement amenés à
considérer cette fois les matrices complexes 3 × 3 unitaires et de déterminant unité, définissant
les transformations de la symétrie de couleur entres les trois états de couleur d’une même saveur
de quark parmi les six saveurs possibles. En d’autres mots, l’interaction forte est basée sur
la symétrie de jauge du groupe de couleur SU (3)C , caractérisée elle-aussi par un couplage de
jauge indépendant gS . Ce groupe étant de dimension 8, les bosons de jauges associés sont au
nombre de 8, et sont appelés gluons, terme venant de l’anglais pour “glue” signifiant “colle”, cette
interaction étant si forte qu’il est exclu d’isoler un quark seul dans le vide en raison du phénomène
de confinement. Cette théorie de jauge porte aussi le nom de “chromodynamique quantique” ou
encore QCD pour “Quantum Chromodynamics” en anglais. Ainsi, les gluons se couplent aux
quarks avec une intensité déterminée par le couplage gS . Par ailleurs, lors de telles interactions
les quarks changent de couleur – le couplage aux gluons étant associé à une transformation de
couleur dans SU (3)C , donc à une modification de l’état de couleur d’un quark –, ce qui implique
que les gluons portent nécessairement une charge de couleur également, dans les combinaisons
d’une couleur avec une anti-couleur, la combinaison “neutre” ou “blanche” étant exclue – car
ne correspondant à aucune interaction –, conduisant en effet ainsi à 8 gluons distincts. En
d’autres mots, les gluons peuvent également interagir entre eux, avec une intensité encore une fois
déterminée par le couplage de jauge unique gS caractéristique de cette interaction fondamentale
de jauge. En réalité, ce sont ces interactions entre les gluons qui doivent être à l’origine du
phénomène de confinement des quarks pour leurs interactions fortes. Jusqu’aujourd’hui, les détails
dynamiques de ce phénomène sont encore non totalement compris, bien que de nombreuses études
et approches différentes à ce problème central aux interactions fortes corroborent les scénarios de
confinement qui ont été proposés depuis 1975. En particulier, pour cette raison, jusqu’ici il reste
impossible de calculer explicitement la masse du proton, ou des pions, par exemple, en terme des
masses des quarks u et d et leurs interactions de couleur dans le contexte directement de QCD,
sans avoir recours à des approximations numériques forts intéressantes par ailleurs (qui consistent
à discrétiser l’espace-temps en un réseau hypercubique).
Malgré la description fort sommaire ci-dessus, le point central et fondamental est néanmoins
clairement mis en évidence, à savoir que les trois interactions fondamentales que sont l’électromagnétisme, les interactions faibles et les interactions fortes sont toutes trois comprises aujourd’hui
comme étant des interactions découlant d’un principe général de jauge. Le groupe de symétrie
correspondant est celui U (1) × SU (2)W × SU (3)C associé aux nombres quantiques exactement
conservés de charge électrique, isospin faible et charge de couleur, avec les photon γ, W ± , Z0 et 8
gluons correspondants comme bosons de jauge véhicules de ces interactions, et interagissant avec
toutes particules portant de telles charges avec des intensités déterminées par les couplages de
jauge e, gW et gS , y compris donc avec eux-mêmes dans les cas des W ± , Z0 et gluons. Ce principe
d’invariance de jauge associé à des symétries des particules élémentaires conduit donc à une approche d’unification des concepts, dans le contexte directement de la théorie quantique des champs
relativistes, pour la description des interactions fondamentales entre particules élémentaires, un
fait particulièrement remarquable en soi.
Il est donc parfaitement légitime de se poser la question de l’interaction gravitationnelle.
En réalité, dans le contexte de la relativité générale, cette interaction peut elle aussi être comprise
en terme d’une symétrie de jauge, mais de nature différente des symétries internes ci-dessus, car
nécessairement associée à des symétries dans l’espace-temps possédant une géométrie courbée en
général. Bien que n’ayant pas discuté la relativité générale dans ces notes, essayons d’indiquer
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
143
Figure 3.1: Ascenseur soumis à l’attraction gravitationnelle ou à une accélération.
néanmoins l’aspect central de cette théorie, basée sur le principe d’équivalence entre masse inertielle et masse gravitationnelle.
Suivant en cela une “gedanken experiment” d’Einstein, imaginons un point matériel de
masse inertielle mi et de masse gravitationnelle mg posé sur le plancher d’un ascenseur sans
fenêtres (voir Fig. 3.1). Dans un premier temps, cet ascenseur est placé immobile au voisinage de
la Terre, auquel cas le point matériel est soumis à deux forces s’équilibrant, son propre poids mg~g
~ 1 = −mg~g du
– ~g étant le champ gravitationnel à l’altitude considérée – ainsi que la réaction R
plancher de l’ascenseur, cette dernière force ayant une norme donc égale au poids mg g du point
matériel. Dans un second temps, imaginons plutôt que l’ascenseur soit placé dans un univers vide
d’aucun autre objet matériel, ne subissant donc aucune attraction gravitationnelle vers un autre
corps, mais que cette fois il possède une accélération constante (−~g ) – appliquée de l’extérieur –
dans la direction ascendante plancher-plafond de l’ascenseur. Dans ce cas, le point matériel
~ 2 = −mi~g conduisant
est plaqué contre le plancher, ce dernier développant donc une réaction R
à l’accélération ~a = −~g du point matériel identique à celle de l’ascenseur. Or, en vertu du
principe d’équivalence entre masses inertielle et gravitationnelle, les valeurs R1 et R2 des réactions
doivent être identiques dans les deux situations, et aucune expérience réalisée à l’intérieur de
l’ascenseur n’est en mesure de distinguer l’une de ces deux situations de l’autre. En d’autres
termes, s’il y a effectivement équivalence physique entre masses inertielle et gravitationnelle, il y a
nécessairement équivalence physique entre inertie et gravitation, à savoir entre le choix d’un repère
non inertiel dans lequel l’interaction gravitationnelle n’est pas manifeste28 – la seconde situation –
et le choix d’un référentiel inertiel dans lequel l’interaction gravitationnelle est manifeste – la
première situation.
Cette compréhension étant acquise, plaçons-nous maintenant dans une situation faisant
intervenir la propagation d’un faisceau de lumière. Imaginons que celui-ci soit dirigé d’une paroi
verticale de l’ascenseur vers celle opposée (voir Fig. 3.1), et considérons cette propagation tout
d’abord dans la situation de l’ascenseur accéléré de l’extérieur en l’absence de toute interaction
gravitationnelle. Dans ce cas, en raison de la vitesse finie c de la lumière, et puisque durant le trajet
du faisceau lumineux l’ascenseur se déplace vers le haut avec une vitesse allant croissante, il est
clair que par rapport à l’ascenseur la trajectoire du faisceau de lumière apparaı̂t courbée. Et par
conséquent, en raison du principe d’équivalence qui implique qu’aucune expérience ne peut être
conçue qui permettrait de distinguer cette situation de celle dans laquelle l’ascenseur est maintenu
28
Une alternative à cet énoncé est de remarquer que puisque le principe d’équivalence implique une accélération
identique pour tout point matériel dans tout champ gravitationnel indépendamment de sa constitution matérielle,
mi~a = mg ~g , il existe toujours un choix de repère – celui “en chute libre” – dans lequel les effets d’accélération
gravitationnelle sont absents. En l’absence de l’interaction gravitationnelle – en l’absence de tout corps matériel
dans l’univers – un tel repère en chute libre est également un référentiel inertiel, tandis qu’en présence de l’interaction
gravitationnelle, un tel repère en chute libre n’est pas inertiel. Cependant, dans un cas comme dans l’autre, le
champ gravitationnel dans le repère en chute libre est identiquement nul localement.
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
144
immobile au voisinage de la Terre, force est de conclure qu’en présence d’un champ gravitationnel,
la lumière suit une trajectoire courbe – par rapport à un référentiel inertiel dans lequel l’interaction
gravitationnelle est manifeste – comme si elle était attirée par l’objet massif. Or, puisque la vitesse
de la lumière c est celle limite pour toute propagation, les trajets suivis par la lumière sont ceux
de plus courte distance – les “géodésiques” –, et nous sommes donc amenés à conclure, sur base du
principe d’équivalence, que le mariage de la gravitation avec le principe de la relativité restreinte
conduit nécessairement au concept d’un espace-temps courbé avec une structure géométrique
déterminée par la distribution de masse comme source du champ gravitationnel gµν (xµ ) qui, par
ailleurs, détermine la métrique de cette géométrie. En d’autres termes, une théorie relativiste de la
gravitation est nécessairement une théorie pour une dynamique de la géométrie de l’espace-temps.
Forts de cet acquis conceptuel, considérons maintenant les symétries inhérentes à une telle
géométrie. Dans le contexte de la relativité restreinte, nous savons comment le principe de relativité demande que les lois de la physique soient indépendantes du choix de référentiel inertiel,
tandis que les transformations entre de tels repères sont obtenues à l’aide des groupes de Lorentz
et de Poincaré. Ainsi, en l’absence de toute interaction gravitationnelle, la physique doit être
indépendante du choix de coordonnées utilisées dans l’espace-temps de Minkowski. Par extension
donc, même en présence de la gravitation, et donc d’un espace-temps courbé, la physique ne
peut dépendre du choix de coordonnées curvilignes utilisé pour l’expression des équations de la
physique. En d’autres mots, la physique doit être invariante sous le groupe de symétrie engendré
par toutes les transformations possibles de systèmes de coordonnées paramétrisant l’espace-temps.
Et puisque de tels changements de coordonnées peuvent être définis localement dans l’espacetemps, au voisinage de chacun de ses points de manière indépendante des points voisins – le tout
en maintenant les structures de continuité et de différentiabilité de l’espace-temps –, il est clair
que ce groupe de symétrie est caractéristique d’une symétrie de jauge!
Par ailleurs, même dans le cas d’un espace-temps courbé, en chacun de ses points il est
possible d’imaginer un espace-temps tangent – car la variété de l’espace-temps doit être continue
et différentiable partout. Cet espace tangent étant linéaire est un espace vectoriel, muni de
la géométrie de Minkowski caractérisée par la métrique de Minkowski, laissée invariante par le
groupe de Lorentz. Ainsi, il est possible d’effectuer localement en chaque point de l’espace-temps
une transformation de Lorentz dans l’espace tangent correspondant, sans affecter les lois de la
physique. En d’autres termes, ces transformations locales de Lorentz dans l’espace tangent en
chaque point de l’espace-temps courbé sont également des symétries de jauge.
Ainsi, nous pouvons conclure que toute théorie relativiste de la gravitation – dont la relativité générale est l’exemple le plus simple – est caractérisée elle aussi par le principe d’invariance
de jauge, associé au groupe des translations locales dans l’espace-temps courbé – changements
locaux dans la paramétrisation locale de coordonnées curvilignes – ainsi qu’au groupe de Lorentz
local des transformations de Lorentz – rotations spatiales et pseudo-rotations – dans l’espace
tangent en chaque point de l’espace-temps. Notons en particulier que le groupe d’invariance de
l’espace-temps de Minkowski, le groupe de Poincaré, qui comprend donc les translations constantes ainsi que les transformations de Lorentz, se voit ainsi étendu dans le contexte gravitationnel aux transformations locales de coordonnées – translations locales – ainsi qu’aux transformations locales de Lorentz – (pseudo-)rotations locales dans l’espace tangent. En d’autres termes,
toute théorie relativiste de la gravitation consiste à jauger le groupe de Poincaré d’invariance de
l’espace-temps de Minkowski, de la même manière que les trois autres interactions fondamentales
correspondent à avoir jaugé le groupe de symétries internes U (1) × SU (2)W × SU (3)C . L’élégance
du parallélisme et de l’unification de concepts au travers du principe d’invariance de jauge comme
principe générateur de toutes les interactions fondamentales ne saurait être plus explicite!
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
Forte
8 gluons
spin 1
masse nulle
Electromagnétisme
photon
spin 1
masse nulle
Faible
W ± , Z0
spin 1
masse non nulle
Gravitationnelle
graviton
spin 2
masse nulle
145
Tableau 3.2: Les bosons de jauge des quatre interactions fondamentales.
Cependant, une telle théorie de jauge relativiste pour la gravitation reste distinguée des
théories de jauge pour les trois autres interactions fondamentales. En effet, contrairement à
ces dernières dont la formulation quantifiée comme théories de champs est physiquement et
mathématiquement parfaitement cohérente, la quantification du champ relativiste gµν (xµ ) de
la métrique de l’espace-temps pose encore toujours des problèmes insurmontables, rendant impossible la construction d’une théorie quantique relativiste de la gravitation. C’est comme si
un concept nouveau et fondamental manquait, qui sans doute devrait être mis en relation avec
l’échelle quantique fondamentale associée à cette interaction, à savoir celle de la masse de Planck,
MPlanck . Aujourd’hui, la seule description cohérente d’un formalisme à la fois quantique et relativiste pour la gravitation est celle fournie par la théorie M et les supercordes, une théorie
dépassant tout en englobant les théories quantiques de champs relativistes. Mais de nombreux
progrès sont encore à accomplir avant de pouvoir affirmer avec un minimum d’assurance que la
théorie M est la réponse appropriée à ce grave problème à la frontière des connaissances actuelles
en physique fondamentale.
Ainsi en conclusion, associés aux quatre interactions fondamentales connues nous avons les
bosons de jauge repris dans le Tableau 3.2, particules qui sont les quanta des champs de jauge
venant ainsi compléter la liste des particules et champs de matière déjà donnée dans le Tableau 3.1.
En particulier, notons que toutes ces particules de matière – les quarks et les leptons – sont de
spin 1/2, tandis que les bosons de jauge sont tous de spin 1 à l’exception du graviton de spin 2.
De plus, seuls les W ± et Z0 sont massifs, avec les valeurs29
MW ± c2 = 80,419(56) GeV
,
MZ0 c2 = 91,188 2(22) GeV.
(3.109)
Ayant ainsi complété la description des constituants de la matière et des bosons véhiculant
leurs interactions fondamentales, il est possible de considérer à nouveau les divers exemples de
processus de désintégration donnés dans la section 3.2.3. Le cas des désintégrations faibles
π − → e− ν e
,
µ− → νµ e− ν e
,
n → pe− ν e ,
(3.110)
est illustré dans la Fig. 3.2. En réalité, de tels diagrammes, appelés diagrammes de Feynman
(Richard P. Feynman (1918-1988)), sont associés à des règles mathématiques parfaitement précises
29
Nous revenons sur les raisons de ces valeurs dans la section 3.4.
146
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
Figure 3.2: Exemples de processus de désintégrations faibles médiées par les W ± .
Figure 3.3: Exemples de processus de désintégrations fortes et électromagnétiques.
permettant de calculer l’amplitude quantique de probablité correspondant à chacun de ces diagrammes, et conduisant ainsi au calcul des taux de désintégration de ces particules, et de manière
plus générale, également aux sections efficaces de processus de diffusion entre particules.
De même les processus de désintégrations fortes ou électromagnétiques
∆++ → pπ + , ∆+ → pπ 0 , ∆+ → pγ , π 0 → 2γ , π 0 → γe+ e− ,
(3.111)
sont représentés dans la Fig. 3.3, montrant ainsi comment les gluons et le photon à leur tour
jouent le rôle de bosons intermédiaires véhicules des interactions fortes et électromagnétiques,
chacune de ces interactions ne faisant intervenir qu’un seul même couplage de jauge déterminant
chacune de leur intensité.
3.4
Quelques problèmes ouverts
La présentation donnée dans ce chapitre des particules élémentaires et de leurs interactions fondamentales en terme de champs quantiques relativistes soumis au principe général de l’invariance de
jauge ne doit surtout pas donner l’impression que ce vaste domaine de la physique fondamentale
se réduit à de telles considérations d’analyse dimensionnelle et d’ordres de grandeur. Bien au contraire, ces développements plongent profond dans les arcanes subtils et essentiels de la formulation
de ces théories et des techniques mathématiques qui ont été développées pour les manipuler, ainsi
que dans les vastes quantités d’informations expérimentales accumulées au cours des décennies,
et dont les physiciens ont en quelque sorte “distillé” ce qui en fait l’essence, qui se voit cristallisée
dans un cadre théorique général. C’est ainsi que ce cadre basé sur la théorie quantique de champs
relativistes possédant les symétries de jauge associées aux groupes U (1) × SU (2)W × SU (3)C
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
147
Figure 3.4: Exemples de processus électrofaibles de diffusion avec courants neutres.
porte le nom de Modèle Standard (des particules élémentaires), car il s’agit du standard en terme
duquel concevoir les prochaines expériences de recherche de physique nouvelle au-delà de ce cadre,
et donc en particulier la prochaine génération d’accélérateurs de particules, et également, en terme
duquel chercher sur le plan théorique de nouveaux concepts fondamentaux transcendant ceux du
Modèle Standard et permettant éventuellement une unification ultime de toutes les interactions,
et ce y compris la gravitation dans le régime quantique.
Par conséquent, de nombreux aspects sont évidemment passés sous silence ici, le seul but
cherché étant une introduction aux grands concepts de la physique moderne à l’échelle fondamentale de structure de la matière. Ainsi par exemple, à l’instar de l’électromagnétisme qui
unifie les phénomènes électriques et magnétiques, en réalité le secteur des interactions faibles et
électromagnétiques est également unifié en une seule interaction appelée électrofaible. En effet,
les photon et Z0 sont en fait des superpositions quantiques des deux bosons de jauge neutres
du groupe de symétrie U (1) × SU (2)W , avec un certain angle de mélange caractéristique θW de
valeur expérimentale sin2 θW ≃ 0,2312. Lorsque cette théorie a été construite en 1967, elle a
donc prédit une nouvelle forme d’interaction faible médiée par le boson neutre Z0 et conduisant
à des processus dits de “courants neutres”, en opposition à ceux de “courants chargés” médiés
par les W ± . De tels processus ont effectivement été mis en évidence expérimentalement en 1973,
comme ceux dans la Fig. 3.4, permettant ainsi une mesure de l’angle de mélange θW , ainsi que
la prédiction des masses des W ± et Z0 . C’est en 1983 que ces dernières particules ont alors été
produites dans des collisions pp au CERN, précisément aux valeurs attendues pour leurs masses,
un réel triomphe pour le Modèle Standard des interactions électrofaibles. De même en 1979, les
premières évidences pour l’existence des gluons se sont accumulées, complétant ainsi le secteur
des interactions fortes de ce même Modèle Standard. Aujourd’hui, des mesures de précision
atteignant parfois des incertitudes relatives aussi faibles que 10−5 , continuent de confirmer ce
Modèle dans ses moindres détails.
Néanmoins, malgré ces succès sans comparaison, le Modèle Standard pose également des
questions fondamentales encore sans réponse, dont nous discutons quelques exemples dans le reste
de ce chapitre. Pour commencer, il n’aura certainement échappé à aucun lecteur que bien que
nous ayons compris qu’en général les bosons de jauge soient de masse nulle, pourtant les W ± et
Z0 sont massifs, d’autant que nous venons d’affirmer de plus que le Z0 est obtenu par mélange
quantique avec le photon, qui lui est un boson de jauge de masse nulle! Comment une telle
situation est-elle possible?
Ici, nous rencontrons le célèbre problème de l’origine de la masse des particules élémentaires.
En réalité, il y a un phénomène de brisure spontanée de la symétrie de jauge U (1) × SU (2)W des
interactions électrofaibles – analogue à la brisure spontanée de la symétrie sous les rotations dans
l’espace lorsqu’un matériau se magnétise dans une direction spécifique de l’espace, un phénomène
de transition de phase caractérisé par une température critique – qui permet aux bosons de jauge
d’acquérir une masse tout en maintenant la conservation des nombres quantiques correspondants.
Ce “mécanisme de Higgs” (du nom de Peter Higgs, mais que plusieurs autres physiciens également
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
148
ont découvert en 1964, dont Robert Brout et François Englert de l’Université libre de Bruxelles)
utilise en fait un dernier champ dans la construction du Modèle Standard. Ce champ est un
doublet d’isospin faible de spin 0,
!
φ+
φ=
,
(3.112)
φ0
dont la composante “up” est de charge électrique Q = +1, et la composante “down” de charge
Q = 0. Tout comme pour un matériau aimanté par exemple, la configuration d’énergie minimale
du système dans ce secteur de Higgs est telle qu’il y a condensation de la composante φ0 ,
< φ0 >= v 6= 0,
(3.113)
avec une valeur moyenne dans le vide v non nulle possédant la dimension d’une énergie. Ainsi,
les autres particules, se propageant dans le vide tout en interagissant avec ce champ fondamental
de Higgs, acquièrent nécessairement une masse non nulle proportionnelle au produit de cette
échelle de masse v et de leur constante de couplage au champ de Higgs, à l’instar, par exemple,
des porteurs de charges – les électrons – dans un conducteur qui acquièrent une masse effective
différente de leur masse libre en raison de leurs interactions avec le réseau cristallin du matériau.
En d’autres mots, une seule même échelle d’énergie liée au mécanisme de Higgs détermine toutes
les autres échelles de masse du Modèle Standard, en l’occurrence les masses de tous les quarks et
leptons et bosons de jauge. Donc nécessairement, cette valeur dans le vide v doit être de l’ordre
de l’échelle de 220 GeV que nous avions identifiée pour les interactions faibles, et effectivement
la valeur correcte est
v ≃ 246 GeV.
(3.114)
Par ailleurs, les masses des bosons de jauge sont donc aussi nécessairement proportionnelles
±
au produit de v avec les constantes de couplage de jauge gW et e. En réalité,
√ pour les W ,
le facteur d’échelle de masse doit encore être multiplié par un facteur sin θW / 2 en raison du
mélange entre bosons de jauge neutres et d’un facteur de normalisation, impliquant ainsi que
notre estimation de l’échelle des interactions faibles de 220 GeV est associée à une masse de l’ordre
de 75 GeV pour les W ± , une excellente approximation à la valeur vraie mesurée de l’ordre de
80,4 GeV. Finalement, la masse du Z0 est liée à celle des W ± par un facteur cos θW additionnel,
soit MZ0 = MW ± / cos θW . Quoiqu’il en soit, sans considérer les détails de la construction du
Modèle Standard et du mécanisme de Higgs, nous voyons encore une fois comment une analyse
dimensionnelle basée sur les données expérimentales permet immédiatement de dégager les ordres
de grandeur corrects des échelles de masses et d’intensités des interactions.
La grande question expérimentale aujourd’hui est donc de savoir si c’est effectivement ce
mécanisme théorique de Higgs qui permet de comprendre les masses de toutes les particules
élémentaires. En réalité, après ce mécanisme de brisure spontanée de la symétrie de jauge – le
vide, ou encore l’état d’énergie minimale du système n’est pas invariant sous la symétrie, bien
que la dynamique de la théorie le soit – il survit encore, parmi les degrés de liberté du doublet
complexe de Higgs φ, une particule neutre de spin 0 appelée le “boson de higgs”, mais dont la
masse n’est pas prédite par la théorie. Ainsi, au LEP, et bientôt au TEVATRON, et à partir de
2008 au CERN avec le LHC, les grandes expériences des hautes énergies sont à la recherche de cette
dernière particule fondamentale rentrant dans la construction du Modèle Standard et la liste des
particules élémentaires – les quarks, leptons et bosons de jauge – qui le composent. Sa découverte
serait le couronnement de l’idée de symétrie de jauge avec brisure spontanée comme mécanisme
engendrant les masses de toutes les particules, certainement un magnifique aboutissement pour
divers courants d’idées remontant jusqu’aux grecs anciens, la Renaissance et la physique classique,
et se basant sur des principes brassant des phénomènes physiques toujours plus larges, ainsi que
toujours sur les réponses données par l’univers aux questions qui lui sont posées. Avant que le
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
149
LEP ne soit arrêté en novembre 2000, peut-être les premières indications de l’existence du higgs
ont été entre-aperçues, avec une masse au voisinage de 115 GeV. Maintenant, il faut attendre
encore quelques années, tout au plus, avant d’être fixés sur cette grande question de la physique
fondamentale.
Outre ce problème central de l’origine de la masse, le Modèle Standard possède encore
d’autres particularités qui demandent une explication. Ainsi, il a déjà été mentionné à quelques
reprises que la parité est violée par les interactions faibles, à savoir l’invariance de la physique sous
les réflexions de l’espace changeant son orientation. De manière plus précise, la transformation de
parité P laisse bien sûr la géométrie de l’espace-temps de Minkowski invariante, mais a priori il
n’y a pas de raison que les interactions soient invariantes sous cette transformation. Néanmoins,
lorsque pour des raisons expérimentales très particulières, il avait été proposé en 1956 par TsungDao Lee (1926- ) et Chen Ning Yang (1922- ) et confirmé expérimentalement à Noël 1956 par
Mme. Chien-Shiung Wu (1912-1997) que cette symétrie de l’espace n’est pas une symétrie des
interactions faibles, ce résultat a eu l’effet d’une bombe sur la communauté des physiciens du
monde entier! Et encore à ce jour seule l’interaction faible viole la symétrie de parité, tandis
que les trois autres interactions fondamentales – forte, électromagnétique et gravitationnelle –
préservent la transformation P .
Pour comprendre un peu plus précisément de quoi il s’agit, il nous faut introduire un concept
additionnel, celui d’hélicité. Ainsi, pour une particule massive ou non, il est toujours possible
de considérer la projection de son moment angulaire intrinsèque ou spin sur la direction de sa
quantité de mouvement; cette projection porte le nom d’hélicité. Pour une particule de spin 1/2,
son hélicité peut ainsi prendre l’une des deux valeurs +1/2 ou −1/2. Dans le cas de tous les
leptons chargés et de tous les quarks, toutes des particules de spin 1/2, leurs deux états d’hélicité
participent aux interactions fondamentales. Cependant pour les neutrinos qui ne possèdent que
des interactions faibles avec les W ± et Z0 , il s’avère que jusqu’ici seuls leurs états d’hélicité gauche
de valeur −1/2 participent à ces interactions; aucun neutrino d’hélicité droite +1/2 n’a encore
jamais été observé dans aucune interaction dans la nature! Les interactions faibles des neutrinos
avec la matière ne sont donc pas invariantes sous la parité, cette transformation P échangeant
en effet les états d’hélicité +1/2 et −1/2 d’une particule30 . Que des neutrinos d’hélicité droite
existent ou non dans la nature, le fait est donc que les interactions faibles ne se couplent, semblet-il, qu’aux neutrinos d’hélicité gauche: c’est le problème de la chiralité des interactions faibles!
Par extension, puisque les hélicités d’une particule et de son antiparticule prennent nécessairement des valeurs opposées – leurs charges, et donc leurs densités de courants électromagnétiques
étant opposées, par exemple dans le cas de particules chargées –, seuls les antineutrinos d’hélicité
droite +1/2 participent aux interactions faibles. Par ailleurs, pour des raisons que nous ne
tâcherons pas de présenter ici, il se fait que les même propriétés sont valables dans la limite
d’une masse nulle pour les leptons chargés et les quarks dans leurs interactions avec les W ± : les
interactions de courants chargés violent la parité P .
Bien que la découverte expérimentale de la violation de la parité ait été faite par C. S. Wu
dans une désintégration β nucléaire d’un noyau polarisé, au travers de l’asymétrie spatiale de la
distribution angulaire des β produits, ici nous ne souhaitons illustrer qu’une seule situation dans
laquelle cette violation de la parité est manifeste, à savoir la désintégration faible du π + ,
π + → ℓ+ + νℓ ,
(3.115)
ℓ désignant l’une des trois saveurs leptoniques. Pour cela, considérons la situation limite telle que
30
Pour s’en convaincre, il suffit de se rappeler que la quantité de mouvement est un vecteur polaire, dont les
composantes changent de signe sous P , tandis qu’un moment angulaire, et donc en particulier le spin, est un vecteur
axial, dont les composantes ne changent pas de signe sous P .
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
150
Figure 3.5: Désintégration du π + et violation de la parité.
la masse de l’antilepton chargé ℓ+ soit nulle. Or, cette désintégration faible ne se fait qu’au travers
de l’échange du W + , c’est-à-dire qu’il s’agit d’une interaction de courant chargé. Par conséquent,
les leptons produits dans l’état final sont d’hélicité bien définie, en l’occurrence gauche −1/2 pour
le neutrino et droite +1/2 pour l’antilepton (voir Fig. 3.5). Cependant, le moment angulaire total
de l’état final serait alors égal à l’unité – en unité de h̄ –, ce qui, par conservation du moment
angulaire, impliquerait que le π + est de spin unité, ce qui est impossible puisque cette particule
est de spin nul. En d’autres mots, en raison de la violation de la parité dans les interactions faibles
des neutrinos, le neutrino νℓ est produit avec une hélicité gauche, et donc, par conservation du
moment angulaire, l’antilepton chargé produit dans cette désintégration du π + de spin 0 ne
peut que posséder une hélicité gauche −1/2 également (voir Fig. 3.5). Cependant, un tel état
d’hélicité pour un antilepton chargé ne couple pas à l’interaction faible de courant chargé dans la
limite de masse nulle. Par conséquent, la violation de la parité dans les interactions faibles des
neutrinos implique une réduction cinématique dans le taux de transition du π + plus la masse du
lepton chargé produit est petite, alors que sur le plan purement énergétique c’est l’effet contraire
qui serait attendu. Voilà donc expliqué le rapport de branchement de l’ordre de 10−4 du mode
π + → e+ νe par rapport au mode dominant π + → µ+ νµ , dont la singularité avait déjà été soulignée
dans la section 3.2.4.
Cette violation de la parité par les interactions faibles possède encore d’autres conséquences.
Outre la transformation P , il existe aussi celle du renversement du temps T , ainsi que celle C de la
conjugaison de charge échangeant une particule avec son antiparticule. C’est un résultat général
de la théorie quantique de champs relativistes que le produit CP T de ces trois transformations
est toujours une invariance de toute telle théorie31 . Or, pour autant que l’on se place dans un tel
formalisme, si P est violé par les interactions faibles, une au moins des deux autres symétries T
et C doit l’être également! Néanmoins, puisque le produit CP échange à la fois les particules avec
les antiparticules tout en échangeant leurs hélicités, tandis que les interactions faibles semblent
donc être invariantes sous cette symétrie, il reste possible que seule la conjugaison de charge C
soit violée, mais que le produit CP ainsi que le renversement du temps T restent des symétries des
interactions fondamentales32 . Ici encore une fois l’expérience a constitué la surprise, puisqu’en
1964 il a été découvert que dans certains modes de désintégrations par interaction faible des KS0
et KL0 la symétrie CP est, elle aussi, violée, et donc, dans la mesure où une théorie quantique de
champs relativiste est une approximation correcte à la nature physique de la matière, la symétrie
sous T doit également être violée, ce que l’expérience a confirmé en 1999!
31
La théorie M n’est pas nécessairement invariante sous CP T , ouvrant ainsi la recherche expérimentale récente
de phénomènes violant cette symétrie.
32
Ce qui a comme conséquence amusante qu’il est impossible d’expliquer à un “extra-terrestre” de manière
absolue ce que l’on entend par la gauche et la droite, sans faire également la différence entre matière et antimatière
– ce qui est exclu si CP est une symétrie exacte de toutes les interactions –, ce qui aurait des conséquences fâcheuses
lors d’une première rencontre entre lui et nous s’il s’avérait qu’il est plutôt constitué d’antimatière!
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
151
Cette situation pose donc la question de savoir qu’elle est la raison d’être de ces violations de P , C et T dans la nature. Bien que le Modèle Standard accommode une place pour ces
phénomènes dans sa construction, cela ne fournit pas une explication en profondeur de l’existence
de ces violations uniquement dans certains processus bien spécifiques de l’interaction faible, et
de plus uniquement pour cette interaction fondamentale. Par ailleurs, les effets de brisure de T
et de CP sont forts petits à l’échelle des particules élémentaires, une propriété qui se doit de
trouver également une explication. Cependant, cet aspect très pointu des interactions fondamentales touche immédiatement à la structure de l’univers dans son échelle cosmologique! En effet,
le fait que nous observions – au moins dans la partie visible de l’univers en contact causal avec
nous – une prédominance pratiquement absolue de la matière sur l’antimatière est clairement
une conséquence de la violation de CP et de T . Une telle asymétrie de la matière vis-à-vis de
l’antimatière n’est possible que si dans le passé, lors du Big Bang, il exista des interactions violant
T et CP permettant une production plus importante de particules en comparaison aux antiparticules, dans une situation thermodynamique hors de l’équilibre. Cette remarque indique donc
que le problème de la violation de CP et de T , un problème à première vue confiné uniquement
au monde microscopique des particules élémentaires et de leurs interactions fondamentales, porte
à conséquence directement sur le plan cosmologique de l’histoire et de la composition matérielle
de l’univers.
Un autre problème posé par le Modèle Standard est celui des échelles de masses si différentes
des particules, pouvant aller jusqu’à dix-sept ordres de grandeur si la masse du neutrino le moins
massif est effectivement de quelques 10−5 eV, mνe /mt ≃ 10−5 eV/175 GeV≃ 10−17 ! Comment
expliquer une telle disparité d’échelles de masse à partir d’une seule échelle, à savoir celle de la
valeur dans le vide v ≃ 246 GeV du champ de Higgs? C’est le problème de la hiérarchie de
masse du Modèle Standard. Ici encore, de telles questions ont une portée cosmologique, puisque
la masse des neutrinos, dont le modèle du Big Bang prédit une densité de l’ordre de 300 par
centimètre cube comme rayonnement cosmique de neutrinos à l’instar du rayonnement cosmique
de photons – quelques 400 par centimètre cube – avec son spectre caractéristique d’un corps noir
à la température de T = 2,725 ± 0,001 K, pourrait suffir pour sceller le destin de l’univers de
mourir dans un Big Crunch final.
Ces différentes questions touchent également à celle d’une unification quantique ultime des
interactions de jauge, et par delà, des quatre interactions fondamentales. Par exemple, le fait que
les charges électriques des quarks et des leptons soient exactement dans des rapports fractionnaires
multiples de 1/3, et que par ailleurs le nombre de couleurs soit exactement égal à 3 également,
indique qu’il doit exister une relation fondamentale entre les quarks et les leptons, relation qui
n’est pas inscrite dans la construction du Modèle Standard. Par ailleurs, la seule échelle de
masse du Modèle Standard, celle de la valeur dans le vide v ≃ 246 GeV du champ de Higgs,
est de dix-sept ordres de grandeur inférieure à la seule autre échelle de masse caractéristique des
interactions fondamentales, à savoir la masse de Planck, MPlanck ≃ 1019 GeV. Encore une fois,
comment expliquer cette hiérarchie si large dans les interactions de jauge? En particulier, ce
problème touche directement à celui d’une constante cosmologique dans l’univers, à savoir une
densité d’énergie constante dans tout le volume de l’espace-temps. En raison des fluctuations du
vide d’un oscillateur harmonique, de manière naturelle la physique fondamentale doit contribuer
à la constante cosmologique une valeur de l’ordre de v 4 ≃ 4 · 1045 eV4 , ou si c’est plutôt l’échelle
4
de la masse de Planck qui est utilisée, MPlanck
≃ 2 · 10112 eV4 , à comparer à la limite supérieure
expérimentale pour la constante cosmologique de l’ordre de 10−12 eV4 . Cette différence de plus
de 120 ordres de grandeur est certainement le plus grand conflit numérique dans toute la physique
aujourd’hui!
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
152
Il est clair que nous touchons ici directement à ce qui devrait constituer le régime quantique
et relativiste de la gravitation pour lequel aucun cadre théorique n’est encore connu, à l’exception
peut-être de la théorie M . C’est vraiment à ce niveau que se situe donc le plus grand des
défis actuels de la physique fondamentale: quelle théorie quantique d’unification fondamentale, y
compris la gravitation quantique?
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
3.5
153
Appendice: L’effet Aharonov-Bohm
En guise de complément à ce chapitre, il est sans doute également intéressant de discuter un
phénomène particulièrement fascinant allant au coeur des propriétés non locales des théories de
jauge quantiques, le célèbre effet Aharonov-Bohm du nom des deux personnes ayant remarqué en
1959, sur le plan théorique, la nécessité de l’existence de ce phénomène, Yakir Aharonov (1932- )
et David Bohm (1917-1992).
Cet effet est lié à la question légitime de la réalité physique du champ électromagnétique Aµ (xµ ) plutôt que simplement celle évidente des champs électrique et magnétique associés.
La réalité de ces derniers est immédiate puisque ces deux champs déterminent, au travers de
l’équation de Lorentz, les forces électromagnétiques s’appliquant à une particule chargée, confirmant ainsi leur réalité physique. Cependant pour le potentiel vecteur Aµ (xµ ), d’ailleurs défini
à une transformation de jauge près, A′µ (xµ ) = Aµ (xµ ) + ∂µ χ(xµ ), la réalité physique de cette
quantité est beaucoup moins directement admissible, et nécessite en fait de considérer les propriétés de non localité de systèmes quantiques afin de la mettre en évidence. En effet, sur le
simple plan de la construction des solutions aux équations homogènes de Maxwell en terme du
potentiel vecteur Aµ (xµ ), il peut paraı̂tre que l’introduction de cette dernière grandeur n’est
qu’un artifice mathématique avec ses avantages calculatoires et mathématiques, mais sans support physique, alors que seuls les champs électrique et magnétique que ce potentiel vecteur Aµ
définit sont physiquement réels. Ceci est en effet la situation pour l’électromagnétisme classique,
sans inclusion des propriétés quantiques de l’électromagnétisme: seuls les champs électrique et
magnétiques suffisent.
Néanmoins, il n’en est plus de même pour la mécanique quantique, qui nécessite directement
~ pour un couplage quantique cohérent de tout système quantique
le champ vectoriel Aµ = (Φ/c, A)
chargé électriquement au champ électromagnétique. En particulier, comme nous l’avons déjà
vu, l’équation de Schrödinger dans ce cas ne peut s’exprimer d’une manière locale dans l’espacetemps33 qu’en terme du champ vectoriel Aµ (xµ ). Par conséquent, puisque la nature est quantique,
et non classique, certainement c’est le champ vectoriel électromagnétique Aµ (xµ ) qui possède un
caractère physique réel fondamental, comme d’ailleurs l’existence du photon comme quantum
de ce champ le démontre, tandis que les champs électrique et magnétique sont des grandeurs
physiques dérivées du champ vectoriel Aµ (xµ ).
Aharonov et Bohm ont donc imaginé une situation expérimentale spécifique à la mécanique
quantique, mettant en évidence les propriétés de non localité de cette mécanique, et donc par
delà, l’existence physique réelle du potentiel vectoriel Aµ (xµ ) défini aux transformations de jauge
près. Il ne s’agit de rien de plus que la célèbre expérience des fentes de Young, utilisée pour
établir les propriétés ondulatoires de la lumière, et donc également de toute particule quantique,
telle l’électron pour prendre le cas d’un faisceau de particules chargées (voir Fig. 3.6). Il est
parfaitement bien connu qu’en raison des propriétés ondulatoires de la matière quantique, le
faisceau de particules présente une figure d’interférence sur l’écran situé au-delà des fentes de
Young. L’idée alors proposée par Aharonov et Bohm est d’imaginer avoir placé juste derrière les
deux fentes un solénoı̈de de longueur infinie perpendiculairement au plan de la figure, définissant
ainsi une région de l’espace restant inaccessible aux électrons du faisceau. Le solénoı̈de étant
infini, le champ magnétique créé par celui-ci reste confiné à l’intérieur de son volume, tandis que
dans la région de l’espace dans laquelle les électrons peuvent se propager, ce champ magnétique
est identiquement nul, impliquant donc une force de Lorentz identiquement nulle s’appliquant à
33
Il reste vrai qu’il est possible de donner une formulation de l’équation de Schrödinger uniquement en terme des
champs électrique et magnétique, mais dans laquelle apparaissent alors des grandeurs non locales dans l’espacetemps construites en terme de ces champs électrique et magnétique.
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
154
Figure 3.6: Effet Aharonov-Bohm.
ceux-ci. Cependant, même dans une situation indépendante du temps telle que supposée ici, le
~ correspondant est alors nécessairement non nul même dans cette région. En
potentiel vecteur A
effet, le flux magnétique régnant dans le solénoı̈de est donné par les intégrales de surface et de
ligne
Z
I
2
~
~ = Φ[C] , B
~ =∇
~ ×A
~ ,
Φ[S] =
d ~x · B =
d~x · A
(3.116)
S
C
S étant une surface quelconque s’appuyant sur un contour fermé C entourant le solénoı̈de. Remarquons en particulier que cette expression est effectivement invariante sous les transformations
~′ = A
~ − ∇χ,
~
de jauge A
comme il se doit. Par conséquent, le flux magnétique Φ[C] ne peut être
nul pour un champ magnétique non nul, et donc, prenant le contour C à l’extérieur du solénoı̈de,
~ bien que de rotationnel nul dans cette région de l’espace,
nécessairement le potentiel vecteur A,
ne peut être identiquement nul.
Nous avons donc la sitation suivante. Dans la région de l’espace dans laquelle les électrons
~ y étant nul. Par
sont admis, ceux-ci ne subissent aucune force de Lorentz, le champ magnétique B
~ a une existence physique,
conséquent, si effectivement seul celui-ci, et non le potentiel vecteur A,
la présence du champ magnétique confiné au volume du solénoı̈de ne peut avoir aucune influence
sur le comportement des électrons, et donc en particulier sur leur figure d’interférence sur l’écran
~ possède effectivement une
au-delà des fentes de Young. Par contre, si le potentiel vecteur A
existence physique réelle et tangible, bien que non invariante de jauge, sa valeur non nulle dans
la région de l’espace accessible aux électrons peut avoir une influence sur ceux-ci, et donc en
particulier sur leur figure d’interférence. La question qui se pose donc est savoir si effectivement,
sur base de l’équation de Schrödinger pour les électrons quantiques – par exemple – couplés au
champ électromagnétique Aµ (xµ ), l’on peut prédire un effet de la présence du flux magnétique
confiné au volume du solénoı̈de sur la figure d’interférence sur l’écran.
Pour répondre à cette question, il faut donc considérer la différence de chemin “optique”
pour deux trajectoires classiques d’électrons passant par l’une ou l’autre des deux fentes. Afin
d’identifier la différence de phase entre ces deux chemins, considérons l’équation de Schrödinger
(3.99),
q~
h̄2 ~
∇ − i A(~
x, t)
−
2m
h̄
"
2
#
+ V (~x) ψ(~x, t) = ih̄
∂
q
+ i Φ(~x, t) ψ(~x, t),
∂t
h̄
(3.117)
dans laquelle une redéfinition spécifique de la fonction d’onde est effectuée. Pour cela, considérons
un point spécifique xµ0 = (ct0 , ~x0 ) de l’espace-temps, ainsi qu’un réseau de chemins reliant ce
point initial xµ0 à tout autre point xµ = (ct, ~x) de l’espace-temps au moyen de courbes spécifiques
C[xµ0 → xµ ]. Etant donné une telle construction de nature topologique plutôt que géométrique,
introduisons alors la fonction d’onde suivante
−i h̄q
ψC[x0 →x] (~x, t) = e
R
C[x0 →x]
dxµ Aµ (xµ )
ψ(~x, t),
(3.118)
où le facteur de phase fait intervenir l’intégrale curviligne du champ électromagnétique Aµ (xµ )
le long du chemin considéré C[x0 → x] dans l’espace-temps. En particulier, lorsqu’aucune
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
155
dépendance temporelle n’est impliquée, et en l’absence de tout champ électrique, et donc Φ = 0,
ainsi que pour un chemin C[~x0 → ~x] uniquement dans l’espace, ce facteur de phase devient
i h̄q
ψC[~x0 →~x] (~x ) = e
R
C[~
x0 →~
x]
~ x)
d~
x·A(~
ψ(~x ).
(3.119)
En terme de cette définition, l’équation de Schrödinger prend alors la forme
"
#
h̄2 ~ 2
∂
−
∇ + V (~x ) ψC[x0 →x] (~x, t) = ih̄ ψC[x0 →x] (~x, t),
2m
∂t
(3.120)
forme qui coı̈ncide avec celle d’une particule quantique qui n’est plus soumise à l’interaction
électromagnétique. En d’autres termes par une transformation de jauge appropriée – donnée par
la redéfinition de phase ci-dessus –, il est apparamment possible de faire disparaı̂tre toute influence
du champ électromagnétique Aµ (xµ ), et de construire la solution à l’équation de Schrödinger en
présence du champ électromagnétique à partir de celle dans l’absence de ce champ.
Cependant, une propriété fort importante de la redéfinition (3.118) est à souligner. En effet,
le facteur de phase correspondant n’est pas local dans l’espace-temps, étant fonction d’une part
du point origine xµ0 choisi de manière arbitraire dans l’espace-temps, et d’autre part, du chemin
joignant ce point initial au point xµ de l’espace-temps en lequel la valeur de la fonction d’onde est
considérée. C’est ainsi que le champ électromagnétique est associé à des effets non locaux dans
l’espace-temps dans les systèmes quantiques. La fonction d’onde ψC[x0 →x] (~x, t) ainsi construite
n’est donc pas une fonction d’onde locale, contrairement à la fonction d’onde originale ψ(~x, t).
L’intérêt de cette discussion pour l’effet Aharonov-Bohm est le suivant. Imaginons maintenant que nous ayons établi la solution à l’équation de Schrödinger pour le système des fentes de
Young, dans l’absence de tout champ magnétique dans le solénoı̈de, le potentiel V (~x ) représentant
donc les conditions définissant les régions de l’espace desquelles le faisceau d’électrons est exclu.
~ reste identiquement nul dans tout l’espace34 , ne
Dans une telle situation, le potentiel vecteur A
conduisant donc à aucune différence entre les fonctions ψ(~x ) et ψC[~x0 →~x] (~x ). Néanmoins, dès
~ x ) devient non
qu’un champ magnétique est instauré dans le solénoı̈de, le potentiel vecteur A(~
nul, avec ses valeurs d’intégrales curvilignes non nulles. Par conséquent, la solution à l’équation de
~ x ) telle que la figure d’interférence
Schrödinger acquiert alors une dépendance dans le champ A(~
observée sur l’écran pour deux chemins distincts passant par les deux fentes est modifiée en raison
de la phase relative entre ces deux chemin, qui, sur base de (3.119), est donnée par
q
ei h̄
H
C
~ x)
d~
x·A(~
,
(3.121)
où C est un contour fermé quelconque passant par les deux fentes et entourant le solénoı̈de. En
effet, pour deux tels contours distincts C1 et C2 , la différence dans les phases correspondantes est
donnée par
I
I
Z
~−
~=
~ =0,
d~x · A
d~x · A
d2 ~x · B
(3.122)
C2
C1
A
où A désigne une surface annulaire arbitraire dans l’espace s’appuyant sur les contours C1 et C2
et restant située à l’extérieur du solénoı̈de. Par conséquent, le choix de contour C considéré pour
l’évaluation de la différence de phase n’importe pas.
Or, l’intégrale de contour apparaissant ici est précisément celle qui évalue le flux de champ
magnétique ΦB régnant dans le solénoı̈de, soit
q
ei h̄
H
C
~ x)
d~
x·A(~
q
= ei h̄ ΦB .
(3.123)
34
~ = −∇χ,
~
Ou, de manière équivalente, n’est donné que par un simple gradient, A
conduisant donc à un facteur
de phase restant local dans l’espace en (3.119) et n’affectant donc pas les propriétés physiques de la solution, la
fonction d’onde initiale ψ(~
x ) n’étant modifiée que par une redéfinition locale de phase.
CHAPITRE 3. PARTICULES ET INTERACTIONS FONDAMENTALES
156
Par conséquent, force est de conclure que bien que le champ magnétique soit identiquement
nul dans la région de l’espace où les électrons du faisceau sont contraints de se déplacer, y
subissant donc une force de Lorentz identiquement nulle, néanmoins, en raison de leurs propriétés
quantiques, leurs propriétés physiques sont affectées par la présence d’un potentiel vecteur non
~ de rotationnel nul, ∇
~ ×A
~=B
~ = ~0. Cependant, cet effet quantique ne se manifeste qu’au
nul A
travers du facteur de phase ci-dessus fonction uniquement du flux magnétique ΦB , une grandeur
laissée invariante par les transformations de jauge du champ électromagnétique Aµ (xµ ). Cet
effet dû à la non localité de la mécanique quantique, et aux propriétés topologiques du potentiel
~ x ), porte donc le nom d’effet Aharonov-Bohm.
vecteur A(~
Depuis 1959, cet effet Aharonov-Bohm a été confirmé expérimentalement dans un grand
nombre de situations différentes, confirmant ainsi le caractère physique réel du champ électromagnétique Aµ (xµ ), dont les champs électrique et magnétique sont donc des grandeurs dérivées.
Notons que les effets du flux ΦB du champ magnétique confiné sont nécessairement périodiques dans ce flux, en raison de l’expression de la phase relative ci-dessus. Ainsi, lorsque les valeurs
de ce flux ΦB sont modifiées, la figure d’interférence sur l’écran est modifiée en conséquence d’une
manière périodique dans les valeurs de ΦB avec
ΦB → ΦB + nΦ0
,
n = 0, ±1, ±2, · · · ,
(3.124)
Φ0 étant le quantum de flux magnétique défini par
Φ0 =
h
2πh̄
= .
q
q
(3.125)
Cette notion de quantum de flux est donc fort importante pour caractériser les propriétés
magnétiques de particules chargées électriquement. En particulier pour les supraconducteurs dont
les porteurs de charge sont en fait les paires de Cooper, à savoir des états liés de deux électrons
(de spins et de quantités de mouvement opposés, et s’attirant en raison de leurs interactions
via le réseau du matériau!), les propriétés quantiques des supraconducteurs conduisent à une
quantification du flux magnétique, dont le quantum de flux prend donc la valeur
Φ0 =
2πh̄
≃ 2,07 · 10−15 weber .
2e
(3.126)
Ainsi, à l’aide de tels phénomènes quantiques électromagnétiques, les supraconducteurs permettent de développer des instruments de mesure de variation de flux magnétique – créés par exemple
par l’activité magnétique du cerveau ou du cœur, ou bien d’autres applications encore dans le
monde industriel – dont le niveau de sensibilité se situe donc à ces échelles de la valeur du quantum
de flux Φ0 ≃ 2,07·10−15 T·m2 . Ces instruments sont basés sur un SQUID (pour “Superconducting
QUantum Interference Device”, en anglais), qui en réalité est une expérience de fentes de Young
réalisée avec des paires de Cooper. En effet, il s’agit de deux jonctions Josephson – jonctions SIS
ou SNS d’un supraconducteur (S) avec un isolant (I) ou un conducteur normal (N) – montées en
parallèle. Les deux jonctions jouent le rôle des fentes de Young, et aux bornes du circuit l’on peut
alors observer les effets d’interférence qui sont fonctions du flux appliqué et qui sont mesurés au
travers du potentiel électrique créé par le courant de paires de Cooper, dont la fonction d’onde
interfère avec elle-même.
Téléchargement