INTRODUCTION AUX MATRICES ALÉATOIRES par Djalil Chafaï Résumé. En concevant les mathématiques comme un graphe, où chaque sommet est un domaine, la théorie des probabilités et l’algèbre linéaire figurent parmi les sommets les plus connectés aux autres. Or leur réunion constitue le cœur de la théorie des matrices aléatoires. Cela explique peut-être la richesse exceptionnelle de cette théorie très actuelle. Les aspects non linéaires de l’algèbre linéaire y jouent un rôle profond et fascinant. Ces notes en présentent quelques aspects. 1. Introduction Les sources historiques de la théorie des matrices aléatoires sont multiples. Parmi les plus connues, on trouve les travaux du statisticien Wishart dans les années 1920–1930 lors de la naissance de la statistique mathématique, les travaux de Goldstine et von Neumann dans les années 1940–1950 lors de la naissance de l’informatique et de l’analyse numérique, les travaux de Wigner, Mehta, Gaudin, et Dyson dans les années 1950–1960 en physique nucléaire, à la jonction entre mécanique quantique et mécanique statistique. Il y a ensuite les travaux de Marchenko, Pastur, Girko, Bai, et Silverstein dans les années 1960–1980, puis une multitude de travaux plus modernes, balayant un spectre étonnamment vaste incluant opérateurs de Schrödinger, physique statistique, systèmes intégrables, systèmes de particules, algèbre d’opérateurs et théorie des probabilités libres (Voiculescu), topologie et combinatoire, combinatoire additive et graphes aléatoires, polynômes orthogonaux, équations différentielles de Painlevé, problèmes 88 DJALIL CHAFAÏ de Riemann-Hilbert, analyse harmonique, théorie des nombres et hypothèse de Riemann, analyse géométrique de grande dimension, analyse numérique, classification statistique, théorie du signal et analyse d’images, etc. La motivation originelle de Wishart était d’étudier la matrice de covariance empirique des échantillons gaussiens multivariés. Cette matrice de covariance empirique est une matrice hermitienne aléatoire semi-définie positive, appelée aujourd’hui matrice de Wishart, du même type que celle qui apparaît dans le théorème 1.2 de MarchenkoPastur. Ces aspects, trop brièvement abordés dans la section 3.3, sont redevenus à la mode avec l’avènement de l’informatique et des masses de données de grande dimension (big-data). La motivation originelle de Goldstine et von Neumann était de comprendre le comportement des algorithmes classiques de l’analyse numérique matricielle, comme ceux de résolution de systèmes linéaires, lorsque les données du problème sont entachées d’erreurs. Cela conduit tout naturellement a s’intéresser au conditionnement(1) de matrices aléatoires. Les problèmes qu’ils ont formulés à l’époque n’ont été résolus en toute généralité que dans les années récentes. La motivation originelle de Wigner était d’expliquer la répartition des niveaux d’énergie dans les noyaux atomiques. En mécanique quantique, les niveaux d’énergie sont liés à des spectres d’opérateurs hermitiens. L’idée de Wigner a consisté à s’inspirer de la physique statistique de Boltzmann-Gibbs, ce qui conduit à rendre ces opérateurs aléatoires, en utilisant par exemple des lois gaussiennes. La distribution des écarts entre les valeurs propres des matrices hermitiennes aléatoires obtenues de la sorte coïncide assez bien avec le phénomène observé ! L’approche pionnière de Wigner a été reprise et considérablement développée en particulier par Dyson et Mehta. Par ailleurs, à la même époque que Wigner, Philip Warren Anderson a prédit une transition entre localisation et délocalisation pour les électrons dans un semi-conducteur, phénomène qui se traduit mathématiquement par une localisation/délocalisation des vecteurs propres d’opérateurs de Schrödinger aléatoires. La compréhension mathématique √ √ Si A ∈ Mn (C), son conditionnement est κ(A) := λmax ( AA∗ )/λmin ( AA∗ ) = kAk2→2 /kA−1 k2→2 . (1) INTRODUCTION AUX MATRICES ALÉATOIRES 89 de ce phénomène n’est toujours pas achevée à l’heure actuelle. En dimension 1, ces opérateurs de Schrödinger aléatoires sont typiquement des matrices hermitiennes à bande, aléatoires. En télécommunications, la transmission d’information entre un groupe d’antennes émettrices et un groupe d’antennes réceptrices est modélisable par une matrices aléatoire. La capacité du canal de communication associée s’avère être une statistique linéaire du spectre de cette matrice, ouvrant la voie à toute une gamme de questions mathématiques et numériques. Ces quelques exemples historiques illustrent la grande diversité des situations conduisant à des matrices aléatoires. En anglais, on pourra consulter l’ouvrage encyclopédique [ABF], qui fournit un panorama récent, peut-être plus accessible que les livres [De, HP, M, ER, G1, DG, BS, AGZ, F, PS, HJ, T1, CD, EK]. En français, on pourra consulter par exemple les textes de vulgarisation [Bi1, Bi2, P] sur des sujets précis, et même s’aventurer dans l’article de synthèse [G2] qui présente des avancées relativement récentes sur l’un des fronts actuels de la recherche. Signalons enfin que plusieurs blogs Internet proposent des billets de vulgarisation autour de la théorie des matrices aléatoires, comme le blog de Terence Tao par exemple (en anglais) à l’adresse http://terrytao.wordpress.com/. Ces notes constituent un point de départ, une invitation à la curiosité et à l’exploration. Nous débutons par des expériences numériques en langage Scilab dont le code ainsi que la sortie graphique sont donnés dans les figures 1-2-3. Pour une matrice M ∈ Mn (C), on note > M ∗ := M , et λ1 (M ), . . . , λn (M ) les valeurs propres de M , c’est-àdire les racines dans C de son polynôme caractéristique. La manière de les numéroter importe peu à ce stade car la plupart des quantités que nous allons considérer sont des fonctions symétriques des valeurs propres. Pour tout n > 1 fixé, soit M une matrice aléatoire n × n dont les coefficients sont des variables aléatoires sur C (c’est-à-dire des vecteurs aléatoires de R2 ) i.i.d.(2) de moyenne m := E(Mij ) = E(<Mij ) + (2) √ −1E(=Mij ) Signifie «indépendants et identiquement distribués» ou «independent and identically distributed». 90 DJALIL CHAFAÏ et de variance σ 2 := E(|Mij −m|2 ) = E(|Mij |2 )−|m|2 = Var(<Mij )+Var(=Mij ) > 0. Ce modèle tolère tout à fait que M soit réelle. La matrice M de nos expériences numériques 1-2-3 a des coefficients i.i.d. réels de loi de Rademacher ou de de Gauss. Rappelons que la loi de Rademacher(3) de paramètre p ∈ [0, 1] est la loi sur R donnant les poids 1 − p et p aux valeurs −1 et 1. Sa moyenne vaut 2p − 1 et sa variance 4p(1 − p). La loi de Gauss ou loi normale sur R de moyenne m et de variance σ 2 a pour densité exp − 12 x−m σ √ x 7−→ σ 2π 2 . Figure 1. Les valeurs propres de √1n M sont approximativement distribuées uniformément sur le disque unité du plan complexe, et ce phénomène est d’autant plus apparent que n est grand. La normalisation en √1n assure une stabilisation des lignes et des colonnes. En effet, grâce à la loi des grands nombres, la norme de chaque ligne (et p 1 2 de chaque colonne) de √n M converge vers σ + |m|2 = 1 quand n → ∞, tandis que leur produit scalaire tend vers |m|2 = 0. Cette structure unitaire asymptotique n’explique pas pourquoi le spectre semble se répartir uniformément sur le disque unité (elle suggérerait plutôt le cercle unité !) ; • Figure 2. Les valeurs propres de l’hermitisation multiplicative √ √1 M M ∗ de √1n M se distribuent approximativement comme la loi n du quart de cercle sur l’intervalle [0, 2], et cela est d’autant plus apparent que la dimension n est grande ; (4) • Figure 3. Les valeurs propres de l’hermitisation additive ∗ +M √1 M √ de √1n M se distribuent approximativement comme la loi n 2 du demi-cercle sur l’intervalle [−2, 2], et cela est d’autant plus clair que la dimension n est grande, cf. figure 4. • (3) Le terme «Bernoulli» est plutôt réservé à la loi du même type sur {0, 1} plutôt que sur {−1, 1}. √ (4) La normalisation par 2 rend les coefficients hors diagonale de variance 1. INTRODUCTION AUX MATRICES ALÉATOIRES 91 Figure 1. Phénomène d’universalité de Girko. En noir les va- leurs propres de √1n M où M est une matrice aléatoire carrée n × n à coefficients i.i.d. de moyenne 0 et de variance 1 (de Gauss à gauche et de Rademacher à droite). En bleu le cercle unité du plan complexe. Note : il est également possible d’utiliser un histogramme en 3D. f u n c t i o n girko ( dim ) // Fonction Scilab . G = grand ( dim , dim , ’ nor ’ ,0 ,1); // matrice de coef . de Gauss standards B = sign ( G ); // matrice de coef . de Rademacher +/ -1 sG = spec ( G / sqrt ( dim )); // spectre et normalisation en racine de dim sB = spec ( B / sqrt ( dim )); // idem pour le cas Rademacher clf (); I = [ -1:0.01:1]; J = sqrt (1 - I .^2); subplot (1 ,2 ,1); title ( sprintf ( ’ Gauss ␣ dim = %i ’ , dim )); set ( gca () , " tight_limits " ," on " ); set ( gca () , " isoview " ," on " ); plot (I ,J ,2); plot (I , -J ,2); plot ( real ( sG ) , imag ( sG ) , ’ Marker ’ , ’. ’ , ’ MarkerSize ’ ,3 , ’ LineStyle ’ , ’ none ’ ); subplot (1 ,2 ,2); title ( sprintf ( ’ Rademacher ␣ dim = %i ’ , dim )); set ( gca () , " tight_limits " ," on " ); set ( gca () , " isoview " ," on " ); plot (I ,J ,2); plot (I , -J ,2); plot ( real ( sB ) , imag ( sB ) , ’ Marker ’ , ’. ’ , ’ MarkerSize ’ ,3 , ’ LineStyle ’ , ’ none ’ ); endfunction Ces expériences numériques permettent de dégager trois phénomènes d’universalité en grande dimension, capturés mathématiquement par les théorèmes 1.1-1.2-1.3 ci-dessous. Soulignons au passage que les hypothèses sont faites ici sur les coefficients de la matrice, tandis que les résultats concernent les valeurs propres, qui sont des fonctions non linéaires et non explicites des coefficients de la matrice. 92 DJALIL CHAFAÏ Figure 2. Phénomène d’universalité de Marchenko-Pastur. En √ noir, l’histogramme des valeurs propres de √1n M M ∗ où M est une matrice aléatoire carrée n×n à coefficients i.i.d. de moyenne 0 et de variance 1 (de Gauss à gauche et de Rademacher à droite). En bleu, la densité de la loi √ du quart de cercle sur l’intervalle [0, 2]. Note : la matrice √1n M M ∗ est hermitienne semi-definie positive : son spectre est dans R+ . f u n c t i o n marpas ( dim ) // Fonction Scilab . G = grand ( dim , dim , ’ nor ’ ,0 ,1); // matrice de coef . de Gauss standards B = sign ( G ); // matrices de coef . de Rademacher +/ -1 sG = sqrt ( spec ( G *G ’)/ dim ); // symetrisation , normalisation , spectre sB = sqrt ( spec ( B *B ’)/ dim ); // idem pour la version Rademacher clf (); I = [0:0.01:2]; J = sqrt (4 - I .^2)/ %pi ; subplot (1 ,2 ,1); title ( sprintf ( ’ Gauss ␣ dim = %i ’ , dim )); set ( gca () , " tight_limits " ," on " ); plot2d (I ,J ,2); h i s t p l o t ( fix ( sqrt ( dim )) , sG ); subplot (1 ,2 ,2); title ( sprintf ( ’ Rademacher ␣ dim = %i ’ , dim )); set ( gca () , " tight_limits " ," on " ); plot2d (I ,J ,2); h i s t p l o t ( fix ( sqrt ( dim )) , sB ); endfunction Afin de décrire mathématiquement la répartition des valeurs propres, on introduit la distribution spectrale empirique d’une matrice A ∈ Mn (C), µA := n 1X δ . n k=1 λk (A) Il s’agit tout simplement d’une loi de probabilité discrète, plus précisément d’une mesure de comptage normalisée. Pour tout ensemble E ⊂ C, la quantité µA (E) = card{1 6 k 6 n : λk (A) ∈ E} n INTRODUCTION AUX MATRICES ALÉATOIRES 93 Figure 3. Phénomène d’universalité de Wigner. En noir l’his∗ √ togramme des valeurs propres de √1n M +M où M est une matrice 2 aléatoire carrée n × n à coefficients i.i.d. de moyenne 0 et de variance 1 (de Gauss à gauche et de Rademacher à droite). En bleu la densité de la loi du demi-cercle sur l’intervalle [−2, 2]. Note : ∗ √ la matrice √1n M +M est hermitienne, et son spectre est donc 2 réel. f u n c t i o n wigner ( dim ) // Fonction Scilab . G = grand ( dim , dim , ’ nor ’ ,0 ,1); // matrice de coef . de Gauss standards B = sign ( G ); // matrices de coef . de Rademacher +/ -1 sG = spec (( G +G ’)/ sqrt (2))/ sqrt ( dim ); // symetrisation , normalisation , spectre sB = spec (( B +B ’)/ sqrt (2))/ sqrt ( dim ); // idem pour la version Rademacher clf (); I = [ -2:0.01:2]; J = sqrt (4 - I .^2)/(2* %pi ); subplot (1 ,2 ,1); title ( sprintf ( ’ Gauss ␣ dim = %i ’ , dim )); set ( gca () , " tight_limits " ," on " ); plot2d (I ,J ,2); h i s t p l o t ( fix ( sqrt ( dim )) , sG ); subplot (1 ,2 ,2); title ( sprintf ( ’ Rademacher ␣ dim = %i ’ , dim )); set ( gca () , " tight_limits " ," on " ); plot2d (I ,J ,2); h i s t p l o t ( fix ( sqrt ( dim )) , sB ); endfunction Figure 4. Graphiques illustrant l’effet de la dimension sur la distribution du spectre des matrices de Wigner (figure 3 et théorème 1.3), pour les dimensions 30, 120, 600. Ces graphiques correspondent à une seule matrice à chaque fois. Si on répète l’expérience, le graphique en petite dimension (à gauche) va beaucoup fluctuer, tandis que celui en grande dimension (à droite) va très peu fluctuer. Un caractère aléatoire s’efface en grande dimension et laisse place à un déterminisme : la loi du demi-cercle. 94 DJALIL CHAFAÏ est la proportion de valeurs propres de A qui sont dans E. Pour toute fonction f on a Z f dµA = E(f (X)) = n 1X f (λk (A)) n k=1 où X est une variable aléatoire discrète de loi µA . On retrouve µ(E) lorsque f = 1E . Si A est aléatoire alors µA est une loi de probabilité discrète aléatoire (il y a deux aléas !), et dans ce cas, µA (E) R et f dµA sont des variables aléatoires. Rappelons qu’on dit qu’une propriété aléatoire a lieu presque sûrement lorsqu’elle a lieu sur un événement de probabilité 1. Rappelons que pour tout n > 1 fixé, M est une matrice aléatoire dont les coefficients (Mij )16i,j6n sont i.i.d. de moyenne m et de variance σ 2 . Théorème 1.1 (Universalité de Girko et loi du cercle) Presque sûrement, pour tout pavé ou boule E de R2 , on a lim µ √1 n→∞ n M (E) = µ(E) où µ est la loi uniforme sur le disque de R2 de rayon σ («loi du cercle») de densité (x, y) 7−→ 1 √ 1 (x, y). πσ 2 {(x,y)∈R2 : x2 +y2 6σ} Théorème 1.2 (Universalité de Marchenko-Pastur et loi du quart de cercle) √ En notant H := M M ∗ , on a que presque sûrement, pour tout intervalle I de R+ , lim µ √1 n→∞ n H (I) = µ(I) où µ est la loi du quart de cercle sur [0, 2σ] et de densité √ 4σ 2 − x2 1[0,2σ] (x). x 7−→ πσ 2 Théorème 1.3 (Universalité de Wigner et loi du demi-cercle) +M ∗ En notant H := M √ , on a que presque sûrement, pour tout 2 intervalle I de R, lim µ √1 n→∞ n H (I) = µ(I) INTRODUCTION AUX MATRICES ALÉATOIRES 95 où µ est la loi du demi-cercle sur [−2σ, 2σ] et de densité √ x 7−→ 4σ 2 − x2 1[−2σ,2σ] (x). 2πσ 2 Dans chacun de ces trois théorèmes, presque sûrement, une moyenne empirique aléatoire converge vers une limite déterministe. Cela fait penser à la loi forte des grands nombres(5) , qui ne s’applique pas ici car les valeurs propres ne sont pas indépendantes. D’un autre côté, la limite est décrite par une loi de probabilité universelle qui ne dépend de la loi des coefficients de la matrice de départ qu’à travers leur variance. Cela fait penser au théorème central limite(6) et sa loi normale universelle. Si une variable aléatoire de C (vecteur aléatoire de R2 ) suit la loi uniforme sur le disque unité, de densité z 7→ π −1 1{z∈C:|z|61} , alors la partie réelle et la partie imaginaire √ suivent toutes les deux la loi du demi-cercle de densité t 7→ 2π −1 1 − t2 1[−1,1] (t). Elles ne sont pas indépendantes. Le rayon suit la loi de densité r 7→ r1[0,1] (r) (ce n’est ni la loi uniforme ni la loi du quart de cercle) tandis que la phase suit la loi uniforme sur [0, 2π]. La valeur absolue de la partie réelle et la valeur absolue de la partie imaginaire suivent la loi du quart de cercle √ −1 2 1 − t 1[0,1] (t). Malgré ces relations, il sur [0, 1], de densité t 7→ 4π n’y a pas de liaison directe entre le spectre de M du théorème 1.1 et le spectre de H des théorèmes 1.2 et 1.3. On observe même un facteur 2 entre le rayon du disque du théorème 1.1 et le rayon des intervalles des théorèmes 1.2 et 1.3. Cela√suggère qu’asymptotiquement, la norme d’opérateur max16k6n λk ( M M ∗ ) de M est deux fois plus grande que le rayon spectral max16k6n |λk (M )| de M , ce qui peut être prouvé rigoureusement lorsque E(Mij ) = 0 et E(|Mij |4 ) < ∞. C’est le signe de l’anormalité de M , cf. section 3.4. n Si (Xn )n>1 sont des v.a.r. i.i.d. de moyenne m alors p.s. X n := X1 +···+X →m n quand n → ∞. (6) Si (Xn )n>1 sont des v.a.r. i.i.d. de moyenne m et de variance σ 2 alors √ X n −m P( n σ ∈ I) → µ(I) quand n → ∞, pour tout intervalle I ⊂ R, où µ est la loi gaussienne de moyenne 0 et de variance 1. (5) 96 DJALIL CHAFAÏ 2. Esquisses de preuves du théorème de Wigner Le théorème 1.3 a été dégagé par Eugene Wigner dans les années 1950. La version considérée ici est due à Leonid Pastur et date des années 1970. Nous esquissons ci-dessous une preuve du théorème 1.3 par la méthode des moments, puis par la méthode de la résolvante. Nous esquissons également deux preuves pour le cas gaussien du GUE(7) , basées sur une minimisation d’énergie, et sur des polynômes orthogonaux. La matrice aléatoire H est hermitienne, et les √variables aléatoires {Hij }16i6j6n sont indépendantes de moyenne 2 <m. De plus {Hij }16i<j6n sont de même loi sur C de variance σ 2 , tandis que {Hii }16i6n sont de même loi sur R de variance 2Var(<M11 ). Nous pouvons dès à présent préciser le pourquoi de la normalisation en √ 1/ n : le moment d’ordre 2 de µ √1 H se stabilise grâce à la loi forte n des grands nombres : Z x2 dµ √1 n H (x) = n 1X λk (H)2 1 = 2 Tr(H 2 ) n k=1 n n = n n X 1 X p.s. |Hij |2 −→ σ 2 + |m|2 . 2 n→∞ n i=1 j=1 Le comportement du premier moment est aussi facile à étudier : Z x dµ √1 n H (x) = n 1X λk (H) 1 √ = 3/2 Tr(H) n k=1 n n H11 + · · · + Hnn p.s. −→ 0. n→∞ n3/2 Les deux premiers moments de la loi du demi-cercle µ sur [−2σ, 2σ] valent 0 et σ 2 . Ainsi, le premier moment de µ √1 H converge vers le = n premier moment de µ, tandis que le second moment de µ √1 n H ne converge vers celui de µ que si m = 0. Cela est dû au comportement explosif de la plus grande valeur propre de √1n H lorsque m 6= 0. Il n’y a pas de contradiction : la convergence en loi de µ √1 H n’empêche n pas une fraction asymptotiquement négligeable de valeurs propres d’exploser quand n → ∞. (7) Voir § 2.3 pour la signification de GUE. 97 INTRODUCTION AUX MATRICES ALÉATOIRES Modèle réduit. Pour établir le théorème 1.3, une première étape préparatoire, omise ici(8) , consiste à réduire le problème à l’énoncé suivant : soit H une matrice hermitienne n × n aléatoire telle que {Hij }16i6j6n sont indépendantes de moyenne 0 et de variance 1, bornées et à valeurs dans {z ∈ C : |z| 6 C}, C > 0, avec {Hii }16i6n i.i.d. sur R et {Hij }16i<j6n i.i.d. sur C. Soit µ la loi du demi-cercle sur l’in√ 4−x2 tervalle [−2, 2], de densité x 7→ 2π 1[−2,2] (x). Alors Eµn := Eµ √1 H n converge en loi quand n → ∞ vers µ, i.e. Z Z f dµn = lim E n→∞ f dµ, pour toute fonction f dans une classe de fonctions suffisamment riche pour garantir la convergence en loi. Nous avons à présent deux méthodes classiques pour achever la preuve du théorème 1.3 : la méthode des moments, de nature combinatoire, basée sur la classe de fonctions {x 7→ xr : r ∈ N}, et la méthode de la trace de la résolvante, de nature analytique, basée sur la classe de fonctions {x 7→ (x − z)−1 : z ∈ C, =z > 0}. 2.1. Méthode des moments (combinatoire). On se propose d’établir la convergence des moments pour le modèle réduit : ∀ r ∈ N, Z lim E n→∞ xr dµn (x) −→ Z xr dµ. Les moments impairs de µ sont nuls tandis que les pairs sont les nombres de Catalan : ∀ r ∈ N, (8) Z xr dµ(x) = Z 2 0 √ xr 4− 2π x2 dx = 0 2k k+1 k 1 si r = 2k + 1, si r = 2k. Cette étape fait appel à divers outils : formules variationnelles min-max de Courant-Fischer, inégalité de Hoffman-Wielandt, inégalité de concentration de Azuma-Hoeffding, lemme de Borel-Cantelli, loi forte des grands nombres, fonctions caractéristiques, etc. Certains sont abordés dans l’appendice A. 98 DJALIL CHAFAÏ Nous pouvons exprimer les moments de Eµn en fonction des moments joints des coefficients de H grâce à la formule suivante : Z E r x dµn (x) = = 1 n1+r/2 E λk (H)r = k=1 1 n1+r/2 n X X 1 ETr(H r ) n1+r/2 E(Hi1 ,i2 · · · Hir ,ir+1 ) 16i1 ,...,ir 6n où ir+1 := i1 . Pour r = 1 on obtient bien Z E x dµn (x) = n 1 X E Hii = m = 0 n i=1 et pour r = 2, Z E n n X 1 2 1 X |Hij |2 = σ 2 + m2 = 1 = . x dµn (x) = 2 E n i=1 j=1 1+1 1 ! 2 L’étude du cas r = 3 est un peu plus subtile. On a Z X 1 E x3 dµn (x) = 1+3/2 E(Hij Hjk Hki ). n 16i,j,k6n Si deux éléments parmi {{i, j}, {j, k}, {k, i}} sont distincts alors E(Hij Hjk Hki ) = 0 par indépendance et centrage. Dans le cas contraire, on a i = k ou i = j ou k = j. Si i = k alors E(Hij Hjk Hki ) = E(|Hii |2 Hij ) qui est nul si j 6= i et qui n’a pas de contribution asymptotique si j = i car on a n = o(n1+3/2 ) triplets vérifiant i = j = k. 2 • Si i = j alors E(Hij Hjk Hki ) = E(Hii |Hik | ) et le raisonnement est identique. 2 • Si k = j alors E(Hij Hjk Hki ) = E(|Hij | Hjj ) et le raisonnement est à nouveau identique. Ainsi, le moment d’ordre 3 de Eµn tends vers 0 quand n → ∞. • Lorsque r est quelconque et fixé, on associe à chaque r-uplet d’indices i1 , . . . , ir un graphe orienté, obtenu en positionnant leurs valeurs sur une demi-droite horizontale figurant N∗ , cf. figure 5. Les sommets du graphe sont les valeurs distinctes prises par ces indices, et on note t leur nombre. Les arêtes du graphe sont les liaisons (ik , ik+1 ) avec 1 6 k 6 r + 1 et ir+1 := i1 . On dit qu’il s’agit d’un graphe G(t). Deux graphes G(t) sont équivalents lorsque qu’on peut passer de l’un à l’autre en permutant les indices. Des graphes G(t) équivalents 99 INTRODUCTION AUX MATRICES ALÉATOIRES N∗ 1 2 3 4 Figure 5. Graphe pour r = 4, i1 = i3 = 1, i2 = 4, i4 = 3, correspondant à E(H14 H41 H13 H31 ). Les arêtes sont 1 → 4, 4 → 1, 1 → 3, 3 → 1. On a t = 3. donnent la même valeur à E(Hi1 ,i2 · · · Hir ,ir+1 ), notée E(HG ). Il y a n(n − 1) · · · (n − t + 1) graphes G(t) dans chaque classe d’équivalence. Par ailleurs, dans chaque classe d’équivalence, on peut supposer que les sommets sont 1, . . . , t 6 r, et ainsi le nombre total de classes d’équivalence cr ne dépend que de r. Afin de calculer les contributions, on distingue trois types de classes de graphes G(t) : type 1 : ceux pour qui chaque arête est présente dans l’autre sens le même nombre de fois, et le graphe squelette obtenu en effaçant les orientations des arêtes est un graphe sans cycles, c’est-à-dire un arbre. Exemple : le cas de la figure 5, qui donne l’arbre à trois sommets dont les arêtes sont 1 ↔ 3 et 1 ↔ 4 ; • type 2 : ceux pour qui une arête au moins n’apparaît qu’une seule fois. Exemple : E(H12 H23 H31 ) ne contient qu’une seule fois les arêtes 1 ↔ 2, 2 ↔ 3, 3 ↔ 1 ; • type 3 : ceux qui ne sont pas de type 1 ou de type 2. C’est le cas par exemple pour E(H12 H23 H31 H12 H23 H31 ), qui n’est ni de type 1 ni de type 2 car les arêtes 1 ↔ 2, 2 ↔ 3, 3 ↔ 1 apparaissent chacune deux fois dans le même sens, ou encore pour E(H12 H21 H13 H32 H23 H31 ), qui n’est ni de type 1 ni de type 2 car les arêtes 1 ↔ 2, 2 ↔ 3, 3 ↔ 1 apparaissent chacune dans les deux sens mais le graphe obtenu en effaçant les orientations des arêtes est le cycle 1 ↔ 2 ↔ 3 ↔ 1. • Nous disposons des faits suivants : 100 DJALIL CHAFAÏ • Les graphes de type 2 ont une contribution nulle. En effet, si G est un graphe de type 2 alors E(HG ) = 0 par indépendance et centrage ; • Les graphes de type 3 ont une contribution asymptotiquement nulle. En effet, si G est un graphe G(t) de type 3 alors on peut établir sans grande difficulté que t 6 (r + 1)/2, qui donne n(n − 1) · · · (n − t + 1) 6 nt 6 n1/2+r/2 . D’autre part, le nombre de classes de type 3 est majoré par le nombre total de classes cr = O(1). À présent, comme les coefficients de H sont bornés, on a E(HG ) = O(1), et donc n(n − 1) · · · (n − t + 1) E(HG ) = O(n−1/2 ) = on→∞ (1); 1+r/2 n classes t.3 X Seuls les graphes de type 1 contribuent asymptotiquement. En effet, pour tout graphe G de type 1 on a E(HG ) = 1 par indépendance car les coefficients de H ont une variance de 1. Cela ramène le problème à la détermination du nombre de classes de type 1. Il n’y a pas de graphes de type 1 si r est impair. Si r est pair, disons r = 2k, alors t = r/2, et les classes de type 1 sont en bijection avec 1 2k les parenthésages : il y en a donc k+1 k (nombres de Catalan), d’où enfin • X n(n − 1) · · · (n − t + 1) cl. t.1 n1+r/2 E(HG ) n−k+1 1 2k n = ··· n n k+1 k ! ! 1 2k −→ . n→∞ 1 + k k Ceci achève notre esquisse de preuve du théorème 1.3 par la méthode des moments. En plus des parenthésages, les nombres de Catalan permettent de dénombrer des suites d’objets variées comme les excursions de la marche aléatoire simple, les partitions non croisées, les chemins de Dyck, etc, qui sont donc toutes en bijection. Signalons par ailleurs que lorsque M est gaussienne, il est possible d’exprimer les moments avec la matrice de covariance en utilisant une formule de Wick, qui est une conséquence de l’intégration par parties, cf. [G1]. 2.2. Méthode de la résolvante (analyse). Nous venons de voir que la famille de fonctions test {x 7→ xr : r ∈ N} ramène le problème à la combinatoire des moments. Soit C+ := {z ∈ C : =z > 0}. Il INTRODUCTION AUX MATRICES ALÉATOIRES 101 se trouve que la famille de fonctions test {x 7→ 1/(x − z) : z ∈ C+ } ramène le problème à une équation pour la trace de la résolvante, liée à la transformée de Cauchy-Stieltjes. La transformée de Cauchy-Stieltjes Sν : C+ → C d’une loi ν sur R est définie par Z 1 Sν (z) := dν(x). x−z On a toujours |Sν (z)| 6 1/=z et =Sν (z) > 0. La fonction Sν caractérise ν. Elle est analytique sur C+ . De plus, une suite (νn )n>1 de lois sur R converge en loi vers une loi ν sur R si et seulement si (Sνn )n>1 P converge ponctuellement vers Sν sur C+ . Si νn = n1 nk=1 δλk (A) est la distribution spectrale empirique d’une matrice hermitienne A, et si GA (z) := (A − zI)−1 est la résolvante de A en z ∈ C+ , alors Sνn (z) = n n 1X 1 1X 1 1 = = Tr(GA (z)). n k=1 λk (A) − z n k=1 λk (A − zI) n Si A est aléatoire, on a E(Sνn (z)) = SEνn (z) grâce au théorème de Fubini-Tonelli. Pour établir le théorème 1.3, on observe tout d’abord que si µ est √ 4−x2 la loi du demi-cercle de densité x 7→ 2π 1[−2,2] (x) alors un calcul par la méthode des résidus donne √ −z + z 2 − 4 Sµ (z) = , 2 en fait l’unique solution à partie imaginaire positive de l’équation du second degré s2 + sz + 1 = 0 en s, qui s’écrit également, sous forme de point fixe, 1 = 0. s+ z+s Soit µn la mesure spectrale empirique de √1n Hn . L’idée est d’établir que SEµn est solution approchée de cette équation. La formule d’inversion par blocs de Schur affirme que pour toute partition {1, . . . , n} = K ∪ K c, (A−1 )K,K = (AK,K − AK,K c (AK c ,K c )−1 AK c ,K )−1 . En utilisant cette formule pour la résolvante de √1n H, avec K = {k} où k varie de 1 à n, on obtient, après de longs calculs, 1 εn := SEµn (z) + −→ 0. z + SEµn (z) 102 DJALIL CHAFAÏ Cela conduit au résultat. Les détails, omis ici, et qu’on peut trouver par exemple dans [BS] ou [AGZ], ne sont pas plus simples que pour la méthode des moments. Signalons par ailleurs que lorsque M est gaussienne, il est possible d’utiliser l’identité de la résolvante GB − GA = GA (A − B)GB et une intégration par parties plutôt que la formule d’inversion par blocs, et cette stratégie s’étend même au delà du cas gaussien par une technique d’interpolation, cf. [PS]. 2.3. Méthode de minimisation d’énergie pour GUE. On considère dans cette section le cas gaussien où {<Mij , =Mij }16i,j6n sont i.i.d. de loi gaussienne de moyenne 0 et de variance 1/2. Dans √ ce cas, la loi de la matrice hermitienne aléatoire H = (M + M ∗ )/ 2 du théorème 1.3 vérifie : {Hii , <Hij , =Hij }16i6j6n indépendantes et de loi gaussienne centrée ; • {Hii } 16i6n de variance 1 ; • {<Hij , =Hij } 16i<j6n de variance 1/2, et donc {Hij }16i<j6n de variance 1. • Identifions l’ensemble des matrices hermitiennes Hn := {H ∈ 2 2 Mn (C) : H ∗ = H} à C(n −n)/2 × Rn ≡ Rn . La loi de H admet une densité proportionnelle à − 21 H 7−→ e Pn i,j=1 |Hij |2 1 = e− 2 Tr(HH ∗) 1 2 = e− 2 Tr(H ) . La loi de H est invariante par conjugaison unitaire : U HU ∗ et H ont même loi pour toute matrice unitaire U . On dit que H appartient à l’ensemble gaussien unitaire, en anglais « Gaussian Unitary Ensemble » (GUE). Le changement de variables H ↔ (U, D) issu de la diagonalisation H = U ∗ DU en base orthonormée permet d’établir, par intégration de la variable U , que les valeurs propres λ1 ( √1n H), . . . , λn ( √1n H) de √1n H admettent une densité proportionnelle à (?) n λ ∈ Rn 7−→ e− 2 Pn i=1 λ2i Y |λi − λj |2 . 16i<j6n Le déterminant de Vandermonde ci-dessus exprime une dépendance, et provient du jacobien du changement de variables. La densité s’écrit 103 INTRODUCTION AUX MATRICES ALÉATOIRES également e−En (λ) où En (λ) := n X nX 1 λ2i + 2 ln . 2 i=1 |λi − λj | 16i<j6n Cela permet de concevoir λ1 ( √1n H), . . . , λn ( √1n H) comme des particules chargées dans le plan, confinées sur la droite réelle, dont l’énergie de configuration est En (λ). La structure de En indique que ces particules subissent à la fois un champ extérieur quadratique qui les confine près de l’origine, ainsi qu’une force coulombienne qui les fait se repousser mutuellement. De ces contraintes antagonistes naît un équilibre macroscopique quand n → ∞. Réécrivons l’énergie En (λ) au moyen de la mesure de comptage des valeurs propres notée µn := µ √1 H : n En (λ) = n2 Z x2 dµn (x) + 2 ZZ ! 1 ln dµn (x)dµn (y) . |x − y| x6=y Cela suggère que quand n → ∞, la mesure empirique µn converge vers l’ensemble des minima de la fonctionnelle quadratique strictement convexe E définie pour toute loi ν sur R par Z E(ν) := x2 dν(x) + 2 ZZ ln 1 dν(x)dν(y). |x − y| Or on peut établir précisément que ν 7→ E(ν) est minimisée par une unique loi de probabilité : la loi du demi-cercle µ de densité √ 4 − x2 x 7−→ 1[−2,2] (x). 2π Cela permet d’établir le théorème 1.3 dans le cas gaussien du GUE. Cette méthode, détaillée dans [AGZ], est un exemple spécial de principe de grandes déviations. Elle reste valable au delà du GUE, pour des modèles de matrices aléatoires unitairement invariants de densité proportionnelle à e−nTr(V (H)) , où par définition Tr(V (H)) := Pn k=1 V (λk (H)). La loi obtenue à la limite dépend de V et n’est pas la loi du demi-cercle en général, ce qui montre qu’il n’y a pas universalité. 2.4. Méthode des polynômes orthogonaux pour GUE. Soit (Pk )k>0 la suite des polynômes de Hermite, orthogonaux et normalisés pour la loi gaussienne standard sur R de densité γ(x) = 104 (2π)−1/2 e−x DJALIL CHAFAÏ 2 /2 . Pour tous k, k 0 ∈ N, Z Pk (x)Pk0 (x) γ(x) dx = 1k=k0 . Les polynômes (Pk )k>0 vérifient la récurrence à trois termes √ √ xPk = k + 1Pk+1 + kPk−1 . Réécrivons la densité (?) du GUE en utilisant ces polynômes. Le Q déterminant de Vandermonde 16i<j6n |λi − λj | est proportionnel à dét((Pi−1 (λj ))16i,j6n ) (cela découle uniquement du fait que Pk est un polynôme de degré k pour tout k). En posant K(x, y) := n X Pk (x)Pk (y), k=0 on obtient que portionnel à 2 16i<j6n |λi − λj | = Q Q 16i<j6n |λi − λj | 2 est pro- dét((K(λi , λj ))16i,j6n ). Cela fournit une représentation déterminantale de la densité (?) du GUE, basée sur le noyau K, point de départ d’une analyse fine. Cette approche, due à Gaudin et Mehta, permet d’établir en particulier que si H est GUE alors la densité de EµH s’écrit x 7−→ γ(x) La densité de µn := Eµ √1 n H X 1 n−1 P 2 (x). n k=0 k s’écrit donc X √ √ 1 n−1 x 7−→ √ Pk2 ( nx)γ( nx). n k=0 À partir de cette formule, une première méthode, exploitant les propriétés d’orthogonalité de la suite (Pk )k>0 , permet d’obtenir une formule de récurrence à trois termes pour les moments de µn , qui fait écho à la formule de récurrence à trois termes pour les polynômes orthogonaux (Pk )k>0 . Cela permet d’établir finalement que µn converge vers la loi du demi-cercle par une méthode de moments. Alternativement, par des calculs utilisant l’intégration par parties et l’orthogonalité de (Pk )k>0 , on peut établir que la transformée de √ √ Laplace au point θ de la loi de densité x 7→ Pn2 ( nx)γ( nx) est solution quand n → ∞ de l’équation différentielle 4θf 00 + 2f 0 − θf = 0, INTRODUCTION AUX MATRICES ALÉATOIRES 105 qui est précisément l’équation différentielle satisfaite par la transformée de Laplace d’une loi de l’arcsinus sur [−2, 2]. Cette observation √ √ permet d’établir que la loi de densité x 7→ Pn2 ( nx)γ( nx) converge en loi quand n → ∞ vers la loi de l’arcsinus sur [−2, 2] de densité x 7→ π −1 (4 − x2 )−1/2 1[−2,2] (x). En exploitant le fait que la densité de µn est une moyenne√de Cesàro, on peut en déduire que µn converge en loi vers la loi de U ξ où U et ξ sont des variables aléatoires indépendantes de loi uniforme sur [0, 1] et de loi de l’arcsinus sur [−2, 2] respectivement. Il s’agit là d’une représentation particulière de la loi du demi-cercle sur [−2, 2] ! Les détails ainsi que de nombreuses références se trouvent dans [L]. 3. Au delà du théorème de Wigner L’étude des matrices aléatoires ne se résume pas à l’étude du spectre. Le comportement des vecteurs propres est par exemple d’une grande importance pour la compréhension des modèles de graphes aléatoires, mais aussi des opérateurs de Schrödinger aléatoires en physique en liaison avec le phénomène de localisation d’Anderson. D’autre part, les propriétés non asymptotiques des modèles de matrices aléatoires jouent un rôle important dans les applications, comme par exemple pour les problèmes de complétion, d’échantillonnage, de classification, etc. On distingue deux grandes familles de modèles de matrices aléatoires. La première famille est constituée par les modèles dans lesquels les coefficients de la matrice sont i.i.d. comme dans les théorèmes 1.1, 1.2, 1.3. Dans ce cas, la loi du spectre et des vecteurs propres n’est en général pas connue. La seconde famille est constituée par les modèles dont la loi est unitairement invariante. Dans ce cas, les vecteurs propres sont indépendants des valeurs propres, la matrice des vecteurs propres suit la loi uniforme sur le groupe unitaire, et la loi des valeurs propres est connue (elle fait souvent intervenir un déterminant de Vandermonde lié au jacobien du changement de variable comme dans l’exemple du GUE). Le modèle gaussien GUE appartient aux deux familles : les coefficients de la matrice sont i.i.d. et la loi est unitairement invariante. Le caractère explicite de la loi des valeurs propres des modèles unitairement invariants comme le GUE permet 106 DJALIL CHAFAÏ d’effectuer des calculs précis, ce qui conduit à dégager des comportements quantitatifs ou asymptotiques, dont certains sont universels, en ce sens qu’il restent valables au delà du modèle considéré. Nous renvoyons à [ER] pour un panorama riche et éclairant, en liaison avec les noyaux de Bessel, de Airy, et le noyau sinus, ainsi qu’avec les décompositions matricielles classiques. 3.1. Comportement au bord et universalité locale. Le théorème 1.3 de Wigner concerne une universalité au niveau global (ensemble du spectre) et au premier ordre. Le comportement global au second ordre consiste par exemple à étudier le comportement asymptotique quand n → ∞ de Z f dµ √1 n H − Z f dµ. On peut établir qu’en normalisant par un coefficient qui dépend de n et de f , on obtient une convergence en loi vers une loi gaussienne. On dit qu’il s’agit d’un théorème central limite pour les statistiques linéaires du spectre. Lorsque f est assez régulière, la normalisation ne dépend pas de n, tandis que lorsque f est une indicatrice d’intervalle, √ la normalisation peut être très différente de n. Ces comportements inhabituels sont dûs à la dépendance (répulsion) entre les valeurs propres. Notons par ailleurs que pour f (x) = xr avec r ∈ N∗ , nous √ retrouvons les moments, qui convergent à vitesse n pour le modèle réduit. Nous renvoyons à [Da] pour tous ces aspects. La convergence globale fournie par le théorème 1.3 de Wigner n’empêche pas une fraction asymptotiquement négligeable du spectre de diverger vers l’infini. Si par exemple m 6= 0 alors on peut établir √ qu’une valeur propre va diverger vers l’infini à vitesse n. Ceci mène à l’étude du comportement du bord du spectre. Au premier ordre, on montre que si m = 0 et si le moment d’ordre 4 de H12 est fini alors les valeurs propres extrêmes convergent vers le bord du support de la loi limite : p.s. λmin := min λk ( √1n H) −→ −2σ 16k6n et n→∞ p.s. λmax := max λk ( √1n H) −→ 2σ. 16k6n n→∞ INTRODUCTION AUX MATRICES ALÉATOIRES 107 Au second ordre, on montre sous les mêmes hypothèses que les variables aléatoires n2/3 (−2σ − λmin ) et n2/3 (λmax − 2σ) convergent en loi quand n → ∞ vers une loi de Tracy-Widom, liée à la fonction d’Airy et à une équation de Painlevé de type II. Sur le modèle du GUE, cela est lié au fait que le noyau K du GUE converge au bord vers un noyau d’Airy. Loin du bord, c’est plutôt un noyau sinus qui apparaît à la limite. Nous renvoyons à [De, ER]. Il est également possible d’étudier le spectre localement en quantifiant par exemple l’écart entre les valeurs propres individuelles et la position théorique liée aux quantiles de la loi limite. Cela peut également consister à comparer quantitativement la loi des valeurs propres à celle du GUE, et à établir l’universalité de la limite du noyau du GUE (noyau sinus). C’est l’objet de travaux récents présentés dans [G2, E]. Une méthode due à Lindeberg permet d’établir le théorème central limite classique pour des variables aléatoires i.i.d. en remplaçant une à une les variables par des variables gaussiennes de même espérance et de même variance, et en contrôlant l’erreur commise. Il se trouve que cette méthode de « remplacement gaussien » permet également de déduire le théorème 1.3 de Wigner à partir du cas gaussien GUE, cf. [T1]. Cela fait appel à une formule de Hadamard qui exprime la dérivée des valeurs propres par rapport aux coefficients de la matrice. En utilisant cette méthode, il est possible d’établir que le comportement local des valeurs propres individuelles ne dépend que des quatre premiers moments des coefficients de la matrice, cf. [Da]. Rappelons que les écarts entre valeurs propres constituaient l’objectif initial de Wigner. Si λ1 6 · · · 6 λn sont les valeurs propres ordonnées du GUE (normalisé pour que les coefficients de la matrice soient de variance 1/n) alors on peut établir que la distribution moyenne des écarts normalisés n(λk+1 − λk ) converge en loi quand n → ∞ vers une loi spéciale de Gaudin-Mehta liée à l’équation différentielle de Painlevé V. Notons que si les valeurs propres étaient par exemple i.i.d. de loi uniforme sur l’intervalle [−2, 2] alors la loi limite des écarts normalisés serait la loi exponentielle de moyenne 4, ce qui n’est pas le cas ici, à cause du phénomène de répulsion, cf. [T2]. 108 DJALIL CHAFAÏ 3.2. Probabilités libres de Voiculescu. Le phénomène d’universalité le plus classique en théorie des probabilités est celui mis en lumière par le théorème central limite. Il se trouve que la loi du demi-cercle constitue à bien des égards un analogue, pour les grandes matrices aléatoires, de la loi gaussienne, comme l’explique la théorie des probabilités libres de Voiculescu. Probabilités libres. Considérons une algèbre(9) A sur C possédant une unité 1 (élément neutre de la multiplication), munie d’une involution a 7→ a∗ , c’est-à-dire que (a∗ )∗ = a pour tout a ∈ A , et d’une forme linéaire τ : A → C vérifiant τ (1) = 1, τ (ab) = τ (ba) et τ (aa∗ ) > 0 pour tout a ∈ A , avec égalité si et seulement si a = 0. Un exemple simple est fourni par A = Mn (C) et a∗ = a> , et τ = n1 Tr. Dans cet exemple, pour tout a ∈ A , et tout m ∈ N, la quantité τ (am ) est le moment d’ordre m de la distribution spectrale de a. Au delà de cet exemple, nous allons conserver cette interprétation de τ comme une «espérance», et considérer que les éléments de A sont des «variables aléatoires algébriques». On dit que a ∈ A est centré et réduit lorsque τ (a) = 0 et τ (a2 ) = 1. Moments et loi. On dit que a ∈ A est réel lorsque a = a∗ . On appelle loi de a ∈ A la donnée de τ (a1 · · · am ), m ∈ N∗ , a1 , . . . , am ∈ {a, a∗ }. Si a est réel alors sa loi est caractérisée par ses moments {τ (ar ) : r ∈ N}. Lorsque A = Mn (C) et a ∈ A est réel, alors a est une matrice herP mitienne et sa distribution spectrale empirique µa = n1 nk=1 δλk (a) , qui est une loi de probabilité discrète finie, est caractérisée par ses moments, qui sont exactement {τ (ar ) : r ∈ N} : τ (ar ) = n 1 1X Tr(ar ) = λi (a)r = n n i=1 Z xr dµa (x). De ce point de vue, le concept de loi d’un élément de A est une extension algébrique du concept de distribution spectrale empirique des matrices hermitiennes. (9) L’addition est commutative, mais pas forcément la multiplication. INTRODUCTION AUX MATRICES ALÉATOIRES 109 Liberté. Dans la théorie des probabilités classiques sur (Ω, F , P), des sous-tribus F1 , . . . , Fm de F sont indépendantes lorsque E(X1 · · · Xk ) = 0 pour toutes variables aléatoires bornées X1 , . . . , Xm vérifiant E(Xk ) = 0 et Xk est Fk -mesurable pour tout 1 6 k 6 m. Nous allons imiter ce concept dans notre cadre algébrique, en tenant compte de la principale différence avec le cadre classique : le caractère non commutatif. On dit que des sous-algèbres (contenant 1 et stables par involution) A1 , . . . , Am de A sont libres lorsque τ (a1 · · · ak ) = 0 pour tous k ∈ N∗ , tous i1 , . . . , ik ∈ {1, . . . , m}, et tous a1 ∈ Ai1 , . . . , ak ∈ Aik tels que τ (a1 ) = · · · = τ (ak ) = 0 et ij 6= ij+1 pour tout 1 6 j < k. On dit que a, b ∈ A sont libres lorsque les sous-algèbres qu’ils engendrent sont libres. La liberté permet de calculer des moments joints, de les exprimer complètement en fonction des moments des arguments. Si par exemple a, b ∈ A sont libres alors pour obtenir τ (ab) on écrit grâce à la liberté, 0 = τ ((a − τ (a))(b − τ (b))) = τ (ab) − τ (a)τ (b) d’où τ (ab) = τ (a)τ (b) (dans ce cas simple, la non commutativité ne s’exprime pas). Théorème central limite libre. Nous pouvons à présent énoncer le théorème central limite libre : si a1 , . . . , an ∈ A sont réels, centrés et réduits, libres, et de même loi, alors la loi de sn := a1 + · · · + an √ n converge vers la loi du demi-cercle centrée et de variance 1, autrement dit ∀ r ∈ N, lim τ (srn ) = n→∞ 0 2k k+1 k 1 si r = 2k + 1, si r = 2k. La preuve de ce théorème central limite consiste à calculer la loi de sn . Notons que sn est centré et réduit, tout comme dans le théorème central limite classique. Convolution libre. La liberté permet de définir une notion de convolution. Si a, b ∈ A sont libres de loi µa et µb alors la loi µa+b de a + b ne dépend que de µa et de µb . On la note µa µb et on dit qu’il 110 DJALIL CHAFAÏ s’agit de la convolution libre de µa et µb . La famille des lois gaussiennes sur R engendrée par translation et dilatation à partir de la loi gaussienne standard centrée et réduite, est stable par convolution classique (additivité des variances). Il en va de même pour la famille des lois du demi-cercle sur R avec la convolution libre (additivité des variances !). Liberté asymptotique. Si A et B sont deux matrices hermitiennes n×n, alors le spectre de A+B dépend non seulement du spectre de A et du spectre de B, mais aussi des vecteurs propres des A et de B (sauf si A et B commutent car dans ce cas elles sont diagonalisables dans la même base). Si maintenant A et B sont deux matrices aléatoires hermitiennes indépendantes, il n’y aucune raison que µA+B ne dépende que de µA et µB . Le cas du GUE est cependant remarquable. Soit donc A une matrice n × n aléatoire hermitienne gaussienne du GUE normalisé de sorte que la distribution spectrale empirique µA ait un moment d’ordre 2 égal à 1. Alors les moments de EµA convergent quand n → ∞ vers ceux de la loi du demi-cercle centrée de variance 1. Si B√est une copie indépendante de A, alors A + B suit la même loi que 2A, et donc les moments de EµA+B convergent quand n → ∞ vers ceux de la loi du demi-cercle centrée de variance 2. On a donc en quelque sorte la relation EµA+B = EµA EµB quand n → ∞. Voiculescu a établi que ce phénomène de liberté asymptotique reste vrai au delà des couples de matrices indépendantes du GUE, à condition de «découpler» aléatoirement les espaces propres des deux matrices par conjugaison unitaire aléatoire. Soient par exemple A et B des matrices hermitiennes n × n telles que µA → µa et µB → µb au sens des moments quand n → ∞, où µa et µb sont deux lois à support compact. Soient U, V des matrices unitaires aléatoires indépendantes et de loi uniforme (on dit «Haar unitaires»). Alors EµU AU ∗ +V BV ∗ converge au sens des moments vers µa µb . La théorie des probabilités libres est très riche. Elle apporte une vision algébrique très éclairante sur l’asymptotique des matrices aléatoires de grande dimension. Nous renvoyons à [AGZ] pour plus d’information à ce sujet. INTRODUCTION AUX MATRICES ALÉATOIRES 111 3.3. Quelques mots sur le théorème de Marchenko-Pastur. Nous commençons par une motivation statistique, celle de Wishart. Soit X1 , . . . , Xn des vecteurs colonne aléatoires i.i.d. de Rd de moyenne 0 et de matrice de covariance Σ. La matrice Σ est symétrique d × d et ses valeurs propres sont positives ou nulles. On a Σij = E(Xki Xkj ) pour tous 1 6 i, j 6 d et tout 1 6 k 6 n ou encore Σ = E(X1 X1> ) = · · · = E(Xn Xn> ). b n est la matrice symétrique La matrice de covariance empirique Σ d × d définie par bn = Σ n 1X 1 Xi Xi> = (X1 · · · Xn )(X1 · · · Xn )> . n k=1 n b n ) = Σ. La loi des grands nombres appliquée aux d × d On a E(Σ coefficients donne p.s. b n −→ Σ. Σ n→∞ bn On souhaite étudier le comportement de la matrice aléatoire Σ lorsque la dimension des données d = dn dépend de n et tend vers ∞. Cela nous conduit au modèle simplifié suivant : on se donne une famille (Yij )i,j>1 de v.a.r. i.i.d. de moyenne 0 et de variance 1, et pour tout entier n > 1, on considère la matrice aléatoire dn ×dn symétrique 1 YY> n où Y = (Yij )16i6dn ,16j6n . Si n 7→ dn est constante et égale à d alors 1 > converge p.s. vers Σ = I . Il est naturel de chercher à comd nY Y prendre le comportement de la matrice n1 Y Y > lorsque dn dépend de n, par exemple en étudiant son spectre. L’analyse de la matrice symétrique Y Y > est rendue difficile par le fait que ses coefficients sont dépendants, contrairement à ceux des matrices Y + Y > du théorème 1.3 de Wigner. On dispose du théorème 3.1 ci-dessous, qui se démontre comme le théorème de Wigner, bien que la mise en ?uvre soit plus lourde même dans le cas carré dn = n. Il a été obtenu à la fin des années 1960 par Marchenko et Pastur. Nous renvoyons à [BS] et à [PS] pour la preuve. 112 DJALIL CHAFAÏ 1.6 rho=1.5 rho=1.0 rho=0.5 rho=0.1 1.4 1.2 1 0.8 0.6 0.4 0.2 0 1 2 3 4 5 x 2.5 rho=1.5 rho=1.0 rho=0.5 rho=0.1 2 1.5 1 0.5 0 0 0.5 1 1.5 2 x Figure 6. Densité de Marchenko-Pastur pour différentes valeurs de ρ. Les graphiques du haut correspondent au spectre de p 1 Y Y > et ceux du bas au spectre de 1 Y Y > . Ce graphique – n n obtenu avec wxMaxima (Debian GNU/Linux) – est tiré de [CG+]. Théorème 3.1 (Marchenko-Pastur rectangulaire) Si Σ = Idn et si ρ := limn→∞ dnn est > 0 et fini, alors, presque INTRODUCTION AUX MATRICES ALÉATOIRES 113 sûrement, pour toute fonction continue et bornée f : R → R, Z f dµ 1 Y Y > −→ n Z n→∞ f dµ où µ est la loi de Marchenko-Pastur 1 q qδ0 + (b − x)(x − a) 1[a,b] (x)dx. ρ2πx avec √ √ q = max(0, (1 − ρ−1 )) et a = (1 − ρ)2 et b = (1 + ρ)2 . De plus, les moments de µ sont donnés pour tout r ∈ N∗ par Z r−1 X r ρk x dµ(x) = k+1 k k=0 r ! ! r−1 . k En particulier, la loi µ a pour moyenne 1 et variance ρ. La transformée de Cauchy-Stieltjes de la loi µ du théorème 3.1 est donnée par Sµ (z) = 1−ρ−z+ p (z − 1 − ρ)2 − 4ρ 2ρz pour tout z ∈ C+ . Il s’agit de l’unique solution à partie imaginaire positive de l’équation du second degré en s donnée par ρzs2 + (z + ρ − 1)s + 1 = 0, qui s’écrit également s= 1 . 1 − z − ρ − ρzs La loi µ dans le théorème 3.1 est un mélange entre une masse de Dirac en 0 et une loi à densité. L’atome en 0 disparaît lorsque ρ 6 1. Le théorème 3.1 affirme que p.s., pour tout x ∈ R, avec x 6= 0 si ρ > 1, en notant I = ] − ∞, x], lim µn (I) = µ(I). n→∞ Lorsque ρ = 1, la matrice n1 Y Y > est en quelque sorte asymptotiquement carrée. Dans ce cas, a = 0 et b = 4. C’est le cas par exemple si dn = n pour tout n > 1. Dans ce cas, la loi µ est l’image de la loi du quart de cercle sur [0, 2] par l’application x 7→ x2 . On retrouve ainsi le théorème 1.2 par changement de variable. 114 DJALIL CHAFAÏ Lorsque les coefficients de Y sont i.i.d. gaussiens standard sur C (respectivement sur R), la loi de Y Y ∗ est appelée loi de Wishart complexe (respectivement réelle), et constitue une sorte de loi du χ2 matriciel. La loi des valeurs propres est alors appelée Laguerre Unitary Ensemble (respectivement Laguerre Orthogonal Ensemble). 3.4. Quelques mots sur le théorème de Girko. Les théorèmes 1.2 et 1.3 de Marchenko-Pastur et de Wigner concernent des modèles de matrices aléatoires hermitiennes. Les matrices hermitiennes sont diagonalisables en base orthonormée, car elles appartiennent aux matrices normales(10) . Le modèle le plus agréable de matrices aléatoires normales non hermitiennes est sans doute celui fourni par la loi uniforme (ou mesure de Haar normalisée) sur le groupe unitaire Un . De telles matrices sont appelée Haar unitaire. Cette loi est unitairement invariante car la mesure de Haar est invariante par translation. La densité des valeurs propres d’une matrice Haar unitaire se calcule et fait apparaître un déterminant de Vandermonde, tout comme pour le GUE. La mesure empirique des valeurs propres converge vers la loi uniforme sur le cercle unité quand la dimension tend vers l’infini. Des trois théorèmes 1.1-1.2-1.3, le théorème 1.1 de Girko semble être le plus simple. C’est pourtant le plus difficile à démontrer, car la méthode des moments et la méthode de la résolvante sont mal adaptées aux matrices non normales. Il a été imaginé par Girko dans les années 1980, en s’inspirant du résultat connu pour le cas gaussien étudié par Mehta et Ginibre(11) . Notons que si les coefficient de M ont une densité, alors P(M M ∗ = M ∗ M ) = 0 et donc presque sûrement M n’est pas normale ! La preuve complète du théorème 1.1 a été obtenue il y a quelques années par Tao et Vu, après cinquante ans de résultats partiels par plusieurs vagues de mathématiciens. L’approche fait appel au potentiel logarithmique, lié au laplacien. Le potentiel logarithmique au Ici A ∈ Mn (C) est normale quand AA∗ = A∗ A, et cela n’a rien à voir avec la loi normale ! (11) L’analogue du GUE, l’ensemble de Ginibre complexe, est plus agréable à étudier que le GUE ! (10) INTRODUCTION AUX MATRICES ALÉATOIRES 115 point z ∈ C d’une loi µ sur C à support compact est défini par Z 1 Uµ (z) := ln dµ(λ). |z − λ| Le potentiel logarithmique Uµ permet de reconstituer µ car ∆Uµ = −2πµ, au sens où Z U (z)ϕ(z) dxdy = −2π Z ∆ϕ(λ) dµ(λ) R2 pour tout ϕ : C → R C ∞ et à support compact, avec ∆ := ∂x2 + ∂y2 (laplacien). Cette formule peut être vue comme une conséquence de 1 la formule de Cauchy-Pompeiu, et dit essentiellement que − 2π ln |·| est la solution fondamentale de l’équation de la chaleur sur R2 . Le point de départ de Girko pour établir le théorème 1.1 est la formule d’hermitisation suivante, valable pour toute matrice A ∈ Mn (C) et tout z ∈ C : −UµA (z) = Z ln |z − λ| dµA (λ) 1 ln |dét(A − zI)| n q 1 = ln dét( (A − zI)(A − zI)∗ ) Zn ∞ = ln(t) dµ√ ∗ (t). = (A−zI)(A−zI) 0 Elle ramène la preuve du théorème 1.1 à établir tout d’abord que presque sûrement, pour tout z ∈ C, la loi µ√(n−1/2 M −zI)(n−1/2 M −zI)∗ 1 converge en loi vers une loi νz sur R+ telle que 2π ∆ 0∞ ln(t) dνz (t) est la loi uniforme sur le disque. Il s’agit d’étendre le théorème 1.2 à la matrice translatée n−1/2 M − zI. Le second ingrédient nécessaire à la preuve du théorème 1.1 consiste à contourner la dégénérescence de la fonction ln en t = ∞ et surtout en t = 0, en contrôlant le bord du spectre de la matrice hermitienne semi-définie positive (n−1/2 M − zI)(n−1/2 M − zI)∗ . Nous renvoyons par exemple à [BC] pour plus d’information. Ce dernier problème est relié à la conjecture suivante : si A est une matrice aléatoire n × n à coefficients ±1 i.i.d. de loi de Rademacher centrée, c’est-à-dire que P(Aij = 1) = P(Aij = −1) = 1/2 pour tous i, j, alors R P(dét(A) = 0) = n 1 + on→∞ (1) 2 . 116 DJALIL CHAFAÏ La probabilité d’égalité de deux lignes ou de deux colonnes dans A vaut 2−n . L’invertibilité des matrices aléatoires est un thème actuel, situé entre analyse géométrique de grande dimension [EK, Ch. 5], combinatoire additive [TV], et théorie des probabilités. Appendice A. Quelques outils Cette section rassemble quelques outils à la fois beaux et utiles. Nous commençons par deux théorèmes dont la preuve se trouve par exemple dans [HJ, Bha]. Théorème A.1 (Formules variationnelles min-max de Courant-Fischer) Soit A ∈ Mn (C) hermitienne de valeurs propres λ1 (A) > · · · > λn (A). Alors pour tout 1 6 k 6 n, en notant Gk l’ensemble des sousespaces vectoriels de Cn de dimension k, on a λk (A) = max min hAx, xi = V ∈Gk x∈V kxk2 =1 min max hAx, xi. V ∈Gn−k+1 x∈V kxk2 =1 On en déduit un entrelacement pour le spectre des perturbations additives à rang contrôlé : si A, B ∈ Mn (C) sont hermitiennes de valeurs propres λ1 (A) > · · · > λn (A) et λ1 (B) > · · · > λn (B) et si r := rang(B − A) alors pour tout 1 6 k 6 n, λk+r (A) 6 λk (B) 6 λk−r (A) avec la convention λk (A) = +∞ si k < 1 et λk (A) = −∞ si k > n. Il en découle que si card{1 6 k 6 n : λk (A) 6 t} n card{1 6 k 6 n : λk (A) 6 t} et FB (t) := n sont les fonctions de répartition des mesures de comptage FA (t) := n 1X µA := δ n k=1 λk (A) n 1X et µB := δ n k=1 λk (B) alors kFA − FB k∞ := sup |FA (t) − FB (t)| 6 t∈R rang(A − B) . n INTRODUCTION AUX MATRICES ALÉATOIRES 117 Le membre de gauche est la distance de Kolmogorov-Smirnov entre les lois de probabilités discrètes µA et µB . Voici un exemple d’application : si H est une matrice aléatoire hermitienne telle que (Hi,j )16i,j6n sont de même moyenne m alors on a rang(E(H)) = rang(m1n ) 6 1 et donc µH−E(H) et µH ont les mêmes limites en loi ! Théorème A.2 (Inégalité de Hoffman-Wielandt). Si A, B ∈ Mn (C) sont hermitiennes de spectres respectifs λ1 (A) > · · · > λn (A) et λ1 (B) > · · · > λn (B) alors n X (λk (A) − λk (B))2 6 n X n X |Aij − Bij |2 . i=1 j=1 k=1 Notons P2 l’ensemble des lois sur R possédant un moment d’ordre 2 fini. La distance de couplage (ou de Wasserstein) d sur P2 est définie pour tous ν1 , ν2 ∈ P2 par d(ν1 , ν2 )2 := inf (X1 ,X2 ) X1 ∼ν1 ,X2 ∼ν2 E(|X1 − X2 |2 ) où l’infimum porte sur l’ensemble des couples de variables aléatoires de lois marginales ν1 et ν2 . La convergence pour d entraîne la convergence en loi (ainsi que la convergence des deux premiers moments). P Dans le cas de loi discrètes de la forme ν1 = n1 nk=1 δak et ν2 = 1 Pn k=1 δbk avec a1 6 · · · 6 an et b1 6 · · · 6 bn , on trouve n d(ν1 , ν2 )2 = n 1X (ai − bi )2 . n k=1 Par ailleurs, rappelons que Mn (C) est un espace de Hilbert pour le produit scalaire hA, Bi := Tr(AB ∗ ). La norme associée est appelée norme de Schur, de Frobenius, ou encore de Hilbert-Schmidt : kAk2HS = Tr(AA∗ ) = n X n X i=1 j=1 |Aij |2 = n X λi (A)2 . i=1 L’inégalité de Hoffman-Wielandt peut s’écrire à présent kA − Bk2HS . n Voici un exemple d’application : si H est une matrice hermitienne aléatoire à valeurs dans Mn (C) telle que (Hii )16i6j6n sont i.i.d. de carré intégrable, alors pour tout réel C > 0, en désignant par HC la d(µA , µB )2 6 118 DJALIL CHAFAÏ matrice tronquée définie par (HC )ij := Hij 1{|Hij |6C} , et en utilisant l’inégalité ci-dessus et la loi forte des grands nombres, on a d(µH , µHC )2 6 n X n 1 X p.s. |Hij |2 1{|Hij |>C} −→ E(|H12 |2 1{|H12 |>C} ). 2 n→∞ n i=1 j=1 Par convergence dominée ou monotone, le membre de droite peut être rendu arbitrairement proche de 0 en choisissant C assez grand. Cela permet de se ramener, dans la preuve du théorème de Wigner, au cas où les coefficients de H sont bornés. La même méthode permet d’établir que la diagonale de H ne joue pas de rôle dans le théorème de Wigner. On peut en particulier la supposer nulle, ou de variance arbitraire. Le théorème suivant se trouve par exemple dans [MD]. Théorème A.3 (Inégalité de concentration de Azuma-Hoeffding) Si G(X1 , . . . , Xn ) est une variable aléatoire intégrable fonction de vecteurs aléatoires X1 , . . . , Xn indépendants (pas forcément de même dimension), alors pour tout r > 0, P(|G(X1 , . . . , Xn ) − E(G(X1 , . . . , Xn ))| > r) r2 6 2 exp − 2 2(c1 + · · · + c2n ) ! où ck := sup (x,x0 )∈Dk |G(x) − G(x0 )| et Dk := {(x, x0 ) : xi = x0i si i 6= k}. Cette inégalité, de même nature que celle de Bienaymé-Tchebychev(12) , affirme que la variable aléatoire G(X1 , . . . , Xn ) est concentrée autour de sa moyenne. Donnons un exemple d’application pour les distributions spectrales de matrices aléatoires. Si f est une fonction de classe C 1 et à support compact, alors pour toutes matrices hermitiennes A, B ∈ Mn (C), en notant r := rang(A − B), nous savons déjà, via le théorème A.1, que kFA − FB k∞ 6 r/n, et donc, par (12) Si G est une v.a.r. alors P(|G − E(G)| > r) 6 Var(G)/r2 pour tout r > 0. 119 INTRODUCTION AUX MATRICES ALÉATOIRES intégration par parties, Z +∞ Z Z 0 f dµA − f dµB = f (t)(F (t) − F (t)) dt A B −∞ Z +∞ 6 r n |f 0 (t)| dt := −∞ r f 0 . 1 n On note A(x1 , . . . , xn ) ∈ Mn (C) la matrice hermitienne dont les lignes du triangle supérieur sont x1 , . . . , xn (ce sont des vecteurs de Cn , Cn−1 , . . . , C), et on pose Z G(x1 , . . . , xn ) = f dµA(x1 ,...,xn ) . On observe que rang A(x1 , . . . , xk−1 , xk , xk+1 , . . . , xn ) − A(x1 , . . . , xk−1 , x0k , xk+1 , . . . , xn ) 6 2 et donc G(x1 , . . . , xk−1 , xk , xk+1 , . . . , xn ) − G(x1 , . . . , xk−1 , x0k , xk+1 , . . . , xn ) 6 2 f 0 . 1 n À présent, si H est une matrice hermitienne aléatoire à valeurs dans Mn (C) telle que les lignes de son triangle supérieur (Hij )16i6j6n sont indépendantes (ce sont des vecteurs aléatoires de Cn , Cn−1 , . . . , C), alors, grâce à l’inégalité de Azuma-Hoeffding, pour toute fonction f de classe C 1 et à support compact, et pour tout réel r > 0, ! Z Z 2 nr P f dµH − E f dµH > r 6 2 exp − . 0 2 8kf k1 Cette inégalité exprime le fait que la distribution spectrale empirique est très concentrée autour de son espérance. C’est pour cette raison que les fluctuations sont si faibles dans les simulations, dès que la R dimension dépasse quelques dizaines. La variable aléatoire f dµH − R E f dµH converge en probabilité vers 0. Pour tirer parti de la rapidité de convergence, on pose par exemple r = n−1/2+ε avec ε > 0 petit fixé, de sorte que la borne exponentielle dans le membre de droite 120 DJALIL CHAFAÏ de l’inégalité soit sommable en n. Le lemme de Borel-Cantelli(13) entraîne alors que la convergence de la variable aléatoire vers 0 a lieu presque sûrement. Cela permet de ramener l’étude de la convergence en loi presque sûre de µH à celle de la convergence en loi de EµH . Remerciements. Ce texte a bénéficié de commentaires de relecture de Charles Bordenave, Yan Doumerc, Christophe Giraud, Florent Malrieu, et Pierre-André Zitt. Références [ABF] G. Akemann, J. Baik & P. Di Francesco (éds.) – The Oxford handbook of random matrix theory, Oxford University Press, Oxford, 2011. [AGZ] G. W. Anderson, A. Guionnet & O. Zeitouni – An introduction to random matrices, Cambridge Studies in Advanced Mathematics, vol. 118, Cambridge University Press, Cambridge, 2010. [BC] C. Bordenave & D. Chafaï – « Around the circular law », Probab. Surv. 9 (2012), p. 1–89. [Bha] R. Bhatia – Matrix analysis, Graduate Texts in Mathematics, vol. 169, Springer-Verlag, New York, 1997. [Bi1] P. Biane – « Actes des journées X-UPS 2002 », ch. La fonction zêta de Riemann et les probabilités, p. 165–193, Ed. Éc. Polytech., 2003. , « Probabilités libres et matrices aléatoires », Images des [Bi2] mathématiques, 2004. [BS] Z. Bai & J. W. Silverstein – Spectral analysis of large dimensional random matrices, 2e éd., Springer Series in Statistics, Springer, New York, 2010. [CD] R. Couillet & M. Debbah – Random matrix methods for wireless communications, Cambridge University Press, Cambridge, 2011. [CG+] D. Chafaï, O. Guédon, G. Lecué, & A. Pajor, Interactions between compressed sensing, random matrices, and high dimensional geometry. Panoramas et Synthèses vol. 37, Société Mathématique de France, à paraître, 2013. [Da] S. Dallaporta – Quelques aspects de l’étude quantitative de la fonction de comptage et des valeurs propres de matrices aléatoires, thèse de doctorat de l’Université de Toulouse, 2012. PDF (13) Si E( P n 1An ) = P n P(An ) < ∞ alors P( P nX T S n o 1An = ∞ = n 1An < ∞) = 1. Note : n m>n Am . INTRODUCTION AUX MATRICES ALÉATOIRES [De] [DG] [EK] [ER] [E] [F] [G1] [G2] [HJ] [HP] [L] [M] [MD] [P] 121 P. A. Deift – Orthogonal polynomials and random matrices : a Riemann-Hilbert approach, Courant Lecture Notes in Mathematics, vol. 3, New York University Courant Institute of Mathematical Sciences, New York, 1999. P. Deift & D. Gioev – Random matrix theory : invariant ensembles and universality, Courant Lecture Notes in Mathematics, vol. 18, Courant Institute of Mathematical Sciences, New York, 2009. Y. C. Eldar & G. Kutyniok (éds.) – Compressed sensing, Cambridge University Press, Cambridge, 2012, Theory and applications. A. Edelman & N. R. Rao – « Random matrix theory », Acta Numer. 14 (2005), p. 233–297. L. Erdős – « Universality of Wigner random matrices : a survey of recent results », Russian Mathematical Surveys 66 (2011), p. 507– 626. P. J. Forrester – Log-gases and random matrices, London Mathematical Society Monographs Series, vol. 34, Princeton University Press, Princeton, NJ, 2010. A. Guionnet – Large random matrices : lectures on macroscopic asymptotics, Lecture Notes in Mathematics, vol. 1957, SpringerVerlag, Berlin, 2009, Lectures from the 36th Probability Summer School held in Saint-Flour, 2006. , « Grandes matrices aléatoires et théorèmes d’universalité (d’après Erdős, Schlein, Tao, Vu et Yau) », Séminaire Bourbaki vol. 2009/2010, Astérisque, vol. 339, 2011, Exp. no 1019, p. 203–237. R. A. Horn & C. R. Johnson – Matrix analysis, 2e éd., Cambridge University Press, Cambridge, 2013. F. Hiai & D. Petz – The semicircle law, free random variables and entropy. Mathematical Surveys and Monographs, 77. American Mathematical Society, Providence, RI, 2000. x+376 pp. M. Ledoux – « Differential operators and spectral distributions of invariant ensembles from the classical orthogonal polynomials. The continuous case », Electron. J. Probab. 9 (2004), p. no. 7, 177–208 (electronic). M. L. Mehta – Random matrices, 3e éd., Pure and Applied Mathematics (Amsterdam), vol. 142, Elsevier/Academic Press, Amsterdam, 2004. C. McDiarmid – On the method of bounded differences, in Surveys in combinatorics, 1989 (Norwich, 1989), London Math. Soc. Lecture Note Ser., vol. 141, Cambridge Univ. Press, Cambridge, 1989, p. 148–188. S. Péché – « La plus grande valeur propre de matrices de covariance empirique », Images des mathématiques, 2006, http://images. math.cnrs.fr/La-plus-grande-valeur-propre-de.html. 122 [PS] [T1] [T2] [TV] DJALIL CHAFAÏ L. Pastur & M. Shcherbina – Eigenvalue distribution of large random matrices, Mathematical Surveys and Monographs, vol. 171, American Mathematical Society, Providence, RI, 2011. T. Tao – Topics in random matrix theory, Graduate Studies in Mathematics, vol. 132, American Mathematical Society, Providence, RI, 2012. T. Tao – The asymptotic distribution of a single eigenvalue gap of a Wigner matrix, prépublication 2012, disponible sur arXiv :1203.1605, et commentée sur le blog de l’auteur. T. Tao & V. Vu – Additive combinatorics, Cambridge Studies in Advanced Mathematics, 105. Cambridge University Press, Cambridge, 2006. Figure 7. Timbre-poste hongrois en l’honneur de Wigner. Djalil Chafaï, LAMA, CNRS UMR 8050, Université de Paris-Est Marne-laVallée 5, boulevard Descartes 77454 Marne-la-Vallée cedex 2 E-mail : [email protected] • Url : http://djalil.chafai.net/