INTRODUCTION ET EN Le but de cette introduction est de foumir au lecteur, qui ne serait pas familiarisé avec ces disciplines mathématiques, des indications suffisantes pour comprendre les applications qui en seront faites au cours du présent ouvrage. C'est également d'en permettre l'application par le lecteur lui-même et notamment la conduite des calcu1s jusqu'au résultat numérique. C'est pourquoi, si nous nous sommes contentés d 'une simple esquissedes principes de base, si nous n'avons donné aucune démonstration d'aucun théoreme fondamental, nous avons par contre insisté, souvent lourdem~nt. sur certains détails de Ia pratique des calculs. Nous introduirons également quelques tables pouvant être contenues dans le cadre de cet ouvrage : aucunene sera cjtée sansque soient donnéesles référencesprécisespermettant de se Ia procurer. I. QUELQUES DÉFINITIONS GÉNÉRALES A) Notion d'événement (symbole a, h...: Le mot est employé dans son sens trivial: telle chose s'est produite (événementréalisé), peut se produire (événement possible), etc. On.note que l'événement. a ne s'est pas produit par le symbole ã (événement contraire). Un certain nombre d' opérations dites « logiques» peuvent être définies sur les événements, notamment : Somme logique ou réunion : symbole a + b, signifie que a ou bien b s'est produit. C'est également un événement. Produit logique ou intersection : symbole a.b, signifie que a et b se sont produits. C'est également un événement, etc., nous n'insisterons pas. HYDROL()(1IE B) Notion DE SURFACE de probabilité Épreuve. -Soit une collection d'événements possibles a, b... l'épreuve est l'opération élémentaire qui permet de réaliser un de cesévénements,ou plusieurs d'entre eux simultanément. Probabj/jté d'un événement élémentaire : nombre positif compris entre O et 1 attribué à un événementdonné, soit par la structure même du probleme étudié, soit par l'étude statistique d'une collection expérimentale d'événements. C) Variable aléatoire On appelle ainsi une variable X qui peut prendre des valeurs XI des probabilités PI Pi Pn (symbole v.a.). Xi Xn avec . Cas discret -cas continu : Une v.a. est dite discrete lorsqu'elle ne peut prendre qu'un nombre dénombrable (fini ou infini) de valeurs. Une v.a. est dite continue lorsqu'elle peut prendre n'importe quelle valeur dans un intervalle fini ou indéfini. Pour Ia v .a. continue, on définit Ia probabi1ité élémentaire : probabilité pour que X soit compris entre x et x + dx, que 1'on note f(x) dx. f(x) est appelée densité de probabilité. La probabi1ité pour que x soit compris dans l'intervalle (Xl' x2) est donnée par J x, f(x) dx. x. Pour que f(x) représente vraiment une densité de probabi1ité, il faut que Ia valeur de 1'intégrale étendue à tout l'intervalle des variations possibles de x soit égale à 1. Nous supposeronsdans ce qui suit que la v.a. peut prendre toutes les valeurs possibles de -00 à+ 00, sans considérer ce fait comme une condition restrictive. Moments D) On appelle moment d'ordre k la valeur de l'intégrale ,.-1-m Xk f(x) dx (I) ..., En particulier, le moment de premier ordre (k = 1) s'appelle Ia moyenne, on Ie note x ou ml' On appelle moment centré d'ordre k Ia vaIeur de I'intégraIe : 4+~ (x -X)k f(x) dx. (2) -- EQparticulier, le moment centré de second ordre (k = 2) s'appelle lavariance, on le note IJ.2ou O"x2.Sa racine carrée est l'écart-type O"x.On appelle écart réduit, ou parfois variable x-x réduite de Gauss. Ia v.a -, -O"x Signalons enfin l'existence des parametres statistiques suivants STATISTTQUE -La médiane Xm définie ET CALCUL DES PROBABILTTÉS _~f(x) xm dx = EN HYDROLOGIE 19 par f f + ~ f(x) dx (3) x", -Le mode ou valeur Ia plus fréquente corr;:spond au maximum On I'obtient donc en faisant df(x} de Ia densité de probabiIité. = 0. dx -La moyenne harmonique X h définie par f Xh--I I -La moyenne géométrique Xg définie +- x !(X) (4) par log E) dx x f(x} dx (5) Fréquence -Échantillonnage On dit qu'un événement est favorable lorsqu'il répond à l'attente que l'on s'était fixée, arbitrairement ou non, avant l'épreuve. Par exemple, dans le jeu de pile ou face on peut décider avant la partie que pile sera l'événement favorable. Dans une analyse des débits d'une riviere, si on s'intéresse aux débits supérieurs à 1000 m3/s, tout débit répondant à cette condition sera .un événement favorable. Si l'on dispose d'un échantillon de N événements, obtenus soit par des épreuves répétées, soit par l'ob3ervation à intervalle,s de temps réguliers d'un phénomene naturel, il peut contenir n événem~ntsfavorables, c'est-à-dire coIncidant avec l'événement attendu. Par exemple, sur un échantillon de 30 débits moyens annuels, on en trouve 5 supérieursà 1 000 m3/s. 1 . 1 F = N' n ...1 On appe le fréquence, ou fréquence expénmentale, e rapport SOlt lC16. Supposons maintenant que nous ayons un autre échantillon de 30 débits observés à Ia mêm~ station : on dit, en statistique, tiré de Ia même population. On trouvera pour 1 000 m3/s une fréquence expérimentale probablement différente. I1 en sera de même pour d'autres échantillons. La fréquence ainsi définie est donc égalementune variable aléatoire : sa Ioi de probabilité est dite loi d'échantillonnage. On .montre (théoreme de Bernouilly ou Ioi des grands nombres) que la fréquence calculée sur un échantillon tend vers Ia probabilité Iorsque N augmente indéfiniment (convergence dans Ie sens des probabilités). Dans Ie cascontinu, nous calculerons soit Ia fréquence de non dépassement(n correspondant au numéro de classementdes valeurs contenues dans I 'échantillon par ordre croissant), soit Ia fréquence de dépassement(n : numéro de classement par ordre décroissant). La premiere est notée Fx 'ou F(x) : elle correspond pour la population infinie à Ia probabilité de non dépassement f~~f(x) dx. La secondeest notée F1(x) : elle correspond à Ia probabilité de dépasse- ment r~ ~ f(x) dx. On désignesouvent, dans Ia pratique ciescalcuIs, Ies probabilités elles-mêmes 20 HYDROLOOm DE SURFACE par les symboles F(x) et F1(x) .que l'on appelle alors fréquencesthéoriques; F(x) est également désignésousle nom de fonction de répartition. On remarquera que la somme des fréquences F et Fl ainsi calculées est supérieure à 1, ce qui est illogique. Soit 10 valeurs, pour fixer les idées, classéespar ordre décroissant. La fréquence expérimenta1ede dépassementattribuée au nO 3 est ~ .Dans le classementinverse, 8 Ia fréquence de non dépassementest íõ et la fréquence de 1'événement : Ia valeur en question Fig 1 -Fonction de répartition est dépassée,égalée ou non dépasséese trouve égale à 1,1 alors que, manifestement, elle doit être égale à l'unité. Nous ne nous étendrons pas sur ce point; signalons seulement qu'on n-.: peut Iever cette anomalie soit en adoptant pour Ia fréquence expérimentaIe Ia valeur avec Ia formule de définition ~ N et en . soit en calculant les deux fréquences ainsi que nous l'avons admis, soit en prenant N~ F et 2 N traçant des courbes en marches d'escalier. 2. PROPOSITIONS ESSENTIEI..I.ES nu CALCUL nES PROBABILITÉS A) Probabilités totales Si plusieurs événements s'excluent mutue1lement, la probabilité pour que l'un ou l'autre de ces événementsse produise est égale à la somme des probabilités relatives à chacun d'eux (opération d'union sur des ensembles di~iflint,,) STATISnQUB ET CALCUL DES PROBABILrrÉs B) Probabilités EN HYDROLOGIE 21 composées La probabilité pour que deux événements a et b soient réalisés simultanément est égale à la probabilité del'un d'eux multipliée par la probabilité de l'autre, sachant que le premier est réalisé. On écrit : Pr Ca.b) = Pr (a).Pr (6) (b/a) Le 2e facteur du second membre s'énonce elliptiquement : probabilité de b sachant que a ; on l'appelle probabilité conditionnelle. La proposition s'étend au cas "de plusieurs événements. Evenement E 1 ""' Êvênement E 2 / 1..- Opération Opération union ; 1(somme point delogique) I'ensemble d'intersection :1 point (produit Fig 2 .l 'Evenement vu sous est dans E1 ou dans - de I'ensemble est dans E2 E1 ~ E2 logique) I' angle de Ia Théorie des ensembles On dit que les événementsa et b sont indépendants si la probabilité de b n 'est pas influencée parceIledeac'est-à-diresi Pr (b/a) = Pr b. On a alors : Pr (a.b) = Pr (a).Pr (b). Le théoreme des probabilités composées demande à être appliqué avec discernement : si son application form~IIe est toujours correcte, un opérateur insuffisamment averti peut lui faire introduire des conditions restrictives que lui-même n'a jamais envisagées.Prenons le cas de la synthese d'une crue à partir d'une précipitation donnée; nous supposeronsque l'opération de synthese, l'hydrogramme unitaire type du bassin étant connu, est entierement déterminée par la hauteur de précipitation H cetpar les conditions préalab~esde saturation définies par exemple par Ia capacité apparente moyenne d'absorption Cam. Si H1oreprésenteune aversedécennale,comme dans1'étude descrues on s'intéresseaux probabilités de dépassem(nt,1'événementcorrespondant est H> H1o : sa probabilité est égale à 1/10 (rapportée à l'année). A l'aide de cette pluie, on fait la synthesede l'hydrogramme pour une valrur médiane de Cam : probabilité 1/2. On sait que Cam et H sont pratiquement des v.a. indép::ndantes; l'opérateur applique Ie théoreme des probabilités composéeset annonce fierement que l'on doit attribuer à la cl"Uetrouvée la probabilité 1/20. Or, ce résultat est faux. En effet, il existe des crues de même importance fournies par des pluies supérieuresà H]o et Cam inférieures à la valeur médiane et invers(ment. En réalité, le résultat dépend de Ia maniere dont les deux variables élémentaires se composent nmlr rlnnnPT1:1v:1rj:1hlprP.~lllt:1ntp(jl'i 1:1~nIP) C:ennint ~eTHnrécisé nHTIa suite. 22 HYDROLOGIE C) Loi à deux variables Nous ne nous occuperons DE SURFACE -Dépendance que du cas continu, stochastique seul.intéressant en climatologie et en hydrologie. Considérons deux v.a. X et Y suivant, chacune pour son propre compte, des lois de probabilité définies par des densités de probabilité f(x) et g(y) .f(x) dx est Ia probabilité pour que x < X < x + dx et g(y) dy Ia probabilité pour que y < Y < y + dy. La probabilité d'avoir simultanément x < X < x + dx et y < Y < y + dy est définie par une probabilité élémentaire p(x, y) dx dy, p(x, y) étant appelée densité de probabilité pour Ia loi du couple (x, y). Les lois y / 1.I I! I :. -: :::. ..:::. ~ I.I II 1f- Masse p(x, y) dx dy (probabilité élémentaire du couple) :- ..:: . y L-d';-:: Loi de ---I! , -loi conditionnelle (de Y sachant que X) Courbe de densité de probabilité 1--III I.I IIi -Loi 'íi marginale de X I. lI ,.:)y x Fig 3 -Loi à 2 variables définies par f(x) et g(y) sont dites lois marginales du couple. On montre que la condition nécessaire et suffisante pour que x et y soient indépendantesest que : p(x, y) = f(x) g(y) (7) produit d'une fonction de x seul par une fonction de y seul. S'il n'en est pas ainsi, on dit qu'il y a dépendancestochastique. La force de cette dépendance, ou liaison, peut être mesuréepar le coefficient de corrélation : r= ! !(x-X)(y-y)p(x,y)dxdy (8) O"x O"y dans lequel figure au numérateur la covariance de x et de y (x et 1 : valeurs moyennes de x et de y) et au dénominateur le produit des écarts-types de x et de y. Ce coefficient peut varier en valeur absolue de O, pour des variables indépendantes, à 1 pour des variables liées par une relation fonctionnelle. Les valeurs positives correspondent à des covariations de même sens et les valeurs négatives à ces covariations de sens contraire. Lorsqu'il y a dépendance. stochastique(r significativement différent de zéro), Ia loi de probabilité de l'une des variables, sachant que l'autre a une valeur donnée, dépend de la valeur de cette autre variable : c'est la loi de probabilité liée. Exemple Fy(x) : probabilité inté- STATISTIQUE ET CALCUL DES PROBABILITÉS EN HYDROLOGIE 23 grale de x liée par y; iIlui correspond une densité de probabilité liée fy(x) différente de Ia densité marginalef(x). On définit de même une moyenne conditionnelle : ,,+~ x,,= -\"fy(x) (9) dy J-~ qui est une fonction de y. La courbe qui représente cette fonction est appelée courbe de régressiún dex liée par y. I\ existeévidemment une régression dey liée par x. La notion de corrélation sera précisée ultérieurement. x Fig 4 -Courbes 3. de régression LOIS DE PROBABn..ITÉ A UNE V ARIABLE D'apres la définition axiomatique de la probabilité (répartition d'une masseunité sur un ensemble de points, fini ou infini, discrft ou continu), toute fonction monotone croissante variant de Oà 1 pour les limites assignéesà Ia variable peut être considéréecomme représentant une loi de probabilité : une telle fonction est dite fonction de répartition et nous avons vu que dans le cas continu, si Ia dérivée existe en chaque point, la fonction dérivée est appelée densifé de pr()babilifé. En fait, dans l'application, la notion de probabilité est plus ou moins liée à celle de tirage au sort et les lois qui prétendent rendre compte de l'observation ou de l'expérimentation ne sont pas construites n 'importe comment. Le tirage au sort le plus simple se rapporte au jeu de pile ou face dans lequel on considere une variable aléatoire pouvant prendre les valeurs O ou 1 avec la même probabilité 1/2. Toutes les autres lois de probabilités se déduisent de ce modele tressimple en le compliquant progressivement : -Par généralisation (ex. : de pile ou face à variables de Bernouilly en remplaçant .lesprobabilités 1/2, 1/2 par p et q); -Par addition (loi binomiale : somme de variables de Bernouilly); -Par passageà la limite (convergenceen loi); -Par changements de variables. Il n'est pas dans notre propos d'énumérer ne fut-ce que les .Iois les plus usuelles, mais seulement celles qui seront utilisées dans cet ouvrage. 24 HYDROLOOm A) Loi de Gauss DE SURFACE ou loi normale On peut i 'introduire comme ioi limite de Ia loi binomale pour un nombre infini d 'épreuves. Elle est de ia forme : -!. e 2 FiQ 5 -Loi x étant lamoyenne (~ )2 " dx de Gauss (Variable de moyenne nulle e! d'écar!- de lav.a., x etO'son écart-type, ~ (10) !ype 1) désigne donc l'écart d'une valeur O' x à la moyenne, mesuré en écart-type. On l'appelle écart réduit ou variable normale réduite. Par la suite, "nous utiliserons généralement la loi de Gauss sous sa forme réduite, avec les notations : l F(x) = ~ f _lu' " e -~ du avec x-x u=-- (11) 0" Les valeurs de F (x) ~ont fournies par la table de l'intégrale de Gauss, en fonction de l'écart-réduit u (tableau I). STAT.IST.IQUE ET CALCUL DES PROBAB.IL.ITÉS TABLEAU Valeurs de /'intégrale (Probabilités o 2 pour 25 HYDROLOG.IE I de Gauss pour u > que u soit supérieur 1 EN 4 O ou égal à...) 11 8 0,0 0,1 0,2 0,3 0,4 48803 44828 40905 37070 33360 48405 44433 40517 36693 32997 48006 44038 40129 36317 32636 46812 42858 38974 35197 31561 0,5 0,6 0,7 0,8 0,9 29806 26435 23270 20327 17619 29460 26109 22965 20045 17361 29116 25785 22663 19766 17106 28096 24825 2l770 18943 16354 1,0 1,1 1,2 1,3 1,4 15151 12924 10935 91759 76359 14917 12714 10749 90123 74934 14686 l2507 10565 88508 73529 14007 11900 10027 83793 69437 1,5 1,6 1,7 1,8 1,9 63Q{)8 51551 41815 33625 26803 61780 50503 40930 32884 26190 60571 49471 40059 32157 25588 57053 46479 37538 30054 23852 2,0 2,1 2,2 2,3 2,4 21178 16586 12874 99031 75494 20675 16177 12545 96419 73436 20182 15778 12224 93867 71428 18763 14629 11304 86563 65691 2,5 2,6 2,7 2,8 2,9 57Q31 42692 31667 23274 16948 55426 41453 30720 22557 16411 53861 40246 29798 21860 15889 49400 36811 27179 19884 14412 3,0 31. 3:2 3,3 3,4 12228 87403 61895 43423 30179 11829 84474 59765 41889 .29086 11442 81635 57703 40406 28029 10350 73638 51904 36243 25071 3,5 3,6 3,7 3,8 3,9 20778 14171 95740 64072 42473 20006 13632 92010 61517 4()741 19262 131l2 88417 59059 39076 l7l80 11662 78414 52228 34458 4,0 4,1 4,2 4,3 4,4 27888 18138 11685 74555 47117 26726 17365 11176 71241 449'79 25609 16624 10689 68069 42935 22518 14575 93447 59340 37322 4,5 4,6 4,7 4,8 4.9 29492 18283 11226 68267 41115 28127 17420 10686 64920 39061 26823 16597 10171 61731 37107 23249 14344 87648 53043 .31792 9 26 HYDROLOGIE DE SURFACE La loi de Gauss offre une répartition symétrique de part et d.autre de la moyenne, qui est en même temps la médiane et le mode. Son emploi est tres répandu en hydrologie et en climatoIogie pour représenter Ia répartition statistique de valeurs moyennes (par exémple : pluíes annuelles ou débits moyens annueIs). Cette propriété de Ia Ioi de Gauss n'est pas fortuite; eIle découle du THÉOREME CENTRALLIMITEdont I'application est si importante pour I.hydrologue et que nous énoncerons : Si Zn est une combinaison Iinéaire de n v .a. Xj indépendantes,queIle que soit la Ioi suivie par chacun desX.la loi derépartitionde Zntend vers uneloinormalelorsque n augmenteindéfiniment. LOI DE GAL TON On peut généra1iserIa loi de Gauss et Ia rendre dissymétrique, par des changementsde variable appropriés. Le plus connu de ces changements de variable consiste à prendre comme variable gaussiennele logarithme ou une fonction linéaire du logarithme de Ia variable étudiée. On obtient ainsi la loi de Galton, dite aussi loi de Gibrat-Gauss. On la présente traditionnellement sous la forme f ~ z e-z' dz (12) ~ -~ avec z = a log (x -Xo) + b Ceci ne va pas sans quelque inconvénient car les tables de l'intégrale écrite ci-dessussont de moins en moins usitées. I1 faut multiplier Ia variable z par v2 avant de l'introduire dans les tables a.ctuel1ementclassiques. Nous préférons donc adopter une représentation de Ia forme : 1 ." e --- u. 2 du (13) ~J~~ avec u = a log (x Xo) + b Nous avons introduit pour certains besoins un changement de variable tout à fait analogue mais comportant un parametre de moins. Dans cette loi, le logarithme népérien de Ia variable : log x, suit une loi de Gauss. On Ia note : f ..1 .-2 1./y-y Y ) e -2\0;~ dy (14) ~~ y = Log x avec R) Loi exponentielle La fonction de répartition est de ia forme F(x) = Cette loi est parfois utilisée en hydrologie F(x) = 1- e-PX (15) avec adjonction d 'un parametre supplémentaire : e-p(x -x.) (16) 27 STATISnQUE ET CALCUL DES PROBABILITÉS EN HYDROLOGIE c'est ]a loi dite de Fiiller-Coutagne. On Ia donne engénéral sous la forme : x(T) = xJ1 + (31ogT) (17) T étant la période de retour (inverse de la fréquence). Avec ces notations, la densité de probabi]ité s'écrit : 1 f(x) = ~ e~ 1 ( X-XI -x;:- ) (M = 0,434...) (18) M[3x, Loi de Goodrich C) C'est une généralisation de la loi de Filller par introduction d'un parametre suppIémentaire, on Ia présente souvent sous Ia forme : x(T) = x1[l + ~ (Iog T)"] T étant Ia période de retour (19) = F. La fonction de répartition correspondante est donc -2.3026 F(x) et Ia densité de probabiIité pfUt = s'écrire, fn posant ) ;; ~1 (20) x.B e 1 I ( A = 2,3026(xl ~)- I ;; I f(x) 1 = -A(x n D) ~ --A(x xJn -xJn (21) e Loi de Gumbel Elle a été créée pour l'étude de Ia distribution des fréquences de valeurs extrêmes (maximums ou minimums annuelspar exemple)..On considere que sur les N' observations d 'une donnée météorologique ou hydrologiquc que comporte une année, N peuvent être considérées comme indépendantes.Si l'on désignepar h(x) le nombre moyen annuel de valeurs journalieres supérieures à x, Ia probabilité pour que toutes les valeurs journalieres soient inférieures à x. c.est-à-dire pour que le maximum annuel soit ínférieur à x. est égal, d'apres le théoreme des probabilités composées, à: 1 -~ N l L N N étant assezgrand, on peut écrire avec une bonne approximation Gumbel pose en outre h(x) .= e-- y et y = a(x -xo). P = exp [- h{x)J D'ou Ia fonction de répartition (avec nos notationshabituelles) : F(x) = exp [et ia densité de probabiiité e- a(x-x.)] (22) : f(x) = ae- a(x -x,) exp [- e- a(x -Xo)] (23) HYDROLOGIE E) Loi de DE SURFACE Jenkinson La loi de Gumbel représente souvent assezmalla distribution des valeurs extrêmes. Elle a été assouplie par Jenkinson. avec introduction d'un parametre supplémentaire. Cet auteur propose de prendre x = Xo + a(l -ekJ'). y est liée à la fréquence de dépassement par la relationy =-LogLog ~ (T étant la période de retour = ~). La fonction de répar- tition (fréquence de non dépassement)est alors de la forme : F" = e -(1-~)k avec une densité de probabilité I -9)k fx = (25) ~ ( 1 ak Elle définit 3 types de fonctions suivant le signe de k (ak devant être toujours > O) k > o <=> type I a > o x varie de -00 à a + Xo (borne supérieure) dy/dx est croissant : Ia courbe y(x) asa concavité tournée vers le haut k-*° dy/dx -+ type II 1 ~' y(x) est une droite : on retombe sur Ia Ioi de GumbeI k <O <=> x varie ,de a + Xo à 1+ 00 (borne inférieure) dy/dx y(x) est décroissant : Ia courbe asa F) 0<0 . concavité Lois de tournée vers Ie bas. Pearson On appelle intégrale eulérienne de secondeespece,oufonctipn gamma la fonction de a ,,00 -x e qui répond à Ia reIation fondamentaIe r(a) ~i n p~t ,,~trpint " Âtr~ Im a-l X dx : = (a-i) nomhre entier r(a (m. I) on voit aisément Que r(n) = (n 1) ! ~ STATISnQUE ET CALCUL dy -=y dx DES PROBABILITÉS EN HYDROLOGm 29 x +d ax2+hx+c La loí III de Pearson, t.res ut.ílísée en hydrologie, F(x)= m I: Ia :pour fonct.íon de répart.it.íon p-QX dx xY (29) ou r (y) est la fonction eulériel1ne de seconde espece. 1 En!posant ax = 1', on a dx = y -dy, , x = d'Euler F ) . d x . I evJent (1 incomplete , r y(y) dy = fM y y-l v F(x) r y(y) est l'intégrale ( -et a (:fo) et le rapport I (Y,y 1)=~ r(y) est donné par les ta.bles de Pearson, moyennant du reste un changement de variable (voir référence en fin de chapitre). La loi V de Pearson est parfois utilisée en hydrologie. C'est égalementune loi r. La densj.té de probabilité est de Ia forme : f(x) G) = a-r ~ r(y) Lois 'Y-l e x 1"."\ de Halphen Ce sont des"généralisations des lois de Pearson étudiées spécialementpour rendre compte de Ia rcpartition statistique des débits de rivieres. On distingue deux types : tlX-- typ::A f(x) = Ke f(x) = Ke XI type B T+13x b X y-l x (33) (34) Les calculs relatifs à ces lois sont particulierement I.aborieux et il ne semble pas qu'elles aicnt bcaucoup retenu l'attention des praticiens de l'hydrologie. HYDROLOGIE 30 H) Lois DE SURFACE tronquées Supposonsqu'une variable aléatoire prenne avec une probabilité F(a) la valeur constante a et que le reste du temps elle obéisseà une loi de distribution <D(x).On peut supposer également que l'on ne s'intéressepas aux valeurs inférieures à a. <D(x)est la fonction de répartition d'une loi tronquée et l'on a: (35) F(x) est Ia fonction de répartition pour toutes Ies vaIeurs possibIes de Ia variable. On a: F(x) = F(a) + [1 -F(a)] 4. MÉTHODE clI(x) D'ESTlMATION (36) DES PARAMETRES DANS LES LOIS A UNE V ARIABLE Il n'est pas dans notre intention de traiter, même sommairement, le probleme général de l'estimation. Nous nous contenterons d'exposer trois recettes couramment utilisées par les statisticiens pour l'estimation des parametres, puis de donner le détail des calculs pour quelques lois classiques afin d'entrainer le lecteur à l'application de ces méthodes. A) Méthode du maximum de vraisemblance Supposons qu 'un échantillon, tiré d 'un~ population-mere représentant la totalité des valeurs d'une variable aléatoire X, comporte N valeurs Xi pouvant se produire chacune avec probabilité P,. La probabilité pour qu'un échantillon de N valeurs obtenues par tirages indépendants soit précisément l'échantillon obtenu, est : Pl X Ps XPN On appelle cette probabilité )lraisemblancede l' échantillon. La méthode du maximum de vraisemblance consiste à déterminer les parametres de la loi choisie de façon à rendre l'échantillon le plus )lraisemblablepossible. Si la v .a. est continue, chacun des termes ci-dessus, et à priori le produit lui-même, sont infiniment petits. On définit alors la vraisemblance de l'échantillon comme une quantité proportionnelle au produit des densités de probabilités, c'est-à-dire à: 9 = h.f2 avec et ...j~ prob (X < XI) = J:oof(XI, li = I(xi, a, h, (37) a, b, ...k) dx k) Xi étant une valeur queIconque de I 'échantillon, a; h, ...k les parametres de Ia loi de probabilité STATISnQUE ET CALCUL DES PROBABILITÉS EN HYDROLOGIE 31 dont les valeurs sont inconnues. Le but cherché est de maximiser ./l" donc d'annuler les dérivées partielles par t:apport aux différents parametres, ce qui donne un systeme de k équations : õg õa II est souvent plus simple (38) ~=o ~k ~ d'écrire et le sys- 7\n teme ci-dessuspeut être remplacé par *!.~=o LJi ()Q 1 (39) *~.~=o L., r, ;)k Dans la pratiquedes calculs, on prend les dérivées partielles de Lf x par rapport à chacun des parametres, puis on fait les sommations que l'onannu1e. Cette méthode fournit toujours une estimation correcte des parametres, mais il peut exister, pour un probleme déterminé, une estimation mei11eure,c'est-à-dire mettant en jeu des caractéristiques t.iréesde l'échantillon moins dispersées.Nous n'insisterons pas. D'autre part, la résolution du systeme d'équations auquel on about.it peut poser de sérieusesdifficultés. R) Estimation des parametres par le calcul des moments Nous avons donné précédemment Ia définition d'un certain nombre de moments à partir des Iois théoriques. Par exemple, Ie moment de niêmeordre : ,.+~ xn f(x} dx -~ est évidemmentunefonctiondesparametres a; b ...k. Si I'on parvient à résoudre l'intégraIe précédente, on aura donc une reIation entre Ies parametres. Pour avoir un systemepermettant de caIcuIer Ies parametres, i.l faudra déterminer autant de reIations qu'iI y a de parametres, c'est-à-dire caIcuIer à partir de Ia loi théorique a~tant de moments qu'iI y a de parametres. li faudra d'autre part que ces moinents puissent ~tre estimés à partir de I'échantiIIon. On peut montrer, en se Iimitant aux trois premiers moments, que I'on obtient des estimations absoIument correctes(convergenceforte) à partir des formules suivantes : Moyenne Variance estlm..-l~ X = -""' Xi (40) N estim. ~ = ;:T -}:;(Xi 1 X)2 (41) HYDROLOGm 32 DE SURFACE Moment centré de troisieme ordre estiro. [J.a = ~ (N N 1) (N -2) y\3 ~(XI (42) Certaines lois peuverit se mieux prêter au calcul théorique avec d 'autres estimateurs, tels que la moyenne géométrique ou la moyenne harmonique. Mais l'estimation de ces caractéristiques à partir de l'échantillon souleve parfois des difficultés, notamment pour la moyenne géométrique lorsque certaines valeurs expérimentales sont inférieures à l'unité ou que le classementest fait par groupement dans des intervalles de classedonnés. Il faut enfin noter que la recherche du meilleur estimateur, c'est-à-dire présentant la plus faible dispersion d'échantillonnage, est un travail délicat demandant l'intervention d'un statisticien averti. Faute de mieux, on se contentera donc des indications ci-dessus, d'autant plus que le gain de confiance par 1'estimation la plus correcte est souvent iaible. C) Ajustement graphique des fonctions de répartition évidemment); a et b se calculent alors d'apres la droite obtenue. C'est le cas également de certaines lois tronquées pour lesquelles F(a) est mal estimée à partir de l'échanti1lon lui-même. On la considere alors comme un simple parametre d'ajustement. Si l'on prend par exemple la loi tronquée : US -F(O) <II(x) =~ 1- =-F(õ)=~ 1 . f e-2 du (43) u = Logx-Logx O"Logx on calcule d'apres l'échantillon des valeurs de F(x); en se donnant une valeur de F(O), on calcule les valeurs correspondantes de cII(x) que l'on porte en abscisses gaussiques sur un graphique, les valeurs de Log x étant portées en ordorinées. L 'ajustement de Fo consiste à "Vi"' faire varier les valeurs de ce parametre de façon à aligner les points expérimentaux. STATISTIQUE ET CALCUL D) DES PROBABILITÉS Le test EN HYDROLOGIE do X2 Quelquesdéfinitions : Nombre de degrésde liberté. On app~1leainsi le nombre de parametres que l'on peut fixer librement dans le phénomene étudié. Si l'échanti1lon de N valeurs a été divisé en k classes,on peut choisir arbitrairement le nombre d'observations ni que l'on mettra dans chacune des classes, mais, k- 1 classes étant choisies, la k iemeest fixée par la condition };::nl= N. Il y a donc k- 1 degrés de fiberté dans l'opération de cloisonnement. Si, par ai1leurs,la loi comporte p parametre estimés à partir des donnéesexpérimentales,on ap nouve1lesliaisons entre les ni, et le nombre de degrés de liberté est en définitive égal à k -1 -p. . Définition du X2. L 'échanti1lonétant divisé en un certain nombre 1(de classes,si ni est le nombre de valeurs expérimentalescontenues dans la classe i et vlle nombre de valeurs qui, sur un échanti1lon de grandeur N, est affecté par la loi théorique proposée à la classei, le X2est défini par la relation : k (44) x.2=2~ 1 Vi pour le phénomeneétudié. Le processusdu calcul est le suivant : -Les N donnéesexpérimentales étant classéespar ordre croissant ou décroissant, on les divise en k classesde façon que chacune des classescontienne au minimum 5 données expérimentales. La classei est bornée par les valeurs XI-I, XI choisies arbitrairement. -On compte le nombre de points nl contenu dans chacune des classes. -On calcule, à partir de la loi théorique choisie, les valeurs théoriques VI. Si f(x) est la densité de probabilité correspondant à la loi théorique, on a: "x v/=N f(x) dx (45) -On fait pour chaque classe Ia différence ni -Ví, on l'éleve au carré et on divise le résultat par Vi. La somme des k quantités ainsi obtenues donne la valeur du X2. -On calcule le nombre de degrés de liberté égal à k- 1- p et ondétermine, d'apres les tables,Ia probabilité de dépassementcorrespondante. -L 'interprétation des résu1tatsest une question d'appréciation. En premiere analyse, on peut admettre avec Ia plupart des statisticiens que : -Si la probabilité trouvée est supérieure à 5 %, l'ajustement est satisfaisant. -Si elle est inférieure à 1 %, la loi choisie doit être rejetée. 34 HYDROLOGIE DE SURFACE -Si elle est comprise entre 1 et S %, on ne peut pas conclure. Il faut poursuivre les observations. Il peut être parfois intéressant d'ajuster les parametres d'une loi en minimisant le X2,ce qui a pour avantage de fournir directement un contrôle de l'ajustement. On notera toutefois que les calculs sont en général assezlaborieux. On trouvera ci-dessousune table des valeurs du X2(Tableau II). TABLEAU Table de distribution Valeurs Lorsque v> II de x.2 (Loi de x.2 ayant Ia probabilité de K. Pearson) P d'être 30 on peut admettre que Ia quantité viii dépassées -v2V=1 ~uit Ia Ioi normale réduite 35 STATISnQUE ET CALCUL DES PROBABILITÉS EN HYDROLOGIE E) Exemples d'application pour quelqueslois classiques a) LOI DE GAUSS L' estimation desparametres est particulierement simple puisque 1'un d ' eux est la moyenne, l'autre l'écart-type. Nous avons vu que la moyenne s'exprime correctement à partir des données /'1 /'1 de l'échantillon par x = N ~Xi et que l'écart-type est donné par (j2 = ~ ~(Xi -X)2. Lorsque les calculs se font à la machine, il est plus commode de mettre cette expression sous la forme: ;;-2= ~ [ ~ Xi2-N -fi:] (le signe /'- est souvent utilisé pour désigner une valeur estiméed'apres un échantillon par opposition aux valeurs vraies inconnues (j et x). Certaines machines de bureau, relativement peu onéreuses, telles que la Trétactys (Olivetti) permettent de faire simultanément ~Xi2 et ~Xi en introduisant une seu1e fois chacun des Xi. h) LOI DE GALTON Nous avons vu que cette loi est susceptible d'un ajustement graphique. li est toutefois possible d'en déterminer les parametres, soit par le maximum de vraisemblance, soit par le calcul des moments. Ajusfemenf par [e calcul des momenfs. La fonction de répartition est f 1 F(x) = ~ z e -~ 1. -i% z = alQg (x -Xo) avec x = d'ou Xo + eA(z-b) dz + b .en posant A= ~ ~ a La loi comportant 3 parametres, commode de calculer d'abord il est nécessaire de faire intervenir les intégrales suivantes : I -1 f +~ _!Zl 0-- 2 V2; dz =1 _~e dz = eA(~-b) 1 -+ ~ 4 2A(z-b) e --z e 2A(A-b) '1 2 dz =e -~ 12=~ 1 13 = . ~f- + ~ 3A(z-b) e --z' e 2 3A(~-b dz =e ) 3 moments. 11 est 36 HYDROLOGIE DE SURFACE Moyenne 1 x= J ~-"-~ ' - ":;T~ } e --z'21 A<Z-b) Xo [ -00 -A dz -Xo +e Jo + II = XII + e (A--h 2 ) (51 Variance 0"2 = -+- mJ moment de second ordre) (m2 A<Z-b)] 2 e I. -z 2 Xo+ e d'ou (12 Moment X2 + XO2 + 2xo e = centré de troisieme (Ja = -xa dz = X20JO+ 2xuIl + !2 (52) 2A(A-h\ A(~-b) +e (53) ordre -JX0"2 + ma moment (ma de troisieme ordre) 1 A(Z-b) m 3 = ] 3 --z' Xo + e e dz = xo3Io + 3XO2Il+ 3xoI2 + Ia 2 (54) On trouve en définitive (x (.La = 3(i XO)3 Xo) 0"2+ e 3A(~A-b ) (,,"\ Le systeme qui permettra d.évaluer les parametres à partir des 3 premiers moments estimés d.apres l.échantillon est donc le suivant (on a supprimé les signes distinctifs des valeurs estimées pour ne pas alourdir l.écriture) : A' --Ab 2 2A' ~A. 2 ~ e =x -2Ab e -xD = (x = (x XO)2 + 0"2 XO)3 + 3(x (57) Xo) 0"2 + !la (58) En éliminant successivementA et b entre ceséquations, on trouve une équation en Xoseul 0"4 -(X ~ -0-1 -XO)3 + 3(x -XO)2 que l'on peut résoudre en Xo soit graphiquement, soit par approximations Xo étant ainsi estimé, on peut évaluer A et b par les relations : A2 = Log [ 1 + et ou h= 1,1513 -a n .517 a= log (x successives. xn) (61) STATISnQUE ET CALCUL DES PROBABILlTÉS EN HYDROLOGIE Ajustement par le maximum de vraisemblance. Avec les notations précédentes, Ia densité de probabiIité [ f(x) ] ~ e 2 à x peut s'écrire ]1 1 .1 ---L(x-X.) ] rapportée + b A (62) ~.Ã:<;;=-;;-;) d'ou L v]:-;; A L/= L(x On dérive cette expression par rapport systerne résolutif Xo) [ 1 ---L(x 2 1 (63) A à A, b et xo' on som me et on annule; d'ou le : A2N -Ab~L(Xi XO) + NAb = O ~L(XiA2~-3- + Xo) = o -xo) _}:::L2(Xi- 1 . Ab~ + ~L(XI-X ) 0=0 x/-xo XI-Xo x/-xo Les deux premieres équations permettent d'obtenir A2 et Ab en fonction de Xo.Les valeurs, reportées dans la troisieme équation, donnent une relation ou seul figure Xo; nous l'écrivons ci-dessous en revenant auk ]ogarithmes décimaux : La détermination de Xo est assez laborieuse. Il faut tracer la courbe tp(xo) dont 1'intersection avec l'abcisse donne la valeur cherchée. Xo étant connu, A et b se calculent aisément avec les formules déduites des deux premieres équations A2 = ~L2(Xi -xJ N ou, en rappelant que A= du systeme : ~2L(Xi -Xo) N2 (68) 2,30259 a (69) et (70) 3R HYDROLOGIE c) LOI EXPONENTIELLE DE SURFACE OU LOI DE Nous avons vu que Ia densité de probabilité 1 f(x) (~ -~ = e M~ peut s'écrire ) XI FULLER-COUTAGNE (XI < X<+ : (X) M(j XI On calcule três facilement les deux prerniers moments x = xl(l + O,434~) (71) 0"2 = (0,434(3xJ2 (72) d'ou estimation des parametres "' --::- "' 1 (73) X)2 xl=x-a=-Lxt N (3' = ~1 d) LOI DE -, a (74) GOODRICH Elle est définie par une densité de probabilité 1 - -I .J f(x) -A(x-xJn e xJ" =-A(x n Nous ferons l'estimation (XI < X < + CX) ) des parametres par l'intermédiaire des 3 premiers moments Moyenne 1 j -T -~oo -A(x-x,)n A x-(x x= (15) dx e xJn X, 1 L'intégration s'etfectue en faisant .X u =A(x-xJn, = -(.l: n d'ou : (76) 1 --I X,)n A du x= de variable = (i)n+"Xl , et le changement (77) dx ._~ [ (~) n+ x]] e-u du= XnJI"+ un e-" du + XI I: p-udu I: (78) L 'intégra.le du second terme est égale à 1'unité. On reconnait dans celle du premier terme l'intégrale eu.lérienne de seconde espece : r(n + 1). La moyenne est donc égale à: -1= X -(n An r + I) XI (79) 1Q STATISTIQUE ET CALCUL DES PROBABILITÉS EN HYDROLOGm Variance 0'2=~_X2 ar (80) Moment de troisieme ordre ma=f:~ En développant [{i)"+Xl)3e-udU le terme au cube et en intég~ant, on obtient 1 ma =Ã3ii r(3n x + 1) + 3 ~ et Ie moment centré correspondant r(2n X2 + 1) + 3fn r(n : + 1) +x13 (82) est donné par Ia reIation !la = ma -3X0'2 + ;X;3 En combinant et en simplifiant les trois équations précédentes, on obtient le systeme 1 + Aií r I = O (XI -X) -(X l -X)2 -1 + ~ (XI -X)3 r 1 = r(n + I) ou + 1 -r A2n 2 = a2 r 3 = I; + 3a2(XI-X) r, = r(2n + I) et r. = r(3n + I) Les deux premieres équations permettent d'exprimer A et XI en fonction de n seul. En reportant les valeurs trouvées dans Ia 3e équation, on trouve l'équation en n seul : ~ cst le coefficient (J d'assymétrie de Pear~on. On voit que, pour Ia loi de Goodrich, il ne dépend que de n. ~ peut (J être estimé à partir des données expérimentales, au moyen des formules précé- demment citées. La méthode de résolution consiste à tracer Ia courbe cp(n),ce qui peut être fait une fois pour toutes. On peut également établir une tabulation sommaire qui permettra de circonvenir le champ des approximations successives: une tel1e table est donnée ci-apres (tableau III). 40 HYDROLOGrn DE SURFACE TABLEAU III Loi de Goodrich r 18 ~-3r : cp(n) ra - [ 2 (ri-r1) de Ia fonction ri i _1 TabIe sommaire rl = r(n + I) avec r. = r(2n + I) r. = r(3n + I) L 'interpolation linéaire donne des valeurs exactes jusqu 'à Ia troisiême décimale. Les deux autres parametres se calculent facilement au moyen des relations -r1(j -.XI =x ,,/f'AA= e) DE On a vu que Ia densité de probabiIité f(x} L 'intervalle Application de variation (87) I [r;=r;ai LOI f'.1 -2ii GUMBEL s'exprime par : = ae--a(x-x,> e-e-a(x-x.>. est ~), du maximum de vraisemblance. On a: L/(x) = La a(x -Xo) -e-a(x-x.> d'ou f'Q(x) f(x) Le systeme résolutif est donc le suivant N --~(XI-XJ a + : (xi-xo) e-a(Xf-X,> = O ST A TJSnQUE ET CALCUL DES N -}:; PROBABJLJTÉS e-a(xl-x.)= EN HYDROLOGIE 41 O ou eaxo x + N },:: Xi e-ax. - = O a eOXo ~ e-ax, N La seconde équatÍon donne eOX. et Ia premiete peut (O,) e-ox, s'écrire ~ XI ~ On a d'autre 1 ---}:; N e-ax. e-ax. y + part axo = LN-L~ et on obtient en définitive e le systeme : ~ XI e-aXf x L e-ax. -L Xo = 1 -}:; N (98) e-ax, a (99) La premiere relation est une équation implicite en a qui ne peut être résolue que par approximations successives.Les calculs sont Iongs du fait que I'on doit reprendre, à chaque tentative, tous Ies termes des sommations. C'est pourquoi nous préfererons Ia méthode suivante, baséesur Ie calcuI des deux premiers moments : eIle présente de tels avantages de simplicité qu'on Iui sacrifiera volontiers Ia rigueur un peu plus grande de Ia méthode du maximum de vraisernhlance. E.\'fimation par Te caTcuT des moments. Movenne ,.+~ x= x ae-a(x-x,) -a(x-x,) e -e dx -~ posons u e-a(x-x.) L 'intervalle de variation devient (+ 00, O). On a 1 dx =--du "" (101) 42 HYDROLOGIE x=d'ou f DE SURFACE ~+~ o ( xo ~ LU) e-udu = Xo .+~ e-udu a Jo +~ ,,+~ or ~+~ e-u du = Lue-udu et o est Ia constante On a donc d'EuIer Lu e-u du o dont une vaIeur approchée est 0,577. : x = x + 0,571 0- a Variance tl2 = m2 I:: m12=-x2+ X2 ae-a(X-X,) e-e -a(x-x.) dx En utiIisant Ie même changement de variable que pour le calcul de Ia moyenne, on obtient +~ (LU)2 e-u f1.2=0"2=~[J+~ Lu e-u du ) du O .fo et 1 O,780a (1= On p~ut donc estimer tres simplement les parametres au moyen des deux premiers moments d'apres te systeme : Xo=X-~ a (108) : = 0,7800" a Notons enfin que Xo est Ie mode de Ia Ioi de áumbeI. i) LOI DE RappeIons que Ia densité de probabiIité PEARSON III est de Ia forme nY f(x) Ona = ~e-ax r(y) xy-l . Le caIcuI des parametres se fait tres aisément par Ia méthode du maximum de vraisemblance. : ax d'ou + (r 1) + Lx .[i=I f h x I) Lx (109) (110) (111) STATISTIQUE BT CALCUL DES PROBABILITÉS BN 43 HYDROLOGIE \j!(y1) est Ia dérivée logarithmique de r(y). C'est ul1e fol1ction classique, tabulée. Les tables dol1nent en généralles valeurs de \j! pour y compris entre 1 et 2. Le calcul pour les autres valeurs se fait au moyen de Ia formule de récurrence 1 IjI(X On obtient +n) donc =1jI(X).+~ 1 1 : + +~ +X+2+~ x+] (112) x+n le systeme -La + lJi(y-1) = ~Lxt (113) N r -)::Xj a-N=x d'ou l'équation -La ou = r..x-Ly en y cp(y) = Iog y -0,4343 ljI(y- I) = Iog x - ~ log XI N TABLEAU et Ia vaIeur Loi de Pearson de a : Tabie I a= ~ Le tabIeau IV (116) IV donne une tabuIation sommaire Ia fonction {p(y). de de ia fonction : 'f!(Y) = Log y -0,4343 tjI(y -I) 44 HYDROLOGIE F) DE SURFACE La confiance statistique Nous ayons YU qu'il existe des méthodes permettant de tester si telle hypothese sur Ia distribution statistiq~e d'une Y. a. peut être retenue ayec une probabilité raisonnable d'être exacte. On se gardera bien de dire qlle, si le test est fayorable, I'hypothese est confirmée, ce qui impliquerait 'qu'elle est Ia seule possible au YU de l'échantillon analysé. Eh fait, nombreux sont les cas ou plusieurs distributions théoriques peuyent raisonnablement s'appliquer à un même échantillon; le bon sens yeut alors que les différentes hypotheses enyisagéesconduisent à des courbes yoisines. Une loi de distribution théorique, ou hypothese, dépend, nous l'ayons YU, d'un certain nombre de parametres et nous ayons indiqué le moyen d'estimer ces parametres à partir des données expérimentales. Le probleme qui se pose maintenant est de déterminer dans quelle m~sure les yaleurs trouyées peuyent yarier suivant 1'échantillon utilisé. autrement dit, d 'étudier pour chaque parametre sa loi de distribution d'échantillonnage. Prenons comme exemple une Y. a. gaussienne : sa loi de distribution est eritierement déterminée par Ia moyenne x et l'écart-type O'x.Mais ce que nous connaissonsde ces deux parametres se limite à des estimations faites à partir d 'un certain échantillon comportant n yaleurs de la Y. a. que l'on note nm_"et ).-Sn. Si l'on ayait opéré sur un autre échanti1l0n de même dimension, tiré de la même population-mere (par exemple deux périodes consécutiyes d'observations de débits de 25 annéeschacune), on aurait eu toutes les chances du monde de trouyer comme estimations de x et de O'des yaleurs différentes. On yoit donc sedessinerde nouyelles lois statistiques intéressant non plus la distribution de la Y. a. x, mais sa moyenne x ou son écart-type O'xpour un grand nombre d'échantillons comportant chacun n yaleurs de x. L 'étude théorique de distributions d'échantillonnage sort du cadre de cet exposé; dans le cas de la loi normale, disons seulement q1ie nmx se comporte comme une Y. a. normale de moyenne x et d'écart-type O'x . .O'x ~, et que '.Sx SUlt é ga1ement une 101 normale de moyenne O'xet d'écart-type --=. Ces vn ' V2n résultats ne sont du reste yalables que si les conditions du théoreme central limite sont respectées; il faut en particulier que n soit grand. D'une façon générale, que Ia loi de x soit normale ou non, un moment empirique mk d'ordre k, estimation d'un moment théorique fl.k, est distribué normalement ayec une moyenne 1 fl.k et une yariance -[(l2k n -fl.k2], pour autant que les conditions du théoreme central limite sont respectées. On peut également déterminer la covariance de deux moments empiriques d'ordres différents par la formule : 1 cov (mk, mh) = : (fLh+ k fLh fLk] (117) Si enfin le parametre qui nous intéressen'est pas un moment, mais une fonction de plusieurs moments, par ex:,:mpleÀ(!1.k,!1.h)estimé par l(mk, mh), on peut ayoir une yaleur approchée de sa yariance en écriyant : var I = (-var"I ) "mk 2 mk + ( ) "I 2 -var "mh "I mh + 2- "I .- "mk cov "mh (mk, mh) (118) On est donc ramené, si on possedeun échantilIon de taille suffisante, à étudier Ia variation d'une v.a. normaIe, c'est-à-dire Ia marge d'incertitude que I'on peut s'attendre à trouver. STATISTIQUE ET CALCUL DES PROBABILITÉS EN 45 HYDROLOGIE autour de Ia valeur centrale déterminée empiriquement, avec une probabilité donnée. C'est là qu'intervient Ia notion de seuil de confiance et d'intervalle de confiance. Supposons que I'opérateur ne veuille pas prendre un risque supérieur à une probabilité de 5 % d'avoir, pour Ie parametre étudié, une valeur théorique située en dehors de I 'intervalle de variation qu 'iI va Iui assigner.En fonction de Ia moyenne empirique du parametre et de son écart-type d'échantiIlonnage estimé colnme il est dit plus haut, iI va construire une variabIe réduite de Gauss Puis iI déterminera, au moyen de ia table de I 'intégrale de Gauss, Ia valeur absolue de ia variable. réduite qui a une probabilité 0,025 d'être dépassée.Ceci Iui donne deux vaIeurs du parametre, symétriques par rapport à Ia valeur moyenne, entre Iesquelles ii y a 95 % de chances que se trouve Ia valeur théorique. L 'intervalle séparant Ies deux vaIeurs extrêmes est dit : infervalfe de confianceà 95 %. 5. RETOUR Loi A) de SUR LA NOnON Gauss à deux DE RÉGRESSION variables -Régression linéaire Soit deux v. a. norma.les x et y de moyennes x et y, d'écarts-types O'x et O'yet p .leur coefficient de corré.lation. On montre que Ia loi du couple (x, y) est définie par .la densité de probabilité : f(x, y) = ~:a-:v I. =exp\ p2 2(1 [ -<X 1 -p2) On en déduit Ia distribution [ (v if- 2. ] ~(119) y- -p ia moyenn~ )i) ax a... 1 2(1 est associée .x)(y. de y Iié par x fx(Y) = à laquelle -2p O'x' I (x X)2 -p2) a; ':;}12 ~ (120) conditionnelle I Yx O"y =y p -(x - (121) -x) O"x On détermine de même Ia moyenne conditionneIle x'y de x lié par y ji) (122) Les deux courbes d.estimation de y par x et.de x par Y. ou courbes de régression, sont donc des droites. On notera qu'elles se coupent au point (x = x, y = y).et different par leurs coefficients angulaires. Une telle régression est dite finéaire et p est un coefficient de corréfation linéaire. Il est aisé de voir Que dans un plan (x, y) probabilisé suivant cette loi, c'est-à-dire dont 46 HYDROLOGIE DE SURFACE chaque surface élémentaire dx dy est affectée d'un poids f(x, y)dx dy, les courbes d'égales densités de probabilité sont des ellipses d'équation : 1 2ií=PiJ<X 2XY+Y1I)= Log [27t O'xO'y V y-y ou O"x p2 D] (123) , D : densité de"probabilité. a" Fig 6 -Allure des éllipses d'égale densilé de probabililé (0,01) dans Ia 10i de Gauss à deux dimensions pour différenles valeurs du coefficienl de corrélalion (x = V= o, O"x= O"y) La considération d 'une loi de Gauss à deux yariables permet de résoudre au mieux le probleme suiyant, d'application fréquente en h):'drologie et en climatologie : Soit une yariable y dont on possedek observations (par exemple débit moyen annuel à une station observée depuis k années) et une variable x dont on posseden > k observations (par exemple n annéesd'observations du débit moyen annuel à une autre station de la même riviere ou d'un bassin voisin). On suppose qu'il existe une certaine cQrrélation entre xet y et on s'intéresse à la moyenne de y. Cette moyenne peut être estimée à partir des k valeurs fournies par l'observation directe (kmy). Est-il possible d'améliorer cette estimation par la connaissancedes n-k va1eursobservées pour x? Si oui, quelle valeur convient-il d'adopter comme moyenne de y, de préférence à kmy? Désignons par : x y Ia moyenne de x ; Ia moyenne de y; (jx I'écart-type de x; (jy I'écart-type de y; pIe coefficient de corréIation entre x et v. STATISTIQUE ET CALCUL DES PROBABILITÉS EN HYDROLOGIE 47 Les valeurs empiriques de ces parametres, calculés d'apres l'échantillon sont, en désignant par i une des k observations communes à x et à y et par j une des n -k observations supplémentaires effectuées sur x : 1 Xk =k k ~Xi Xn = ~ (~ Xi + ~I XJ)= ~ 6, x Vk = 1 k (125) k (126) Ly Xk)2 2 nS x = 1 ~ - -L, (x . n i+J ) 2 (128) Xn k kS2y = ~ L (Yi (129) Yk)2 I k 1 ~ krxy = k L, (Xi - -Xk) Yk) (Y/ kSY kSx 1 On constitue alors un échantillon comportant k valeurs de y et n valeurs de x, on détermine sa densité de probabilité et on lui applique la méthode du maximum de vraisemblance. Ceci permet d'évaluer les valeurs les plus probables des parametres statistiques précédents, soit : -" x =x" (12x = "s2x ce qui est normal pour les parametres ne dépendent que de x, puisque c'est pour cette variable que la période d'observation est la plus longue : on n'a donc rien à attendre des observations faites sur v. Par contre : "' Y = Yk kSy krrv ( - (111) xJ -Xk kS", â2" = kS2" 2 kr xy kSy ~ 2 ( 2 kSx nSx2) kSx --;:; = r' " kSy O'x krxy-~, kSx rr" (133) Il s'agit maintenant de savoir si ces nouvelles estimations de y et de (Jy améliorent Ia connaissancede cesDarametresDar raDDort aux estimations par Yk et kSv.Pour ce faire, iI faut 48 HYDROLOGIE étudier les lois de distribution DE SURFACE des estimations y etâ2y. Le probleme a été traité par R. VÉRON ( Direction des Études et Recherches d' É/ectricité "' "' moyenne de y = E(y) = y - var (j,) = E(j; ) 2 (12 y de France -Hydr%gie) .On trouve : (134) I =~J p2) 1.- ) (135) \ 2 moyenne 0"2y = E(0"\) = ~ ~ k k (comprise var ;;:2 = E y (â2 y -a2 ) y I entre k-l -0"2y ct k 0"2y) 4 =a -L [ A' In2 + B' ( 1 kl p2) + C'(1 p2)21 avec k C' = k(n k) ~ (k 2) (n k +4) 4 3 [4k + (n k. 2k. k(n k + 2) (k-6) <k=3)---rk=55 k) (k 2)] + (k-8) (138) Pour l'étude de la moyenne, y, on dispose de deux estimateurs Yk et Y. Le probleme de savoir si la prise en com1Jtedesn -k observations supplémentairesde x améliore la connaissance "' de y se ramene à l'étude de l'efficacité relative deyk et de -:ydéfiniepar E= ~, soit, d'apres .var Yk les calculs effectuésci-dessus : E= + (1 ~) n [ 1- (k-2) k-3 e~ ] 2 a y " Pour que Ia moyenne Yk' dériyée de k' ob3eryations ait une yariance éga1eà 0,415 -, 11 10 2 2 faudrait que ~ = 0,415 ~ d'ou k' = 24,1. Autrement dit, la prise en compte des 40 yaleurs de x permet de déterminer y ayec Ia même précision que si l'on ayait eu 24 yaleurs de cette yariable obseryéesdirectement au lieu de 10. L 'interyalle de confiance à 95% s'en trouye notab1ement resserré. Pour Ia yariance, Ia comparaison en efficacité des estimateurs~2y et kS2yest plus difficile du fait des distorsions qu'ils comportent et à cause de Ia complexité de l'expression de Ia yariance aléatoire de~y2. On se contentera en général de conserver l'estimation non biaisée : k -"1 kS2y,sauf si O"\ se trouyait être supérieur à cette expression. Cette erreur systématiQue ~ ~ STAnSnQUE 49 ET CALCUL DES PROBABILlTÉS EN HYDROLOGIE sur l'estimation de Ia variance -;:2yest due à Ia méthode même d'extrapolation : en remplaçant les n- k valeurs non observéesde y par des expressionstirées de l'équation de régression en x de y, on i~troduit en fait des moyennes conditionnel1esqui, étant des moyennes, sont à priori moins disperséesque les valeurs naturel1es.Il est donc normal que, si la véritable structure de l'échantillon le plus grand est Ia même que celle de l'échantil1on restreint, on arrive pour 1'écart-type à une valeur plus faible. E) Régression quelconque à deux ou plusieurs variables Xl' X2' ...Xn étant des variables indépendantes, on peut envisager entre ces variables et une variable Y, une relation stochastique que l'on écrira Y = F(Xl' X2' ...Xn). Cette relation ne sera pas exacte, c'est-à-dire que pour Xl' Xn données, une valeur expérimentale Yi de Y sera différente de la valeur F(X1, ...Xn) fournie par l'expression analytique ou par la courbe traduisant la relation. Les causesdes écarts entre valeurs calculées et valeurs observéespeuvent être de natures diverses : -erreurs de mesures(systématiquesou fortuites). On s'efforcera de corriger les prernieres lors de l'étude critique. Les secondesse répartissent en général assezbien suivant une loi de Gauss; non intégration de tous Ies facteurs conditionneIs s'iI s'agit d'une forme F anaIytique, imperfection de Y dans Ia forme F(Xl de Ia représentation . Xn) adoptée. a) Méthode des moindres carrés. Cette méthode est théoriquement Ia meilleure Iorsqu'on peut affirmer queles écarts aléatoires despoints empiriques à Ia courbe moyenne suivent une Ioi de Gauss. En fait, on I'utilise généralementcomme donnant une bonne approximation sans se préoccuper de Ia Ioi de distribution des écarts. Elle consiste à rendre minimale Ia somme des carrés des différences entre va1eursempiriques et valeurs théoriques. EIle supposeque I'on connait Ia forme analytique de Ia relation 1iant Ia variable étudiée y aux variables indépendantes Xl' ...Xn. Si I'on croit pouvoir exprimer une grandeur physique Y en fonction d'autres grandeurs X1.,X2, ...Xn par une relation : Y = F(X1, X2' ...Xn; ~, C2' Ck) C1' C2' ...Ck, étant des parametres d'ajustement, dimensionneIs ou non, le maximum de vraisemblancesera obtenu si, en posant e:i = Yi -Fi,les dérivées de ~e:i2par rapport aux différents parametres son( toutes nulles. On obtient en. définitive un systeme de Ic équations à k inconnues permettant de calculer Ies valeurs de ~, ...Ck. y i désignantIe chiffre trouvé pour une valeur quelconque:deY, Xli' ...X2;, Xni les valeurs correspondantestrouvées pour les facteurs conditionneIs, on ale systeme : =o ~Ci ~113~e:i2 1[1 "F/ .~Y/~=~F/~ "F/ 50 HYDROLOGm DE SURFACE les sommes s'étendant à l'ensemble des valeurs expérimentales trouvées pour chacun des Y, Xl' X2' ...Xn etj variant de 1 à.k. (142)représente doncunsystemedekéquations àkinconnues permettant en principe de calcu1er ~, C2' ...Ck. Appliquons Ia formule (142) à un cas tres simple : relation linéaire à une variable : V=aX+h On a immédiatement ~(aXI }::;x,y }:;y/ d'ou, N étant le nombre + h) XI = }:;(aXl + h) (144) de couples (Xi, Y;) : a = N~XiYI. N~XI2 -~Xi~Yi (145) -(~Xi)2 b = ~Xi2~yiN}::Xf ~Xi~XiY, -(~X;)2 Dans le cas général d'une relation polynôrnale de d(gré n, à un stul fact(ur conditionn{} on peut écrire : + kx" v=a+bx+cx2+ (147) et les coefficients sont donnés par le systemelinéaire Na + (~Xi) b (~Xj2) C a + (~Xj2) b (~Xj3) C (~Xi2) a + (~Xj3) b (~Xi) [(~Xjn) a + (~Xjn+l) (~X;4) C b + (~Xjn+2) + (~Xjn) k = ~yj + + (~X,n+l) k =~Xjyj + (~Xin+2)k = ~Xj2yi + -1- C + (~Xj2n)k = ~Xjnyj L 'expression analytique est donc fort sirnple, mais Ies calcuIs nurnériques dcvienn(nt vite irnpraticables Iorsque n croit. On ne peut pra.tiquern(nt dépasserIe 4e d(gré (n calculant à Ia rnain sur une rnachine électrique d 'usagecourant. Au-delà, iI faut faire appel à Ia mécanographie. Au cours de nos travaux, nous rencontrerons bien d'autr(s foIrnes analytiques dont Ia résolution aIgébrique est tres cornpliquée, parfois rnêrneirnpossible. On peut alors toujours s'(n tirer par une rnéthode d'approxirnations, parfois Iongue à appliquer, mais toujours sirnple. Reprenons en effet I'expression générale (140) : Y = F(X1, X2' , Xn, C1, Ck) -On se donne une valeur pour chacun des coefficients C. -On calcule }::;e:i2= (Yi- F;)2 -En gardant C2. ...Ck constants. on fait vaI.ier ~. en calculant chaque fois: le }:e:i2 correspondant. -On porte sur un graphique }:;e:i2en fonction 'de C1, et en déterrnine le minimurn auquel correspond une valeur de ~ que I.on adopte provisoirement. -On fait la même chose pour, C2. C/I. Puis on revient à C1. ...jusqu .à ce que les valeurs trouvées pour les }:;e:i2soient pratiquernent constantes. STATISTIQUE ET CALCUL DES PROBABILlTÉS EN HYDROLOGIE 51 Pourvu que la fonction soit continue, les valeurs de ~ Ei2 convergent nécessairementvers une limite inférieure. Même pour des cas parfaitement solubles algébriquement, il peut être avantageux de procéder ainsi. Si 1;:systemerésolutif seprésentesousforme de deux équations implicites à deux inconnues, on utilisera une méthode graphique. b) Méthodes des déviotion.'i résiduelles. Considéronsune variable Y dépendant de n variables Xl' ...Xn. On supposera,ce qui est souvent réalisé en pratiqu~, que l'on peut classer les X par ordre d'importance, c'est-à-dire suivant leur influence plus ou moins grande sur la variable dépendante Y, et que cet ordre correspond précisément aux indices 1, 2, ...n. Pour simplifier les écritures, nous supposeronsque Y dépend de 3 variables seulement. On peut exprimer Y par Xi, facteur conditionnel le plus important, au moyen d'une relation : y = f(XJ f}.1 y Ll1 Y représente l'écart résiduel subsistant apres l'ajustement graphique d'une courbe Y = f(XJ, fait à partir d~ n couples observés (Yi, X1;). Comme on sait qu'il existe d'autres facteurs conditionn~ls de la grandeur physique Y, il est raisonnable supposer qu'une partie au moins deLl1 est due à l'influence de X2 et Xs' et d'écrire : ~1 y = f(X2) Ll2Y !(Xa) Ll2Y + ÂY D'apre31'hypothese de départ, l'écart résiduel ~y ne peut être imputé à l'existence d'un autre facteur conditionnel. Il provient donc, soit d'un mauvais tracé de Ia premiere courbe. y = f(XJ soit d'erreurs de mesures à caractere aléatoire, soit de facteurs conditionnels non envisag~3;il est po3sible d~ remédier à Ia premiere de ces causes de dispersion en retouchant Ia courbe y = f(XJ, puis ~1y = f(X2) etc. On se contente en général' de deux approximations. En pratique, on opere de Ia façon suivante : Premiere approximation On porte sur un graphique tous les couples (Yi, X1Í) : Yen ordonnées et X1 en absciss(s. Une courbe est adaptée graphiquement au nuage de points : c'est Ia courbe de premiere approximation représentant Y = f(XJ. Pour chaque point d .observation on observe une déviation ~1Í Y = Y i -f(X1Í) qui est reportée en ordonnées sur une autre graphique d 'abscissesX2. On ajuste graphiquement une courb~ au nouveau nuage obtenu et on note Ies nouvelles déviations Ll2i Y qui font I.objet d'un troisieme graphi:Jue d.abscisses~. On obtient alors Ies déviations ~Y. Deuxie111e approxi111afion : Les déviations L\iY du troisieme graphique sont considérées comme provenant en grande partie d'un ajustement déficient de Ia courb~ Y =f(XJ t.racéeen premiere app..oximation. On porte donc pour chaque point, dans un plan (Y, XJ, les déviations L\i Y à i)artir de Ia premiere courb~ Y = f(XJ. Une nouve1lecourbe Y = f(XJ est.alors ajustée gra"hiquement au nouveau nuage de points ainsi obtenu. Les déviations résidue1lesobservéesservent à corriger Ia Ire courb~ L\l Y = f(X2), etc. 52 HYDROLOGIE DE SURFACB Finalement, Ia grandeur physique Y est estimée par la relation Y = r(xJ + f' (X2) + f' (X3) les valeurs des différçntes fonctions F étant prises sur les graphiques correspondant respectivement aux variables indépendantes Xl' X2 et X3. On notera que l'app1ication de cette méthode n'exige aucune hypothese sur la forme analytique de la régression. Elle:est de ce fait beaucoup plus générale que Ia méthode des moindres carrés. Il existe d'autres méthodes pour l'étude des corrélations multiples; citons en particu1ier la méthode coaxiale, purement graphique. Lorsque les régressions sont linéaires, par exemp.le dans .le cas de distributions marginales gaussiennes,on a parfois intérêt à calculer directement les parametres de ces régressions, surtout si l'on s'intéresse à l'intensité des liaisons. 6. NOTIONS D'ÉCHANTILLONNAGE AV HASARD L 'échantillonnage au hasard est en quelque sorte l'opération inverse de l'analyse statistique. Il consiste à construire un échantillon dont la structure correspond à une loi de probabilité donnée. C'est une technique parfois utilisée dans les applications de l'hydrologie, notamment pour rendre compte de l'exploitation d'un aménagement au cours d'une période de durée nettement supérieure à celle des observations. Pour la mettre en pratique, on peut procéder par tirages au sort sur un échantillon type constitué à partir de la loi théorique proposée. On préfere en général utiliser les tables de nombres au hasard, établies d'apres des techniques fort difiêrentes suivant les auteurs. Ces tables fournissent des collections de nombres dont la structure statistique correspond à une distribution uniforme, c'est-à-dire à une densité de probabilité constante, pour une v .a. variant. de O à 1: les chiffres consignés dans les tables .représentent donc des décimales de la v .a. et on en retient le nombre suffisant à la précision désirée. L'utilisation des tables de nombre~ au hasard fait appel à Ia notion d'anamorphose : transformation d 'une loi de répartition F(x) en une autre loi quelconque G(x) par un changement de variable approprié. Dans le cas qui nous intéresse l'anamorphose est rectangulaire, c'est-àdire que l'on prend pour variable auxiliaire (à introduire dans les tables), y = F(x); on vérifie aisément que y varie bien de O à 1 avec une densité de probabilité constante. La constitution d 'un échantillon au hasard est donc tres simple. On se fixe arbitrairement un point de départ sur la table et on lit les chiffres en suivant dans un ordre quelconque. Si on désire, par exemple, retenir 4 décimales,qn découpe dans la suite obtenue des groupes de 4 chiffres. Pour chaque nombre y ainsi obtenu, on détermine la valeur de x d 'apres la relation y = F(x). Bibliographie EZEK{EL Mordxai. KENDALL M.G. -Methods -The MORICE E. et CHARTIER N"tinn"l.. P"ri~ advenced of Correlation theory F. -Méthode and Regression of statistics. statistique. -Ch. Analysis. Griffin. Publication -Londres. -Londres. de l'I.N.S.E.E. -Imprimerie STATISTIQUE ET CALCUL DES PROBABILlTÉS EN HYDROLOGIE 53 BARLOW.-Tables des carrés, cubes,racines carrées, racines cubiques et inverses de tous les nombresentiersde 1jusqu'à10 000. -Librairie Polytechnique Ch. Béranger, Paris et Liege. BOLL Marcel. -Tables numériquesuniverselles.-Dunod, Paris. On y trouvera notamment des tables assezcompletes concemant la fonction r et sa dérivée logarithmique, les logarithmes naturels, etc. Centre de formation aux applications industrielles de la statistique. -Tables statistiques. Institut de statistique de l'Université de Paris. Donnent, sous une forme condensée,dans un manuel particulierement. maniable, Ia plupart des tables correspondant aux fonctions de répartition usuelles et aux tests les plus courants. FlSCHERand Y ATES.-Statistical Tables for biological agricultural and medical research.Oliver and Boyd, Londres. Cestables comportent entre autres une série importante de nombres au hasard. HAYASHIKeiichi. -Fiinfstellige Tafeln der Kreis-und Hyperbelfunktionen. -Walter de Gruyter & Co, Berlin. Tres utiles pour les fonctions exponentielles. PEARSON K. -Tables of the incomplete r function. University Press, Carnbridge. Indispensablespour l'application de la loi III dePearson.