Distributions de fréquences et méthodes statistiques

publicité
Distributions de fréquences et méthodes statistiques
dernière mise à jour le 4 octobre 2011
ce document accompagne la présentation WEB :
http ://engees.unistra.fr/~tlevian/rnt/freqhydro.htm
et est de ce fait non illustré. Dans la version html, les liens dans la marge
pointent sur des diapositives de la présentation.
Pour revenir d'une diapo vers ce texte, faire selon navigateur une ou deux fois
page précédente.
L'ensemble des présentations du cours, avec un tableau récapitulatif et une aide à la
navigation est sur :
http ://engees.unistra.fr/~tlevian/rnt
Pourquoi une approche statistique ?
Une approche statistique permet d'abord de formaliser la perception intuitive
d'une relation entre l'intensité ou la gravité d'un phénomène et sa rareté. Au
delà de l'aspect descriptif, elle se justie dans un contexte d'aide à la décision.
Elle permet de développer un raisonnement économique pour optimiser en avenir incertain, mais probabilisé. Plus souvent et plus simplement, elle permet de
choisir de protéger des biens ou des personnes jusqu'à un degré choisi d'intensité et de rareté. Cette utilisation, ne recherchant pas d'optimum économique,
est néanmoins rationnelle dans son principe de traiter de façon homogène des
situations similaires, traduit donc un principe d'équité.
Un abrégé de statistique
Les probabilités s'introduisent tout naturellement dans une problématique sur
les aléas et les risques, dans leur approche classique ou elles sont dénies comme
des limites de fréquences. La statistique "inférentielle" (la présentation adoptée
est inspirée de [6] ) s'intéresse à l'estimation de probabilités à partir de fréquences observées. L'hypothèse fondamentale permettant des estimations d'aléas
futurs est que le passé est représentatif de l'avenir.
Il faut bien noter que probabilités et statistiques sont distinctes tout en étant
fortement liées : Les probabilités peuvent décrire des phénomènes aléatoires
expliqués par une théorie et ne faire appel aux statistiques que de façon très
marginale pour une validation expérimentale. La statistique a toujours besoin
de la théorie des probabilités en amont, pour asseoir des méthodes rigoureuses.
L'utilisateur de méthodes statistiques doit posséder un nombre relativement restreint de notions probabilistes :
•La probabilité d'un événement varie entre 0 (certitude de non réalisation) et 1
(certitude de réalisation) ; si P est la probabilité de réalisation d'un événement
1-P est la probabilité de non réalisation.
•La probabilité de réalisation jointe de deux événements indépendants est égale
au produit des probabilités.
•Une grandeur dont la valeur est soumise au hasard est dite variable aléatoire,
elle est généralement notée par une lettre majuscule. La distribution de probabilité qui décrit les caractéristiques d'une telle variable X, lorsqu'elle prend des
T Leviandier. Risques hydrologiques - master Géographie Environnementale
UDS - ENGEES
Pourquoi une
approche..
La statistique
valeurs ordonnées (réels), est généralement représentée par la probabilité que X
soit plus petit qu'une valeur (non aléatoire) x, et ceci pour tout x. On appelle
aussi cette distribution fonction de répartion, et sa valeur pour un x probabilité
de non dépassement de x.
•Une autre représentation est la densité de probabilité de x, probabilité que X
soit compris entre x et x+dx. La fonction de répartition est donc l'intégrale de
la densité et la densité la dérivée de la fonction de répartition. C'est souvent la
fonction de répartition qui a l'expression mathématique la plus simple.
•La densité de probabilité est une généralisation de l'histogramme dans le cas
valeurs discrètes.
•On a aussi besoin des probabilités conditionnelles (que l'on verra plus loin)
En hydrologie on exprime souvent la probabilité en période de retour. La correspondance est très facile pour un échantillon de valeurs annuelles (par exemple
des pluies journalières maximales annuelles) : de la probabilité de non dépassement F (par exemple 0,95) on passe à la probabilité de dépassement 1-F
(respectivement 0,05 ou 5%) c'est à dire la proportion de cas atteints ou dépas1
sés dans un échantillon, 1 − F = 20
que l'on exprime dans l'unité de temps de
1
référence (de prise d'échantillon) soit 1−F
=20 ans.
Cette formulation autorise une extension au traitement d'échantillons de "valeurs supérieures à un seuil" en nombre pouvant être diérent du nombre d'années, auquel cas une application de ces formules directement en années serait
erronée.
On verra plus loin deux notions à ne pas confondre :
•Les familles de lois disponibles et les "variables réduites", qui permettent de
représenter de nombreuses distributions par des droites ;
•Les méthodes d'ajustement, de validation et d'estimation d'incertitudes, de
l'"inférence statistique" (recherche de propriétés à partir d'un échantillon).
le tirage au hasard
Les problèmes simples de probabilités et statistiques présentent l'avantage de
pouvoir être étudiés expérimentalement par tirage au hasard (simulation de
MonteCarlo). Cette méthode ne constitue pas une démonstration mathématique mais donne des résultats "concrets" dont la précision numérique peut être
étudiée. Le point de départ est le tirage d'un nombre entre 0 et 1 qui peut être
assimilé à une probabilité. On obtient une valeur prise "au hasard" dans une
distribution donnée, en inversant la fonction de répartition.
Cette technique sera largement utilisée dans ce cours qui n'a pas de prétention
à démontrer des propriétés mathématiques. Elle est également très utilisée dans
la littérature et dans les études à visée opérationnelle.
En particulier, on simule des estimations répétitives avec la même méthode sur
des échantillons de taille réduite, pour en visualiser la variabilité d'échantillonnage, transcrite dans la distribution des valeurs estimées de paramètres ou dans
les intervalles de conance associés à des distributions.
Ajustement graphique
T Leviandier. Risques hydrologiques - master Géographie Environnementale
UDS - ENGEES
Période de retour
Un ajustement graphique seul peut sembler trop subjectif, mais il est important de complèter les ajustements numériques par une visualisation graphique,
faute quoi on peut accepter une loi que les plus fortes valeurs observées rendent
très suspecte. . Cette ajustement se résume à un ajustement de droite dans
le plan (variable réduite empirique, variable observée), dans le cas où la variable alátoire dans la famille de distributions considérée, s'exprime en fonction
d'une variable réduite et des paramètres de position et d'échelle. La variable
réduite empirique est une fonction de la fréquence empirique, obtenue en triant
les points par valeurs croissantes.
report
de
points expérimentaux
Les caractéristiques des estimateurs
Rappelons que dans une utilisation réelle les paramètres vrais ne sont jamais
connus, et que l'on en obtient que des estimations, au moyen de fonctions appelés
estimateurs utilisant des "statistiques" des observations. Par abus de langage,
les valeurs résultant de ces estimations sont appelées paramètres. Par ailleurs,
lorsqu'on étudie ou met au point une méthode d'estimation, on utilise les valeurs
supposées vraies.
Les qualités des estimateurs sont donc exprimées par des descriptions, elle même
statistiques, des erreurs qu'ils commettent, et en premier lieu par leur moyenne
(biais) et leur variance. La variance traduit la dispersion irréductible autour de
la valeur moyenne. Si la valeur moyenne n'est pas la valeur vraie, on s'intéresse
aussi à la dispersion par rapport à la valeur vraie que l'on appelle risque statistique.
Qualités d'un
est..
Les diérentes méthodes d'estimation peuvent donc être évaluées et parfois sont
conçues pour minimiser ces diérents termes. On peut noter que le risque statistique correspond à une sorte de coût pour l'utilisateur, et qu'il peut être
remplacé par des coûts plus dèles à la réalité économique. Un exemple est
donné sur un coût de stockage d'eau dépendant de deux variables aléatoires.
Cependant en général, on dissocie les deux étapes d'estimation statistique et de
prise de décision sur des critères économiques. Le critère économique garde un
aspect probabiliste (espérance de coût et bénéce), mais à paramètres connus.
deux autres outils statistiques, les tests et les intervalles de conance
Les ajustements statistiques sont presque toujours possibles, même sur des données qui ne satisfont pas du tout le modèle ajusté. Il est donc nécessaire d'avoir
des méthodes complémentaires questionnant la validité des hypothèses. On distingue les tests et les intervalles de conance. Il faut bien noter qu'on ne connaît
jamais le "vrai" modle, et qu'il est plus facile d'imaginer un modèle faux. Les
tests consistent en général à calculer la probabilité qu'un modèle plus simple
produise par hasard un échantillon comparable au données observées. Les intervalles de conance décrivent la dispersion des résultats possibles avec des
échantillons de même taille, si la population observée suit le modle estimé, sans
envisager qu'elle puisse suivre un autre modèle. Il n'est toutefois pas toujours
nécessaire qu'elle ait exactement les paramètres égaux aux paramètres estimés,
en particulier dans le cas de la loi normale.
T Leviandier. Risques hydrologiques - master Géographie Environnementale
UDS - ENGEES
tests
statistiques
Intervalles de
conance..
Exemple d'ajustement de lois sur les débits de la Meuse à Givet
On donne les résultats d'ajustement eectués sur diérentes périodes de 25
ans sur une même station. On retrouve une grande variabilité, donc une sousestimation de la crue centennale à partir de certaines périodes, alors même que
des tests statistiques pouvaient laisser croire à de bonnes prédictions.
La Meuse..
Théorie des valeurs extrêmes
Valeurs
A priori, toute fonction croissant de façon monotone entre 0 et 1 peut être prise trêmes
comme fonction de répartition d'une variable aléatoire. Des formulations mathématiques particulièrement remarquables et simples existent et sont largement
utilisées. Il n'y a aucune contrainte logique l'imposant pour toute distribution,
mais le simple fait de constituer une population statistique en prenant des valeurs maximales sur des sous-ensembles d'une population mère tend à forcer la
forme mathématique de la distribution des valeurs maximales (au sens d'une
limite mathématique).
C'est bien ce que l'on fait en climatologie et hydrologie, en prenant par exemple
les valeurs maximales annuelles, de pluies ou de débits.
La théorie mathématique qui explique ces propriétés dépasse les objectifs de
ce cours, mais les résultats sont assez simples, car cette théorie montre que
toutes les lois doivent tendre vers une famille de lois à 3 paramètres, décomposée en trois sous-familles selon que le paramètre dit "de forme" est positif,
nul ou négatif. Sans entrer dans les démonstrations mathématiques, (ouvrages
de références : [1] et [5]), on peut étudier par simulation la convergence vers
des lois apparemment similaires, des lois des populations obtenues en prenant
le maximum de n réalisations tirées dans des lois d'origine diverse. Le calcul
analytique de la densité de probabilité d'une telle variable s'obtient comme la
dérivée de la fonction de répartition, qui est elle même la fonction de répartition
de la variable d'origine, élevée à la puissance n. ³
´
1
Frechet exp (−x−α )
F (u) = exp −(1 + γ u)− γ
γ = α−1 > 0 et
Gumbel exp (−exp(−x))
F (u) = exp ³
(−exp(−u)) ´
−∞ < u < ∞
Weibull
exp (−(−x)−α )
1
F (u) = exp −(1 + γ u)− γ
γ = −α−1 < 0
la loi GEV (Généralisée des extrêmes)
On dit qu'une loi appartient au domaine d'attraction de Fréchet, Gumbel ou
Weibull, selon que la loi de la variable "maximum de n réalisations" tend vers
une loi de même nom. Le catalogue des lois appartenant à chacun de ces domaines se trouve dans la littérature spécialisée et n'est pas en soi d'une très
grande utilité en hydrologie, car on ne connaît généralement pas mieux la loi de
la variable origine. Ce cadre théorique permet cependant de comprendre que la
loi GEV est privilégiée dans la littérature, sans en justier une exclusivité.
Les inégalités du tableau précédent sont importantes, elle montrent que le domaine de Weibull correspond à des lois bornées par une valeur supérieure, alors
que l'on s'accorde plus souvent sur des variables non bornées.
La transposition entre distributions applicables à des échantillons de valeurs
T Leviandier. Risques hydrologiques - master Géographie Environnementale
UDS - ENGEES
et
ex-
u > − γ −1
u < − γ −1
maximales et distributions applicables à des échantillons de valeurs supérieures à un seuil
est utilisée depuis longtemps en hydrologie. La théorie est plus compliqu'ée mais
les formules encore plus simples puisqu'il y a une exponentiation de moins. La loi
1
GEV est remplacée par la loi de Pareto généralisée F (u) = 1 −(1+γ u)− γ et
la loi de Gumbel par la loi exponentielle F (u) = 1 − exp(−u) .
Par ailleurs, l'existence d'échantillons résultant du mélange de populations
distinctes, rend inopérant (du moins de façon simple) ce cadre théorique, ce qui
peut se produire dans des phénomènes climatiques et hydrologiques.
valeurs observées exceptionelles ou "horsain" (outliers)
Il arrive que la valeur maximale observée soient très sensiblement supérieure
aux autres. Coles et al 2003, [4] en donnent un exemple frappant au Venezuela :
la pluie maximale journalière observée en une station est de 160 mm environ
(lue sur graphique) entre 1951 et 1998. En 1999 une pluie de 410 mm est enregistrée, faisant des dégâts considérables et des milliers de victimes. Les auteurs
expliquent cet événement par l'interaction d'un front froid et d'un ux humide
provenant de l'Océan Pacique sur une durée anormalement longue. Les auteurs
parviennent à justier l'appartenance de cet événement à la même population
statistique avec une loi Gev très courbée. On est cependant clairement en limite
de méthode pour estimer une période de retour. Face à un tel cas, et après s'être
assuré de la validité de la donnée - qui n'est pas mise en doute sur l'exemple
précédent en raison de ses conséquences observées - il faut chercher des événements similaires, même moins intenses, dans la région.
Méthodes statistiques alternatives
Si le paradigme de la statistique classique (jeu de paramètres vrai unique mais
inconnu) est dominant et doit être connu, il faut quand même savoir qu'il existe
d'autres approches qui postulent au contraire une muliplicité de jeux de paramètres. Elles sont quelquefois utilisées pour des ajustements de distributions
de fréquences (Niggli et Musy, 2005 [8]), mais plus souvent dans d'autres types
d'estimations (de jeux de paramètres de modèles) qui peuvent aussi servir à des
estimations de crues. Pour une application aux risques, il reste important que
l'aléa soit bien quantié par une fréquence d'occurrence dans le futur, mais il
est dicile de ramener toutes les incertitudes à des distributions de fréquence.
Les méthodes bayésiennes
L'approche bayésienne consiste à raner progressivement une estimation en
fonction des nouvelles observations connues. Elle correspond à une démarche
intuitive tout à fait naturelle et utilise le formalisme des probabilités conditionnelles :
Prob( A et B ) = Prob( A ) Prob ( B | A)
dans lequel Prob(A) représente la probabilité de l'événement A estimé avant
d'avoir connaissance de l'événement B. La méthode a besoin pour commencer
T Leviandier. Risques hydrologiques - master Géographie Environnementale
UDS - ENGEES
Méthode non
(ou moins..)
d'une probabilité a priori. On peut prendre par exemple une estimation non calée sur le site particulier que l'on étudie, ou une loi de probabilité uniforme, avec
une borne supérieure très grande (ce qui simplie les calculs). L'eet du choix
initial tend à diminuer quand le nombre d'observations augmente. Toutefois, la
méthode est critiquée parce qu'elle ne converge pas toujours vers une solution
unique, en fonction du choix de la loi a priori.
Complément
La théorie de l'information
La théorie de l'information insiste plus que les autres théories sur la parcimonie des
paramètres. Elle présente l'intérêt de s'appliquer lorsque plusieurs modèles sont en
concurrence. Elle s'oppose (violemment) à la théorie classique en lui reprochant de
valider une hypothèse contre cette "hypothèse nulle" qui peut être totalement invraisemblable. Elle défend une vision diérente de l'utilisation des statistiques en Science :
la statistique n'a pas pour but de découvrir une vérité scientique mais de confronter
empiriquement des hypothèses scientiques.
La méthode GLUE
La méthode GLUE (Generalised Likelihood Unbiaised Estimation) [2] emprunte des
idées aux deux méthodes précédentes. La fonction de vraisemblance est prise comme
un critère de performance des modèles dont on ne voit plus très bien le lien avec
les probabilités. Plusieurs jeux de paramètres, ou plusieurs modèles sont considérés
comme admissibles, et la conance qu'on leur accorde dépend de leur succès sur les
événements observés. L'interprétation en terme de probabilités et donc de fréquences
pour l'avenir est assez délicate. Les intervalles de conance classiques sont remplacés
par des bornes d'incertitudes ou intervalles de crédibilité, qui ne traduisent pas une
variabilité d'échantillonnage, mais une incertitude globale.
Méthodes utilisant d'autres données
La limitation de la variabilité d'échantillonnage, et la contingence des données
disponibles conduit donc à utiliser d'autres méthodes faisant appel à d'autres
connaissances et données, sur les processus générateurs ou sur les cohérences
spatiales. La "prédétermination" des crues est un vaste sujet. On en pourra
consulter une revue bibliographique récente sur les méthodes (Hubert, 2004 [7])
et un examen des problèmes à l'échelle des régions françaises (Bravard , 2000
[3]). Ces méthodes font l'objet d'autres chapitres.
T Leviandier. Risques hydrologiques - master Géographie Environnementale
UDS - ENGEES
Bibliographie
[1] J. Beirlant, Y. Goegebeur, J. Segers, and J. Teugels. Statistics of Extremes.
Theory and Applications. Wiley, 2004.
[2] K. Beven and J. Freer. Equinality, data assimilation, and uncertainty estimation in mechanistic modelling of complex environmental systems using
the glue methodology. J. Hydrol., 249 :1129, 2001.
[3] J. P. Bravard. (sous la direction de)Les régions françaises face aux extrêmes
hydrologiques. Gestion des excès et de la pénurie. SDES, 2000.
[4] S. Coles, L. R. Perichi, and N. Sisson. A fully probabilistic approach to
extreme rainfall modelling. J. Hydrol., 273 :3550, 2003.
[5] P. Embrechts, C. Kluppelberg, and T. Mikosch. Modelling Extremal Events
for Insurance and Finance. Springer, 1999.
[6] Dominique Fourdrinier. Statistique inférentielle. Cours et exercices corrigés.
Dunod, 2002.
[7] P. Hubert. La prédétermination des crues. C.R. Géosciences, 377 :219227,
2005.
[8] M. Niggli and A. Musy. A bayesian combination of ood models : Principles
and application results. J. Hydrol., 77 :110127, 2005.
7
Téléchargement