Validation probabiliste d`un Syst`eme de Prévision d`Ensemble

publicité
Critères
Mesures
Comparaison
Conclusions
Validation probabiliste d’un Système
de Prévision d’Ensemble
Guillem Candille, janvier 2006
Système de Prévision d’Ensemble (EPS) (ECMWF Newsletter 90, 2001)
Critères
Mesures
Comparaison
Plan
1
Critères de validation probabiliste d’un système de prévision
d’ensemble (EPS)
2
Mesures probabilistes
3
Comparaison ”objective” de 2 EPS : méthodes bootstrap
4
Conclusions et perspectives
Conclusions
Critères
Mesures
Comparaison
Conclusions
Principes probabilistes de validation d’un EPS
”Oublier” les concepts de validation déterministe
• 1 prévision = distribution
de probabilités (PDF)
vs.
1 vérification = 1 valeur
numérique
Xo
Validation des EPS par accumulation statistique.
2 critères : la fiabilité et la résolution.
Critères
Mesures
Comparaison
Conclusions
Critère d’évaluation : Fiabilité
• Cohérence statistique entre les prévisions et les observations
correspondantes.
f est la PDF prévue.
f10 et f20 sont 2 distributions
de xo quand f est prévue.
L’EPS est parfaitement
fiable si et seulement si
f = f 0.
Xo
tout système peut être rendu
fiable par une calibration
statistique a posteriori.
• La fiabilité est un critère nécessaire mais non suffisant :
cf. e.g. un système climatologique.
Critères
Mesures
Comparaison
Conclusions
Critère d’évaluation : Résolution
• Capacité de séparer les prévisions menant à des distributions
d’observations correspondantes (DOC) bien distinctes.
système climatologique
système déterministe
X1
• Exemples DOC
allant d’une
résolution minimale
nulle pour le système
climatologique à une
résolution maximale
pour le système
déterministe.
X2
(la courbe rouge représente ici la distribution de toutes les observations :
distribution climatologique)
Critères
Mesures
Comparaison
Conclusions
Critères probabilististes : résumé
La fiabilité et la résolution sont 2 propriétés qui déterminent la
qualité et l’utilité d’un système de prévision probabiliste.
Un EPS doit être capable de séparer a priori les prévisions en
classes suffisamment variées afin que les observations
correspondantes représentent des situations bien distinctes.
Critères
Mesures
Comparaison
Conclusions
Continuous Ranked Probability Score (CRPS)
• Le CRPS mesure la qualité globale d’un EPS :
Z
2
CRPS = E
(Fp (ξ) − H(ξ − xo )) dξ
(1)
Ω
Fp est la distribution cumulative de probabilités (CDF) associée à
l’ensemble prévu et H est la distribution de Heaviside associée à la
vérification.
cas continu
cas réel (discret)
verification
verification
1
1
CDF
CDF
ε
ε
σ
0
mean
σ
CRPS
ξ
0
mean
CRPS
ξ
Critères
Mesures
Comparaison
Conclusions
Décomposition du CRPS
• Le CRPS se décompose en 2 composantes permettant de
mesurer la fiabilité et la résolution.
• On utilise ici la décomposition proposée par H. Hersbach1 :
CRPS = Reli + CRPSpot
(2)
où Reli mesure la fiabilité et CRPSpot mesure la résolution.
1
Hersbach 2000 : Decomposition of the continuous ranked probability score
for ensemble prediction systems, in Weather and Forecasting (15), pp 559–570.
Critères
Mesures
Comparaison
Conclusions
Composante fiabilité du CRPS : Reli
• Après accumulation sur
l’ensemble des réalisations du
système, on peut définir la
CDF observée correspondante
et la comparer à la moyenne
des CDF prévues.
• A chaque réalisation du
système, on définit des valeurs
pour chaque intervalle
[xi , xi+1 ] selon la position de la
vérification et la taille de
l’intervalle.
=⇒
verification
1
CDF
1
predicted
observed
Reli
0
X1
X2 .......
X(n−1)
Xn
0
Critères
Mesures
Comparaison
Composante résolution du CRPS : CRPSpot
• CRPSpot serait la valeur potentielle du CRPS si l’EPS était
fiable, i.e. Reli = 0.
• CRPSpot = uncertainty − Resol
1 class of predicted CDF
1
CRPSpot ∝ F(σ)
σ
Σ
uncertainty ∝ F(Σ)
CDF over all observations
0
• Plus σ << Σ, meilleure la résolution est.
Resol ∝ F(Σ − σ)
Conclusions
Critères
Mesures
Comparaison
Conclusions
Reduced Centered Random Variable (RCRV)
• La RCRV permet de détailler les caractéristiques de la fiabilité en
terme de biais (b) et dispersion (d).
• A chaque réalisation, on considère la moyenne m et la dispersion
σ de l’ensemble, ainsi que l’observation o et l’erreur d’observation
σo . La RCRV se définit alors :
o−m
y=p
σ 2 + σo2
(3)
• On cherche ainsi à vérifier si l’observation peut être considérée
comme une réalisation indépendante de la loi de probabilité définie
par l’ensemble
−→ la moyenne de y (b) mesure le biais pondéré de l’ensemble et
la variance de y (d) mesure la dispersion comparée des ensembles
et des observations.
Critères
Mesures
Comparaison
Conclusions
Comment améliorer la fiabilité d’un EPS ?
• Pour un EPS fiable, on a : b = 0 et d = 1
• On considère un EPS non fiable sous-dispersif et 2 corrections
possibles :
d ≡ Var
σ
>1
plus de dispersion
moins d’erreur
verification
verification
verification
ensemble mean
ensemble mean
ensemble mean
members
members
members
ε
ε
ε
σ
σ
σ
Critères
Mesures
Comparaison
Conclusions
Méthode de comparaison
Vérifications effectuées avec des observations de
radio-sondages réparties sur tout le globe (Chantal Côté).
Comparaison des performances de 2 EPS mesurée par les
différences en terme de CRPS et RCRV.
Limitation de la validation due à la taille de l’échatillon sur
lequel les statistiques sont calculées
−→ estimation d’intervalle de confiance par des techniques de
ré-échantillonnage bootstrap2 .
2
Efron and Tibshirani, 1993 : An introduction to the bootstrap
Critères
Mesures
Comparaison
Conclusions
Technique bootstrap
• S : score CRPS ou RCRV • X : échantillon de données
X1∗ = (x5 , x3 , ... , x9 ) : S(X1∗ )
X2∗ = (x4 , xn , ... , xn ) : S(X2∗ )
S(X ) : X = (x1 , x2 , ... , xn )
... ...
...
∗ = (x , x , ... , x ) : S(X ∗ )
Xnb
2 7
2
nb
Critères
Mesures
Comparaison
Conclusions
Intervalle de confiance : propriétés (1)
• Le ré-échantillonnage s’effectue seulement parmi les jours de
prévision et non aussi parmi les différentes stations d’observations
−→ cela évite de donner trop de poids à des situations ”extrêmes”
journalières et d’ainsi sous-évaluer la taille de l’intervalle de
confiance.
0.1
Température à
850 hPa pour la
période du 12
septembre au 5
novembre 2005
CRPS(A) - CRPS(B)
C.I.
C.I. spatial correlation
0.08
CRPS
0.06
0.04
EPS A = EPS
opérationnel
0.02
0
EPS B = EPS
parallèle
-0.02
1
2
3
4
5
6
7
8
9
10
day
.
Critères
Mesures
Comparaison
Conclusions
Intervalle de confiance : propriétés (2)
• Risque de sous-évaluation de la taille des intervalles de confiance
à cause de l’auto-corrélation temporelle des erreurs de prévision,
surtout à moyenne échéance.
0.16
0.5
ρ(t,t+1)
ρ(t,t+2)
ρ(t,t+3)
ρ(t,t+4)
ρ(t,t+5)
0.45
0.12
0.1
0.35
CRPS
autocorrelation
0.4
CRPS(A) - CRPS(B)
C.I. 1-day independent
C.I. 2-days independent
C.I. 3-days independent
C.I. 4-days independent
C.I. 5-days independent
0.14
0.3
0.08
0.06
0.04
0.25
0.02
0.2
0
0.15
-0.02
1
2
3
4
5
6
day
7
8
9
10
1
2
3
4
5
6
7
8
9
day
• Les intervalles de confiance traduisent les incertitudes liées aux
auto-corrélations des erreurs de prévision.
• Calcul des intervalles de confiance en ré-échantillonnant par
séquences de 3 jours.
10
Critères
Mesures
Comparaison
Conclusions
Comparaison : décomposition du CRPS
• Amélioration globale (CRPS) pour l’EPS parallèle.
CRPSpot
Reli
0.1
0.1
Reli(A) - Reli(B)
0.08
0.06
0.06
CRPSpot
Reli
CRPSpot(A) - CRPSpot(B)
0.08
0.04
0.02
0.04
0.02
0
0
-0.02
-0.02
1
2
3
4
5
6
day
7
8
9
10
1
2
3
4
5
6
7
day
• Amélioration significative de la fiabilité.
• Amélioration significative de la résolution jusqu’au jour 6.
8
9
10
Critères
Mesures
Comparaison
Conclusions
Comparaison : décomposition de la fiabilité
• Amélioration significative de la fiabilité pour l’EPS parallèle.
dispersion
biais
0.18
0.1
|b(A)| - |b(B)|
0.16
0.14
|1-d(A)| - |1-d(B)|
0.08
0.12
0.06
dispersion
bias
0.1
0.08
0.06
0.04
0.04
0.02
0.02
0
0
-0.02
-0.02
-0.04
1
2
3
4
5
6
day
7
8
9
10
1
2
• Amélioration non significative du biais.
• Amélioration significative de la dispersion.
3
4
5
6
day
7
8
9
10
Critères
Mesures
Comparaison
Conclusions
Comparaison : changement neutre
• Construction de 2 EPS thériquement équivalents :
EPS A’ = EPS oper. jours pairs + EPS para. jours impairs
EPS B’ = EPS oper. jours impairs + EPS para. jours pairs
0.08
CRPS(A') - CRPS(B')
0.06
CRPS
0.04
• Pas de différence
significative.
0.02
0
-0.02
-0.04
1
2
3
4
5
6
day
7
8
9
10
Critères
Mesures
Comparaison
Conclusions
Résumé
• Développement d’outils de validation probabiliste ”objective” pour
la comparaison de la performance de 2 EPS :
vérification contre observations.
mesure globale CRPS avec décomposition fiabilité-résolution
et caractérisation de la fiabilité par la RCRV.
définition d’intervalle de confiance par des techniques de
ré-échantillonnage bootstrap.
• Amélioration significative avec l’EPS parallèle, surtout en terme
de fiabilité, qui est devenu l’EPS opérationnel le 12 décembre 2005.
Critères
Mesures
Comparaison
Conclusions
La suite ...
• Transfert des outils de validation/comparaison probabiliste en
mode opérationnel
inclus dans une ”boite à outils” de vérification plus générale
(Barbara Casati).
• Développer les techniques de ré-échantillonnage pour d’autres
mesures probabilistes telles que le score de Brier.
• Prévision déterministe et prévision d’ensemble :
liens entre les incertitudes de prévision déterministe et la
dispersion des ensembles ?
liens entre la discrimination (courbe ROC, valeur économique)
et la fiabilité-résolution ?
Critères
Mesures
Comparaison
Merci
Questions ?
Conclusions
Téléchargement