Critères Mesures Comparaison Conclusions Validation probabiliste d’un Système de Prévision d’Ensemble Guillem Candille, janvier 2006 Système de Prévision d’Ensemble (EPS) (ECMWF Newsletter 90, 2001) Critères Mesures Comparaison Plan 1 Critères de validation probabiliste d’un système de prévision d’ensemble (EPS) 2 Mesures probabilistes 3 Comparaison ”objective” de 2 EPS : méthodes bootstrap 4 Conclusions et perspectives Conclusions Critères Mesures Comparaison Conclusions Principes probabilistes de validation d’un EPS ”Oublier” les concepts de validation déterministe • 1 prévision = distribution de probabilités (PDF) vs. 1 vérification = 1 valeur numérique Xo Validation des EPS par accumulation statistique. 2 critères : la fiabilité et la résolution. Critères Mesures Comparaison Conclusions Critère d’évaluation : Fiabilité • Cohérence statistique entre les prévisions et les observations correspondantes. f est la PDF prévue. f10 et f20 sont 2 distributions de xo quand f est prévue. L’EPS est parfaitement fiable si et seulement si f = f 0. Xo tout système peut être rendu fiable par une calibration statistique a posteriori. • La fiabilité est un critère nécessaire mais non suffisant : cf. e.g. un système climatologique. Critères Mesures Comparaison Conclusions Critère d’évaluation : Résolution • Capacité de séparer les prévisions menant à des distributions d’observations correspondantes (DOC) bien distinctes. système climatologique système déterministe X1 • Exemples DOC allant d’une résolution minimale nulle pour le système climatologique à une résolution maximale pour le système déterministe. X2 (la courbe rouge représente ici la distribution de toutes les observations : distribution climatologique) Critères Mesures Comparaison Conclusions Critères probabilististes : résumé La fiabilité et la résolution sont 2 propriétés qui déterminent la qualité et l’utilité d’un système de prévision probabiliste. Un EPS doit être capable de séparer a priori les prévisions en classes suffisamment variées afin que les observations correspondantes représentent des situations bien distinctes. Critères Mesures Comparaison Conclusions Continuous Ranked Probability Score (CRPS) • Le CRPS mesure la qualité globale d’un EPS : Z 2 CRPS = E (Fp (ξ) − H(ξ − xo )) dξ (1) Ω Fp est la distribution cumulative de probabilités (CDF) associée à l’ensemble prévu et H est la distribution de Heaviside associée à la vérification. cas continu cas réel (discret) verification verification 1 1 CDF CDF ε ε σ 0 mean σ CRPS ξ 0 mean CRPS ξ Critères Mesures Comparaison Conclusions Décomposition du CRPS • Le CRPS se décompose en 2 composantes permettant de mesurer la fiabilité et la résolution. • On utilise ici la décomposition proposée par H. Hersbach1 : CRPS = Reli + CRPSpot (2) où Reli mesure la fiabilité et CRPSpot mesure la résolution. 1 Hersbach 2000 : Decomposition of the continuous ranked probability score for ensemble prediction systems, in Weather and Forecasting (15), pp 559–570. Critères Mesures Comparaison Conclusions Composante fiabilité du CRPS : Reli • Après accumulation sur l’ensemble des réalisations du système, on peut définir la CDF observée correspondante et la comparer à la moyenne des CDF prévues. • A chaque réalisation du système, on définit des valeurs pour chaque intervalle [xi , xi+1 ] selon la position de la vérification et la taille de l’intervalle. =⇒ verification 1 CDF 1 predicted observed Reli 0 X1 X2 ....... X(n−1) Xn 0 Critères Mesures Comparaison Composante résolution du CRPS : CRPSpot • CRPSpot serait la valeur potentielle du CRPS si l’EPS était fiable, i.e. Reli = 0. • CRPSpot = uncertainty − Resol 1 class of predicted CDF 1 CRPSpot ∝ F(σ) σ Σ uncertainty ∝ F(Σ) CDF over all observations 0 • Plus σ << Σ, meilleure la résolution est. Resol ∝ F(Σ − σ) Conclusions Critères Mesures Comparaison Conclusions Reduced Centered Random Variable (RCRV) • La RCRV permet de détailler les caractéristiques de la fiabilité en terme de biais (b) et dispersion (d). • A chaque réalisation, on considère la moyenne m et la dispersion σ de l’ensemble, ainsi que l’observation o et l’erreur d’observation σo . La RCRV se définit alors : o−m y=p σ 2 + σo2 (3) • On cherche ainsi à vérifier si l’observation peut être considérée comme une réalisation indépendante de la loi de probabilité définie par l’ensemble −→ la moyenne de y (b) mesure le biais pondéré de l’ensemble et la variance de y (d) mesure la dispersion comparée des ensembles et des observations. Critères Mesures Comparaison Conclusions Comment améliorer la fiabilité d’un EPS ? • Pour un EPS fiable, on a : b = 0 et d = 1 • On considère un EPS non fiable sous-dispersif et 2 corrections possibles : d ≡ Var σ >1 plus de dispersion moins d’erreur verification verification verification ensemble mean ensemble mean ensemble mean members members members ε ε ε σ σ σ Critères Mesures Comparaison Conclusions Méthode de comparaison Vérifications effectuées avec des observations de radio-sondages réparties sur tout le globe (Chantal Côté). Comparaison des performances de 2 EPS mesurée par les différences en terme de CRPS et RCRV. Limitation de la validation due à la taille de l’échatillon sur lequel les statistiques sont calculées −→ estimation d’intervalle de confiance par des techniques de ré-échantillonnage bootstrap2 . 2 Efron and Tibshirani, 1993 : An introduction to the bootstrap Critères Mesures Comparaison Conclusions Technique bootstrap • S : score CRPS ou RCRV • X : échantillon de données X1∗ = (x5 , x3 , ... , x9 ) : S(X1∗ ) X2∗ = (x4 , xn , ... , xn ) : S(X2∗ ) S(X ) : X = (x1 , x2 , ... , xn ) ... ... ... ∗ = (x , x , ... , x ) : S(X ∗ ) Xnb 2 7 2 nb Critères Mesures Comparaison Conclusions Intervalle de confiance : propriétés (1) • Le ré-échantillonnage s’effectue seulement parmi les jours de prévision et non aussi parmi les différentes stations d’observations −→ cela évite de donner trop de poids à des situations ”extrêmes” journalières et d’ainsi sous-évaluer la taille de l’intervalle de confiance. 0.1 Température à 850 hPa pour la période du 12 septembre au 5 novembre 2005 CRPS(A) - CRPS(B) C.I. C.I. spatial correlation 0.08 CRPS 0.06 0.04 EPS A = EPS opérationnel 0.02 0 EPS B = EPS parallèle -0.02 1 2 3 4 5 6 7 8 9 10 day . Critères Mesures Comparaison Conclusions Intervalle de confiance : propriétés (2) • Risque de sous-évaluation de la taille des intervalles de confiance à cause de l’auto-corrélation temporelle des erreurs de prévision, surtout à moyenne échéance. 0.16 0.5 ρ(t,t+1) ρ(t,t+2) ρ(t,t+3) ρ(t,t+4) ρ(t,t+5) 0.45 0.12 0.1 0.35 CRPS autocorrelation 0.4 CRPS(A) - CRPS(B) C.I. 1-day independent C.I. 2-days independent C.I. 3-days independent C.I. 4-days independent C.I. 5-days independent 0.14 0.3 0.08 0.06 0.04 0.25 0.02 0.2 0 0.15 -0.02 1 2 3 4 5 6 day 7 8 9 10 1 2 3 4 5 6 7 8 9 day • Les intervalles de confiance traduisent les incertitudes liées aux auto-corrélations des erreurs de prévision. • Calcul des intervalles de confiance en ré-échantillonnant par séquences de 3 jours. 10 Critères Mesures Comparaison Conclusions Comparaison : décomposition du CRPS • Amélioration globale (CRPS) pour l’EPS parallèle. CRPSpot Reli 0.1 0.1 Reli(A) - Reli(B) 0.08 0.06 0.06 CRPSpot Reli CRPSpot(A) - CRPSpot(B) 0.08 0.04 0.02 0.04 0.02 0 0 -0.02 -0.02 1 2 3 4 5 6 day 7 8 9 10 1 2 3 4 5 6 7 day • Amélioration significative de la fiabilité. • Amélioration significative de la résolution jusqu’au jour 6. 8 9 10 Critères Mesures Comparaison Conclusions Comparaison : décomposition de la fiabilité • Amélioration significative de la fiabilité pour l’EPS parallèle. dispersion biais 0.18 0.1 |b(A)| - |b(B)| 0.16 0.14 |1-d(A)| - |1-d(B)| 0.08 0.12 0.06 dispersion bias 0.1 0.08 0.06 0.04 0.04 0.02 0.02 0 0 -0.02 -0.02 -0.04 1 2 3 4 5 6 day 7 8 9 10 1 2 • Amélioration non significative du biais. • Amélioration significative de la dispersion. 3 4 5 6 day 7 8 9 10 Critères Mesures Comparaison Conclusions Comparaison : changement neutre • Construction de 2 EPS thériquement équivalents : EPS A’ = EPS oper. jours pairs + EPS para. jours impairs EPS B’ = EPS oper. jours impairs + EPS para. jours pairs 0.08 CRPS(A') - CRPS(B') 0.06 CRPS 0.04 • Pas de différence significative. 0.02 0 -0.02 -0.04 1 2 3 4 5 6 day 7 8 9 10 Critères Mesures Comparaison Conclusions Résumé • Développement d’outils de validation probabiliste ”objective” pour la comparaison de la performance de 2 EPS : vérification contre observations. mesure globale CRPS avec décomposition fiabilité-résolution et caractérisation de la fiabilité par la RCRV. définition d’intervalle de confiance par des techniques de ré-échantillonnage bootstrap. • Amélioration significative avec l’EPS parallèle, surtout en terme de fiabilité, qui est devenu l’EPS opérationnel le 12 décembre 2005. Critères Mesures Comparaison Conclusions La suite ... • Transfert des outils de validation/comparaison probabiliste en mode opérationnel inclus dans une ”boite à outils” de vérification plus générale (Barbara Casati). • Développer les techniques de ré-échantillonnage pour d’autres mesures probabilistes telles que le score de Brier. • Prévision déterministe et prévision d’ensemble : liens entre les incertitudes de prévision déterministe et la dispersion des ensembles ? liens entre la discrimination (courbe ROC, valeur économique) et la fiabilité-résolution ? Critères Mesures Comparaison Merci Questions ? Conclusions