Telechargé par dandrianarimbola

Azizah 2019 IOP Conf. Ser. Earth Environ. Sci. 303 012026 fr

publicité
Abonnez-vous à DeepL Pro pour traduire des fichiers plus volumineux.
Visitez www.DeepL.com/propour en savoir plus.
Série de conférences IOP : Sciences de la terre et de l'environnement
ARTICLE - ACCÈS LIBRE
Vous pouvez également
aimer
Une application de la chaîne de Markov pour
- Méthode analytique sur la fiabilité des
données pluviométriques du radar
Données
sur
les
précipitations
à
Java
Ouest
en
utilisant
l'exploration
la prédiction de l'approche
polarimétrique
en bande X de
N A Hasan, M Goto et K Miyamoto
Pour citer cet article : A Azizah et al 2019 IOP Conf. Ser : Earth Environ. Sci. 303 012026
données
- Évaluation des données CCTV pour
l'estimation des conditions de pluie
Sinta Berliana Sipayung, Lilik Slamet, Edy
Maryadi et al.
Consultez l'article en ligne pour connaître les mises à jour et les améliorations.
- Approche par impulsion rectangulaire de
Bartlett Lewis (BLRP) avec procédure
d'ajustement proportionnel dans la
méthode de désagrégation des
précipitations dans le laboratoire
d'hydrologie de la station pluviale de
l'université de Brawijaya
Novita Putri Kurnia Dewi et Suci Astutik
Ce contenu a été téléchargé depuis l'adresse IP 41.77.17.9 le 18/03/2022 à 05:49.
Conférence internationale sur la météorologie tropicale et les sciences
atmosphériques
IOP
Conf. Series : Science de la terre et de l'environnement 303 (2019)
012026
IOP Publishing
doi:10.1088/1755-1315/303/1/012026
Une application de la chaîne de Markov pour prédire les
données sur les précipitations à Java Ouest en utilisant une
approche d'exploration de données.
A Azizah1 , R WElastika1 , A Nur Falah2 , B N Ruchjana2 et A S Abdullah3
1
Étudiant en master au département de mathématiques de l'Universitas Padjadjaran.
Département de mathématiques, Universitas Padjadjaran
3
Département d'informatique, Universitas Padjadjaran
2
[email protected]
Résumé. Le modèle de chaîne de Markov est un processus stochastique permettant de
déterminer la probabilité de transition d'un espace d'état en fonction d'un état précédent. Nous
pouvons utiliser une distribution stationnaire du modèle de chaîne de Markov de premier ordre
pour déterminer la probabilité à long terme des phénomènes pluvieux. Les données sur les
précipitations dans la région de Java Ouest sont importantes, car nous disposons de nombreuses
données sur les précipitations provenant de nombreuses villes et régences, à la fois dans les
observations spatiales et temporelles. En outre, dans cet article, nous démontrons une
application de la chaîne de Markov en utilisant une approche d'exploration de données pour
obtenir la connaissance comme un modèle pour la description et la prédiction des données de
précipitations mensuelles dans les saisons humides décembre-janvier-février (DJF) en utilisant
la méthode de découverte de connaissances dans les bases de données (KDD) par le
prétraitement, le processus d'exploration de données et le post-traitement. Nous simulons les
données de précipitations mensuelles de l'année 1981 à 2017 en utilisant des espaces à quatre
états : faible (0), moyen (1), élevé (2) et très élevé (4). Le résultat de la chaîne de Markov
montre que la probabilité d'occurrence des phénomènes pluvieux pour les quatre espaces d'état
est : faible (22,62 %), moyenne (24,86 %), élevée (25,46 %) et très élevée (27,05 %). Cela
signifie que la région de Java Ouest aura, à long terme, une probabilité de précipitations très
élevée.
Mots-clés : Chaîne de Markov, Distribution stationnaire, Data Mining, Pluie.
1. Introduction
L'île de Java est l'île avec la plus grande population en Indonésie et fait divers secteurs de
développement des centres sur là. Java est également la plus grande île affectée par les phénomènes
climatiques par rapport aux autres îles d'Indonésie, si nous prédisons les données de précipitations
dans des endroits non observés, nous obtiendrons des données de précipitations avec un modèle
similaire aux endroits observés en tant que voisins [1]. Les précipitations sont la hauteur de l'eau de
pluie qui s'accumule dans un endroit plat, sans s'évaporer, sans pénétrer et sans s'écouler. 1 millimètre
de pluie, ce qui signifie que dans une zone solide de mètres carrés, un endroit plat est retenu jusqu'à un
millimètre d'eau ou peut contenir un litre ou 1000 ml d'eau [2].
Dans l'ouest de Java, les précipitations sont considérées comme l'une des principales contraintes
des plans et des décisions politiques en matière d'agriculture en raison de la position de l'ouest de Java
comme l'un des centres de l'alimentation basée sur la production de paddy dans la régence de
Karawang. Il soutient les objectifs de développement durable pour couvrir les questions de
développement social et économique, notamment la pauvreté, la faim, la santé, le réchauffement
climatique, l'eau, etc. Les précipitations sont la partie la plus importante des tropiques qui influencent
la production de paddy à Java Ouest. Sur cette base, il est nécessaire de disposer d'une méthode de
prédiction assez précise, en particulier pour les précipitations de la province de Java Ouest, car Java
Ouest est l'une des régions où le secteur agricole est le plus important [3].
Conférence internationale sur la météorologie tropicale et les sciences
IOP Publishing
atmosphériques
La
quantité
pluie qui
produit
à ce moment-là303
pourrait
été influencée par la quantité de
IOP
Conf.
Series de
: Science
de laseterre
et de l'environnement
(2019)avoir
doi:10.1088/1755-1315/303/1/012026
pluie une fois auparavant, et la quantité de pluie dans le futur peut être affectée par la pluie actuelle,
012026
etc. Ce phénomène est un exemple concret de l'événement de la chaîne de Markov qui est une méthode
de modélisation en
Le contenu de cet ouvrage peut être utilisé selon les termes de la licence Creative Commons Attribution 3.0. Toute distribution
ultérieure de ce travail doit maintenir l'attribution à l'auteur ou aux auteurs et le titre du travail, la citation du journal et le DOI.
Publié sous licence par IOP Publishing Ltd1
Conférence internationale sur la météorologie tropicale et les sciences
atmosphériques
IOP
Conf. Series : Science de la terre et de l'environnement 303 (2019)
012026
IOP Publishing
doi:10.1088/1755-1315/303/1/012026
processus stochastiques [4]. Le modèle de chaîne de Markov est utilisé pour aider à estimer les
changements qui peuvent se produire dans le futur, où les changements sont représentés dans des
variables dynamiques à certains moments. La chaîne de Markov a été inventée par Andrey Andreyev
Markov (1856-1922) [5]. On dit d'un processus stochastique qu'il comprend la chaîne de Markov s'il
remplit les propriétés de Markov (propriété markovienne). Les propriétés de Markov stipulent que la
probabilité d'un événement futur, avec des événements passés et des événements présents connus, ne
dépend pas des événements passés et ne dépend que des événements présents [4, 6].
La chaîne de Markov est généralement classée en deux catégories, à savoir la chaîne de Markov à
indice de paramètre discret et la chaîne de Markov à indice de paramètre continu. On dit que la chaîne
de Markov est un indice de paramètre discret si l'état de changement se produit avec un intervalle de
temps discret fixe. En revanche, la chaîne de Markov est dite à paramètre continu si l'état de
changement se produit avec un intervalle de temps continu [7]. Les données relatives aux
précipitations sont une série de données temporelles qui indiquent le mouvement de l'état dans un
intervalle de temps discret fixe. La prévision des précipitations dans le futur est nécessaire pour
anticiper la prévention si une forte intensité de pluie se produit pendant une longue période. En outre,
elle indique que nous devons prendre en compte les autres phénomènes qui peuvent contribuer de
manière significative à l'augmentation de l'intensité des précipitations [8]. En outre, dans cet article,
une analyse d'une grande base de données de précipitations provenant de 27 districts/villes a été
réalisée en utilisant la distribution stationnaire de la chaîne de Markov, puis utilisée pour prédire les
précipitations dans l'ouest de Java en se basant sur une approche d'exploration de données utilisant la
méthode KDD.
2. Méthode
2.1. Processus stochastiques
Un processus stochastique {𝑋𝑋(𝑡𝑡), 𝑡𝑡 ∈ 𝑇𝑇} est une collection de variables aléatoires. Autrement dit, pour
chaque 𝑡𝑡 dans l'ensemble d'indices 𝑇𝑇, 𝑋𝑋(𝑡𝑡) est une variable aléatoire. Si le paramètre temporel 𝑇𝑇 est un
ensemble dénombrable 𝑇𝑇 = {0,1,2, ... }, le processus
{𝑋𝑋(𝑛𝑛), 𝑛𝑛 = 0,1,2, ... } est appelé un processus stochastique à temps discret, et si 𝑇𝑇 est un continuum, le
processus
{𝑋𝑋(𝑡𝑡), 𝑡𝑡 ≥ 0} est appelé un processus stochastique continu. Pour un processus stochastique {𝑋𝑋(𝑡𝑡), 𝑡𝑡 ∈
𝑇𝑇}, un ensemble de toutes les valeurs de 𝑋𝑋(𝑡𝑡) est appelé un espace d'états [9, 10].
2.2. Concept de base des chaînes de Markov
Un mathématicien russe, Markov, a introduit le concept de processus dans lequel une séquence ou une
chaîne d'états discrets dans le temps pour lesquels la probabilité de transition d'un état à un état donné
dans l'étape suivante de la chaîne dépend de la condition pendant l'étape précédente [11]. Une chaîne
de Markov du premier ordre est un processus stochastique ayant la propriété que la probabilité des
événements futurs ne dépend que de l'événement présent, en d'autres termes :
𝑃𝑃𝑃𝑃(𝑋𝑋𝑋𝑋+1 =
𝑥𝑥|𝑋𝑋1 = 𝑥𝑥1, 𝑋𝑋2 = 𝑥𝑥2, ... , 𝑋𝑋𝑋𝑋 = 𝑥𝑥𝑛𝑛) = 𝑃𝑃𝑃𝑃(𝑋𝑋𝑋𝑋+1 = 𝑥𝑥|𝑋𝑋𝑋𝑋 = 𝑥𝑥𝑛𝑛)
(1)
Pour tous les états 𝑥𝑥1 , 𝑥𝑥2 , ... , 𝑥𝑥𝑥𝑥 et tous 𝑛𝑛 ≥ 0, un tel processus stochastique est appelé chaîne de
Markov [7, 12].
2.3. Temps discret de la chaîne de Markov
Supposons que {𝑋𝑋(𝑛𝑛), 𝑛𝑛 = 0,1,2, ... } est un processus stochastique avec un indice de paramètre discret
et un espace d'état 𝑖𝑖 = 0,1,2, ... sauf indication contraire. Si
𝑃𝑃{\i1D44B↩(𝑛𝑛 + 1) = 𝑗𝑗||(0) = 𝑖𝑖0, 𝑋𝑋(1) = 𝑖𝑖1, ... , 𝑋𝑋(𝑛𝑛 - 1)
= 𝑖𝑖𝑖𝑖-1, 𝑋𝑋(𝑛𝑛) = 𝑛𝑛} = 𝑃𝑃{𝑋𝑋(𝑛𝑛 + 1)} = 𝑗𝑗|𝑋𝑋(𝑛𝑛) = 1} = 𝑃𝑃𝑃𝑃𝑃𝑃(2)
pour tous les 𝑖𝑖0, 𝑖𝑖1, ... , 𝑖𝑖𝑖𝑖-1, 𝑖𝑖, 𝑗𝑗 et 𝑛𝑛, alors le processus est appelé une chaîne de Markov à temps discret,
et 𝑝𝑝𝑝𝑝𝑝𝑝 est appelé une probabilité de transition. La valeur 𝑝𝑝𝑝𝑝𝑝𝑝 est appelée probabilité de transition
2
Conférence internationale sur la météorologie tropicale et les sciences
IOP Publishing
atmosphériques
(stationnaire),
représente
la probabilité
que le processus,
lorsqu'ildoi:10.1088/1755-1315/303/1/012026
est dans l'état 𝑖𝑖, fasse ensuite une
IOP
Conf. Serieselle
: Science
de la terre
et de l'environnement
303 (2019)
transition vers l'état 𝑗𝑗. La transition entre les états est décrite par la matrice de probabilité de transition,
012026
définie comme :
𝑃𝑃 = (𝑝𝑝𝑖𝑖𝑖𝑖
)=
(𝑝𝑝10
𝑝𝑝0
0
𝑝𝑝2
0
⋮
𝑝𝑝0
1
𝑝𝑝11
𝑝𝑝2
1
⋮
3
𝑝𝑝0
2
𝑝𝑝1
2
𝑝𝑝2
2
⋮
⋯
⋯)
⋯
⋯
(3)
Conférence internationale sur la météorologie tropicale et les sciences
atmosphériques
IOP
Conf. Series : Science de la terre et de l'environnement 303 (2019)
012026
IOP Publishing
doi:10.1088/1755-1315/303/1/012026
Puisque les probabilités sont non négatives et que le processus doit effectuer une transition vers un état
quelconque, nous
ont que 𝑝𝑝𝑝𝑝𝑝𝑝 ≥ 0, 𝑖𝑖, 𝑗𝑗 ≥ 0 et ∑∞ 𝑝𝑝𝑝𝑝𝑝𝑝𝑗𝑗=0
= 1, 𝑖𝑖, 𝑗𝑗 = 0,1,2, ... [7, 13].
2.4. La matrice de transition à 𝑛𝑛 étapes
Les probabilités de transition à un pas 𝑃𝑃𝑃𝑃𝑃𝑃 sont déjà définies. Définissons maintenant les probabilités de
transition à un pas 𝑛𝑛.
𝑛𝑛 𝑃𝑃pour être la probabilité qu'un processus dans l'état 𝑖𝑖 soit dans l'état 𝑗𝑗 après 𝑛𝑛 transitions
𝑖𝑖𝑖𝑖
supplémentaires. Soit 𝐴𝐴 un événement. Une notation commode est 𝑃𝑃𝑃𝑃(𝐴𝐴) = 𝑃𝑃(𝐴𝐴|𝑋𝑋0 = 𝑖𝑖). Par exemple
(4)
𝑃𝑃𝑃𝑃(𝑋𝑋1 = 𝑗𝑗) = 𝑝𝑝𝑝𝑝𝑝𝑝.
Étant donné la distribution initiale 𝜆𝜆, traitons-la comme un vecteur de ligne. Alors
𝑃𝑃(𝑋𝑋1 = 𝑗𝑗) = ∑𝑖𝑖∈𝐼𝐼 𝜆𝜆𝜆𝜆𝜆𝜆𝜆𝜆(𝑋𝑋1 = 𝑗𝑗) = ∑𝑖𝑖∈𝐼𝐼 𝜆𝜆𝜆𝜆𝜆𝜆𝜆𝜆𝜆𝜆.
(5)
De même,
𝑃𝑃𝑃𝑃(𝑋𝑋2 = 𝑗𝑗) = ∑𝑘𝑘 𝑃𝑃𝑃𝑃 (𝑋𝑋1 = 𝑘𝑘, 𝑋𝑋2 = 𝑗𝑗) = ∑𝑘𝑘 𝑃𝑃𝑃𝑃𝑃𝑃 𝑃𝑃𝑃𝑃𝑃𝑃 = (𝑃𝑃2 )𝑖𝑖𝑖𝑖(6)
𝑃𝑃(𝑋𝑋2 = 𝑗𝑗) = ∑𝑖𝑖,𝑘𝑘 𝜆𝜆𝜆𝜆𝜆𝜆𝜆𝜆(𝑋𝑋1 = 𝑘𝑘, 𝑋𝑋2 = 𝑗𝑗) = ∑𝑖𝑖,𝑘𝑘 𝜆𝜆𝜆𝜆𝜆𝜆𝜆𝜆𝜆𝜆 𝑃𝑃𝑃𝑃𝑃𝑃 = (𝜆𝜆𝜆𝜆2 )𝑗𝑗. (7) En
poursuivant de cette manière,
𝑃𝑃 (𝑋𝑋 = 𝑗𝑗) = (𝛿𝛿 𝑃𝑃𝑛𝑛 ) = (𝑃𝑃𝑛𝑛
)
𝑖𝑖𝑖𝑖
𝑖𝑖
𝑃𝑃(𝑋𝑋𝑋𝑋 = 𝑗𝑗) = ∑𝑖𝑖 ,...
0𝑛𝑛-10,𝑖𝑖𝑖𝑖𝑖𝑖
0 𝑃𝑃𝑃𝑃
1𝑛𝑛-1
𝑖𝑖𝑖𝑖
(8)
= 𝑃𝑃(𝑛𝑛)
𝑖𝑖𝑖𝑖
𝑖𝑖 ...𝑃𝑃𝑃𝑃𝑃𝑃
= (𝜆𝜆𝜆𝜆𝑛𝑛 )𝑗𝑗.
(9)
Ainsi, 𝑃𝑃(𝑛𝑛) = (𝑃𝑃𝑖𝑖𝑖𝑖(𝑛𝑛) ), la matrice de transition à 𝑛𝑛 étapes, est simplement 𝑃𝑃𝑛𝑛 .
De plus, pour tous les 𝑖𝑖, 𝑗𝑗 et 𝑛𝑛, 𝑚𝑚 ≥ 0, les équations de Chapman-Kolmogorov (évidentes) se vérifient :
𝑃𝑃(𝑛𝑛+𝑚𝑚)
∑𝑃𝑃( 𝑃𝑃(𝑚𝑚)
= 𝑛𝑛)
𝑘𝑘∈𝐼𝐼 𝑖𝑖𝑖𝑖
𝑖𝑖𝑖𝑖
(10)
𝑘𝑘𝑘𝑘
Elle doit son nom à sa formulation indépendante par Chapman et Kolmogorov (19031987) [7]. L'équation de Chapman-Kolmogorov affirme que
(11)
𝑝𝑝(𝑛𝑛+𝑚𝑚) = 𝑝𝑝(𝑛𝑛). 𝑝𝑝(𝑚𝑚)
où le produit scalaire représente la multiplication de la matrice. Par conséquent, en particulier
𝑝𝑝(2)
= 𝑝𝑝(1+1) = 𝑝𝑝2(12)
et par induction
𝑝𝑝(𝑛𝑛) = 𝑝𝑝(𝑛𝑛+1-1) = 𝑝𝑝𝑝𝑝-1. 𝑝𝑝 = 𝑝𝑝𝑝𝑝(13)
Autrement dit, la matrice de transition à 𝑛𝑛 étapes peut être obtenue en multipliant la matrice 𝑝𝑝 par ellemême 𝑛𝑛 fois [12, 14].
2.5. Distribution stationnaire de la chaîne de Markov
Il existe une probabilité limite que le processus se trouve dans l'état 𝑗𝑗 après un grand nombre de
transitions, et cette valeur est indépendante de l'état initial. En d'autres
termes, l'état 𝑝𝑝𝑛𝑛 converge vers
𝑖𝑖𝑖𝑖
une certaine valeur (comme 𝑛𝑛 →
∞) qui est le même pour tous les 𝑖𝑖. Théorème. Si une chaîne de Markov irréductible est récurrente
4
Conférence
la météorologie
tropicale
et les sciences
positive et internationale
apériodique, sur
il existe
la probabilité
limite
atmosphériques
IOP
Conf. Series : Science de la terre et de l'environnement 303 (2019)
012026
5
IOP Publishing
doi:10.1088/1755-1315/303/1/012026
Conférence internationale sur la météorologie tropicale et les sciences
atmosphériques
IOP
Conf. Series : Science de la terre et de l'environnement 303 (2019)
012026
IOP Publishing
doi:10.1088/1755-1315/303/1/012026
(14)
𝑙𝑙𝑙𝑙𝑙𝑙 𝑝𝑝𝑛𝑛 = 𝜋𝜋𝜋𝜋 > 0 où (𝑖𝑖, 𝑗𝑗 = 0,1,2 ... )
𝑖𝑖𝑖𝑖
𝑛𝑛→∞
Qui est indépendant de l'état initial 𝑖𝑖, où (𝜋𝜋𝑗𝑗 , 𝑗𝑗 = 0,1,2, ... ) est une solution unique et positive à
𝜋𝜋𝜋𝜋 = ∑ 𝑖𝑖=0
𝜋𝜋𝜋𝜋𝜋𝜋𝜋𝜋𝜋𝜋 où
=
1
∑∞
𝑗𝑗=0 𝜋𝜋𝜋𝜋
∞
(𝑗𝑗 = 0,1,2, ... ) (15)
(16)
et elle est appelée distribution stationnaire pour une chaîne de Markov [10].
2.6. Modèle de chaîne de Markov pour les données de précipitations mensuelles
Les modèles dépendant de la chaîne traitent séparément l'occurrence et l'intensité des événements
pluvieux quotidiens [15]. Le terme "dépendance en chaîne" reflect la structure statistique de la
séquence d'occurrence. Le modèle de précipitations mensuelles basé sur une chaîne de Markov peut
être utilisé pour déterminer l'occurrence des précipitations (c'est-à-dire les conditions de précipitations
élevées ou faibles) en fonction des probabilités de transition [16]. Les probabilités de transition,
estimées à partir des mesures historiques, représentent les probabilités de haute à haute, haute à basse,
basse à haute, et basse à basse. Si le jour suivant, les précipitations sont élevées, alors l'intensité des
précipitations est donnée comme une variable aléatoire suivant une fonction de densité de probabilité.
Le modèle de précipitations quotidiennes basé sur la chaîne de Markov peut être expliqué comme
suit. Tout d'abord, définissez 𝑋𝑋𝑋𝑋 comme la condition de pluie haute et basse au jour 𝑡𝑡-h. C'est-à-dire ,
𝑋𝑋𝑋𝑋 =
0,
𝑋𝑋𝑋𝑋 = 1,
si les précipitations du jour 𝑡𝑡 sont élevées.
si les précipitations du jour 𝑡𝑡 sont faibles.
En supposant que la probabilité d'occurrence des précipitations actuelles dépende de la condition
du jour précédent, alors 𝑋𝑋𝑋𝑋 suit la chaîne de Markov de premier ordre, et alors la probabilité de
transition des précipitations quotidiennes peut être divisée en quatre cas suivants :
𝑃𝑃[𝑋𝑋𝑋𝑋 =
1 | 𝑋𝑋𝑋𝑋-1 = 0] = 𝑝𝑝01
𝑃𝑃[𝑋𝑋𝑋𝑋 = 1 | 𝑋𝑋𝑡𝑡-1 = 0] = 𝑝𝑝11
𝑃𝑃[𝑋𝑋𝑋𝑋 = 0 | 𝑋𝑋𝑋𝑋-1 = 1] = 𝑝𝑝00
𝑃𝑃[𝑋𝑋𝑋𝑋 = 0 | 𝑋𝑋𝑋𝑋-1 = 1] = 𝑝𝑝10
Les équations ci-dessus expriment les probabilités conditionnelles d'être humide ou sec le jour 𝑡𝑡 en
fonction de la condition d'être humide ou sec le jour 𝑡𝑡 - 1. Par conséquent, 𝑝𝑝00 = 1 - 𝑝𝑝01 et 𝑝𝑝11 = 1 𝑝𝑝10. Aussi, ces quatre probabilités constituent une matrice de probabilité de transition :
𝑝𝑝00
(𝑝𝑝
𝑝𝑝01𝑃𝑃
=
) (17)
1011
Pour dériver le nombre de jours humides, nous devons d'abord définir les probabilités de transition
d'étape 𝑛𝑛 :
𝑝𝑝00𝑝𝑝01 𝑛𝑛
𝑃𝑃 = (𝑝𝑝10𝑝𝑝11)
𝑛𝑛
(18)
Les probabilités de transition d'étape𝑛𝑛𝑛𝑛 convergent vers certaines probabilités lorsque 𝑛𝑛 augmente :
𝑝𝑝00𝑝𝑝01
𝜋𝜋0𝜋𝜋1
𝑛𝑛
𝑙𝑙𝑙𝑙𝑙𝑙 𝑃𝑃 = 𝑙𝑙𝑙𝑙𝑙𝑙
)
(19)
(𝜋𝜋𝜋𝜋
(𝑝𝑝𝑝𝑝) =
𝑛𝑛→∞𝑛𝑛→∞101101
Ces probabilités 𝜋𝜋0 et 𝜋𝜋1 représentent les probabilités moyennes d'occurrence des conditions de fortes et
6
Conférence
internationale
surles
la appelle
météorologie
tropicale et les
sciences [16, 17].
IOP Publishing
faibles précipitations.
On
les probabilités
stationnaires
atmosphériques
IOP
Conf. Series : Science de la terre et de l'environnement 303 (2019)
doi:10.1088/1755-1315/303/1/012026
012026
7
Conférence internationale sur la météorologie tropicale et les sciences
atmosphériques
IOP
Conf. Series : Science de la terre et de l'environnement 303 (2019)
012026
IOP Publishing
doi:10.1088/1755-1315/303/1/012026
2.7. Exploration de données et découverte de connaissances dans les bases de données
L'exploration de données est le processus qui consiste à découvrir des modèles et des connaissances
intéressants à partir de grandes quantités de données. Les sources de données peuvent être des bases de
données, des entrepôts de données, le Web, d'autres dépôts d'information ou des données qui sont
introduites dans le système de façon dynamique. En tant que processus de découverte de
connaissances, il implique généralement le nettoyage des données, l'intégration des données, la
sélection des données, la transformation des données, la découverte de modèles, l'évaluation des
modèles et la présentation des connaissances [18]. L'exploration de données est également connue
sous le nom de découverte de connaissances dans les bases de données (KDD), d'extraction de
connaissances, d'analyse de données/modèles, d'archéologie des données, de dragage de données, de
récolte d'informations, de veille économique, etc.
Figure 1. Processus de découverte de connaissances dans les bases de données (KDD)
La figure 1. ci-dessus est une vue des communautés typiques de systèmes de base de données et
d'entreposage de données. L'exploration de données joue un rôle essentiel dans le processus de
découverte de connaissances. L'exploration de données a de nombreuses applications réussies, telles
que la veille économique, la recherche sur le Web, la bioinformatique, l'informatique de santé, la
finance, les bibliothèques numériques et les gouvernements numériques [18].
2.8. Exploration de données sur les précipitations à Java Ouest
Dans cette recherche, nous utilisons les données de précipitations de la station CHIRPS (Climate
Hazards Group InfraRed Precipitation with Station) du LAPAN Bandung. CHIRPS est une
donnée importante, car il s'agit d'un ensemble de données pluviométriques quasi-globales sur plus de
30 ans. Il s'étend sur 50°S-50°N (et toutes les longitudes), depuis 1981 jusqu'à aujourd'hui. Dans cette
recherche, nous utilisons les données CHIPS de l'année 1981 à 2017. La procédure de l'approche
d'exploration de données pour les données CHIPS est la suivante :
• Le prétraitement des données est une technique d'exploration de données qui consiste à
transformer des données brutes en un format compréhensible [17]. Les données brutes sont
très sensibles au bruit, aux valeurs manquantes et à l'incohérence. La qualité des données
affecte les résultats de l'exploration de données. Afin d'aider à améliorer la qualité des données
et, par conséquent, les résultats de l'exploration, les données brutes sont prétraitées afin
d'améliorer l'efficacité et le cas du processus d'exploration. Les méthodes de prétraitement des
données sont divisées en quatre catégories : le nettoyage des données, l'intégration des
données, la transformation des données et la réduction des données [19].
• Dans cette recherche, les données sur les précipitations à Java Ouest en tant que big data sont
des données spatio-temporelles qui consistent en 432 observations mensuelles, dont 36 années
au cours de 1981-2017 dans 27 districts et villes. La taille des données 432 × 27 est ensuite
effectuée en utilisant la méthode de nettoyage des données. La méthode de nettoyage consiste
8
Conférence internationale sur la météorologie tropicale et les sciences
IOP Publishing
atmosphériques
remplir
les valeurs
vides
des
données, à ignorer
les données
bruyantes et à corriger les
IOP
Conf.à Series
: Science
de la terre
et de
l'environnement
303 (2019)
doi:10.1088/1755-1315/303/1/012026
012026 incohérences des données. La méthode de nettoyage est utilisée en sélectionnant les données
basées sur les mois humides, à savoir décembre, janvier et février (DJF) pour chaque année
qui a commencé en décembre 1981 à février 2017, de sorte que la taille des données devient
plus compréhensible et plus facile à traiter avec une taille de 108 × 27.
9
Conférence internationale sur la météorologie tropicale et les sciences
atmosphériques
IOP
Conf. Series : Earth and Environmental Science 303
1315/303/1/012026
•
•
IOP Publishing
(2019) 012026doi:10.1088/1755-
Le processus d'exploration de données utilisant la méthode de la chaîne de Markov commence
par la définition de 𝐾𝐾 espaces d'état, la détermination de la matrice de fréquence de transition
avec un ordre de 𝐾𝐾 × 𝐾𝐾, la détermination de la matrice de probabilité de transition, la
détermination de la distribution stationnaire, le calcul de la proportion à long terme de la
chaîne de Markov, la description et la prédiction.
La composante de post-traitement peut être classée dans les groupes suivants : filtrage des
connaissances, interprétation et explication, évaluation et intégration des connaissances [20].
Dans le cas de l'application de la chaîne de Markov pour prédire les données de précipitations
à Java Ouest en utilisant l'approche d'exploration de données, les résultats de la connaissance
sont de déterminer les probabilités à long terme pour les précipitations à Java Ouest en
utilisant la méthode de la chaîne de Markov.
3. Résultats
Le processus de cette recherche est en principe divisé en quatre parties, à savoir la collecte des
données, les processus d'exploration des données, le traitement des données à l'aide de la méthode des
chaînes de Markov et l'analyse des résultats. Le déroulement de cette recherche est décrit dans
l'organigramme suivant.
Débu
t
Entrée des
données
Processus d'extraction de
données
Espace d'état des données
pluviales
État 1 :
Faible (0)
État 3 :
Haut (2)
État 2 :
Moyen (1)
État 4 :
Très élevé (3)
Matrice de probabilité de
transition
Distribution stationnaire
Description et prédiction des
données relatives aux
précipitations à Java Ouest
Stop
Figure 2. Organigramme d'un processus de Markov utilisant des données de précipitations dans 4 espaces d'état
Les précipitations dans un lieu sont généralement imprévisibles, les données pluviométriques
peuvent être quotidiennes, hebdomadaires, mensuelles ou annuelles. Les données qui seront utilisées
dans cette recherche sont les données pluviométriques dans 27 districts/villes de la province de Java
Ouest pour les mois humides de décembre, janvier et février, calculées de décembre 1981 à février
2017.
10
Conférence internationale sur la météorologie tropicale et les sciences
atmosphériques
Tableau 1. Exemple stationnaire de données de précipitations mensuelles dans 27
districts/villes Année 1981-2017 (source : LAPAN Bandung)
Non. Ville/District.
1
Dist. Bandung
Latitude
-7.12
Longitude
107.57
11
Déc-81
317
Jan-82
323
...
...
IOP Publishing
Fév-17
325
Conférence internationale sur la météorologie tropicale et les sciences
atmosphériques
IOP Conf. Series : Earth and Environmental Science 303
1315/303/1/012026
2Dist.Bandung Barat
3Dist.Bekasi
4Dist.Bogor
5Dist.Ciamis
6Dist.Cianjur
7Dist.Cirebon
8Dist.Garut
9Dist.Indramayu
10Dist.Karawang
11Dist.Kuningan
12Dist.Majalengka
13Dist.Pangandaran
14Dist.Purwakarta
15Dist.Subang
16Dist.Sukabumi
17Dist.Sumedang
18Dist.Tasikmalaya
19BandungCity
20BanjarCity
21BekasiCity
22BogorCity
23CimahiCity
24CirebonCity
25DepokCity
26SukabumiCity
27TasikmalayaCity
28WestJava Moyenne
-6.87
-6.23
-6.58
-7.22
-6.81
-6.77
-7.39
-6.45
-6.29
-6.98
-6.86
-7.61
-6.60
-6.56
-6.85
-6.82
-7.54
-6.92
-7.37
-6.27
-6.59
-6.88
-6.73
-6.39
-6.93
-7.35
-7.50
107.41
107.15
106.88
108.39
107.13
108.51
107.77
108.16
107.41
108.50
108.22
108.50
107.47
107.71
106.96
107.99
108.14
107.62
108.53
106.97
106.80
107.54
108.56
106.80
106.93
108.23
108.48
IOP Publishing
(2019) 012026doi:10.1088/1755-
305
291
408
552
373
336
361
232
298
416
482
344
477
444
528
351
408
171
412
309
411
227
360
343
377
466
200
231
403
394
588
315
647
347
404
367
574
535
361
318
390
326
478
412
220
612
435
357
178
608
415
309
474
260
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
229
364
445
417
307
388
264
310
325
386
411
286
327
333
447
322
311
167
422
387
436
144
378
363
321
353
769
Pour montrer que les données sont normalement distribuées, on utilise l'histogramme et le graphique QQ de la
figure suivante :
Figure 3. Histogramme des données pluviométriques à Java OuestFigure
données pluviométriques à Java Ouest.
Java
4. Graphique normal Q-Q des
La figure 3. ci-dessus montre que les résultats du nettoyage des données pour la moyenne de Java
Ouest sont normalement distribués, ce qui est caractérisé par une courbe de distribution normale en
forme de cloche qui est assez symétrique. Quant à la figure 4, nous voyons que le point correspond à
une ligne diagonale droite, ce qui montre que les quantiles correspondent et sont normalement
distribués [21]. Les étapes de la simulation utilisant le modèle de chaîne de Markov sont les suivantes
[10] :
• Définir les espaces d'état 𝐾𝐾.
• Les données de pluviométrie sont divisées en 4 états, à savoir une pluviométrie faible (0),
12
Conférence internationale sur la météorologie tropicale et les sciences
IOP Publishing
atmosphériques
moyenne (1), élevée (2) et très élevée (3). La pluviométrie est catégorisée comme faible (0) si
la valeur de la pluie ≤ le quartile inférieur, catégorisée comme moyenne (1) si le quartile
inférieur < la valeur de la pluie < le quartile moyen, catégorisée comme élevée (2) si.
13
Conférence internationale sur la météorologie tropicale et les sciences
atmosphériques
IOP
Conf. Series : Science de la terre et de l'environnement 303 (2019)
012026
•
IOP Publishing
doi:10.1088/1755-1315/303/1/012026
le quartile moyen < valeur des précipitations < quartile supérieur, et classée très élevée (3) si la
valeur des précipitations ≥ quartile supérieur.
Déterminer une matrice d'ordre K × K, avec l'état initial en ligne et l'état final en colonne, puis
préciser le nombre de déplacements pour chaque état.
Tableau 2. Fréquence des espaces de transition des précipitations à 4 états dans l'ouest de Java
N°Ville/District
1DistBandung
2Dist. BandungBarat
3Dist.Bekasi
4DistBogor
5Dist.Ciamis
6Dist.Cianjur
7Dist. de Cirebon
8Dist.Garut
9Dist.Indramayu
10Dist.Karawang
11Dist.Kuningan
12Dist.Majalengka
13Dist.Pangandaran
14Dist.Purwakarta
15Dist. Subang
16Dist.Sukabumi
17Dist.Sumedang
18Dist.Tasikmalaya
19BandungCity
20BanjarCity
21BekasiCity
22BogorCity
23CimahiCity
24CirebonCity
25DepokCity
26SukabumiCity
27TasikmalayaCity
28WestJava Moyenne
•
00
7
4
5
7
6
4
4
4
6
5
7
8
5
5
6
6
5
4
3
5
5
5
3
5
5
5
6
17
01
5
5
6
5
5
8
9
5
8
4
6
3
7
4
4
6
5
4
3
4
7
5
5
8
8
1
5
5
02
7
8
6
5
8
7
6
11
2
10
6
8
5
8
8
7
7
10
12
8
7
8
5
7
6
10
7
5
État de transition 𝑖𝑖 𝑡𝑡𝑡𝑡 𝑗𝑗, 𝑖𝑖 = 0,1,2,3 et 𝑗𝑗 = 0,1,2,3
03 10 11 12 13 20 21 22 23 30
8
9
10
10
8
8
8
6
11
8
8
8
10
10
9
8
10
9
8
10
8
9
13
7
8
11
9
0
4
7
10
8
8
8
8
8
5
7
6
9
9
9
11
4
11
11
10
12
9
12
7
7
6
8
10
5
6
5
5
7
6
3
3
7
4
6
3
5
9
5
2
7
2
8
4
6
4
6
6
3
5
7
4
12
8
9
3
7
5
8
8
4
11
5
9
4
5
7
7
8
5
2
4
4
4
4
6
7
8
6
6
7
7
6
9
5
7
7
7
8
7
9
8
8
4
5
6
8
8
5
9
5
10
5
8
9
8
5
6
3
10
9
6
6
9
10
10
7
10
7
8
5
7
6
5
10
5
6
11
5
9
4
10
11
9
9
7
4
5
8
8
8
7
8
5
7
7
9
9
9
6
9
9
7
10
8
7
10
4
5
5
4
4
11
11
8
7
5
8
5
7
4
5
7
5
5
7
7
8
7
7
6
9
7
4
5
7
6
8
8
6
3
5
8
5
5
5
8
4
5
7
6
4
6
3
6
5
5
6
3
3
6
5
6
7
11
4
4
7
4
4
7
6
7
6
6
4
5
4
8
5
8
6
5
6
7
5
7
6
6
2
5
4
6
7
4
7
5
4
0
31
9
9
8
7
9
8
10
8
8
8
8
10
5
9
12
7
9
7
13
7
12
11
11
11
10
8
7
2
32
5
4
9
9
7
7
8
4
9
6
5
7
9
5
4
6
6
8
7
9
8
8
7
5
6
7
9
7
33
7
7
3
4
7
7
5
7
5
4
8
5
7
6
6
7
6
6
5
6
2
2
2
7
4
7
7
17
La matrice de fréquence de transition de l'étape précédente est utilisée pour déterminer la
matrice de probabilité de transition en divisant chaque valeur de transition par le nombre dans
chaque ligne (fréquence relative). Matrice de probabilité de transition 4 état de l'espace pour la
moyenne des précipitations à Java Ouest
𝑃𝑃𝑃𝑃est Java
Moyenne
0 0.62962963 0.185185185 0.185185185
0
0.4
1 0.185185185
0.1
0.259259259
]
= 2 0.148148148
[
0.296296296 0.296296296 0.259259259
0.076923077 0.269230769 0.653846154
30
Le diagramme de transition pour la moyenne des précipitations à Java Ouest avec 4 espaces
d'état est le suivant :
14
Conférence internationale sur la météorologie tropicale et les sciences
atmosphériques
IOP
Conf. Series : Science de la terre et de l'environnement 303 (2019)
012026
IOP Publishing
doi:10.1088/1755-1315/303/1/012026
Figure 5. Diagramme de transition de la moyenne des précipitations à Java Ouest avec 4 espaces d'état
•
Calculer la proportion à long terme de la chaîne de Markov dont l'état 𝐾𝐾 est noté 𝜋𝜋𝜋𝜋 en utilisant
l'équation (15).
Ensuite, avec 𝐾𝐾 = 4, alors 𝜋𝜋0, 𝜋𝜋1, 𝜋𝜋2 et 𝜋𝜋3 sont les proportions à long terme pour les états 0,
1, 2 et 3. Les résultats suivants de la distribution stationnaire en pourcentages sont présentés
dans le tableau 3.
Tableau 3. Distribution stationnaire 4 espaces d'état des précipitations à Java Ouest
N°
•
Ville/District
1DistBandung
2Dist. BandungBarat
3Dist.Bekasi
4DistBogor
5Dist.Ciamis
6Dist.Cianjur
7Dist. de Cirebon
8Dist.Garut
9Dist.Indramayu
10Dist.Karawang
11Dist.Kuningan
12Dist.Majalengka
13Dist.Pangandaran
14Dist.Purwakarta
15Dist. Subang
16Dist.Sukabumi
17Dist.Sumedang
18Dist.Tasikmalaya
19BandungCity
20BanjarCity
21BekasiCity
22BogorCity
23CimahiCity
24CirebonCity
25DepokCity
26SukabumiCity
27TasikmalayaCity
28WestJava
Moyenne
Distribution stationnaire (%)
Faible Assez bas (1)
Moyen (2)
(0)
25.76
25.09
25.24
25.24
25.37
25.18
24.43
25.14
24.47
25.27
25.23
25.38
25.28
25.3
25.41
25.35
25.23
25.41
24.3
25.23
25.11
25.23
25.02
25.23
25.23
25.21
25.43
22.62
24.81
25.17
25.24
25.21
25.13
25.09
25.06
25.18
25.21
25.21
24.3
25.09
25.29
25.11
25.02
25.24
24.3
25.25
25.23
25.23
25.47
25.23
25.29
24.3
25.23
25.12
25.12
24.86
25.76
24.38
24.34
24.43
25.18
24.43
25.29
24.44
25.29
24.35
25.23
24.22
25.2
25.31
24.31
25.25
25.23
25.05
25.23
24.3
24.31
24.3
24.21
25.23
24.3
24.4
25.15
25.46
Haut (3)
25.76
25.37
25.18
25.12
24.32
25.3
25.21
25.24
25.03
25.17
25.23
25.31
24.24
24.28
25.26
24.17
25.23
24.29
25.23
25.23
25.11
25.23
25.48
25.23
25.23
25.27
24.3
27.05
Description et prédiction.
Sur la base de la distribution stationnaire de la chaîne de Markov, la probabilité de
changement des précipitations des phénomènes faibles est de 22,62 %, moyenne est de 24,86
%, élevée est de 25,46 %, et très élevée est de 27,05 %. Ce résultat indique qu'à long terme, le
phénomène des données mensuelles sur les précipitations dans la région de Java Ouest a
tendance à changer, mais la probabilité est encore élevée (0,27). Elle est encore assez
importante par rapport aux autres espaces d'état faible, moyen et élevé. Le résultat peut être
donné comme une recommandation pour un
15
Conférence internationale sur la météorologie tropicale et les sciences
atmosphériques
IOP
Conf. Series : Science de la terre et de l'environnement 303 (2019)
012026
IOP Publishing
doi:10.1088/1755-1315/303/1/012026
des institutions connexes telles que le LAPAN et le BMKG. En outre, les institutions peuvent
annoncer une attention particulière pour informer la société de la situation des phénomènes
pluvieux.
Remerciements
Les auteurs remercient le Recteur Universitas Padjadjaran pour le financement de cette recherche par
le biais de l'Academic Leadership Grant et du RKDU 2018. Ils remercient également les chercheurs du
LAPAN Bandung pour les données et la discussion.
Références
[1] Abdullah A S, Matoha S, Lubis D A, Falah A N, Jaya I G N M, Hermawan E, Ruchjana B N, 2018 Mise en
œuvre d'un modèle autorégressif spatio-temporel généralisé (GSTAR)-Kriging pour prédire les données
de précipitations à des emplacements non observés à Java Ouest. Mathématiques appliquées et sciences
de l'information, 12 (3), 607-615.
[2] http://bidinagtuns.blogspot.co.id/2010/11/curah-hujan.html, consulté le 13 mars 2018
[3] Rustiana S, Ruchjana B N, Abdullah A S, Hermawan E, Sipayung S B, Jaya I G N M et Krismianto. Rainfall
prediction of Cimanuk watershed regions with canonical correlation analysis (CCA), Journal of Physics
: Conf. Series, 89312021, doi:10.1088/1742-6596/893/1/012021, 2017.
[4] Sandi R 2015 Simulasi Curah Hujan Harian Menggunakan Stokastik Rantai Markov Orde 3 × 3 (Studi
Kasus : Daerah Aliran Sungai Kampar). Jom FTEKNIK Volume 2 n° 2 octobre 2015.
[5] Sujatmoko et Bambang 2012 Analisa Kehandalan Stokastik Rantai Markov untuk Simulasi Data Curah
Hujan Harian pada Das Kampar. Jurnal Sains dan Teknologi 11 (1), ISSN 1412-66257.
[6] Tovler A 2016 An Introductoin to Markov Chains. Département des sciences mathématiques, Université de
Copenhague, Danemark.
[7] Ross S M 1996. Stochastic Processes Second Edition. Université de Californie, Berkeley, États-Unis
d'Amérique.
[8] Hermawan E, Ruchjana B N, Abdullah A S, Jaya I G N M, Sipayung S B, Rustiana S Développement du
modèle statistique ARIMA : une application pour prédire l'arrivée de l'indice MJO, Journal of Physics :
Conf. Ser. 893 012019, doi:10.1088/1742-596/893/1/012019, 2017.
[9] Doubleday K J et Julius N E 2011. Application des chaînes de Markov aux tendances boursières. Journal of
Mathematics and Statistics, 7 (2) : 103-106
[10] Osaki S 1992 Applied Stochastic System Modelling. Berlin : Springer-Verlag Berlin Heidelberg.
[11] https://hackernoon.com/what-steps-should-one-take-while-doing-data-preprocessing-502c993e1caa,
consulté le 20 janvier 2019
[12] Abubakar U Y, Lawal A, Muhammed A 2014 Markov Chain Model to Annual Rainfall Distribution for
Crop Production, American Journal of Theoretical and Applied Statistics, Vol. 3, No.2, 2014, pp. 3943.
[13] Firdaniza 2016. Distribution de l'outil de simulation de Markov pour la prévision de l'épidémie de grippe
aviaire dans la région de Jawa Barat.
Actes du séminaire Matematika dan Pendidikan Matematika. ISBN : 978-602-6122-20-9
[14] Munkhammar J et Widen J 2018 Un modèle de distribution de mélange par chaîne de Markov à 𝑁𝑁 états de
l'indice de ciel clair. Elsevier Journal. Doi: 10.1016/j.solener.2018.07.056
[15] Chung C H 2007 Vegetation response to climate change on Jeju Island, South Korea, during the last
deglaciation based on pollen record. Geosciences Journal, vol. 11, no. 2, pp. 147-155.
[16] Yoo C, Lee J, Ro Y 2016 Décomposition par chaîne de Markov des précipitations mensuelles en
précipitations quotidiennes : Évaluation de l'impact du changement climatique. Article de recherche,
Advances in Meteorology. Doi : 10.1155/2016/7957490
[17] Zohadi B M et Salam A C A 1981. Un modèle stochastique des précipitations quotidiennes pour Universiti
Pertanian Malaysia,
Serdang, Pertanika, 4(1), 1-9
[18] Han J et Kamber M 2006 Data Mining : Concept and Techniques Second Edition, Morgan Kaufmann
Publishers.
[19] Tamiselvi R, Sivaskhti B et Kavitha R 2015 An Efficient Preprocessing and Postprocessing Techniques in
Data Mining. International Journal of Resesarch in Computer Applications and Robotics. ISSN : 23207345
[20] Diaz J L, Herrera M, Izquierdo J, Garcia R P 2010 Les tâches de pré et post-traitement en Data Mining
appliquées à un problème du monde réel. Congrès international sur la modélisation environnementale et
les logiciels.
Université Bringham Young
16
Conférence internationale sur la météorologie tropicale et les sciences
IOP Publishing
atmosphériques
[21] Conf.
WangSeries
Y, : Science
Steele de
T laetterreZhang
E 2016 QQ303Plot.
IOP
et de l'environnement
(2019)https://math.illinois.edu/system/files/inlinedoi:10.1088/1755-1315/303/1/012026
012026 files/Proj9AY1516-report2.pdf
17
Téléchargement