Abonnez-vous à DeepL Pro pour traduire des fichiers plus volumineux. Visitez www.DeepL.com/propour en savoir plus. Série de conférences IOP : Sciences de la terre et de l'environnement ARTICLE - ACCÈS LIBRE Vous pouvez également aimer Une application de la chaîne de Markov pour - Méthode analytique sur la fiabilité des données pluviométriques du radar Données sur les précipitations à Java Ouest en utilisant l'exploration la prédiction de l'approche polarimétrique en bande X de N A Hasan, M Goto et K Miyamoto Pour citer cet article : A Azizah et al 2019 IOP Conf. Ser : Earth Environ. Sci. 303 012026 données - Évaluation des données CCTV pour l'estimation des conditions de pluie Sinta Berliana Sipayung, Lilik Slamet, Edy Maryadi et al. Consultez l'article en ligne pour connaître les mises à jour et les améliorations. - Approche par impulsion rectangulaire de Bartlett Lewis (BLRP) avec procédure d'ajustement proportionnel dans la méthode de désagrégation des précipitations dans le laboratoire d'hydrologie de la station pluviale de l'université de Brawijaya Novita Putri Kurnia Dewi et Suci Astutik Ce contenu a été téléchargé depuis l'adresse IP 41.77.17.9 le 18/03/2022 à 05:49. Conférence internationale sur la météorologie tropicale et les sciences atmosphériques IOP Conf. Series : Science de la terre et de l'environnement 303 (2019) 012026 IOP Publishing doi:10.1088/1755-1315/303/1/012026 Une application de la chaîne de Markov pour prédire les données sur les précipitations à Java Ouest en utilisant une approche d'exploration de données. A Azizah1 , R WElastika1 , A Nur Falah2 , B N Ruchjana2 et A S Abdullah3 1 Étudiant en master au département de mathématiques de l'Universitas Padjadjaran. Département de mathématiques, Universitas Padjadjaran 3 Département d'informatique, Universitas Padjadjaran 2 [email protected] Résumé. Le modèle de chaîne de Markov est un processus stochastique permettant de déterminer la probabilité de transition d'un espace d'état en fonction d'un état précédent. Nous pouvons utiliser une distribution stationnaire du modèle de chaîne de Markov de premier ordre pour déterminer la probabilité à long terme des phénomènes pluvieux. Les données sur les précipitations dans la région de Java Ouest sont importantes, car nous disposons de nombreuses données sur les précipitations provenant de nombreuses villes et régences, à la fois dans les observations spatiales et temporelles. En outre, dans cet article, nous démontrons une application de la chaîne de Markov en utilisant une approche d'exploration de données pour obtenir la connaissance comme un modèle pour la description et la prédiction des données de précipitations mensuelles dans les saisons humides décembre-janvier-février (DJF) en utilisant la méthode de découverte de connaissances dans les bases de données (KDD) par le prétraitement, le processus d'exploration de données et le post-traitement. Nous simulons les données de précipitations mensuelles de l'année 1981 à 2017 en utilisant des espaces à quatre états : faible (0), moyen (1), élevé (2) et très élevé (4). Le résultat de la chaîne de Markov montre que la probabilité d'occurrence des phénomènes pluvieux pour les quatre espaces d'état est : faible (22,62 %), moyenne (24,86 %), élevée (25,46 %) et très élevée (27,05 %). Cela signifie que la région de Java Ouest aura, à long terme, une probabilité de précipitations très élevée. Mots-clés : Chaîne de Markov, Distribution stationnaire, Data Mining, Pluie. 1. Introduction L'île de Java est l'île avec la plus grande population en Indonésie et fait divers secteurs de développement des centres sur là. Java est également la plus grande île affectée par les phénomènes climatiques par rapport aux autres îles d'Indonésie, si nous prédisons les données de précipitations dans des endroits non observés, nous obtiendrons des données de précipitations avec un modèle similaire aux endroits observés en tant que voisins [1]. Les précipitations sont la hauteur de l'eau de pluie qui s'accumule dans un endroit plat, sans s'évaporer, sans pénétrer et sans s'écouler. 1 millimètre de pluie, ce qui signifie que dans une zone solide de mètres carrés, un endroit plat est retenu jusqu'à un millimètre d'eau ou peut contenir un litre ou 1000 ml d'eau [2]. Dans l'ouest de Java, les précipitations sont considérées comme l'une des principales contraintes des plans et des décisions politiques en matière d'agriculture en raison de la position de l'ouest de Java comme l'un des centres de l'alimentation basée sur la production de paddy dans la régence de Karawang. Il soutient les objectifs de développement durable pour couvrir les questions de développement social et économique, notamment la pauvreté, la faim, la santé, le réchauffement climatique, l'eau, etc. Les précipitations sont la partie la plus importante des tropiques qui influencent la production de paddy à Java Ouest. Sur cette base, il est nécessaire de disposer d'une méthode de prédiction assez précise, en particulier pour les précipitations de la province de Java Ouest, car Java Ouest est l'une des régions où le secteur agricole est le plus important [3]. Conférence internationale sur la météorologie tropicale et les sciences IOP Publishing atmosphériques La quantité pluie qui produit à ce moment-là303 pourrait été influencée par la quantité de IOP Conf. Series de : Science de laseterre et de l'environnement (2019)avoir doi:10.1088/1755-1315/303/1/012026 pluie une fois auparavant, et la quantité de pluie dans le futur peut être affectée par la pluie actuelle, 012026 etc. Ce phénomène est un exemple concret de l'événement de la chaîne de Markov qui est une méthode de modélisation en Le contenu de cet ouvrage peut être utilisé selon les termes de la licence Creative Commons Attribution 3.0. Toute distribution ultérieure de ce travail doit maintenir l'attribution à l'auteur ou aux auteurs et le titre du travail, la citation du journal et le DOI. Publié sous licence par IOP Publishing Ltd1 Conférence internationale sur la météorologie tropicale et les sciences atmosphériques IOP Conf. Series : Science de la terre et de l'environnement 303 (2019) 012026 IOP Publishing doi:10.1088/1755-1315/303/1/012026 processus stochastiques [4]. Le modèle de chaîne de Markov est utilisé pour aider à estimer les changements qui peuvent se produire dans le futur, où les changements sont représentés dans des variables dynamiques à certains moments. La chaîne de Markov a été inventée par Andrey Andreyev Markov (1856-1922) [5]. On dit d'un processus stochastique qu'il comprend la chaîne de Markov s'il remplit les propriétés de Markov (propriété markovienne). Les propriétés de Markov stipulent que la probabilité d'un événement futur, avec des événements passés et des événements présents connus, ne dépend pas des événements passés et ne dépend que des événements présents [4, 6]. La chaîne de Markov est généralement classée en deux catégories, à savoir la chaîne de Markov à indice de paramètre discret et la chaîne de Markov à indice de paramètre continu. On dit que la chaîne de Markov est un indice de paramètre discret si l'état de changement se produit avec un intervalle de temps discret fixe. En revanche, la chaîne de Markov est dite à paramètre continu si l'état de changement se produit avec un intervalle de temps continu [7]. Les données relatives aux précipitations sont une série de données temporelles qui indiquent le mouvement de l'état dans un intervalle de temps discret fixe. La prévision des précipitations dans le futur est nécessaire pour anticiper la prévention si une forte intensité de pluie se produit pendant une longue période. En outre, elle indique que nous devons prendre en compte les autres phénomènes qui peuvent contribuer de manière significative à l'augmentation de l'intensité des précipitations [8]. En outre, dans cet article, une analyse d'une grande base de données de précipitations provenant de 27 districts/villes a été réalisée en utilisant la distribution stationnaire de la chaîne de Markov, puis utilisée pour prédire les précipitations dans l'ouest de Java en se basant sur une approche d'exploration de données utilisant la méthode KDD. 2. Méthode 2.1. Processus stochastiques Un processus stochastique {𝑋𝑋(𝑡𝑡), 𝑡𝑡 ∈ 𝑇𝑇} est une collection de variables aléatoires. Autrement dit, pour chaque 𝑡𝑡 dans l'ensemble d'indices 𝑇𝑇, 𝑋𝑋(𝑡𝑡) est une variable aléatoire. Si le paramètre temporel 𝑇𝑇 est un ensemble dénombrable 𝑇𝑇 = {0,1,2, ... }, le processus {𝑋𝑋(𝑛𝑛), 𝑛𝑛 = 0,1,2, ... } est appelé un processus stochastique à temps discret, et si 𝑇𝑇 est un continuum, le processus {𝑋𝑋(𝑡𝑡), 𝑡𝑡 ≥ 0} est appelé un processus stochastique continu. Pour un processus stochastique {𝑋𝑋(𝑡𝑡), 𝑡𝑡 ∈ 𝑇𝑇}, un ensemble de toutes les valeurs de 𝑋𝑋(𝑡𝑡) est appelé un espace d'états [9, 10]. 2.2. Concept de base des chaînes de Markov Un mathématicien russe, Markov, a introduit le concept de processus dans lequel une séquence ou une chaîne d'états discrets dans le temps pour lesquels la probabilité de transition d'un état à un état donné dans l'étape suivante de la chaîne dépend de la condition pendant l'étape précédente [11]. Une chaîne de Markov du premier ordre est un processus stochastique ayant la propriété que la probabilité des événements futurs ne dépend que de l'événement présent, en d'autres termes : 𝑃𝑃𝑃𝑃(𝑋𝑋𝑋𝑋+1 = 𝑥𝑥|𝑋𝑋1 = 𝑥𝑥1, 𝑋𝑋2 = 𝑥𝑥2, ... , 𝑋𝑋𝑋𝑋 = 𝑥𝑥𝑛𝑛) = 𝑃𝑃𝑃𝑃(𝑋𝑋𝑋𝑋+1 = 𝑥𝑥|𝑋𝑋𝑋𝑋 = 𝑥𝑥𝑛𝑛) (1) Pour tous les états 𝑥𝑥1 , 𝑥𝑥2 , ... , 𝑥𝑥𝑥𝑥 et tous 𝑛𝑛 ≥ 0, un tel processus stochastique est appelé chaîne de Markov [7, 12]. 2.3. Temps discret de la chaîne de Markov Supposons que {𝑋𝑋(𝑛𝑛), 𝑛𝑛 = 0,1,2, ... } est un processus stochastique avec un indice de paramètre discret et un espace d'état 𝑖𝑖 = 0,1,2, ... sauf indication contraire. Si 𝑃𝑃{\i1D44B↩(𝑛𝑛 + 1) = 𝑗𝑗||(0) = 𝑖𝑖0, 𝑋𝑋(1) = 𝑖𝑖1, ... , 𝑋𝑋(𝑛𝑛 - 1) = 𝑖𝑖𝑖𝑖-1, 𝑋𝑋(𝑛𝑛) = 𝑛𝑛} = 𝑃𝑃{𝑋𝑋(𝑛𝑛 + 1)} = 𝑗𝑗|𝑋𝑋(𝑛𝑛) = 1} = 𝑃𝑃𝑃𝑃𝑃𝑃(2) pour tous les 𝑖𝑖0, 𝑖𝑖1, ... , 𝑖𝑖𝑖𝑖-1, 𝑖𝑖, 𝑗𝑗 et 𝑛𝑛, alors le processus est appelé une chaîne de Markov à temps discret, et 𝑝𝑝𝑝𝑝𝑝𝑝 est appelé une probabilité de transition. La valeur 𝑝𝑝𝑝𝑝𝑝𝑝 est appelée probabilité de transition 2 Conférence internationale sur la météorologie tropicale et les sciences IOP Publishing atmosphériques (stationnaire), représente la probabilité que le processus, lorsqu'ildoi:10.1088/1755-1315/303/1/012026 est dans l'état 𝑖𝑖, fasse ensuite une IOP Conf. Serieselle : Science de la terre et de l'environnement 303 (2019) transition vers l'état 𝑗𝑗. La transition entre les états est décrite par la matrice de probabilité de transition, 012026 définie comme : 𝑃𝑃 = (𝑝𝑝𝑖𝑖𝑖𝑖 )= (𝑝𝑝10 𝑝𝑝0 0 𝑝𝑝2 0 ⋮ 𝑝𝑝0 1 𝑝𝑝11 𝑝𝑝2 1 ⋮ 3 𝑝𝑝0 2 𝑝𝑝1 2 𝑝𝑝2 2 ⋮ ⋯ ⋯) ⋯ ⋯ (3) Conférence internationale sur la météorologie tropicale et les sciences atmosphériques IOP Conf. Series : Science de la terre et de l'environnement 303 (2019) 012026 IOP Publishing doi:10.1088/1755-1315/303/1/012026 Puisque les probabilités sont non négatives et que le processus doit effectuer une transition vers un état quelconque, nous ont que 𝑝𝑝𝑝𝑝𝑝𝑝 ≥ 0, 𝑖𝑖, 𝑗𝑗 ≥ 0 et ∑∞ 𝑝𝑝𝑝𝑝𝑝𝑝𝑗𝑗=0 = 1, 𝑖𝑖, 𝑗𝑗 = 0,1,2, ... [7, 13]. 2.4. La matrice de transition à 𝑛𝑛 étapes Les probabilités de transition à un pas 𝑃𝑃𝑃𝑃𝑃𝑃 sont déjà définies. Définissons maintenant les probabilités de transition à un pas 𝑛𝑛. 𝑛𝑛 𝑃𝑃pour être la probabilité qu'un processus dans l'état 𝑖𝑖 soit dans l'état 𝑗𝑗 après 𝑛𝑛 transitions 𝑖𝑖𝑖𝑖 supplémentaires. Soit 𝐴𝐴 un événement. Une notation commode est 𝑃𝑃𝑃𝑃(𝐴𝐴) = 𝑃𝑃(𝐴𝐴|𝑋𝑋0 = 𝑖𝑖). Par exemple (4) 𝑃𝑃𝑃𝑃(𝑋𝑋1 = 𝑗𝑗) = 𝑝𝑝𝑝𝑝𝑝𝑝. Étant donné la distribution initiale 𝜆𝜆, traitons-la comme un vecteur de ligne. Alors 𝑃𝑃(𝑋𝑋1 = 𝑗𝑗) = ∑𝑖𝑖∈𝐼𝐼 𝜆𝜆𝜆𝜆𝜆𝜆𝜆𝜆(𝑋𝑋1 = 𝑗𝑗) = ∑𝑖𝑖∈𝐼𝐼 𝜆𝜆𝜆𝜆𝜆𝜆𝜆𝜆𝜆𝜆. (5) De même, 𝑃𝑃𝑃𝑃(𝑋𝑋2 = 𝑗𝑗) = ∑𝑘𝑘 𝑃𝑃𝑃𝑃 (𝑋𝑋1 = 𝑘𝑘, 𝑋𝑋2 = 𝑗𝑗) = ∑𝑘𝑘 𝑃𝑃𝑃𝑃𝑃𝑃 𝑃𝑃𝑃𝑃𝑃𝑃 = (𝑃𝑃2 )𝑖𝑖𝑖𝑖(6) 𝑃𝑃(𝑋𝑋2 = 𝑗𝑗) = ∑𝑖𝑖,𝑘𝑘 𝜆𝜆𝜆𝜆𝜆𝜆𝜆𝜆(𝑋𝑋1 = 𝑘𝑘, 𝑋𝑋2 = 𝑗𝑗) = ∑𝑖𝑖,𝑘𝑘 𝜆𝜆𝜆𝜆𝜆𝜆𝜆𝜆𝜆𝜆 𝑃𝑃𝑃𝑃𝑃𝑃 = (𝜆𝜆𝜆𝜆2 )𝑗𝑗. (7) En poursuivant de cette manière, 𝑃𝑃 (𝑋𝑋 = 𝑗𝑗) = (𝛿𝛿 𝑃𝑃𝑛𝑛 ) = (𝑃𝑃𝑛𝑛 ) 𝑖𝑖𝑖𝑖 𝑖𝑖 𝑃𝑃(𝑋𝑋𝑋𝑋 = 𝑗𝑗) = ∑𝑖𝑖 ,... 0𝑛𝑛-10,𝑖𝑖𝑖𝑖𝑖𝑖 0 𝑃𝑃𝑃𝑃 1𝑛𝑛-1 𝑖𝑖𝑖𝑖 (8) = 𝑃𝑃(𝑛𝑛) 𝑖𝑖𝑖𝑖 𝑖𝑖 ...𝑃𝑃𝑃𝑃𝑃𝑃 = (𝜆𝜆𝜆𝜆𝑛𝑛 )𝑗𝑗. (9) Ainsi, 𝑃𝑃(𝑛𝑛) = (𝑃𝑃𝑖𝑖𝑖𝑖(𝑛𝑛) ), la matrice de transition à 𝑛𝑛 étapes, est simplement 𝑃𝑃𝑛𝑛 . De plus, pour tous les 𝑖𝑖, 𝑗𝑗 et 𝑛𝑛, 𝑚𝑚 ≥ 0, les équations de Chapman-Kolmogorov (évidentes) se vérifient : 𝑃𝑃(𝑛𝑛+𝑚𝑚) ∑𝑃𝑃( 𝑃𝑃(𝑚𝑚) = 𝑛𝑛) 𝑘𝑘∈𝐼𝐼 𝑖𝑖𝑖𝑖 𝑖𝑖𝑖𝑖 (10) 𝑘𝑘𝑘𝑘 Elle doit son nom à sa formulation indépendante par Chapman et Kolmogorov (19031987) [7]. L'équation de Chapman-Kolmogorov affirme que (11) 𝑝𝑝(𝑛𝑛+𝑚𝑚) = 𝑝𝑝(𝑛𝑛). 𝑝𝑝(𝑚𝑚) où le produit scalaire représente la multiplication de la matrice. Par conséquent, en particulier 𝑝𝑝(2) = 𝑝𝑝(1+1) = 𝑝𝑝2(12) et par induction 𝑝𝑝(𝑛𝑛) = 𝑝𝑝(𝑛𝑛+1-1) = 𝑝𝑝𝑝𝑝-1. 𝑝𝑝 = 𝑝𝑝𝑝𝑝(13) Autrement dit, la matrice de transition à 𝑛𝑛 étapes peut être obtenue en multipliant la matrice 𝑝𝑝 par ellemême 𝑛𝑛 fois [12, 14]. 2.5. Distribution stationnaire de la chaîne de Markov Il existe une probabilité limite que le processus se trouve dans l'état 𝑗𝑗 après un grand nombre de transitions, et cette valeur est indépendante de l'état initial. En d'autres termes, l'état 𝑝𝑝𝑛𝑛 converge vers 𝑖𝑖𝑖𝑖 une certaine valeur (comme 𝑛𝑛 → ∞) qui est le même pour tous les 𝑖𝑖. Théorème. Si une chaîne de Markov irréductible est récurrente 4 Conférence la météorologie tropicale et les sciences positive et internationale apériodique, sur il existe la probabilité limite atmosphériques IOP Conf. Series : Science de la terre et de l'environnement 303 (2019) 012026 5 IOP Publishing doi:10.1088/1755-1315/303/1/012026 Conférence internationale sur la météorologie tropicale et les sciences atmosphériques IOP Conf. Series : Science de la terre et de l'environnement 303 (2019) 012026 IOP Publishing doi:10.1088/1755-1315/303/1/012026 (14) 𝑙𝑙𝑙𝑙𝑙𝑙 𝑝𝑝𝑛𝑛 = 𝜋𝜋𝜋𝜋 > 0 où (𝑖𝑖, 𝑗𝑗 = 0,1,2 ... ) 𝑖𝑖𝑖𝑖 𝑛𝑛→∞ Qui est indépendant de l'état initial 𝑖𝑖, où (𝜋𝜋𝑗𝑗 , 𝑗𝑗 = 0,1,2, ... ) est une solution unique et positive à 𝜋𝜋𝜋𝜋 = ∑ 𝑖𝑖=0 𝜋𝜋𝜋𝜋𝜋𝜋𝜋𝜋𝜋𝜋 où = 1 ∑∞ 𝑗𝑗=0 𝜋𝜋𝜋𝜋 ∞ (𝑗𝑗 = 0,1,2, ... ) (15) (16) et elle est appelée distribution stationnaire pour une chaîne de Markov [10]. 2.6. Modèle de chaîne de Markov pour les données de précipitations mensuelles Les modèles dépendant de la chaîne traitent séparément l'occurrence et l'intensité des événements pluvieux quotidiens [15]. Le terme "dépendance en chaîne" reflect la structure statistique de la séquence d'occurrence. Le modèle de précipitations mensuelles basé sur une chaîne de Markov peut être utilisé pour déterminer l'occurrence des précipitations (c'est-à-dire les conditions de précipitations élevées ou faibles) en fonction des probabilités de transition [16]. Les probabilités de transition, estimées à partir des mesures historiques, représentent les probabilités de haute à haute, haute à basse, basse à haute, et basse à basse. Si le jour suivant, les précipitations sont élevées, alors l'intensité des précipitations est donnée comme une variable aléatoire suivant une fonction de densité de probabilité. Le modèle de précipitations quotidiennes basé sur la chaîne de Markov peut être expliqué comme suit. Tout d'abord, définissez 𝑋𝑋𝑋𝑋 comme la condition de pluie haute et basse au jour 𝑡𝑡-h. C'est-à-dire , 𝑋𝑋𝑋𝑋 = 0, 𝑋𝑋𝑋𝑋 = 1, si les précipitations du jour 𝑡𝑡 sont élevées. si les précipitations du jour 𝑡𝑡 sont faibles. En supposant que la probabilité d'occurrence des précipitations actuelles dépende de la condition du jour précédent, alors 𝑋𝑋𝑋𝑋 suit la chaîne de Markov de premier ordre, et alors la probabilité de transition des précipitations quotidiennes peut être divisée en quatre cas suivants : 𝑃𝑃[𝑋𝑋𝑋𝑋 = 1 | 𝑋𝑋𝑋𝑋-1 = 0] = 𝑝𝑝01 𝑃𝑃[𝑋𝑋𝑋𝑋 = 1 | 𝑋𝑋𝑡𝑡-1 = 0] = 𝑝𝑝11 𝑃𝑃[𝑋𝑋𝑋𝑋 = 0 | 𝑋𝑋𝑋𝑋-1 = 1] = 𝑝𝑝00 𝑃𝑃[𝑋𝑋𝑋𝑋 = 0 | 𝑋𝑋𝑋𝑋-1 = 1] = 𝑝𝑝10 Les équations ci-dessus expriment les probabilités conditionnelles d'être humide ou sec le jour 𝑡𝑡 en fonction de la condition d'être humide ou sec le jour 𝑡𝑡 - 1. Par conséquent, 𝑝𝑝00 = 1 - 𝑝𝑝01 et 𝑝𝑝11 = 1 𝑝𝑝10. Aussi, ces quatre probabilités constituent une matrice de probabilité de transition : 𝑝𝑝00 (𝑝𝑝 𝑝𝑝01𝑃𝑃 = ) (17) 1011 Pour dériver le nombre de jours humides, nous devons d'abord définir les probabilités de transition d'étape 𝑛𝑛 : 𝑝𝑝00𝑝𝑝01 𝑛𝑛 𝑃𝑃 = (𝑝𝑝10𝑝𝑝11) 𝑛𝑛 (18) Les probabilités de transition d'étape𝑛𝑛𝑛𝑛 convergent vers certaines probabilités lorsque 𝑛𝑛 augmente : 𝑝𝑝00𝑝𝑝01 𝜋𝜋0𝜋𝜋1 𝑛𝑛 𝑙𝑙𝑙𝑙𝑙𝑙 𝑃𝑃 = 𝑙𝑙𝑙𝑙𝑙𝑙 ) (19) (𝜋𝜋𝜋𝜋 (𝑝𝑝𝑝𝑝) = 𝑛𝑛→∞𝑛𝑛→∞101101 Ces probabilités 𝜋𝜋0 et 𝜋𝜋1 représentent les probabilités moyennes d'occurrence des conditions de fortes et 6 Conférence internationale surles la appelle météorologie tropicale et les sciences [16, 17]. IOP Publishing faibles précipitations. On les probabilités stationnaires atmosphériques IOP Conf. Series : Science de la terre et de l'environnement 303 (2019) doi:10.1088/1755-1315/303/1/012026 012026 7 Conférence internationale sur la météorologie tropicale et les sciences atmosphériques IOP Conf. Series : Science de la terre et de l'environnement 303 (2019) 012026 IOP Publishing doi:10.1088/1755-1315/303/1/012026 2.7. Exploration de données et découverte de connaissances dans les bases de données L'exploration de données est le processus qui consiste à découvrir des modèles et des connaissances intéressants à partir de grandes quantités de données. Les sources de données peuvent être des bases de données, des entrepôts de données, le Web, d'autres dépôts d'information ou des données qui sont introduites dans le système de façon dynamique. En tant que processus de découverte de connaissances, il implique généralement le nettoyage des données, l'intégration des données, la sélection des données, la transformation des données, la découverte de modèles, l'évaluation des modèles et la présentation des connaissances [18]. L'exploration de données est également connue sous le nom de découverte de connaissances dans les bases de données (KDD), d'extraction de connaissances, d'analyse de données/modèles, d'archéologie des données, de dragage de données, de récolte d'informations, de veille économique, etc. Figure 1. Processus de découverte de connaissances dans les bases de données (KDD) La figure 1. ci-dessus est une vue des communautés typiques de systèmes de base de données et d'entreposage de données. L'exploration de données joue un rôle essentiel dans le processus de découverte de connaissances. L'exploration de données a de nombreuses applications réussies, telles que la veille économique, la recherche sur le Web, la bioinformatique, l'informatique de santé, la finance, les bibliothèques numériques et les gouvernements numériques [18]. 2.8. Exploration de données sur les précipitations à Java Ouest Dans cette recherche, nous utilisons les données de précipitations de la station CHIRPS (Climate Hazards Group InfraRed Precipitation with Station) du LAPAN Bandung. CHIRPS est une donnée importante, car il s'agit d'un ensemble de données pluviométriques quasi-globales sur plus de 30 ans. Il s'étend sur 50°S-50°N (et toutes les longitudes), depuis 1981 jusqu'à aujourd'hui. Dans cette recherche, nous utilisons les données CHIPS de l'année 1981 à 2017. La procédure de l'approche d'exploration de données pour les données CHIPS est la suivante : • Le prétraitement des données est une technique d'exploration de données qui consiste à transformer des données brutes en un format compréhensible [17]. Les données brutes sont très sensibles au bruit, aux valeurs manquantes et à l'incohérence. La qualité des données affecte les résultats de l'exploration de données. Afin d'aider à améliorer la qualité des données et, par conséquent, les résultats de l'exploration, les données brutes sont prétraitées afin d'améliorer l'efficacité et le cas du processus d'exploration. Les méthodes de prétraitement des données sont divisées en quatre catégories : le nettoyage des données, l'intégration des données, la transformation des données et la réduction des données [19]. • Dans cette recherche, les données sur les précipitations à Java Ouest en tant que big data sont des données spatio-temporelles qui consistent en 432 observations mensuelles, dont 36 années au cours de 1981-2017 dans 27 districts et villes. La taille des données 432 × 27 est ensuite effectuée en utilisant la méthode de nettoyage des données. La méthode de nettoyage consiste 8 Conférence internationale sur la météorologie tropicale et les sciences IOP Publishing atmosphériques remplir les valeurs vides des données, à ignorer les données bruyantes et à corriger les IOP Conf.à Series : Science de la terre et de l'environnement 303 (2019) doi:10.1088/1755-1315/303/1/012026 012026 incohérences des données. La méthode de nettoyage est utilisée en sélectionnant les données basées sur les mois humides, à savoir décembre, janvier et février (DJF) pour chaque année qui a commencé en décembre 1981 à février 2017, de sorte que la taille des données devient plus compréhensible et plus facile à traiter avec une taille de 108 × 27. 9 Conférence internationale sur la météorologie tropicale et les sciences atmosphériques IOP Conf. Series : Earth and Environmental Science 303 1315/303/1/012026 • • IOP Publishing (2019) 012026doi:10.1088/1755- Le processus d'exploration de données utilisant la méthode de la chaîne de Markov commence par la définition de 𝐾𝐾 espaces d'état, la détermination de la matrice de fréquence de transition avec un ordre de 𝐾𝐾 × 𝐾𝐾, la détermination de la matrice de probabilité de transition, la détermination de la distribution stationnaire, le calcul de la proportion à long terme de la chaîne de Markov, la description et la prédiction. La composante de post-traitement peut être classée dans les groupes suivants : filtrage des connaissances, interprétation et explication, évaluation et intégration des connaissances [20]. Dans le cas de l'application de la chaîne de Markov pour prédire les données de précipitations à Java Ouest en utilisant l'approche d'exploration de données, les résultats de la connaissance sont de déterminer les probabilités à long terme pour les précipitations à Java Ouest en utilisant la méthode de la chaîne de Markov. 3. Résultats Le processus de cette recherche est en principe divisé en quatre parties, à savoir la collecte des données, les processus d'exploration des données, le traitement des données à l'aide de la méthode des chaînes de Markov et l'analyse des résultats. Le déroulement de cette recherche est décrit dans l'organigramme suivant. Débu t Entrée des données Processus d'extraction de données Espace d'état des données pluviales État 1 : Faible (0) État 3 : Haut (2) État 2 : Moyen (1) État 4 : Très élevé (3) Matrice de probabilité de transition Distribution stationnaire Description et prédiction des données relatives aux précipitations à Java Ouest Stop Figure 2. Organigramme d'un processus de Markov utilisant des données de précipitations dans 4 espaces d'état Les précipitations dans un lieu sont généralement imprévisibles, les données pluviométriques peuvent être quotidiennes, hebdomadaires, mensuelles ou annuelles. Les données qui seront utilisées dans cette recherche sont les données pluviométriques dans 27 districts/villes de la province de Java Ouest pour les mois humides de décembre, janvier et février, calculées de décembre 1981 à février 2017. 10 Conférence internationale sur la météorologie tropicale et les sciences atmosphériques Tableau 1. Exemple stationnaire de données de précipitations mensuelles dans 27 districts/villes Année 1981-2017 (source : LAPAN Bandung) Non. Ville/District. 1 Dist. Bandung Latitude -7.12 Longitude 107.57 11 Déc-81 317 Jan-82 323 ... ... IOP Publishing Fév-17 325 Conférence internationale sur la météorologie tropicale et les sciences atmosphériques IOP Conf. Series : Earth and Environmental Science 303 1315/303/1/012026 2Dist.Bandung Barat 3Dist.Bekasi 4Dist.Bogor 5Dist.Ciamis 6Dist.Cianjur 7Dist.Cirebon 8Dist.Garut 9Dist.Indramayu 10Dist.Karawang 11Dist.Kuningan 12Dist.Majalengka 13Dist.Pangandaran 14Dist.Purwakarta 15Dist.Subang 16Dist.Sukabumi 17Dist.Sumedang 18Dist.Tasikmalaya 19BandungCity 20BanjarCity 21BekasiCity 22BogorCity 23CimahiCity 24CirebonCity 25DepokCity 26SukabumiCity 27TasikmalayaCity 28WestJava Moyenne -6.87 -6.23 -6.58 -7.22 -6.81 -6.77 -7.39 -6.45 -6.29 -6.98 -6.86 -7.61 -6.60 -6.56 -6.85 -6.82 -7.54 -6.92 -7.37 -6.27 -6.59 -6.88 -6.73 -6.39 -6.93 -7.35 -7.50 107.41 107.15 106.88 108.39 107.13 108.51 107.77 108.16 107.41 108.50 108.22 108.50 107.47 107.71 106.96 107.99 108.14 107.62 108.53 106.97 106.80 107.54 108.56 106.80 106.93 108.23 108.48 IOP Publishing (2019) 012026doi:10.1088/1755- 305 291 408 552 373 336 361 232 298 416 482 344 477 444 528 351 408 171 412 309 411 227 360 343 377 466 200 231 403 394 588 315 647 347 404 367 574 535 361 318 390 326 478 412 220 612 435 357 178 608 415 309 474 260 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 229 364 445 417 307 388 264 310 325 386 411 286 327 333 447 322 311 167 422 387 436 144 378 363 321 353 769 Pour montrer que les données sont normalement distribuées, on utilise l'histogramme et le graphique QQ de la figure suivante : Figure 3. Histogramme des données pluviométriques à Java OuestFigure données pluviométriques à Java Ouest. Java 4. Graphique normal Q-Q des La figure 3. ci-dessus montre que les résultats du nettoyage des données pour la moyenne de Java Ouest sont normalement distribués, ce qui est caractérisé par une courbe de distribution normale en forme de cloche qui est assez symétrique. Quant à la figure 4, nous voyons que le point correspond à une ligne diagonale droite, ce qui montre que les quantiles correspondent et sont normalement distribués [21]. Les étapes de la simulation utilisant le modèle de chaîne de Markov sont les suivantes [10] : • Définir les espaces d'état 𝐾𝐾. • Les données de pluviométrie sont divisées en 4 états, à savoir une pluviométrie faible (0), 12 Conférence internationale sur la météorologie tropicale et les sciences IOP Publishing atmosphériques moyenne (1), élevée (2) et très élevée (3). La pluviométrie est catégorisée comme faible (0) si la valeur de la pluie ≤ le quartile inférieur, catégorisée comme moyenne (1) si le quartile inférieur < la valeur de la pluie < le quartile moyen, catégorisée comme élevée (2) si. 13 Conférence internationale sur la météorologie tropicale et les sciences atmosphériques IOP Conf. Series : Science de la terre et de l'environnement 303 (2019) 012026 • IOP Publishing doi:10.1088/1755-1315/303/1/012026 le quartile moyen < valeur des précipitations < quartile supérieur, et classée très élevée (3) si la valeur des précipitations ≥ quartile supérieur. Déterminer une matrice d'ordre K × K, avec l'état initial en ligne et l'état final en colonne, puis préciser le nombre de déplacements pour chaque état. Tableau 2. Fréquence des espaces de transition des précipitations à 4 états dans l'ouest de Java N°Ville/District 1DistBandung 2Dist. BandungBarat 3Dist.Bekasi 4DistBogor 5Dist.Ciamis 6Dist.Cianjur 7Dist. de Cirebon 8Dist.Garut 9Dist.Indramayu 10Dist.Karawang 11Dist.Kuningan 12Dist.Majalengka 13Dist.Pangandaran 14Dist.Purwakarta 15Dist. Subang 16Dist.Sukabumi 17Dist.Sumedang 18Dist.Tasikmalaya 19BandungCity 20BanjarCity 21BekasiCity 22BogorCity 23CimahiCity 24CirebonCity 25DepokCity 26SukabumiCity 27TasikmalayaCity 28WestJava Moyenne • 00 7 4 5 7 6 4 4 4 6 5 7 8 5 5 6 6 5 4 3 5 5 5 3 5 5 5 6 17 01 5 5 6 5 5 8 9 5 8 4 6 3 7 4 4 6 5 4 3 4 7 5 5 8 8 1 5 5 02 7 8 6 5 8 7 6 11 2 10 6 8 5 8 8 7 7 10 12 8 7 8 5 7 6 10 7 5 État de transition 𝑖𝑖 𝑡𝑡𝑡𝑡 𝑗𝑗, 𝑖𝑖 = 0,1,2,3 et 𝑗𝑗 = 0,1,2,3 03 10 11 12 13 20 21 22 23 30 8 9 10 10 8 8 8 6 11 8 8 8 10 10 9 8 10 9 8 10 8 9 13 7 8 11 9 0 4 7 10 8 8 8 8 8 5 7 6 9 9 9 11 4 11 11 10 12 9 12 7 7 6 8 10 5 6 5 5 7 6 3 3 7 4 6 3 5 9 5 2 7 2 8 4 6 4 6 6 3 5 7 4 12 8 9 3 7 5 8 8 4 11 5 9 4 5 7 7 8 5 2 4 4 4 4 6 7 8 6 6 7 7 6 9 5 7 7 7 8 7 9 8 8 4 5 6 8 8 5 9 5 10 5 8 9 8 5 6 3 10 9 6 6 9 10 10 7 10 7 8 5 7 6 5 10 5 6 11 5 9 4 10 11 9 9 7 4 5 8 8 8 7 8 5 7 7 9 9 9 6 9 9 7 10 8 7 10 4 5 5 4 4 11 11 8 7 5 8 5 7 4 5 7 5 5 7 7 8 7 7 6 9 7 4 5 7 6 8 8 6 3 5 8 5 5 5 8 4 5 7 6 4 6 3 6 5 5 6 3 3 6 5 6 7 11 4 4 7 4 4 7 6 7 6 6 4 5 4 8 5 8 6 5 6 7 5 7 6 6 2 5 4 6 7 4 7 5 4 0 31 9 9 8 7 9 8 10 8 8 8 8 10 5 9 12 7 9 7 13 7 12 11 11 11 10 8 7 2 32 5 4 9 9 7 7 8 4 9 6 5 7 9 5 4 6 6 8 7 9 8 8 7 5 6 7 9 7 33 7 7 3 4 7 7 5 7 5 4 8 5 7 6 6 7 6 6 5 6 2 2 2 7 4 7 7 17 La matrice de fréquence de transition de l'étape précédente est utilisée pour déterminer la matrice de probabilité de transition en divisant chaque valeur de transition par le nombre dans chaque ligne (fréquence relative). Matrice de probabilité de transition 4 état de l'espace pour la moyenne des précipitations à Java Ouest 𝑃𝑃𝑃𝑃est Java Moyenne 0 0.62962963 0.185185185 0.185185185 0 0.4 1 0.185185185 0.1 0.259259259 ] = 2 0.148148148 [ 0.296296296 0.296296296 0.259259259 0.076923077 0.269230769 0.653846154 30 Le diagramme de transition pour la moyenne des précipitations à Java Ouest avec 4 espaces d'état est le suivant : 14 Conférence internationale sur la météorologie tropicale et les sciences atmosphériques IOP Conf. Series : Science de la terre et de l'environnement 303 (2019) 012026 IOP Publishing doi:10.1088/1755-1315/303/1/012026 Figure 5. Diagramme de transition de la moyenne des précipitations à Java Ouest avec 4 espaces d'état • Calculer la proportion à long terme de la chaîne de Markov dont l'état 𝐾𝐾 est noté 𝜋𝜋𝜋𝜋 en utilisant l'équation (15). Ensuite, avec 𝐾𝐾 = 4, alors 𝜋𝜋0, 𝜋𝜋1, 𝜋𝜋2 et 𝜋𝜋3 sont les proportions à long terme pour les états 0, 1, 2 et 3. Les résultats suivants de la distribution stationnaire en pourcentages sont présentés dans le tableau 3. Tableau 3. Distribution stationnaire 4 espaces d'état des précipitations à Java Ouest N° • Ville/District 1DistBandung 2Dist. BandungBarat 3Dist.Bekasi 4DistBogor 5Dist.Ciamis 6Dist.Cianjur 7Dist. de Cirebon 8Dist.Garut 9Dist.Indramayu 10Dist.Karawang 11Dist.Kuningan 12Dist.Majalengka 13Dist.Pangandaran 14Dist.Purwakarta 15Dist. Subang 16Dist.Sukabumi 17Dist.Sumedang 18Dist.Tasikmalaya 19BandungCity 20BanjarCity 21BekasiCity 22BogorCity 23CimahiCity 24CirebonCity 25DepokCity 26SukabumiCity 27TasikmalayaCity 28WestJava Moyenne Distribution stationnaire (%) Faible Assez bas (1) Moyen (2) (0) 25.76 25.09 25.24 25.24 25.37 25.18 24.43 25.14 24.47 25.27 25.23 25.38 25.28 25.3 25.41 25.35 25.23 25.41 24.3 25.23 25.11 25.23 25.02 25.23 25.23 25.21 25.43 22.62 24.81 25.17 25.24 25.21 25.13 25.09 25.06 25.18 25.21 25.21 24.3 25.09 25.29 25.11 25.02 25.24 24.3 25.25 25.23 25.23 25.47 25.23 25.29 24.3 25.23 25.12 25.12 24.86 25.76 24.38 24.34 24.43 25.18 24.43 25.29 24.44 25.29 24.35 25.23 24.22 25.2 25.31 24.31 25.25 25.23 25.05 25.23 24.3 24.31 24.3 24.21 25.23 24.3 24.4 25.15 25.46 Haut (3) 25.76 25.37 25.18 25.12 24.32 25.3 25.21 25.24 25.03 25.17 25.23 25.31 24.24 24.28 25.26 24.17 25.23 24.29 25.23 25.23 25.11 25.23 25.48 25.23 25.23 25.27 24.3 27.05 Description et prédiction. Sur la base de la distribution stationnaire de la chaîne de Markov, la probabilité de changement des précipitations des phénomènes faibles est de 22,62 %, moyenne est de 24,86 %, élevée est de 25,46 %, et très élevée est de 27,05 %. Ce résultat indique qu'à long terme, le phénomène des données mensuelles sur les précipitations dans la région de Java Ouest a tendance à changer, mais la probabilité est encore élevée (0,27). Elle est encore assez importante par rapport aux autres espaces d'état faible, moyen et élevé. Le résultat peut être donné comme une recommandation pour un 15 Conférence internationale sur la météorologie tropicale et les sciences atmosphériques IOP Conf. Series : Science de la terre et de l'environnement 303 (2019) 012026 IOP Publishing doi:10.1088/1755-1315/303/1/012026 des institutions connexes telles que le LAPAN et le BMKG. En outre, les institutions peuvent annoncer une attention particulière pour informer la société de la situation des phénomènes pluvieux. Remerciements Les auteurs remercient le Recteur Universitas Padjadjaran pour le financement de cette recherche par le biais de l'Academic Leadership Grant et du RKDU 2018. Ils remercient également les chercheurs du LAPAN Bandung pour les données et la discussion. Références [1] Abdullah A S, Matoha S, Lubis D A, Falah A N, Jaya I G N M, Hermawan E, Ruchjana B N, 2018 Mise en œuvre d'un modèle autorégressif spatio-temporel généralisé (GSTAR)-Kriging pour prédire les données de précipitations à des emplacements non observés à Java Ouest. Mathématiques appliquées et sciences de l'information, 12 (3), 607-615. [2] http://bidinagtuns.blogspot.co.id/2010/11/curah-hujan.html, consulté le 13 mars 2018 [3] Rustiana S, Ruchjana B N, Abdullah A S, Hermawan E, Sipayung S B, Jaya I G N M et Krismianto. Rainfall prediction of Cimanuk watershed regions with canonical correlation analysis (CCA), Journal of Physics : Conf. Series, 89312021, doi:10.1088/1742-6596/893/1/012021, 2017. [4] Sandi R 2015 Simulasi Curah Hujan Harian Menggunakan Stokastik Rantai Markov Orde 3 × 3 (Studi Kasus : Daerah Aliran Sungai Kampar). Jom FTEKNIK Volume 2 n° 2 octobre 2015. [5] Sujatmoko et Bambang 2012 Analisa Kehandalan Stokastik Rantai Markov untuk Simulasi Data Curah Hujan Harian pada Das Kampar. Jurnal Sains dan Teknologi 11 (1), ISSN 1412-66257. [6] Tovler A 2016 An Introductoin to Markov Chains. Département des sciences mathématiques, Université de Copenhague, Danemark. [7] Ross S M 1996. Stochastic Processes Second Edition. Université de Californie, Berkeley, États-Unis d'Amérique. [8] Hermawan E, Ruchjana B N, Abdullah A S, Jaya I G N M, Sipayung S B, Rustiana S Développement du modèle statistique ARIMA : une application pour prédire l'arrivée de l'indice MJO, Journal of Physics : Conf. Ser. 893 012019, doi:10.1088/1742-596/893/1/012019, 2017. [9] Doubleday K J et Julius N E 2011. Application des chaînes de Markov aux tendances boursières. Journal of Mathematics and Statistics, 7 (2) : 103-106 [10] Osaki S 1992 Applied Stochastic System Modelling. Berlin : Springer-Verlag Berlin Heidelberg. [11] https://hackernoon.com/what-steps-should-one-take-while-doing-data-preprocessing-502c993e1caa, consulté le 20 janvier 2019 [12] Abubakar U Y, Lawal A, Muhammed A 2014 Markov Chain Model to Annual Rainfall Distribution for Crop Production, American Journal of Theoretical and Applied Statistics, Vol. 3, No.2, 2014, pp. 3943. [13] Firdaniza 2016. Distribution de l'outil de simulation de Markov pour la prévision de l'épidémie de grippe aviaire dans la région de Jawa Barat. Actes du séminaire Matematika dan Pendidikan Matematika. ISBN : 978-602-6122-20-9 [14] Munkhammar J et Widen J 2018 Un modèle de distribution de mélange par chaîne de Markov à 𝑁𝑁 états de l'indice de ciel clair. Elsevier Journal. Doi: 10.1016/j.solener.2018.07.056 [15] Chung C H 2007 Vegetation response to climate change on Jeju Island, South Korea, during the last deglaciation based on pollen record. Geosciences Journal, vol. 11, no. 2, pp. 147-155. [16] Yoo C, Lee J, Ro Y 2016 Décomposition par chaîne de Markov des précipitations mensuelles en précipitations quotidiennes : Évaluation de l'impact du changement climatique. Article de recherche, Advances in Meteorology. Doi : 10.1155/2016/7957490 [17] Zohadi B M et Salam A C A 1981. Un modèle stochastique des précipitations quotidiennes pour Universiti Pertanian Malaysia, Serdang, Pertanika, 4(1), 1-9 [18] Han J et Kamber M 2006 Data Mining : Concept and Techniques Second Edition, Morgan Kaufmann Publishers. [19] Tamiselvi R, Sivaskhti B et Kavitha R 2015 An Efficient Preprocessing and Postprocessing Techniques in Data Mining. International Journal of Resesarch in Computer Applications and Robotics. ISSN : 23207345 [20] Diaz J L, Herrera M, Izquierdo J, Garcia R P 2010 Les tâches de pré et post-traitement en Data Mining appliquées à un problème du monde réel. Congrès international sur la modélisation environnementale et les logiciels. Université Bringham Young 16 Conférence internationale sur la météorologie tropicale et les sciences IOP Publishing atmosphériques [21] Conf. WangSeries Y, : Science Steele de T laetterreZhang E 2016 QQ303Plot. IOP et de l'environnement (2019)https://math.illinois.edu/system/files/inlinedoi:10.1088/1755-1315/303/1/012026 012026 files/Proj9AY1516-report2.pdf 17