Prédiction NASDAQ 100: ARIMA vs Lissage Exponentiel vs LSTM

Telechargé par bernard sognombo
UNIVERSITE NATIONALE DES SCIENCES,
TECHNOLOGIES,INGENIEURIES ET
MATHEMATIQUES (UNSTIM)
ECOLE NATIONALE SUPERIEURE DE GENIE MATHEMATIQUE ET
MODELISATION (ENSGMM)
Projet Tutoré
Prédiction statique et dynamique du NASDAQ 100: étude
comparative des modèles ARIMA, lissage exponentiel et LSTM
Sous la supervision de :
Dr. (MA) BIAO I.Eliézer
Présenté par :
SOGNOMBO Bernard
FILIERE : GMM3
Année académique : 2024-2025
Contents
1 Introduction 3
2 Revue de littérature 3
3 Matériels et Méthodes 4
3.1 Principe de la méthode ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.2 Principe de la méthode LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.3 Lelissageexponentielle................................ 7
3.4 L’écart quadratique moyen (RMSE) . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.5 L’écart moyen absolu (MAE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.6 Matériels........................................ 8
4 Résultats et Discussion 8
4.1 Prédiction des prix avec le modèle ARIMA . . . . . . . . . . . . . . . . . . . . 8
4.1.1 Prédiction statique avec ARIMA . . . . . . . . . . . . . . . . . . . . . . 10
4.1.2 Prédiction dynamique avec ARIMA . . . . . . . . . . . . . . . . . . . . . 10
4.2 Prédiction des prix avec le lissage exponentielle . . . . . . . . . . . . . . . . . . 11
4.2.1 Prédiction statique avec le lissage exponentiel . . . . . . . . . . . . . . . 11
4.2.2 Prédiction dynamique avec le lissage exponentiel . . . . . . . . . . . . . . 12
4.3 Prédiction des prix avec LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.3.1 Prédiction statique avec LSTM . . . . . . . . . . . . . . . . . . . . . . . 13
4.3.2 Prédiction dynamique avec LSTM . . . . . . . . . . . . . . . . . . . . . . 13
5 Conclusion et Perceptives 15
References 15
1
Résumé
Dans un contexte où la volatilité des marchés financiers constitue un enjeu majeur pour
les investisseurs, la capacité à anticiper l’évolution des cours boursiers, notamment ceux des
grands indices comme le NASDAQ-100, devient cruciale. Ce travail s’inscrit dans cette dy-
namique et propose une étude comparative approfondie entre trois approches de prévision des
prix de clôture journaliers du NASDAQ-100: le modèle ARIMA, le lissage exponentiel, et les
réseaux de neurones de type LSTM.La spécificité de cette étude réside dans l’intégration de
deux paradigmes de prédiction: la prévision statique, où l’on utilise un échantillon fixe pour
prédire une période donnée et la prévision dynamique, où le modèle est réajusté continuellement
à mesure que de nouvelles données deviennent disponibles. Cette double approche permet de
mieux évaluer le comportement réel des modèles en situation opérationnelle, tout en tenant
compte de la nature temporelle des données financières.Les performances de chaque méthode
ont été évaluées à l’aide de métriques standards telles que l’erreur quadratique moyenne(RMSE)
et l’erreur absolue moyenne (MAE). Les résultats révèlent que les modèles Arima et le Lissage
exponentielle performent mieux que le modèle Lstm en ce qui concerne la prédiction statique
d’une étape en avant basée sur les données historiques alors que le LSTM est meilleur pour la
prédiction dynamique en capturant mieux la tendance de la série temporelle sans apports de
données historiques.Ce travail ouvre ainsi des perspectives prometteuses pour le développement
de systèmes hybrides combinant plusieurs modèles et pour l’intégration de variables exogènes
telles que les indicateurs macroéconomiques ou le sentiment du marché.
2
1 Introduction
L’essence de la prédiction des tendances des cours des actions consiste à utiliser les informations
historiques sur les données de négociation du marché boursier pour prédire la tendance du cours
des actions dans le futur.De ce fait, les méthodes actuelles de prédiction du cours des actions
peuvent être largement divisées en deux catégories, la première catégorie est celle basée sur la
théorie statistique, qui se concentre sur les relations linéaires au niveau des séries chronologiques.
La deuxième catégorie est celle de l’apprentissage profond et des modèles d’apprentissage au-
tomatique qui excellent dans la capture des dépendances temporelle complexes [4]. Parmi, les
nombreux indices boursiers sur le marché financier le NASDAQ-100 est le premier modèle de
bourse constitué d’un réseau informatique, composé des 100 valeurs américaines dont les cap-
italisations boursières sont les plus importantes et les plus liquides comme Amazon (AMZN),
Netflix (NFLX),Apple (AAPL),Google(GOOGL) ,Facebook(FB), sa popularité a atteint son
apogée lorsque,avec l’avènement de l’ére 2.0, le marché des technologies a été caractérisé par
des augmentations soudaines suivies de baisses tout aussi rapides (la bulle spéculative dite
"Dot-com") [1]. Notre travail se concentrera sur la prédiction des prix de clôture futures de
l’indice Nasdaq 100 par une approche comparative entre les modèles ARIMA, le lissage ex-
ponentielle et les réseaux de neurones LSTM sous deux méthodes de prédictions que
sont la prédiction statique et celle dynamique.Rappelons que la prédiction statique signifie une
prédiction en avant d’une étape ,où la valeur réelle passée est utilisée pour donner la valeur
suivante prédite, alors que la prédiction dynamique consiste à remplacer la valeur réelle passée
par celle prédite pour la prédiction en avant [4]. Les performances de chaque modèle seront
évaluées grâce aux critères RMSE et MAE .
Notre commencerons par un rappel du cadre théorique des trois approches puis nous en-
tamerons le volet empirique en traçant la méthodologie poursuivie dans l’application de la
méthode de Box et Jenkins, la méthode de lissage exponentielle et la mise en place du réseau
LSTM ainsi que les résultats y afférents, et finalement nous formulerons une discussion autour
de la qualité des prévisions obtenues. .
2 Revue de littérature
Les résultats concernant la comparaison des performances des modèles ARMA et LSTM, vari-
ent selon les différentes études. Du point de vue théorique,ARIMA suppose que la relation entre
la variable dépendante et les variables indépendantes (décalées) est linéaire, et que l’écart-type
de l’erreur est constant. Mais si la structures des données est complexe, les performances du
modèle ARIMA sont souvent médiocres. D’un point de vue pratique le LSTM présente des
avantages indéniables du fait qu’il n’y a pas d’hypothèses préalables à vérifier sur la nature des
données contrairement à un ARMA qui ne s’applique efficacement que dans les cas linéaires avec
des séries stationnaires (ou stationarisées par transformation), et des résidus devant se com-
porter comme un bruit blanc. Ces contraintes peuvent limiter les champs d’application d’un
ARMA. En fait, les réseaux de neurones comme le LSTM ont été développés pour surmon-
ter les limitations des modèles ARMA, telles que la difficulté de modéliser les dépendances
non linéaires et les tendances stationnaires[9]. Ainsi, de nombreuses études de recherche
essayant de comparer les techniques de prédictions boursières à savoir les techniques statis-
tiques et les techniques d’informatique douce sont retrouvées dans la littérature avec Dariusz,
K.,Dawid,K.,Weronika,K.,Pawel,W.[7] qui ont comparé les résultats d’un ARIMA à un LSTM
sur un ensemble de données de certaines sociétés cotées à la bourse du NASDAQ.Les deux
modèles sont utilisés pour prédire les prix moyens quotidiens ou mensuels.Ils ont conclu que le
modèle ARIMA fonctionne mieux que le modèle LSTM.Plus la période de la fenêtre de données
est longue,meilleures sont les performances d’ARIMA et plus les performances de LSTM sont
mauvaises.La comparaison des modèles a été faite en utilisant le MAPE. MAHBOUB., S., et
GUERBAZ., R.[8] entreprend une analyse comparative des performances de deux approches
de modélisation à savoir le modèles ARIMA et les réseaux neuronaux artificiels (ANN), dans
le contexte de la prédiction des cours boursiers en utilisant les données historiques quotidi-
ennes des actions de Dell incorporated sur une période s’étalant d’août 2016 à janvier 2024.Le
développement des modèles ARIMA a été éffectué à l’aide du logiciel EViews, tandis que les
modèles ANN sont mis en oeuvre grâce à Python, en utilisant soit Tensorflow soit PyTorch.
Les résultats stipulent que le modèle ARIMA peut-être adapté pour capturer les tendances
et les changements graduels de l’indice boursier, offrant des prédictions stables dans le temps
, tandis que le modèle ANN excelle dans la capture de fluctuations soudaines et des valeurs
3
extrêmes, le rendant potentiellement plus utile pour la prévision à court terme ou dans des
scénarios présentant une forte volatilité.BENDIB. Youcel et BENDIB. Mohamed Anis [9] a
mené une étude comparative entre les performances d’un modèle LSTM sous optimal avec le
modèle ARIMA optimal.Les valeurs respectives (plus faibles) 451.9956 et 0.4254 du respective-
ment du RMSE et MAPE du LSTM sur l’ensemble test, comparées à celles de l’ARIMA avec
769.5197 et 0.4631 montrent la supériorité du LSTM. L’utilité d’un tel résultat est qu’il permet
de prendre le LSTM comme modèle de référence pour les prévisions de la production du blé en
Algérie.Jian Y.,Zhao M.,Zhao W., Qin H., Wang K. et Wang C [5] ont combiné les avantages
des réseaux de neurones LSTM et GRU en établissant un réseau hybride (LSTM-GRU) pour
la prédiction de la température à la surface des océans. Les performances de ce réseau sont
comparés à celui des réseaux de neurones TCN et a montré la présence de nettes avantages par
rapport aux classiques LSTM,GRU en ce qui concerne la précision, la stabilité et l’adaptabilité
de la prédiction. TCN possède une plus grande précision prédictible tandis que LSTM-GRU
est plus robuste et meilleure pour prédire les valeurs anormales.
3 Matériels et Méthodes
3.1 Principe de la méthode ARIMA
Le modèle ARIMA (AutoRegressive Integrated Moving Average) est une méthode couram-
ment utilisée pour modéliser et prévoir les séries temporelles. Il combine les composantes de
l’autorégression (AR) et de la moyenne mobile(MA) avec une différenciation (I) pour prendre
en compte les tendances et les comportements saisonniers dans les données.
1. Composantes du modèle ARIMA
AR(Autorégression):L’AR fait référence à la régression linéaire des valeurs actuelles
sur les valeurs précédentes de la série temporelle. Il capture les effets de dépendances
linéaires à partir des valeurs passées.
MA (Moyenne mobile: Le MA utilise la moyenne mobile des erreurs précédentes
pour modéliser la relation entre les résidus et les observations actuelles de la série
temporelle. Il capture les effets de dépendance entre les résidus.
I (Différenciation): La différenciation est utilisée pour rendre les données station-
naires en supprimant les tendances et les comportements saisonniers. Elle consiste
à prendre la différence entre les observations consécutives jusqu’à obtenir une série
stationnaire.
2. Ordres du modèle ARIMA Le modèle ARIMA est défini par trois ordres: p,d et q
p (Ordre AR):L’ordre AR spécifie le nombre de termes autorégressifs à inclure dans
le modèle. Il indique combien de valeurs passées sont utilisées pour prédire la valeur
actuelle. L’AR(p) peut-être indiqué avec l’équation suivante:
AR(p) :yt= Φ1yt1+ Φ2yt2+. . . + Φpytp+t(1)
où:
yt: la valeur de la série temporelle à l’instant t.
t: Le terme d’erreur.
Φ: Les coefficients qui capture la relation entre l’observation actuelle et celles précé-
dentes d’un décalage d’ordre p.
Le modèle AR(p) peut - être réécrit comme:
AR(p):(1
p
X
i=1
ΦiLi)yt=t(2)
d (Ordre de différenciation ): L’ordre de différenciation indique combien de fois
la série doit être différenciée pour rendre les données stationnaires. I(d) peut-être
présenté comme suit:
I(d) : (1 L)d=µ+t(3)
4
1 / 16 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!