
Le Mystère des Flux au Parc : De l'Observation à l'Action
Dans l’article du module 1, nous avons exploré le problème observé par Sophie, la gestionnaire
des opérations, concernant les fluctuations de la fréquentation du parc récréatif "Nature
Harmony". Après avoir analysé ces variations à l'aide de données historiques et constaté des
lacunes, l’équipe a réfléchi à l’intégration d’une solution d’intelligence artificielle pour mieux
comprendre et anticiper ces comportements. Le défi étant désormais posé, nous nous penchons
sur les différentes étapes nécessaires pour collecter, traiter et préparer les données nécessaires
à l’implémentation d’une telle solution.
Tout commence par l’identification des types de données nécessaires à une analyse efficace.
Thomas, l’analyste de données, se charge de cette tâche cruciale en listant les informations
pertinentes : le nombre de visiteurs par jour, mois et année, les conditions météorologiques, les
événements locaux et les tendances sur les réseaux sociaux. Cependant, certaines de ces
données s’avèrent difficiles à obtenir, comme les prévisions météo à long terme. Cela soulève
immédiatement la question suivante : faut-il solliciter des partenaires externes pour compléter
ces informations et s'assurer de leur fiabilité ?
Une fois les types de données identifiés, il est essentiel de vérifier leur existence. Marie,
spécialiste en modélisation prédictive, entreprend cette vérification. En fouillant dans les
archives du parc, elle découvre que certaines données historiques, comme la fréquentation et la
météo, sont effectivement disponibles. Cependant, des informations cruciales manquent,
comme celles relatives aux événements locaux ou les tendances sociales sur les réseaux. Ces
lacunes dans les données soulèvent un problème majeur : comment combler ces vides pour que
les données collectées soient représentatives et fiables ?
La question de la collecte des données se pose ensuite. Julien, ingénieur en données, se charge
de mettre en place un système de collecte automatisée pour les données disponibles, telles que
les prévisions météorologiques via des capteurs IoT ou les informations issues des réseaux
sociaux. Cependant, certaines données, comme les retours des visiteurs ou leurs préférences,
nécessitent une collecte manuelle. Cette étape soulève également la question du format des
données. Comment s'assurer que toutes les informations recueillies sont compatibles et
exploitables par le modèle d'intelligence artificielle qui sera utilisé ?
Le défi suivant consiste à évaluer la qualité des données collectées. Camille, data scientist,
examine minutieusement les informations disponibles et identifie des anomalies, telles que des
valeurs erronées dans les données météorologiques, des températures mal enregistrées ou des
périodes sans données. Elle se retrouve alors à devoir choisir la méthode de traitement la plus
appropriée pour ces erreurs. Faut-il ignorer les périodes manquantes, remplacer les valeurs par
des moyennes historiques, ou une autre méthode plus robuste ? Chaque choix a un impact sur
la fiabilité des prédictions futures du modèle.
Au fur et à mesure que le projet progresse, Clara, juriste en protection des données, intervient
pour s’assurer que les données collectées respectent les principes de confidentialité et de
protection des données personnelles. Elle met en garde contre le risque que certaines catégories
de visiteurs, comme les enfants ou les personnes âgées, soient sous-représentées dans les
données disponibles. Clara recommande donc de diversifier les sources de données pour
garantir une représentativité optimale et éviter les biais. De plus, elle souligne l’importance