16/04/17
Projet d’ingénierie « Méta-calendrier automatique pour portail www »
1
ENST de Bretagne
Technopôle Brest-Iroise
29280 PLOUZANÉ
Méta-calendrier automatique pour portail www
Projet d’ingénierie
Isabelle KERVELLA
Mastère ISIC (Ingénierie des Systèmes Informatiques Communicants)
Soutenue le 21 mars 2002
Encadrant : Ronan KERYELL
16/04/17
Projet d’ingénierie « Méta-calendrier automatique pour portail www »
2
Résumé
L’objet de ce projet est de développer un outil qui collecte automatiquement des données dans des
sites publiés sur Internet et les rassemble dans un portail. Si le format HTML est parfaitement adapté
à la présentation de documents simples sur Internet et à la navigation entre les pages, il n’offre pas
une présentation structurée des données. Mélangeant le fond, la forme et les données, il n’est pas
aisé d’extraire l’information utile. Le travail réalisé dans le cadre de ce projet montre que l’utilisation
d’un wrappeur pour traduire un document non structudans un format XML, puis d’un parseur pour
extraire l’information, constitue une solution à ce problème.
Mots clés : HTML, extraction des données, wrapping, XML, parsing, API JAXP
16/04/17
Projet d’ingénierie « Méta-calendrier automatique pour portail www »
3
Table des matières
1 CONTEXTE .................................................................................................................................................. 4
1.1 COMPREHENSION DU BESOIN ................................................................................................................... 4
1.1.1 Analyse des sources, détection de l’information utile et extraction des données ................................ 5
1.1.2 Stockage des données .......................................................................................................................... 5
1.1.3 Nettoyage des données ........................................................................................................................ 5
1.1.4 Représentation visuelle des données ................................................................................................... 6
1.1.5 Paramétrage de la collecte / administration ....................................................................................... 6
1.2 ANALYSE FONCTIONNELLE ...................................................................................................................... 6
2 SOLUTIONS TECHNIQUES PROPOSEES ............................................................................................. 8
2.1 ANALYSE DE LA SOURCE, DETECTION DE LINFORMATION UTILE ET DEFINITION DUN FORMAT UNIFIE ... 9
2.1.1 Site analysé ......................................................................................................................................... 9
2.1.2 Détection de l’information utile, écriture du fichier de description .................................................... 9
2.1.3 Récupération de l’information utile dans un fichier au format XML ................................................ 11
2.2 LE PARSING ............................................................................................................................................ 12
2.2.1 Les APIs des parseurs ....................................................................................................................... 13
2.2.2 Développement du parseur en Java .................................................................................................. 14
3 CONCLUSION............................................................................................................................................ 16
4 BIBLIOGRAPHIE ...................................................................................................................................... 17
Table des figures
Figure 1 : schéma des principales étapes du projet ................................................................................................ 6
Figure 2 : liste des événements, classés par date, du site http://www.bzh5.com/gouel/degemer.php ................... 10
Figure 3 : Structure du calendrier ........................................................................................................................ 11
Figure 4 : l’information utile est recueillie dans un fichier XML ......................................................................... 12
Figure 5 : rôle d’un parseur XML & API DOM ................................................................................................... 13
Table des annexes
ANNEXE 1 ............................................................................................................................................................ 18
ANNEXE 2 ............................................................................................................................................................ 23
ANNEXE 3 ............................................................................................................................................................ 29
16/04/17
Projet d’ingénierie « Méta-calendrier automatique pour portail www »
4
Partie 1
1 Contexte
Le site trad.org est un portail de musique traditionnelle. La rubrique Bals & Concerts a pour vocation
d’informer des principaux événements folkloriques. Dans sa version actuelle, la rubrique est
constituée de liens hypertextes qui pointent vers des calendriers présentés dans des sites Internet
d’événements. Les nombreuses sources d’informations et la très grande disparité de ces informations
rendent difficile la recherche de données précises.
L’objet de ce projet est d’offrir une vue globale et à jour de ces informations, en développant pour ce
portail, un calendrier rassemblant les événements de l’ensemble des sites cibles. Le projet ne trouve
tout son sens que s’il permet l’extraction et la mise en forme automatiques des données. L’objectif de
ce travail est donc de trouver des solutions pour extraire l’information utile des différents sites Internet,
la stocker et la représenter visuellement sous la forme d’un calendrier sur le portail trad.org. La
principale difficulté est bien sûr de collecter des données hétérogènes de manière correcte et
cohérente.
1.1 Compréhension du besoin
Ce projet couvre plusieurs aspects, détaillés ci-après :
l’extraction des données
le stockage des données
le nettoyage des données
la représentation visuelle des données
le paramétrage de la collecte / l’administration
16/04/17
Projet d’ingénierie « Méta-calendrier automatique pour portail www »
5
1.1.1 Analyse des sources, détection de l’information utile et extraction des données
Les données sont extraites de sites Internet (protocole http). Le fond et le format des données ne
sont soumis à aucune norme. Ils diffèrent selon la source d’information et ne présentent pas de
stabilité dans le temps. L’extraction des données inclut plusieurs étapes :
L’analyse de la source (format HTML)
La détection de l’information utile
La définition d’un fichier de description propre à la source analysée
La définition d’un format unifié pour toutes les données à collecter
Le wrapping
Le parsing
Elle implique également de tenir compte de différents paramètres :
Le type de source (page HTML statique, résultat d’une requête)
Les racines de l’information (adresse du site distant et protocole utilisé)
Les caractéristiques de la connexion (port pour le protocole utilisé, proxy, firewall, login, mot
de passe, …)
Le paramétrage de l’extraction : périodicité, granularité (incrémentale ou complète),
chargement des données (en ligne, hors ligne), …
1.1.2 Stockage des données
Deux modes de stockage peuvent être envisagés :
Le stockage dans une base de données relationnelle (MySQL, …)
Le stockage dans une base de données XML
1.1.3 Nettoyage des données
Le mécanisme de nettoyage des données couvre :
L’identification des doublons grâce à la corrélation des calendriers
La détection des annulations
La détection des données obsolètes
1 / 30 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !