Rapport_fin

Téléchargement

16/04/17

Projet d’ingénierie « Méta-calendrier automatique pour portail www »

ENST de Bretagne

Technopôle Brest-Iroise

29280 PLOUZANÉ

Méta-calendrier automatique pour portail www

Projet d’ingénierie

Isabelle KERVELLA

Mastère ISIC (Ingénierie des Systèmes Informatiques Communicants)

Soutenue le 21 mars 2002

Encadrant : Ronan KERYELL

16/04/17

Projet d’ingénierie « Méta-calendrier automatique pour portail www »

Résumé

L’objet de ce projet est de développer un outil qui collecte automatiquement des données dans des

sites publiés sur Internet et les rassemble dans un portail. Si le format HTML est parfaitement adapté

à la présentation de documents simples sur Internet et à la navigation entre les pages, il n’offre pas

une présentation structurée des données. Mélangeant le fond, la forme et les données, il n’est pas

aisé d’extraire l’information utile. Le travail réalisé dans le cadre de ce projet montre que l’utilisation

d’un wrappeur pour traduire un document non structuré dans un format XML, puis d’un parseur pour

extraire l’information, constitue une solution à ce problème.

Mots clés : HTML, extraction des données, wrapping, XML, parsing, API JAXP

16/04/17

Projet d’ingénierie « Méta-calendrier automatique pour portail www »

Table des matières

1 CONTEXTE .................................................................................................................................................. 4

1.1 COMPREHENSION DU BESOIN ................................................................................................................... 4

1.1.1 Analyse des sources, détection de l’information utile et extraction des données ................................ 5

1.1.2 Stockage des données .......................................................................................................................... 5

1.1.3 Nettoyage des données ........................................................................................................................ 5

1.1.4 Représentation visuelle des données ................................................................................................... 6

1.1.5 Paramétrage de la collecte / administration ....................................................................................... 6

1.2 ANALYSE FONCTIONNELLE ...................................................................................................................... 6

2 SOLUTIONS TECHNIQUES PROPOSEES ............................................................................................. 8

2.1 ANALYSE DE LA SOURCE, DETECTION DE L’INFORMATION UTILE ET DEFINITION D’UN FORMAT UNIFIE ... 9

2.1.1 Site analysé ......................................................................................................................................... 9

2.1.2 Détection de l’information utile, écriture du fichier de description .................................................... 9

2.1.3 Récupération de l’information utile dans un fichier au format XML ................................................ 11

2.2 LE PARSING ............................................................................................................................................ 12

2.2.1 Les APIs des parseurs ....................................................................................................................... 13

2.2.2 Développement du parseur en Java .................................................................................................. 14

3 CONCLUSION............................................................................................................................................ 16

4 BIBLIOGRAPHIE ...................................................................................................................................... 17

Table des figures

Figure 1 : schéma des principales étapes du projet ................................................................................................ 6

Figure 2 : liste des événements, classés par date, du site http://www.bzh5.com/gouel/degemer.php ................... 10

Figure 3 : Structure du calendrier ........................................................................................................................ 11

Figure 4 : l’information utile est recueillie dans un fichier XML ......................................................................... 12

Figure 5 : rôle d’un parseur XML & API DOM ................................................................................................... 13

Table des annexes

ANNEXE 1 ............................................................................................................................................................ 18

ANNEXE 2 ............................................................................................................................................................ 23

ANNEXE 3 ............................................................................................................................................................ 29

16/04/17

Projet d’ingénierie « Méta-calendrier automatique pour portail www »

Partie 1

1 Contexte

Le site trad.org est un portail de musique traditionnelle. La rubrique Bals & Concerts a pour vocation

d’informer des principaux événements folkloriques. Dans sa version actuelle, la rubrique est

constituée de liens hypertextes qui pointent vers des calendriers présentés dans des sites Internet

d’événements. Les nombreuses sources d’informations et la très grande disparité de ces informations

rendent difficile la recherche de données précises.

L’objet de ce projet est d’offrir une vue globale et à jour de ces informations, en développant pour ce

portail, un calendrier rassemblant les événements de l’ensemble des sites cibles. Le projet ne trouve

tout son sens que s’il permet l’extraction et la mise en forme automatiques des données. L’objectif de

ce travail est donc de trouver des solutions pour extraire l’information utile des différents sites Internet,

la stocker et la représenter visuellement sous la forme d’un calendrier sur le portail trad.org. La

principale difficulté est bien sûr de collecter des données hétérogènes de manière correcte et

cohérente.

1.1 Compréhension du besoin

Ce projet couvre plusieurs aspects, détaillés ci-après :

 l’extraction des données

 le stockage des données

 le nettoyage des données

 la représentation visuelle des données

 le paramétrage de la collecte / l’administration

16/04/17

Projet d’ingénierie « Méta-calendrier automatique pour portail www »

1.1.1 Analyse des sources, détection de l’information utile et extraction des données

Les données sont extraites de sites Internet (protocole http). Le fond et le format des données ne

sont soumis à aucune norme. Ils diffèrent selon la source d’information et ne présentent pas de

stabilité dans le temps. L’extraction des données inclut plusieurs étapes :

 L’analyse de la source (format HTML)

 La détection de l’information utile

 La définition d’un fichier de description propre à la source analysée

 La définition d’un format unifié pour toutes les données à collecter

 Le wrapping

 Le parsing

Elle implique également de tenir compte de différents paramètres :

 Le type de source (page HTML statique, résultat d’une requête)

 Les racines de l’information (adresse du site distant et protocole utilisé)

 Les caractéristiques de la connexion (port pour le protocole utilisé, proxy, firewall, login, mot

de passe, …)

 Le paramétrage de l’extraction : périodicité, granularité (incrémentale ou complète),

chargement des données (en ligne, hors ligne), …

1.1.2 Stockage des données

Deux modes de stockage peuvent être envisagés :

 Le stockage dans une base de données relationnelle (MySQL, …)

 Le stockage dans une base de données XML

1.1.3 Nettoyage des données

Le mécanisme de nettoyage des données couvre :

 L’identification des doublons grâce à la corrélation des calendriers

 La détection des annulations

 La détection des données obsolètes

1 / 30 100%

Documents connexes

TD #1 Les débuts

TP JDBC

TD de programmation orientée objet en Java Initiation

Exas Programmation Systèmes février 06

HTML 5 /Framework La conception orientée Langage SQL pour les Développement Java 8

JAVA - FCPR Formation

Stagiaire Développeur Java

Offres Développeur/Développeuse d`application depuis 1 semaine

developpeur java – h/f

Télécharger

ingenieur developpement java securite h/f

ingenieur developpement java h/f

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Rapport_fin

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Rapport_fin

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib