Cours 2.key

Téléchargement

TRAITEMENT DE

L’INFORMATION

Ophélie Fraisier

[email protected]

2016 — 2017

WEB SCRAPING

•Insérez dans la cellule A1

d’une Google sheet :!

=ImportHtml("http://

www.acpm.fr/Chiffres/

Frequentation/

Classement-des-Sites/

Classement-Unifie-des-

Sites-GP", "table", 1)

•Allez comparer avec la page

ACPM d’origine

DÉFINITION DU WEB SCRAPING

•Récolte de données à partir de pages web à l’aide d’un

programme

•Peu de contraintes : tout ce qui est visible à l’écran est

techniquement récupérable

•Règle de bonne conduite : délai entre les requêtes pour éviter

de surcharger le serveur web

•Risque de blocage de l’adresse IP

•Peut être illégal : certains sites interdisent la récupération

automatique de leur contenu

•La qualité du contenu récupéré dépend de la qualité du

formatage de la page HTML

<!DOCTYPE html>

<html>

<head>

<title>Proverbes</title>

</head>

<h1 id="titre_principal">Proverbe du jour</h1>

<p lang="en">Once bitten, twice shy.</p>

<p lang="fr">Chat échaudé craint l'eau froide.</p>

</div>

</body>

</html>

STRUCTURE D’UN FICHIER HTML

•Balises

•Attributs

•Identiﬁants (chaque

valeur doit être unique

dans le document)

•Classes

STRUCTURE D’UN FICHIER HTML : BALISES

<title>

Titre de la page

Lien vers une feuille de style

Métadonnée de la page (mots-clés, encodage, auteur, …)

Balises génériques pour organiser le contenu,

particulièrement intéressantes lorsqu’elles sont associées à

un attribut class ou id

Titres

<p>

Paragraphe

<a>

Lien hypertexte

<img />

Image

<br/>

Retour à la ligne

<abbr>

Abréviation

Listes

<table>

Tableau

<form>

Formulaire

<style>

Code CSS

1 / 28 100%

Documents connexes

Fiche de suivi (Sciences humaines)

Certificat Informatique et Internet (C2i)

API

Troubles d`apprentissage, soutien aux étudiant(e)s et aux

Suivi de Colis avec RFID

HTML5 JavaScript et CSS3

utentomatic_v4_GMD

Plateforme d`extraction de Tweets TER M1 LIRMM, équipe

Formation Java SE Approfondissement à Nantes, à Paris, à

Mini projet 2

Finances : la plateforme Mynewstartup opérationnelle fin novembre

H/F Architecte/Développeur Backend Python expérimenté

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !

GDPR Confidentialité Conditions d'utilisation

Cours 2.key

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Cours 2.key

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib