Introduction au web scraping   

publicité
Introduction au web scraping Bonjour, dans ce document je vais vous présenter le web scraping et vous expliquez les bases. Tout d’abord qu’est­ce que le web scraping ? Le web scraping est le fait de récupérer des informations sur un site en passant directement par un programme donc faire un robot en quelque sorte. C’est utiliser pour récupérer des informations, automatiser des action, c’est très utile. En général on utilise des langages script (python, ruby etc…) pour faire ces programmes. Tout d’abord le programme va faire une requête vers la cible en question (un site) puis, récupérer ces informations et les triées pour sélectionner uniquement les donnés voulus. Une image qui représente le web scraping : Pour sélectionner les donnés voulus,on va devoir analyser une page. Nous allons d’abord analyser les requête HTTP nous allons faire cela sur twittter version mobile : https://mobile.twitter.com/login Si j’inspecte l’élément et que je regarde dans network je vais pouvoir suivre les requêtes HTTP, je n’ai rien d'intéressant dans l’header. Maintenant je vais me connecter et suivre les connexions : Je vois le username que j’ai mis, le password que j’ai mis. Je vois également un token. Ce token et obligatoire il sert à bloquer les attaques CSRF mais le problèmes et que si le token n’est pas le bon il ne nous laisse pas passer de plus il change à chaque donc il va falloir récupérer le token. Le token se trouve dans le code source si je regarde le code source et que je cherche “token” en faisant un ctrl+f je tomber sur cette ligne : Je dois donc sélectionner le token à partir du code source. Pour cela nous pouvons faire un script en Python par exemple. Voilà pour les bases du web scraping. 
Téléchargement