Recherche d’information textuelle Recherche Web B. Piwowarski CNRS / LIP6 Université Paris 6 [email protected] http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques basés sur les documents de P. Gallinari et S. Lamprier (LIP6) Introduction Recherche Web Recherche d'information textuelle Evolution des moteurs de recherche • 1994 – 97 • Excite, Lycos, etc • • 1998 – • • Contenu Google, Yahoo • Liens • Click through • Anchor text 2002 – • Pubs • Multiplication des services • Prise en compte contexte et utilisateur • Autres sources d’information • Web 2.0, etc Cours de recherche d’information textuelle - master IP 2014-15 3 RI Web vs RI classique • Corpus • • Contexte • • Taille, Nature, Dynamicité Réseau, localisation, historique Individus • Grande variabilité • Prise en compte progressive des profils pour la recherche web Cours de recherche d’information textuelle - master IP 2014-15 4 Individus Recherche Web Recherche d'information textuelle Besoins d’information • Requêtes • • Loi de puissance • peu de requêtes populaires • Beaucoup de requêtes rares Taille moyenne requêtes < 3 mots • 1998, moyenne 2.35 • 2001 moyenne 2.54 • Besoins d’information dynamiques • Utilisation pauvre du langage de requête Cours de recherche d’information textuelle - master IP 2014-15 6 Besoins d’information • Besoin • • • Transactionnel • Achats en ligne • Acceder à une ressource Musique, livre, réservation avions – hotels,… • Météo, Google-Maps, downloads, … Informationnel • Consultation • Se renseigner sur un sujet Navigation • • • Joindre une page donnée Interaction • Recall souvent peu important, precision mise en avant Cours de recherche d’information textuelle - master IP 2014-15 7 Individus - exemple http://www.iprospect.com/premiumPDFs/WhitePaper_2006_SearchEngineUserBehavior.pdf Cours de recherche d’information textuelle - master IP 2014-15 8 Google Trends - Le buzz du moment : expressions à la plus forte progression Recherche d'information Cours de recherche d’information textuelle textuelle - master IP 2014-15 9 Les statistiques de Google Trends Recherche d'information Cours de recherche d’information textuelle textuelle - master IP 2014-15 10 Flu Trends Cours de recherche d’information textuelle - master IP 2014-15 11 Individus Recherche Web Recherche d'information textuelle Le Web • Croissance désordonnée • • Pas de coordination Nature des informations • Contient des informations obsoletes, mensongères, etc • Texte, html, images, structuré (XML), BD,… • Statique vs dynamique • Le web dynamique n’est pas indexé • • Web caché • • Quelques travaux 1 ou 2 facteurs d’echelles plus gros que le web visible ? Multilingue • Difficulté des analyses lexicales Cours de recherche d’information textuelle - master IP 2014-15 13 Go-globe.com (juin 2011) Cours de recherche d’information textuelle - master IP 2014-15 14 Taille du Web indexé par Google Cours de recherche d’information textuelle - master IP 2014-15 15 Le Web • Forte croissance • Double tous les mois (!!check) • La taille du web réel n’est pas connue • Qu’est ce qui est mesuré • • • Nombre d’hôtes • Nombres de pages statiques Etudes sur l’estimation du nombre de pages • Plusieurs méthodes : marches aléatoires, etc • Via les moteurs de recherche / index (cf. Netcraft) Nombre de pages indexées • Yahoo! Annonce 20 M en 2005 ? Cours de recherche d’information textuelle - master IP 2014-15 16 Croissance du web • http://news.netcraft.com/archives/web_server_survey.html • Total Sites Across All Domains August 1995 - January 2008 Cours de recherche d’information textuelle - master IP 2014-15 17 Structure globale du Web • Connexions • Loi de puissance • Le nombre de pages web de in-degree (liens entrants) i est proportionnel à 1/ik avec k = 2.1 Cours de recherche d’information textuelle - master IP 2014-15 18 Bow-Tie shape of the web • Trois grandes catégories de pages web • In, Out, SCC qui se distinguent par les possibilités de navigation Navigation par hyperliens In → SCC SCC → Out SCC → SCC • From Manning et al. 2007 Cours de recherche d’information textuelle - master IP 2014-15 19 En résumé • Beaucoup de composants technologiques • Modèles de recherche d’information et d’évaluation • Robots d’indexation • Critères de qualité des pages Web • • Détection du spam • Autorité • Niveau de langue, de connaissances, etc. Personnalisation de la recherche • Prise en compte du contexte • Prise en compte de l’individu • Publicité • Analyse des résultats (clics) Cours de recherche d’information textuelle - master IP 2014-15 20 “Crawlers” Recherche Web Robot d’indexation (Crawler) • Un programme qui • Suit les hyperliens entre les documents • Recharge les pages à intervalles réguliers Cours de recherche d’information textuelle - master IP 2014-15 22 Problématiques • • • Minimiser les resources : • la bande passante utilisée • Interrogation des mêmes sites Maximiser des critères de qualité • la “couverture” • Maximiser la “fraîcheur” Information structurée / dynamique (Web 2.0) Cours de recherche d’information textuelle - master IP 2014-15 23 Spam Recherche Web Spam sur le Web • Référencement - Search Engine Optimization (SEO) • Mettre en avant ses pages / son site dans les résultats des moteurs de recherche • Motivations • Diverses : commerciales, politiques, etc • Devenu une industrie • Les moteurs essaient de faire respecter des règles aux SEO • Le SEO est une des motivations majeures pour le SPAM • Guerre entre les spammers et les moteurs de recherche • “Adversial information retrieval” Cours de recherche d’information textuelle - master IP 2014-15 25 Bestiaire du Spam Modification du contenu • Keyword stuffing • Répétition de termes pour augmenter le tf-idf • Variantes : meta-tags, texte caché (couleur du fond ..), adresses url fréquement demandées, etc • générateurs de texte : pipotrons, patchworks, générateurs markoviens • Visait les 1ers moteurs de recherche (tf-idf), facilement détecté actuellement • • e.g. dé-référencement de BMW par Google en 2006 Cloaking • Délivrer des informations différentes suivant l’utilisateur (robot vs personne) • Permet d’indexer des pages avec des mots (robot) différents du contenu vu par l’utilisateur humain • Si la requête http provient d’un crawler : servir un faux contenu (fausse indexation) • Si la requête http provient du browser d’un utilisateur servir du spam Cours de recherche d’information textuelle - master IP 2014-15 26 Bestiaire du Spam Référencement • Link farms • Référencement mutuel de sites • • Honey pot • • Réplication de sites ou annuaires très référencés – le site sera ensuite référencé par d’autres utilisateurs et augmentera son rang Blog ou wiki spam • • Développer un grand nombre de sites interconnectés qui pointent également sur des cibles dont on fait remonter le pagerank Faire pointer sur son site à partir de sites où l’on peut écrire Clic spam • Épuiser le crédit de concurrents en faisant cliquer que les liens sponsorisés (pay per clic model) • Camouflage • Doorway • Faire référencer une page avec un bon score (choix de mots clé, des liens etc) • L’utilisateur qui demande la page est renvoyé sur d’autres pages (commerciales etc) Cours de recherche d’information textuelle - master IP 2014-15 27 Bestiaire du Spam Divers • • Parasitage • recyclage de domaines expirés, cybersquatting • pollution ou piratage de sites réputés fiables : blogs, forums, petites annonces… • Botnets, clickbots (ClickBot.A) Variantes • Phishing • obtenir des renseignements personnels pour une usurpation d'identité. Faire croire à la victime qu'elle s'adresse à un tiers de confiance — banque, administration, etc. — afin de lui soutirer des renseignements personnels : mot de passe, numéro de carte de crédit, date de naissance, etc. • • Cf mesure 2009 verification transactions par les banques (sms de confirmation) Social spam : générateurs d'amis Cours de recherche d’information textuelle - master IP 2014-15 28 Spamdexing : ferme à liens (Projet Madspam, T. Urvoy, Orange Labs) Orange Labs - R&D – méthodes automatiques pour la détection du spamdexing – mars 2009 Cours de recherche d’information textuelle - master IP 2014-15 29 Spamdexing : ferme à liens Cours de recherche d’information textuelle - master IP 2014-15 30 Spamdexing : ferme à liens • Plus de 5000 pages ventilées sur des centaines de sites Cours de recherche d’information textuelle - master IP 2014-15 31 Spam blogs Cours de recherche d’information textuelle - master IP 2014-15 32 Incidence % de Web spam dans les 8 domaines les plus populaires sur le Web % de Web spam dans les 5 langues les plus populaires sur le Web Sur 100 millions de pages, globalement représentatives du Web [Ntoulas et al. 2006] Cours de recherche d’information textuelle - master IP 2014-15 33 Spam Blogs (Société BlogSpirit) • pourcentage de Spam - 2007 Cours de recherche d’information textuelle - master IP 2014-15 34 La lutte contre le Spam • Editorial • Blacklists, dénonciation (Google), … • • Usage • • • http://www.google.com/contact/spamreport.html Préférer les pages très utilisées, bien référencées Analyse de liens • Guilt by association • Algos robustes de référencement Machine learning • Cf Adversial retrieval initiative : Airweb • http://airweb.cse.lehigh.edu/ Cours de recherche d’information textuelle - master IP 2014-15 35 Publicité Recherche Web Publicité sur le Web • Trois niveaux • Cost per Mil (CPM) : nombre de fois où la Ce que les est moteurs de recherche bannière affichée aimerait faire payer… • Cost per Clic (CPC) : nombre de fois où la Ce que les moteurs de recherche font bannière est cliquée payer… • Cost Per Engagement (CPE) : nombre de fois où une été engagé Ce transaction que les clients deamoteurs de recherche aimeraient payer… Cours de recherche d’information textuelle - master IP 2014-15 37 Revenus générés http://www.dazeinfo.com/2013/10/17/u-s-internet-advertising-revenues-crossed-10-billion-q2-2013-report/ Cours de recherche d’information textuelle - master IP 2014-15 38 Revenus générés http://www.dazeinfo.com/2013/10/17/u-s-internet-advertising-revenues-crossed-10-billion-q2-2013-report/ Cours de recherche d’information textuelle - master IP 2014-15 39 Revenus générés https://www.techdirt.com/articles/20120916/14454920395/newspaper-ad-revenue-fell-off-quite-cliff-now-parwith-1950-revenue.shtml Cours de recherche d’information textuelle - master IP 2014-15 40 Problématique • • • Économique : • Modèle = mises (par clic) • Comment facturer les clients de façon à ce qu’ils maximisent leurs mises ? Recherche d’information • Trouver les publicités les plus pertinentes… • … mais qui génèrent le plus de clic Estimation de l’intérêt d’une publicité Cours de recherche d’information textuelle - master IP 2014-15 41 Principes Espace 1 Espace 2 ? Annonceur 1: - mots clefs - budget / clic p(clic | question, annonceur) - budget restant Annonceur 2: - mots clefs - budget / clic - budget restant Espace 3 Requête + contexte Cours de recherche d’information textuelle - master IP 2014-15 … 42 Analyse de liens - PageRank et Hits PageRank et Hits Recherche d'information textuelle