introduction générale - Benjamin Piwowarski`s website

publicité
Recherche d’information
textuelle
Recherche Web
B. Piwowarski
CNRS / LIP6
Université Paris 6
[email protected]
http://www.bpiwowar.net
Master IP - 2014-15
Cours et travaux
pratiques basés sur les
documents de
P. Gallinari et S. Lamprier
(LIP6)
Introduction
Recherche Web
Recherche d'information textuelle
Evolution des moteurs de
recherche
•
1994 – 97
•
Excite, Lycos, etc
•
•
1998 –
•
•
Contenu
Google, Yahoo
•
Liens
•
Click through
•
Anchor text
2002 – •
Pubs
•
Multiplication des services
•
Prise en compte contexte et utilisateur
•
Autres sources d’information
•
Web 2.0, etc
Cours de recherche d’information textuelle - master IP 2014-15
3
RI Web vs RI classique
•
Corpus
•
•
Contexte
•
•
Taille, Nature, Dynamicité
Réseau, localisation, historique
Individus
•
Grande variabilité
•
Prise en compte progressive des profils pour la
recherche web
Cours de recherche d’information textuelle - master IP 2014-15
4
Individus
Recherche Web
Recherche d'information textuelle
Besoins d’information
•
Requêtes
•
•
Loi de puissance
•
peu de requêtes populaires
•
Beaucoup de requêtes rares
Taille moyenne requêtes < 3 mots
•
1998, moyenne 2.35
•
2001 moyenne 2.54
•
Besoins d’information dynamiques
•
Utilisation pauvre du langage de requête
Cours de recherche d’information textuelle - master IP 2014-15
6
Besoins d’information
•
Besoin
•
•
•
Transactionnel
•
Achats en ligne
•
Acceder à une ressource
Musique, livre, réservation avions – hotels,…
•
Météo, Google-Maps, downloads, …
Informationnel
•
Consultation
•
Se renseigner sur un sujet
Navigation
•
•
•
Joindre une page donnée
Interaction
•
Recall souvent peu important, precision mise en avant
Cours de recherche d’information textuelle - master IP 2014-15
7
Individus - exemple
http://www.iprospect.com/premiumPDFs/WhitePaper_2006_SearchEngineUserBehavior.pdf
Cours de recherche d’information textuelle - master IP 2014-15
8
Google Trends - Le buzz du moment :
expressions à la plus forte progression
Recherche
d'information
Cours de recherche d’information textuelle textuelle
- master IP 2014-15
9
Les statistiques de Google Trends
Recherche
d'information
Cours de recherche d’information textuelle textuelle
- master IP 2014-15
10
Flu Trends
Cours de recherche d’information textuelle - master IP 2014-15
11
Individus
Recherche Web
Recherche d'information textuelle
Le Web
•
Croissance désordonnée
•
•
Pas de coordination
Nature des informations
•
Contient des informations obsoletes, mensongères, etc
•
Texte, html, images, structuré (XML), BD,…
•
Statique vs dynamique
•
Le web dynamique n’est pas indexé
•
•
Web caché
•
•
Quelques travaux
1 ou 2 facteurs d’echelles plus gros que le web visible ?
Multilingue
•
Difficulté des analyses lexicales
Cours de recherche d’information textuelle - master IP 2014-15
13
Go-globe.com (juin 2011)
Cours de recherche d’information textuelle - master IP 2014-15
14
Taille du Web indexé par Google
Cours de recherche d’information textuelle - master IP 2014-15
15
Le Web
•
Forte croissance
•
Double tous les mois (!!check)
•
La taille du web réel n’est pas connue
•
Qu’est ce qui est mesuré
•
•
•
Nombre d’hôtes
•
Nombres de pages statiques
Etudes sur l’estimation du nombre de pages
•
Plusieurs méthodes : marches aléatoires, etc
•
Via les moteurs de recherche / index (cf. Netcraft)
Nombre de pages indexées
•
Yahoo! Annonce 20 M en 2005 ?
Cours de recherche d’information textuelle - master IP 2014-15
16
Croissance du web
•
http://news.netcraft.com/archives/web_server_survey.html •
Total Sites Across All Domains August 1995 - January 2008
Cours de recherche d’information textuelle - master IP 2014-15
17
Structure globale du Web
•
Connexions
•
Loi de puissance
•
Le nombre de pages web de in-degree (liens
entrants) i est proportionnel à 1/ik avec k = 2.1
Cours de recherche d’information textuelle - master IP 2014-15
18
Bow-Tie shape of the web
•
Trois grandes catégories de pages web
•
In, Out, SCC qui se distinguent par les possibilités de navigation
Navigation par
hyperliens
In → SCC
SCC → Out
SCC → SCC
•
From Manning et al. 2007
Cours de recherche d’information textuelle - master IP 2014-15
19
En résumé
•
Beaucoup de composants technologiques
•
Modèles de recherche d’information et d’évaluation
•
Robots d’indexation
•
Critères de qualité des pages Web
•
•
Détection du spam
•
Autorité
•
Niveau de langue, de connaissances, etc.
Personnalisation de la recherche
•
Prise en compte du contexte
•
Prise en compte de l’individu
•
Publicité
•
Analyse des résultats (clics)
Cours de recherche d’information textuelle - master IP 2014-15
20
“Crawlers”
Recherche Web
Robot d’indexation
(Crawler)
•
Un programme qui
•
Suit les hyperliens entre les documents
•
Recharge les pages à intervalles réguliers
Cours de recherche d’information textuelle - master IP 2014-15
22
Problématiques
•
•
•
Minimiser les resources :
•
la bande passante utilisée
•
Interrogation des mêmes sites
Maximiser des critères de qualité
•
la “couverture”
•
Maximiser la “fraîcheur”
Information structurée / dynamique (Web 2.0)
Cours de recherche d’information textuelle - master IP 2014-15
23
Spam
Recherche Web
Spam sur le Web
•
Référencement - Search Engine Optimization (SEO)
•
Mettre en avant ses pages / son site dans les résultats des moteurs
de recherche
•
Motivations
•
Diverses : commerciales, politiques, etc
•
Devenu une industrie
•
Les moteurs essaient de faire respecter des règles aux SEO
•
Le SEO est une des motivations majeures pour le SPAM
•
Guerre entre les spammers et les moteurs de recherche
•
“Adversial information retrieval”
Cours de recherche d’information textuelle - master IP 2014-15
25
Bestiaire du Spam
Modification du contenu
•
Keyword stuffing
•
Répétition de termes pour augmenter le tf-idf
•
Variantes : meta-tags, texte caché (couleur du fond ..), adresses url fréquement
demandées, etc
•
générateurs de texte : pipotrons, patchworks, générateurs markoviens
•
Visait les 1ers moteurs de recherche (tf-idf), facilement détecté actuellement
•
•
e.g. dé-référencement de BMW par Google en 2006
Cloaking
•
Délivrer des informations différentes suivant l’utilisateur (robot vs personne)
•
Permet d’indexer des pages avec des mots (robot) différents du contenu vu par
l’utilisateur humain
•
Si la requête http provient d’un crawler : servir un faux contenu (fausse
indexation)
•
Si la requête http provient du browser d’un utilisateur servir du spam
Cours de recherche d’information textuelle - master IP 2014-15
26
Bestiaire du Spam
Référencement
•
Link farms
•
Référencement mutuel de sites
•
•
Honey pot
•
•
Réplication de sites ou annuaires très référencés – le site sera ensuite référencé par d’autres
utilisateurs et augmentera son rang
Blog ou wiki spam
•
•
Développer un grand nombre de sites interconnectés qui pointent également sur des cibles
dont on fait remonter le pagerank
Faire pointer sur son site à partir de sites où l’on peut écrire
Clic spam
•
Épuiser le crédit de concurrents en faisant cliquer que les liens sponsorisés (pay per clic
model)
•
Camouflage
•
Doorway
•
Faire référencer une page avec un bon score (choix de mots clé, des liens etc)
•
L’utilisateur qui demande la page est renvoyé sur d’autres pages (commerciales etc)
Cours de recherche d’information textuelle - master IP 2014-15
27
Bestiaire du Spam
Divers
•
•
Parasitage
•
recyclage de domaines expirés, cybersquatting
•
pollution ou piratage de sites réputés fiables : blogs, forums, petites
annonces…
•
Botnets, clickbots (ClickBot.A)
Variantes
•
Phishing
•
obtenir des renseignements personnels pour une usurpation d'identité. Faire
croire à la victime qu'elle s'adresse à un tiers de confiance — banque,
administration, etc. — afin de lui soutirer des renseignements personnels :
mot de passe, numéro de carte de crédit, date de naissance, etc.
•
•
Cf mesure 2009 verification transactions par les banques (sms de
confirmation)
Social spam : générateurs d'amis
Cours de recherche d’information textuelle - master IP 2014-15
28
Spamdexing : ferme à liens (Projet
Madspam, T. Urvoy, Orange Labs)
Orange Labs - R&D – méthodes automatiques pour la
détection du spamdexing – mars 2009
Cours de recherche d’information textuelle - master IP 2014-15
29
Spamdexing : ferme à liens
Cours de recherche d’information textuelle - master IP 2014-15
30
Spamdexing : ferme à liens
•
Plus de 5000 pages ventilées sur des centaines de
sites
Cours de recherche d’information textuelle - master IP 2014-15
31
Spam blogs
Cours de recherche d’information textuelle - master IP 2014-15
32
Incidence
% de Web spam dans les 8
domaines les plus populaires
sur le Web
% de Web spam dans les 5
langues les plus populaires
sur le Web
Sur 100 millions de pages, globalement
représentatives du Web [Ntoulas et al. 2006]
Cours de recherche d’information textuelle - master IP 2014-15
33
Spam Blogs (Société
BlogSpirit)
•
pourcentage de Spam - 2007
Cours de recherche d’information textuelle - master IP 2014-15
34
La lutte contre le Spam
•
Editorial
•
Blacklists, dénonciation (Google), …
•
•
Usage
•
•
•
http://www.google.com/contact/spamreport.html
Préférer les pages très utilisées, bien référencées
Analyse de liens
•
Guilt by association
•
Algos robustes de référencement
Machine learning
•
Cf Adversial retrieval initiative : Airweb
•
http://airweb.cse.lehigh.edu/
Cours de recherche d’information textuelle - master IP 2014-15
35
Publicité
Recherche Web
Publicité sur le Web
•
Trois niveaux
• Cost per Mil (CPM) : nombre de fois où la
Ce que les est
moteurs
de recherche
bannière
affichée
aimerait faire payer…
•
Cost per Clic (CPC) : nombre de fois où la
Ce que les moteurs
de recherche font
bannière
est cliquée
payer…
•
Cost Per Engagement (CPE) : nombre de fois où
une
été engagé
Ce transaction
que les clients deamoteurs
de
recherche aimeraient payer…
Cours de recherche d’information textuelle - master IP 2014-15
37
Revenus générés
http://www.dazeinfo.com/2013/10/17/u-s-internet-advertising-revenues-crossed-10-billion-q2-2013-report/
Cours de recherche d’information textuelle - master IP 2014-15
38
Revenus générés
http://www.dazeinfo.com/2013/10/17/u-s-internet-advertising-revenues-crossed-10-billion-q2-2013-report/
Cours de recherche d’information textuelle - master IP 2014-15
39
Revenus générés
https://www.techdirt.com/articles/20120916/14454920395/newspaper-ad-revenue-fell-off-quite-cliff-now-parwith-1950-revenue.shtml
Cours de recherche d’information textuelle - master IP 2014-15
40
Problématique
•
•
•
Économique :
•
Modèle = mises (par clic)
•
Comment facturer les clients de façon à ce qu’ils
maximisent leurs mises ?
Recherche d’information
•
Trouver les publicités les plus pertinentes…
•
… mais qui génèrent le plus de clic
Estimation de l’intérêt d’une publicité
Cours de recherche d’information textuelle - master IP 2014-15
41
Principes
Espace 1
Espace 2
?
Annonceur 1:
- mots clefs
- budget / clic
p(clic | question, annonceur) - budget restant
Annonceur 2:
- mots clefs
- budget / clic
- budget restant
Espace 3
Requête + contexte
Cours de recherche d’information textuelle - master IP 2014-15
…
42
Analyse de liens - PageRank
et Hits
PageRank et Hits
Recherche d'information textuelle
Téléchargement