Les moteurs de recherche, Google et les opérateurs booléens

publicité
Les moteurs de
recherche,
Google
et les opérateurs
booléens
Les moteurs de
recherche
Ce sont des logiciels qui recherchent des
documents sur le web en fonction du
(des) mot(s)-clé(s) utilisés par l’internaute
…
 … parce que le web est immense et se
développe sans cesse ; une page web
représente une goutte d’eau dans l’océan!

Différents moteurs de recherche
métamoteur
Comment fonctionne un moteur de
recherche ?
Un moteur de recherche est composé de :
• un robot
aussi appelé spider, un programme informatique
dont le travail est d’archiver. Le robot suit les liens hypertextes
des sites web et navigue ainsi de page en page.
•
un moteur d'indexation
: pour chaque page web
trouvée par le robot, le moteur d’indexation y associe les
mots fréquemment utilisés ainsi que les termes du titre ou
d'autres parties significatives de cette page. Ces pages
sont ensuite enregistrées dans des bases de données.
•
et un moteur d'interrogation
: il est le lien entre
l'internaute et la base de données créée par le moteur
d'indexation. Le moteur d’interrogation fonctionne à partir de
mots-clés.
http://webilus.com
Le cas Google
Fiche d’identité de Google
•
Moteur de recherche créé par l’entreprise
américaine Google technology en 1998
« GOOGLE » : contraction formée à partir
d’un jeu sur 2 mots :
• expression mathématique de Googol, 1 suivi
de 100 zéros (reflète l’immense volume
d’informations disponibles sur le web)
• + « googles » en anglais qui signifie
« lunettes » (« 00 » du logo)
•
Google en chiffres (2010)
•
•
•
•
•
Moteur de recherche utilisé par 91% des
internautes français
Plus de 1000 milliards de pages web
indexées
30 000 requêtes par seconde en 112
langues
N°1 de la publicité en ligne (97% de son
chiffre d’affaires)
Ce serait le plus gros réseau
informatique mondial avec près de 2
millions d’ordinateurs dans le monde.
Oui mais …
•
Google n’a accès qu’à moins de 10% du
web total, 90% du reste appartenant au
web invisible.
Google et la pertinence des
résultats
Google utilise un système de classement appelé
PageRank pour classer les résultats d'une
recherche du site le plus pertinent au moins
pertinent. En fait, plus l'adresse d'un site est
répertorié par d'autres sites, plus ce site est
pertinent : chaque lien pointant vers une page est
considéré comme un vote pour cette page.
• Ainsi, les premiers résultats affichés par Google
ne sont pas toujours les plus pertinents.
Aucun moteur de recherche ne prend en compte
le contenu réel des sites pour évaluer leur
pertinence … ce ne sont que des machines !
•
Comment les employés de Google voient
les résultats de votre recherche
•
•
•
•
GG Score : unité exprimée en dollars, c’est
l’indice qui semble le plus mystérieux à l’heure
actuelle. Indice de qualité ? De confiance ?
Somme dépensée en publicités ?
Adv : sans doute l’abréviation de
« advertising », c’est à dire « publicité ». La
valeur de cet indice est un booléen : oui ou
non.
Vertical : cette donnée permet de ranger les
sites dans des catégories.
PVs : l’abréviation de « pages views » ? Les
utilisateurs de ces outils pourraient ainsi
connaître le nombre de visiteurs moyen de
chaque site.
http://www.zorgloob.com/2007-10/gg-score-un-indice-de-googler/
http://webilus.com 2007
Stratégie de Google pour que l’internaute ne clique
pas que sur les 3 premiers résultats (triangle d’or)
2008
http://webilus.com
Les opérateurs booléens
définition
Ce sont des symboles. Ils portent le nom
d' « opérateurs booléens » en l'honneur du
mathématicien George Boole.
Les symboles sont :
+ / - / OR
Concrètement ...
Des sites contenant l’un
ou l’autre des deux
termes inscrits dans la
requête…
terme1 OR terme 2
L’utilisation de l’opérateur OR (écrit en
majuscule) ou du trait verticale ( | )
indique au moteur de recherche
d’afficher les sites traitant d’un ou l’autre
des termes inscrits dans la requête
Des sites traitant d’un
terme, mais pas d’un
autre qui lui est souvent
associé…
terme1 –terme2
L’utilisation du signe – (moins) placé
juste avant un mot indique à Google de
rechercher les sites contenant
seulement la première expression,
mais non la seconde
Seulement les sites
traitant de tous les
termes inscrits dans la
requête…
terme1 +terme2
L’utilisation du signe + (plus) placé,
juste avant un mot indique, à Google
d’afficher seulement les sites contenant
les deux termes.
http://www.googleraide.net/noframe/operateur.htm
De plus
Minuscules = majuscules
TERME = terme
L'ordre des mots est important
moyen âge
donnera un résultat
différent de âge moyen
Recherche avec une expression
exacte : les guillemets
« moyen-âge » cherchera exactement
cette expression dans les pages web.
Exemples concrets
Mots-clés de la requête
nombre de résultats de Google
chevalerie
782 000
moyen-Âge
4 890 000
« moyen-âge »
5 730 000
chevalerie «moyen-âge »
960 000
chevalerie +"moyen-âge"
909 000
chevalerie -"moyen-âge"
762 000
chevalerie OR"moyen-âge"
6 410 000
Téléchargement