Les moteurs de recherche, Google et les opérateurs booléens Les moteurs de recherche Ce sont des logiciels qui recherchent des documents sur le web en fonction du (des) mot(s)-clé(s) utilisés par l’internaute … … parce que le web est immense et se développe sans cesse ; une page web représente une goutte d’eau dans l’océan! Différents moteurs de recherche métamoteur Comment fonctionne un moteur de recherche ? Un moteur de recherche est composé de : • un robot aussi appelé spider, un programme informatique dont le travail est d’archiver. Le robot suit les liens hypertextes des sites web et navigue ainsi de page en page. • un moteur d'indexation : pour chaque page web trouvée par le robot, le moteur d’indexation y associe les mots fréquemment utilisés ainsi que les termes du titre ou d'autres parties significatives de cette page. Ces pages sont ensuite enregistrées dans des bases de données. • et un moteur d'interrogation : il est le lien entre l'internaute et la base de données créée par le moteur d'indexation. Le moteur d’interrogation fonctionne à partir de mots-clés. http://webilus.com Le cas Google Fiche d’identité de Google • Moteur de recherche créé par l’entreprise américaine Google technology en 1998 « GOOGLE » : contraction formée à partir d’un jeu sur 2 mots : • expression mathématique de Googol, 1 suivi de 100 zéros (reflète l’immense volume d’informations disponibles sur le web) • + « googles » en anglais qui signifie « lunettes » (« 00 » du logo) • Google en chiffres (2010) • • • • • Moteur de recherche utilisé par 91% des internautes français Plus de 1000 milliards de pages web indexées 30 000 requêtes par seconde en 112 langues N°1 de la publicité en ligne (97% de son chiffre d’affaires) Ce serait le plus gros réseau informatique mondial avec près de 2 millions d’ordinateurs dans le monde. Oui mais … • Google n’a accès qu’à moins de 10% du web total, 90% du reste appartenant au web invisible. Google et la pertinence des résultats Google utilise un système de classement appelé PageRank pour classer les résultats d'une recherche du site le plus pertinent au moins pertinent. En fait, plus l'adresse d'un site est répertorié par d'autres sites, plus ce site est pertinent : chaque lien pointant vers une page est considéré comme un vote pour cette page. • Ainsi, les premiers résultats affichés par Google ne sont pas toujours les plus pertinents. Aucun moteur de recherche ne prend en compte le contenu réel des sites pour évaluer leur pertinence … ce ne sont que des machines ! • Comment les employés de Google voient les résultats de votre recherche • • • • GG Score : unité exprimée en dollars, c’est l’indice qui semble le plus mystérieux à l’heure actuelle. Indice de qualité ? De confiance ? Somme dépensée en publicités ? Adv : sans doute l’abréviation de « advertising », c’est à dire « publicité ». La valeur de cet indice est un booléen : oui ou non. Vertical : cette donnée permet de ranger les sites dans des catégories. PVs : l’abréviation de « pages views » ? Les utilisateurs de ces outils pourraient ainsi connaître le nombre de visiteurs moyen de chaque site. http://www.zorgloob.com/2007-10/gg-score-un-indice-de-googler/ http://webilus.com 2007 Stratégie de Google pour que l’internaute ne clique pas que sur les 3 premiers résultats (triangle d’or) 2008 http://webilus.com Les opérateurs booléens définition Ce sont des symboles. Ils portent le nom d' « opérateurs booléens » en l'honneur du mathématicien George Boole. Les symboles sont : + / - / OR Concrètement ... Des sites contenant l’un ou l’autre des deux termes inscrits dans la requête… terme1 OR terme 2 L’utilisation de l’opérateur OR (écrit en majuscule) ou du trait verticale ( | ) indique au moteur de recherche d’afficher les sites traitant d’un ou l’autre des termes inscrits dans la requête Des sites traitant d’un terme, mais pas d’un autre qui lui est souvent associé… terme1 –terme2 L’utilisation du signe – (moins) placé juste avant un mot indique à Google de rechercher les sites contenant seulement la première expression, mais non la seconde Seulement les sites traitant de tous les termes inscrits dans la requête… terme1 +terme2 L’utilisation du signe + (plus) placé, juste avant un mot indique, à Google d’afficher seulement les sites contenant les deux termes. http://www.googleraide.net/noframe/operateur.htm De plus Minuscules = majuscules TERME = terme L'ordre des mots est important moyen âge donnera un résultat différent de âge moyen Recherche avec une expression exacte : les guillemets « moyen-âge » cherchera exactement cette expression dans les pages web. Exemples concrets Mots-clés de la requête nombre de résultats de Google chevalerie 782 000 moyen-Âge 4 890 000 « moyen-âge » 5 730 000 chevalerie «moyen-âge » 960 000 chevalerie +"moyen-âge" 909 000 chevalerie -"moyen-âge" 762 000 chevalerie OR"moyen-âge" 6 410 000