Moteurs de recherche d`entreprise

publicité
Les moteurs de recherche
Un moteur de recherche est une application web permettant de retrouver des ressources (pages web,
articles de forums Usenet, images, vidéo, fichiers, etc.) associées à des mots quelconques. Certains
sites web offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors moteur
de recherche le site lui-même (Google Video par exemple est un moteur de recherche vidéo).
Instrument de recherche sur le web constitué de « robots », encore appelés bots, spiders, crawlers ou
agents qui parcourent les sites à intervalles réguliers et de façon automatique (sans intervention
humaine, ce qui les distingue des annuaires) pour découvrir de nouvelles adresses (URL). Ils
suivent les liens hypertextes (qui relient les pages les unes aux autres) rencontrés sur chaque page
atteinte. Chaque page identifiée est alors indexée dans une base de données, accessible ensuite par
les internautes à partir de mots-clés.
C'est par abus de langage qu'on appelle également moteurs de recherche des sites web proposant des
annuaires de sites web : dans ce cas, ce sont des instruments de recherche élaborés par des
personnes qui répertorient et classifient des sites web jugés dignes d'intérêt, et non des robots
d'indexation — on peut citer par exemple DMOZ et Yahoo!, etc.
Les moteurs de recherche ne s'appliquent pas qu'à Internet : certains moteurs sont des logiciels
installés sur un ordinateur personnel. Ce sont des moteurs dits desktop qui combinent la recherche
parmi les fichiers stockés sur le PC et la recherche parmi les sites Web — on peut citer par exemple
Exalead Desktop, Google Desktop et Copernic Desktop Search, Windex Server, etc
On trouve également des métamoteurs, c'est-à-dire des sites web où une même recherche est lancée
simultanément sur plusieurs moteurs de recherche (les résultats étant ensuite fusionnés pour être
présentés à l'internaute) — on peut citer Ixquick, Mamma, Kartoo, Seek.fr, Kelseek.fr etc.
Fonctionnement
Le fonctionnement d'un moteur de recherche comme tout instrument de recherche se décompose en trois
processus principaux :
1.L'exploration ou crawl : le web est systématiquement exploré par un robot
d'indexation suivant récursivement tous les hyperliens qu'il trouve et récupérant les ressources jugées
intéressantes. L'exploration est lancée depuis une ressource pivot, comme une page d'annuaire web. Un
moteur de recherche est d'abord un outil d'indexation, c'est-à-dire qu'il dispose d'une technologie de collecte
de documents à distance sur les sites Web, via un outil que l'on appelle robot ou bot. Un robot d'indexation
dispose de sa propre signature (comme chaque navigateur web). Googlebot est le user agent (signature) du
crawler de Google
2.L'indexation des ressources récupérées consiste à extraire les mots considérés comme significatifs
du corpus à explorer. Les mots extraits sont enregistrés dans une base de données organisée comme un
gigantesque dictionnaire inverse ou, plus exactement, comme l'index terminologique d'un ouvrage, qui permet
de retrouver rapidement dans quel chapitre de l'ouvrage se situe un terme significatif donné. Les termes non
significatifs s'appellent des mots vides. Les termes significatifs sont associés à un poids. Celui-ci reflète à la
fois la probabilité d'apparition du mot dans un document et le « pouvoir discriminant de ce mot » dans une
langue, conformément au principe de la formule TF-IDF.
3.La recherche correspond à la partie requêtes du moteur, qui restitue les résultats. Un algorithme est
appliqué pour identifier dans le corpus documentaire (en utilisant l'index), les documents qui correspondent le
mieux aux mots contenus dans la requête, afin de présenter les résultats des recherches par ordre de pertinence
supposée. Les algorithmes de recherche font l'objet de très nombreuses investigations scientifiques. Les
moteurs de recherche les plus simples se contentent de requêtes booléennes pour comparer les mots d'une
requête avec ceux des documents. Mais cette méthode atteint vite ses limites sur des corpus volumineux.
Les moteurs plus évolués sont basés sur le paradigme du modèle vectoriel : ils utilisent la formule TF-IDF
pour mettre en relation le poids des mots dans une requête avec ceux contenus dans les documents. Cette
formule est utilisée pour construire des vecteurs de mots, comparés dans un espace vectoriel, par
une similarité cosinus. Pour améliorer encore les performances d'un moteur, il existe de nombreuses
techniques, la plus connue étant celle du PageRank de Google qui permet de pondérer une mesure de
cosinus en utilisant un indice de notoriété de pages. Les recherches les plus récentes utilisent la méthode
dites d'analyse sémantique latente qui tente d'introduire l'idée de cooccurrences dans la recherche de résultats
(le terme « voiture » est automatiquement associé à ses mots proches tels que « garage » ou un nom de
marque dans le critère de recherche).
Des modules complémentaires sont souvent utilisés en association avec les trois briques de bases du
moteur de recherche. Les plus connus sont les suivants :
1.Le correcteur orthographique : il permet de corriger les erreurs introduites dans les mots de la requête,
et s'assurer que la pertinence d'un mot sera bien prise en compte sous sa forme canonique.
2.Le lemmatiseur : il permet de réduire les mots recherchés à leur lemme*et ainsi d'étendre leur portée de
recherche.
3.L'anti-dictionnaire : utilisé pour supprimer à la fois dans l'index et dans les requêtes tous les mots « vides
» (tels que « de », « le », « la ») qui sont non discriminants et perturbent le score de recherche en
introduisant du bruit.
*lemme, ou lexie ou item lexical, est l'unité autonome constituante du lexique d'une langue. C'est une suite
de caractères formant une unité sémantique et pouvant constituer une entrée de dictionnaire. Dans le
vocabulaire courant, on parlera plus souvent de « mot », notion qui manque cependant de clarté. On
construit des énoncés avec des lemmes ;
Financement[modifier | modifier le code]
Les sites dont la recherche est le principal service se financent par la vente de technologie et de publicité.
Le financement par la publicité consiste à présenter des publicités correspondant aux mots recherchés par le
visiteur. L'annonceur achète des mots-clés : par exemple une agence de voyage peut acheter des mots-clés
comme « vacances », « hôtel » et « plage » ou « Cannes », « Antibes » et « Nice » si elle est spécialisée
dans cette région. Cet achat permet d'obtenir un référencement dit « référencement payant » à distinguer du
référencement dit « référencement naturel ».
Le moteur de recherche peut afficher la publicité de deux manières : en encart séparé ou en l'intégrant aux
résultats de la recherche. Pour le visiteur, l'encart séparé se présente comme une publicité classique.
L'intégration aux résultats se fait en revanche au détriment de la pertinence des résultats et peut avoir des
retombées négatives sur la qualité perçue du moteur. De ce fait, tous les moteurs ne vendent pas de
placement dans les résultats.
Les moteurs de recherche constituent un enjeu économique. La valeur boursière de Google, principal moteur
de recherche, était de 165 milliards d'euros en janvier 2008.
Techniques de détournement[modifier | modifier le code]
L'importance des enjeux économiques a généré des techniques de détournement malhonnêtes des moteurs
de recherche pour obtenir des référencements « naturels », le spamdexing (référencement abusif en
français).
Les techniques les plus pratiquées de spamdexing sont :
Le cloaking, qui est une technique permettant de fournir une page différente aux moteurs de recherche de
celle visible par un internaute.
Les sites miroirs, qui sont des copies exactes d'un site internet, mais sous une autre adresse.
Le zurnisme, qui est la création d'un néologisme pour obtenir une exclusivité de référencement. Le mot
zurnisme est lui-même un zurnisme, qui a été créé en 2007 par un blog français.
Les techniques de référencement abusif sont pourchassées par les éditeurs de moteurs de recherches, qui
constituent des listes noires, provisoires ou définitives.
On distingue le spamdexing, détournement malhonnête, du « SEO », Search Engine
Optimization (optimisation des moteurs de recherche en français). Les techniques de SEO sont commercialisées
par des sociétés spécialisées.
Vente de technologie
Les grandes organisations (entreprises, administrations) disposent généralement de très nombreuses
ressources informatiques dans un vaste intranet. Leurs ressources n'étant pas accessibles depuis Internet,
elles ne sont pas couvertes par les moteurs de recherche du web. Elles doivent donc installer leur propre
moteur si elles veulent mener des recherches dans leurs ressources. Elles constituent donc un marché pour
les développeurs de moteurs de recherche.
Il arrive également que des sites web publics utilisent les services d'un moteur de recherche pour étoffer leur
offre. On parle alors de SiteSearch. Ces logiciels permettent la recherche de contenus dans un ou plusieurs
groupes de sites. Ces technologies sont particulièrement exploitées sur les sites de contenus et les sites de
vente en ligne. La particularité de ces outils est souvent la complexité de mise en œuvre et les ressources
techniques nécessaires disponibles.
Il arrive aussi que les grands portails exploitent la technologie des moteurs de recherche. Ainsi Yahoo!,
spécialiste de l'annuaire web, a utilisé pendant quelques années la technologie de Google pour la recherche,
jusqu'à ce qu'elle lance son propre moteur de recherche Yahoo Search Technology en 2004, dont les
fondations proviennent de Altavista, Inktomi et Overture, sociétés fondatrices des moteurs de recherche et
rachetées par Yahoo!.
Moteurs de recherche Web











Ask (multilingue)

Baidu (chinois)

Bing (multilingue)

Blekko (anglais)

DuckDuckGo (multilingue)

Dazoo FR (français)

Exalead (français)

Gigablast (anglais)

Google (multilingue)

LeMoteur (français)

Lycos (multilingue)


Mozbot (multilingue)
Panguso (chinois)
Qwant (multilingue)
Sohu (chinois)
Soso (chinois)
Naver (Coréen)
V9 (chinois, multilingue)
Voila (français)
Wopa (multilingue)
Yahoo! (multilingue)
Yandex (russe, anglais)
Tinghir (multilingue, tamazight)
Solidaires et/ou écologiques
Ils sont des intermédiaires vers des moteurs de recherche majeurs ( Google, Bing, Yahoo) mais reversent une
partie de leurs bénéfices à des œuvres.
Doona (humanitaire, service arrêté et association dissoute)
Ecosia (écologique)
GoodSearch (humanitaire)
HooSeek (écologique, fermé en septembre 2012)
Moteurs de recherche d'entreprise
 Autonomy (HP)
 PolySpot
 Exalead (Dassault Systèmes)
 Sinequa
 Google Search Appliance  Verticrawl
 Kartoo (projet stoppé)
Moteurs de recherche libre
DataparkSearch (Recherche en intranet et site web)
OpenSearchServer
ElasticSearch
Grub
Lucene / Solr / Nutch
Mnogosearch
Seeks
Sphinx
Whoosh
Xapian
YaCy (particularité : pair à pair)
Zettair ( Intranet )
Classement par spécialisation
Moteurs de recherche éducation et recherche[
BASE (développé dans le cadre du projet Open Archives Initiative)
CiteSeerX : bibliothèque numérique pour les articles scientifiques et académiques
Google Scholar
ScientificCommons
PubGene : moteur de recherche biomédical
PubMed : recherche bibliographique biomédicale
MyScienceWork : moteur de recherche multidisciplinaire d'articles scientifiques en Open Access
Moteurs de recherche pour enfants
Principaux :
Kidrex (google)
Yahoo! Kids
Ask Kids
Français :
BabyGo
Moteurs de recherche d'images
Google Images
TinEye
ALPIR
GazoPa
YaCy (particularité : pair à pair)
Moteurs de recherche de vidéos
Fooooo (ja)
Strimoo.eu
Moteurs de recherche sur les sites de partage
FilesTube
Moteurs de recherche RH
Regionsjob
Cadremploi
Indeed
Jobboom
Keljob.com
Monster
StepStone
Workopolis
Moteurs de recherche sémantique
Ariane
Firmily
Fise
Verticrawl
WolframAlpha
Yatedo
Moteurs en langage naturel
WolframAlpha
Moteurs de recherche assurant la confidentialité des recherches
DuckDuckGo
Kelseek.fr
Ixquick
Scandoo
Searx
Seek.fr
Startpage
Swisscows
YaCy (particularité : pair à pair)
Métamoteurs
Par ordre alphabétique
Copernic agent
Ixquick
Lingway KM
Metacrawler
Searx
Seek.fr
Seeks
Scroogle
Unbubble
Yasni
Yippy
dossier établi en décembre d'après WIKIPEDIA
Téléchargement