DESMOULINS Thibault

publicité
2009
DESMOULINS Thibault
BTS Informatique de Gestion
Option développeur d’applications
[LE REFERENCEMENT D’UN
SITE WEB]
SOMMAIRE
SOMMAIRE...................................................................................... 2
INTRODUCTION............................................................................... 2
I.Les acteurs du référencement. Comment ça marche ?...................... 3
1.Le web jusque dans les années 90.............................................. 3
A.Les débuts des moteurs de recherche...................................... 3
B. Quelques inconvénients majeurs............................................ 5
2.Google ou comment révolutionner la recherche............................ 6
A.Comment fonctionne Google................................................... 6
B.Un algorithme révolutionnaire : le PageRank............................. 7
II.L’utilité du référencement pour son site......................................... 8
1.Pourquoi et dans quel cas référencer son site ?............................ 8
2.Les types de référencement...................................................... 9
A.Le référencement payant........................................................ 10
B.Le référencement gratuit...................................................... 10
III.Comment optimiser son référencement et assurer le
positionnement dans la pratique (cas menudesresto.com)................. 11
1.Avant tout une affaire de contenu............................................. 11
2.Connaître le fonctionnement des moteurs de recherche...............12
3.Utiliser les outils mis à disposition............................................ 15
CONCLUSION................................................................................ 17
INTRODUCTION
En 2006, le web dépasse les 100 millions de sites. Force est de
constater que ce chiffre est en constante évolution.
Ainsi, nous pouvons être amenés à penser que, pour un utilisateur lambda
de l’Internet, rechercher un site web dont il ne connaît même pas l’intitulé
reviendrait à rechercher une aiguille dans une botte de foin.
Cette abondance de sites Internet pose également un problème au
webmaster1 lui-même. Quel stratagème peut il donc mettre en œuvre afin
1
Personne responsable de l’administration d’un site Web
2
de faire que son site, sa création, se démarque de millions d’autres et
devienne, par la même, accessible pour de potentiels internautes ? C’est
pour répondre à ce besoin que les moteurs de recherche ont été créés,
ceux-ci jouant en quelque sorte le rôle « d’index géant du web ».
La plupart de mes applications professionnelles n’ont eu besoin
d’être référencées : le t’chat et le navigateur web étant des logiciels,
« Upload et Download » un site interne à Kéops. C’est lors de mon stage
de seconde année de BTS que je me suis orienté vers le référencement
(mon maitre de stage et l’entreprise étant spécialisés dans le
référencement).
Dans ce dossier nous nous focaliserons uniquement sur le
webmaster et sur les moyens dont il peut disposer afin de se distinguer de
toute une multitude de « concurrents ».
Ainsi, nous devons avant toute chose nous familiariser avec certains
des moyens précédemment évoqués. Il s’agit donc ici de comprendre la
notion de moteur de recherche ainsi que le rapport qu’entretient le
webmaster avec celui-ci. Le moteur de recherche tend à indexer les sites
selon certains critères. Ainsi, savoir quels sont ces critères peut s’avérer
un élément décisif pour le webmaster qui souhaite optimiser son
référencement. Autrement dit, appréhender le fonctionnement d’un
moteur de recherche permet à un webmaster d’optimiser son site Internet
en s’assurant de l’adéquation du contenu de ce dernier et des critères pris
en compte par les moteurs de recherche.
Nous verrons dans la dernière partie l’application dans la pratique
des moyens de référencement avec l’objet de mon stage de deuxième
année de BTS : www.menudesresto.com.
I.
Les acteurs du référencement. Comment ça marche ?
1. Le web jusque dans les années 90
A. Les débuts des moteurs de recherche
3
C’est dans les années 90 que le web commence à devenir populaire
et à s’imposer dans les foyers. Par la même occasion, le nombre de sites
créés explose. C’est dans l’optique de faciliter la recherche d’un site sur un
thème précis menée par l’utilisateur qu’ont été créés les moteurs de
recherche et que ceux-ci se sont donc imposés.
Ci-dessus AltaVista et Lycos, 2 grands moteurs de recherche dans les années 90
Leur objectif est double : afficher de la publicité (ce que l’on peut
voir sur les captures d’écran) et référencer le plus de sites possible grâce
à des « bots » qui sont des programmes réalisés pour effectuer une tâche
prédéfinie :
 plus rapidement qu’un humain

répétitive, ce qu’une personne n’aime donc pas faire
Ces bots parcourent le web et référencent donc les sites. Comment ?
Chaque moteur de recherche possède ses propres bots, il est donc
impossible de connaître en détail de fonctionnement de ceux-ci.
Cependant ils fonctionnent tous sur la même base :

Lorsqu’un bot arrive sur un site, celui-ci va enregistrer dans la
base de données du moteur de recherche l’adresse de la page
parcourue.

Ensuite, il va accorder plus ou moins d’importance au contenu
de la page en fonction des moteurs de recherche. Les mots
clés contenus dans les titres des pages ayant une importance.
4

Enfin, le bot va regarder les liens contenus dans la page et va
les enregistrer pour après les suivre un par un. Il devra donc
recommencer ces étapes pour la nouvelle page.
Cette façon de référencer le web peut paraître correcte cependant
quelques problèmes vont faire leur apparition.
B. Quelques inconvénients majeurs
Lorsque le web commençait son ascension, ce référencement des
moteurs de recherche convenait. Toutefois, les dizaines de milliers de
pages référencées à la base se sont vite multipliées pour devenir des
millions. Comment différencier des sites traitant d’un même sujet ? On va
donc principalement se baser sur les mots clés, le contenu du site ainsi
que sur sa taille.
Les webmaster ont également à leur disposition des balises à mettre
dans leur code qui sont très utilisées par les moteurs de recherche pour
faire la différence : les balises META :
<META
<META
<META
<META
<META
<META
<META
NAME="TITLE" CONTENT="titre de la page">
NAME="DESCRIPTION" CONTENT="une description">
NAME="KEYWORDS" CONTENT="mot clé 1, mot clé 2, mot clé 3">
NAME="SUBJECT" CONTENT="sujet du site">
NAME="CATEGORY" CONTENT="catégorie du site">
NAME="REVISIT-AFTER" CONTENT="15 DAYS">
NAME="ROBOTS" CONTENT="All">
Ces balises, placées dans l’en-tête de chaque page (invisible pour
l’internaute) correspondent respectivement au titre donné à la page, à sa
description, aux mots clés la décrivant… Cependant une mauvaise
utilisation de ces balises peut rapidement accroître son référencement.
Rien n’empêche le webmaster d’entrer des mots clés ne correspondant
pas à son site afin d’en faire la promotion.
Ce système en place mets donc la priorité sur la quantité des sites
répertoriés. Les recherches affichent donc toujours plus de résultats, mais
la qualité n’est pas forcément au rendez-vous. Ce n’est qu’à l’arrivée d’un
nouveau concurrent que cela va changer.
5
2. Google ou comment révolutionner la recherche
A. Comment fonctionne Google
Il est difficile de nos jours de ne pas avoir entendu parler de Google.
Celui-ci a su s’imposer dans la bataille des moteurs de recherche et
occupe maintenant 90% des recherches (en 2008) ! Les raisons de son
succès sont multiples :
 Une publicité efficace. En effet l’un des principes de Google est
que la publicité ne doit pas être un problème pour l’utilisateur
mais plutôt un atout. Ainsi, ses bots parcourent le site qui
désire afficher de la publicité. En connaissant son thème il
pourra donc proposer des publicités de sites traitant de même
sujet.
A gauche : un site de
programmation avec
publicité Google
ciblée
 Un résultat de la recherche non plus quantitatif, mais qualitatif
(grâce au PageRank que nous verrons plus tard).
 Des résultats ciblés notamment grâce aux recherches
préalablement effectuées par l’utilisateur (que Google
conserve dans sa base de données).
A gauche : un
calendrier des
recherches
effectuées sur
Google (avec la liste
des recherches
précises si on le
souhaite)
6
Toutefois ce dernier point pose des problèmes au niveau de la
confidentialité des données. Cet inconvénient est d’ailleurs souvent
reproché au moteur de recherche.
La plus grande force de Google tient au résultat pertinent de sa
recherche, donné grâce au PageRank.
B. Un algorithme révolutionnaire : le PageRank
Le PageRank est une notion fondamentale à connaître dans le
référencement. Il s’agit d’un algorithme permettant d’évaluer la
pertinence d’un site web afin de noter ce dernier sur une échelle de 1 à
10.
Ci-dessus la barre de Google donnant le PageRank (et une description)
Son principe : le bot de Google (appelé GoogleBot) parcours le web.
Sur chaque site, il répertorie les liens internes ainsi que les liens vers
d’autres sites. Il va recommencer cette étape pour tous les sites. Une fois
ceci fait il va à nouveau parcourir les sites déjà visités. Il va ensuite
attribuer un PageRank à chaque page du site qui correspondra au nombre
de sites pointant vers celle-ci.
Ainsi, si une page A possède un lien vers la page B, cela veut dire
que la page B verra son PageRank augmenter. Cette note augmente
7
également plus ou moins en fonction du PageRank de la page A ellemême. Si la page A possède un PageRank de 6, celui de la page B
augmentera plus vite que si elle en avait un de 3.
Tout fonctionne sur ce principe : « si une page A possède un lien
vers la page B, c’est que celle-ci est considérée comme importante ».
Cependant plus on a un PageRank élevé et plus il est difficile d’atteindre le
niveau supérieur :
L’effort demandé pour passer d’un PageRank de 6 à 7 est beaucoup plus élevé
que pour passer d’un PageRank de 5 à 6.
De nos jours cependant, le PageRank est remis en question car il ne
prend pas tout en compte, il n’a également plus autant d’importance que
lors de sa création. Yahoo par exemple a introduit un calcul de PageRank
tenant compte du surf des internautes et de la pertinence des liens.
II.
L’utilité du référencement pour son site
1. Pourquoi et dans quel cas référencer son site ?
8
Comme nous l’avons vu précédemment, le référencement est utile
pour être visible sur le net. Afin de confirmer cela, on peut regarder les
statistiques.
On constate que les accès à un site internet sont
en grande partie assurés par les moteurs de
recherche. A cela il ne faut pas oublier que, parmi les
accès direct, une partie d’entre eux connaissaient
l’adresse du site car ils l’ont préalablement trouvé sur
les moteurs de recherche et qu’ils ont retenu
l’adresse, retrouvé celle-ci dans l’historique de leur
navigateur, etc.
Cependant, tous les sites n’ont pas vocation à être référencés. En
effet certains sites n’en ont aucune utilité. Il s’agit de sites internes à une
entreprise, connus à un groupe de personnes ne souhaitant pas le diffuser
etc. C’est le cas par exemple du site d’envoi et de téléchargement de
fichiers réservé aux personnes suivant une formation à Keops Infocentre
que j’ai réalisé lors de mon stage de première année. Celui-ci nécessite
d’ailleurs une identification dès la page d’accueil :
Site interne à Keops Infocentre ne nécessitant donc pas de
référencement.
Si l’on prend la décision de référencer son site, on a le choix entre 2
types de référencements.
2. Les types de référencement
9
A. Le référencement payant
Parmi les deux types de référencements possibles pour un site web,
le référencement payant est sans aucun doute le plus efficace. Il consiste
à payer les moteurs de recherche pour apparaitre dans les premiers
résultats pour certains mots clés.
On peut constater ci-dessus que pour la recherche « voiture » dans
Yahoo, un certain nombre de liens commerciaux apparaît (dans le cadre).
Ainsi les sites de Mazda, Peugeot, Volvocars, Alfaromeo, Fiat… sont
assurés d’apparaître en première page pour les recherches qui les
intéressent.
Pour résumer le référencement payant :
 Avantages :
- Rapide à mettre en place
- Très bon positionnement dans les résultats
 Inconvénients :
- Nécessite un budget important
- Ne couvre que les mots clés ou l’on a payé
B. Le référencement gratuit
Le référencement gratuit concerne tout le référencement où l’on ne
paye pas. Ce référencement est principalement fait lors de la réalisation /
10
conception du site pour ce qui est des méthodes de programmation à
utiliser. Nous verrons toutes ces méthodes par la suite.
Cependant il peut également s’agir de partenariat gratuit avec
d’autres sites.
Il consiste généralement en un échange de lien (chacun mets un lien vers
le site de l’autre) qui est, comme nous l’avons vu précédemment, très
utile pour augmenter son PageRank et donc la position de son site dans
les résultats des moteurs de recherche. Les liens pointant vers son site
sont appelés des backlinks. Ces liens sont très importants pour le
positionnement !
Nous aurons l’occasion de revoir en détail le référencement gratuit
(coté développement) dans la prochaine partie.
Pour résumer le référencement gratuit :
 Avantages :
- Ne coûte rien
- Bon positionnement sur le long terme s’il est optimisé
 Inconvénients :
- Long à mettre en place
- Nécessite des partenariats avec d’autres sites
- Il est préférable de connaitre le fonctionnement des
moteurs de recherche (nous verrons pourquoi par la suite)
III. Comment optimiser son référencement et assurer le
positionnement dans la pratique (cas
menudesresto.com)
1. Avant tout une affaire de contenu
Le contenu d’un site web est ce qu’il y a de plus important et il ne
faut pas l’oublier car, même si l’on optimise son site par les moyens de
programmation et grâce aux outils que l’on verra par la suite, un site
dépourvu de contenu ne bénéficiera pas de la même attention de la part
des moteurs de recherche.
11
Le site « menudesresto.com » qui fut l’objet de mon second stage
fait partie des sites ayant un grand contenu car il s’agit d’un annuaire de
restaurants. Ces derniers auront donc chacun une page descriptive.
Ci-dessus : la nouvelle version du site « menudesresto.com » qui sera bientôt
mise en ligne et qui est un site à fort contenu
Lorsque cette version sera en place, ce sera donc potentiellement
2059 restaurants référencés pour le site. Ce chiffre augmentera lorsque de
nouveaux restaurants seront ajoutés.
Il faut également savoir que les « bots » des moteurs de recherche
parcourent le web en continu. Ils repassent donc souvent sur des sites
déjà visités. Cependant, ils vont eux-mêmes fixer le moment où ils
repasseront sur le site. Ceci est très important à savoir car les sites
fréquemment mis à jour sont beaucoup plus parcourus par ces
programmes que des sites abandonnés. Les sites très importants sont
même parcourus toute la journée en continu.
2. Connaître le fonctionnement des moteurs de recherche
Le fait de connaître le fonctionnement des moteurs de recherche
permet au programmeur d’avoir les bons reflexes. Nous avons
précédemment survolé les méthodes que ceux-ci utilisent pour référencer
et distinguer les sites entre eux. Nous allons ici entrer un peu plus dans le
détail.
 Les liens d’une page servent pour le calcul du PageRank des pages
ciblées. Cela concerne les sites pointant vers un autre mais également
les liens internes à un site. En règle générale c’est la page d’accueil qui
a le meilleur PageRank. Si dans cette page on fait des liens vers des
zones utiles du site on va « favoriser » ces pages. Autrement dit une
page redistribue un peu de son PageRank, de sa notoriété, aux pages
qu’il fait appel.
Prenons l’exemple du site www.jeuxvideo.com. Celui-ci a, à l’heure
actuelle, un PageRank de 6 sur sa page d’accueil. On constate en
parcourant cette page qu’elle possède énormément de liens vers
certaines catégories de son site : les derniers tests de jeux vidéo du
12
site, les dernières news ajoutées, les dernières vidéos… Cette page
redistribue donc un peu de son PageRank à toutes celles-ci.
 Beaucoup de webmaster ignorent que des pages peuvent être
comptées en double, en triple voire plus. Cette création de doublons
divise le PageRank sur le nombre de pages comptées.
Qu’est ce que ca signifie concrètement ?
Une page est caractérisée par son URL 2. Cependant une page
d’accueil peut par exemple se trouver en tapant l’adresse
www.menudesresto.com mais également menudesresto.com ou encore
menudesresto.com/index.php. 3 URL pour une seule et même page. Le
moteur de recherche indexe donc 3 pages différentes, ce qui divise le
PageRank de la page par 3. Pour éviter cela on peut spécifier au
moteur de recherche que l’on ne souhaite trouver le site uniquement
avec « www. » (cas de www.menudesresto.com) grâce à un fichier
appelé « htaccess » contenant les lignes suivantes :
RewriteCond %{HTTP_HOST} ^menudesresto.com$
RewriteRule ^(.*)
http://www.menudesresto.com/$1 [QSA,L,R=301]
Cela signifie que si l’utilisateur visite le site avec l’adresse
menudesresto.com, on redirige vers www.menudesresto.com.
 Comme nous l’avons vu précédemment, les « bots » des moteurs de
recherche parcourent les sites de liens en liens.
Cependant ils ne savent pas vraiment parcourir une animation en
Flash. Les liens contenus dans ces animations ne sont donc pas pris
en compte. C’était le cas dans la nouvelle version de
menudesresto.com où il était plus pratique de proposer à
l’internaute une carte de la France en Flash. Celui-ci n’a plus qu’à
cliquer sur le département voulu. Les moteurs de recherche
n’auraient donc pas pu parcourir la moindre page du site s’il n’y
avait que la carte.
Il a donc fallu écrire la liste des départements avec les liens audessous (voir la capture d’écran ci-dessous)
L’URL d’une page web est l’adresse que l’on entre pour la trouver, exemple :
www.menudesresto.com
2
13
 Lorsque l’on écrit les liens d’un site, le programmeur doit spécifier 2
éléments :
 l’adresse du lien (exemple : www.menudesresto.com)
 le contenu du lien (exemple : « contactez nous »)
Ces 2 éléments sont pris en compte par les moteurs de recherche.
On peut donc les optimiser.
Pour commencer, le contenu du lien lui-même doit être pertinent et
contenir si possible des mots clés. Exemple : éviter « cliquez ici »
comme lien mais plutôt « Restaurant La Maison des Saveurs ».
Le contenu du lien quant à lui n’est généralement pas pertinent
(exemple : restaurant.php?id=175). Cependant avec ce qui est
appelé la réécriture de lien (ou URL Rewriting en anglais), ont a des
liens comme ci-dessous :
Ci-dessus une adresse réécrite contenant des mots clés
La réécriture de lien se fait également dans le htaccess que nous
avons vu précédemment sous cette forme :
14
RewriteRule ^restaurants_([a-z0-9-]*)_([0-9-]*)$ index.php?
localite=$1&choix_localite=$2 [NC,QSA,L]
Ci-dessus un code de réécriture d’URL (tout est en temps normal sur la même
ligne)
3. Utiliser les outils mis à disposition
On peut trouver sur internet une multitude d’outils en ligne ainsi que
des logiciels pour aider le webmaster dans le référencement de son site :

Xenu est un logiciel reprenant le principe de fonctionnement des
« bots » des moteurs de recherche. Il suffit pour cela de taper
l’adresse de son site pour que celui-ci le parcourt et scanne toutes les
pages et nous sorte un descriptif complet de chacune d’entre-elles
(nom, poids, adresse, …) mais également le nombre total de pages
indexées. C’est donc très utile pour voir si le moteur de recherche
arrive bien à trouver toutes les pages. Si ce n’est pas le cas c’est qu’il
y a un problème au niveau des liens internes au site qui ont été mal
pensés.
Cet outil a été particulièrement utile pour menudesresto.com car en y
rentrant, on choisit une ville. Apparait alors la liste des restaurants
rattachés à cette ville. On a ensuite la possibilité de réduire la
recherche suivant 2 critères :
- Le type de service (traiteur, à emporter, ouvert jours
feriés…)
- Le prix des formules (menus : moins de 20€, de 20€ à 30€
…)
Cela veut dire que chaque restaurant était trouvé avec plusieurs URL
différentes et voyait donc son PageRank répartis sur le nombre d’URL
comptabilisées. En effet on pouvait trouver Les petits ventres avec :
- Les petits ventres / Traiteur / Menus 20€ à 30€
- Les petits ventres / Traiteur
- Les petits ventres / Menus 20€ à 30€
- Les petits ventres / A emporter
- Etc.
15
Tout ceci n’est pas évident à
deviner sans avoir Xenu. Suite à un
scan nous avons donc décidé de
bloquer
les
liens
aux
« bots »
lorsqu’une catégorie a été choisie.
L’utilisateur peut cliquer sur ces liens,
mais les bots ne les suivront pas.
Ceci se caractérise par la balise
Rel=nofollow que l’on peut voir sur la
capture d’écran à gauche (les liens
étant montrés grâce à l’extension Web
Developer du navigateur FireFox)
 Les nombreux outils proposés par Google :

Google Insights for Seach est un outil en ligne permettant de
bénéficier de statistiques sur les recherches effectuées par les
internautes sur les mots clés désirés en fonction du pays… On
peut ainsi comparer la pertinence des mots clés pour les
réutiliser pour son site

Search Cloudlet est une extension au navigateur web Firefox.
Lorsque l’on effectue une recherche sur Google ou Yahoo!,
celui-ci va afficher un nuage de mots clés en rapport avec la
requête (en fonction des sites trouvés : titres, descriptifs…).
Ces mots clés seront affichés avec une taille plus ou moins
grande en fonction de son importance.

Google AdWords propose un générateur de mots clés. Il suffit
d’entrer l’URL de la page web et Google trouvera lui-même
des idées de mots clés.
16
CONCLUSION
Le référencement est très utile pour la plupart des sites. Sans ça il
devient très difficile de se faire connaitre. Il vaut donc mieux l’optimiser
au maximum et utiliser tous les moyens mis à la disposition du webmaster
afin de se démarquer de ses « concurrents ».
Il ne faut pas penser qu’en suivant toutes les consignes contenues
dans le dossier, en particulier pour les méthodes de programmation, le
site que l’on souhaite référencer se trouvera en première page dans les
résultats des moteurs de recherche.
Le meilleur moyen d’assurer le référencement est de proposer un
site bien construit, ayant beaucoup de contenu et surtout, ayant de
nombreux sites pointant vers celui-ci.
Tout ceci permettra au site de gagner de la crédibilité aux yeux des
moteurs de recherche. Si l’on se place du coté de l’internaute, c’est ce l’on
17
souhaite trouver lorsque l’on fait une recherche : un site connu, proposant
du contenu et qui soit pertinent.
18
Téléchargement