2009 DESMOULINS Thibault BTS Informatique de Gestion Option développeur d’applications [LE REFERENCEMENT D’UN SITE WEB] SOMMAIRE SOMMAIRE...................................................................................... 2 INTRODUCTION............................................................................... 2 I.Les acteurs du référencement. Comment ça marche ?...................... 3 1.Le web jusque dans les années 90.............................................. 3 A.Les débuts des moteurs de recherche...................................... 3 B. Quelques inconvénients majeurs............................................ 5 2.Google ou comment révolutionner la recherche............................ 6 A.Comment fonctionne Google................................................... 6 B.Un algorithme révolutionnaire : le PageRank............................. 7 II.L’utilité du référencement pour son site......................................... 8 1.Pourquoi et dans quel cas référencer son site ?............................ 8 2.Les types de référencement...................................................... 9 A.Le référencement payant........................................................ 10 B.Le référencement gratuit...................................................... 10 III.Comment optimiser son référencement et assurer le positionnement dans la pratique (cas menudesresto.com)................. 11 1.Avant tout une affaire de contenu............................................. 11 2.Connaître le fonctionnement des moteurs de recherche...............12 3.Utiliser les outils mis à disposition............................................ 15 CONCLUSION................................................................................ 17 INTRODUCTION En 2006, le web dépasse les 100 millions de sites. Force est de constater que ce chiffre est en constante évolution. Ainsi, nous pouvons être amenés à penser que, pour un utilisateur lambda de l’Internet, rechercher un site web dont il ne connaît même pas l’intitulé reviendrait à rechercher une aiguille dans une botte de foin. Cette abondance de sites Internet pose également un problème au webmaster1 lui-même. Quel stratagème peut il donc mettre en œuvre afin 1 Personne responsable de l’administration d’un site Web 2 de faire que son site, sa création, se démarque de millions d’autres et devienne, par la même, accessible pour de potentiels internautes ? C’est pour répondre à ce besoin que les moteurs de recherche ont été créés, ceux-ci jouant en quelque sorte le rôle « d’index géant du web ». La plupart de mes applications professionnelles n’ont eu besoin d’être référencées : le t’chat et le navigateur web étant des logiciels, « Upload et Download » un site interne à Kéops. C’est lors de mon stage de seconde année de BTS que je me suis orienté vers le référencement (mon maitre de stage et l’entreprise étant spécialisés dans le référencement). Dans ce dossier nous nous focaliserons uniquement sur le webmaster et sur les moyens dont il peut disposer afin de se distinguer de toute une multitude de « concurrents ». Ainsi, nous devons avant toute chose nous familiariser avec certains des moyens précédemment évoqués. Il s’agit donc ici de comprendre la notion de moteur de recherche ainsi que le rapport qu’entretient le webmaster avec celui-ci. Le moteur de recherche tend à indexer les sites selon certains critères. Ainsi, savoir quels sont ces critères peut s’avérer un élément décisif pour le webmaster qui souhaite optimiser son référencement. Autrement dit, appréhender le fonctionnement d’un moteur de recherche permet à un webmaster d’optimiser son site Internet en s’assurant de l’adéquation du contenu de ce dernier et des critères pris en compte par les moteurs de recherche. Nous verrons dans la dernière partie l’application dans la pratique des moyens de référencement avec l’objet de mon stage de deuxième année de BTS : www.menudesresto.com. I. Les acteurs du référencement. Comment ça marche ? 1. Le web jusque dans les années 90 A. Les débuts des moteurs de recherche 3 C’est dans les années 90 que le web commence à devenir populaire et à s’imposer dans les foyers. Par la même occasion, le nombre de sites créés explose. C’est dans l’optique de faciliter la recherche d’un site sur un thème précis menée par l’utilisateur qu’ont été créés les moteurs de recherche et que ceux-ci se sont donc imposés. Ci-dessus AltaVista et Lycos, 2 grands moteurs de recherche dans les années 90 Leur objectif est double : afficher de la publicité (ce que l’on peut voir sur les captures d’écran) et référencer le plus de sites possible grâce à des « bots » qui sont des programmes réalisés pour effectuer une tâche prédéfinie : plus rapidement qu’un humain répétitive, ce qu’une personne n’aime donc pas faire Ces bots parcourent le web et référencent donc les sites. Comment ? Chaque moteur de recherche possède ses propres bots, il est donc impossible de connaître en détail de fonctionnement de ceux-ci. Cependant ils fonctionnent tous sur la même base : Lorsqu’un bot arrive sur un site, celui-ci va enregistrer dans la base de données du moteur de recherche l’adresse de la page parcourue. Ensuite, il va accorder plus ou moins d’importance au contenu de la page en fonction des moteurs de recherche. Les mots clés contenus dans les titres des pages ayant une importance. 4 Enfin, le bot va regarder les liens contenus dans la page et va les enregistrer pour après les suivre un par un. Il devra donc recommencer ces étapes pour la nouvelle page. Cette façon de référencer le web peut paraître correcte cependant quelques problèmes vont faire leur apparition. B. Quelques inconvénients majeurs Lorsque le web commençait son ascension, ce référencement des moteurs de recherche convenait. Toutefois, les dizaines de milliers de pages référencées à la base se sont vite multipliées pour devenir des millions. Comment différencier des sites traitant d’un même sujet ? On va donc principalement se baser sur les mots clés, le contenu du site ainsi que sur sa taille. Les webmaster ont également à leur disposition des balises à mettre dans leur code qui sont très utilisées par les moteurs de recherche pour faire la différence : les balises META : <META <META <META <META <META <META <META NAME="TITLE" CONTENT="titre de la page"> NAME="DESCRIPTION" CONTENT="une description"> NAME="KEYWORDS" CONTENT="mot clé 1, mot clé 2, mot clé 3"> NAME="SUBJECT" CONTENT="sujet du site"> NAME="CATEGORY" CONTENT="catégorie du site"> NAME="REVISIT-AFTER" CONTENT="15 DAYS"> NAME="ROBOTS" CONTENT="All"> Ces balises, placées dans l’en-tête de chaque page (invisible pour l’internaute) correspondent respectivement au titre donné à la page, à sa description, aux mots clés la décrivant… Cependant une mauvaise utilisation de ces balises peut rapidement accroître son référencement. Rien n’empêche le webmaster d’entrer des mots clés ne correspondant pas à son site afin d’en faire la promotion. Ce système en place mets donc la priorité sur la quantité des sites répertoriés. Les recherches affichent donc toujours plus de résultats, mais la qualité n’est pas forcément au rendez-vous. Ce n’est qu’à l’arrivée d’un nouveau concurrent que cela va changer. 5 2. Google ou comment révolutionner la recherche A. Comment fonctionne Google Il est difficile de nos jours de ne pas avoir entendu parler de Google. Celui-ci a su s’imposer dans la bataille des moteurs de recherche et occupe maintenant 90% des recherches (en 2008) ! Les raisons de son succès sont multiples : Une publicité efficace. En effet l’un des principes de Google est que la publicité ne doit pas être un problème pour l’utilisateur mais plutôt un atout. Ainsi, ses bots parcourent le site qui désire afficher de la publicité. En connaissant son thème il pourra donc proposer des publicités de sites traitant de même sujet. A gauche : un site de programmation avec publicité Google ciblée Un résultat de la recherche non plus quantitatif, mais qualitatif (grâce au PageRank que nous verrons plus tard). Des résultats ciblés notamment grâce aux recherches préalablement effectuées par l’utilisateur (que Google conserve dans sa base de données). A gauche : un calendrier des recherches effectuées sur Google (avec la liste des recherches précises si on le souhaite) 6 Toutefois ce dernier point pose des problèmes au niveau de la confidentialité des données. Cet inconvénient est d’ailleurs souvent reproché au moteur de recherche. La plus grande force de Google tient au résultat pertinent de sa recherche, donné grâce au PageRank. B. Un algorithme révolutionnaire : le PageRank Le PageRank est une notion fondamentale à connaître dans le référencement. Il s’agit d’un algorithme permettant d’évaluer la pertinence d’un site web afin de noter ce dernier sur une échelle de 1 à 10. Ci-dessus la barre de Google donnant le PageRank (et une description) Son principe : le bot de Google (appelé GoogleBot) parcours le web. Sur chaque site, il répertorie les liens internes ainsi que les liens vers d’autres sites. Il va recommencer cette étape pour tous les sites. Une fois ceci fait il va à nouveau parcourir les sites déjà visités. Il va ensuite attribuer un PageRank à chaque page du site qui correspondra au nombre de sites pointant vers celle-ci. Ainsi, si une page A possède un lien vers la page B, cela veut dire que la page B verra son PageRank augmenter. Cette note augmente 7 également plus ou moins en fonction du PageRank de la page A ellemême. Si la page A possède un PageRank de 6, celui de la page B augmentera plus vite que si elle en avait un de 3. Tout fonctionne sur ce principe : « si une page A possède un lien vers la page B, c’est que celle-ci est considérée comme importante ». Cependant plus on a un PageRank élevé et plus il est difficile d’atteindre le niveau supérieur : L’effort demandé pour passer d’un PageRank de 6 à 7 est beaucoup plus élevé que pour passer d’un PageRank de 5 à 6. De nos jours cependant, le PageRank est remis en question car il ne prend pas tout en compte, il n’a également plus autant d’importance que lors de sa création. Yahoo par exemple a introduit un calcul de PageRank tenant compte du surf des internautes et de la pertinence des liens. II. L’utilité du référencement pour son site 1. Pourquoi et dans quel cas référencer son site ? 8 Comme nous l’avons vu précédemment, le référencement est utile pour être visible sur le net. Afin de confirmer cela, on peut regarder les statistiques. On constate que les accès à un site internet sont en grande partie assurés par les moteurs de recherche. A cela il ne faut pas oublier que, parmi les accès direct, une partie d’entre eux connaissaient l’adresse du site car ils l’ont préalablement trouvé sur les moteurs de recherche et qu’ils ont retenu l’adresse, retrouvé celle-ci dans l’historique de leur navigateur, etc. Cependant, tous les sites n’ont pas vocation à être référencés. En effet certains sites n’en ont aucune utilité. Il s’agit de sites internes à une entreprise, connus à un groupe de personnes ne souhaitant pas le diffuser etc. C’est le cas par exemple du site d’envoi et de téléchargement de fichiers réservé aux personnes suivant une formation à Keops Infocentre que j’ai réalisé lors de mon stage de première année. Celui-ci nécessite d’ailleurs une identification dès la page d’accueil : Site interne à Keops Infocentre ne nécessitant donc pas de référencement. Si l’on prend la décision de référencer son site, on a le choix entre 2 types de référencements. 2. Les types de référencement 9 A. Le référencement payant Parmi les deux types de référencements possibles pour un site web, le référencement payant est sans aucun doute le plus efficace. Il consiste à payer les moteurs de recherche pour apparaitre dans les premiers résultats pour certains mots clés. On peut constater ci-dessus que pour la recherche « voiture » dans Yahoo, un certain nombre de liens commerciaux apparaît (dans le cadre). Ainsi les sites de Mazda, Peugeot, Volvocars, Alfaromeo, Fiat… sont assurés d’apparaître en première page pour les recherches qui les intéressent. Pour résumer le référencement payant : Avantages : - Rapide à mettre en place - Très bon positionnement dans les résultats Inconvénients : - Nécessite un budget important - Ne couvre que les mots clés ou l’on a payé B. Le référencement gratuit Le référencement gratuit concerne tout le référencement où l’on ne paye pas. Ce référencement est principalement fait lors de la réalisation / 10 conception du site pour ce qui est des méthodes de programmation à utiliser. Nous verrons toutes ces méthodes par la suite. Cependant il peut également s’agir de partenariat gratuit avec d’autres sites. Il consiste généralement en un échange de lien (chacun mets un lien vers le site de l’autre) qui est, comme nous l’avons vu précédemment, très utile pour augmenter son PageRank et donc la position de son site dans les résultats des moteurs de recherche. Les liens pointant vers son site sont appelés des backlinks. Ces liens sont très importants pour le positionnement ! Nous aurons l’occasion de revoir en détail le référencement gratuit (coté développement) dans la prochaine partie. Pour résumer le référencement gratuit : Avantages : - Ne coûte rien - Bon positionnement sur le long terme s’il est optimisé Inconvénients : - Long à mettre en place - Nécessite des partenariats avec d’autres sites - Il est préférable de connaitre le fonctionnement des moteurs de recherche (nous verrons pourquoi par la suite) III. Comment optimiser son référencement et assurer le positionnement dans la pratique (cas menudesresto.com) 1. Avant tout une affaire de contenu Le contenu d’un site web est ce qu’il y a de plus important et il ne faut pas l’oublier car, même si l’on optimise son site par les moyens de programmation et grâce aux outils que l’on verra par la suite, un site dépourvu de contenu ne bénéficiera pas de la même attention de la part des moteurs de recherche. 11 Le site « menudesresto.com » qui fut l’objet de mon second stage fait partie des sites ayant un grand contenu car il s’agit d’un annuaire de restaurants. Ces derniers auront donc chacun une page descriptive. Ci-dessus : la nouvelle version du site « menudesresto.com » qui sera bientôt mise en ligne et qui est un site à fort contenu Lorsque cette version sera en place, ce sera donc potentiellement 2059 restaurants référencés pour le site. Ce chiffre augmentera lorsque de nouveaux restaurants seront ajoutés. Il faut également savoir que les « bots » des moteurs de recherche parcourent le web en continu. Ils repassent donc souvent sur des sites déjà visités. Cependant, ils vont eux-mêmes fixer le moment où ils repasseront sur le site. Ceci est très important à savoir car les sites fréquemment mis à jour sont beaucoup plus parcourus par ces programmes que des sites abandonnés. Les sites très importants sont même parcourus toute la journée en continu. 2. Connaître le fonctionnement des moteurs de recherche Le fait de connaître le fonctionnement des moteurs de recherche permet au programmeur d’avoir les bons reflexes. Nous avons précédemment survolé les méthodes que ceux-ci utilisent pour référencer et distinguer les sites entre eux. Nous allons ici entrer un peu plus dans le détail. Les liens d’une page servent pour le calcul du PageRank des pages ciblées. Cela concerne les sites pointant vers un autre mais également les liens internes à un site. En règle générale c’est la page d’accueil qui a le meilleur PageRank. Si dans cette page on fait des liens vers des zones utiles du site on va « favoriser » ces pages. Autrement dit une page redistribue un peu de son PageRank, de sa notoriété, aux pages qu’il fait appel. Prenons l’exemple du site www.jeuxvideo.com. Celui-ci a, à l’heure actuelle, un PageRank de 6 sur sa page d’accueil. On constate en parcourant cette page qu’elle possède énormément de liens vers certaines catégories de son site : les derniers tests de jeux vidéo du 12 site, les dernières news ajoutées, les dernières vidéos… Cette page redistribue donc un peu de son PageRank à toutes celles-ci. Beaucoup de webmaster ignorent que des pages peuvent être comptées en double, en triple voire plus. Cette création de doublons divise le PageRank sur le nombre de pages comptées. Qu’est ce que ca signifie concrètement ? Une page est caractérisée par son URL 2. Cependant une page d’accueil peut par exemple se trouver en tapant l’adresse www.menudesresto.com mais également menudesresto.com ou encore menudesresto.com/index.php. 3 URL pour une seule et même page. Le moteur de recherche indexe donc 3 pages différentes, ce qui divise le PageRank de la page par 3. Pour éviter cela on peut spécifier au moteur de recherche que l’on ne souhaite trouver le site uniquement avec « www. » (cas de www.menudesresto.com) grâce à un fichier appelé « htaccess » contenant les lignes suivantes : RewriteCond %{HTTP_HOST} ^menudesresto.com$ RewriteRule ^(.*) http://www.menudesresto.com/$1 [QSA,L,R=301] Cela signifie que si l’utilisateur visite le site avec l’adresse menudesresto.com, on redirige vers www.menudesresto.com. Comme nous l’avons vu précédemment, les « bots » des moteurs de recherche parcourent les sites de liens en liens. Cependant ils ne savent pas vraiment parcourir une animation en Flash. Les liens contenus dans ces animations ne sont donc pas pris en compte. C’était le cas dans la nouvelle version de menudesresto.com où il était plus pratique de proposer à l’internaute une carte de la France en Flash. Celui-ci n’a plus qu’à cliquer sur le département voulu. Les moteurs de recherche n’auraient donc pas pu parcourir la moindre page du site s’il n’y avait que la carte. Il a donc fallu écrire la liste des départements avec les liens audessous (voir la capture d’écran ci-dessous) L’URL d’une page web est l’adresse que l’on entre pour la trouver, exemple : www.menudesresto.com 2 13 Lorsque l’on écrit les liens d’un site, le programmeur doit spécifier 2 éléments : l’adresse du lien (exemple : www.menudesresto.com) le contenu du lien (exemple : « contactez nous ») Ces 2 éléments sont pris en compte par les moteurs de recherche. On peut donc les optimiser. Pour commencer, le contenu du lien lui-même doit être pertinent et contenir si possible des mots clés. Exemple : éviter « cliquez ici » comme lien mais plutôt « Restaurant La Maison des Saveurs ». Le contenu du lien quant à lui n’est généralement pas pertinent (exemple : restaurant.php?id=175). Cependant avec ce qui est appelé la réécriture de lien (ou URL Rewriting en anglais), ont a des liens comme ci-dessous : Ci-dessus une adresse réécrite contenant des mots clés La réécriture de lien se fait également dans le htaccess que nous avons vu précédemment sous cette forme : 14 RewriteRule ^restaurants_([a-z0-9-]*)_([0-9-]*)$ index.php? localite=$1&choix_localite=$2 [NC,QSA,L] Ci-dessus un code de réécriture d’URL (tout est en temps normal sur la même ligne) 3. Utiliser les outils mis à disposition On peut trouver sur internet une multitude d’outils en ligne ainsi que des logiciels pour aider le webmaster dans le référencement de son site : Xenu est un logiciel reprenant le principe de fonctionnement des « bots » des moteurs de recherche. Il suffit pour cela de taper l’adresse de son site pour que celui-ci le parcourt et scanne toutes les pages et nous sorte un descriptif complet de chacune d’entre-elles (nom, poids, adresse, …) mais également le nombre total de pages indexées. C’est donc très utile pour voir si le moteur de recherche arrive bien à trouver toutes les pages. Si ce n’est pas le cas c’est qu’il y a un problème au niveau des liens internes au site qui ont été mal pensés. Cet outil a été particulièrement utile pour menudesresto.com car en y rentrant, on choisit une ville. Apparait alors la liste des restaurants rattachés à cette ville. On a ensuite la possibilité de réduire la recherche suivant 2 critères : - Le type de service (traiteur, à emporter, ouvert jours feriés…) - Le prix des formules (menus : moins de 20€, de 20€ à 30€ …) Cela veut dire que chaque restaurant était trouvé avec plusieurs URL différentes et voyait donc son PageRank répartis sur le nombre d’URL comptabilisées. En effet on pouvait trouver Les petits ventres avec : - Les petits ventres / Traiteur / Menus 20€ à 30€ - Les petits ventres / Traiteur - Les petits ventres / Menus 20€ à 30€ - Les petits ventres / A emporter - Etc. 15 Tout ceci n’est pas évident à deviner sans avoir Xenu. Suite à un scan nous avons donc décidé de bloquer les liens aux « bots » lorsqu’une catégorie a été choisie. L’utilisateur peut cliquer sur ces liens, mais les bots ne les suivront pas. Ceci se caractérise par la balise Rel=nofollow que l’on peut voir sur la capture d’écran à gauche (les liens étant montrés grâce à l’extension Web Developer du navigateur FireFox) Les nombreux outils proposés par Google : Google Insights for Seach est un outil en ligne permettant de bénéficier de statistiques sur les recherches effectuées par les internautes sur les mots clés désirés en fonction du pays… On peut ainsi comparer la pertinence des mots clés pour les réutiliser pour son site Search Cloudlet est une extension au navigateur web Firefox. Lorsque l’on effectue une recherche sur Google ou Yahoo!, celui-ci va afficher un nuage de mots clés en rapport avec la requête (en fonction des sites trouvés : titres, descriptifs…). Ces mots clés seront affichés avec une taille plus ou moins grande en fonction de son importance. Google AdWords propose un générateur de mots clés. Il suffit d’entrer l’URL de la page web et Google trouvera lui-même des idées de mots clés. 16 CONCLUSION Le référencement est très utile pour la plupart des sites. Sans ça il devient très difficile de se faire connaitre. Il vaut donc mieux l’optimiser au maximum et utiliser tous les moyens mis à la disposition du webmaster afin de se démarquer de ses « concurrents ». Il ne faut pas penser qu’en suivant toutes les consignes contenues dans le dossier, en particulier pour les méthodes de programmation, le site que l’on souhaite référencer se trouvera en première page dans les résultats des moteurs de recherche. Le meilleur moyen d’assurer le référencement est de proposer un site bien construit, ayant beaucoup de contenu et surtout, ayant de nombreux sites pointant vers celui-ci. Tout ceci permettra au site de gagner de la crédibilité aux yeux des moteurs de recherche. Si l’on se place du coté de l’internaute, c’est ce l’on 17 souhaite trouver lorsque l’on fait une recherche : un site connu, proposant du contenu et qui soit pertinent. 18