12/02/15 Doriane BEHR Master CAWEB REFERENCEMENT ET LOCALISATION MULTILINGUE INTRODUCTION Le référencement des sites multilingues est d’autant plus d’actualité que le contexte économique dans lequel on évolue est orienté vers l’internationalisation et la mondialisation. Problématique : outre la localisation, se pose également la question du référencement d’un site internet multilingue, comment optimiser l'indexation d’un site dans les différents moteurs de recherche, pour chacun des pays ou des langues cibles ? C’est à cette question que je tente de répandre en abordant les points les plus importants du référencement de site multilingue à savoir : PLAN : I) La localisation des URL II) La structure d’un site multilingue III) Référencement et site multilingue DEFINITIONS : SITE MULTILINGUE : Un site Web multilingue est un site dont le contenu est proposé dans plusieurs langues. Il peut s'agir, par exemple, d'une entreprise canadienne dont le site est disponible en anglais et en français, ou d'un blog en Amérique latine disponible en espagnol et en portugais. SITE MULTIREGIONAL : Un site Web multirégional est un site qui cible explicitement les internautes de pays différents. Certains sites sont à la fois multilingues et multirégionaux. Par exemple, un site peut proposer une version pour les États-Unis et une autre pour le Canada, et être disponible en français et en anglais dans la version canadienne. I - URL LOCALISEES La structure des URL est particulièrement importante pour bien référencer un site multilingue, car elles contribuent à cibler géographiquement un site internet. CREATION D’UN SOUS-DOMAINE POUR CHAQUE LANGUE Exemples : http://de.exemple.com http://it.exemple.com Avantages Facilité de mise en œuvre et séparation claire des sites Possibilité d’utiliser le ciblage géographique dans le webmasters tools Acquisition d’un seul nom de domaine et création d’autant de sous-domaines que de langues Inconvénients L’utilisation de sous-domaines n’est pas très répandue et les internautes ne sont pas habitués à ce genre d’url Chaque sous-domaine doit être indexé de façon indépendante, ce qui est fastidieux et engendre un travail de référencement long Plus considérés comme des sites à part entière : linking impossible Cette méthode est utilisée par hotels.com CREATION D’UN REPERTOIRE POUR CHAQUE LANGUE Exemples : http://www.exemple.com/de http://www.exemple.com/it Avantages Facilité de mise en œuvre Acquisition d’un seul nom de domaine et création d’autant de sous-domaines que de langues Peu de maintenance Inconvénients Pas de géolocalisation possible Séparation des sites plus complexe Cette méthode est utilisée par Deezer CREATION D’UN DOMAINE DEDIE Exemples : http://www.exemple.de http://www.exemple.it Avantages Ciblage géographique clair et précis Séparation des sites : chacun à sa langue Utiliser un nom de domaine par pays permet une plus grande proximité, et génère une confiance accrue auprès des internautes. Cette approche favorise la création de liens entrants ayant une origine locale, et donc le référencement du site web sur le marché ciblé. Permet une lecture facile aux moteurs de recherche dans la mesure où chaque site n’a qu’une seule langue Inconvénients Coût élevé : multiplication des noms de domaines et gestion (chaque site doit être référencé de manière indépendante L’acquisition des différents noms de domaine dans les pays peut être difficile car la disponibilité des différentes TLD (Top Level Domain) n’est pas assurée Peut poser problème pour les pays qui ont plusieurs langues (Suisse, Belgique, Canada) Cette méthode est utilisée par TripAdvisor. II – STRUCTURE D’UN SITE MULTILINGUE DETECTION DE LA LANGUE La détection des langues est une problématique majeure lorsqu’on référence un site multilingue. En effet, il ne suffit pas de créer une structure multilingue pour que le site soit propagé dans le monde entier et surtout dans les pays ciblés. Il faut aussi que la bonne langue soit attribuée au bon pays. Il convient de mettre en place un système d’orientation du site pour répondre à l’internaute dans sa langue, c’est- à-dire un système de détection des langues. DECLARER LA LANGUE DANS LES EN-TETES HTTP OU HTML C’est la méthode la plus rationnelle et la plus efficace car le moteur de recherche reconnaîtra ainsi directement a langue de la page. Il convient d’indiquer la langue primaire du document, il s’agit d’une métadonnée qui s’applique à tout un document, une indication s’adressant aux navigateurs web. Si une page est destinée à être affichée dans le navigateur d’un internaute réglé pour lire des pages en italien par défaut, on utilisera soit : Content-Language : it (dans l’en-tête http) Soit : <meta http-equiv= "Content-Language" content="it"> (dans l’en-tête HTML) Il est possible de déclarer plusieurs langues dans ce type de balises en séparant les langues par une virgule. ATTRIBUT « HREF LANG » Google propose en 2011 la prise en compte de la balise Link Hreflang pour indiquer les différentes versions linguistiques d’une même page. L’identification exacte du langage employé est indispensable pour classer et filtrer correctement les pages par langue utilisée mais aussi pour pouvoir appliquer les bonnes règles et les bons analyseurs lexicaux et syntaxiques aux textes à indexer. L’attribut link rel="alternate"; hreflang="code langue" href="URL" permet de donner aux moteurs de recherche des informations linguistiques et géographiques concernant un site web et permet d’indiquer la destination et la langue des différentes variantes des pages. CET ATTRIBUT EST UTILE QUAND : - un site web est traduit en différentes langues (anglais, français et espagnol par exemple). Dans ce cas, il convient d’ajouter dans la balise <head> du site principal (http://www.site.com) un élément link renvoyant vers la version espagnole par exemple du site à l'adresse http://es.site.com/, comme ceci : link rel="alternate"; hreflang="es" href="http://www.example.es" - un site web possède des versions dans une même langue mais pour des pays différents (le français pour la France, la Belgique, le Canada et la Suisse). http://www.exemple.fr/ : page d'accueil générale en français. http://fr-be.exemple.com/ : page d'accueil en français, pour la Belgique. http://fr-ca.exemple.com/ : page d'accueil en français, pour le Canada. http://fr.ch.exemple.com/ : page d'accueil en français pour la Suisse Les balises suivantes pourront alors être intégrées respectivement dans chaque site : <link rel="alternate" href="http://example.com/fr-be" hreflang="fr-be" /> <link rel="alternate" href="http://example.com/fr-ca" hreflang="fr-ca" /> <link rel="alternate" href="http://example.com/fr-ch" hreflang="fr-ch” /> <link rel="alternate" href="http://example.com/fr" hreflang="fr" /> Ces balises étant intégrées dans chaque page de chaque site, Google saura alors la langue, mais également le pays spécifique visé et ciblé par chaque version du site. Bilan : cette balise indique donc aux moteurs de recherche dans quel index linguistique classer les pages, spécifie qu’un groupe de pages présentent des variantes linguistiques de la même page, en ciblant soit une langue, soit une langue et une zone géographique. SITEMAP Il est recommandé d’utiliser un SITEMAP pour indiquer les pages d’un site disponible dans une autre langue. Si un site s'adresse à des internautes de langues différentes et éventuellement de pays différents, les sitemaps peuvent également fournir les attributs rel="alternate" hreflang="x", permettent d'afficher l'URL correspondant à la langue ou à la région de l'internaute. EXEMPLES : La page du site est en langue anglaise et s'adresse aux anglophones du monde entier. Une autre version de cette page s’adresse aux germanophones du monde entier, et une version pour les germanophones situés en Suisse. Voici l'ensemble des URL : www.example.com/english/ www.example.com/deutsch/ www.example.com/schweiz-deutsch/ Le sitemap suivant nous indique que la page www.example.com/english/ a des pages équivalentes pour les internautes germanophones du monde entier (http://www.example.com/deutsch/) et de Suisse (http://www.example.com/schweiz-deutsch/). III – GESTION D’UN SITE LOCALISE HEBERGEMENT GEOLOCALISE La situation géographique d’un site web est un facteur qui influe sur le ranking de Google. Un site web hébergé localement, c’est-à-dire sur un serveur situé dans le pays du marché ciblé, pourra influer positivement sur le référencement du site web. Par exemple, un site allemand à destination de l’Allemagne sera sur un serveur avec une adresse IP allemande. Cependant, il s’agit d’une méthode coûteuse. L’autre solution est d’avoir recours à un CDN (Content Delivery Network) qui permet de mettre en cache le site web pour le restituer localement de façon performante. DEFINITION CDN : le CDN réplique certaines données d’un site internet sur des serveurs relais, situés à proximité des internautes, de façon à améliorer les temps de chargement et donc de réponse. Chaque internaute, au moment de la lecture du contenu, accède au serveur relais le plus proche de lui et non au serveur d’origine. WEBMASTERTOOLS ET GOOGLE ANALYTICS Au-delà du référencement à proprement parler, se pose également la question du suivi du trafic de chacune des versions du site dans Google Analytics et Webmastertools. GOOGLE WEBMASTER TOOLS va permettre de contrôler la façon dont Google va indexer le contenu d’un site, en mettant en place le ciblage géographique par pays. Pour chaque domaine, (fr.exemple.com ou www.exemple.com/fr/) il faudra déclarer dans GWT chaque répertoire comme étant un site à part entière dans la rubrique Configuration > Paramètres > Zone géographique ciblée, puis sélection du pays adéquat. GOOGLE ANALYTICS Concernant le suivi du trafic sur Analytics, deux solutions sont possibles : - La première consiste à utiliser un seul compte Analytics pour suivre l’ensemble des sites localisés. Cette méthode est acceptable si le site comporte peu de langues. Dans le cas contraire, si le site contient de nombreuses versions en différentes langues, la lisibilité et la pertinence des statistiques peuvent être remises en question. - La seconde solution est plus pratique et efficace pour suivre le trafic des versions localisées d’un site : il s’agit de créer un tag (un compte) par site. Si le site comporte beaucoup de langues, il faudra consulter chaque compte un à un ce qui peut être fastidieux. Cependant, il s’agit de la méthode la plus recommandée. DUPLICATE CONTENT Le développement de versions multilingues des pages qui proposent des contenus très proches les unes des autres est un problème assez complexe dans deux cas précis : - lorsque l’interface est uniquement traduite (dans ce cas les contenus seront similaires dans toutes les autres versions) lorsque les pages sont subtilement localisées pour les adapter à un public local : changement d’un mot dans la version espagnole à la version mexicaine d’un site ou changement des prix et de la monnaie uniquement. En général, ces pages sont considérées comme des doublons et éliminées ou elles sont sévèrement rétrogradées dans les SERP. Le problème ici n’est pas la détection de la langue, mais le fait que Google considère ses pages comme des pages différentes et les indexe au bon endroit. D’où l’importance de la balise hreflang qui, lorsqu’elle est intégrée, indiquera à Google que les différentes versions linguistiques d’une même page ne sont pas des doublons.