MEDIAS ELECTRONIQUES http://www.inesmedia.com Le parcours du combattant de la mesure d’audience Internet Depuis la naissance de ce média, une confusion extrême règne sur les moyens de mesurer son audience. L’expérience aidant, quelques notions émergent et font office de standards provisoires. Mais, comme le souligne le directeur adjoint de la production de Hachette Filipacchi Grolier, Stanislas Sabatier, Internet est encore en pleine évolution et, la sophistication du web, amène les annonceurs à plus d’exigences qu’ils n’en ont jamais eu sur aucun autre média. En préambule, j’aimerais rappeler quelques notions essentielles à la compréhension des débats sur les mesures d’audience sur le Web. La première chose à prendre en compte est l’adresse IP. Il s’agit en quelque sorte du numéro d’identification d’un ordinateur sur le réseau Internet. Tout ordinateur connecté au réseau Internet doit avoir un numéro IP exclusif. Ce numéro est indispensable afin d’établir une communication avec d’autres ordinateurs et d’obtenir les informations que l’on recherche sur le réseau Internet. L’existence de cette adresse IP originale pourrait sembler une solution à la mesure d’audience du web. Malheureusement, certaines machines sont intercalées entre l’ordinateur de l’internaute et celui du serveur web pour des raisons de sécurité (protection contre des pirates informatiques) ou de performance (allégement du trafic). Les plus connues de ces machines sont les firewall, les proxy et les dial up. Chacune joue sur un terrain différent. Les firewall sont utilisés pour connecter un réseau local (celui d’une entreprise ou d’une université). La plupart du temps, ces serveurs substituent l’adresse IP de l’ordinateur de l’utilisateur par leur propre adresse IP. Ainsi, tous les ordinateurs situés derrière ce firewall apparaissent sur le réseau Internet via une seule et unique adresse IP, permettant aux autres de rester dans l’anonymat. Les proxy sont, quant à eux, des outils de stockage des pages web les plus demandées par les utilisateurs. Ils évitent ainsi une requête sur le serveur web distant. Ces proxy sont généralement utilisés pour éviter une surcharge sur le réseau (et donc des temps de réponse plus longs pour l’utilisateur). Les dial up sont une astuce des fournisseurs d’accès pour connecter des particuliers à l’Internet. Ces serveurs utilisent un « pool » d’adresses IP que se partagent les abonnés. La même adresse IP peut ainsi servir à des abonnés différents. La contrepartie est que l’adresse IP de l’abonné change à chaque nouvelle connexion. Difficile dès lors de le repérer exactement lors d’une enquête d’audience. L’ensemble de ces techniques ont comme principal inconvénient d’accroître les marges d’erreur des logiciels de statistiques de connexions. La sous-estimation des statistiques de visites sur un site web serait de 3 à 30%. Une tentative pour remettre de l’ordre Face aux failles de ce suivi des internautes via leur adresse IP, une parade a été trouvée qui est d’utiliser un autre système de traçage. Les « smart cookies », connus en français sous le nom de petits malins, sont de petits fichiers envoyés par un serveur web sur le disque dur de l’ordinateur d’un internaute. Les cookies permettent au serveur de repérer chaque utilisateur à chacune de ses connexions au site web, indépendamment de son adresse IP. La faiblesse de cette technique vient de la possibilité offerte aux utilisateurs d’empêcher l’écriture des cookies sur leurs ordinateurs ou de les supprimer à leur guise. Cela dit, peu d’utilisateurs le font encore. Le système des cookies n’évite pas non plus la marge d’erreur occasionnée par les serveurs proxy quand l’utilisateur appelle une page web A gauche : Tout ordinateur connecté au réseau Internet doit avoir un numéro IP exclusif. Ce numéro est indispensable afin d’établir une communication avec d’autres ordinateurs et d’obtenir les informations que l’on recherche sur le réseau Internet. A droite : Les cookies permettent au serveur de repérer chaque utilisateur à chacune de ses connexions au site web, indépendamment de son adresse IP. 40 techniques de presse mai 1998 http://www.inesmedia.com MEDIAS ELECTRONIQUES A gauche : Le hit représente le nombre de demandes faites au serveur pour accéder à un fichier quelconque d’une page web. A droite : Les analyses de logs : ce système analyse à posteriori l’ensemble des transactions qui se sont déroulées sur le serveur du site web de l’éditeur pour en extraire les données pertinentes. déjà stockées par le serveur il évite la connexion directe à un site web. Une autre chose importante à garder en mémoire est le fait qu’un serveur Web garde une trace de son activité en consignant toutes les opérations qu’il effectue dans un fichier de « logs » (l’activité lors d’une connexion : livraison des images, du texte, attente d’une réponse...). C’est à partir de ce fichier que des logiciels vont établir des statistiques de connexion. L’imprécision du jargon Internet Le terme le plus ancien utilisé pour donner une idée du trafic sur un site web est celui de « hit » également appelé « requête » ou « accès ». Le hit représente en fait le nombre de demandes faites au serveur pour accéder à un fichier quelconque d’une page web (page, texte, image, fichier de programme...). Cette requête n’aboutit pas forcément à la livraison du fichier demandé par l’internaute. Ce dernier peut avoir abandonné sa requête en cours de route ; son « navigateur » peut s’apercevoir qu’il possède déjà le fichier sur le disque local ou encore la connexion peut s’arrêter pour des raisons techniques. Malgré ces accidents de parcours, les requêtes seront comptabilisées par le serveur. Il ne faut donc pas être savant pour tirer la conclusion que le nombre de hits n’est pas proportionnel au nombre de pages réellement demandées ni au volume d’information effectivement transmis. L’évaluation est en général largement surévaluée. Pour affiner les mesures, les pages demandées sont isolées de l’ensemble des hits. Les pages demandées représentent le nombre de requêtes de fichiers .html réussies. Les .html correspondent à une entité éditoriale logique, équivalant à une page d’un magazine papier, par exemple. Certains parlent aussi d’impression pour évaluer techniques de presse mai 1998 le nombre de pages .html demandées. Mais ce terme est mal défini. Il est parfois synonyme de pages demandées avec publicité, alors que d’autres y incluent toutes les pages demandées sans distinction. La notion de visiteur et ses imperfections La mesure du nombre de visiteurs a semblé à beaucoup être la solution que l’on attendait. Là encore tout n’est pas simple. Le nombre de visiteurs a d’abord été estimé grâce aux « unique host », c’est à dire le nombre d’adresses IP différentes qui se sont connectées au site. Ce chiffre représente le nombre minimum d’ordinateurs, donc de personnes venues sur le site. Mais il sous-estime beaucoup le nombre de visiteurs, car il ne comptabilise qu’une fois une adresse IP qui revient fréquemment. Dans ce cas de figure, le temps passé ou le nombre de pages consultées sont ignorés. De même, une seule adresse est prise en compte pour les proxy ou firewall, derrières lesquels il peut y avoir des milliers de personnes. Face à ces approximations, il s’est avéré très vite qu’il fallait affiner le chiffre obtenu. On s’est alors tourné vers la notion de session. Une session signifie l’ensemble des activités (tous les accès) consécutives d’un ordinateur client sur le site serveur. En général, une session se termine par défaut lorsque l’ordinateur client n’a pas fait de requête au serveur pendant un certain laps de temps. La durée d’inactivité utilisée pour clore conventionnellement une session n’est pas standard. Elle oscille entre 20 et 30 minutes. L’association de ces deux chiffres a permis de compter des visites qui sont les adresses IP (ou numéro de cookie) uniques associées à une session. Ici encore, le système de comptage n’est pas idéal puisqu’il se sert soit des « unique hosts » soit des cookies. u 41 MEDIAS ELECTRONIQUES http://www.inesmedia.com A gauche : Les systèmes d’injection de publicité consistent à définir les emplacements publicitaires des pages web de l’éditeur comme des zones externes, gérées soit par un logiciel, soit par un prestataire. A droite : Les systèmes d’injection de publicité consistent à définir les emplacements publicitaires des pages web de l’éditeur comme des zones externes, gérées soit par un logiciel, soit par un prestataire. Et les annonceurs ajoutent leurs termes à eux . . . Le placement de publicités sur les pages des sites web a fait apparaître deux nouvelles terminologies. Les vues (ad view), qui correspondent au nombre de fois où le fichier d’une annonce publicitaire a été demandé au serveur. Le taux de clics (ad click rate) est, quant à lui, obtenu en calculant le rapport du nombre de clics sur le fichier publicitaire par rapport au nombre de requêtes sur ce fichier. Enfin, dernière sophistication, le prospect, appelé « lead », soit un clic abouti sur une annonce. C’est-à-dire un clic qui a tiré l’utilisateur jusqu’à l’endroit ou l’annonceur voulait l’amener. La réussite de cette opération est connue sous les termes de « click through » ou de « transfert ». Les grands acteurs qui déterminent ou influencent l’évolution des outils et méthodes de mesure d’audience sont les annonceurs ( Procter & Gamble, par exemple), les éditeurs de site web ( Yahoo !, Hachette), les fabriquants de logiciels ( WebTrends, Netgravity...), les auditeurs ( Coopers & Lybrand, ABVS, I/Pro) et sondeurs (Relevant Knowledge, PCMeter...), les réseaux de placements ou les régies ( Doubleclick, AdKnowledge, Matchlogic, Interdeco Multimédia) et les organismes de normalisation. S’appuyant sur la terminologie disponible, ces acteurs de l’Internet ont contribué à l’émergence de deux modes de mesure des audiences. D’une part les analyses de logs, qui consistent à faire fonctionner un logiciel de traitement du fichier logs du serveur web pour en extraire des données. Ce système analyse à posteriori l’ensemble des transactions qui se sont déroulées sur le serveur du site web de l’éditeur pour en extraire les données pertinentes. Même si le traitement des données est pris en charge par un prestataire indépendant, la matière première, à savoir le 42 fichier de logs, est fourni par l’éditeur. Celui-ci peut par conséquent avoir la tentation d’user de quelques artifices afin de gonfler artificiellement le fichier logs. D’autre part, les systèmes d’injection de publicité. Le principe consiste à définir les emplacements publicitaires des pages web de l’éditeur comme des zones externes, gérées soit par un logiciel, soit par un prestataire. L’éditeur place un code sur ses pages web et c’est ensuite un autre serveur, indépendant de celui qui héberge le site, qui va commander l’ affichage des publicités et leur audit. Ces méthodes présentent de nombreux avantages, notamment celui d’une plus grande finesse des mesures. Le principal inconvénient est de faire appel à des technologies aussi nombreuses et variées que les espèces d’orchidées sauvages. Chaque technique a ses limites, et en réaction, une nouvelle méthode de mesure « révolutionnaire » est inventée presque chaque jour. Cependant, quelques acteurs se sont hissés sur le haut du panier : deux sociétés de logiciels de placement de publicité qui sont NetGravity (leader) et Accipiter. Quelques prestataires de services hébergeurs de sites web, tels que EDS. Enfin, des réseaux de placement de publicité qui utilisent des systèmes propriétaires comme DoubleClick, Adknowledge, MatchLogic ou RealMedia. Comment fixer un mode de tarification publicitaire ? Se référant à ces mesures, les annonceurs ont imaginé un mode de paiement de leurs emplacements publicitaires selon deux modes opposés. L’annonceur qui recherche de la visibilité (brand awarness) va acheter de la publicité traditionnellement en paiement pour un certain volume de « diffusion » de son annonce. C’est le « CPM » (coût pour techniques de presse mai 1998 http://www.inesmedia.com mille) généralement utilisé pour d’autres médias. Mais là encore, il est nécessaire de clarifier la situation, car certains comptent le nombre de pages (coût pour 1000 pages vues) pour déterminer ce CPM, alors que d’autres comptent le nombre de visites (coût pour mille visites). Si l’annonceur est dans une logique de recherche à tout prix de nouveaux prospects, ce n’est pas le nombre de fois où son annonce a été vue qui l’intéresse mais le nombre de fois où une personne a cliqué sur son annonce. Il va alors payer en fonction du click-through. On parle de cost-peraction. Ce système est assez pernicieux, car il lie le prix payé par l’annonceur à l’efficacité de l’annonce, indépendamment de la qualité du support. Les annonceurs réfutent cet argument en faisant des tests de campagne sur un large panel de sites web avant de choisir ceux qui ont généré les meilleurs taux de clicks. Peut-on parler de l’émergence de standards de mesure ? Une première remarque s’impose. Il n’existe pas de disparités notables selon les pays. Notre expérience chez techniques de presse mai 1998 MEDIAS ELECTRONIQUES Hachette, avec l’ensemble des éditions de Elle International réparties dans 11 pays nous le confirme. Des USA au Japon, en passant par le Brésil, l’Allemagne, l’Australie et la France, les termes et outils que nous venons de décrire sont les mêmes. Si l’on constate des disparités, elles sont le reflet des différences de maturité technologique ou marketing. En revanche, l’environnement économique, social et juridique n’influe pas de façon significative sur l’émergence de standards de mesure. L’environnement technique et fonctionnel de l’Internet, semblable en tout point du globe, ce qui est assez nouveau pour un média, entraîne naturellement les acteurs à adopter les mêmes outils. D’une manière générale, la nature de l’Internet, surtout si l’on compare ce média à ceux que nous connaissons déjà, offre des solutions techniques relativement légères. Ainsi, les outils se perfectionnent rapidement et à faible coût. De plus, ils peuvent rapidement être diffusés à travers le monde, justement via Internet. Les traditionnelles barrières culturelles, linguistiques et économiques s’avèrent peu efficaces sur le web. Le réseau Internet favorise une approche globale. Le média étant techniquement homogène, ses développements 43 MEDIAS ELECTRONIQUES tendent naturellement vers des standards. Il en va de même des pratiques. Les annonceurs, par exemple, envisagent de plus en plus le réseau dans son ensemble et non comme un ensemble de sous-réseaux régionaux. Leurs demandes ont donc tendance, elles aussi, à s’homogénéiser. L’usage s’impose face à la rapidité des technologies Ainsi, le premier standard qui émerge est celui de « pages demandées ». D’abord parce qu’il est plus significatif que les hits ou les requêtes qui furent, au commencement de l’Internet, la seule mesure utilisée. Les hits ont un intérêt purement technique, permettant d’évaluer la charge de trafic qui pèse sur un serveur. Ils sont en revanche un très mauvais indicateur du trafic réel sur site. La mesure du nombre de pages vues est désormais facile à mettre en oeuvre. les logiciels de statistiques les plus élémentaires, comme Analog ou AccessWatch, disponibles chez n’importe quel hébergeur de site web, fournissent cette mesure par défaut. C’est donc naturellement qu’elle s’est répandue. Cela dit, le mot standard n’est pas le plus exact, car cette mesure reste encore peu fiable. Il n’en demeure pas moins que leur large utilisation sur le réseau font des pages demandées ou vues, le premier étalon véritable de comparaison du trafic sur les sites web. En toute logique, le web aurait dû être un terrain favorable à l’émergence de standards. Ceux -ci tardent à venir, car aucun outil technologique de mesure ne donne satisfaction à 100 %. Ils ont tous plus ou moins des défauts et aucun ne s’affranchit vraiment du mode particulier de circulation de l’information sur le réseau. Par conséquent, l’offre technologique, sur ce media somme toute encore assez vierge, est abondante et mouvante. La course au toujours plus perfectionné entraîne un développement très rapide des logiciels ou techniques de mesure. Il devient alors difficile pour les annonceurs et les éditeurs de faire leur choix sur ce marché peu structuré. Chacun se laisse séduire par la dernière petite « startup » cotée au Nasdaq et qui promet une solution révolutionnaire. Le Web multiplie ses offres Une autre conséquence de la vivacité du développement technologique des outils de mesure est l’appétit des annonceurs. Ceux-ci en effet, conscients de pouvoir demander toujours plus de finesse dans les mesures d’audience, ont des besoins qui dépassent souvent largement la sophistication de ce qu’on peut obtenir sur des médias traditionnels. Ces exigences compliquent le marché et freinent la mise au point de standards. Si les demandes des annonceurs sont de plus en plus complexes, il en va de même du média 44 http://www.inesmedia.com Internet lui-même. Le développement de nouvelles technologies de diffusion de l’information casse le modèle traditionnel du site web sur lequel un utilisateur vient consulter des pages. Le Push, le « smart pull » ou bien l’« automated pull » sont autant de nouvelles formes de distribution qui évoluent plus vites que les standards n’émergent. Prenons l’exemple de Elle International network. Un annonceur présent sur l’ensemble de notre réseau dispose de nombreuses formes d’exposition de sa marque : – Bandeaux traditionnels sur les sites web – Bandeaux ciblés sur certains sites (en fonction de la langue par exemple) – Une présence en dehors du site : – Elle Direct ( Email, véritable push) – Page IE4 Elle autochargé (il n’y a plus d’adéquation entre les pages demandées et les pages vues) – Présence sur les teasers Elle (sur le desktop de l’utilisateur, plus rien à voir avec le html) – Présence sur les Wallpaper – Présence en dehors du contexte du titre magazine (Wallpaper spécifiques à la marque, teaser spécifiques) Les solutions en phase d’être adoptées pour la mesure d’audience sur les sites Web sont déjà dépassées par l’évolution du média Internet. On ne peut donc pas vraiment parler de standard de mesure d’audience. En revanche, la spécificité d’Internet favorise une terminologie et des outils communs. Reste à s’entendre sur des définitions claires des termes déjà utilisés. Ce processus nécessaire pour que le marché du web puisse mûrir, demandera beaucoup de souplesse. De plus, la nature d’Internet devient de plus en plus complexe et impose l’élaboration d’outils suffisamment perfectionnés pour rendre compte de toute la richesse du média et de la variété de ses modes de consommation. Nous nous orientons, je crois, vers la constitution de plusieurs standards de mesure qui permettront de reproduire une image la plus fidèle possible de différents types d’audience. La standardisation passera par la technologie sans doute, mais aussi et surtout par les deux acteurs principaux de l’Internet : les annonceurs, qui, quoi qu’on dise, sont les moteurs de l’évolution des standards, et, les éditeurs qui doivent réussir à garder l’offre simple, à l’image du « one order, one bill » proposé par RealMedia. Stanislas Sabatier (La mesure d’audience sur Internet était l’un des sujets principaux du séminaire sur les outils marketing du web organisé lors du Milia 1998 (à Cannes les 9 et 10 février) par IFRA France. Stanislas Sabatier avait présenté son point de vue sur l’évolution des outils de mesures d’audience lors de ce séminaire.) techniques de presse mai 1998