
Web Analytics 2.0
222
Différents niveaux de données sont collectés auprès de ce panel d’utilisateurs. À une extré-
mité du spectre, ces données correspondent simplement aux sites Web visités, tandis qu’à
l’autre, le logiciel de surveillance enregistre les cartes de crédit, noms, adresses et autres infor-
mations personnelles saisies dans le navigateur.
Les données de panel sont également collectées lorsque des internautes optent sans le savoir
pour l’envoi de leurs informations. Parmi les exemples répandus se trouve le cas du petit utili-
taire que vous installez sur votre ordinateur pour afficher la météo ou du module additionnel
greffé sur votre navigateur, qui offre une fonction de saisie semi-automatique pour remplir les
formulaires. Dans les conditions du service « écrites en tout petit », vous acceptez que votre
comportement de navigation soit enregistré et fasse l’objet d’un rapport.
Les panels d’internautes peuvent compter plusieurs milliers de membres, voire plusieurs
centaines de milliers. L’un des panels les plus important aux États-Unis est géré par com-
Score ; il compte un million de visiteurs (d’après son site Web http://zqi.me/cs1mil).
Lorsque vous exploitez des données ou des analyses qui reposent sur des panels d’internautes,
vous devez faire attention à trois éléments.
•Le caractère biaisé de l’échantillon. Pratiquement tous les établissements, notamment les
entreprises et les universités, interdisent les logiciels de surveillance pour des raisons de
sécurité et de confidentialité. Aussi, la majorité des comportements surveillés ont tendance
à provenir d’utilisateurs naviguant depuis leur domicile. Et étant donné que l’utilisation des
navigateurs sur les heures ouvrées (et donc sur le lieu de travail) constitue une part consi-
dérable de la consommation Web, il est important de bien comprendre que les données
issues des panels d’internautes n’intègrent pas cet aspect du Web.
•Caractère biaisé de l’échantillonnage. Les internautes sont incités à installer un logiciel
de surveillance en échange de participations à un tirage au sort, d’économiseurs d’écran à
télécharger et de jeux, voire d’une toute petite somme d’argent (2 € par mois, par exemple).
Ce penchant induit un biais dans les données du fait du type des personnes qui participent
au panel. Ce n’est pas en soi un motif de rupture d’accord, mais vous devez prendre en
compte les internautes dont vous souhaitez analyser le comportement par rapport à ceux
qui constituent l’échantillon.
•Le défi Web 2.0. Le logiciel de surveillance (explicite ou masqué) a été élaboré lorsque le
Web était statique, lorsqu’il reposait sur des pages. L’avènement des interactions enrichies,
notamment avec la vidéo, les codes Ajax et Flash, implique la fin de la mesure des pages
consultées. De ce fait, les logiciels de surveillance éprouvent des difficultés à capturer des
données avec précision. Certains éditeurs de logiciels de surveillance ont tenté de s’adapter
à cette situation changeante en demandant aux entreprises d’incorporer des balises
spéciales dans l’interaction proposée par leur site Web. Mais comme vous l’imaginez sans
doute, la chose est plus facile à dire qu’à faire.
La méthodologie des panels d’internautes repose sur le modèle de l’audimat pour la télévi-
sion. Dans un univers massivement fragmenté, les panels présentent un défi considérable en
matière de collecte de données précises et complètes (voire représentatives). Voici une règle
empirique que j’ai développée : si un site affiche plus de 5 millions de visiteurs uniques par
mois, les données collectées auprès d’un panel d’internautes sont suffisamment homogènes.
Les données de panel ont constitué une source prépondérante pour l’analyse IC. Mais sachant les limites inhérentes
à la méthodologie, les données de panel sont récemment complétées par d’autres sources avant d’être mises à
disposition pour analyse.
CONSEIL