05•Bergkvist-Rossiter 13/03/08 11:07 Page 81 Recherche et Applications en Marketing, vol. 23, n° 1/2008 SÉLECTION INTERNATIONALE Comparaison des validités prédictives des mesures d’un même construit des échelles mono-item et des échelles multi-items Lars Bergkvist Professeur visitant en marketing Yonsei Graduate School of Business, Séoul John R. Rossiter Marketing Research Innovation Centre, Université de Wollongong, Australie Rotterdam School of Management, Erasmus University, Pays-Bas RÉSUMÉ Cette recherche compare les validités prédictives des mesures mono-item et multi-items de l’attitude envers la publicité (APub) et de l’attitude envers la marque (AMarq), qui font partie des construits les plus mesurés en marketing. Les auteurs évaluent la capacité de APub à prédire AMarq dans des tests de quatre publicités presse concernant différents nouveaux produits. Aucune différence n’est trouvée dans les validités prédictives des mesures mono- et multi-items. Les auteurs concluent que, pour les nombreux construits marketing constitués d’un objet concret unique et d’un attribut concret, tels que APub et AMarq, des mesures mono-item doivent être utilisées. Mots clés : Attitude vis-à-vis d’une publicité, attitude vis-à-vis d’une marque, mesures à un seul item comparées à plusieurs items. Dans son article très influent publié dans Journal of Marketing Research, Churchill (1979, p. 66) déclare la phrase suivante : « En somme, les marketers sont beaucoup mieux servis par les mesures multiitems que par les mesures mono-item de leurs construits et ils seraient avisés de prendre le temps de les développer. » En effectuant cette recommanda- tion, Churchill suivait la tradition dominante issue de la psychométrie concernant les mesures des capacités et des traits (voir par exemple Guilford, 1954 ; et surtout Nunnally, 1978). Dans les 28 années qui ont suivi l’article de Churchill, les chercheurs ont de plus en plus utilisé des échelles multi-items pour mesurer les construits marketing. Plus précisément, ils ont Cet article a été publié en mai 2007 dans Journal of Marketing Research, 44, 2, 175-184, traduit par Dina Rasolofoarison et reproduit avec la permission de JMR et de l’American Marketing Association qui en détient le copyright. L’AMA ne pourra être tenue responsable d’éventuelles erreurs survenues lors de la traduction. Les auteurs remercient l’aide à la recherche de l’Association of Swedish Advertisers, de la Swedish Newspaper Publishers’ Association et de l’Advertising Association of Sweden. Ils peuvent être contactés aux adresses électroniques suivantes : [email protected] ; [email protected] 05•Bergkvist-Rossiter 82 13/03/08 11:07 Page 82 Lars Bergkvist, John R. Rossiter utilisé des échelles multi-items pour mesurer l’attribut des construits (c’est-à-dire l’attitude, la qualité, l’appréciation) qu’il faut différencier de l’objet du construit (c’est-à-dire une entreprise, une marque, une publicité). Dans sa procédure C-OAR-SE de développement d’échelle, Rossiter (2002) conclut que si un objet peut être conceptualisé de façon concrète et unique, alors il ne requiert pas plusieurs items pour être mesuré, pas plus qu’un attribut pouvant être défini comme concret. Cependant, l’article de Churchill, comme celui de Peter (1979) sur la fiabilité des échelles multi-items également publié dans JMR, ont influencé la mesure des construits marketing à tel point qu’il est virtuellement impossible d’avoir un article accepté en marketing si les concepts principaux ne sont pas mesurés par des échelles multiitems (encore une fois, les items multiples représentant l’attribut du construit). L’utilisation de mesures multi-items est également encouragée par la popularité croissante de l’analyse en équations structurelles (LISREL), un ensemble de techniques statistiques pour lesquelles les mesures multi-items sont la norme, quel que soit le type de construit mesuré (voir par exemple, Anderson et Gerbing, 1988 ; Baumgartner et Homburg, 1996). Il est en revanche peu commun que les praticiens du marketing utilisent, comme les chercheurs, des échelles multi-items pour mesurer les mêmes construits. Les praticiens semblent préférer les mesures mono-item, non pas pour des raisons théoriques comme celles proposées par Rossiter (2002), auxquelles les praticiens sont peu sensibles, mais pour des raisons pratiques de minimisation des coûts et des refus de la part des répondants. Parmi ces construits communs, on peut trouver l’attitude envers la publicité ou APub, que les praticiens appellent l’« appréciation » de la publicité ou APPub, et l’attitude envers la marque, que les praticiens et beaucoup de chercheurs appellent « brand attitude », symbolisée par AMarq ou parfois Am. Ces construits populaires sont l’objet d’étude de la présente recherche. Notre recherche utilise le critère le plus décisif du point de vue de la prise de décision, à savoir la validité prédictive (Aaker et alii, 2005) et démontre que des mesures mono-item de ces construits sont tout aussi valides que des mesures multi-items. Le fait que des validités prédictives soient égales signifie que les tests théoriques et les résultas empiriques seraient similaires si des mesures mono-item étaient utilisées à la place des habituelles mesures multi-items de ces construits. Nous allons maintenant passer en revue les arguments pour et contre les mesures multi-items afin de développer nos hypothèses. ARGUMENTS EN FAVEUR DES MESURES MULTI-ITEMS Pour quelles raisons le monde académique estime-t-il que les mesures multi-items sont meilleures que les mesures mono-item ? L’un des arguments théoriques les plus populaires chez les chercheurs trouve sa source dans l’article de Churchill (1979), ainsi que dans celui de Peter (1979), également publié dans JMR, sur la fiabilité : les mesures multi-items seraient intrinsèquement plus « fiables » car elles permettent des calculs de corrélations entre les items qui, si elles sont positives et génèrent une corrélation moyenne élevée (c’est-àdire un coefficient alpha élevé), indiquent la « cohérence interne » de tous les items et représentent ainsi l’attribut sous-jacent. Cet argument de la « fiabilité » doit être explicité (voir Rossiter, 2002). Tout d’abord, le coefficient alpha ne devrait jamais être utilisé sans avoir au préalable étudié l’unidimensionnalité de l’échelle (Cortina, 1993) ; cela peut être vérifié par une analyse factorielle ou, plus sûrement, par le calcul du coefficient bêta de Revelle (1979) qui constitue un bon test d’unidimensionnalité. Une fois l’unidimensionnalité vérifiée, le coefficient alpha n’est réellement un indicateur de la validité de mesure par l’ensemble des items que pour un certain type d’attributs, les attributs élicitants (voir Rossiter, 2002). Les meilleurs exemples en sont les traits de personnalité (ainsi que les états de court terme correspondants) et les capacités. Le coefficient alpha n’est pas approprié pour les deux autres types d’attributs, les attributs « concrets » (qui représentent le type d’attributs utilisés dans la présente recherche dans les construits APub et AMarq) et les attributs « formés », tels que la classe sociale (qui est un attribut composé d’une somme de notes sur des variables démographiques). Si 05•Bergkvist-Rossiter 13/03/08 11:07 Page 83 Comparaison des validités prédictives des mesures d’un même construit des échelles mono-item et des échelles multi-items l’attribut du construit est concret, le coefficient alpha n’est pas un critère approprié de l’évaluation de la mesure car il n’est pas nécessaire d’avoir plusieurs items pour le mesurer. Un argument logique contre la nécessité d’un coefficient alpha élevé est donné par Gorsuch et McFarland (1972), qui mettent l’accent sur le fait qu’une mesure non fiable ne peut pas former une relation n’atteignant pas un haut degré de validité prédictive et qu’ainsi, une mesure mono-item qui aurait une validité prédictive équivalente à une mesure multi-items devrait être considérée comme suffisamment fiable pour remplacer cette dernière. Cronbach (1961, p. 128) dit également : « Si la validité prédictive est satisfaisante, une faible fiabilité ne doit pas nous décourager d’utiliser le test », qui signifie ici la mesure prédictive. Sur la base de ces arguments, nous concluons que la fiabilité ne doit pas entrer en ligne de compte si la mesure mono-item obtient une validité prédictive équivalente à la mesure multi-items. Un second argument théorique pour l’utilisation d’une mesure multi-items est qu’elle capture davantage d’information qu’une mesure mono-item. Cet argument doit être divisé en deux parties. Premièrement, on considère qu’une mesure multi-items capture davantage d’information qu’une mesure mono-item car elle est « plus à même de capturer toutes les facettes du construit étudié (Baumgartner et Homburg, 1996, p. 143). Cependant, la présence de différences facettes dans un attribut ou un objet signifie que ce construit ne peut être considéré comme un attribut concret d’un objet concret singulier dans la terminologie de Rossiter (2002). Ainsi, cet argument ne concerne pas la présente recherche, étant donné que nous étudions deux construits doublement concrets. Deuxièmement, on considère qu’une mesure multi-items capture davantage d’information qu’une mesure mono-item car elle offre plus de catégories de réponses. Il est nécessaire d’insister sur le fait que ce n’est pas la multiplicité des items qui est importante ici mais plutôt le nombre de catégories disponibles, ou autrement dit, la « longueur » de l’échelle de réponse. Une échelle multi-items fournit de facto une échelle de réponse (potentiellement) plus discriminatoire qu’une mesure mono-item. Par exemple, une mesure de APub composée de trois items (i) sur des échelles de réponse en sept points (r) peut générer 343 (r i ) réponses uniques différentes et 19 totaux de scores différents (i × r − [i − 1]). Ce nombre 83 relativement élevé de scores permet de « faire des distinctions relativement fines entre les gens » (Churchill, 1979, p. 66) ou, sur une même ligne, de catégoriser les gens dans un grand nombre de groupes (Nunally et Bernstein, 1994, p. 67). Cet argument est valide tant que le répondant est capable de discriminer un grand nombre de catégories d’un même attribut (Viswanathan, Sudman et Johnson, 2004). Il s’ensuit qu’une mesure multi-items de la variable prédictive devrait montrer une plus grande corrélation avec la mesure de la variable dépendante, soit une plus grande validité prédictive. De plus, découlant du même argument, il s’ensuit que la corrélation entre une variable prédictive mono-item et une variable dépendante multi-items devrait être plus grande que si les deux sont des mesures mono-item, et que la corrélation entre une variable prédictive multiitems et une variable dépendante multi-items devrait être la plus grande de toutes. Cette deuxième partie de l’argument conduit à trois hypothèses. H1 : La corrélation entre une variable prédictive multi-items et une variable dépendante monoitem est supérieure à la corrélation entre une variable prédictive mono-item et la même variable dépendante. H2 : La corrélation entre une variable prédictive mono-item et une variable dépendante multiitems est supérieure à la corrélation entre la même variable prédictive et une variable dépendante mono-item. H3 : La corrélation entre une variable prédictive multi-items et une variable dépendante multiitems est supérieure à la corrélation entre deux mesures mono-item. ARGUMENTS EN FAVEUR DES MESURES MONO-ITEM La préférence des praticiens pour les mesures mono-item n’est pas fondée sur des raisons théoriques mais sur des raisons pratiques : des mesures mono-item minimisent le nombre de refus de la part 05•Bergkvist-Rossiter 84 13/03/08 11:07 Page 84 Lars Bergkvist, John R. Rossiter des répondants et réduisent les coûts de collecte et de traitement des données. Le seul argument théorique (vs empirique) en faveur de l’utilisation de mesures mono-item a été proposé par Rossiter (2002) dans sa procédure C-OAR-SE de développement d’échelle. Rossiter avance qu’une mesure mono-item est suffisante si le construit est, dans l’esprit des évaluateurs (par exemple les répondants d’une enquête), tel que (1) l’objet du construit est « singulier et concret », ce qui signifie qu’il s’agit d’un objet pouvant être facilement et uniformément imaginé, et (2) l’attribut du construit est « concret », ce qui signifie également qu’il peut être facilement et uniformément imaginé. Dans les deux cas, « facilement et uniformément imaginé » est un critère pris de la « théorie de l’image » de Wittgenstein (1961). D’après des jugements d’experts basés sur la procédure C-OAR-SE, APub (ou APPub) et AMarq sont tous les deux de tels construits. Un argument empirique pour l’utilisation d’un item unique peut être donné pour les mesures dans lesquelles les multiples items représentant l’attribut (dans la partie réponse de l’item) sont synonymes ou ont pour but d’être synonymes (plus précisément, quand ils sont des adjectifs synonymes). Un exemple extrême est la mesure très connue de l’implication personnelle de Zaichkowsky (1985) (qui, comme construit, se réfère à l’implication personnelle envers un objet, tel qu’une catégorie de produit ou une publicité). Cette mesure utilise 20 paires bipolaires d’adjectifs synonymes pour mesurer l’attribut de « l’implication ». Deux autres exemples sont l’attribut « attitude » des construits APub et AMarq tels qu’ils sont mesurés dans la recherche académique. Sur la base d’une étude antérieure de Stuart, Shimp et Engle (1987), Allen (2004) utilise huit paires d’adjectifs synonymes pour mesurer APub. C’est un nombre d’items exceptionnellement grand, il est plus fréquent dans la recherche d’utiliser trois ou quatre items synonymes pour mesurer APub ou AMarq car c’est un nombre suffisant pour atteindre un coefficient alpha élevé. L’argument empirique en faveur de l’utilisation d’un item unique dans de telles mesures est apparu parce que Drolet et Morrison (2001) ont trouvé que l’accroissement du nombre d’items synonymes produit un problème fréquent : plus le nombre d’items synonymes que le chercheur cherche à générer est grand, plus il y a de chances d’inclure des items qui ne sont pas de parfaits synonymes de l’attribut descriptif original. De plus, ceux qui ne sont pas synonymes ont peu de chances d’être détectés. Drolet et Morrison trouvent que, quand le nombre total d’items augmente, les répondants sont plus enclins à répondre de la même façon à un item qui ne serait pas équivalent (non synonyme, et donc sans validité de contenu) qu’aux autres items de l’échelle. Drolet et Morrison incluent « non-familier/familier » comme item non équivalent dans la batterie des items mesurant APub et trouvent que la différence moyenne absolue entre les notations des items équivalents et nonéquivalents diminue quand le nombre d’items est augmenté de deux items à cinq puis à dix items (l’un d’entre eux étant l’item non équivalent). La différence moyenne entre le premier item et l’item non équivalent diminue d’approximativement 20 % en passant de deux items à cinq items et d’approximativement 38 % en passant de deux items à dix items. Ces résultats montrent que l’addition de nombreux bons items cache la présence de mauvais items. Si les mauvais items sont corrélés positivement aux bons items, le coefficient alpha augmente, ce qui dissuade généralement les chercheurs de rechercher les mauvais items. Paradoxalement, les mauvais items pourraient augmenter la validité prédictive d’une mesure multi-items si la variation des scores des nouveaux items est corrélée à la variation des scores de la variable dépendante, ce qui est probable si le mauvais item est aussi une autre variable prédictive de la variable dépendante. De plus, Drolet et Morrison appliquent la technique de prévisions d’experts pour estimer mathématiquement la valeur informationnelle des items additionnels dans une échelle (voir aussi Morrison et Schmittlein, 1991). En utilisant l’hypothèse des erreurs modérément corrélées, ils montrent que les items additionnels apportent peu d’information ; deux items ayant une corrélation des erreurs de 0,60 apportent l’équivalent de 1,25 item indépendant, et une infinité d’items corrélés à 0,60 apportent autant d’information que 1,67 item indépendant. Ils concluent qu’un ou deux bons items peuvent surpasser une échelle composée de multiples items, si ces multiples items ont une corrélation modérée ou forte de leurs erreurs, ce qui est probable s’ils sont présentés ensemble. L’argument de Drolet et Morrison est entièrement mathématique, ils ne testent pas empiriquement la valeur informationnelle additionnelle des items d’un questionnaire. (Dans la 05•Bergkvist-Rossiter 13/03/08 11:07 Page 85 Comparaison des validités prédictives des mesures d’un même construit des échelles mono-item et des échelles multi-items présente recherche, nous étudions empiriquement la valeur de l’information additionnelle en regardant si des items multiples augmentent la validité prédictive. Si des items multiples ajoutent de l’information, une mesure multi-items d’une variable prédictive devrait prédire les scores d’une variable dépendante avec de plus faibles déviations, résultant ainsi en un r et un R 2 plus élevés.) En raison des problèmes d’erreurs systématiques dans les scores obtenus par des mesures multi-items et de leur démonstration mathématique qui montre que des items additionnels derrière le premier item n’améliorent pas la prédiction des résultats, Drolet et Morrison recommandent l’utilisation de mesures mono-item. Il faut cependant préciser que leur recommandation ne s’applique qu’aux construits qui constituent les classifications les plus basiques des objets et attributs, c’est-à-dire les objets et attributs doublement concrets (Rossiter, 2002). Un autre argument empirique en faveur des mesures mono-item vient de la volonté d’éviter les biais de similarité des méthodes. Les biais de similarité des méthodes apparaissent quand la corrélation entre deux construits ou plus est augmentée parce qu’ils sont mesurés de la même façon (voir par exemple Williams, Cote et Buckley, 1989). Les biais de similarité des méthodes peuvent apparaître dans les nombreux items d’une mesure multi-items, et peuvent ainsi venir accroître artificiellement son coefficient alpha. Par exemple, la corrélation entre APub et AMarq tendrait à augmenter si chaque construit était mesuré avec plusieurs items de même format (par exemple des items « sémantiques-différentiels ») plutôt qu’avec un item unique de même format. Les biais de similarité des méthodes peuvent aussi accroître la corrélation entre deux mesures mono-item si un format identique est utilisé pour les deux. Pour finir, les biais de similarité des méthodes peuvent également augmenter la corrélation entre deux mesures monoitem si des attributs descriptifs similaires (vs différents) sont utilisés (par exemple « bon/mauvais » pour APub et « aime/aime pas » pour AMarq). Ainsi, nous développons trois hypothèses concernant les biais de similarité des méthodes. H4 : La corrélation entre deux construits est plus grande si ces construits sont mesurés avec des items multiples de formats identiques que s’ils sont chacun mesurés avec un item unique de format identique. 85 H5 : La corrélation entre deux construits est plus grande si ces construits sont mesurés avec des mesures mono-item de formats identiques que s’ils sont mesurés avec des mesures mono-item de formats différents. H6 : La corrélation entre deux construits est plus grande si ces construits sont mesurés avec des items uniques employant le même attribut descriptif que s’ils sont mesurés avec des items uniques employant des attributs descriptifs différents. Le Tableau 1 résume les arguments pour et contre les mesures multi-items et la façon de tester ces arguments si elles existent. Il existe deux tests empiriques importants pouvant être conduits (voir argument 3 dans les deux listes du Tableau 1). L’un des tests est fondé sur l’argument de « discriminabilité » des items multiples et est un test de validité prédictive (H1, H2 et H3). L’autre test concerne les sources potentielles des biais de similarité des méthodes (H4, H5 et H6). Déterminer la validité Comment un chercheur peut-il décider si une mesure mono-item d’un construit donné est aussi valide qu’une mesure multi-items du même construit ? La procédure C-OAR-SE de Rossiter (2002) affirme que c’est totalement une question de validité de contenu des mesures alternatives. Bien que des entretiens non directifs des consommateurs puissent être nécessaires comme input, la validité de contenu est au final déterminée par des jugements d’experts, et non par des recherches quantitatives ou des tests statistiques, à l’exception du calcul de la concordance entre les juges. Cependant, le jugement d’experts n’est pas une option dans la présente recherche. En effet, elle étudie des mesures existantes pour lesquelles les jugements de validité de contenu faits ex post n’offriraient pas plus qu’une validité faciale qui n’est pas un type valide de validité car il ne révèle pas les items qui ont été considérés ni ceux qui ont été rejetés, et ainsi ne montre pas comment les items valides ont été sélectionnés (Rossiter, 2002). La méthode psychométrique habituelle de comparaison de validité consiste à examiner comment chaque mesure prédit les mesures des résultats étu- 05•Bergkvist-Rossiter 86 13/03/08 11:07 Page 86 Lars Bergkvist, John R. Rossiter Tableau 1. – Arguments pour et contre les mesures multi-items et les façons de les tester Arguments pour les items multiples Commentaires Comment les tester 1. Augmente la fiabilité en permettant le calcul du coefficient alpha S’applique à tous les construits du paradigme de Churchill (1979). S’applique aux attributs « élicitants » selon le paradigme de Rossiter (2002), mais pas aux attributs concrets ou formés Ne peut pas tester si les attributs sont concrets ou formés. Cela doit être décidé par jugements d’experts. Pour les attributs « élicitants », le coefficient alpha peut être calculé quand l’unidimensionnalité a été établie. 2. Nécessaire si l’objet est abstrait ou si l’attribut est abstrait Les paradigmes de Churchill (1979) et de Rossiter (2002) acceptent cela, bien que la terminologie employée soit de Rossiter. Cependant, le paradigme de Churchill prétend que les items multiples sont nécessaires pour tous les construits pour « capter toutes les facettes du construit ». Cela n’est pas accepté par Rossiter (voir l’argument 1 dans les « Arguments contre les items multiples »). Ne peut pas être testé. Décidé par jugements d’experts. 3. Capable de mieux discriminer (quand cela est souhaitable) les catégories de l’attribut en augmentant le nombre de catégories dans l’échelle de réponse. Les deux paradigmes acceptant cela, même si Rossiter (2002) dirait qu’un item unique pourrait être rendu aussi discriminant en augmentant le nombre de catégories dans l’échelle de réponse. Comparer la prédiction quand la variable prédictive et la variable dépendante sont mesurées avec une échelle multi-items (ex : trois items en sept points, fournissant 19 catégories de réponse possibles) et avec une échelle mono-item (ex : un item en sept point, 7 catégories). Si l’argument de plus grande discrimination et de « plus d’information » est correct, la validité prédictive devrait être la plus élevée pour les mesures multi-items des deux variables, plus basse quand l’une des mesure est mono-item, et la plus basse quand les deux mesures sont monoitem. Arguments contre les items multiples Commentaires Comment les tester La présente étude utilise APub, CROYMarq et AMarq. Dans le cadre de Rossiter (2002), chacun a un objet singulier et concret (la publicité ou le produit de marque), et les attributs (croyance ou attitude) sont concrets, donc un item unique devrait être suffisant. Ne peut pas être testé. Décidé par jugements d’experts. 1. Les items multiples ne sont pas nécessaires (pas valides) si l’objet est singulier et concret ou si l’attribut est concret. 05•Bergkvist-Rossiter 13/03/08 11:07 Page 87 Comparaison des validités prédictives des mesures d’un même construit des échelles mono-item et des échelles multi-items 87 Tableau 1. – Arguments pour et contre les mesures multi-items et les façons de les tester (suite) Arguments contre les items multiples Commentaires Comment les tester 2. Les items additionnels génèrent le risque de capter un attribut d’une autre variable prédictive. Selon Rossiter (2002), cela est probable si les items sont censés être des synonymes de l’attribut original. Décomposer les items des échelles multi-items en variables prédictives indépendantes (par étape) : des items additionnels ne doivent pas significativement augmenter le R 2 (ajusté) s’ils capturent le même attribut. (Il faut noter qu’une « non-différence » dans le test de l’argument 3 de la section « Arguments pour les items multiples » serait aussi une preuve qu’aucun autre attribut n’a été capté.) 3. Biais de similarité des méthodes dans la mesure des variables prédictive et dépendante. Le biais de similarité des méthodes pourrait augmenter artificiellement la corrélation entre une variable prédictive mono-item et une variable dépendante mono-item mais moins qu’entre deux variables indépendante et prédictive multi-items. Avec une variable prédictive mono-item et une variable dépendante mono-item, les biais de similarité des méthodes peuvent survenir avec l’utilisation d’un format identique ou d’adjectifs descriptifs de l’attribut identiques Comparer la prédiction quand les variables prédictive et dépendante sont mesurées avec des items multiples de même type (ex: sémantiques différentielles) et quand elles le sont avec des items uniques de même type ; comparer la prédiction quand la variable prédictive utilise le même type de mesure que la variable dépendante mono-item et quand les types de mesures diffèrent (ex : échelles bipolaires pour la variable prédictive et sémantique différentielle pour la variable dépendante) ; comparer la prédiction quand les adjectifs des items uniques des variables prédictive et dépendante sont identiques et quand les adjectifs sont parallèles. diés (appelée « validité du modèle concurrent » quand les deux mesures sont prises dans la même étude, et « validité prédictive » quand la mesure de la variable dépendante se fait plus tard, mais le terme « validité prédictive » est communément utilisé pour désigner les deux situations). D’un côté, Rossiter (2002) élève une objection à la validité prédictive (voir aussi Borsboom, Mellenbergh et Van Heerden 2004) car l’objectif n’est pas de maximiser la prédiction (maximiser la magnitude de r), mais de mesurer la vraie corrélation (la magnitude de la population R) entre la variable prédictive et la variable dépendante. La vraie corrélation Rx y sera généralement considérablement plus petite que 1 car la plupart des résultats ont de multiples causes et qu’en sciences sociales, des corrélations supérieures à 0,6 seraient suspectes (Cronbach, 1961). D’un autre côté, si les deux variables prédictives comparées sont deux (ou plus) mesures d’un même construit (et donc d’un même attribut), cette objection ne semble plus tenir puisque, bien que la corrélation ne soit pas connue, on peut considérer sans risque que plus la corrélation est haute, plus on est près de la vérité. Dans la présente recherche, nous employons une analyse de corrélation bivariée et une régression multiple pour comparer les capacités des mesures monoitem et multi-items de l’attitude envers la publicité à prévoir les mesures mono-item et multi-items de l’attitude envers la marque. Premièrement, si l’argument de « pouvoir discriminatoire supérieur » des mesures multi-items est correct, les mesures multi-items de la variable indépendante, de la variable dépendante ou des deux devraient atteindre de plus grands coefficients de validité, r, et de plus grandes parts de 05•Bergkvist-Rossiter 88 13/03/08 11:07 Page 88 Lars Bergkvist, John R. Rossiter variance expliquées dans les régressions, R 2 , que les mesures mono-item. Deuxièmement, si l’argument des biais de similarité des méthodes est correct, les mesures multi-items devraient produire des prédictions artificiellement augmentées. Cela devrait également être le cas des mesures mono-item utilisant le même type d’échelle de réponse ou les mêmes adjectifs dans les mesures de la variable prédictive et de la variable dépendante. APPROCHE DE RECHERCHE Approche générale Les données de cet article proviennent de questionnaires de consommateurs concernant quatre publicités pour quatre produits différents. Nous avons pré-testé les publicités en utilisant les tests traditionnels (tests de la copie). Nous avons fait tourner l’ordre des publicités. Les participants ont répondu à des mesures mono-item et multi-items pour les mêmes variables de test de publicité, de sorte que la comparaison des méthodes de mesures est basée sur un design intra-sujet plutôt qu’inter-sujet. Les participants Les participants étaient des étudiants de première et deuxième année de maîtrise de commerce ayant accepté de participer à « une recherche sur le marketing ». Les participants se sont vu offrir un déjeuner gratuit durant le test de copie, un ticket de loterie de la Croix Rouge ainsi qu’une chance de gagner un ticket de cinéma ou des bons d’achat pour la librairie étudiante. En tout, 92 participants ont rempli le test de publicité, mais la taille des cellules pour les quatre publicités diffère car nous avons filtré les participants qui n’étaient pas intéressés par la catégorie de produit. La procédure Quelques semaines avant le test de publicité, nous avons mené une étude visant à mesurer l’intérêt des participants pour les catégories de produits utilisées dans la recherche. Nous avons mesuré l’intérêt en posant des questions sur les intentions d’achat, les achats réels et les usages de chacune des catégories, même si nous avons éliminé la question sur les achats concernant une des catégories, les plans retraite, car il est évident que des étudiants ne sont pas acheteurs de plans retraite. Afin d’éviter de renseigner les participants sur les catégories de produits utilisées dans la recherche, nous avons posé les mêmes questions sur quatre catégories de produits additionnelles, non utilisées dans la suite de l’étude. Nous avons considéré qu’un participant était intéressé par la catégorie de produit s’il avait répondu positivement à au moins une des trois questions sur l’intérêt (avoir l’intention d’acheter, avoir acheté ou avoir utilisé). L’analyse ne prend en considération que ces participants ayant répondu positivement à au moins une des trois questions. La proportion des participants s’intéressant à une catégorie de produit s’étale de 63 % à 95 %, comme on peut le voir dans les tailles d’échantillon n indiquées dans les tableaux de résultats. Nous avons mené les tests de publicité par groupes de 25 étudiants (avec des livrets individuels) dans une salle de classe, durant l’heure de déjeuner des étudiants. Chaque participant avait été préalablement assigné à un groupe et avait reçu les instructions pendant le déjeuner. En arrivant, il a été demandé aux participants de s’asseoir, d’attendre et de ne pas regarder le livret posé devant eux. Puis le test a commencé, il a été dit aux participants qu’ils allaient voir quatre publicités pour des marques qui n’étaient pas disponibles sur le marché local mais qu’elles le seraient dans un futur proche. Il leur a également été dit qu’il n’y avait pas de bonne ou mauvaise réponse aux questions posées après chaque publicité et que c’était leur opinion en tant que consommateur et non en tant qu’étudiant en école de commerce qui importait. On a également insisté sur l’importance de répondre à toutes les questions du livret. Chaque publicité du livret était suivie par toutes les questions lui correspondant. Nous avons fait tourner l’ordre des publicités pour minimiser l’effet de contamination (une analyse de la variance effectuée plus tard a démontré que l’ordre des publicités n’était pas une variable significative). Les participants pouvaient prendre tout le temps qu’ils voulaient pour regarder 05•Bergkvist-Rossiter 13/03/08 11:07 Page 89 Comparaison des validités prédictives des mesures d’un même construit des échelles mono-item et des échelles multi-items les publicités. Les pré-tests ont indiqué qu’un délai de trois minutes était suffisant pour tout le monde. Matériel Les publicités étaient des publicités réelles concernant des produits réels, mais aucune des publicités ni aucune des marques concernées n’était disponible sur le marché local dans lequel l’étude a été conduite. Ainsi, les publicités et les marques étaient nouvelles pour tous les participants. Les publicités étaient présentées en couleurs sur une feuille A4 et la qualité du papier et de l’impression était celle d’un magazine. Les marques sur les publicités provenaient de quatre catégories de produits différentes : antidouleur, café, plan de retraite et jeans. Nous avons choisi les quatre catégories de produits a priori pour représenter les quatre quadrants de la grille de Rossiter et Percy (1997) : elles étaient respectivement faible implication/informationnelle, faible implication/ transformationnelle, forte implication/informationnelle et forte implication/transformationnelle. Mesures Le questionnaire contenait les mêmes questions pour toutes les publicités de l’étude. Pour chaque publicité, les participants devaient noter leur appréciation de la publicité (APPub), leur attitude envers la publicité (APub), leur intention d’acheter la marque (IAMarq), leur attitude envers la marque (AMarq) et leur croyance sur le bénéfice apporté par la marque (CROYMarq), dans cet ordre. Les mesures concernant la publicité venaient en premier, immédiatement après l’exposition aux publicités, puis venaient les mesures concernant la marque, posées dans un ordre d’inversion de la « hiérarchie des effets » afin d’éviter que les attitudes et les intentions d’achat ne soient influencées par les croyances (Rossiter et Percy, 1997). Le questionnaire contenait d’autres mesures, telles que les réponses cognitives qui, avec IAMarq, n’ont pas été utilisées dans l’analyse. Les échelles exactes utilisées pour mesurer les construits dans l’analyse apparaissent dans le Tableau 2. Nous avons tiré les mesures mono-item des mesures multi-items. L’appréciation de la publicité APPub1, où 89 l’indice 1 indique le nombre d’items, était déjà une mesure mono-item utilisée par la plupart des praticiens (Haley et Baldinger, 1991 ; Walker et Dubitsky, 1994). L’attitude envers la publicité, APub3, était le troisième item de la mesure utilisée par MacKenzie et Lutz (1989) et a été repris par beaucoup de recherches académiques. Pour la mesure mono-item de l’attitude envers la publicité APub1, nous avons sélectionné le premier item bon/mauvais, labellisé APub1(G) dans les résultats. L’attitude envers la marque AMarque3 était le troisième item de la mesure utilisée par Gardner (1985) et par bien d’autres recherches académiques après lui. Pour étudier les biais de similarité des méthodes avec des mesures mono-item, nous avons sélectionné le troisième item « aime pas/aime » pour faire office de mesure mono-item « différente » de AMarq1, labellisée AMarq1(L) ; pour la « même » mesure mono-item de AMarque1, nos avons sélectionné le même item que pour la mesure mono-item de APub1, « mauvais/bon », labellisé AMarq1(G). En plus de ces construits principaux, les croyances sur les attributs importants de chaque produit, CROYMarq, étaient nécessaires pour la régression. CROYMarq était composé des deux à quatre (selon les catégories de produits) attributs les plus importants déterminés par les pré-tests ; nous avons mesuré la force des croyances sur des échelles unipolaires en sept points, allant de « dans une faible mesure » (1) à « dans une très large mesure » (7). Pour chaque produit, nous avons combiné les scores de croyance de chaque attribut dans un index. Nous avons également examiné les régressions produit par produit avec les croyances utilisées comme variables indépendantes séparées, et elles ont donné des valeurs de R 2 presque identiques. Ainsi, nous reportons les résultats calculés sur les index pour gagner de l’espace. Conformément à la procédure psychométrique classique (voir Cortina, 1993), nous avons analysé les mesures multi-items avec une analyse en composantes principales pour déterminer le nombre de dimensions avant de calculer les coefficients alpha ; nous avons trouvé que APub3 et AMarq3 étaient toutes les deux uni-dimensionnelles. Les coefficients alpha de ces mesures étaient tous bons ou très bons selon les standards psychométriques acceptés ; ils allaient de 0,85 à 0,93 (voir par exemple DeVellis, 1991 ; Nunnally et Bersnstein, 1994). 05•Bergkvist-Rossiter 90 13/03/08 11:07 Page 90 Lars Bergkvist, John R. Rossiter Tableau 2. – Mesures des principaux construits Construit Question Échelle de réponse APPub « Concernant la publicité pour /MARQUE/, laquelle des phrases suivantes décrit le mieux vos sentiments envers cette publicité ? » 1. Je l’aime beaucoup 2. Je l’aime bien 3. Ni l’un ni l’autre 4. Je ne l’aime pas beaucoup 5. Je ne l’aime pas du tout APub « Trois paires d’adjectifs vous sont présentées ci-dessous. Indiquez à quel point l’un ou l’autre des deux adjectifs de chaque paire décrit la façon dont vous percevez la publicité pour /MARQUE/. » Bonne |_|_|_|_|_|_|_| Mauvaise Déplaisante |_|_|_|_|_|_|_| Plaisante Défavorable |_|_|_|_|_|_|_| Favorable AMarq « Trois paires d’adjectifs vous sont présentées ci-dessous. Indiquez à quel point l’un ou l’autre des deux adjectifs de chaque paire décrit votre sentiment général sur /MARQUE/ CATÉGORIE DE PRODUIT/. » Mauvais |_|_|_|_|_|_|_| Bon Plaisant |_|_|_|_|_|_|_| Déplaisant Aime pas |_|_|_|_|_|_|_| Aime Notes : Nous avons utilisé des échelles inversées pour la mesure mono-item de APAd (ex : 5 = réponse « positive »). Nous avons codé les items multiples de 1 à 7 pour les mesures sémantiques différentielles de APub et AMarq (7 = réponse « positive »). Pour les mesures mono-item de APub et AMarq , une des trois paires d’adjectifs a été sélectionnée (voir la section « Mesures » dans le texte). ANALYSE Approche générale L’objectif général de l’analyse est de comparer les validités prédictives des mesures multi-items et des mesures mono-item de APub et AMarq. La validité prédictive est estimée par deux méthodes. Une méthode compare la corrélation simple bivariée r, entre la variable prédictive (APub) et la variable dépendante (AMarq) ; r est la statistique habituelle pour désigner le « coefficient de validité » dans les tests psychométriques pour remplacer, si le critère est mesuré plus tard, la validité prédictive (voir Cronbach, 1961). L’autre méthode est la régression multivariée, qui compare les R 2 . La régression multivariée doit aussi être étudiée. Fishbein et Middlestadt (1995), parmi d’autres, prétendent que le coefficient de validité (corrélation) entre la variable prédictive et la variable dépendante sera artificiellement augmenté si le modèle causal de la variable dépendante est sous-spécifié, car la variable prédictive unique pourrait inclure les effets d’autres variables causales. Les causes les plus probables pouvant influer sur AMarq sont censées être APub et CROYMarq indépendamment (voir Figure 1), mais si le véritable modèle causal inclut un chemin causal indirect APub −→ CROYMarq −→ AMarq, le coefficient de régression de AMarq dans le modèle réduit APub −→ AMarq sera artificiellement augmenté car il contient en le cachant une part de l’effet de CROYMarq (la part médiatrice) sur AMarq. Cela signifie que si l’effet de CROYMarq est mesuré et partiellement isolé, l’effet de APub sera plus faible. En ce qui concerne nos analyses, le modèle théorique exact sous-jacent est sans consé- 05•Bergkvist-Rossiter 13/03/08 11:07 Page 91 Comparaison des validités prédictives des mesures d’un même construit des échelles mono-item et des échelles multi-items 91 APub AMarq CROY Marq Figure 1. – Modèle causal présumé pour AMarq quences tant que CROYMarq est inclus en tant que variable prédictive, car la solution statistique à ce problème de variables médiatrices est d’inclure les variables médiatrices et les variables indépendantes dans le modèle de régression (Baron et Kenny, 1986). Nous avons procédé aux analyses de corrélation et aux régressions séparément pour les quatre publicités de l’étude, car les résultats agrégés auraient été difficiles à interpréter et auraient masqué les différences entre les publicités (ou produits). Nous avons étudié la multicolinéarité dans tous les modèles de régression. Aucun des modèles n’avait d’index de conditionnement plus grand que 15 combiné avec deux ou plus proportions de variance supérieures à 0,90 (Hair et alii, 1998), ce qui indique que la multicolinéarité n’était un problème dans aucun des modèles. Dans cette analyse, nous avons testé les significativités des différences des r et des R 2 en utilisant les tests z , suivant ainsi la transformation des corrélations de Fisher (Cohen et Cohen, 1975 ; Howell, 1992). Mesures mono-item versus multi-items de APub comme variable prédictive de la variable mono-item AMarq La première analyse compare la mesure multiitems de l’attitude envers la publicité APub3. Les deux mesures mono-item, la mesure « réduite » APub1(G), et la mesure liée APPub1, sont des variables prédic- tives alternatives de la mesure mono-item de la variable dépendante AMarq1(L). Le Tableau 3 affiche les coefficients de validité bivariés, r, et les statistiques multi-variées de validité qui représentent la part de la variance expliquée, R 2 , avec CROYMarq dans les équations de régression. Sur la base des coefficients de validité bivariés, r, nous pouvons rejeter H1. Les mesures mono-item de l’attitude envers la publicité, APub1(G) et ATPub1, étaient toutes les deux équivalentes dans leur prédiction de l’attitude envers la marque, AMarq1(L), et étaient aussi bonnes que la variable prédictive multiitems, APub3 (pour chaque publicité, aucun r n’était significativement différent des autres, p > 0,10 ). Les coefficients de validité multivariés, R 2 , qui apparaissent également dans le Tableau 3, révèlent des profils de résultats identiques, rejetant ainsi H1. Confirmant nos doutes sur les causes omises, la validité prédictive estimée de APub, telle qu’elle était estimée par le coefficient standardisé de régression, était artificiellement augmentée pour trois des quatre produits, à l’exception des plans retraite, quand nous avons omis la variable CROYMarq dans le modèle de régression (ces analyses sont disponibles sur demande). Ainsi, le Tableau 3 fournit les R 2 avec cette variable incluse. La conclusion importante est que le rôle causal de APub n’est pas affecté par le fait qu’il soit mesuré par des mesures mono-item ou des mesures multi-items. 05•Bergkvist-Rossiter 13/03/08 11:07 Page 92 Lars Bergkvist, John R. Rossiter 92 Tableau 3. – Coefficients de validité (r) et proportion de variance expliquée dans la régression multiplea (R 2 ) pour les mesures mono-item et multi-items de APub comme prédicteurs de Amarq1(L) mono-item Produit promu Prédicteurs of AMarq(L) Anti-douleur Café Plan Retraite Jeans r R2 r R2 r R2 r R2 APub3 .75 .58 .77 .72 .68 .48 .68 .58 APb1(G) .72 .55 .75 .69 .66 .47 .67 .56 APPub1 .74 .58 .73 .67 .60 .40 .68 .62 Tailles des échantillons (n) a 80 55 59 86 Les équations de régression incluent CROYMarq. Notes : Tous les r sont significatifs à p < .01 . Tous les modèles de régression sont significatifs à p < .01 . Tableau 4. – Coefficients de validité (r) et proportion de variance expliquée dans la régression multiplea (R 2 ) pour les mesures mono-item et multi-items de APub comme prédicteurs de Amarq3 multi-items Produit promu Prédicteurs of AMarq3 Anti-douleur R .69 .75 78 .68 .77 .67 R APub3 .80 APb1(G) APPub1 a Plan Retraite r r Tailles des échantillons (n) Café 2 2 r R2 .52 .65 .61 .72 .53 .66 .61 .68 .49 .62 .62 r R .80 .72 .74 .77 .70 .76 80 55 Jeans 2 59 86 Les équations de régression incluent CROYMarq. Notes : Tous les r sont significatifs à p < .01 . Tous les modèles de régression sont significatifs à p < .01 . Mesures mono-item versus multi-items de Apub comme variable prédictive de la variable multiitems AMarq Nous avons répété l’analyse précédente en utilisant la mesure multi-items de l’attitude envers la marque, AMarq3, comme variable dépendante (Tableau 4). Pour les résultats concernant les r, la mesure multi-items de l’attitude envers la publicité, APub3, n’était pas significativement une meilleure variable prédictive que les mesures mono-item APub1(G) et APPub1, et les deux mesures mono-item n’étaient pas significativement différentes entre elles (pour toutes les publicités, p > 0,10 ). Ces résultats étaient des répliques exactes de ceux concernant la mesure mono-item de la variable dépendante, APub1(L). Les résultats concernant les R 2 étaient similaires à ceux concernant les r, montrant ainsi que le rôle causal de APub n’est pas affecté selon qu’il est mesuré par une mesure mono-item ou par une mesure multi-items. Parce que les coefficients de validité, r, amenaient dans tous les cas à la même conclusion que les parts de variance expliquée, R 2 , nous nous sommes focalisés seulement sur les r pour tester les cinq hypothèses suivantes. 05•Bergkvist-Rossiter 13/03/08 11:07 Page 93 93 Comparaison des validités prédictives des mesures d’un même construit des échelles mono-item et des échelles multi-items Pouvoir discriminatoire des mesures mono-item et des mesures multi-items Les biais de similarité des méthodes Les comparaisons des corrélations appropriées allaient à l’encontre de toutes les hypothèses concernant les corrélations artificiellement augmentées dues aux biais de similarité des méthodes. Dans les résultats suivants, aucune comparaison n’était significative (p > 0,10). Le résultat montrant que la corrélation multi-items r3.3 (Tableau 4) entre APub et AMarq Les comparaisons des corrélations du Tableau 4 avec celles du Tableau 3 réfutent la position de Churchill (1979) qui affirme que les mesures multiitems sont plus valides car elles capturent une plus grande discrimination dans les réponses du fait du plus grand nombre de catégories de réponse disponibles. Cela ne tenait pour aucun des construits de la présente étude, que ce soit l’attitude envers la publicité (APub) ou l’attitude envers la marque (AMarq). Si l’hypothèse était vraie et que les consommateurs n’étaient vraiment capables de mieux discriminer les gradations de leurs attitudes qu’avec des échelles mono-item en sept points, la mesure prédictive multiitems, APub3, devrait avoir une corrélation plus élevée avec la mesure dépendante multi-items AMarq3. Même la comparaison la plus extrême, r3.3 du Tableau 4 versus r1.1 du Tableau 3, a révélé que ce n’était pas le cas. Les corrélations étaient de 0,80 contre 0,74 pour la publicité sur les anti-douleur, de 0,75 contre 0,73 pour la publicité sur le café, de 0,72 contre 0,60 pour la publicité sur les plans retraite et de 0,65 contre 0,68 pour la publicité sur les jeans. Bien que les corrélations mono-item soient plus faibles pour les deux produits « informationnels », les antidouleur et les plans retraite, les corrélations multiitems n’étaient pas significativement plus élevées (p > 0,10 ). Ainsi, les hypothèses H2 et H3 étaient rejetées. n’était pas plus grande que la corrélation mono-item r1.1 (Tableau 3) rejette le fait que la répétition d’échelles sémantiques différentielles de ces deux mesures, avec au moins deux répétitions (c’est-à-dire trois items), amène à une prédiction artificiellement augmentée (H4). Ce résultat élimine un problème potentiel des mesures multi-items, au moins pour celles de moins de trois items. En ce qui concerne les mesures mono-item, comme le montre le Tableau 5, l’utilisation du même format sémantique différentiel pour la variable prédictive (APub1(G)) et la variable dépendante n’augmente pas artificiellement les prédictions, en comparaison avec des utilisations de formats différents (ATPub1), mesuré avec des échelles de réponses « labellisées ». Ainsi, les résultats réfutent H5. Enfin, encore pour les mesures mono-item, l’utilisation du même adjectif descriptif pour la variable prédictive et la variable dépendante (APub1(G) et AMarq1(G) dans le Tableau 5) n’augmente pas artificiellement la prédiction, en comparaison avec l’utilisation d’adjectifs Tableau 5. – Coefficients de validité (r) et proportion de variance expliquée dans la régression multiplea (R 2 ) pour les mesures mono-item et multi-items de APub comme prédicteurs de Amarq1(G) mono-item Produit promu Prédicteurs of AMarq1(G) Anti-douleur Café Plan Retraite Jeans r R2 r R2 r R2 r R2 APub3 .70 .62 .70 .76 .63 .40 .53 .46 APb1(G) .71 .64 .70 .75 .65 .42 .57 .49 APPub1 .68 .62 .65 .73 .56 .32 .55 .51 Tailles des échantillons (n) a 80 55 59 Les équations de régression incluent CROYMarq. Notes : Tous les r sont significatifs à p < .01 . Tous les modèles de régression sont significatifs à p < .01 . 86 05•Bergkvist-Rossiter 94 13/03/08 11:07 Page 94 Lars Bergkvist, John R. Rossiter différents (APub1(G) et AMarq1(L) dans le Tableau 3). Ces résultats réfutent H6. DISCUSSION Deux des construits les plus largement employés en publicité et en recherche sur le comportement du consommateur sont l’attitude envers la publicité (APub) et l’attitude envers la marque (AMarq). Ces deux construits sont doublement concrets (Rossiter, 2002) et ainsi devraient être mesurés de façon valide par un item unique, même si la pratique dominante dans la recherche est de les mesurer avec de multiples items. Dans la présente étude, pour ces deux construits, la mesure mono-item a atteint une validité prédictive équivalente à la mesure multi-items. Nous avons obtenu ce résultat pour quatre catégories de produits différentes et avec deux méthodes différentes d’évaluation de la validité prédictive, le coefficient de validité bivarié, r, et la statistique multivariée, R 2 , quand les construits étaient inclus dans un modèle causal. Ces résultats ne valident pas l’argument psychométrique classique (voir Churchill, 1979 ; Nunnally et Bernstein, 1994) selon lequel les mesures multi-items sont plus valides que les mesures mono-item pour tous les types de construits. En particulier, quand des mesures multi-items sont utilisées pour mesurer des construits doublement concrets, il ne semble pas qu’elles parviennent à mieux les discriminer en capturant plus d’information, ce qui est généralement la justification de leur utilisation. Nous n’avons trouvé aucune preuve de l’existence des biais de similarité des méthodes avec les mesures multi-items ou avec les mesures mono-item de la variable indépendante ou de la variable dépendante, qui utilisent le même format (dans le cas présent, les échelles sémantiques différentielles) ou le même attribut descriptif (dans le cas présent, « bon/mauvais » pour APub et AMarq). Cependant, les mesures multi-items de cette étude étaient constituées de seulement trois items ; cela ne veut pas dire que les biais de similarité des méthodes n’auraient pas augmenté artificiellement les prédictions quand la variable prédictive, la variable dépendante, ou les deux avaient été mesurées avec un plus grand nombre d’items. Bien qu’il n’y ait pas eu de preuve de cela dans la présente étude n’utilisant que trois items, la multiplicité des items peut produire un effet d’entraînement générant une inflation artificielle de la prédiction (Feldman et Lynch, 1988). Avec plus que trois items, l’accroissement artificiel de la validité prédictive peut avoir lieu. Une importante limite de nos résultats réside dans le fait que les deux construits utilisés dans notre étude n’ont ni leur objet ni leur attribut constitué de plusieurs composantes, mais ont plutôt un objet concret singulier (la publicité ou la marque) et un attribut concret (l’attitude). La recommandation de la mesure mono-item de APub et AMarq ne peut être généralisée à des construits qui ne seraient pas doublement concrets. La théorie de Rossiter (2002) explique que des items multiples sont nécessaires pour mesurer la validité de construits abstraits. Un construit est « abstrait » si (1) l’objet du construit est composé de deux composants ou plus (par exemple le matérialisme, qui est composé de trois composantes, à savoir l’utilisation des possessions pour juger du succès d’une personne, la centralité des possessions dans la vie d’une personne et la croyance que les possessions entraînent le bonheur ; voir Richins, 2004), ou est composé d’un ensemble de sous-objets (par exemple, pour la satisfaction au travail, les différents aspects du travail sont le superviseur, les collègues, les responsabilités, la technologie utilisée et les règlements ; voir Gardner et alii, 1998 ; Locke, 1969) ou si (2) l’attribut du construit est formé de deux composantes ou plus (par exemple la qualité de service avec ses composantes de fiabilité, réactivité, empathie, etc. ; voir Parasuraman, Zeithaml et Berry, 1994) et se reflète dans une série d’activités mentales ou physiques (par exemple le trait de personnalité extraversion qui se reflète dans la prise de risque, le caractère grégaire et les activités énergiques ; voir Eysenck, 1967). Les mesures mono-item de ces deux cas d’objets abstraits et de ces deux cas d’attributs abstraits sont certainement moins valides car la signification de l’objet dans les questions mono-item (par exemple « Quelle importante a pour vous le matérialisme ? » « Êtes-vous satisfait de votre travail ? »), ou encore la significa- 05•Bergkvist-Rossiter 13/03/08 11:07 Page 95 Comparaison des validités prédictives des mesures d’un même construit des échelles mono-item et des échelles multi-items tion de l’attribut dans les questions mono-item (« Comment jugez-vous le service chez McDonald’s ? » ou « Êtes-vous extraverti ? ») diffèrent beaucoup selon les répondants. Au contraire, les construits abstraits doivent être divisés en composantes concrètes, chacune pouvant être mesurée par un item unique ; il en est de même pour les attributs abstraits. C’est pourquoi nous n’affirmons pas que des mesures mono-item puissent être utilisées de façon fiable pour mesurer n’importe quel construit. La présente étude peut être considérée comme une extension de la procédure de développement d’échelle de Churchill (1979). Churchill a introduit une approche systématique de développement d’échelle qui a contribué à bâtir les fondements de la méthodologie de recherche en marketing. Il a insisté sur l’importance des considérations théoriques (spécification de domaine) comme étant la première étape de sa procédure. Notre extension concernant les mesures mono-item est essentiellement basée sur, ou limitée par la théorie. Malheureusement, l’insistance de Churchill a reçu beaucoup moins d’attention que ses recommandations sur l’utilisation de mesures multi-items dans la recherche en marketing. Si les chercheurs en marketing avaient fait plus attention à la théorie des construits marketing, ils auraient probablement été moins pointilleux sur l’utilisation de mesures multi-items. Publicités et marques sont probablement deux des objets les plus utilisés dans les études marketing, que ce soit par les praticiens ou par les chercheurs, et il n’y a aucune raison pour que nos résultats ne soient pas généralisables aux autres objets des études marketing, tels que les entreprises, les distributeurs, les vendeurs, les prix et les promotions des ventes, à partir du moment où ces objets sont concrets et singuliers. De même, l’attitude est l’attribut le plus mesuré en marketing, et nos résultats devraient se généraliser aux autres attributs concrets, tels que les croyances ou les perceptions, les intentions et la satisfaction. Les tests théoriques et les résultats empiriques devraient être inchangés si les bonnes mesures mono-item se substituaient aux habituelles mesures multi-items dans la mesure de ces construits. C’est pourquoi les revues de marketing devraient accepter les articles utilisant des mesures mono-item pour les construits doublement concrets. 95 RÉFÉRENCES BIBLIOGRAPHIQUES Aaker D.A., Kumar V., Day G.S. et Lawley M. (2005), Marketing research: a Pacific Rim edition, Milton, Australie, John Wiley & Sons. Allen C.T. (2004), A theory-based approach for improving demand artifact assessment in advertising experiments, Journal of Advertising, 33 (été), 63-73. Anderson J.C. et Gerbing D.W. (1988), Structural equation modeling in practice: a review and recommended two-step approach, Psychological Bulletin, 103 (mai), 411-423. Baron R.M. et Kenny D.A. (1986), The moderator-mediator variable distinction in social psychological research: conceptual, strategic, and statistical considerations, Journal of Personality and Social Psychology, 51 (décembre), 1173-1182. Baumgartner H. et Homburg C. (1996), Applications of structural equation modeling in marketing and consumer research: a review, International Journal of Research in Marketing, 13 (avril), 139-161. Borsboom D., Mellenbergh G.J. et van Heerden J. (2004), The concept of validity, Psychological Review, 111 (octobre), 1061-1071. Churchill G.A. (1979), A paradigm for developing better measures of marketing constructs, Journal of Marketing Research, 16 (février), 64-73. Cohen J. et Cohen P. (1975), Applied multiple regression/correlation analysis for the behavioral sciences, Hillsdale, NJ, Lawrence Erlbaum Associates. Cortina J.M. (1993), What is coefficient alpha? An examination of theory and applications, Journal of Applied Psychology, 78 (février), 98-104. Cronbach L.J. (1961), Essentials of psychological testing, 2e éd., New York, Harper & Row. DeVellis R.F. (1991), Scale development, Newbury Park, CA, Sage Publications. Drolet A.L. et Morrison D.G. (2001), Do we really need multiple-item measures in service research?, Journal of Service Research, 3 (février), 196-204. Eysenck H.J. (1967), The biological basis of personality, Springfield, IL, Thomas. Feldman J.M. et Lynch J.G. (1988), Self-generated validity and other effects of measurement on belief, attitude, intention, and behavior, Journal of Applied Psychology, 73 (août), 421-435. Fishbein M. et Middlestadt S.E. (1995), Noncognitive effects on attitude formation and change: fact or artifact?, Journal of Consumer Psychology, 4, 2, 181-202. Gardner D.G., Cummings L.L., Dunham R.B. et Pierce J.L. (1998), Single-item versus multiple-item measurement scales: an empirical comparison, Educational and Psychological Measurement, 58 (décembre), 898-915. Gardner M.P. (1985), Does attitude toward the ad affect brand attitude under a brand evaluation set?, Journal of Marketing Research, 22 (mai), 192-198. 05•Bergkvist-Rossiter 96 13/03/08 11:07 Page 96 Lars Bergkvist, John R. Rossiter Gorsuch R.L. et McFarland S.G. (1972), Single versus multiple-item scales for measuring religious values, Journal for the Scientific Study of Religion, 11, 1, 53-64. Guilford J.P. (1954), Psychometric methods, New York, McGraw-Hill. Hair J.F., Anderson R.E., Tatham R.L. et Black W.C. (1998), Multivariate data analysis, 5e éd., Upper Saddle River, NJ, Prentice Hall. Haley R.I. et Baldinger A.L. (1991), The ARF copy research validity project, Journal of Advertising Research, 31 (avril-mai), 11-32. Howell D.C. (1992), Statistical methods for psychology, 3e éd., Belmont, CA, Duxbury Press. Locke E.A. (1969), What is job satisfaction?, Organizational Behavior and Human Performance, 4 (novembre), 309-336. MacKenzie S.B. et Lutz R.J. (1989), An empirical examination of the structural antecedents of attitude toward the ad in an advertising pretesting context, Journal of Marketing, 53 (avril), 48-65. Morrison D.G. et Schmittlein D.C. (1991), How many forecasters do you really have? Mahalanobis provides the intuition for the surprising clemen and winkler result, Operations Research, 39 (mai-juin), 519-523. Nunnally J.C. (1978), Psychometric theory, 2e éd., New York: McGraw-Hill. Nunnally J.C. et Bernstein I.H. (1994), Psychometric theory, 3e éd., New York, McGraw-Hill. Parasuraman A., Zeithaml V. et Berry L.L. (1994), Alternative scales for measuring service quality: a comparative assessment based on psychometric and diagnostic criteria, Journal of Retailing, 70 (automne), 201-230. Peter P.J. (1979), Reliability: a review of psychometric basics and recent marketing practices, Journal of Marketing Research, 16 (février), 6-17. Revelle W. (1979), Hierarchical clustering and the internal structure of tests, Multivariate Behavioral Research, 14, 1, 57-74. Richins M.L. (2004), The material values scale: measurement properties and development of a short form, Journal of Consumer Research, 31 (juin), 209-219. Rossiter J.R. (2002), The C-OAR-SE procedure for scale development in marketing, International Journal of Research in Marketing, 19 (décembre), 305-335. Rossiter J.R. et Percy L. (1997), Advertising communications & promotion management, 2e éd., New York: McGraw-Hill. Stuart E.W., Shimp T.A. et Engle R.W. (1987), Classical conditioning of consumer attitudes: four experiments in an advertising context, Journal of Consumer Research, 14 (décembre), 334-349. Viswanathan M., Sudman S. et Johnson M. (2004), Maximum versus meaningful discrimination in scale response: implications for validity of measurement of consumer perceptions about products, Journal of Business Research, 57 (février), 108-125. Walker D. et Dubitsky T.M. (1994), Why liking matters, Journal of Advertising Research, 34 (mai-juin), 9-18. Williams L.J., Cote J.A. et Buckley M.R. (1989), Lack of method variance in self-reported affect and perceptions at work: reality or artifact?, Journal of Applied Psychology, 74 (juin), 462-468. Wittgenstein L. (1961), Entry ca. September 29, 1912, in G.E.M. Anscombe et G.H. von Wright (coord.), Notebooks 1914-1916, Londres, Basil Blackwell, 7-8. Zaichkowsky J.L. (1985), Measuring the involvement construct, Journal of Consumer Research, 12 (décembre), 341-352. Reproduced with permission of the copyright owner. Further reproduction prohibited without permission.