La lecture de la procédure VOSPEC

publicité
II. Tableaux des formes caractéristiques des modalités d’une variable
Il est produit autant de tableaux qu’il y a de modalités dans la variable. Le nombre de formes
classées a été défini dans le paramétrage de la méthode VOSPEC. Elles sont classées par
ordre, de la forme la plus sur employée à la plus sous employée par les individus de la
catégorie.
Pour chaque forme, on lit :
- le nombre d’occurrences de la forme pour la modalité (3e colonne), appelée ici fréquence
interne.
- le nombre d’occurrences de la forme dans le corpus (4e colonne), appelée fréquence globale.
- le pourcentage interne ou pourcentage d’emploi de la forme par les individus de la catégorie
(1e colonne) :
Exemple pour le mot peur employé par les hommes :
Nombre d’occurrences de la forme pour la modalité (col.3)
16
= 1,23
Nombre de formes utilisées pour la modalité (colonne 6 du tableau 2)
1306
- le pourcentage global ou pourcentage d’emploi dans le corpus (2e colonne) :
Nombre d’occurrences de la forme dans le corpus
42
= 0,70
Nombre total de formes retenues
6016
Ces deux pourcentages sont-ils significativement différents ? Autrement dit, les membres de
la catégorie considérée ont-ils un emploi de ce mot significativement différent de l’ensemble
des répondants ? Est-ce qu’ils l’emploient significativement plus ou significativement moins
que l’ensemble des répondants ?
On fait un test pour répondre à cette question. Les résultats du test sont donnés dans les deux
dernières colonnes.
- la valeur test donne, en nombre d’écart-type, l’écart à la valeur globale (5e colonne).
- la probabilité d’observer par hasard le résultat donné (6e colonne).
On se donne, classiquement en sciences sociales, un seuil de risque de 5 %1 ; on répartit ce
risque en deux puisque la différence d’emploi peut aller dans les deux sens. Les mots ayant
une probabilité inférieure ou égale à 2 ,5 % (ou 25 ‰) sont significativement associés à la
catégorie, soit positivement – ils sont alors sur représentés dans la catégorie - soit
négativement - ils sont alors sous-utilisés dans la catégorie.
La valeur test correspondant à ce risque de 5 % est de 1,96 écart-type. Si la valeur lue est
supérieure, c’est donc que la probabilité de l’observer par hasard est très faible, inférieure à
2,5 % : on arrive par une autre voie à la même conclusion : il y a un lien significatif.
(d’association ou d’exclusion). C’est le cas du mot peur (valeur-test = 2,276, probabilité =
0,011).
Comment utiliser ces tableaux ?
On peut marquer au stabilo tous les mots qui ont une valeur-test égale ou supérieure à 1,96,
en positif et en négatif. On note les convergences de sens ou les oppositions dans la modalité
et entre les modalités. On peut aussi s’aider de mots qui n’atteignent pas la valeur critique de
1.96 mais pourraient indiquer des tendances.
C’est le risque de rejeter une hypothèse alors qu’elle est vraie. La probabilité de ce risque est égale à la somme
des probabilités de tous les événements qui se trouvent dans la zone de rejet.
1
bfichet/2012
Téléchargement