2 Le coefficient Kappa
Le coefficient Kappa est le pourcentage de l’ accord maximum, entre un jugement réel et un
jugement observé, corrigé de ce qu’ il serait sous le simple effet du hasard. Dans le cas d’ une étude
entre deux observateurs qui émettent chacun un jugement possédant plus de 2 modalités de
jugement, le coefficient Kappa se calcule de la manière suivante :
S
SS
−
−
=Κ 1avec
, la proportion d’accord observé et
, la concordance attendue sous
l’hypothèse d’ indépendance des jugements.
Landis and Koch, (1977), ont proposé un classement de l’accord en fonction de la valeur du
coefficient Kappa. Il est ainsi possible de qualifier l’ accord entre les deux jugements considérés en
fonction de la valeur du coefficient Kappa, (voir tableau 1).
9DOHXUGH
$FFRUGHQWUHOHVMXJHPHQWV
175,0
Excellent
41,0
Bon
41,0
Faible
0
Jugements indépendants
01
Désaccord > accord
Désaccord total
7DEOHDX Valeurs seuil pour le coefficient Kappa.
3 Le coefficient Kappa supervisé
Le premier coefficient,
, que nous proposons, permet la comparaison entre les classes de la
variable endogène et le resultat d’un apprentissage supervisé. Il permet de repondre a la question
suivante : les variables exogènes permettent elles de discriminer au mieux la variable endogène,
sans processus de construction ? Pour le calcul du coefficient Kappa supervisé, l’ observateur 1 est
représenté par les valeurs de la variable endogène (i.e. ses classes) pour l’ensemble des individus et
l’observateur 2 est représenté par les valeurs assignées aux individus par l’algorithme
d’apprentissage supervisé choisi. L’utilisateur peut choisir l’ algorithme d’ apprentissage qu’ il désire.
Dans nos expérimentations, nous avons utilisé ID3 de Quinlan (1979).
4 Le coefficient Kappa non supervisé
Le deuxième coefficient,
, que nous proposons, permet la comparaison entre le résultat d’un
apprentissage non supervisé appliqué sur nos données privées de leur variable endogène et la
classification induite par la variable endogène. Il permet de repondre a la question suivante : les
données contiennent-elles en elles-mêmes l’ information nécessaire et suffisante pour retrouver le
concept inféré par la variable endogène? Pour le calcul du coefficient Kappa non supervisé,
l’observateur 1 est représenté par les valeurs de la variable endogène (i.e. ses classes) pour
l’ensemble des individus et l’ observateur 2 est représenté par les valeurs assignées aux individus par
l’algorithme d’ apprentissage non supervisé choisi.
L’algorithme d’ apprentissage non supervisé doit nous permettre d’obtenir un classement des
individus en
groupes,
étant égal au nombre de classes de la variable endogène. Nous avons
choisi d’utiliser une méthode « partitionnelle » : si nous travaillons sur des variables qualitatives,
nous utiliserons la méthode des K-Means de MacQueen, (1967), et, si nous travaillons avec des
variables quantitatives, nous utiliserons la méthode des K-Modes de Huang, (1977). Bien sûr, nous
aurions pu utiliser d’ autres méthodes de classification non supervisée. Ces méthodes ont été
retenues parce qu’ elles sont connues et nous donnent la possibilité de choisir le nombre de classes