
2  Le coefficient Kappa 
Le  coefficient  Kappa  est  le  pourcentage  de  l’ accord  maximum,  entre  un  jugement  réel  et  un 
jugement observé, corrigé de ce qu’ il serait sous le simple effet du hasard. Dans le cas d’ une étude 
entre  deux  observateurs  qui  émettent  chacun  un  jugement  possédant  plus  de  2  modalités  de 
jugement, le coefficient Kappa se calcule de la manière suivante : 
S
SS
−
−
=Κ 1avec 
,  la  proportion  d’accord  observé  et 
,  la  concordance  attendue  sous 
l’hypothèse d’ indépendance des jugements. 
Landis  and  Koch,  (1977),  ont  proposé  un  classement  de  l’accord  en  fonction  de  la  valeur  du 
coefficient Kappa. Il est ainsi possible de qualifier l’ accord entre les deux jugements considérés en 
fonction de la valeur du coefficient Kappa, (voir tableau 1). 
 
9DOHXUGH
$FFRUGHQWUHOHVMXJHPHQWV 
 175,0
 Excellent 
 41,0
 Bon 
41,0
 Faible 
 0
 Jugements indépendants 
 01
 Désaccord > accord 
 
 Désaccord total 
7DEOHDX Valeurs seuil pour le coefficient Kappa. 
3  Le coefficient Kappa supervisé  
Le  premier  coefficient, 
,  que  nous  proposons,  permet  la  comparaison  entre  les  classes  de  la 
variable endogène et le resultat d’un apprentissage supervisé. Il permet de repondre a la question 
suivante :  les  variables  exogènes  permettent  elles de  discriminer  au  mieux  la variable  endogène, 
sans processus de construction ? Pour le calcul du coefficient Kappa supervisé, l’ observateur 1 est 
représenté par les valeurs de la variable endogène (i.e. ses classes) pour l’ensemble des individus et 
l’observateur  2  est  représenté  par  les  valeurs  assignées  aux  individus  par  l’algorithme 
d’apprentissage supervisé choisi. L’utilisateur peut choisir l’ algorithme d’ apprentissage qu’ il désire. 
Dans nos expérimentations, nous avons utilisé ID3 de Quinlan (1979). 
4  Le coefficient Kappa non supervisé 
Le deuxième coefficient, 
, que nous proposons,  permet la comparaison entre le résultat d’un 
apprentissage  non  supervisé  appliqué  sur  nos  données  privées  de  leur  variable  endogène  et  la 
classification induite  par  la variable endogène. Il permet de repondre a la  question  suivante : les 
données contiennent-elles en elles-mêmes  l’ information nécessaire et suffisante pour retrouver le 
concept  inféré  par  la  variable  endogène?  Pour  le  calcul  du  coefficient  Kappa  non  supervisé, 
l’observateur  1  est  représenté  par  les  valeurs  de  la  variable  endogène  (i.e.  ses  classes)  pour 
l’ensemble des individus et l’ observateur 2 est représenté par les valeurs assignées aux individus par 
l’algorithme d’ apprentissage non supervisé choisi. 
L’algorithme  d’ apprentissage  non  supervisé  doit  nous  permettre  d’obtenir  un  classement  des 
individus en 
groupes, 
 étant égal au nombre de classes de la variable endogène. Nous avons 
choisi d’utiliser une méthode « partitionnelle » : si nous travaillons sur des variables qualitatives, 
nous utiliserons la méthode  des  K-Means de MacQueen, (1967), et, si  nous  travaillons avec des 
variables quantitatives, nous utiliserons la méthode des K-Modes de Huang, (1977). Bien sûr, nous 
aurions  pu  utiliser  d’ autres  méthodes  de  classification  non  supervisée.  Ces  méthodes  ont  été 
retenues parce qu’ elles sont connues et nous donnent la possibilité de choisir le nombre de classes