Classification d`un tableau de contingence et mod`ele

Téléchargement

Classiﬁcation d’un tableau de contingence et mod`ele

probabiliste

G´erard Govaert∗, Mohamed Nadif∗∗

∗Heudiasyc, UMR CNRS 6599, Universit´e de Technologie de Compi`egne,

BP 20529, 60205 Compi`egne Cedex, France

gerard.gov[email protected]

∗∗IUT de Metz, LITA, Universit´edeMetz,

Ile du Saulcy, 57045 Metz Cedex, France

[email protected]

R´esum´e. Les mod`eles de m´elange, qui supposent que l’´echantillon est

form´e de sous-populations caract´eris´ees par une distribution de probabi-

lit´e, constitue un support th´eorique int´eressant pour ´etudier la classiﬁca-

tion automatique. On peut ainsi montrer que l’algorithme des k-means

peut ˆetre vu comme une version classiﬁante de l’algorithme d’estimation

EM dans un cas particuli`erement simple de m´elange de lois normales.

Lorsque l’on cherche `a classiﬁer les lignes (ou les colonnes) d’un tableau

de contingence, il est possible d’utiliser une variante de l’algorithme des

k-means,appel´e Mndki2, en s’appuyant sur la notion de proﬁl et sur la

distance du khi-2. On obtient ainsi une m´ethode simple et eﬃcace pou-

vant s’utiliser conjointement `a l’analyse factorielle des correspondances

qui s’appuie sur la mˆeme repr´esentation des donn´ees.

Malheureusement et contrairement `a l’algorithme des k-means classique,

les liens qui existent entre les mod`eles de m´elange et la classiﬁcation ne

s’appliquent pas directement `a cette situation. Dans ce travail, nous mon-

trons que l’algorithme Mndki2 peut ˆetre associ´e, `a une approximation

pr`es, `aunmod`ele de m´elange de lois multinomiales.

1 Introduction

Les mod`eles de m´elange, qui supposent que l’´echantillon est form´e de sous-popu-

lations caract´eris´ees par une distribution de probabilit´e, sont des mod`eles tr`es souples

permettant de prendre en compte des situations vari´ees comme la pr´esence de popu-

lations h´et´erog`enes ou d’´el´ements atypiques. Grˆace `a l’algorithme d’estimation EM,

particuli`erement adapt´e`a cette situation, les mod`eles de m´elange ont fait l’objet de

nombreux d´eveloppements en statistique et en particulier en classiﬁcation automatique.

On peut ainsi montrer que l’algorithme des k-means peut ˆetre vu comme une version

classiﬁante de l’algorithme EM, appel´e CEM, dans un cas particuli`erement simple de

m´elange de lois normales. Dans ce travail, on ´etudie comment ces propri´et´es peuvent

ˆetre ´etendues aux tableaux de contingence.

Rappelons qu’un tableau de contingence est obtenu `a partir du croisement de 2

variables qualitatives; par exemple, si on note Iet Jles ensembles de ret smodalit´es

de chaque variable, chaque ´el´ement xij de la matrice de donn´ees contiendra le nombre

RNTI-E-3213

Classiﬁcation d’un tableau de contingence et mod`ele probabiliste

d’´el´ements prenant respectivement les modalit´es iet jpour chacune des 2 variables

qualitatives. Les tableaux de contingence sont quelquefois directement obtenus `apartir

de la saisie des donn´ees ; on retrouve, par exemple, ce type de tableaux en analyse de

donn´ees textuelles o`u la matrice de donn´ees comptabilise le nombre d’occurrences d’un

ensemble de mots et d’un ensemble de documents. On parle alors quelquefois de tableau

d’occurrences. En outre, la plupart des m´ethodes d’analyse de tels tableaux s’appliquent

g´en´eralement aussi `a des tableaux poss´edant des propri´et´es ´equivalentes (Benz´ecri 1973)

comme les tableaux de variables quantitatives avec des variables homog`enes et positives

(quantit´es de mˆeme nature comme des longueurs ou des poids) ou mˆeme les tableaux

binaires.

La section 2 sera consacr´ee `a l’algorithme Mndki2, algorithme permettant de clas-

siﬁer les lignes, ou les colonnes, d’un tableau de contingence. Dans la section 3, nous

d´eﬁnirons un mod`ele de m´elange de lois de probabilit´e adapt´e`a un tel type de don-

n´ees et la section 4 sera consacr´ee `a l’application de l’algorithme d’estimation EM `a

ce mod`ele. La version classiﬁante de cet algorithme EM, baptis´ee Cemki2, sera ´etu-

di´ee dans la section 6. On montrera en particulier qu’on obtient ainsi un algorithme

maximisant un crit`ere approximant celui utilis´e par Mndki2 et fournissant des r´esultats

quasi-identiques.

Notations Dans tout ce texte, on notera x=(xij ) le tableau de contingence construit

sur les deux ensembles Iet Jayant respectivement ret s´el´ements, n=i,j xij la

somme des ´el´ements du tableau et xi. =jxij et x.j =ixij ses marges. On utilisera

aussi le tableau des fr´equences relatives fij =xij /n,fi. =jfij et f.j =ifij ses

marges et les proﬁls en ligne fi

J=(fi1/fi.,...,f

ir /fi.). Une partition en gclasses de

l’ensemble Isera not´ee z=(z1,...,z

r), o`uzi∈{1,...,g}indique la classe de l’objet

i.zi=klui-mˆeme pourra aussi ˆetre repr´esent´e par le vecteur (zi1,...,z

ig )aveczik =1

si i∈zket zik = 0 sinon. Dans ce dernier cas, la classiﬁcation sera repr´esent´ee par une

matrice zde nvecteurs de Rgv´eriﬁant zik ∈{0,1}et kzik = 1. Ainsi, la classe k

correspond `a l’ensemble des objets itel que zi=kou encore zik =1etzi =0∀=k.

Par ailleurs, pour simpliﬁer la pr´esentation, les sommes et les produits portant sur les

lignes, les colonnes ou les classes seront indic´es respectivement par les lettres i,jet k

sans indiquer les bornes de variation qui seront donc implicites. Ainsi, la somme i

portera sur tous les lignes iallant de 1 `ar.

2 Algorithme Mndki2

2.1 L’objectif

Pour mesurer l’information apport´ee par un tableau de contingence, c’est-`a-dire les

liens existant entre deux ensembles Iet Jmis en correspondance dans le tableau de

donn´ees, il existe plusieurs mesures dont l’une des plus courantes est le χ2de contin-

gence. Ce crit`ere, utilis´e par exemple dans l’analyse factorielle des correspondances, est

RNTI - 1

RNTI-E-3 214

G´erard Govaert et Mohamed Nadif

d´eﬁni de la mani`ere suivante

χ2(I,J)=

i,j

(xij −xi.x.j

n)2

xi.x.j

=n

i,j

(fij −fi.f.j )2

fi.f.j

Cette quantit´erepr´esente l’´ecart entre les fr´equences th´eoriques fi.f.j que l’on aurait

s’il y avait ind´ependance entre les deux ensembles Iet Jet les fr´equences observ´ees

fij : une grande valeur correspondra `a une forte d´ependance alors qu’une valeur nulle

correspondra `a une ind´ependance entre Iet J.

Cette mesure d’information peut ´egalement ˆetre utilis´ee pour ´evaluer la qualit´e

d’une partition zde l’ensemble I: pour ceci, on associera `a cette partition zle χ2

du tableau de contingence `aglignes et rcolonnes obtenu `a partir du tableau initial

en faisant la somme des ´el´ements de chaque classe : xkj =i|zi=kxij ∀k, j et qui

sera not´eχ2(z,J). On ´etablira plus loin la relation χ2(I,J)≥χ2(z,J)quimontreque

le regroupement des valeurs du tableau de contingence conduit n´ecessairement `a une

perte d’information. L’objectif de la classiﬁcation sera donc de trouver la partition z

qui minimise cette perte, c’est-`a-dire qui maximise le crit`ere χ2(z,J).

Remarquons que dans le cas id´eal, o`u les proﬁls en ligne sont ´egaux `a l’int´erieur de

chaque classe, alors χ2(z,J)=χ2(I,J) et il n’y a donc pas de perte d’information. Par

ailleurs, le probl`eme que l’on vient de d´eﬁnir n’a de sens que pour un nombre ﬁx´ede

classes sinon la partition optimale est simplement la partition o`uchaque´el´ement de I

forme une classe.

2.2 L’algorithme

L’algorithme Mndki2 repose sur la repr´esentation g´eom´etrique d’un tableau de

contingence utilis´ee dans l’analyse factorielle des correspondances. Cette repr´esentation

est justiﬁ´ee pour plusieurs raisons, en particulier pour les rˆoles analogues d´evolus `acha-

cune des deux dimensions du tableau analys´e. Dans cette repr´esentation, `a l’ensemble

des lignes est associ´edansRsle nuage N(I)desrvecteurs des proﬁls fi

Jmunis des

masses fi..Lam´etrique utilis´ee dans cet espace est la m´etrique quadratique d´eﬁnie par

la matrice diagonale diag( 1

f.1,..., 1

f.s )appel´ee m´etrique du χ2et not´ee dχ2. Avec cette

repr´esentation, la relation classique de d´ecomposition de l’inertie en une somme d’iner-

tie intraclasse et d’inertie interclasse s’´ecrit simplement χ2(I,J)=n.W (z)+χ2(z,J)

o`uW(z)=ki|zi=kfi.d2

χ2(fi

J,g

k)avecgkcentredegravit´e de la classe k.

En cons´equence, puisque la quantit´eχ2(I,J)ned´epend pas de la partition z,la

recherche de la partition maximisant le crit`ere χ2(z,J)est´equivalente `a la recherche

de la partition minimisant le crit`ere W(z). Pour minimiser ce crit`ere d’inertie d’inertie

intraclasse, il est alors possible d’appliquer la m´ethode des k-means sur le nuage des

proﬁls avec la m´etrique du χ2. On obtient ainsi un algorithme it´eratif, appel´e Mndki2,

maximisant localement le crit`ere χ2(z,J).

Malheureusement, ce crit`ere, contrairement `a celui des k-means,nev´eriﬁe pas les

conditions sous lesquelles un crit`ere m´etrique de classiﬁcation est ´equivalent `auncrit`ere

de vraisemblance classiﬁante associ´e`aunmod`ele de m´elange (Govaert 1989). Il est

toutefoispossibledemontrerquececrit`ere est li´e, au moins approximativement, au

mod`ele de m´elange de lois multinomiales.

RNTI - 1

RNTI-E-3215

Classiﬁcation d’un tableau de contingence et mod`ele probabiliste

3Lemod`eledem´elange de lois multinomiales

Le mod`eledem´elange propos´e consiste `aconsid´erer que chaque ligne xidu tableau

de contingence est g´en´er´ee suivant le m´ecanisme suivant :

– la marge xi. est simul´ee suivant une loi discr`ete ψ`avaleurenti`ere quelconque

(Poisson, binomiale n´egative,...) ;

– la classe kest tir´ee au hasard suivant les probabilit´es π1,...,π

– le vecteur xi=(xi1,...,x

ir ) est simul´e suivant la distribution multinomiale de

param`etres xi. ,α

k1,...,α

kr.

Plus formellement, si on note θ=(π1,...,π

g,α

11,...,α

gr) le param`etre du mod`ele

et ϕest la densit´e de la loi multinomiale, la densit´edumod`ele s’´ecrit

f(x;θ)=

f(xi;θ)=

iψ(xi.)

πkϕ(xi;xi.,α

k1,...,α

ks)

=

iψ(xi.)

πk

xi.!

xi1!...x

is!αxi1

k1...α

xis

ks =A

i

πkαxi1

k1...α

xis

o`uA=iψ(xi.)i

xi.!

xi1!...xis!est un terme qui ne d´epend pas du param`etre θ.On

notera L(θ;x)=ilog kπkαxi1

k1...α

xis

ks la log-vraisemblance associ´ee et L(θ;x,z)=

i,k zik ln πk+jxij log αkj la log-vraisemblance des donn´ees compl´et´ees.

Le probl`eme g´en´eralement pos´e est alors l’estimation du param`etre θ`apartirde

l’´echantillon. Il s’agit d’un probl`eme classique d’estimation statistique. L’utilisation

en classiﬁcation automatique de ce mod`eledem´elange conduit en r´ealit´e`aunautre

probl`eme : retrouver le composant dont est issu chaque ´el´ement de l’´echantillon. Nous

verrons plus loin comment utiliser le mod`ele de m´elange pour atteindre cet objectif.

4 Estimation des param`etres

L’estimation du param`etre θpeut ˆetre obtenue en maximisant la log-vraisemblance

L(θ;x)`a l’aide de l’algorithme EM. Sous certaines conditions de r´egularit´e, il a ´et´e

´etabli que l’algorithme EM assure une convergence vers un maximum local de la vrai-

semblance. Il a un bon comportement pratique mais peut ˆetre toutefois assez lent dans

certaines situations ; c’est le cas, parexemple,silesclassessonttr`es m´elang´ees. Cet al-

gorithme, propos´e par Dempster, Laird et Rubin (1977) dans un papier c´el`ebre, souvent

simple `a mettre en place est devenu populaire et a fait l’objet de nombreux travaux

que l’on pourra trouver dans l’ouvrage tr`es complet de McLachlan et Krishnan (1997).

Partant d’un param`etre initial θ(0), une it´eration de l’algorithme EM consiste `a

maximiser l’esp´erance de la log-vraisemblance des donn´ees compl´et´ees conditionnelle-

ment `a l’estimation courante θ(c)et aux donn´ees xqui s’´ecrit

Q(θ,θ(c))=

i,k

t(c)

ik 

log πk+

xij log αkj 



RNTI - 1

RNTI-E-3 216

G´erard Govaert et Mohamed Nadif

o`ut(c)

ik est la probabilit´e d’appartenance de xi`alaclassekconditionnellement `aθ(c).

Chaque it´eration se d´ecompose en 2 ´etapes : l’´etape E calcule les probabilit´es t(c)

t(c)

ik =πkαxi1

k1...αxir

παxi1

1...αxir

r;l’´etape M d´etermine le param`etre θmaximisant Q(θ, θ(c)). On

montre facilement que cette maximisation conduit pour notre mod`ele aux relations

π(c+1)

k=it(c)

net α(c+1)

kj =it(c)

ik xij

it(c)

ik xi.

5 Algorithme Cemki2

L’utilisation du mod`ele de m´elange pour obtenir une partition des donn´ees initiales

peut alors se faire en rangeant chaque individu dans la classe maximisant la probabilit´e

a posteriori tik calcul´ee `apartirdesparam`etres estim´es. Une autre solution consiste `a

rechercher une partition de l’´echantillon de telle sorte que chaque classe ksoit assimi-

lable `aunsous-´echantillon issue de la loi f(., αk). Il s’agit donc d’estimer simultan´ement

les param`etres du mod`ele et la partition recherch´ee en maximisant la vraisemblance

compl´et´ee L(θ;x,z)d´eﬁnie pr´ec´edemment.

Cette maximisation peut ˆetre obtenue par l’algorithme CEM (classiﬁcation EM)

(Celeux et Govaert 1992), version classiﬁante de l’algorithme EM obtenue en lui ajou-

tant une ´etape de classiﬁcation. Chaque it´eration se d´ecompose maintenant en 3 ´etapes :

l’´etape E calcule les t(c)

ik comme dans l’algorithme EM ; l’´etape C d´etermine la parti-

tion z(c+1) en rangeant chaque xidans la classe maximisant t(c)

ik ;l’´etape M maxi-

mise la vraisemblance conditionnellement aux z(c+1)

ik : les estimations du maximum de

vraisemblance des πket des αksont obtenues en utilisant les classes de la partition

z(c+1) comme sous-´echantillons. On montre facilement que cette maximisation conduit

`a π(c+1)

k=nk

net α(c+1)

kj =xkj

xk. o`unkest le cardinal de la classe kde la partition

z(c+1),xkj =i,k z(c+1)

ik xij et xk. =jxkj .

Apr`es la maximisation en θet en notant fkj =xkj

n,lecrit`ere s’exprime

L(θ;x,z)=

nkln πk+

k,j

xkj log xkj

xk.

=

nkln πk+n

k,j

fkj log fkj

fk.f.j

+n

f.j log f.j .

En utilisant l’approximation 2xlog x≈x2−1, cette quantit´epeutˆetre approxim´ee par



nkln πk+n

2

k,j

(fkj −fk.f.j )2

fk.f.j

+n

f.j log f.j

On retrouve alors `a une constante pr`es et lorsque les proportions sont ﬁx´ees, le crit`ere

maximis´e par l’algorithme Mndki2 : la maximisation de la vraisemblance classiﬁante est

donc approximativement ´equivalente `a la maximisation du χ2de contingence et utiliser

ce crit`ere revient `a supposer que les donn´ees sont issues d’un mod`eledem´elange de

lois multinomiales. En pratique, les deux algorithmes Mndki2 et Cemki2 fournissent

g´en´eralement les mˆemes partitions.

RNTI - 1

RNTI-E-3217

1 / 6 100%

Classification d`un tableau de contingence et mod`ele

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Classification d`un tableau de contingence et mod`ele

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib