Classification non supervisée et
données fonctionnelles
Aurélie FISCHER
Directeur de M2 : Pascal MASSART
Directeur de thèse : Gérard BIAU
Octobre 2008
Table des matières
1 Données fonctionnelles 2
2 Classification non supervisée 2
2.1 Méthode des centres mobiles . . . . . . . . . . . . . . . . . . . . . . 2
2.2 Risque de classification . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.3 Projection aléatoire baséee sur la méthode de Johnson-Lindenstrauss 4
2.3.1 Projection aléatoire . . . . . . . . . . . . . . . . . . . . . . . 4
2.3.2 Lemme de Johnson-Lindenstrauss . . . . . . . . . . . . . . . 5
2.3.3 Algorithme ........................... 5
2.4 Un complément possible . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Quantification 7
4 Divergence de Bregman 8
4.1 Définition et exemples dans d.................... 8
4.2 Casfonctionnel ............................. 9
5 Quantificateur des plus proches voisins 10
6 Bibliographie 15
1 Données fonctionnelles
On s’intéresse à des données de dimension infinie ou, ce qui revient au même,
de très grande dimension.
Une donnée fonctionnelle est en réalité constituée d’un certain nombre de va-
leurs discrètes que l’on a mesurées, enregistrées, mais dont l’ensemble reflète une
variation régulière. Comme en théorie, on pourrait obtenir une grande quantité de
points, aussi rapprochés que l’on veut, on voit que l’on obtient une courbe et que
l’on peut traiter la donnée comme une fonction.
Remarque. Considérer comme des fonctions des données qui après tout sont dis-
crètes permet justement de faire intervenir la régularité de ces fonctions. Par
exemple, pour un phénomène donné, grâce à l’utilisation de données fonctionnelles,
on pourra étudier aussi sa vitesse ou son accélération.
2 Classification non supervisée
Il s’agit de classer les données en kgroupes de telle sorte qu’elles soient très
semblables à l’intérieur d’un groupe, les différents groupes étant aussi séparés que
possible. Le nombre de groupes kn’est pas forcément fixé d’avance.
On se place dans un espace de Hilbert Hséparable. On note ,·i le produit
scalaire dans Het k·k la norme associée. Soit Xune variable aléatoire de loi µà
valeurs dans Het X1, . . . , Xnun n-échantillon de loi µ. Supposons que kest fixé
et kXk2<. On s’intéresse au problème de classification non supervisée pour
les observations X1, . . . , Xn.
2.1 Méthode des centres mobiles
Une méthode de classification consiste à utiliser l’algorithme des centres mobiles.
Afin de ranger les données dans kclasses, on minimise le risque de classification
empirique
W(c, µn) = 1
n
n
X
i=1
min
j=1,...,k kXicjk2
sur tous les choix possibles pour les kcentres c= (c1, . . . , ck)∈ Hk.µnest la loi
empirique des données, définie par
µn(A) = 1
n
n
X
i=1
1{XiA}
pour tout borélien A⊂ H.
2/15
Définition 2.1 (Ensemble de Voronoi). On appelle ensemble de Voronoi asso-
cié au centre cj, le polyèdre convexe de tous les points de Hqui sont plus proches
de cjque de tout autre centre. On le note Sj. Un point à égale distance de plusieurs
centres est affecté arbitrairement à l’un d’eux.
Au cours de l’étape r+ 1 de l’algorithme, chaque Xiest affecté au centre c(r)
nj
le plus proche, puis le "nouveau centre empirique" c(r+1)
nj est calculé en faisant la
moyenne des Xitombés dans S(r)
j.
2.2 Risque de classification
Lorsque l’algorithme donne un ensemble de centres c= (c1, . . . , ck)∈ Hk, l’er-
reur en moyenne quadratique ou risque de classification
W(c, µ) = Zmin
j=1,...,k kxcjk2(x)
permet d’en mesurer la performance. On désigne par
W(µ) = inf
c∈HkW(c, µ)
le risque optimal.
Définition 2.2 (δn–minimiseur). Soit δn0. Un ensemble de centres cn=
(cn1, . . . , cnk)∈ Hkqui vérifie
W(cn, µn)W(µn) + δn
est appelé un δn–minimiseur du risque de classification empirique. Lorsque δn= 0,
on dit que cnest un minimiseur du risque de classification empirique.
On peut obtenir la borne suivante :
Théorème 2.1. Soit kXk2<. Pour tout x > 0, il existe des constantes
C(µ)>0et N0(µ, k, x)>0telles que, pour tout nN0, avec probabilité au
moins 12ex,
W(cn, µ)W(µ)C(µ)k+x
n+δn
3/15
2.3 Projection aléatoire baséee sur la méthode de
Johnson-Lindenstrauss
2.3.1 Projection aléatoire
Soit s, et soient (N1α)α1, . . . , (N)α1ssuites indépendantes de variables
aléatoires gaussiennes de loi N¡0,1
s¢.D1, soit
XD
ij =
D
X
α=1
NjαX, j ∈ {1, . . . , s}
c’est-à-dire, sous forme matricielle,
XD
i1
.
.
.
XD
is
=
N11 . . . N1D
.
.
..
.
..
.
.
Ns1. . . NsD
Xi1
.
.
.
XiD
Sachant les données X1, . . . , Xn, pour tous i, j fixés, comme XD
ij est une somme de
variables aléatoires centrées indépendantes et XD
ij 1, la suite (XD
ij )D1est une
martingale par rapport à la filtration canonique. Or,
(XD
ij )2¯
¯X1, . . . , Xn=
D
X
α=1
(X)2
skXik2
s
(espérance par rapport aux variables gaussiennes) Donc, la martingale (XD
ij )D1
est bornée dans 2. On en déduit qu’elle converge p.s. et dans 2et qu’il existe
une variable aléatoire X
ij 2telle que |XD
ij | ≤ X
ij. Soit Xij la limite de (XD
ij )D1
. Par convergence dominée, on a
lim
D(XD
ij )2¯
¯X1, . . . , Xn= (Xij)2¯
¯X1, . . . , Xn=kXik2
s
A chaque donnée Xi, on peut ainsi associer un vecteur Xi= (Xi1, . . . , Xis)
s, qui est sa "projection aléatoire sur un sev de dimension finie s". Chaque
composante de Xiest une variable aléatoire gaussienne de loi N³0,kXik2
s´. Donc,
kXik2¯
¯X1, . . . , Xn=kXik2
et
skXik2
kXik2χ2(s)
4/15
De même,
i6=i0∈ {1, . . . , n},kXiXi0k2¯
¯X1, . . . , Xn=kXiXi0k2
et
skXiXi0k2
kXiXi0k2χ2(s)
L’inégalité de Chernoff pour la loi χ2entraîne
½kXiXi0k2
kXiXi0k21> ε¯
¯
¯X1, . . . , Xn¾exp hs
2(ε+ ln(1 + ε))i
ainsi que
½kXiXi0k2
kXiXi0k21<ε¯
¯
¯X1, . . . , Xn¾exp hs
2(ε+ ln(1 ε))i
Ces considérations entraînent le lemme de Johnson-Lindenstrauss :
2.3.2 Lemme de Johnson-Lindenstrauss
Le lemme établit que, pour ε]0,1[, tout ensemble de npoints dans un espace
de Hilbert séparable peut se plonger dans un espace euclidien de dimension O(ln n
ε2)
en modifiant peu les distances, qui au pire sont multipliées par un facteur 1±ε.
Lemme 2.1 (Johnson-Lindenstrauss). Soit Hun espace de Hilbert séparable.
ε, δ ]0,1[, n , soit stel que s4
ε2/2ε3/3ln n
δSoit f:H → sune
projection aléatoire (construite comme dans le paragraphe précédent). Alors, pour
tout ensemble Dde npoints de H, avec probabilité au moins 1δ, on a
(u, v)∈ D2,(1 ε)kuvk2≤ kf(u)f(v)k2(1 + ε)kuvk2
2.3.3 Algorithme
On applique l’algorithme des centres mobiles aux projections X1, . . . , Xns:
on obtient un ensemble cnde kcentres cn1, . . . , cnk squi minimisent le risque de
classification empirique correspondant aux projections. Soient Sn1, . . . , Snk s
les ensembles de Voronoi associés. On introduit alors ˆ
cn, l’ensemble des centres
dans Hque l’on définit comme suit :
j∈ {1, . . . , k},ˆcnj =Pn
i=1 Xi1{XiSnj }
Pn
i=1 1{XiSnj }
A partir de ces centres, on déduit ensuite la partition de Voronoi de Hen kclasses.
5/15
1 / 15 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !