Classification non supervisée et données fonctionnelles

Téléchargement

Classiﬁcation non supervisée et

données fonctionnelles

Aurélie FISCHER

Directeur de M2 : Pascal MASSART

Directeur de thèse : Gérard BIAU

Octobre 2008

Table des matières

1 Données fonctionnelles 2

2 Classiﬁcation non supervisée 2

2.1 Méthode des centres mobiles . . . . . . . . . . . . . . . . . . . . . . 2

2.2 Risque de classiﬁcation . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.3 Projection aléatoire baséee sur la méthode de Johnson-Lindenstrauss 4

2.3.1 Projection aléatoire . . . . . . . . . . . . . . . . . . . . . . . 4

2.3.2 Lemme de Johnson-Lindenstrauss . . . . . . . . . . . . . . . 5

2.3.3 Algorithme ........................... 5

2.4 Un complément possible . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Quantiﬁcation 7

4 Divergence de Bregman 8

4.1 Déﬁnition et exemples dans d.................... 8

4.2 Casfonctionnel ............................. 9

5 Quantiﬁcateur des plus proches voisins 10

6 Bibliographie 15

1 Données fonctionnelles

On s’intéresse à des données de dimension inﬁnie ou, ce qui revient au même,

de très grande dimension.

Une donnée fonctionnelle est en réalité constituée d’un certain nombre de va-

leurs discrètes que l’on a mesurées, enregistrées, mais dont l’ensemble reﬂète une

variation régulière. Comme en théorie, on pourrait obtenir une grande quantité de

points, aussi rapprochés que l’on veut, on voit que l’on obtient une courbe et que

l’on peut traiter la donnée comme une fonction.

Remarque. Considérer comme des fonctions des données qui après tout sont dis-

crètes permet justement de faire intervenir la régularité de ces fonctions. Par

exemple, pour un phénomène donné, grâce à l’utilisation de données fonctionnelles,

on pourra étudier aussi sa vitesse ou son accélération.

2 Classiﬁcation non supervisée

Il s’agit de classer les données en kgroupes de telle sorte qu’elles soient très

semblables à l’intérieur d’un groupe, les diﬀérents groupes étant aussi séparés que

possible. Le nombre de groupes kn’est pas forcément ﬁxé d’avance.

On se place dans un espace de Hilbert Hséparable. On note h·,·i le produit

scalaire dans Het k·k la norme associée. Soit Xune variable aléatoire de loi µà

valeurs dans Het X1, . . . , Xnun n-échantillon de loi µ. Supposons que kest ﬁxé

et kXk2<∞. On s’intéresse au problème de classiﬁcation non supervisée pour

les observations X1, . . . , Xn.

2.1 Méthode des centres mobiles

Une méthode de classiﬁcation consiste à utiliser l’algorithme des centres mobiles.

Aﬁn de ranger les données dans kclasses, on minimise le risque de classiﬁcation

empirique

W(c, µn) = 1

i=1

min

j=1,...,k kXi−cjk2

sur tous les choix possibles pour les kcentres c= (c1, . . . , ck)∈ Hk.µnest la loi

empirique des données, déﬁnie par

µn(A) = 1

i=1

1{Xi∈A}

pour tout borélien A⊂ H.

2/15

Déﬁnition 2.1 (Ensemble de Voronoi). On appelle ensemble de Voronoi asso-

cié au centre cj, le polyèdre convexe de tous les points de Hqui sont plus proches

de cjque de tout autre centre. On le note Sj. Un point à égale distance de plusieurs

centres est aﬀecté arbitrairement à l’un d’eux.

Au cours de l’étape r+ 1 de l’algorithme, chaque Xiest aﬀecté au centre c(r)

le plus proche, puis le "nouveau centre empirique" c(r+1)

nj est calculé en faisant la

moyenne des Xitombés dans S(r)

2.2 Risque de classiﬁcation

Lorsque l’algorithme donne un ensemble de centres c= (c1, . . . , ck)∈ Hk, l’er-

reur en moyenne quadratique ou risque de classiﬁcation

W(c, µ) = Zmin

j=1,...,k kx−cjk2dµ(x)

permet d’en mesurer la performance. On désigne par

W∗(µ) = inf

c∈HkW(c, µ)

le risque optimal.

Déﬁnition 2.2 (δn–minimiseur). Soit δn≥0. Un ensemble de centres cn=

(cn1, . . . , cnk)∈ Hkqui vériﬁe

W(cn, µn)≤W∗(µn) + δn

est appelé un δn–minimiseur du risque de classiﬁcation empirique. Lorsque δn= 0,

on dit que cnest un minimiseur du risque de classiﬁcation empirique.

On peut obtenir la borne suivante :

Théorème 2.1. Soit kXk2<∞. Pour tout x > 0, il existe des constantes

C(µ)>0et N0(µ, k, x)>0telles que, pour tout n≥N0, avec probabilité au

moins 1−2e−x,

W(cn, µ)−W∗(µ)≤C(µ)k+√x

√n+δn

3/15

2.3 Projection aléatoire baséee sur la méthode de

Johnson-Lindenstrauss

2.3.1 Projection aléatoire

Soit s∈∗, et soient (N1α)α≥1, . . . , (Nsα)α≥1ssuites indépendantes de variables

aléatoires gaussiennes de loi N¡0,1

s¢.∀D≥1, soit

ij =

α=1

NjαXiα, j ∈ {1, . . . , s}

c’est-à-dire, sous forme matricielle,











=





N11 . . . N1D

Ns1. . . NsD











Xi1

XiD







Sachant les données X1, . . . , Xn, pour tous i, j ﬁxés, comme XD

ij est une somme de

variables aléatoires centrées indépendantes et XD

ij ∈1, la suite (XD

ij )D≥1est une

martingale par rapport à la ﬁltration canonique. Or,

(XD

ij )2¯

¯X1, . . . , Xn=

α=1

(Xiα)2

s≤kXik2

(espérance par rapport aux variables gaussiennes) Donc, la martingale (XD

ij )D≥1

est bornée dans 2. On en déduit qu’elle converge p.s. et dans 2et qu’il existe

une variable aléatoire X∗

ij ∈2telle que |XD

ij | ≤ X∗

ij. Soit Xij la limite de (XD

ij )D≥1

. Par convergence dominée, on a

lim

D→∞(XD

ij )2¯

¯X1, . . . , Xn= (Xij)2¯

¯X1, . . . , Xn=kXik2

A chaque donnée Xi, on peut ainsi associer un vecteur Xi= (Xi1, . . . , Xis)∈

s, qui est sa "projection aléatoire sur un sev de dimension ﬁnie s". Chaque

composante de Xiest une variable aléatoire gaussienne de loi N³0,kXik2

s´. Donc,

kXik2¯

¯X1, . . . , Xn=kXik2

skXik2

kXik2∼χ2(s)

4/15

De même,

∀i6=i0∈ {1, . . . , n},kXi−Xi0k2¯

¯X1, . . . , Xn=kXi−Xi0k2

skXi−Xi0k2

kXi−Xi0k2∼χ2(s)

L’inégalité de Chernoﬀ pour la loi χ2entraîne

½kXi−Xi0k2

kXi−Xi0k2−1> ε¯

¯X1, . . . , Xn¾≤exp hs

2(−ε+ ln(1 + ε))i

ainsi que

½kXi−Xi0k2

kXi−Xi0k2−1<−ε¯

¯X1, . . . , Xn¾≤exp hs

2(ε+ ln(1 −ε))i

Ces considérations entraînent le lemme de Johnson-Lindenstrauss :

2.3.2 Lemme de Johnson-Lindenstrauss

Le lemme établit que, pour ε∈]0,1[, tout ensemble de npoints dans un espace

de Hilbert séparable peut se plonger dans un espace euclidien de dimension O(ln n

ε2)

en modiﬁant peu les distances, qui au pire sont multipliées par un facteur 1±ε.

Lemme 2.1 (Johnson-Lindenstrauss). Soit Hun espace de Hilbert séparable.

∀ε, δ ∈]0,1[, n ∈∗, soit s∈∗tel que s≥4

ε2/2−ε3/3ln n

√δSoit f:H → sune

projection aléatoire (construite comme dans le paragraphe précédent). Alors, pour

tout ensemble Dde npoints de H, avec probabilité au moins 1−δ, on a

∀(u, v)∈ D2,(1 −ε)ku−vk2≤ kf(u)−f(v)k2≤(1 + ε)ku−vk2

2.3.3 Algorithme

On applique l’algorithme des centres mobiles aux projections X1, . . . , Xn∈s:

on obtient un ensemble cnde kcentres cn1, . . . , cnk ∈squi minimisent le risque de

classiﬁcation empirique correspondant aux projections. Soient Sn1, . . . , Snk ⊂s

les ensembles de Voronoi associés. On introduit alors ˆ

cn, l’ensemble des centres

dans Hque l’on déﬁnit comme suit :

∀j∈ {1, . . . , k},ˆcnj =Pn

i=1 Xi1{Xi∈Snj }

i=1 1{Xi∈Snj }

A partir de ces centres, on déduit ensuite la partition de Voronoi de Hen kclasses.

5/15

1 / 15 100%

Documents connexes

Université Paris Diderot – AEL3LG – 16/17 En logique des

La méthode de trichotomie

2.2.1 Formules - Université Paris Diderot

Syntaxe - Université Paris Diderot

Sous-groupes compacts de GL ( Rd )

Série 2

Un Lemme de suite extraite - Jean

Conflict Sensitive Program Management (CSPM): An advanced

Méthode indienne pour résoudre l`équation de Pell

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Classification non supervisée et données fonctionnelles

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Classification non supervisée et données fonctionnelles

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib