Un petit exemple
L’algorithme
La fonction R
Clustering divisif monoth´etique.
Le package divclust
Marie Chavent, Marc Fuentes
University of Bordeaux, France
Inria Bordeaux Sud-Ouest, CQFD Team
4`emes Rencontres R 25-26 juin, Grenoble
Un petit exemple
L’algorithme
La fonction R
Introduction
La fonction principale divclust :
M´ethode de classification descendant hi´erarchique et monoth´etique.
Optimise le mˆeme crit`ere que la classification ascendante
hi´erarchique de WARD.
Crit`ere diff´erent de la classification descendante hi´erarchique de
[Kaufman et Rousseeuw, 1990] impl´ement´ee dans la fonction diana
du package cluster.
Impl´emente la m´ethode DIVCLUS-T propos´ee par [Chavent et al.,
2007].
Ajout du cas des donn´ees mixtes (quantitatives et qualitatives)
non trait´ees dans l’article.
https://github.com/chavent/divclust
4`emes Rencontres R 25-26 juin, Grenoble
Un petit exemple
L’algorithme
La fonction R
Outline
1Un petit exemple
2L’algorithme
3La fonction R
4`emes Rencontres R 25-26 juin, Grenoble
Un petit exemple
L’algorithme
La fonction R
Un petit exemple
library(divclust)
data(protein)
treeDIV <- divclust(protein)
sum(treeDIV$height)
## [1] 9
plot(treeDIV)
Nuts < 3.55 Nuts >= 3.55
Fish < 5.75 Fish >= 5.75
USSR
Pol
Czech
E_Ger
Nether
Aust
W_Ger
Switz
Fr
Belg
Ireland
UK
Nor
Swed
Den
Finl
Fruite.veg. < 5.35 Fruite.veg. >= 5.35
Alban
Bulg
Rom
Yugo
Hung
Italy
Greece
Port
Spain
n<- nrow(protein)
zprotein <- scale(protein)*sqrt(n/(n-1))
treeWard <- hclust(dist(zprotein)^2/(2*n),
method="ward.D")
sum(treeWard$height)
## [1] 9
plot(treeWard,main="",sub="",xlab ="",hang=-1)
Hung
USSR
Pol
Czech
E_Ger
Finl
Nor
Den
Swed
Fr
UK
Ireland
Belg
W_Ger
Switz
Aust
Nether
Alban
Bulg
Rom
Yugo
Greece
Italy
Port
Spain
0.0 0.5 1.0 1.5 2.0 2.5 3.0
Height
4`emes Rencontres R 25-26 juin, Grenoble
Un petit exemple
L’algorithme
La fonction R
Un petit exemple
Comparaison des proportion d’inertie expliqu´ee par les partitions de
2 `a 10 classes :
k=2 k=3 k=4 k=5 k=6 k=7 k=8 k=9 k=10
divclust 0.37 0.51 0.59 0.65 0.71 0.76 0.79 0.82 0.84
Ward 0.35 0.49 0.58 0.67 0.72 0.76 0.79 0.82 0.84
DIVCLUS-T utilise la distance Euclidienne sur donn´ees
standardis´ees.
Quelles distances pour des donn´ees qualitatives ou mixtes ?
4`emes Rencontres R 25-26 juin, Grenoble
1 / 33 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !