Apprentissage numérique non supervisé pour la fouille de données

Analyse des données
M1- INFO
Nicoleta ROGOVSCHI
nicoleta.rogovschi@parisdescartes.fr
2
Plan
Méthodes d’analyse multivariée
Classification hiérarchique
Principe de la CAH
Algorithme
Choix du critère d’aggregation
Avantages et desavantages
Classification non hiérarchique
Principe des K-means
Algorithme
Avantages et desavantages
Conclusions
3
Analyses multivariées
Les méthodes d’analyse multidimensionnelle ou multivariée permettent de
traiter simultanémént de nombreuses variables caractérisant les individus
de l’étude
Ce sont des outils à but principalement descriptif :
qui visent à obtenir une représentation synthétique d’un tableau de
données
en extrayant le maximum d’ «information», plus exactement de variabilité,
de variance ou d’inertie
avec en contrepartie le minimum de distorsion par rapport aux données
d’origine
4
Le but des méthodes
d’analyse multivariée
Lorsque nous sommes en présence de 2 ou 3 variables, il est possible
d'avoir une représentation graphique qui restitue toute l'information. Ce
n'est plus vrai si on s'intéresse à plus de 3 variables.
Le principe de l'analyse de données est de tracer sur un graphique en 2
dimensions (grâce à une projection) l'ensemble des observations.
Cependant, les axes choisis ne correspondent pas à l'une ou l'autre des
variables mais sont des axes virtuels, issus de combinaisons entre les
variables et calculés pour passer le plus près possible de tous les points
du nuage. Chaque point est projeté sur ce plan.
Le choix des axes est fait de manière à ce que le graphique résume les
données en minimisant la perte de l'information.
5
Types de méthodes d’analyses
multivariée
On distingue en général deux grand types de méthodes:
Ordination (méthodes factorielles) : permettent de dégager des grandes
axes suivant lesquels s’ordonnent les objets et/ou les variables
Classification (hiérarchique ou non) : définissent des grandes classes
dans lesquelles se rangent les objets (plus rarement les variables) selon
des critères de similarités
1 / 47 100%

Apprentissage numérique non supervisé pour la fouille de données

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !