Apprentissage numérique non supervisé pour la fouille de données

Analyse des données

M1- INFO

Nicoleta ROGOVSCHI

nicoleta.rogovschi@parisdescartes.fr

2

Plan

Méthodes d’analyse multivariée

Classification hiérarchique

Principe de la CAH

Algorithme

Choix du critère d’aggregation

Avantages et desavantages

Classification non hiérarchique

Principe des K-means

Algorithme

Avantages et desavantages

Conclusions

3

Analyses multivariées

Les méthodes d’analyse multidimensionnelle ou multivariée permettent de

traiter simultanémént de nombreuses variables caractérisant les individus

de l’étude

Ce sont des outils à but principalement descriptif :

qui visent à obtenir une représentation synthétique d’un tableau de

données

en extrayant le maximum d’ «information», plus exactement de variabilité,

de variance ou d’inertie

avec en contrepartie le minimum de distorsion par rapport aux données

d’origine

4

Le but des méthodes

d’analyse multivariée

Lorsque nous sommes en présence de 2 ou 3 variables, il est possible

d'avoir une représentation graphique qui restitue toute l'information. Ce

n'est plus vrai si on s'intéresse à plus de 3 variables.

Le principe de l'analyse de données est de tracer sur un graphique en 2

dimensions (grâce à une projection) l'ensemble des observations.

Cependant, les axes choisis ne correspondent pas à l'une ou l'autre des

variables mais sont des axes virtuels, issus de combinaisons entre les

variables et calculés pour passer le plus près possible de tous les points

du nuage. Chaque point est projeté sur ce plan.

Le choix des axes est fait de manière à ce que le graphique résume les

données en minimisant la perte de l'information.

5

Types de méthodes d’analyses

multivariée

On distingue en général deux grand types de méthodes:

Ordination (méthodes factorielles) : permettent de dégager des grandes

axes suivant lesquels s’ordonnent les objets et/ou les variables

Classification (hiérarchique ou non) : définissent des grandes classes

dans lesquelles se rangent les objets (plus rarement les variables) selon

des critères de similarités

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

Apprentissage numérique non supervisé pour la fouille de données

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Apprentissage numérique non supervisé pour la fouille de données

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib