Cours Fouille de données avancée

Ministère de l’Enseignement Supérieur et de la Recherche Scientifique

Université Mohamed Khider - Biskra

Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie

Département d’Informatique

Master 2 IDM

Cours Fouille de données avancée

Dr. Abdelhamid DJEFFAL

Site web : www.abdelhamid-djeﬀal.net

Année Universitaire 2014/2015

Plan du cours

1 Introduction 4

1.1 Déﬁnition de la fouille de données ........................ 4

1.2 Processus du data mining ............................ 6

1.3 Quel type de données fouiller ? ......................... 8

1.4 Les tâches de la fouille de données ....................... 10

1.5 Exercices ..................................... 12

2 Recherche des modèles fréquents, corrélations et associations 14

2.1 Concepts de base ................................. 15

2.1.1 Base de données formelle ........................ 15

2.1.2 Motif ................................... 15

2.1.3 Connexion de Galois ........................... 16

2.1.4 Support d’un motif ............................ 16

2.1.5 Motif fréquent .............................. 17

2.2 Méthodes eﬃcaces pour la recherche des modèles fréquents .......... 17

2.2.1 Optimisations ............................... 19

2.3 Types de motifs fréquents ............................ 21

2.3.1 Motif fréquent fermé ........................... 21

2.3.2 Motif fréquent maximal ......................... 21

2.4 Passage aux règles d’association ......................... 22

2.5 Analyse des corrélation .............................. 23

2.5.1 Calcul de la corrélation ......................... 24

2.6 Motifs rares .................................... 26

2.6.1 Déﬁnitions ................................ 26

2.6.2 Recherche des motifs rares ........................ 26

2.6.3 Apriori-Rare ............................... 28

1

2.7 Motifs fréquents séquentiels ........................... 28

2.7.1 Déﬁnitions et propriétés ......................... 29

2.7.2 Algorithme GSP ............................. 30

2.8 Exercices ..................................... 31

3 Classiﬁcation 34

3.1 Concepts de base ................................. 34

3.1.1 Déﬁnition ................................. 34

3.1.2 Organisation ............................... 34

3.1.3 Evaluation du modèle .......................... 36

3.2 Combinaison de modèles ............................. 40

3.2.1 Bagging .................................. 40

3.2.2 Boosting .................................. 40

3.3 K plus proche voisins ............................... 40

3.3.1 Fonctionnement .............................. 41

3.4 Classiﬁcation par analyse des règles d’association ............... 41

3.5 Arbres de décision ................................ 42

3.5.1 Choix de la variable de segmentation : ................. 44

3.5.2 Choix de la bonne taille de l’arbre ................... 45

3.5.3 Algorithmes de construction d’arbres de décision ........... 46

3.6 Machines à vecteur support ........................... 48

3.6.1 SVMs binaires .............................. 48

3.6.2 Utilisation des noyaux .......................... 54

3.6.3 Architecture générale d’une machine à vecteur support ........ 56

3.6.4 SVMs multiclasse ............................. 57

3.6.5 Une-contre-reste (1vsR) ......................... 58

3.6.6 Une-contre-une (1vs1) .......................... 60

3.6.7 SVM monoclasse (Novelty detection) .................. 61

3.6.8 Implémentation des SVMs ........................ 64

3.7 Réseaux de neurones ............................... 66

3.8 Classiﬁcation bayésienne ............................. 69

3.9 Exercices ..................................... 73

4 Régression 76

4.1 Déﬁnition ..................................... 76

2

4.2 Régression linéaire simple ............................ 76

4.3 Régression linéaire multiple ........................... 77

4.4 SVM pour la régression (SVR) ......................... 78

4.4.1 Utilisation des noyaux .......................... 82

5 Clustering 84

5.1 Mesures de similarités .............................. 85

5.1.1 Attributs numériques ........................... 85

5.1.2 Attributs catégoriels ........................... 85

5.2 Clustering hiérarchique .............................. 86

5.3 Clustering partitionnel .............................. 88

5.4 Clustering incrémental .............................. 89

5.5 Clustering basé densité .............................. 90

5.6 Support vector clustering ............................ 91

5.7 Exercices ..................................... 94

Références 95

3

Chapitre 1

Introduction

1.1 Déﬁnition de la fouille de données

La fouille de données est un domaine qui est apparu avec l’explosion des quantités

d’informations stockées, avec le progrès important des vitesses de traitement et des supports

de stockage. La fouille de données vise à découvrir, dans les grandes quantités de données,

les informations précieuses qui peuvent aider à comprendre les données ou à prédire le

comportement des données futures. Le datamining utilise depuis sont apparition plusieurs

outils de statistiques et d’intelligence artiﬁcielle pour atteindre ses objectifs.

La fouille de données s’intègre dans le processus d’extraction des connaissances à partir

des données ECD ou (KDD : Knowledge Discovery from Data en anglais). Ce domaine en

pleine expansion est souvent appelé le data mining.

La fouille de données est souvent déﬁnie comme étant le processus de découverte des

nouvelles connaissances en examinant de larges quantités de données (stockées dans des

entrepôts) en utilisant les technologies de reconnaissance de formes de même que les tech-

niques statistiques et mathématiques. Ces connaissances, qu’on ignore au début, peuvent

être des corrélations, des patterns ou des tendances générales de ces données. La science et

l’ingénierie modernes sont basées sur l’idée d’analyser les problèmes pour comprendre leurs

principes et leur développer les modèles mathématiques adéquats. Les données expérimen-

tales sont utilisées par la suite pour vériﬁer la correction du système ou l’estimation de

quelques paramètres diﬃciles à la modélisation mathématiques. Cependant, dans la majo-

rité des cas, les systèmes n’ont pas de principes compris ou qui sont trop complexes pour

la modélisation mathématique. Avec le développent des ordinateurs, on a pu rassembler

une très grande quantité de données à propos de ces systèmes. La fouille de données vise à

4

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

Cours Fouille de données avancée

Study collections

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Cours Fouille de données avancée

Study collections

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib