Telechargé par chebbi mejdi

ML KPPV

publicité
Cours de Machine Learning
Promotion M1 SSICE
A.U. 2018/19
Processus supervisé: KNN
• technique de découverte de connaissances dirigée
– utilisée dans un but de classification et de prédiction
– bien adapté aux bases de données relationnelles
• équivalence de l'expérience chez l'homme
– processus : identification des cas similaires puis application de
l'information provenant de ces cas au problème actuel
– principe : on présente un nouvel enregistrement, il trouve les
voisins les plus proches et positionne ce nouvel élément
• s'applique à tous les types de données.
2
Prédiction avec K-PPV
• technique de découverte de connaissances dirigée
• équivalence de l'expérience chez l'homme
• But:
–
–
–
–
–
pour estimer des éléments manquants,
détecter des fraudes,
prédire l'intérêt d'un client pour une offre,
classifier les réponses en texte libre,
…
3
Véhicule
Age
Enfants
Clio
25
0
Espace
32
4
Clio
28
1
Megane
30
2
Safrane
50
1
Laguna
35
2
Espace
40
3
Clio
30
Megane
Véhicule
Age
Enfants
Clio
27
1
Megane
30
2
Laguna
39
0
Safrane
55
0
Clio
24
1
Megane
33
2
Laguna
38
2
1
Clio
22
0
34
2
Megane
35
1
Safrane
52
2
Laguna
39
2
Laguna
38
1
Safrane
54
1
Espace
34
5
ventes
de
voitures
Renault
ventilées
en
fonction
de l'âge et
du nombre
d'enfants
de
l'acheteur
4
Ventes de voitures Renault
60
Age
55
50
45
40
35
30
25
20
0
1
2
3
4
Nombre d'enfants
Clio
Espace
5
Laguna
Megane
Safrane
5
• La consultation du graphique
– des zones bien nettes
– permettant de déterminer, pour un nouveau client dont on
connaît l'âge et le nombre d'enfants, le modèle susceptible de
l'intéresser.
– trois nouveaux clients
• La notion de distance est la distance métrique
• conseil au client 1 une Espace, au 2 une Clio, au 3 une Safrane
Ventes de voitures Renault
60
Age
55
50
3
45
40
1
35
30
25
20
2
0
1
2
3
4
Nombre d'enfants
6
Clio
Espace
Laguna
Megane
Safrane
5
Prétraitement: Fonction de distance
• Pour les données numériques
– La valeur absolue de la différence : |A-B|
– Le carré de la différence : (A-B)²
– La valeur absolue normalisée : |A-B| / (différence
maximale)
• avantage : se trouve toujours entre 0 et 1,
supprime les problèmes d'échelles
– libre de créer sa propre fonction.
7
Pré-traitement: Fonction de distance
• Pour les autres types de données
– à l'utilisateur de définir sa propre fonction de distance
– Exemple :
• pour comparer le sexe d'un individu, valeur 1 s'ils sont de sexe
différent ou la valeur 0 s'ils sont identiques
• pour des communes, pourquoi ne pas prendre la distance
entre elles ou affecter une codification en fonction du type
(urbaine, périurbaine, rurale) ou de la région
– toujours préférable d'avoir le résultat entre 0 et 1
8
Prétraitement: Fonction de combinaison
consiste à combiner les n voisins les plus proches
pour obtenir le résultat de la prédiction souhaitée
exemple :
soit une liste de clients ayant déjà répondu à une offre
commerciale (par oui ou non)
l'utilisateur métier estime que les critères les plus
déterminants sont le sexe, l'âge et le salaire net du
dernier semestre
9
Numéro
Age
Sexe
A
27
F
19000
Non
B
51
M
66000
Oui
C
52
M
105000
Non
D
33
F
55000
Oui
E
45
M
45000
Oui
10
Salaire
Acheteur
• soit un nouveau client : une femme de 45 ans ayant un
revenu de 100000 €
• cette cliente sera-t-elle intéressée par l'offre ?
• La fonction de distance est définie ainsi :
– il s'agit d'une femme, donc la distance par rapport aux clients
connus sera de 1 avec les hommes et de 0 avec les femmes
– A ce chiffre, on ajoute la distance normalisée du salaire et de l'âge
– D’où le Tableau des distances :
Client
Age
Sexe
Salaire
Distance totale
A
0.720
0
0.942
1.662
B
0.240
1
0.395
1.635
C
0.280
1
0.058
1.338
D
0.480
0
0.523
1.003
E
0.000
1
0.640
1.640
– Les voisins les plus proches sont dans l'ordre : D C B E A
11
• Utilisons maintenant le résultat de la fonction de
combinaison
– nombre de voisins retenus ?
Nombre de voisins
retenus
Numéro des voisins
1
2
3
4
5
D
DC
DCB
DCBE
DCBEA
Réponses
des
voisins
Décompte
des
réponses
Valeur retenue
O
O,N
O,N,O
O,N,O,O
Oui 1
Non 0
Oui
Oui 1
Non 1
?
Oui 2
Non 1
Oui
Oui 3
Non 1
Oui
O,N,O,O
,N
Oui 3
Non 2
Oui
Evaluation
100 %
50 %
66 %
75 %
60 %
12
• Utilisons maintenant le résultat de la fonction de
combinaison
– nombre de voisins retenus ?
•Si 3 voisins, réponse favorable avec une probabilité
(plutôt espérance) de 66%
•possible également de donner un poids à chaque
contribution
•NB:
•Ex: 1er voisin a un poids de 3, 2ème poids de 2,
3ème un poids de 1
•Possible de pondérer chaque variable utilisée dans la
fonction de distance
13
Téléchargement