Cours de Machine Learning Promotion M1 SSICE A.U. 2018/19 Processus supervisé: KNN • technique de découverte de connaissances dirigée – utilisée dans un but de classification et de prédiction – bien adapté aux bases de données relationnelles • équivalence de l'expérience chez l'homme – processus : identification des cas similaires puis application de l'information provenant de ces cas au problème actuel – principe : on présente un nouvel enregistrement, il trouve les voisins les plus proches et positionne ce nouvel élément • s'applique à tous les types de données. 2 Prédiction avec K-PPV • technique de découverte de connaissances dirigée • équivalence de l'expérience chez l'homme • But: – – – – – pour estimer des éléments manquants, détecter des fraudes, prédire l'intérêt d'un client pour une offre, classifier les réponses en texte libre, … 3 Véhicule Age Enfants Clio 25 0 Espace 32 4 Clio 28 1 Megane 30 2 Safrane 50 1 Laguna 35 2 Espace 40 3 Clio 30 Megane Véhicule Age Enfants Clio 27 1 Megane 30 2 Laguna 39 0 Safrane 55 0 Clio 24 1 Megane 33 2 Laguna 38 2 1 Clio 22 0 34 2 Megane 35 1 Safrane 52 2 Laguna 39 2 Laguna 38 1 Safrane 54 1 Espace 34 5 ventes de voitures Renault ventilées en fonction de l'âge et du nombre d'enfants de l'acheteur 4 Ventes de voitures Renault 60 Age 55 50 45 40 35 30 25 20 0 1 2 3 4 Nombre d'enfants Clio Espace 5 Laguna Megane Safrane 5 • La consultation du graphique – des zones bien nettes – permettant de déterminer, pour un nouveau client dont on connaît l'âge et le nombre d'enfants, le modèle susceptible de l'intéresser. – trois nouveaux clients • La notion de distance est la distance métrique • conseil au client 1 une Espace, au 2 une Clio, au 3 une Safrane Ventes de voitures Renault 60 Age 55 50 3 45 40 1 35 30 25 20 2 0 1 2 3 4 Nombre d'enfants 6 Clio Espace Laguna Megane Safrane 5 Prétraitement: Fonction de distance • Pour les données numériques – La valeur absolue de la différence : |A-B| – Le carré de la différence : (A-B)² – La valeur absolue normalisée : |A-B| / (différence maximale) • avantage : se trouve toujours entre 0 et 1, supprime les problèmes d'échelles – libre de créer sa propre fonction. 7 Pré-traitement: Fonction de distance • Pour les autres types de données – à l'utilisateur de définir sa propre fonction de distance – Exemple : • pour comparer le sexe d'un individu, valeur 1 s'ils sont de sexe différent ou la valeur 0 s'ils sont identiques • pour des communes, pourquoi ne pas prendre la distance entre elles ou affecter une codification en fonction du type (urbaine, périurbaine, rurale) ou de la région – toujours préférable d'avoir le résultat entre 0 et 1 8 Prétraitement: Fonction de combinaison consiste à combiner les n voisins les plus proches pour obtenir le résultat de la prédiction souhaitée exemple : soit une liste de clients ayant déjà répondu à une offre commerciale (par oui ou non) l'utilisateur métier estime que les critères les plus déterminants sont le sexe, l'âge et le salaire net du dernier semestre 9 Numéro Age Sexe A 27 F 19000 Non B 51 M 66000 Oui C 52 M 105000 Non D 33 F 55000 Oui E 45 M 45000 Oui 10 Salaire Acheteur • soit un nouveau client : une femme de 45 ans ayant un revenu de 100000 € • cette cliente sera-t-elle intéressée par l'offre ? • La fonction de distance est définie ainsi : – il s'agit d'une femme, donc la distance par rapport aux clients connus sera de 1 avec les hommes et de 0 avec les femmes – A ce chiffre, on ajoute la distance normalisée du salaire et de l'âge – D’où le Tableau des distances : Client Age Sexe Salaire Distance totale A 0.720 0 0.942 1.662 B 0.240 1 0.395 1.635 C 0.280 1 0.058 1.338 D 0.480 0 0.523 1.003 E 0.000 1 0.640 1.640 – Les voisins les plus proches sont dans l'ordre : D C B E A 11 • Utilisons maintenant le résultat de la fonction de combinaison – nombre de voisins retenus ? Nombre de voisins retenus Numéro des voisins 1 2 3 4 5 D DC DCB DCBE DCBEA Réponses des voisins Décompte des réponses Valeur retenue O O,N O,N,O O,N,O,O Oui 1 Non 0 Oui Oui 1 Non 1 ? Oui 2 Non 1 Oui Oui 3 Non 1 Oui O,N,O,O ,N Oui 3 Non 2 Oui Evaluation 100 % 50 % 66 % 75 % 60 % 12 • Utilisons maintenant le résultat de la fonction de combinaison – nombre de voisins retenus ? •Si 3 voisins, réponse favorable avec une probabilité (plutôt espérance) de 66% •possible également de donner un poids à chaque contribution •NB: •Ex: 1er voisin a un poids de 3, 2ème poids de 2, 3ème un poids de 1 •Possible de pondérer chaque variable utilisée dans la fonction de distance 13