Ingénierie de la fouille et de la visualisation de données massives

Téléchargement

Ingénierie de la fouille et de la

visualisation de données massives

(RCP216)

Réduction de l’ordre de complexité

Michel Crucianu

(p[email protected])

http ://cedric.cnam.fr/vertigo/Cours/RCP216/

Département Informatique

Conservatoire National des Arts & Métiers, Paris, France

28 février 2017

Réduction de l’ordre de complexité : besoins et problèmes 1 / 29

Plan du cours

2Réduction de l’ordre de complexité : besoins et problèmes

Principe et typologie des besoins

3Typologie des méthodes

4Locality-Sensitive Hashing (LSH)

Hachage et similarité

LSH pour métriques courantes

LSH et la similarité entre ensembles

Amplication de fonctions LSH

Réduction de l’ordre de complexité : besoins et problèmes Principe et typologie des besoins 2 / 29

Méthodes de réduction de la complexité

A. Réduction du volume de données (sans changer l’ordre de complexité)

B. Réduction de l’ordre de complexité (sans diminuer le volume de données)

Principe : les modèles sont souvent locaux, la décision est locale −→ les calculs

impliquant des données éloignées peuvent être évités

Solutions basées sur l’utilisation d’index multidimensionnels ou métriques

Méthodes exactes ou approximatives

Réduction de l’ordre de complexité : besoins et problèmes Principe et typologie des besoins 3 / 29

Réduction de l’ordre de complexité : typologie des besoins

Recherche par similarité (par ex. pour recommandation par similarité)

Décision : kplus proches voisins, machine à noyaux

Estimation de densité (description, décision)

Classication automatique, quantication

Jointure par similarité (par ex. identication proximités fortes)

Apprentissage supervisé, apprentissage semi-supervisé

Réduction de l’ordre de complexité : besoins et problèmes Principe et typologie des besoins 4 / 29

Recherche par similarité

Recherche par intervalle (range query) : Ranger(q) = {x∈ D|∀i,|xi−qi| ≤ ri}

Recherche dans un rayon (sphere query) : Sphere(q) = {x∈ D|d(x,q)≤}

Recherche des kplus proches voisins (kppv, kNN) :

kNN(q) = {x∈ D| |kNN(q)|=k∧ ∀y∈ D − kNN(q),d(y,q)>d(x,q)}

range query sphere query kNN query

Ndonnées ⇒complexité O(N)?

Réduction de l’ordre de complexité : besoins et problèmes Principe et typologie des besoins 5 / 29

Décision : kplus proches voisins

1Trouver les kppv de x

2Vote majoritaire des kppv (avec ou sans rejet d’ambiguïté)

kplus proches voisins

Ndonnées ⇒complexité O(N)?

Réduction de l’ordre de complexité : besoins et problèmes Principe et typologie des besoins 6 / 29

Décision : machine à noyaux

f∗(x) =

i=1

α∗

iyiK(x,xi) + b∗

machine à noyaux

Nvecteurs xi(vecteurs support) ⇒complexité O(N)?

Noyau local (K(x,xi)≈0pour d(x,xi)> )⇒seuls comptent les voisins dans un rayon

Réduction de l’ordre de complexité : besoins et problèmes Principe et typologie des besoins 7 / 29

Estimation de densité

1Noyaux de Parzen : noyaux Kidentiques centrés sur les Nobservations initiales, la

densité en xest f(x)∝PN

i=1 K(x,xi)

2Modèle paramétrique (par ex. mélange additif de lois normales) : la densité est une

somme pondérée de lois, on note par Nle nombre de lois dans le mélange

Nnoyaux ⇒complexité O(N)?

Noyau local (K(x,xi)≈0pour d(x,xi)> ) ou loi à décroissance rapide ⇒seuls

comptent les voisins dans un rayon

Réduction de l’ordre de complexité : besoins et problèmes Principe et typologie des besoins 8 / 29

Classication automatique, quantication vectorielle

k-means : groupes représentés par leurs centres de gravité, nombre de centres xé

(mais on considère que pour Ndonnées il faudrait utiliser O(N1/3)centres)

k-medoids : extension aux espaces métriques en général, chaque groupe est

représenté par son élément le plus central (medoid)

Classication ascendante hiérarchique : arbre de regroupements, pouvant donner de

multiples partitionnements

Ndonnées ⇒complexité O(N)(ou O(N4/3)), resp. O(N2)et O(N2log N)?

Réduction de l’ordre de complexité : besoins et problèmes Principe et typologie des besoins 9 / 29

Jointure par similarité

Jointure avec seuil de distance θ, ensembles D1,D2, avec N1et respectivement N2

éléments : Kθ={(x,y)|x∈ D1,y∈ D2,d(x,y)≤θ}

Auto-jointure : D1≡ D2

jointure par similarité auto-jointure par similarité

⇒complexité O(N1×N2)?⇒complexité O(N2)?

1 / 16 100%

Documents connexes

Département des Lettres et Sciences Humaines

L`émigration espagnole aux Indes d`Amérique (16e

Présentation générale

cours electronique puissance ch2

Représentation barycentrique pour l`apprentissage non

Sujet de TME : télécharger le pdf

programme de l`université européenne d`été 2007.

Lorenceau CoursVisionIntro

Apprentissage non supervisé à partir de similarité pour l`analyse de

Profils postes 2016

Examen 2 2010 2011

Textes longs Word - fr.maico

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Ingénierie de la fouille et de la visualisation de données massives

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Ingénierie de la fouille et de la visualisation de données massives

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib