Association - LAMSADE - Université Paris

Data Mining/ Machine Learning
Association
Jamal Atif
[email protected]
M2 ID
Université Paris-Dauphine
2015-2016
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
1 / 63
Introduction
Plan
1
Introduction
2
Approche
Notions de base
Sous-ensembles fréquents
Algorithme A Priori
Calcul des supports
Génération des règles
3
Conclusion
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
2 / 63
Introduction
Motivation
Domaine de la grande distribution, marketing
Analyse du panier de la ménagère (Market Basket Model)
Objectifs :
Identifier les produits qui sont achetés ensemble par un nombre suffisant de
consommateurs.
Etudier ce que les clients achètent pour obtenir des informations sur qui sont les
clients et pourquoi ils font certains achats.
Transcrire la connaissance extraite sous la forme de règles d’association (Si ...
alors ...).
Approche :
Analyser les tickets de caisse pour détecter les dépendances entre produits, e.g.
quels produits tendent à être achetés ensemble.
Exemple de règles
Si un client achète des plantes alors il achète du terreau.
Si un client achète du poisson et du citron alors il achète du vin blanc.
Si un client achète une télévision alors il achètera un lecteur de dvd dans un
mois.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
3 / 63
Introduction
Motivation : Exemple
Entrée : Un ensemble de tickets de caisse
Une observation = un caddie, un ticket de caisse.
Non prise en compte de la fréquence des produits.
Un grand nombre de produits, un grand nombre de caddies (petit sous
ensemble de l’ensemble de produits).
Sortie : Des règles
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
4 / 63
Introduction
Approche
Méthode non supervisée : on ne dispose en entrée que de la description des
achats.
Une approche à deux étapes
Calcul des ensemble fréquents : notion à définir.
Générer les règles d’association
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
5 / 63
Introduction
Domaines d’application
Tout domaine où l’on veut rechercher des groupements potentiels de produits
ou de services.
Commerce, Grande distribution
Domaine médical
Détection de copies, plagiarisme
Réseaux sociaux
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
6 / 63
Introduction
Domaines d’application
Commerce, grande distribution
Items : Produits .
Baskets : Ensemble de produits achetés ensemble.
Beaucoup d’applications : prix, promotion, positionnement des produits,
...
Recommandation : Les personnes qui ont acheté X ont aussi acheté Y .
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
7 / 63
Introduction
Domaines d’application
Domaine médical
Items : Médicaments, traitements, effets
Baskets : Patients
Recherche de complications dues à des associations de traitements.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
8 / 63
Introduction
Domaines d’application
Réseaux sociaux
Trouver des communautés dans un graphe
Items : Voisins sortants
Baskets : Noeuds
Recherche de sous-graphes bipartites Ks,t dans un grand graphe
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
9 / 63
Approche
Notions de bases
Plan
1
Introduction
2
Approche
Notions de base
Sous-ensembles fréquents
Algorithme A Priori
Calcul des supports
Génération des règles
3
Conclusion
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
10 / 63
Approche
Notions de bases
Données d’entrées
Exemple (Gilleron & Tommasi, d’après B. Espinasse)
Tableaux de transactions = tableau binaire
On a prédéfini une classification des articles.
Les données d’entrée sont constituées par une liste d’achats.
Un achat est une liste d’articles (de taille variable)
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
11 / 63
Approche
Notions de bases
Données d’entrées
Tableaux de transactions = tableau binaire
Si les données d’entrées ne sont pas binaires, on fait un codage disjonctif
complet
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
12 / 63
Approche
Notions de bases
Tableau de co-occurences
Liste des achats
Tableau de co-occurences
Construction du tableau de cooccurrence entre produits : combien de fois deux
produits ont été achetés ensemble
Permet de déterminer avec quelle fréquence 2 produits se rencontrent dans un même
achat.
Des observations qui suggèrent des règles de la forme Si produit A alors produit D
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
13 / 63
Approche
Notions de bases
Notion de support
Une règle n’est pas toujours vraie : besoins d’indicateurs.
Support d’un sous ensemble I
Fréquence d’apparition simultanée des éléments de I dans la liste des
transactions (ou achats)=nombre de paniers dans lesquels apparaissent tous
les éléments de I.
Occ(I)
support(I) =
N
avec Occ(I) le nombre de transactions contenant I et N le nombre total de
transactions dans la base.
Etant donné un seuil sur le support s, alors l’ensemble des sous ensembles
d’éléments qui apparaissent au moins dans s paniers sont des
sous-ensembles fréquents.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
14 / 63
Approche
Notions de bases
Notion de support
Exemple
Elements : { lait, coca, pepsi, bière, jus de fruit }
seuil de support = 3 (apparition dans 3 paniers au moins)
Paniers :
B1 = {m, c, b}, B2 = {m, p, j}, B3 = {m, b}
B4 = {c, j}, B5 = {m, p, b}, B6 = {m, c, b, j}
B7 = {c, b, j}, B8 = {b, c}
Sous-ensembles fréquents : {m}, {c}, {b}, {j}, {m, b}, {b, c}, {c, j}.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
15 / 63
Approche
Notions de bases
Régles d’association
Règle Si ... alors ... sur le contenu du panier.
Notation {i1 , i2 , ..., ik } → j
Signifie Si un panier contient tous les éléments i1 , i2 , ...ik alors il est
vraisemblable qu’il contienne j.
En pratique, beaucoup de règles. On ne veut trouver que les plus intéressantes
⇒ notion de confiance.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
16 / 63
Approche
Notions de bases
Notion de confiance
Confiance d’une règle d’association
Probabilité de j sachant I = {i1 , i2 , ..., ik }.
conf (I → j) =
support(I ∪ j)
support(I)
Rapport entre le nombre de transactions où tous les éléments figurant
dans la règle (prémisses et conclusion) apparaissent et le nombre de
transactions où les éléments de la prémisse apparaissent.
Seules les règles ayant une certaine valeur de support et de confiance sont
intéressantes.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
17 / 63
Approche
Notions de bases
Notion de support et de confiance : retour à l’exemple
Exemple : support
On considère trois règles R1 = {A} → B, R2 = {A} → D,R3 = {D} → A.
Supports des règles :
support(R1 ) = support({A, B}) = 51 = 0.2
support(R2 ) = support(R3 ) = support({A, B}) =
Jamal Atif (Université Paris-Dauphine)
DL/ML
2
5
= 0.4
2015-2016
18 / 63
Approche
Notions de bases
Notion de support et de confiance : retour à l’exemple
Exemple : confiance
On considère trois règles R1 = {A} → B, R2 = {A} → D,R3 = {D} → A.
Confiance des règles :
conf (R1 ) = conf ({A} → B) =
conf (R2 ) = conf ({A} → D) =
conf (R3 ) = conf ({D} → A) =
support({A,B})
support({A})
support({A,D})
support({A})
support({A,D})
support({D})
=
=
=
0.2
0.8
0.4
0.8
0.4
0.6
= 0.25
= 0.5
= 0.67
On préfère dont R3 à R2 à R1 .
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
19 / 63
Approche
Notions de bases
Support et confiance : pas toujours suffisant
Exemple
On considère trois articles A, B, C et leur fréquence d’apparition
Confiance des règles :
conf ({A, B} → C) = 0.2
conf ({A, C} → B) = 0.25
conf ({B, C} → A) = 0.33
{B, C} → A) a la plus grande confiance : Si B et C sont simultanément dans un
panier, alors A a une probabilité de 0.33 d’y apparaitre.
Mais A apparaı̂t dans 45% des achats.
Il vaut mieux prédire A sans autre information que prédire la règle 3.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
20 / 63
Approche
Notions de bases
Notion d’amélioration
Amélioration
L’amélioration d’une règle d’association I → j est le rapport entre la confiance
de la règle et la fraction d’observations qui contiennent j.
amelioration(I → j) =
conf (I → j)
P r(j)
Une règle est intéressante quand son amélioration est supérieure à 1.
Retour à l’exemple
0.2
0.4 = 0.5
0.25
= 0.425
= 0.59
0.33
= 0.45 = 0.74
0.55
0.425 = 1.3
amelioration({A, B} → C) =
amelioration({A, C} → B)
amelioration({B, C} → A)
amelioration({A} → B) =
La règle {A} → B est la meilleure (en général, celle qui donne le moins
d’articles)
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
21 / 63
Approche
Notions de bases
Notion d’intérêt
Intérêt d’une règle
L’intérêt d’une règle d’association I → j est la différence entre sa confiance et
la fraction d’observations qui contiennent j.
Interet(I → j) = conf (I → j) − P r(j)
Les règles intéressantes sont celles qui ont des valeurs élevées (positives ou
négatives) de valeurs d’intérêt (supérieures à 0.5).
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
22 / 63
Approche
Notions de bases
Extraction des règles d’association
Trouver toutes les règles d’association avec un support ≥ s et une confiance
≥ c (avec s et c fixés par l’analyste)
Deux étapes
Extraction des ensembles fréquents I
support(I) > s
Génération des règles r d’association valides (conf (r) > c)
Pour chaque sous-ensemble A de I, générer la règle A → I|A
Comme I est fréquent, A est aussi fréquent.
Variante 1 : passe unique pour calculer la confiance de la règle
Variante 2 : Si {A, B, C} → D est sous le seuil de confiance, il en est de
même pour {A, B} → C, D
Possibilité de générer des règles à partir de plus petites.
Renvoyer les règles au dessus du seuil de confiance.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
23 / 63
Approche
Sous-ensembles fréquents
Plan
1
Introduction
2
Approche
Notions de base
Sous-ensembles fréquents
Algorithme A Priori
Calcul des supports
Génération des règles
3
Conclusion
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
24 / 63
Approche
Sous-ensembles fréquents
Ordre, borne sup ,borne inf
Un ensemble E est ordonné s’il est muni d’une relation d’ordre binaire
(≤), reflexive, antisymétrique et transitive.
Un majorant (resp. minorant) d’une partie A de E est un élément x tel
que ∀y ∈ A, y ≤ x (resp. ∀y ∈ A, y ≥ x).
La borne supérieure (resp. borne inférieure) d’une partie A est le plus
petit (resp. plus grand) des majorants (resp. minorants). Elle n’existe pas
forcement.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
25 / 63
Approche
Sous-ensembles fréquents
Treillis
Un treillis est un ensemble dans lequel chaque couple d’éléments possède
une borne supérieure et une borne inférieure.
Si une seule des deux propriétés est vérifiée, on parle de demi-treillis.
L’ensemble des mots fréquents forme un demi-treillis :
L’intersection de deux ensembles de mots fréquents est fréquente.
L’union de deux ensembles de mots non fréquents est non fréquente.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
26 / 63
Approche
Sous-ensembles fréquents
Treillis : exemple
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
27 / 63
Approche
Sous-ensembles fréquents
Treillis : exemple
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
28 / 63
Approche
Sous-ensembles fréquents
Recherche des ensembles fréquents : aspect
algorithmique
On veut trouver les ensembles fréquents. Pour cela, on doit les compter et
donc on doit les générer.
Ordre de grandeur du problème :
20!
= 190 paires d’éléments :
Pour un panier de 20 éléments, il y a 2!18!
peuvent être générer facilement par des boucles for imbriquées.
Si on cherche des sous-ensembles de taille plus grande k, cela prend
k
approximativement nk! de temps pour générer tous les ensembles de taille
k d’un panier contenant n éléments.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
29 / 63
Approche
Sous-ensembles fréquents
Recherche des ensembles fréquents : aspect
algorithmique
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
30 / 63
Approche
Sous-ensembles fréquents
Recherche des ensembles fréquents : aspect
algorithmique
Approche naı̈ve
Chaque élément du treillis est un candidat.
Calcul du support de chaque candidat en scannant la base de données des
transactions.
Mise en correspondance de chaque transaction avec chaque candidat
Complexité : O(N M w) avec M = 2d .
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
31 / 63
Approche
Sous-ensembles fréquents
Recherche des ensembles fréquents : aspect
algorithmique
Quelques stratégies
Réduction du nombre de candidats (M ) : utilisation de techniques
d’élagage (Algorithme A Priori)
Réduction du nombre de transactions (N ) : Algorithmes DHP ou
vertical-based.
Réduction du nombre de comparaisons (N M ) :
Utilisation de structures de données efficaces pour le stockage des
candidats ou des transactions.
Pas besoin de mettre en correspondance chaque candidat avec chaque
transaction.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
32 / 63
Approche
Sous-ensembles fréquents
Plan
1
Introduction
2
Approche
Notions de base
Sous-ensembles fréquents
Algorithme A Priori
Calcul des supports
Génération des règles
3
Conclusion
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
33 / 63
Approche
Sous-ensembles fréquents
Propriété de monotonie des ensembles fréquents
Réduction du nombre de candidats.
Monotonie
Les sous-ensembles d’un ensemble fréquent sont fréquents.
Si un ensemble d’éléments I apparaı̂t au moins s fois, il en est de même
pour chaque sous ensemble J de I (J ⊆ I).
Contraposée pour les pairs
Si un élément n’apparait pas dans s paniers, alors aucune paire comprenant i
n’apparaitra dans s paniers.
Propriété de la fonction support
∀X, Y, (X ⊆ Y ) ⇒ support(X) ≥ support(Y )
Le support d’un ensemble d’éléments n’excède jamais le support de ses
sous-ensembles.
Propriété d’anti-monotonie de la fonction support.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
34 / 63
Approche
Sous-ensembles fréquents
Propriété de monotonie
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
35 / 63
Approche
Sous-ensembles fréquents
Algorithme A-Priori
Proposé par Agrawal et Srikant en 1994 : premier algorithme de recherche de règles
d’association incluant des étapes d’élagage pour tenir compte de la croissance exponentielle
du nombre d’ensembles d’éléments candidats.
Principe
Les ensembles de cardinal k sont générés à partir de ceux de cardinal k − 1
Une fois les ensembles de cardinal k générés, calcul de leur support et étape de filtrage
pour ne conserver que les fréquents.
Plus précisemment
Soit Ck l’ensemble des ensembles d’éléments de taille k et Fk l’ensemble des ensembles
d’éléments fréquents de taille k.
L’algorithme commence pour déterminer le support de chaque élément (∈ C1 ) :
initialisation de F1
L’algorithme génère itérativement les ensembles d’éléments fréquents de taille k à
partir des ensembles d’éléments de taille k − 1 obtenus à l’étape précédente.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
36 / 63
Approche
Sous-ensembles fréquents
Algorithme A-Priori. Illustration
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
37 / 63
Approche
Sous-ensembles fréquents
Algorithme A-Priori- Génération
On fait l’union de tous les ensembles de mots n’ayant qu’un seul élément
différent.
Seuls les ensembles dont tous les sous-ensembles sont fréquents sont
conservés.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
38 / 63
Approche
Sous-ensembles fréquents
Algorithme A-Priori- Génération
Exemple avec s =
2
5
Support({A}) = 1 , Support({B}) = 4, Support({C}) = 2, Support({D}) = 2
F1 = {{B}, {C}, {D}}
C2 = {{B, C}, {C, D}, {B, D}}
Support({B, C}) = 1 , Support({B, D}) = 2, Support({C, D}) = 0
F2 = {{B, D}}
C3 = ∅
F = {{B}, {C}, {D}, {B, D}}
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
39 / 63
Approche
Sous-ensembles fréquents
Algorithme A-Priori- Génération
Data : F : ensemble d’éléments fréquents de cardinal k
C ← {c = f1 ∪ f2 , (f1 , f2 ) ∈ F × F, card(c) = k + 1}
for c ∈ C do
for s ⊂ c, card(s) = k do
if s 6∈ F then
C ← C\{c}
return C
Algorithme 1 : APRIORI-GEN(F )
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
40 / 63
Approche
Sous-ensembles fréquents
Algorithme A-Priori
Data : T : ensemble des observations, s seuil sur le support
S
Result : k Fk
C1 ← {singletons}
k←1
while Ck 6= ∅ do
for c ∈ Ck do
for t ∈ T do
if c ⊂ t then
support(c) ← support(c) + 1
Fk = {c ∈ Ck , support(c) ≥ s}
k ←k+1
Ck ← AP RIORI − GEN (Fk−1 )
S
return
k Fk
Algorithme 2 : APRIORI(T, s)
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
41 / 63
Approche
Sous-ensembles fréquents
Algorithme A-Priori : exemple
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
42 / 63
Approche
Sous-ensembles fréquents
Plan
1
Introduction
2
Approche
Notions de base
Sous-ensembles fréquents
Algorithme A Priori
Calcul des supports
Génération des règles
3
Conclusion
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
43 / 63
Approche
Sous-ensembles fréquents
Calcul du support de chaque sous-ensemble fréquent
Approche naı̈ve : comparaison de chaque transaction avec chaque candidat et
mise à jour d’un compteur.
⇒ il faut réduire le nombre de comparaisons.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
44 / 63
Approche
Sous-ensembles fréquents
Calcul du support de chaque sous-ensemble fréquent
Alternative :Enumération de chaque sous-ensemble contenu dans chaque transaction et mise
à jour du compteur pour celui-ci.
1|2356| représente un ensemble à 3 éléments dont le préfixe est 1 suivi par 2 autres éléments
choisis dans |2356|
Exemple de génération des sous ensembles de 3 éléments pour une transaction à 5 éléments.
(En considérant que les éléments sont triés en ordre lexicographique croissant.)
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
45 / 63
Approche
Sous-ensembles fréquents
Réduction du nombre de comparaisons
Avec une table de hachage.
Compter les occurrences des candidats : mise en correspondance
Scan de la base des transaction pour déterminer le support de chaque
candidat.
Utilisation d’une table de hachage pour stocker les candidats pour réduire
le nombre de comparaisons : au lieu de faire la correspondance entre
chaque transaction et chaque candidat, on met la transaction en
correspondance avec les candidats déjà contenus dans la table de hachage.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
46 / 63
Approche
Sous-ensembles fréquents
Comptage du support avec une structure de hachage :
Principe
Dans l’algorithme A Priori, les ensembles candidats sont partitionnés en
paquets par hachage et stockés dans un arbre de hachage.
Lors du comptage, les ensembles contenus dans les transactions sont aussi
hachés dans leur paquet.
Permet de ne comparer que les ensembles d’un même paquet.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
47 / 63
Approche
Sous-ensembles fréquents
Comptage du support avec une structure de hachage :
Génération de l’arbre de hachage
On suppose 15 ensembles de 3 élements :
{1, 4, 5}, {1, 2, 4}, {4, 5, 7}, {1, 2, 5}, {4, 5, 8}, {1, 5, 9}, {1, 3, 6}, {2, 3, 4}, {5, 6, 7}, {3, 4, 5}, {3
On a la fonction de hachage : h(p) = pmod3
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
48 / 63
Approche
Sous-ensembles fréquents
Comptage du support avec une structure de hachage :
Génération de l’arbre de hachage
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
49 / 63
Approche
Sous-ensembles fréquents
Comptage du support avec une structure de hachage :
Génération de l’arbre de hachage
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
50 / 63
Approche
Sous-ensembles fréquents
Comptage du support avec une structure de hachage :
Génération de l’arbre de hachage
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
51 / 63
Approche
Sous-ensembles fréquents
Comptage du support avec une structure de hachage :
Mise en correspondance avec 1 transaction
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
52 / 63
Approche
Sous-ensembles fréquents
Comptage du support avec une structure de hachage :
Mise en correspondance avec 1 transaction
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
53 / 63
Approche
Sous-ensembles fréquents
Comptage du support avec une structure de hachage :
Mise en correspondance avec 1 transaction
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
54 / 63
Approche
Sous-ensembles fréquents
Algorithme A Priori : facteurs impactant la complexité
Facteurs
Choix du seuil s sur le support.
Nombre d’ensembles candidats et longueur maximale des ensembles
fréquents.
Nombre d’éléments dans le jeu de données.
Taille du jeu de données, i.e. nombre de transactions.
Longueur moyenne d’une transaction.
longueur maximale des ensembles fréquents et traversée de l’arbre de
hachage.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
55 / 63
Approche
Génération des règles
Plan
1
Introduction
2
Approche
Notions de base
Sous-ensembles fréquents
Algorithme A Priori
Calcul des supports
Génération des règles
3
Conclusion
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
56 / 63
Approche
Génération des règles
Génération des règles d’association
Principe
A partir des k-ensembles fréquents.
Pour chaque ensemble fréquent I, générer tous les sous-ensembles S non
vides.
Pour chaque sous-ensemble S, si conf (S → L − S) > c, alors générer la
règle S → L − S.
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
57 / 63
Approche
Génération des règles
Génération des règles d’association
Exemple
Ensemble {2, 3, 5}.
Sous-ensembles non vides : {2}, {3}, {5}, {2, 3}, {3, 5}, {2, 5}
Confiance :
conf (I → j) =
support(I ∪ j)
support(I)
Règles :
{2, 3} → 5,
{2, 5} → 3,
{3, 5} → 2,
{2} → 3, 5,
{3} → 2, 5,
{5} → 2, 3,
conf
conf
conf
conf
conf
conf
=
=
=
=
=
=
2
2
2
3
2
2
2
3
2
3
2
3
Jamal Atif (Université Paris-Dauphine)
=
=
=
=
=
=
1
0.66
1
0.66
0.66
0.66
DL/ML
2015-2016
58 / 63
Approche
Génération des règles
Génération des règles d’association
Complexité
Si |I| = k, alors il y a 2k − 2 règles candidates (en ignorant I → ∅ et ∅ → I)
Comment rendre la génération efficace ?
La fonction de confiance n’a pas la propriété d’anti-monotonie en général
conf (ABC → D) peut être plus grand ou plus petit que conf (AB → D)
Mais, la confiance des règles générées par le même ensemble respecte la
propriété d’anti-monotonie.
Pour {A, B, C, D}, conf (ABC → D) ≥ conf (AB → CD) ≥ conf (A → BCD).
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
59 / 63
Approche
Génération des règles
Génération des règles d’association avec l’algorithme A
Priori
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
60 / 63
Approche
Génération des règles
Génération des règles d’association avec l’algorithme A
Priori
Principe
Les règles candidates sont générées en fusionnant deux règles qui
partagent le même préfixe dans la partie conclusion.
La fusion de CD → AB et de BD → AC produit D → ABC.
Couper la règle D → ABC si son sous ensemble AD → BC n’a pas une
confiance élevée (i.e. au dessus du seuil).
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
61 / 63
Conclusion
Plan
1
Introduction
2
Approche
Notions de base
Sous-ensembles fréquents
Algorithme A Priori
Calcul des supports
Génération des règles
3
Conclusion
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
62 / 63
Conclusion
Conlusion
Conclusion sur les règles d’association
Résultats clairs : les règles d’association sont faciles à interpréter, à
utiliser pour des applications concrètes.
Apprentissage non supervisé : elles ne nécessitent pas d’autre information
qu’une classification en articles et de la donnée d’une liste d’articles.
Achats de taille variable : méthode qui permet de prendre en entrée des
transactions de taille variable.
Méthode simple : disponible dans la plupart des utilitaires de data mining.
De nombreuses extensions :
Améliorations de A Priori.
Introduction du temps : gestion de séries temporelles
Jamal Atif (Université Paris-Dauphine)
DL/ML
2015-2016
63 / 63

Association - LAMSADE - Université Paris

Documents connexes

Produits

Soutien

Association - LAMSADE - Université Paris

Documents connexes

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib