1 Objectif 2 Extraction des itemsets

Téléchargement

Didacticiel‐Étudesdecas  R.R.

3octobre2011 Page1

1 Objectif

Extractiondesitemsetsàl’aideducomposantFREQUENTITEMSETS.

Larecherchedesrégularitésdanslesbasesdedonnéesestl’idéeprincipaledudatamining.Ces

régularitéss’exprimentsousdifférentesformes.Dansl’analysedupanierd’achatsde

consommateurs,l’extractiondesitemsetsconsisteàmettreenexerguelescooccurrencesentresles

produitsachetésc.‐à‐d.déterminerlesproduits(lesitems)quisont«souvent»achetés

simultanément.Onparlealorsd’itemsetsfréquents.Parexemple,enanalysantlesticketsdecaisse

d’unsupermarché,onpourraitproduiredesitemsets(unensembled’items)dutype«lepainetle

laitsontprésentsdans10%descaddies».

Larecherchedesitemsetsfréquentsestsouventprésentéecommeunpréalableàl’extractiondes

règlesd’associationoùl’onessaie,ensus,demettreenévidencedesrelationsdecausalité.En

reprenantnotreexempleci‐dessus,unerèglepossibleserait«ceuxquiontachetédupainetdulait

ontaussiachetédubeurre».L’objectifestd’exploitercetypedeconnaissancepourmieuxagencer

lesrayons(mettrelebeurrepastroploindupainetdulait)oupourfaireuneoffrepromotionnelle

ciblée(faireunepromotionsurlepainetlelaitdanslebutd’augmenterlesventesdebeurre).

Enréalité,lesitemsetsfréquentssontenelles‐mêmesporteusesd’informations.Savoirquelssont

lesproduitsachetésensemblespermetd’identifierlesliensexistantsentreeuxet,parlà,deréaliser

unetypologiedesachatsoudedégagerdescomportementstypeschezlesconsommateurs.Dansle

casdupainetdulait,ils’agitcertainementd’achatsrelatifsaupetitdéjeuner.Silesconsommateurs

semettentàacheterconjointementdelaviandeetducharbon,noussommesenété,c’estlasaison

desbarbecues…

Danscetutoriel,nousdécrivonslamiseenœuvreducomposantFREQUENTITEMSETSdeTanagra,

basésurlabibliothèque«apriori.exe»deBorgelt1.Nousutilisonsunpetitjeudedonnéespourque

toutunchacunpuissereconstituermanuellementlesrésultatsproduitsparlelogiciel.Mais,dansun

premiertemps,essayonsd’expliciterlesdifférentesnotionsliéesàl’extractiondesitemsets.

2 Extraction des itemsets

Notrefichiercomporte10observations(transactions)et4items2.

S1 S2 S3 S4

1010

0100

0001

0111

0110

1111

1010

1110





1http://www.borgelt.net/apriori.html(Version5.57)

2http://www.dataminingarticles.com/closed‐maximal‐itemsets.html

Didacticiel‐Étudesdecas  R.R.

3octobre2011 Page2

Enligne,nousavonsdesclientsd’unecompagnied’assurance;encolonne,descontrats(produits)

associésàdiversrisques.Parexemple,leclientn°1acontractélesassurancesS1etS3,etc.

L’objectifestd’identifierlesproduitsquisontplacésdeconcert.

Item.Unitemcorrespondàunproduit.Nousavons4items(S1,S2,S3etS4)dansnotrefichier.

Support.Lesupportd’unitemestégalaunombredetransactionsdanslesquellesilapparaît.Par

exemple,lesupportde{S1}estégalà5.Lesupportpeutêtreexpriméégalemententermesrelatifs.

Danscecas,nousdivisionlesupport(absolu)parlenombretotaldetransactions.PourS1,nous

avonsSUP({S1])=5/10=20%.

Itemset.Unitemsetestunensembled’items(ex.{S1,S2}estunitemsetdecardinalCARD({S1,S2}=

2).Lesupportd’unitemsetcomptabiliselenombredetransactionsdanslesquelleslesitems

apparaissentsimultanément(ex.SUP({S1,S2})=3/10=0.3).Unitemsetpeutêtrecomposéd’un

singleton(ex.{S1}avecSUP({S1})=5/10).

Itemsetfréquent.Unitemsetestditfréquentsisonsupportestsupérieuràunseuildéfinià

l’avance,paramètredel’algorithmederecherche.Dansnotreexemple,enfixantlesupport

minimumà2(ou20%enrelatif),nousobservonsdansleschémasuivantlesitemsetsfréquents

(touteslescombinaisonsnon‐grisées).



Figure1‐Extractiondesdifférentsitemsets

Superset.Unsupersetestunitemsetdéfiniparrapportàunautreitemset.Prenonsunexemple

pourclarifierlesidées:{S1,S2,S3}estunsupersetde{S1,S2}.Ainsi,demanièregénérale,Bestun

supersetdeA,siCARD(A)<CARD(B)etqueA⊂Bc.‐à‐d.onretrouvedansBtouslesitemsdeA.

Remarquonsunepropriététrèsimportantedusupport:SUP(B)≤SUP(A).Enparticulier,siAn’est

Didacticiel‐Étudesdecas  R.R.

3octobre2011 Page3

pasfréquent,alorsBneleserapaségalement.Cerésultatpermetderéduireconsidérablement

l’espacederecherchelorsdel’extractiondesitemsetsfréquentsdansunebasededonnées.

Itemsetfermé(closeditemset).Unitemsetfréquentestditfermésiaucundesessupersetsn’ade

supportidentique.Autrementdit,toussessupersetsontunsupportstrictementplusfaible.Dans

notreexempleci‐dessus,{S1,S3}estfermécaraucundesessupersetsn’adesupportégalà5/10:

SUP({S1,S2,S3})=3/10,SUP({S1,S3,S4})=1/10.

Itemsetmaximal(maximalitemset).Unitemsetestditmaximalsiaucundesessupersetsn’est

fréquent.Dansnotreexempleci‐dessus,{S1,S2,S3}estmaximalcarsonsuperset{S1,S2,S3,S4}(il

n’yenaqu’un)n’estpasfréquentavecunsupportde1/10.

Itemsetgénérateur(generatoritemset).UnitemsetAestditgénérateurs’iln’existeaucunitemset

BtelqueB⊂AetqueSUP(B)=SUP(A).Autrementdit,l’itemsetestgénérateursitoussessous‐

itemsetsontunsupportstrictementsupérieur.Dansnotreexemple,{S1,S2,S3}desupport4/10

n’estpasgénérateurpuisqu’ontrouve{S1,S2}avecunsupportidentique.Ilenestdemêmeencequi

concerne{S1,S3}àcausede{S1}.Enrevanche,{S2,S4},desupport2/10,estgénérateurparceque

SUP({S2})=7/10etSUP({S4})=3/10.

3 Extraction des itemsets à l’aide de Tanagra

Nouschargeonslefichier«itemset_mining.xls»dansletableurExcel.Noussélectionnonslaplage

dedonnées,puisnousactionnonslemenuTANAGRA/EXECUTETANAGRAinstalléàl’aidedela

macrocomplémentairetanagra.xla3.



Tanagraestautomatiquementdémarréetlesdonnéeschargées.



3Voirhttp://tutoriels‐data‐mining.blogspot.com/2010/08/ladd‐in‐tanagra‐pour‐excel‐2007‐et‐2010.htmlpour

l’installationetl’utilisationdelamacrodansExcel2007et2010.Elleestégalementfonctionnellesousles

versionsantérieuresd’Excel(http://tutoriels‐data‐mining.blogspot.com/2008/03/importation‐fichier‐xls‐excel‐

macro.html‐Excel97à2003).Enfin,uneprocédureanalogueexistepourOpenOfficeetLibreOffice(voir

http://tutoriels‐data‐mining.blogspot.com/2011/07/tanagra‐addon‐pour‐openoffice‐33.html).

Didacticiel‐Étudesdecas  R.R.

3octobre2011 Page4



Nousspécifionslesvariablesdel’analyseeninsérantlecomposantDEFINESTATUS.Nousplaçons

touteslesvariablesenINPUT.



Didacticiel‐Étudesdecas  R.R.

3octobre2011 Page5

3.1 Itemsetsfréquents

Pourproduirelesitemsetsfréquents,nousajoutonslecomposantFREQUENTITEMSETSdansle

diagramme.NousactionnonslemenuPARAMETERSafindespécifierlesparamètresdel’analyse.



Nousdescendonslesupportminimumà20%.Nousnemodifionspaslesautresparamètres.Par

défaut,l’outilextraitlesitemsetsfréquentsdecardinalcomprisentreMINLENGTH=2etMAX

LENGTH=4.Lesitemsetscomposésd’unsingletonnesontdoncpasgénérés.



1 / 10 100%

Documents connexes

Extraction incrémentale de séquences fréquentes dans un

[hal-00447421, v1] FIASCO : un nouvel algorithme d

Fouille de données complexes : des relevés terrain aux

Fouille de données complexes : des relevés terrain - Agritrop

Algorithme distribué pour l`extraction des fréquents maximaux

Règles d`association et détection de profils à risque

ALOA2i : OPTIMISATION D`EXTRACTION DES K- ITEMSETS

slides ... - Vincent Lemaire

Maintenance des motifs fermés fréquents dans

Extraction des règles d`association

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

1 Objectif 2 Extraction des itemsets

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

1 Objectif 2 Extraction des itemsets

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib