Didacticiel‐Étudesdecas  R.R.
3octobre2011 Page1
1 Objectif
Extractiondesitemsetsàl’aideducomposantFREQUENTITEMSETS.
Larecherchedesrégularitésdanslesbasesdedonnéesestl’idéeprincipaledudatamining.Ces
régularitéss’exprimentsousdifférentesformes.Dansl’analysedupanierd’achatsde
consommateurs,l’extractiondesitemsetsconsisteàmettreenexerguelescooccurrencesentresles
produitsachetésc.àd.déterminerlesproduits(lesitems)quisont«souvent»achetés
simultanément.Onparlealorsd’itemsetsfréquents.Parexemple,enanalysantlesticketsdecaisse
d’unsupermarché,onpourraitproduiredesitemsets(unensembled’items)dutype«lepainetle
laitsontprésentsdans10%descaddies».
Larecherchedesitemsetsfréquentsestsouventprésentéecommeunpréalableàl’extractiondes
règlesd’associationl’onessaie,ensus,demettreenévidencedesrelationsdecausalité.En
reprenantnotreexemplecidessus,unerèglepossibleserait«ceuxquiontachetédupainetdulait
ontaussiachetédubeurre».L’objectifestd’exploitercetypedeconnaissancepourmieuxagencer
lesrayons(mettrelebeurrepastroploindupainetdulait)oupourfaireuneoffrepromotionnelle
ciblée(faireunepromotionsurlepainetlelaitdanslebutd’augmenterlesventesdebeurre).
Enréalité,lesitemsetsfréquentssontenellesmêmesporteusesd’informations.Savoirquelssont
lesproduitsachetésensemblespermetd’identifierlesliensexistantsentreeuxet,parlà,deréaliser
unetypologiedesachatsoudedégagerdescomportementstypeschezlesconsommateurs.Dansle
casdupainetdulait,ils’agitcertainementd’achatsrelatifsaupetitdéjeuner.Silesconsommateurs
semettentàacheterconjointementdelaviandeetducharbon,noussommesenété,c’estlasaison
desbarbecues…
Danscetutoriel,nousdécrivonslamiseenœuvreducomposantFREQUENTITEMSETSdeTanagra,
basésurlabibliothèque«apriori.exe»deBorgelt1.Nousutilisonsunpetitjeudedonnéespourque
toutunchacunpuissereconstituermanuellementlesrésultatsproduitsparlelogiciel.Mais,dansun
premiertemps,essayonsd’expliciterlesdifférentesnotionsliéesàl’extractiondesitemsets.
2 Extraction des itemsets
Notrefichiercomporte10observations(transactions)et4items2.
S1 S2 S3 S4
1010
0100
0001
0111
0110
0110
1111
1010
1110
1110

1http://www.borgelt.net/apriori.html(Version5.57)
2http://www.dataminingarticles.com/closedmaximalitemsets.html
Didacticiel‐Étudesdecas  R.R.
3octobre2011 Page2
Enligne,nousavonsdesclientsd’unecompagnied’assurance;encolonne,descontrats(produits)
associésàdiversrisques.Parexemple,leclientn°1acontractélesassurancesS1etS3,etc.
L’objectifestd’identifierlesproduitsquisontplacésdeconcert.
Item.Unitemcorrespondàunproduit.Nousavons4items(S1,S2,S3etS4)dansnotrefichier.
Support.Lesupportd’unitemestégalaunombredetransactionsdanslesquellesilapparaît.Par
exemple,lesupportde{S1}estégalà5.Lesupportpeutêtreexpriméégalemententermesrelatifs.
Danscecas,nousdivisionlesupport(absolu)parlenombretotaldetransactions.PourS1,nous
avonsSUP({S1])=5/10=20%.
Itemset.Unitemsetestunensembled’items(ex.{S1,S2}estunitemsetdecardinalCARD({S1,S2}=
2).Lesupportd’unitemsetcomptabiliselenombredetransactionsdanslesquelleslesitems
apparaissentsimultanément(ex.SUP({S1,S2})=3/10=0.3).Unitemsetpeutêtrecomposéd’un
singleton(ex.{S1}avecSUP({S1})=5/10).
Itemsetfréquent.Unitemsetestditfréquentsisonsupportestsupérieuràunseuildéfinià
l’avance,paramètredel’algorithmederecherche.Dansnotreexemple,enfixantlesupport
minimumà2(ou20%enrelatif),nousobservonsdansleschémasuivantlesitemsetsfréquents
(touteslescombinaisonsnongrisées).
Figure1‐Extractiondesdifférentsitemsets
Superset.Unsupersetestunitemsetdéfiniparrapportàunautreitemset.Prenonsunexemple
pourclarifierlesidées:{S1,S2,S3}estunsupersetde{S1,S2}.Ainsi,demanièregénérale,Bestun
supersetdeA,siCARD(A)<CARD(B)etqueABc.àd.onretrouvedansBtouslesitemsdeA.
Remarquonsunepropriététrèsimportantedusupport:SUP(B)SUP(A).Enparticulier,siAn’est
Didacticiel‐Étudesdecas  R.R.
3octobre2011 Page3
pasfréquent,alorsBneleserapaségalement.Cerésultatpermetderéduireconsidérablement
l’espacederecherchelorsdel’extractiondesitemsetsfréquentsdansunebasededonnées.
Itemsetfermé(closeditemset).Unitemsetfréquentestditfermésiaucundesessupersetsn’ade
supportidentique.Autrementdit,toussessupersetsontunsupportstrictementplusfaible.Dans
notreexemplecidessus,{S1,S3}estfermécaraucundesessupersetsn’adesupportégalà5/10:
SUP({S1,S2,S3})=3/10,SUP({S1,S3,S4})=1/10.
Itemsetmaximal(maximalitemset).Unitemsetestditmaximalsiaucundesessupersetsn’est
fréquent.Dansnotreexemplecidessus,{S1,S2,S3}estmaximalcarsonsuperset{S1,S2,S3,S4}(il
n’yenaqu’un)n’estpasfréquentavecunsupportde1/10.
Itemsetgénérateur(generatoritemset).UnitemsetAestditgénérateurs’iln’existeaucunitemset
BtelqueBAetqueSUP(B)=SUP(A).Autrementdit,l’itemsetestgénérateursitoussessous
itemsetsontunsupportstrictementsupérieur.Dansnotreexemple,{S1,S2,S3}desupport4/10
n’estpasgénérateurpuisqu’ontrouve{S1,S2}avecunsupportidentique.Ilenestdemêmeencequi
concerne{S1,S3}àcausede{S1}.Enrevanche,{S2,S4},desupport2/10,estgénérateurparceque
SUP({S2})=7/10etSUP({S4})=3/10.
3 Extraction des itemsets à l’aide de Tanagra
Nouschargeonslefichier«itemset_mining.xls»dansletableurExcel.Noussélectionnonslaplage
dedonnées,puisnousactionnonslemenuTANAGRA/EXECUTETANAGRAinstalléàl’aidedela
macrocomplémentairetanagra.xla3.
Tanagraestautomatiquementdémarréetlesdonnéeschargées.

3Voirhttp://tutorielsdatamining.blogspot.com/2010/08/laddintanagrapourexcel2007et2010.htmlpour
l’installationetl’utilisationdelamacrodansExcel2007et2010.Elleestégalementfonctionnellesousles
versionsantérieuresd’Excel(http://tutorielsdatamining.blogspot.com/2008/03/importationfichierxlsexcel
macro.html‐Excel97à2003).Enfin,uneprocédureanalogueexistepourOpenOfficeetLibreOffice(voir
http://tutorielsdatamining.blogspot.com/2011/07/tanagraaddonpouropenoffice33.html).
Didacticiel‐Étudesdecas  R.R.
3octobre2011 Page4
Nousspécifionslesvariablesdel’analyseeninsérantlecomposantDEFINESTATUS.Nousplaçons
touteslesvariablesenINPUT.
Didacticiel‐Étudesdecas  R.R.
3octobre2011 Page5
3.1 Itemsetsfréquents
Pourproduirelesitemsetsfréquents,nousajoutonslecomposantFREQUENTITEMSETSdansle
diagramme.NousactionnonslemenuPARAMETERSafindespécifierlesparamètresdel’analyse.
Nousdescendonslesupportminimumà20%.Nousnemodifionspaslesautresparamètres.Par
défaut,l’outilextraitlesitemsetsfréquentsdecardinalcomprisentreMINLENGTH=2etMAX
LENGTH=4.Lesitemsetscomposésd’unsingletonnesontdoncpasgénérés.
1 / 10 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !