Web Usage Mining - Tout sur Selain Kasereka

Téléchargement

1



Web Usage Mining : Mise en place d’un outil d'analyse de données pour le

traitement et l'extraction des connaissances à partir des données d'usage du web

pour la compréhension du comportement des internautes et la restructuration

d'un site web

KASOROMULENDANathanaël(1),KASEREKAKABUNGASelain(2),KUYUNSAMAYUAlain(3),BOPE

DOMILONGOChristian(4)

UniversitédeKinshasa

FacultédesSciences

DépartementdeMathématiquesetInformatique

BP.150KinXI

E‐mail:{nathanael.kasoro,selain.kasereka,alain.kuyunsa,christian.bope}@unikin.ac.cd

Tél:+243991091634‐+243998198073‐+243997828219‐+243993005258

Kinshasa–RD.Congo

(1) ProfesseurAssociéàlafacultédessciencesdel’UniversitédeKinshasa

(2) Assistantàlafacultédessciencesdel’UniversitédeKinshasa

(3) Assistantàlafacultédeslettresetscienceshumainesdel’UniversitédeKinshasa

(4) Assistantàlafacultédessciencesdel’UniversitédeKinshasa

Résumé

Cetarticleprésentequelquesalgorithmesetlapartiemodélisationdel’outildetraitementetl’exploration

desdonnéesd’usageduweb.Exploitantlefichierlogduserveurweb,l’outildevrapermettrederécupérer

lelogfileduserveur,yappliquerlesprocessusdeWebUsageMiningens’appuyantsurlatechniquedes

basesdedonnéesrelationnellesquisebasesurdeslangagedesrequêtesdéclaratifetdehautniveauqui

permetdespécifierlesconditionsàremplirparlesdonnéesetrestreindrel'analysesurunepartiedela

basevérifiantcertainesconditions.CesalgorithmesetcettemodélisationenUMLprésentedonc,uneclé

enmainpouruneimplémentationclaire,d’unlogicieldewebUsageMining,dansunlangagede

programmationdehautniveau.Cetoutildevraêtrecapabledevouspermettredeconnaîtrele

comportementdevosinternautespourmieuxlessatisfaire.

Motsclés:Extractiondeconnaissances,WebUsageMining,fichierlog,UML,Algorithmes

Abstract

Thisarticlepresentssomealgorithmsandthemodelingpartofthetoolfortreatmentandtheexploration

ofthedataofuseoftheWeb.ExploitingthefilelogoftheWebserver,thetoolwillhavetomakeit

possibletorecoverthelogfilefromthewebserverandtoapplyontheprocessesofWebUsageMining

whilerestingtothetechniqueoftherelationaldatabaseswhichisbasedondeclaratorylanguageofthe

requestsandhighlevelwhichmakesitpossibletospecifytheconditionstofillbythedataandtorestrict

theanalysisonpartofthebasecheckingsomeconditions.TherealgorithmsandthismodelinginUMLthus

presents,turn‐keyforaclearimplementation,ofsoftwareofWebUsageMining,inahighlevel

programminglanguage.ThistoolwillhavetobeabletoenableyoutoknowthebehaviorofyourNet

surfersforbettersatisfyingthem.



Keywords:Extractionofknowledge,WebUsageMining,logfile,UML,Algorithms





I. Int

Avecplus

nouvelles

d'informa

l'Internet

garderle

toujours

cetteinf

desutilis

reconcep

(internau

LeWeb

datamin

données

II. Dé

Internet:

deréseau

WorldWi

l’utilisatio

lieusurle

Protocol

aéténo

intéresse



oduction

de3milliar

pagesWeb

tion[TB04].

plutôtqued

nouveaux

nesolution.

rmationest

ateurs(enr

ionoulares

es).

sageMinin

ingestl’art

[GR04]

.

initionsetd

Définitions

Cetermed

x».Nouspr

deWebCon

nduWeb,d

réseau,acc

http:dével

malisé,dan

danslecadr

sdedocu

publiéesc

Parconséq

ansunebibl

isiteursdoi

Eneffet,les

présentéea

gistrédans

ructuration

(WUM)est

d’extraire

scriptiondu

finitleconc

sentonsci‐d

Figur

ortium(w3

éfinitunsite

ssiblesdepu

ppédansle

saversion

decetrav

entsenlign

aquejour,

ent,dans

othèque.Le

entsavoir

tilisateursd

seindusit

lesfichiers

essitesWe

définicom

esinforma

problème

ptderésea

ssousuneil

1.L’archite

):instance

webcom

isunepage(

butdeservi

actuelle,pa

il:leclient

2

(c

r.http:/

leWebco

navenirpr

créateursd

ueleurof

'unsiteWeb

.Ilenresso

detypelo

danslesou

el'applicati

tions(oum

d’intercon

ustrationsi

turesimple

uinormalise

el’ensembl

hôte)

lesdocume

lew3c.La

nvoieuner

www.googl

menceàd

che,onre

ssitesInter

irplusd'inf

apprécieron

tdoncque

)estune

iderépond

nd'unproc

êmedesc

exions,oup

pledel’arch

el’Internet

etdévelopp

despagesi

tshypertex

figureci‐des

quêteause

.fr)etplus

venirlapri

hercheral'i

netintéress

rmationne

davantagel

l'analysedu

tâcheimpo

eauxattent

ssusd'Extr

nnaissance

lussimplem

itectureInte

elesmodèle

nterconnect

essurleWe

sousprésen

rveuretce

20millions

ncipalesour

formations

sàattirere

constituep

manièredo

omporteme

tantedans

sdesvisite

ction.

Bref,

)àpartird

ntde«rése

net:



setoutilspo

esd’unmê

b,ceprotoc

ecequino

ernierrépo

e

ce

ur

à

as

nt

la

rs

le

s

u

ur

e

le

us

3



Figure2.CommunicationentreunclientetunserveurvialeprotocoleHTTP

Ressource:d'aprèslaspécificationdeW3CpourURI2,uneressourceRpeutêtretoutobjetayant

uneidentité.Commeexemplesderessources,nouspouvonsciter:unfichierhtml,uneimageouun

serviceWeb.

RessourceWeb:uneressourceaccessibleparuneversionduprotocoleHTTPouunprotocole

similaire(ex.HTTP‐NG).

ServeurWeb:unserveurquidonneaccèsàdesressourcesWeb.

RequêteWeb:unerequêtepouruneressourceWeb,faiteparunclientwebàunserveurWeb.

PageWeb:ensembledesinformations,consistantenune(ouplusieurs)ressource(s)Web,

identifiée(s)parunseulURL.Exemple:unfichierHTML,unfichierimageetunappletJavaaccessibles

parunseulURLconstituentunepageWeb.

NavigateurWeb(Browser):logicieldetypeclientchargéd'afficherdespagesàl'utilisateuretde

fairedesrequêtesHTTPauserveurWeb.Onl’appelaussiclientweb.

Cache:Lamiseencacheestdéfiniecommeun«mécanismevisantàrestreindreletempsde

récupérationd’uneressourceensauvegardantunecopiedecelle‐cilocalement».Ainsi,lorsdela

requêted’undocument,siunecopiedecedernierestdisponibledanslecache,elleestrenvoyée

commeréponsesansqueleserveurcorrespondantrépondeàunerequête,sinonlarequête

classiqueestenvoyée.

Figure3.Leprotocolehttpavecleserveurproxypourlamiseencache

Proxy:Letermeanglophoneproxyfaitréférenceàunemachineintermédiaireplacéequelquepart

entreleclientetleserveur,quipermetd’acheminerindirectementlesrequêtesdel’unversl’autre.

4



Laprésencedecetypedematérieldansl’architectureréseaudédiéeauWebpeuts’expliquer

suivantdeuxpointsdevue:sécuritéetperformance.Toutd’abord,cetypedemachinesest

généralementplacéensortied’unréseaud’unegrandeentité(campus,grandeentreprise,…),elles

permettentdegérerplusfinementlasécuritéenn’autorisantlesconnexionssurleWebquedepuis

cetteuniquemachine:lesrequêtesdetouslesclientsdel’entitésontainsirelayéesparleproxy.

Reverseproxy:Lereverseproxycomportelesmêmesfonctionnalitésqueleproxyvuducôté

serveur.Danslapratiquelefonctionnementestsimilaire.Sileproxypermetuneplusgrande

souplessedanslagestiondelasécuritépourl’accèsàInternetdesclients,lereverseproxyfaitde

mêmepourlesserveurs:parexemple,dansuneentitédisposantdeplusieursserveursweb,un

reverseproxypeutserviràn’autoriserlesconnexionsdepuisleWebquesurcetteuniquemachine,

lesrequêtesverslesautresserveursétantrelayées.Demême,associéunsystèmedemiseencache

global,ilpermetlaréductiondutraficsortant.

UML:estlelangagedemodélisationunifiédéfiniparGradyBooch,JimRumbaughetIvarJacobson

[Kas12].Outildelatroisièmegénération.LelangageUMLpermetderéaliserunsystèmelogicielenle

représentant,enlespécifiant,enleconstruisantetenledocumentantaupréalable.Ilnes’agitpas

d’unlangagedeprogrammation,nid’unlangagestrict,ilaétéconçupourpermettreàlafoisla

description,l’analyseetlaconceptiond’unsystèmelogicielafindeleréaliserdanslesmeilleures

conditionspossibles.Celangagepermetdoncdedécrirelesplansdeconstructiondusystème

logiciel,enyintégranttouslesélémentsconceptuels,touteslesfonctionsettouteslesbasesde

données,touteslesclassesettouslescomposantslogiciels.Ilpermetégalementdevalidercesplans

avantdecommencerlaprogrammationetderéalisereffectivementlesystème

Données : Lesinformationslesplussimples,lesdonnées,sontcellesquisontproduitespardes

capteurs,descaissesdesupermarchés,…;ellesrelèventdel'observationdirected'unphénomène,

sansInterprétation.Lesdonnées,expriméesdanslelangagedusystèmed'acquisitionetse

présentantenfluxmassifs,sontengénéraldifficilementcompréhensiblesparunêtrehumain.

Connaissances : Lesconnaissancessontissuesdel'interprétationdesdonnées(modèlesdes

phénomènesmétéorologiques,profilsdeclients,…).Ellesenformentunesynthèseabstraitedans

uneperspectivedéterminée.

Extraction des connaissances : Longtemps,lesconnaissancesétaientdirectementfourniesà

lamachine;l'interprétationdesdonnéesquiyconduisaitétaitfaiteparl'homme.Cetteapprochea

connuseslimitesaveclessystèmesexperts,dontonapuconstaterladifficultédeconception

(parfoisplusieurssemestresd'interrogationdesexpertshumainsetdesynthèsedesrésultatspardes

cogniticiens),pourdesmodèlessouventinadaptésaucontexted'application.LerôledudataMining

estalorsdepasserdesdonnéesauxconnaissances,c'estàdired'assisterunopérateurdans

l'interprétation,lasynthèse,l'exploration,lagénéralisationdesdonnéesdontildisposepouren

extrairedesconnaissances[GR04].

FichierLOG:Ils'agitdujournaldesconnexionsquiconserveunetracedesrequêtesetdesopérations

traitéesparleserveur.LesLOGSpeuventêtreenregistrésdanstroistypesdefichiers

• fichierdelogsdetransfert:ilenregistretouslestransfertsdefichiersrésultantd'unerequête

àunserveur;

• fichierdelogsd'erreur:ilconservelatracedesincidentssurvenusdansledialogueavecle

serveur(ex:URLerronée,transfertinterrompu,...);

• fichierdelogsréférentiels:ilindiquelesiteetlapagedeprovenanceetd'arrivée;fichierde

logsd'agent:ilarchivelesinformationssurl'équipementdesutilisateurs(ex:

caractéristiquesdunavigateur,....);

5



Ci‐dessousunexempled’unfichierlogvenantduserveurweb



Figure4.Extraitdufichierlogissusd’unserveurweb

2. Descriptionduproblèmeetpistesdesolution

2.1.Introduction

Vul’apparitiondegrandssupportsd’informationdanslesnouvellestechnologiesdel’informationet

delacommunication,sontnéesdenouvellesapprochesméthodologiquestentantd’extrairenon

seulementdesinformationsvalidesetfiables,maisplusgénéralementdesconnaissancesqui

permettentlaprisededécisionparlesresponsablesd’undomaineparticulier.

Danscetarticleils’agitdemodéliserunoutildeDataMiningensebasantsurl’extractionde

connaissancesàpartirdesdonnéespouroffrirauxwebmastersl’ensembledesconnaissancesy

inclutlesstatistiquessurleurssiteswebafindeprendrelesbonnesdécisionsetsatisfaireleurs

visiteurs(internautes).

Cettemodélisationpermettraauxprogrammeursd’avoirunecléenmainpourdévelopperunprojet

capabled’extrairedel’informationàpartirdufichierlogduserveurwebd’unsitedonnéetprendre

lesdécisionspourconcevoirlesbesoinsdesusagéetmieuxadapterlecontenuetlaformedespages

webaveclesattentesdeclients(visiteurs).

RésoudreceproblèmenousademandédepasserparlesdémarchesduprocessusdeDataMiningà

savoir:

a. leproblème

• formulation:décompositiond’unproblèmecomplexeensousproblèmes,

• récupérationdedonnéessupplémentairesnécessairess’ilyalieu,

• natureduproblème:exploration,créationdemodèles,identificationdemodèles…Poser

• résultatsattendus:lesconnaissancesobtenuesseront‐ellesvraimentexploitables?

IlfautchoisirlestechniquesdedataMiningpourquelerésultatcorrespondeauxattentes

(casdesréseauxdeneuronesquinesontpasexplicatifs).

b. Recherchedesdonnées

• inventairedessourcesdedonnées(commentcombinerdesformatsdifférents?),

• sélectiondesdonnéespertinentesparunexpert(filtragedesattributs).

1 / 12 100%

Documents connexes

titre sur 1 ou 2 lignes maximum

Stage en Data Mining - Machine Learning Group

Data/Pattern Analysis

Fiche-UE_CODE_CR_OPT_DM - LIRIS

Sophie und Karl Binding Stiftung

Glossaire

8INF954 : Forage de données -Data mining

formation access

Télécharger le programme de la formation

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Web Usage Mining - Tout sur Selain Kasereka

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Web Usage Mining - Tout sur Selain Kasereka

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib