1
Web Usage Mining : Mise en place d’un outil d'analyse de données pour le
traitement et l'extraction des connaissances à partir des données d'usage du web
pour la compréhension du comportement des internautes et la restructuration
d'un site web
KASOROMULENDANathanaël(1),KASEREKAKABUNGASelain(2),KUYUNSAMAYUAlain(3),BOPE
DOMILONGOChristian(4)
UniversitédeKinshasa
FacultédesSciences
DépartementdeMathématiquesetInformatique
BP.150KinXI
Email:{nathanael.kasoro,selain.kasereka,alain.kuyunsa,christian.bope}@unikin.ac.cd
Tél:+243991091634‐+243998198073‐+243997828219‐+243993005258
KinshasaRD.Congo
(1) ProfesseurAssociéàlafacultédessciencesdel’UniversitédeKinshasa
(2) Assistantàlafacultédessciencesdel’UniversitédeKinshasa
(3) Assistantàlafacultédeslettresetscienceshumainesdel’UniversitédeKinshasa
(4) Assistantàlafacultédessciencesdel’UniversitédeKinshasa
Résumé
Cetarticleprésentequelquesalgorithmesetlapartiemodélisationdel’outildetraitementetl’exploration
desdonnéesd’usageduweb.Exploitantlefichierlogduserveurweb,l’outildevrapermettrederécupérer
lelogfileduserveur,yappliquerlesprocessusdeWebUsageMiningens’appuyantsurlatechniquedes
basesdedonnéesrelationnellesquisebasesurdeslangagedesrequêtesdéclaratifetdehautniveauqui
permetdespécifierlesconditionsàremplirparlesdonnéesetrestreindrel'analysesurunepartiedela
basevérifiantcertainesconditions.CesalgorithmesetcettemodélisationenUMLprésentedonc,uneclé
enmainpouruneimplémentationclaire,d’unlogicieldewebUsageMining,dansunlangagede
programmationdehautniveau.Cetoutildevraêtrecapabledevouspermettredeconnaîtrele
comportementdevosinternautespourmieuxlessatisfaire.
Motsclés:Extractiondeconnaissances,WebUsageMining,fichierlog,UML,Algorithmes
Abstract
Thisarticlepresentssomealgorithmsandthemodelingpartofthetoolfortreatmentandtheexploration
ofthedataofuseoftheWeb.ExploitingthefilelogoftheWebserver,thetoolwillhavetomakeit
possibletorecoverthelogfilefromthewebserverandtoapplyontheprocessesofWebUsageMining
whilerestingtothetechniqueoftherelationaldatabaseswhichisbasedondeclaratorylanguageofthe
requestsandhighlevelwhichmakesitpossibletospecifytheconditionstofillbythedataandtorestrict
theanalysisonpartofthebasecheckingsomeconditions.TherealgorithmsandthismodelinginUMLthus
presents,turnkeyforaclearimplementation,ofsoftwareofWebUsageMining,inahighlevel
programminglanguage.ThistoolwillhavetobeabletoenableyoutoknowthebehaviorofyourNet
surfersforbettersatisfyingthem.
Keywords:Extractionofknowledge,WebUsageMining,logfile,UML,Algorithms

I. Int
r
Avecplus
nouvelles
d'informa
l'Internet
garderle
s
toujours
u
cetteinf
o
desutilis
reconcep
t
(internau
t
LeWeb
U
datamin
données
II.
f
1.
Internet:
deréseau
WorldWi
l’utilisatio
lieusurle
Protocol
e
aéténo
r
intéresse
r
oduction
de3milliar
pagesWeb
tion[TB04].
plutôtqued
s
nouveaux
v
u
nesolution.
o
rmationest
ateurs(enr
e
t
ionoulares
t
t
es).
sageMinin
g
ingestl’art
[GR04]
.
f
initionsetd
e
Définitions
Cetermed
é
x».Nouspr
é
deWebCon
s
nduWeb,d
réseau,acc
e
e
http:dével
o
r
malisé,dan
s
danslecadr
e
d
sdedocu
m
publiéesc
h
Parconséq
u
ansunebibl
i
v
isiteursdoi
v
Eneffet,les
u
présentéea
u
e
gistrédans
t
ructuration
d
g
(WUM)est
d’extraire
d
e
scriptiondu
é
finitleconc
e
é
sentonscid
e
Figur
e
s
ortium(w3
c
éfinitunsite
e
ssiblesdepu
o
ppédansle
s
saversion
e
decetrav
a
m
entsenlign
e
h
aquejour,
u
ent,dans
u
i
othèque.Le
s
v
entsavoir
q
u
tilisateursd
'
u
seindusit
e
lesfichiers
d
essitesWe
b
définicom
m
d
esinforma
problème
e
ptderésea
u
e
ssousuneil
l
e
1.L’archite
c
c
):instance
q
webcom
m
isunepage(
butdeservi
r
actuelle,pa
r
a
il:leclient
e
2
e
(c
f
r.http:/
/
leWebco
m
u
navenirpr
o
s
créateursd
e
q
ueleurof
f
r
'unsiteWeb
e
.Ilenresso
r
detypelo
g
b
danslesou
c
m
el'applicati
o
tions(oum
u
d’intercon
n
l
ustrationsi
m
c
turesimple
d
q
uinormalise
m
el’ensembl
e
hôte)
r
lesdocume
n
r
lew3c.La
e
nvoieuner
e
/
www.googl
e
m
menceàd
e
o
che,onre
c
e
ssitesInter
r
irplusd'inf
o
apprécieron
t
r
tdoncque
g
)estune
c
iderépond
r
o
nd'unproc
e
êmedesc
o
n
exions,oup
m
pledel’arch
d
el’Internet
etdévelopp
e
despagesi
n
tshypertex
t
figurecides
e
quêteause
e
.fr)etplus
e
venirlapri
c
hercheral'i
n
netintéress
é
o
rmationne
t
davantagel
a
l'analysedu
c
tâcheimpo
r
r
eauxattent
e
e
ssusd'Extr
a
o
nnaissance
s
lussimplem
e
itectureInte
r
elesmodèle
nterconnect
é
t
essurleWe
sousprésen
t
rveuretce
d
20millions
d
ncipalesour
n
formations
é
sàattirere
t
constituep
a
manièredo
c
omporteme
r
tantedans
e
sdesvisite
u
a
ction.
Bref,
s
)àpartird
e
e
ntde«rése
a
r
net:
setoutilspo
é
esd’un
m
b,ceprotoc
o
t
ecequino
d
ernierrépo
n
d
e
ce
ur
t
à
as
nt
nt
la
u
rs
le
e
s
a
u
ur
m
e
o
le
us
n
d.
3
Figure2.CommunicationentreunclientetunserveurvialeprotocoleHTTP
Ressource:d'aprèslaspécificationdeW3CpourURI2,uneressourceRpeutêtretoutobjetayant
uneidentité.Commeexemplesderessources,nouspouvonsciter:unfichierhtml,uneimageouun
serviceWeb.
RessourceWeb:uneressourceaccessibleparuneversionduprotocoleHTTPouunprotocole
similaire(ex.HTTPNG).
ServeurWeb:unserveurquidonneaccèsàdesressourcesWeb.
RequêteWeb:unerequêtepouruneressourceWeb,faiteparunclientwebàunserveurWeb.
PageWeb:ensembledesinformations,consistantenune(ouplusieurs)ressource(s)Web,
identifiée(s)parunseulURL.Exemple:unfichierHTML,unfichierimageetunappletJavaaccessibles
parunseulURLconstituentunepageWeb.
NavigateurWeb(Browser):logicieldetypeclientchard'afficherdespagesàl'utilisateuretde
fairedesrequêtesHTTPauserveurWeb.Onl’appelaussiclientweb.
Cache:Lamiseencacheestdéfiniecommeun«mécanismevisantàrestreindreletempsde
récupérationd’uneressourceensauvegardantunecopiedecellecilocalement».Ainsi,lorsdela
requêted’undocument,siunecopiedecedernierestdisponibledanslecache,elleestrenvoyée
commeréponsesansqueleserveurcorrespondantrépondeàunerequête,sinonlarequête
classiqueestenvoyée.
Figure3.Leprotocolehttpavecleserveurproxypourlamiseencache
Proxy:Letermeanglophoneproxyfaitréférenceàunemachineintermédiaireplacéequelquepart
entreleclientetleserveur,quipermetd’acheminerindirectementlesrequêtesdel’unversl’autre.
4
Laprésencedecetypedematérieldansl’architectureréseaudédiéeauWebpeuts’expliquer
suivantdeuxpointsdevue:sécuritéetperformance.Toutd’abord,cetypedemachinesest
généralementplacéensortied’unréseaud’unegrandeenti(campus,grandeentreprise,…),elles
permettentdegérerplusfinementlasécuritéenn’autorisantlesconnexionssurleWebquedepuis
cetteuniquemachine:lesrequêtesdetouslesclientsdel’entitésontainsirelayéesparleproxy.
Reverseproxy:Lereverseproxycomportelesmêmesfonctionnalitésqueleproxyvuducôté
serveur.Danslapratiquelefonctionnementestsimilaire.Sileproxypermetuneplusgrande
souplessedanslagestiondelasécuritépourl’accèsàInternetdesclients,lereverseproxyfaitde
mêmepourlesserveurs:parexemple,dansuneentitédisposantdeplusieursserveursweb,un
reverseproxypeutserviràn’autoriserlesconnexionsdepuisleWebquesurcetteuniquemachine,
lesrequêtesverslesautresserveursétantrelayées.Demême,associéunsystèmedemiseencache
global,ilpermetlaréductiondutraficsortant.
UML:estlelangagedemodélisationunifiédéfiniparGradyBooch,JimRumbaughetIvarJacobson
[Kas12].Outildelatroisièmegénération.LelangageUMLpermetderéaliserunsystèmelogicielenle
représentant,enlespécifiant,enleconstruisantetenledocumentantaupréalable.Ilnes’agitpas
d’unlangagedeprogrammation,nid’unlangagestrict,ilaétéconçupourpermettreàlafoisla
description,l’analyseetlaconceptiond’unsystèmelogicielafindeleréaliserdanslesmeilleures
conditionspossibles.Celangagepermetdoncdedécrirelesplansdeconstructiondusystème
logiciel,enyintégranttouslesélémentsconceptuels,touteslesfonctionsettouteslesbasesde
données,touteslesclassesettouslescomposantslogiciels.Ilpermetégalementdevalidercesplans
avantdecommencerlaprogrammationetderéalisereffectivementlesystème
Données : Lesinformationslesplussimples,lesdonnées,sontcellesquisontproduitespardes
capteurs,descaissesdesupermarchés,…;ellesrelèventdel'observationdirected'unphénomène,
sansInterprétation.Lesdonnées,expriméesdanslelangagedusystèmed'acquisitionetse
présentantenfluxmassifs,sontengénéraldifficilementcompréhensiblesparunêtrehumain.
Connaissances : Lesconnaissancessontissuesdel'interprétationdesdonnées(modèlesdes
phénomènesmétéorologiques,profilsdeclients,…).Ellesenformentunesynthèseabstraitedans
uneperspectivedéterminée.
Extraction des connaissances : Longtemps,lesconnaissancesétaientdirectementfourniesà
lamachine;l'interprétationdesdonnéesquiyconduisaitétaitfaiteparl'homme.Cetteapprochea
connuseslimitesaveclessystèmesexperts,dontonapuconstaterladifficuldeconception
(parfoisplusieurssemestresd'interrogationdesexpertshumainsetdesynthèsedesrésultatspardes
cogniticiens),pourdesmodèlessouventinadaptésaucontexted'application.LerôledudataMining
estalorsdepasserdesdonnéesauxconnaissances,c'estàdired'assisterunopérateurdans
l'interprétation,lasynthèse,l'exploration,lagénéralisationdesdonnéesdontildisposepouren
extrairedesconnaissances[GR04].
FichierLOG:Ils'agitdujournaldesconnexionsquiconserveunetracedesrequêtesetdesopérations
traitéesparleserveur.LesLOGSpeuventêtreenregistrésdanstroistypesdefichiers
fichierdelogsdetransfert:ilenregistretouslestransfertsdefichiersrésultantd'unerequête
àunserveur;
fichierdelogsd'erreur:ilconservelatracedesincidentssurvenusdansledialogueavecle
serveur(ex:URLerronée,transfertinterrompu,...);
fichierdelogsréférentiels:ilindiquelesiteetlapagedeprovenanceetd'arrivée;fichierde
logsd'agent:ilarchivelesinformationssurl'équipementdesutilisateurs(ex:
caractéristiquesdunavigateur,....);
5
Cidessousunexempled’unfichierlogvenantduserveurweb
Figure4.Extraitdufichierlogissusd’unserveurweb
2. Descriptionduproblèmeetpistesdesolution
2.1.Introduction
Vul’apparitiondegrandssupportsd’informationdanslesnouvellestechnologiesdel’informationet
delacommunication,sontnéesdenouvellesapprochesméthodologiquestentantd’extrairenon
seulementdesinformationsvalidesetfiables,maisplusgénéralementdesconnaissancesqui
permettentlaprisededécisionparlesresponsablesd’undomaineparticulier.
Danscetarticleils’agitdemodéliserunoutildeDataMiningensebasantsurl’extractionde
connaissancesàpartirdesdonnéespouroffrirauxwebmastersl’ensembledesconnaissancesy
inclutlesstatistiquessurleurssiteswebafindeprendrelesbonnesdécisionsetsatisfaireleurs
visiteurs(internautes).
Cettemodélisationpermettraauxprogrammeursd’avoirunecléenmainpourdévelopperunprojet
capabled’extrairedel’informationàpartirdufichierlogduserveurwebd’unsitedonnéetprendre
lesdécisionspourconcevoirlesbesoinsdesusagéetmieuxadapterlecontenuetlaformedespages
webaveclesattentesdeclients(visiteurs).
RésoudreceproblèmenousademandédepasserparlesdémarchesduprocessusdeDataMiningà
savoir:
a. leproblème
formulation:décompositiond’unproblèmecomplexeensousproblèmes,
récupérationdedonnéessupplémentairesnécessairess’ilyalieu,
natureduproblème:exploration,créationdemodèles,identificationdemodèles…Poser
résultatsattendus:lesconnaissancesobtenuesserontellesvraimentexploitables?
IlfautchoisirlestechniquesdedataMiningpourquelerésultatcorrespondeauxattentes
(casdesréseauxdeneuronesquinesontpasexplicatifs).
b. Recherchedesdonnées
inventairedessourcesdedonnées(commentcombinerdesformatsdifférents?),
sélectiondesdonnéespertinentesparunexpert(filtragedesattributs).
1 / 12 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !