DISS. ETH NO. 21465
Actionable Analytics for Massive
Clickstream Data
A dissertation submitted to
ETH ZURICH
for the degree of
Doctor of Sciences
presented by
MICHEL FABIAN SPEISER
MSc Mathematical Sciences, EPFL
MSc Computer Science and Engineering, EPFL
MSc Complex Adaptive Systems, Chalmers University of Technology
born 16 July 1981
citizen of Basel (BS)
accepted on the recommendation of
Prof. Juliana Sutanto, examiner
PD Dr. Marco Laumanns, co-examiner
2013
Abstract
We have witnessed a phenomenal growth in online activity over the past decade, pro-
pelled by advances in computer and networking technologies, increasingly innovative
uses of the world wide web, and the continuously rising number of people and devices
connected to the internet. This growth is poised to continue, as the rapid adoption of
mobile devices is enabling a large number of previously unconnected people to gain
access to the global network, and as economic and even social interactions are taking
an increasingly strong foothold online. Since this activity is becoming more important
in so many spheres of human civilization, the demand for tools to analyze this activity
is also on the rise. In particular, academic literature has seen a surge in the number of
studies in the fields of network analysis, data mining and information retrieval applied
to the web and social media.
In this thesis, we propose several building blocks for analyzing and understanding web
traffic. Our main unit of information is the clickstream, or visit, which is defined as the set
or sequence of pages viewed by a user during a web browsing session. The analyses
presented are targeted towards understanding the traffic to a given website. Our focus
is to develop methods and algorithms that provide useful insights into large collections
of clickstreams, while staying highly computationally tractable.
The first problem we address is that of finding the “heart” of a website. Indeed, for a site
hosting thousands or even millions of pages, this is a very difficult task without the use of
analytical tools. We formalize this as the Core-Web problem, which consists in finding,
given an integer b, the set of bpages in the website that fully contains as many complete
visits as possible. In other words, the objective is to capture a maximal number of visits
in their entirety, from beginning to end. It turns out that typically, in a website, a relatively
small set of pages accounts for the bulk of the traffic. We document this fact with real
data, and use it to derive a linear-time heuristic for the Core-Web problem, showing that
it yields very good results in practice. An upper bound for the objective function, also
computable in linear time, is provided to assess the quality of the heuristic’s results.
iii
iv Abstract
Once the heart of a website is mapped, another question of interest is how visitors tend
to move around in that website, that is, which typical trajectories they take while navigat-
ing the pages. In terms of clickstreams, the objective is to find recurring features within
a set of page sequences, which is typically achieved using pattern mining techniques.
The latter tend to discover a large number of patterns, so it is helpful to be able to rank
patterns according to their “interestingness”. Such a ranking method is proposed for a
type of pattern called partial order. It is based on the degree of statistical significance
of patterns with respect to a Markov chain, which is a probabilistic model that has been
applied in the web domain repeatedly with great success. Our ranking method is pred-
icated on the ability to calculate the probability of occurrence of a given pattern under
a given Markov model. We provide an efficient algorithm to achieve this task, and also
show how to transform large Markov models using censoring techniques, so that indi-
vidual probability queries posed by the algorithm can be computed with much greater
speed.
The final contribution of this thesis is to characterize typical structures found within in-
dividual clickstreams. In particular, we show that many clickstream databases contain
a high proportion of nested palindromic structures, that is, many pieces of clickstreams
are symmetrical. This can be largely explained by the widespread use of the “reload”
and “back” buttons found on nearly all web browsers. We show how these structures
can be efficiently extracted from a clickstream database, and propose ways of inter-
preting the results directly, as well as using them to pre-process data in order to obtain
richer outputs from existing or future pattern mining techniques.
Our methods allow an improved processing and interpretation of web traffic. They can
be used to better understand the underlying demand for information, and to improve
website structure in order to better address this demand.
Zusammenfassung
Im vergangenen Jahrzehnt hat die allgemeine Online-Aktivit¨
at stark zugenommen, an-
getrieben durch Fortschritte in der Informatik und der Netzwerktechnologie, durch kons-
tante Innovation in der Nutzung des World Wide Web, und durch das anhaltende Wachs-
tum der Anzahl am Internet angeschlossenen Menschen und Maschinen. Dieses
Wachstum wird sich wahrscheinlich fortsetzen, da der Zugang zum globalen Netz durch
die mobile Telefonie auf neue Bev¨
olkerungen erweitert wird, und da sich stetig weitere
wirtschaftliche und sogar soziale Prozesse online etablieren. Mit der steigenden Be-
deutung dieser Aktivit¨
aten w¨
achst auch die Nachfrage nach analytischen Werkzeugen,
um die Vorg ¨
ange besser erfassen und verstehen zu k¨
onnen. In der wissenschaftlichen
Literatur werden immer mehr Studien zu diesen Themen ver¨
offentlicht. Insbesondere
finden Graphen-Analysen, Data-Mining und Information Retrieval spezifische Anwen-
dungen in den Bereichen Web und soziale Medien.
In dieser Dissertation pr ¨
asentieren wir einige neue Bausteine der Analyse von Web-
Verkehr. Unsere Informationseinheit ist der Besuch, definiert als die Menge oder Se-
quenz der Seiten, die sich ein Nutzer innerhalb einer Session anschaut. Unsere
Analysen sind vor allem daf¨
ur ausgelegt, den gesamten Verkehr in einer einzelnen
Website zu verstehen. Der Fokus liegt darin, Methoden und Algorithmen herzuleiten,
die n¨
utzliche Erkenntnisse aus grossen Besuchsmengen gewinnen k ¨
onnen, jedoch
eine niedrige rechnerische Komplexit¨
at aufweisen.
Im ersten Thema geht as darum, das “Herz” einer Website ausfindig zu machen. Dazu
braucht es analytische Werkzeuge, vorallem f¨
ur die Analyse von Websites mit Tausen-
den oder gar Millionen Seiten. Wir formalisieren diese Fragestellung mit dem Core-Web
Problem, welches darin besteht, f¨
ur eine gegebene ganze Zahl b, eine Seitenmenge
von Kardinalit¨
at bzu finden, die so viele Besuche wie m¨
oglich komplett enth¨
alt. Mit an-
deren Worten: Das Ziel ist, eine maximale Anzahl von Besuchen in ihrer Gesamtheit,
also vom ersten bis zum letzten Click, zu erfassen. In den untersuchten Datens¨
atzen
ist typischerwise eine relativ niedrige Anzahl von Seiten f¨
ur den Grossteil des Verkehrs
verantwortlich. Wir belegen dies statistisch, und nutzen diese Eigenschaft um eine
v
vi Zusammenfassung
Heuristik von linearer Komplexit ¨
at zu entwickeln, die bei realen Daten sehr gute Re-
sultate erzielt. Wir leiten zus¨
atzlich eine obere Schranke f ¨
ur die Zielfunktion her, die
ebenfalls in linearer Zeit berechenbar ist, und mit der sich die Ergebnisse der Heuristik
quantitativ bewerten lassen.
Wenn das Herz der Website einmal kartiert ist, stellt sich die Frage, auf welche Art
und Weise sich die Besucher in der Website bewegen. Gibt es typische Laufbahnen
der Navigation? Im mathematischen Sinn geht as darum, wiederkehrende Muster in
einer Besuchsmenge ausfindig zu machen, was oft mit Algorithmen aus dem Bereich
Data-Mining angegangen wird. Letztere Algorithmen entdecken jedoch tendenziell sehr
viele Muster. Daher ist es hilfreich, eine Rangliste zu erstellen, welche diese Muster
nach absteigendender Wichtigkeit oder Bedeutung sortiert darstellt. Wir entwickeln
eine solche Methode f¨
ur den Mustertyp partielle Ordnung. Sie basiert auf der statis-
tischen Signifikanz der Muster mit Bezug auf eine Markov-Kette, welche ein probabilis-
tisches Modell ist, das im Bereich des Webs wiederholt mit grossem Erfolg eingesetzt
wurde. Unsere Methode erfordert die F¨
ahigkeit, die Wahrscheinlichkeit, ein gegebenes
Muster unter der Dynamik einer gegebenen Markov-Kette zu beobachten, auszurech-
nen. Wir entwickeln einen Algorithmus der diese Aufgabe erf ¨
ullt, und zeigen zus¨
atzlich
wie man grosse Markov-Ketten mit Zensurverfahren transformieren kann, um einzelne
Wahrscheinlichkeitsberechnungen viel effizienter durchf¨
uhren zu k¨
onnen.
Der letzte Beitrag dieser Dissertation liegt in der Charakterisierung von typischen Struk-
turen einzelner Besuche. Insbesondere belegen wir, dass viele Besuchsdatens¨
atze
einen hohen Anteil an verschachtelten Palindromen enthalten, d.h. dass Besuche
oft symmetrische St ¨
ucke aufweisen. Dies kann durch die Anwesenheit der Kn¨
opfe
“Zur¨
uck” und “Erneut laden” in praktisch jedem Web-Browser erkl ¨
art werden. Wir
zeigen, wie solche Strukturen effizient aus einem Datensatz extrahiert werden k¨
onnen,
und wie man die daraus resultierenden Messungen direkt interpretieren kann, um
gewisse Aspekte der Dynamik der Website zu verstehen. Weiter schlagen wir
M¨
oglichkeiten vor, die Daten mit diesen Strukturen explizit zu bereichern, um aus-
sagekr¨
aftigere Ergebnisse aus herk ¨
ommlichen oder zuk¨
unftigen Data-Mining Algorith-
men zu gewinnen.
Mit unseren Methoden kann der Online-Verkehr besser erfasst und interpretiert werden.
Damit kann die zugrunde liegende Informationsnachfrage besser verstanden werden,
und eine verbesserte Struktur der Website kann erzielt werden, um diese Nachfrage
genauer zu erf¨
ullen.
1 / 7 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !