Traitement des requêtes Top-K sur une base de données

publicité
Traitement des requêtes Top-K sur une base de données
crédibiliste
Top-K queries for evidential databases
Salma Ben Harrath
Arnaud Martin
Université de Tunis
IRISA
LARODEC
[email protected]
Université de Rennes
IRISA
[email protected]
Boutheina BenYaghlane
Université de Carthage
LARODEC
[email protected]
ABSTRACT
Keywords
L’interrogation de bases de données contenant des informations imprécises soulève différents problèmes, dont celui de
la modélisation. Dans ce papier, nous nous intéressons à
la définition d’un score pour les bases de données pouvant
contenir des valeurs mal connues ou incertaines représentées
par la théorie des fonctions de croyance. Les requêtes considérées, dites crédibilistes, sont assez différentes d’autres types
de requête: l’utilisateur n’a qu’à exprimer ses préférences
sous forme d’idées qui sont parfois complexes. Notre objectif est de lui fournir les Top-K meilleurs réponses en se
basant sur une distance de smilarité qui calcule le degré
d’appartenance des conditions de la requête aux attributs
crédibilistes présentés sous forme de distributions de masse
dans la base de données.
Evidential database, evidential query, Evidential attribute,
score.
Keywords
base de données crédibiliste, requête crédibiliste, score.
ABSTRACT
Querying databases containing imprecise information raises
various problems, including modeling. In this paper, we focus on defining a scoring function for databases that can
contain ill-known values or uncertain values represented by
the theory of belief functions. The framework chosen to
model the data is that of evidential databases; The considered queries, say credebilistic ones, are quite different from
other types of queries: “we do not know what we seek, what
is expecting as a result”. In this paper, we show the value
of introducing a method based on the computation of the
distance between the query and credebilistic attribute existing into databases to aggregate its similarity. Finally, we
organize those scores in order to present the Top-K results
responding to user preferences.
1.
INTRODUCTION
Les bases de données constituent un domaine de l’informatique
consacré à la manipulation et le stockage de grandes quantités d’informations. Une base de données représente ainsi
l’image informatique des données relatives à un univers réel.
De nos jours et avec l’émergence des applications sur le web
telles que les réseaux sociaux, les serveurs web, le commerce
électronique, des incertitudes et des imprécisions sur les données acquises apparaissent fréquemment dans les bases de
données.
Face à ces imperfections, plusieurs actions s’offrent à nous :
soit nous tentons de les supprimer, ce qui nécessite une compréhension, souvent difficile, des sources qui ont conduit à
ces imperfections ; soit nous cherchons à développer des processus de traitement robustes à ces imperfections ; soit nous
cherchons à les modéliser.
Dans de nombreuses applications telles que celles liées à internet, il est important de pouvoir modéliser les bases de
données complexes contenant des données incertaines euxmêmes complexes. Une modélisation concrète et fine de
données mal connues peut être réalisée à l’aide des théories
de l’incertain telles que la théorie des probabilités [2, 7], la
théorie des possibilités [6, 9] ou encore la théorie des fonctions de croyance [12, 14].
En effet l’incertitude sur les données engendre de nombreuses
sémantiques possibles à l’égard par exemple des requêtes
top-k. Ces requêtes, qui nous intéressent particulièrement,
permettent de présenter différents tuples ordonnés répondant au mieux à la requête. En présence des sémantiques
d’un monde possible, chaque base de données incertaine peut
être vue comme un encodage succinct d’une distribution sur
les mondes possibles. Chaque monde possible est une table
relationnelle (des données certaines) sur laquelle nous pouvons évaluer la requête top-k de façon traditionnelle [21].
Dans ce papier, nous définissons une fonction de score sur
une base de données crédibiliste qui peut être employée par
la méthode des top-k.
Cet article est présenté comme suit, la section 2 permet
de rappeler la définition des bases de données imprécises
et incertaines et d’expliquer le choix des bases de données
crédibilistes et l’inférence des requêtes crédibilistes. En effet,
dans cette section, nous présentons le principe de top-k et ses
avantages ce qui nous mène à la section 3 où nous décrivons
le processus adapté pour modéliser les attributs crédibilistes
en utilisant la fonction de score avant de l’illustrer et finalement conclure.
2.
LES BASES DE DONNÉES IMPRÉCISES
ET INCERTAINES
Les informations existantes dans les bases de données peuvent être à la fois incertaines (admettent une composante
aléatoire), imprécises (pas assez focalisées) ou incomplètes
(ayant un point de vue partiel).
Ainsi dans une base de données imprécise et incertaine, certaines valeurs d’attribut sont mal connues et représentées
par des ensembles disjonctifs pondérés [6], c’est-à-dire par
des probabilités, des possibilités ou des fonctions de masses
selon le cadre théorique choisi pour modéliser les imperfections. Au delà de la différenciation des types de bases de
données, un aspect important concerne la modélisation de
telles bases de données est mis en évidence.
Pour aborder ce problème, des bases de données crédibilistes
ont été proposées par [1, 23]. La théorie des fonctions de
croyance [25, 26, 24] est classée parmi les approches les plus
capables de représenter, gérer les données incertaines et imprécises mais aussi de modéliser l’ignorance.
En premier lieu, la théorie des fonctions de croyance permet
de représenter les données imprécises, incertaines et graduelles que d’autres approches savent gérer. Elle offre en effet
un cadre formel solide pour le traitement de l’incertitude
(notion prise dans son acception la plus large).
D’autre part, la théorie des fonctions de croyance supporte
le mécanisme de mise en conformité des n-uplets vis-à-vis
des connaissances de domaine. En effet, ces connaissances
de domaine, définies par une collection de mondes possibles,
délivrent un vocabulaire contrôlé qui sert à décrire les requêtes dans un langage proche de celui de l’utilisateur. Enfin, la base de données crédibiliste offre une interface symbolique pour modéliser des données crédibilistes avec des
fonctions de masses.
• Premièrement, Les requêtes Top-k offrent la possibilité
aux utilisateurs de qualifier les résultats d’une requête
grâce à une fonction de score. Elles permettent aux
utilisateurs de qualifier les résultats de leurs requêtes
par rapport aux données existantes dans les bases de
données ceci en fonction de leurs préférences personnelles. Ce type de requêtes permettra donc aux utilisateurs des applications sur le web de pouvoir rechercher
des données en fonction de leurs préférences personnelles au lieu d’une simple recherche par identifiant ou
par une clé (exact match) qui ne pourra pas leur permettre d’évaluer la qualité d’une réponse par rapport
à une autre.
• Deuxièmement, elles évitent de submerger les utilisateurs avec un grand nombre de réponses. Les requêtes
fournies par l’utilisateur permettent de trier les résultats par rapport à ses propores préférences.
Les requêtes Top-k permettent également à l’utilisateur
de limiter le nombre de résultats que le système doit lui
retourner. Les résultats retournés à l’utilisateur sont
les meilleurs par rapport à une fonction de score.
2.2
Table 1: Probabilistic Database
Patient
Age
Maladie
Robert [20,25]
anemia
Celina
41
0.7 flu, 0.3 cancer
Steve
0.5 cholera, 0.5 anemia
L’exemple suivant en tableau 1 permet d’expliquer que l’attribut
maladie peut être présent comme une distribution de probabilité avec des valeurs incertaines (0.7 flu, 0.3 cancer).
2.3
Pour interroger une telle base de données, nous définissons
des requêtes, dites crédibilistes. Ces requêtes crédibilistes
correspondent à des requêtes imprécises pour lesquelles
l’utilisateur lui-même a des doutes (incertitude). Par exemple, lors d’une recherche sur le web, l’utilisateur ne sait
pas toujours quels mots clés il doit saisir pour répondre à
un besoin/concept qu’il ne sait lui même pas définir. Les
requêtes crédibilistes sont considérées comme étant des requêtes complexes (c’est-à-dire des requêtes de haut niveau).
2.1
Utilité des requêtes Top-K
Nous nous intéressons aux requêtes Top-k pour les adapter
avec une base de données crédibiliste. ce type de requêtes
présentent deux avantages principaux :
Base de données probabiliste
Une base de données probabiliste contient des attributs dont
les valeurs sont mal connues et représentées par des distributions de probabilité. Une telle base de données peut être
interprétée comme un ensemble de tuples contenant des attributs probablement réalisables dans le monde réel. Ce type
de base de données est approprié pour capturer l’incertitude
mais il est incapable de modéliser l’ignorance totale tant
qu’il ne tient pas compte du cas de l’ensemble vide [14, 17,
19, 20].
Base de données possibiliste
Une base de données possibiliste contient des attributs dont
les valeurs sont mal connues et représentées par des distributions de possibilité. L’incertitude d’un événement, au
contraire des probabilités, est donc caractérisée par deux
valeurs : sa possibilité et sa nécessité. Une telle base de données peut être interprétée comme un ensemble de bases de
données usuelles (encore appelées mondes), chacune d’entre
elles étant plus au moins possible [10]. Ce type de base
de données a cependant des limitations de modélisation et
de représentation des données incertaines. La structure des
bases de données usuelles rend indispensable la présentation
de toutes les possibilités d’un attribut en générant les différents mondes possibles en se basant sur les axiomes des
deux mesures (la necessité N, et la possibilité Π), ceci engendre des difficultés au niveau du processus d’interrogation
et du calcul des scores.
Table 2: Possibilistic Database
Patient
Age
Maladie
Robert [20,25]
anemia
Celina
0.7 flu, 1 cancer
Steve
17
cholera
L’exemple donné dans le tableau 2 permet d’expliquer que
l’attribut maladie peut être présent comme une distribution
de possibilité avec des valeurs possibilistes (0.7 flu, 1 cancer).
2.4
Base de données crédibiliste
Une littérature a été consacrée à la comparaison des différentes théories de l’incertain. Au délà des différences parfois subtiles d’interprétation, il apparaı̂t pourtant bien difficile de conclure sur la supériorité de l’une ou l’autre des
théories présentées. Il est clair en tout cas que les objets
mathématiques manipulés sont proches et que la théorie
des fonctions de croyance peut être considérée comme plus
générale que celle des probabilités ou des possibilités. Elle
englobe les cas particuliers de ces deux théories.
Prendre en compte une base de données crédibiliste permet
ainsi d’avoir une modélisation plus complète et moins contrainte des informations données à la base. Une base de données crédibiliste contient des attributs dont les valeurs sont
mal connues et représentées par des fonctions de masse. Une
telle base de données peut être interprétée comme un ensemble de propositions qui peuvent correspondre à la réponse
d’une requête crédibiliste.
Table 3: Base de données crédibiliste
Patient
Age
Maladie
Robert
jeune
anemia
Celina
24
0.7 (flu or cancer),
0.3 cancer
Steve
[12.25 ]
cancer
L’exemple de la base de données crédibiliste du tableau 3
permet d’expliquer que l’attribut maladie peut être présent
comme une fonction de masses avec des valeurs incertaines
et imprécises (0.7 (flu ou Cancer), 0.3 cancer).
Notion de base de la théorie des fonctions de croyances
Nous présentons ici quelques concepts de base de cette théorie.
Au niveau crédal, il est prioritaire de définir un cadre de
discernement ou un univers de discours dit Ω qui sert à
représenter les états possibles d’un problème donné.
Soit Ω = {ω1 , ω2 , . . . , ωn } un ensemble fini représentant
toutes les hypothèses possibles identifiées
ωi (avec i ∈ {1, 2, . . . , n}), ou états, que peut prendre un
attribut. Une fonction de masse est définie sur l’ensemble
de tous les sous-ensembles possibles de Ω, noté 2Ω et affecte
à chaque sous-ensemble une valeur entre 0 et 1 exprimant
une croyance élémentaire. La fonction de masse notée mΩ
ou simplement m est définie par :
mΩ : 2Ω → [0, 1]
(1)
On impose aussi en général m(∅) = 0 qui permet de rester en
monde fermé. Les parties A de Ω telles que m(A) ≥ 0 sont
appelées éléments focaux de m. Une masse m(A) représente
ainsi le degré de croyance élémentaire attribué à la proposition A qui, compte tenu de la connaissance à un moment
donné, n’a pas pu être affectée à un sous-ensemble plus spécifique.
La fonction de masses mΩ doit vérifier les conditions suivantes :
X
m(A) = 1
(2)
A⊆Ω
3.
DÉFINITION D’UN SCORE SUR UNE BASE
DE DONNÉES CRÉDIBILISTE
La plupart des systèmes s’appuie sur l’hypothèse que les
résultats affichés en ordre Top-k ont été parfaitement reconnus ou identifiés et de fait leur fonction de correspondance
s’appuie sur une capacité à disposer d’une relation d’égalité
ou d’appartenance entre les conditions de la requête et les
attributs existants dans les tuples de la base de données.
Aucune tentative n’a été proposée pour intégrer cette fonction de score allouée au top-k sur des bases de données crédibilistes qui fait l’objet de ce papier. Par ailleurs, il y a très
peu de travaux sur le traitement des requêtes top-k sur les
bases de données probabilistes sur des données incertaines
[3, 4, 5].
Une base de données crédibiliste doit contenir au moins
un attribut crédibiliste qui prendra des valeurs crédibilistes
décrites par une fonction de masse au lieu d’une valeur certaine et précise. Nous formalisons l’adaptation de ce score
pour influencer le fait de trouver une fonction d’appartenance
des attributs crédibilistes déjà représentés par des fonctions
de masse par rapport aux conditions de la requête Q proposée par l’utilisateur répondant à ses préférences personnelles.
La fonction de score spécifie à quel point chaque donnée existante dans les bases de données correspond aux conditions
de la requête. Les fonctions d’appartenance permettent de
décrire une appartenance crédible à une requête. Notre processus est organisé comme suit :
Nous considérons donc avoir une requête Q émise par l’utilisateur.
Cette requête est dite crédibiliste constituée par des conditions complexes ou dites aussi crédibilistes.
Prenons comme exemple :
Select patient,age from Table 3 where
(mΩmaladie {cancer} > 0.3) .
qui tient compte implicitement de la structure des fonctions
de croyance.
Dans cet exemple, nous sommes en face à une condition
complexe ou dite crédibliliste . Pour trouver les k meilleurs
réponses pour cette requête, notre méthode résout le problème en utilisant les techniques spécifiques de la théorie des
fonctions de croyance. Après avoir exécuté cette requête,
on traite les attributs crédibilistes existants dans une base
de données crédibiliste qui correspondent aux résultats de
recherche de cette requête émise par l’utilisateur et qui sont
modélisés par des fonctions de masses.
La distance de Jousselme est donnée pour deux fonctions de
masse m1 et m2 par :
r
1
(m1 − m2 )t D(m1 − m2 ),
(3)
d(m1 , m2 ) =
2
où D est une matrice 2|Θ| × 2|Θ| dont les éléments sont :

1, if A = B = ∅,


D(A, B) =
(4)

 |A ∩ B| , ∀A, B ∈ 2Θ .
|A ∪ B|
D correspond à une matrice de similarité entre les éléments
focaux, dont les valeurs sont issues de la mesure de Jaccard
entre les sous-ensembles d’états correspondants.
a
Nous notons mΩ
la fonction de masse de la requête liée à
r
a
l’attribut a et Mab = {mΩ
t , t ∈ {T }} l’ensemble des fonca
tions de masse mΩ
de
la
base
de données liées à l’attribut
t
a et au tuple t. L’ensemble des tuples est noté T . Nous
Ωa
a
devons ainsi calculer l’ensemble des distances d(mΩ
r , mt )
pour tout t ∈ {T }. Nous définissons le score st par cette distance. Ce score correspond donc à la proximité d’un tuple
à la requête.
Si la requête porte sur plusieurs attributs, nous construisons
Ωa
Ωa
autant de fonctions de masse, par exemple mr 1 et mr 2
pour deux attributs. Prenons comme exemple :
Select patient,age from Table 3 where
(mΩmaladie (cancer) > 0.3) and (mΩage (jeune) = 0.7)
Le score est alors défini pour na attributs par :
Figure 1:
bilistes
Une modélisation des attributs crédi-
Prenons l’exemple de la requête qu’on a déjà exécuté, le
cadre de discernement de l’attribut ”‘maladie”’ est :
Ωmaladie ={anemia, f lu, cancer}.
La fonction de masse attribuée à l’attribut maladie dans
notre exemple, déjà présenté dans le tableau 3 : le patient
“Celina” a croyance élémentaire d’avoir la maladie (cancer)
est de 0.3 et 0.7 d’avoir (cancer ou flu).
Nous avons donc une fonction de masse donnée par la requête crédibiliste et un ensemble de fonctions de masse correspondant à l’attribut considéré dans la requête. Afin de
définir un score pour appliquer un ordonnancement de k
meilleures réponses à la requête, nous proposons d’étudier
la similarité de la fonction de masse issue de la requête avec
celles de la base de données crédibiliste.
Il existe plusieurs types de mesures de distances entre deux
fonctions de croyance, la plus utilisée est celle proposée par
[22] car elle permet de pondérer les croyances élémentaires
sur les éléments focaux imprécis. En effet, la distanceT de
SB|
Jousselme est fondée sur la dissimilarité de jaccard: | A
A B
st =
na
1 X
Ωa
Ωa
d(mr i , mt i )
na i=1
(5)
Considérons à présent le cas où la requête comporte sur le
même attribut, mais avec une condition multiple, par exemple :
SELECT patient,age from Table 3 WHERE
(mΩmaladie (cancer) > 0.3) and (mΩmaladie (f lu) = 0.2).
Dans ce cas la même approche que celle présentée ci-dessus
pour plusieurs attributs peut être employée. Nous pouvons
cependant combiner ces fonctions de masse avec les outils de
la théorie des fonctions de croyance. En effet, considérant ces
deux conditions comme indépendantes, les deux fonctions de
Ωa
a
masse que nous notons mΩ
c1 et mc2 . La fonction de masse
résultante de la combinaison conjonctive de Dempster est
donnée par :
X
1
Ωa
a
a
mΩ
=
mΩ
(6)
c1 (A)mc2 (B),
r
1 − k A∩B=X
X
Ωa
a
où k =
mΩ
c1 (A)mc2 (B). Le score est ensuite calculé
A∩B=∅
à partir de la distance comme précédemment.
4.
ILLUSTRATION
Nous proposons d’illustrer notre approche en considérant
qu’il est prioritaire de fournir à l’utilisateur les k résultats
répondant au mieux à ses préférences. Ces préférences sont
exprimées sous forme de requêtes crédibilistes c’est-à-dire
par des distributions de masse.
L’allocation de masse réalisée pour la requête est construite
à partir du nombre de conditions émises par l’utilisateur.
Ces conditions sont parfois incertaines, imprécises ou même
illisibles.
La création de la fonction de masse liée à une requête dépend
du type de condition.
Si la condition de la requête est exacte prenons l’exemple
suivant :
Select patient,age from Table 3 where
(mΩmaladie {cancer} = 0.3) .
La fonction de masse aura pour seuls éléments focaux {cancer}
et Ωmaladie . La masse associée à Ωmaladie est alors 0.7.
Si la condition de la requête n’est pas exacte c’est-à-dire exprime la supériorité ou l’infériorité prenons l’exemple suivant : Select patient,age from Table 3 where
(mΩmaladie {cancer} > 0.3).
Dans ce cas les éléments focaux restent {cancer} et Ωmaladie ,
mais la masse associée à ces éléments peut être rerpésentée
sous forme d’intervalle. Ainsi mΩmaladie {cancer} =]0.3, 1]
et mΩmaladie (Ωmaladie ) = 1 − mΩmaladie {cancer}.
Table 4: Une base de données contenant des attributs totalement crédibilistes
Patient
Refka
Age
24
Salma
[28 32]
Steve
Andro
jeune
Maladie
0.7 (flu or cancer),
0.3 cancer
0.8 (flu or cancer),
0.2 flu
0.5 (flu or cancer),
0.4 cancer
0.1 Ωmaladie
0.3 (flu or cancer),
0.3 cancer
0.1 flu
0.3 Ωmaladie
cadre
de
discernement
est
Table 5: Définition des scores dans une base de données crédibiliste
cancer
f lu
cancer ∪ f lu
Ωmaladie
Score
5.
requête
0.3
0
0
0.7
Refka
0.3
0
0.7
0
0.4041
Salma
0
0.2
0.8
0
0.4899
Steve
0,4
0
0.5
0.1
0.3391
Andro
0.3
0.1
0.3
0.3
0.2273
CONCLUSION
L’intérêt de la théorie des fonctions de croyance réside dans
sa capacité à modéliser des connaissances. C’est donc naturellement que nous nous sommes tournés vers ce cadre
théorique pour aborder le problème complexe du stockage
et de l’interrogation de données incertaines et imprécises. Si
les bases de données crédibilistes ont déjà été introduites,
nous avons introduit le concept de requête crédibiliste. Ce
type de requête permet à l’utilisateur d’interroger une base
de données avec une demande imprécise et sans être sûr de
ce qu’il recherche.
L’objectif du papier est d’introduire la définition d’un score
dans le contexte de base de données crédibiliste, afin par
exemple d’appliquer une méthode top-k des k réponses ordonnées correspondant le mieux à une requête. Une fois les
données et la requête (qui peut être multi-condition) modélisées par une fonction de masse, nous proposons de définir
ce score à partir d’une distance entre les fonctions de masse.
L’ordonnancement des scores fournit ensuite le top-k.
Divers travaux futurs sont à mener, par exemple, il serait
intéressant d’étudier l’impact du choix des conditions de la
requête sur le nombre des réponses que le système peut afficher.
6.
Afin d’illustrer notre approche, nous considérons la base
de données contenant des attributs totalement crédibilistes
présentées dans le tableau 4 et nous considérons la requête
crédibiliste suivante :
Select patient,age from Table 3 where
(mΩmaladie {cancer} = 0.3).
Le
Ωmaladie ={anemia, f lu, cancer}. Les seuls éléments focaux
considérés dans la base sont :
{cancer}, {f lu}, {f lu, cancer}, Ωmaladie .
Le tableau 5
présente les fonctions de masse des tuples et de la requête.
Par exemple la distance entre la fonction de masse de la requête et la fonction de masse du tuple 1 est 0.4041. Ainsi
à la requête correspondant à une préférence d’avoir les tuples dont les patients sont vraissemblablement pas atteint de
cancer (avec une croyance de 0.3) l’ordre des tuples sur la
base de données exemple est : Salma (tuple 2), Refka (tuple
1), Steve (tuple 3) et Andro (tuple 4).
toujours
REFERENCES
[1] M-A. BachTobji, B. Ben Yaghlane, and K. Mellouli (2008).
A new algorithm for mining frequent itemsets from
evidential databases. In Information Processing and
Management of Uncertainty, Malaga, Spain, pages
1535-1542.
[2] D. Barbara, H. Garcia-Molina, and D. Porter (1992). The
managementof probabilistic data. IEEE Trans. Knowl. Data
Eng 4(5), pages 487-502.
[3] M-A. Soliman, M. Saleeb, I-F. Ilyas (2010): MashRank:
Towards uncertainty-aware and rank-aware mashups. ICDE,
pages 1137-1140.
[4] M-A. Soliman, I-F. Ilyas, K. Chen-Chuan Chang (2007):
Top-k Query Processing in Uncertain Databases. ICDE,
pages 896-905.
[5] L. Gravano, N. Bruno, S. Chaudhuri (2002): Top-k selection
queries over relational databases: Mapping strategies and
performance evaluation. ACM Transactions on Database
Systems, June 2002.
[6] P. Bosc, O. Pivert (2004): Requêtes oui/non et données
imprécises : du cadre possibiliste au cadre probabiliste.
Actes du XXIIème Congrés. INFORSID, Biarritz, France,
pages 25-40.
[7] R. Cavallo, M. Pitarelli (1987): The theory of probabilistic
databases. In Proceedings of VLDB, pages 71-81.
[8] O. Benjelloun, A. Das Sarma, C. Hayworth, and J. Widom
(2006): An introduction to ULDBs and the Trio system.
IEEE Data Eng.Bull, 29(1), pages 5-16.
[9] P. Bosc, O. Pivert. (2010): Modeling and querying uncertain
relational databases: A survey of approaches based on the
possible worlds semantics. International Journal of
Uncertainty, Fuzziness and Knowledge-Based Systems,
18(5), pages 565-603.
[10] H.Prade, A. Rico. (2011):Vers une version possibiliste de la
théorie des fonctions de croyance. Journées d’Intelligence
Artificielle Fondamentale, Lyon, 08/06/2011-10/06/2011,
pages 175-186.
[11] O. Benjelloun, A. Das Sarma, A. Halevy, and J. Widom.
(2006) . ULDBs : Databases with uncertainty and lineage.
In VLDB, pages 953-964.
[12] J. Widom, P. Agrawal. (2010): Generalized uncertain
databases:First steps.Fourth International VLDB Workshop
on Management of Uncertain Data, Singapore.
[13] N. Dalvi, C. Re, and D. Suciu. (2006): Query evaluation on
probabilistic databases.IEEE Data Engineering Bulletin,
29(1), pages 25-31.
[14] S. Choenni, H. Ernst Blok, E. Leertouwer. (2006):
Handling Uncertainty and Ignorance in Databases: A Rule
to Combine Dependent Data. International Conference on
Database Systems for Advanced Applications N:11,
Singapore, SINGAPOUR.
[15] P. Bosc, O. Pivert. (2002): Vers un modèle relationnel
possibiliste à un niveau de relations imbriquées. INFORSID,
pages 73-88.
[16] U. Srivastava. September (2006): Efficient query processing
for modern data management. Stanford University. PhD
thesis.
[17] C. Re, D. Suciu (2007): Efficient evaluation of having
queries on a probabilistic database. In Proceedings of DBPL.
[18] I-F. Ilyas, G. Beskales, M-A . Soliman. (2008): A survey of
top-k query processing techniques in relational database
systems. ACM Comput. Surv. 40(4).
[19] N. Dalvi, D. Suciu (2005): Answering queries from
statistics and probabilistic views. In VLDB.
[20] N. Dalvi, D. Suciu. (2004): Efficient query evaluation on
probabilistic databases. In VLDB, Toronto, Canada.
[21] K. Dedzoe , (Novembre 2011): Traitement de requêtes
Top-k dans les communautés virtuelles P2P de Partage de
Données. Thése de l’Université de Nantes.
[22] Jousselme, A-L, D. Grenier, et E. Bossé . (2001): A new
distance between two bodies of evidence. Information
Fusion 2, pages 91-101.
[23] K. Hewawasam, K. Premaratne, S. Subasingha and M-L.
Shyu .(2005): Rule mining and classification in imperfect
databases. In International Conference on Information
Fusion, Philadelphia,USA, pages 661-668.
[24] P. Smets . (2007): Analyzing the combination of conflicting
belief functions. Information Fusion 8, pages 387-412.
[25] A-P. Dempster. (1967): Upper and Lower probabilities
induced by a multivalued mapping. Annals of Mathematical
Statistics 38, pages 325-339.
[26] G. Shafer. (1976): A mathematical theory of evidence. Princeton
University Press.
Téléchargement