Traitement des requêtes Top-K sur une base de données crédibiliste Top-K queries for evidential databases Salma Ben Harrath Arnaud Martin Université de Tunis IRISA LARODEC [email protected] Université de Rennes IRISA [email protected] Boutheina BenYaghlane Université de Carthage LARODEC [email protected] ABSTRACT Keywords L’interrogation de bases de données contenant des informations imprécises soulève différents problèmes, dont celui de la modélisation. Dans ce papier, nous nous intéressons à la définition d’un score pour les bases de données pouvant contenir des valeurs mal connues ou incertaines représentées par la théorie des fonctions de croyance. Les requêtes considérées, dites crédibilistes, sont assez différentes d’autres types de requête: l’utilisateur n’a qu’à exprimer ses préférences sous forme d’idées qui sont parfois complexes. Notre objectif est de lui fournir les Top-K meilleurs réponses en se basant sur une distance de smilarité qui calcule le degré d’appartenance des conditions de la requête aux attributs crédibilistes présentés sous forme de distributions de masse dans la base de données. Evidential database, evidential query, Evidential attribute, score. Keywords base de données crédibiliste, requête crédibiliste, score. ABSTRACT Querying databases containing imprecise information raises various problems, including modeling. In this paper, we focus on defining a scoring function for databases that can contain ill-known values or uncertain values represented by the theory of belief functions. The framework chosen to model the data is that of evidential databases; The considered queries, say credebilistic ones, are quite different from other types of queries: “we do not know what we seek, what is expecting as a result”. In this paper, we show the value of introducing a method based on the computation of the distance between the query and credebilistic attribute existing into databases to aggregate its similarity. Finally, we organize those scores in order to present the Top-K results responding to user preferences. 1. INTRODUCTION Les bases de données constituent un domaine de l’informatique consacré à la manipulation et le stockage de grandes quantités d’informations. Une base de données représente ainsi l’image informatique des données relatives à un univers réel. De nos jours et avec l’émergence des applications sur le web telles que les réseaux sociaux, les serveurs web, le commerce électronique, des incertitudes et des imprécisions sur les données acquises apparaissent fréquemment dans les bases de données. Face à ces imperfections, plusieurs actions s’offrent à nous : soit nous tentons de les supprimer, ce qui nécessite une compréhension, souvent difficile, des sources qui ont conduit à ces imperfections ; soit nous cherchons à développer des processus de traitement robustes à ces imperfections ; soit nous cherchons à les modéliser. Dans de nombreuses applications telles que celles liées à internet, il est important de pouvoir modéliser les bases de données complexes contenant des données incertaines euxmêmes complexes. Une modélisation concrète et fine de données mal connues peut être réalisée à l’aide des théories de l’incertain telles que la théorie des probabilités [2, 7], la théorie des possibilités [6, 9] ou encore la théorie des fonctions de croyance [12, 14]. En effet l’incertitude sur les données engendre de nombreuses sémantiques possibles à l’égard par exemple des requêtes top-k. Ces requêtes, qui nous intéressent particulièrement, permettent de présenter différents tuples ordonnés répondant au mieux à la requête. En présence des sémantiques d’un monde possible, chaque base de données incertaine peut être vue comme un encodage succinct d’une distribution sur les mondes possibles. Chaque monde possible est une table relationnelle (des données certaines) sur laquelle nous pouvons évaluer la requête top-k de façon traditionnelle [21]. Dans ce papier, nous définissons une fonction de score sur une base de données crédibiliste qui peut être employée par la méthode des top-k. Cet article est présenté comme suit, la section 2 permet de rappeler la définition des bases de données imprécises et incertaines et d’expliquer le choix des bases de données crédibilistes et l’inférence des requêtes crédibilistes. En effet, dans cette section, nous présentons le principe de top-k et ses avantages ce qui nous mène à la section 3 où nous décrivons le processus adapté pour modéliser les attributs crédibilistes en utilisant la fonction de score avant de l’illustrer et finalement conclure. 2. LES BASES DE DONNÉES IMPRÉCISES ET INCERTAINES Les informations existantes dans les bases de données peuvent être à la fois incertaines (admettent une composante aléatoire), imprécises (pas assez focalisées) ou incomplètes (ayant un point de vue partiel). Ainsi dans une base de données imprécise et incertaine, certaines valeurs d’attribut sont mal connues et représentées par des ensembles disjonctifs pondérés [6], c’est-à-dire par des probabilités, des possibilités ou des fonctions de masses selon le cadre théorique choisi pour modéliser les imperfections. Au delà de la différenciation des types de bases de données, un aspect important concerne la modélisation de telles bases de données est mis en évidence. Pour aborder ce problème, des bases de données crédibilistes ont été proposées par [1, 23]. La théorie des fonctions de croyance [25, 26, 24] est classée parmi les approches les plus capables de représenter, gérer les données incertaines et imprécises mais aussi de modéliser l’ignorance. En premier lieu, la théorie des fonctions de croyance permet de représenter les données imprécises, incertaines et graduelles que d’autres approches savent gérer. Elle offre en effet un cadre formel solide pour le traitement de l’incertitude (notion prise dans son acception la plus large). D’autre part, la théorie des fonctions de croyance supporte le mécanisme de mise en conformité des n-uplets vis-à-vis des connaissances de domaine. En effet, ces connaissances de domaine, définies par une collection de mondes possibles, délivrent un vocabulaire contrôlé qui sert à décrire les requêtes dans un langage proche de celui de l’utilisateur. Enfin, la base de données crédibiliste offre une interface symbolique pour modéliser des données crédibilistes avec des fonctions de masses. • Premièrement, Les requêtes Top-k offrent la possibilité aux utilisateurs de qualifier les résultats d’une requête grâce à une fonction de score. Elles permettent aux utilisateurs de qualifier les résultats de leurs requêtes par rapport aux données existantes dans les bases de données ceci en fonction de leurs préférences personnelles. Ce type de requêtes permettra donc aux utilisateurs des applications sur le web de pouvoir rechercher des données en fonction de leurs préférences personnelles au lieu d’une simple recherche par identifiant ou par une clé (exact match) qui ne pourra pas leur permettre d’évaluer la qualité d’une réponse par rapport à une autre. • Deuxièmement, elles évitent de submerger les utilisateurs avec un grand nombre de réponses. Les requêtes fournies par l’utilisateur permettent de trier les résultats par rapport à ses propores préférences. Les requêtes Top-k permettent également à l’utilisateur de limiter le nombre de résultats que le système doit lui retourner. Les résultats retournés à l’utilisateur sont les meilleurs par rapport à une fonction de score. 2.2 Table 1: Probabilistic Database Patient Age Maladie Robert [20,25] anemia Celina 41 0.7 flu, 0.3 cancer Steve 0.5 cholera, 0.5 anemia L’exemple suivant en tableau 1 permet d’expliquer que l’attribut maladie peut être présent comme une distribution de probabilité avec des valeurs incertaines (0.7 flu, 0.3 cancer). 2.3 Pour interroger une telle base de données, nous définissons des requêtes, dites crédibilistes. Ces requêtes crédibilistes correspondent à des requêtes imprécises pour lesquelles l’utilisateur lui-même a des doutes (incertitude). Par exemple, lors d’une recherche sur le web, l’utilisateur ne sait pas toujours quels mots clés il doit saisir pour répondre à un besoin/concept qu’il ne sait lui même pas définir. Les requêtes crédibilistes sont considérées comme étant des requêtes complexes (c’est-à-dire des requêtes de haut niveau). 2.1 Utilité des requêtes Top-K Nous nous intéressons aux requêtes Top-k pour les adapter avec une base de données crédibiliste. ce type de requêtes présentent deux avantages principaux : Base de données probabiliste Une base de données probabiliste contient des attributs dont les valeurs sont mal connues et représentées par des distributions de probabilité. Une telle base de données peut être interprétée comme un ensemble de tuples contenant des attributs probablement réalisables dans le monde réel. Ce type de base de données est approprié pour capturer l’incertitude mais il est incapable de modéliser l’ignorance totale tant qu’il ne tient pas compte du cas de l’ensemble vide [14, 17, 19, 20]. Base de données possibiliste Une base de données possibiliste contient des attributs dont les valeurs sont mal connues et représentées par des distributions de possibilité. L’incertitude d’un événement, au contraire des probabilités, est donc caractérisée par deux valeurs : sa possibilité et sa nécessité. Une telle base de données peut être interprétée comme un ensemble de bases de données usuelles (encore appelées mondes), chacune d’entre elles étant plus au moins possible [10]. Ce type de base de données a cependant des limitations de modélisation et de représentation des données incertaines. La structure des bases de données usuelles rend indispensable la présentation de toutes les possibilités d’un attribut en générant les différents mondes possibles en se basant sur les axiomes des deux mesures (la necessité N, et la possibilité Π), ceci engendre des difficultés au niveau du processus d’interrogation et du calcul des scores. Table 2: Possibilistic Database Patient Age Maladie Robert [20,25] anemia Celina 0.7 flu, 1 cancer Steve 17 cholera L’exemple donné dans le tableau 2 permet d’expliquer que l’attribut maladie peut être présent comme une distribution de possibilité avec des valeurs possibilistes (0.7 flu, 1 cancer). 2.4 Base de données crédibiliste Une littérature a été consacrée à la comparaison des différentes théories de l’incertain. Au délà des différences parfois subtiles d’interprétation, il apparaı̂t pourtant bien difficile de conclure sur la supériorité de l’une ou l’autre des théories présentées. Il est clair en tout cas que les objets mathématiques manipulés sont proches et que la théorie des fonctions de croyance peut être considérée comme plus générale que celle des probabilités ou des possibilités. Elle englobe les cas particuliers de ces deux théories. Prendre en compte une base de données crédibiliste permet ainsi d’avoir une modélisation plus complète et moins contrainte des informations données à la base. Une base de données crédibiliste contient des attributs dont les valeurs sont mal connues et représentées par des fonctions de masse. Une telle base de données peut être interprétée comme un ensemble de propositions qui peuvent correspondre à la réponse d’une requête crédibiliste. Table 3: Base de données crédibiliste Patient Age Maladie Robert jeune anemia Celina 24 0.7 (flu or cancer), 0.3 cancer Steve [12.25 ] cancer L’exemple de la base de données crédibiliste du tableau 3 permet d’expliquer que l’attribut maladie peut être présent comme une fonction de masses avec des valeurs incertaines et imprécises (0.7 (flu ou Cancer), 0.3 cancer). Notion de base de la théorie des fonctions de croyances Nous présentons ici quelques concepts de base de cette théorie. Au niveau crédal, il est prioritaire de définir un cadre de discernement ou un univers de discours dit Ω qui sert à représenter les états possibles d’un problème donné. Soit Ω = {ω1 , ω2 , . . . , ωn } un ensemble fini représentant toutes les hypothèses possibles identifiées ωi (avec i ∈ {1, 2, . . . , n}), ou états, que peut prendre un attribut. Une fonction de masse est définie sur l’ensemble de tous les sous-ensembles possibles de Ω, noté 2Ω et affecte à chaque sous-ensemble une valeur entre 0 et 1 exprimant une croyance élémentaire. La fonction de masse notée mΩ ou simplement m est définie par : mΩ : 2Ω → [0, 1] (1) On impose aussi en général m(∅) = 0 qui permet de rester en monde fermé. Les parties A de Ω telles que m(A) ≥ 0 sont appelées éléments focaux de m. Une masse m(A) représente ainsi le degré de croyance élémentaire attribué à la proposition A qui, compte tenu de la connaissance à un moment donné, n’a pas pu être affectée à un sous-ensemble plus spécifique. La fonction de masses mΩ doit vérifier les conditions suivantes : X m(A) = 1 (2) A⊆Ω 3. DÉFINITION D’UN SCORE SUR UNE BASE DE DONNÉES CRÉDIBILISTE La plupart des systèmes s’appuie sur l’hypothèse que les résultats affichés en ordre Top-k ont été parfaitement reconnus ou identifiés et de fait leur fonction de correspondance s’appuie sur une capacité à disposer d’une relation d’égalité ou d’appartenance entre les conditions de la requête et les attributs existants dans les tuples de la base de données. Aucune tentative n’a été proposée pour intégrer cette fonction de score allouée au top-k sur des bases de données crédibilistes qui fait l’objet de ce papier. Par ailleurs, il y a très peu de travaux sur le traitement des requêtes top-k sur les bases de données probabilistes sur des données incertaines [3, 4, 5]. Une base de données crédibiliste doit contenir au moins un attribut crédibiliste qui prendra des valeurs crédibilistes décrites par une fonction de masse au lieu d’une valeur certaine et précise. Nous formalisons l’adaptation de ce score pour influencer le fait de trouver une fonction d’appartenance des attributs crédibilistes déjà représentés par des fonctions de masse par rapport aux conditions de la requête Q proposée par l’utilisateur répondant à ses préférences personnelles. La fonction de score spécifie à quel point chaque donnée existante dans les bases de données correspond aux conditions de la requête. Les fonctions d’appartenance permettent de décrire une appartenance crédible à une requête. Notre processus est organisé comme suit : Nous considérons donc avoir une requête Q émise par l’utilisateur. Cette requête est dite crédibiliste constituée par des conditions complexes ou dites aussi crédibilistes. Prenons comme exemple : Select patient,age from Table 3 where (mΩmaladie {cancer} > 0.3) . qui tient compte implicitement de la structure des fonctions de croyance. Dans cet exemple, nous sommes en face à une condition complexe ou dite crédibliliste . Pour trouver les k meilleurs réponses pour cette requête, notre méthode résout le problème en utilisant les techniques spécifiques de la théorie des fonctions de croyance. Après avoir exécuté cette requête, on traite les attributs crédibilistes existants dans une base de données crédibiliste qui correspondent aux résultats de recherche de cette requête émise par l’utilisateur et qui sont modélisés par des fonctions de masses. La distance de Jousselme est donnée pour deux fonctions de masse m1 et m2 par : r 1 (m1 − m2 )t D(m1 − m2 ), (3) d(m1 , m2 ) = 2 où D est une matrice 2|Θ| × 2|Θ| dont les éléments sont : 1, if A = B = ∅, D(A, B) = (4) |A ∩ B| , ∀A, B ∈ 2Θ . |A ∪ B| D correspond à une matrice de similarité entre les éléments focaux, dont les valeurs sont issues de la mesure de Jaccard entre les sous-ensembles d’états correspondants. a Nous notons mΩ la fonction de masse de la requête liée à r a l’attribut a et Mab = {mΩ t , t ∈ {T }} l’ensemble des fonca tions de masse mΩ de la base de données liées à l’attribut t a et au tuple t. L’ensemble des tuples est noté T . Nous Ωa a devons ainsi calculer l’ensemble des distances d(mΩ r , mt ) pour tout t ∈ {T }. Nous définissons le score st par cette distance. Ce score correspond donc à la proximité d’un tuple à la requête. Si la requête porte sur plusieurs attributs, nous construisons Ωa Ωa autant de fonctions de masse, par exemple mr 1 et mr 2 pour deux attributs. Prenons comme exemple : Select patient,age from Table 3 where (mΩmaladie (cancer) > 0.3) and (mΩage (jeune) = 0.7) Le score est alors défini pour na attributs par : Figure 1: bilistes Une modélisation des attributs crédi- Prenons l’exemple de la requête qu’on a déjà exécuté, le cadre de discernement de l’attribut ”‘maladie”’ est : Ωmaladie ={anemia, f lu, cancer}. La fonction de masse attribuée à l’attribut maladie dans notre exemple, déjà présenté dans le tableau 3 : le patient “Celina” a croyance élémentaire d’avoir la maladie (cancer) est de 0.3 et 0.7 d’avoir (cancer ou flu). Nous avons donc une fonction de masse donnée par la requête crédibiliste et un ensemble de fonctions de masse correspondant à l’attribut considéré dans la requête. Afin de définir un score pour appliquer un ordonnancement de k meilleures réponses à la requête, nous proposons d’étudier la similarité de la fonction de masse issue de la requête avec celles de la base de données crédibiliste. Il existe plusieurs types de mesures de distances entre deux fonctions de croyance, la plus utilisée est celle proposée par [22] car elle permet de pondérer les croyances élémentaires sur les éléments focaux imprécis. En effet, la distanceT de SB| Jousselme est fondée sur la dissimilarité de jaccard: | A A B st = na 1 X Ωa Ωa d(mr i , mt i ) na i=1 (5) Considérons à présent le cas où la requête comporte sur le même attribut, mais avec une condition multiple, par exemple : SELECT patient,age from Table 3 WHERE (mΩmaladie (cancer) > 0.3) and (mΩmaladie (f lu) = 0.2). Dans ce cas la même approche que celle présentée ci-dessus pour plusieurs attributs peut être employée. Nous pouvons cependant combiner ces fonctions de masse avec les outils de la théorie des fonctions de croyance. En effet, considérant ces deux conditions comme indépendantes, les deux fonctions de Ωa a masse que nous notons mΩ c1 et mc2 . La fonction de masse résultante de la combinaison conjonctive de Dempster est donnée par : X 1 Ωa a a mΩ = mΩ (6) c1 (A)mc2 (B), r 1 − k A∩B=X X Ωa a où k = mΩ c1 (A)mc2 (B). Le score est ensuite calculé A∩B=∅ à partir de la distance comme précédemment. 4. ILLUSTRATION Nous proposons d’illustrer notre approche en considérant qu’il est prioritaire de fournir à l’utilisateur les k résultats répondant au mieux à ses préférences. Ces préférences sont exprimées sous forme de requêtes crédibilistes c’est-à-dire par des distributions de masse. L’allocation de masse réalisée pour la requête est construite à partir du nombre de conditions émises par l’utilisateur. Ces conditions sont parfois incertaines, imprécises ou même illisibles. La création de la fonction de masse liée à une requête dépend du type de condition. Si la condition de la requête est exacte prenons l’exemple suivant : Select patient,age from Table 3 where (mΩmaladie {cancer} = 0.3) . La fonction de masse aura pour seuls éléments focaux {cancer} et Ωmaladie . La masse associée à Ωmaladie est alors 0.7. Si la condition de la requête n’est pas exacte c’est-à-dire exprime la supériorité ou l’infériorité prenons l’exemple suivant : Select patient,age from Table 3 where (mΩmaladie {cancer} > 0.3). Dans ce cas les éléments focaux restent {cancer} et Ωmaladie , mais la masse associée à ces éléments peut être rerpésentée sous forme d’intervalle. Ainsi mΩmaladie {cancer} =]0.3, 1] et mΩmaladie (Ωmaladie ) = 1 − mΩmaladie {cancer}. Table 4: Une base de données contenant des attributs totalement crédibilistes Patient Refka Age 24 Salma [28 32] Steve Andro jeune Maladie 0.7 (flu or cancer), 0.3 cancer 0.8 (flu or cancer), 0.2 flu 0.5 (flu or cancer), 0.4 cancer 0.1 Ωmaladie 0.3 (flu or cancer), 0.3 cancer 0.1 flu 0.3 Ωmaladie cadre de discernement est Table 5: Définition des scores dans une base de données crédibiliste cancer f lu cancer ∪ f lu Ωmaladie Score 5. requête 0.3 0 0 0.7 Refka 0.3 0 0.7 0 0.4041 Salma 0 0.2 0.8 0 0.4899 Steve 0,4 0 0.5 0.1 0.3391 Andro 0.3 0.1 0.3 0.3 0.2273 CONCLUSION L’intérêt de la théorie des fonctions de croyance réside dans sa capacité à modéliser des connaissances. C’est donc naturellement que nous nous sommes tournés vers ce cadre théorique pour aborder le problème complexe du stockage et de l’interrogation de données incertaines et imprécises. Si les bases de données crédibilistes ont déjà été introduites, nous avons introduit le concept de requête crédibiliste. Ce type de requête permet à l’utilisateur d’interroger une base de données avec une demande imprécise et sans être sûr de ce qu’il recherche. L’objectif du papier est d’introduire la définition d’un score dans le contexte de base de données crédibiliste, afin par exemple d’appliquer une méthode top-k des k réponses ordonnées correspondant le mieux à une requête. Une fois les données et la requête (qui peut être multi-condition) modélisées par une fonction de masse, nous proposons de définir ce score à partir d’une distance entre les fonctions de masse. L’ordonnancement des scores fournit ensuite le top-k. Divers travaux futurs sont à mener, par exemple, il serait intéressant d’étudier l’impact du choix des conditions de la requête sur le nombre des réponses que le système peut afficher. 6. Afin d’illustrer notre approche, nous considérons la base de données contenant des attributs totalement crédibilistes présentées dans le tableau 4 et nous considérons la requête crédibiliste suivante : Select patient,age from Table 3 where (mΩmaladie {cancer} = 0.3). Le Ωmaladie ={anemia, f lu, cancer}. Les seuls éléments focaux considérés dans la base sont : {cancer}, {f lu}, {f lu, cancer}, Ωmaladie . Le tableau 5 présente les fonctions de masse des tuples et de la requête. Par exemple la distance entre la fonction de masse de la requête et la fonction de masse du tuple 1 est 0.4041. Ainsi à la requête correspondant à une préférence d’avoir les tuples dont les patients sont vraissemblablement pas atteint de cancer (avec une croyance de 0.3) l’ordre des tuples sur la base de données exemple est : Salma (tuple 2), Refka (tuple 1), Steve (tuple 3) et Andro (tuple 4). toujours REFERENCES [1] M-A. BachTobji, B. Ben Yaghlane, and K. Mellouli (2008). A new algorithm for mining frequent itemsets from evidential databases. In Information Processing and Management of Uncertainty, Malaga, Spain, pages 1535-1542. [2] D. Barbara, H. Garcia-Molina, and D. Porter (1992). The managementof probabilistic data. IEEE Trans. Knowl. Data Eng 4(5), pages 487-502. [3] M-A. Soliman, M. Saleeb, I-F. Ilyas (2010): MashRank: Towards uncertainty-aware and rank-aware mashups. ICDE, pages 1137-1140. [4] M-A. Soliman, I-F. Ilyas, K. Chen-Chuan Chang (2007): Top-k Query Processing in Uncertain Databases. ICDE, pages 896-905. [5] L. Gravano, N. Bruno, S. Chaudhuri (2002): Top-k selection queries over relational databases: Mapping strategies and performance evaluation. ACM Transactions on Database Systems, June 2002. [6] P. Bosc, O. Pivert (2004): Requêtes oui/non et données imprécises : du cadre possibiliste au cadre probabiliste. Actes du XXIIème Congrés. INFORSID, Biarritz, France, pages 25-40. [7] R. Cavallo, M. Pitarelli (1987): The theory of probabilistic databases. In Proceedings of VLDB, pages 71-81. [8] O. Benjelloun, A. Das Sarma, C. Hayworth, and J. Widom (2006): An introduction to ULDBs and the Trio system. IEEE Data Eng.Bull, 29(1), pages 5-16. [9] P. Bosc, O. Pivert. (2010): Modeling and querying uncertain relational databases: A survey of approaches based on the possible worlds semantics. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 18(5), pages 565-603. [10] H.Prade, A. Rico. (2011):Vers une version possibiliste de la théorie des fonctions de croyance. Journées d’Intelligence Artificielle Fondamentale, Lyon, 08/06/2011-10/06/2011, pages 175-186. [11] O. Benjelloun, A. Das Sarma, A. Halevy, and J. Widom. (2006) . ULDBs : Databases with uncertainty and lineage. In VLDB, pages 953-964. [12] J. Widom, P. Agrawal. (2010): Generalized uncertain databases:First steps.Fourth International VLDB Workshop on Management of Uncertain Data, Singapore. [13] N. Dalvi, C. Re, and D. Suciu. (2006): Query evaluation on probabilistic databases.IEEE Data Engineering Bulletin, 29(1), pages 25-31. [14] S. Choenni, H. Ernst Blok, E. Leertouwer. (2006): Handling Uncertainty and Ignorance in Databases: A Rule to Combine Dependent Data. International Conference on Database Systems for Advanced Applications N:11, Singapore, SINGAPOUR. [15] P. Bosc, O. Pivert. (2002): Vers un modèle relationnel possibiliste à un niveau de relations imbriquées. INFORSID, pages 73-88. [16] U. Srivastava. September (2006): Efficient query processing for modern data management. Stanford University. PhD thesis. [17] C. Re, D. Suciu (2007): Efficient evaluation of having queries on a probabilistic database. In Proceedings of DBPL. [18] I-F. Ilyas, G. Beskales, M-A . Soliman. (2008): A survey of top-k query processing techniques in relational database systems. ACM Comput. Surv. 40(4). [19] N. Dalvi, D. Suciu (2005): Answering queries from statistics and probabilistic views. In VLDB. [20] N. Dalvi, D. Suciu. (2004): Efficient query evaluation on probabilistic databases. In VLDB, Toronto, Canada. [21] K. Dedzoe , (Novembre 2011): Traitement de requêtes Top-k dans les communautés virtuelles P2P de Partage de Données. Thése de l’Université de Nantes. [22] Jousselme, A-L, D. Grenier, et E. Bossé . (2001): A new distance between two bodies of evidence. Information Fusion 2, pages 91-101. [23] K. Hewawasam, K. Premaratne, S. Subasingha and M-L. Shyu .(2005): Rule mining and classification in imperfect databases. In International Conference on Information Fusion, Philadelphia,USA, pages 661-668. [24] P. Smets . (2007): Analyzing the combination of conflicting belief functions. Information Fusion 8, pages 387-412. [25] A-P. Dempster. (1967): Upper and Lower probabilities induced by a multivalued mapping. Annals of Mathematical Statistics 38, pages 325-339. [26] G. Shafer. (1976): A mathematical theory of evidence. Princeton University Press.