Tournier-07_Presentation_Soutenance - TEL (thèses-en

publicité
Analyse en ligne (OLAP) de documents
Ronan Tournier
Travaux de thèse
Sous la direction de Gilles Zurfluh
Encadré par : Franck Ravat et Olivier Teste
Soutenance de thèse, Décembre 2007
Plan
Introduction
Modèle conceptuel
Manipulations multidimensionnelles
Intégration de documents
Validation
Conclusion & perspectives
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
2
Contexte (1/6)
ENTREPÔT
DE DONNEES
Vue unifiée
XML
Sources
XML
MAGASIN DE
DONNEES (BDM)
RESTITUTION
ET ANALYSE
DECIDEUR
Structuration
multidimensionnelle
Processus
ETL
SOURCE ET
EXTRACTION
Processus ETL
 Les systèmes d’aide à la décision
Cadre de la thèse
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
3
Contexte (2/6)
 Analyse multidimensionnelle
VENTES
Montants, Quantités
Quantité
Montant
1
1900
MAGASIN
Continent
Pays
Ville
Paris
1
1
3
1
2200
3100
4350
1900
France
Toulouse
Europe
Angleterre
Amerique N.
USA
Londres
New-York
2
0
0
4
4400
0
0
7600
2
0
7
6
4400
DATES
Mois
Fév.06
0 10150 11400
9
0
1
15400 27900
7
0
1900
Année
2006
Jan.06
Déc.05
2005
Nov.05
PRODUITS
Sun Ultra
Alienware Aurora
IBM SystemX
Dell PowerEdge
Produit
Type
Station
Serveur
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
4
Contexte (3/6)
 Pourquoi se soucier des documents ?
 Analyse en ligne sur données transactionnelles
 Données transactionnelles: 20% des données d’un
système d’information [Sullivan-01] & [Tseng-06]
 80% des données restent hors de portée
 Mais
 Systèmes OLAP: données numériques
 Documents = données textuelles
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
5
Contexte (4/6)
 XML: permet de structurer des documents
 Extended Markup Language
 Format de description
 Possède une grammaire descriptive (DTD)
 Permet de définir sa structure
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
6
Contexte (5/6)
 XML: exemple de document
<These>
<Contenu>
<Chapitre Titre="Titre du chapitre 1">
<Section Titre="Titre de la section 1.1">
<Paragraphe>Contenu…</Paragraphe>
<Paragraphe>Contenu …</Paragraphe>
</Section>
<Section Titre="Titre de la section 1.2">
…
</Section>
</Chapitre>
<Chapitre Titre="Titre du chapitre 2">
…
</Chapitre>
</Contenu>
</These>
IRIT, SIG/ED
These
Contenu
Titre
Chapitre
Titre
Analyse en ligne (OLAP) de documents
Décembre 2007
Section
Titre
Paragraphe
Type
7
Contexte (6/6)
Analyse multidimensionnelle
De l’analyse numérique…
Institut
Auteur
Inst1
Nombre de publications par auteur
Au1
Au2
Au3
DaWaK
2
1
-
ICEIS
1
3
-
CAiSE
-
1
2
Conference
Sujets des 2
publications
Vers l’analyse non numérique
Institut
Auteur
Sujet des publications
Au1
Au2
Au3
XML,
Temporel
Entrepôts de
données
-
ICEIS
XML, BD
temporelles
XML, Fouille,
Contraintes
-
CAiSE
-
Entrepôts de
données
Modèle conceptuel,
Fouille de données
Conference
DaWaK
IRIT, SIG/ED
Inst1
Analyse en ligne (OLAP) de documents
Décembre 2007
8
Problématique
Mais
Comment analyser données textuelles ?
Comment représenter les structures ?
Comment alimenter ces structures ?
But : Analyser 100% des données d’un SI
Données transactionnelles
Documents XML
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
9
État de l’art (1/3)
ENTREPÔT
DE DONNEES
Vue unifiée
Sources
XML
IRIT, SIG/ED
MAGASIN DE
DONNEES (BDM)
RESTITUTION
ET ANALYSE
DECIDEUR
Structuration
multidimensionnelle
Processus
ETL
SOURCE ET
EXTRACTION
Processus ETL
 Les systèmes d’aide à la décision
XML
Analyse en ligne (OLAP) de documents
Décembre 2007
XML
10
État de l’art (2/3)
 Entrepôts et XML
XML
 Entrepôts de données XML [Oracle]…
 Pas d’intégration de documents
 Entrepôts de documents XML [Xylème]…
 Pas destinés à l’analyse
ENTREPÔT
DE DONNEES
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
11
État de l’art (2/3)
 Magasins et XML
XML
 Intégration de données XML [Golfarelli-01]…
 Données sources fortement structurées
 Stockage XML multidimensionnel [Messaoud-06]…
 Grande redondance dans les données
MAGASIN DE
DONNEES (BDM)
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
12
État de l’art (3/3)
 Analyse et XML
 Analyse de documents [McCabe-00]…
 Repose sur des analyses numériques
 Pas d’analyse du contenu
 Pas d’exploitation de la structure
XML
 Pas de synthèse des informations textuelles
RESTITUTION
ET ANALYSE
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
13
État de l’art (3/3)
 Actuellement OLAP ne gère pas
 Données textuelles
 Structure
 Contenu
 Objectif : Analyse OLAP de documents
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
14
Plan
Introduction
Modèle conceptuel
Manipulations multidimensionnelles
Intégration de documents
Validation
Conclusion & perspectives
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
15
Modèle conceptuel (1/7)
IRIT, SIG/ED
ENTREPÔT
DE DONNEES
MAGASIN DE
DONNEES (BDM)
RESTITUTION
ET ANALYSE
DECIDEUR
Processus
ETL
Sources
Processus ETL
SOURCE ET
EXTRACTION
Analyse en ligne (OLAP) de documents
Décembre 2007
16
Modèle conceptuel (2/7)
 Données issues de documents




Structuration hiérarchique
Liens intra ou inter documents
Contenu : données textuelles
Méta données
 Limite des modèles actuels [Cabibbo-00], [Abellò-06]…
 Non-analyse du contenu
 Analyses prédéfinies
 Difficultés pour identifier le sujet d’analyse
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
17
Modèle conceptuel (3/7)
 Galaxie: caractéristiques
 Unique concept: une Dimension
 Une dimension = un axe d’analyse
 Une dimension = un sujet potentiel d’analyse
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
18
Modèle conceptuel (4/7)
 Dimension Di=(ADi, HDi, IDi, IStarDi)




ADi = ensemble d’attributs
HDi = ensemble de hiérarchies
IDi = ensemble d’instances
IStarDi = fonctions associant les instances ensemble
Nom
AUTEURS
HSt
Auteur
HA
IRIT, SIG/ED
Statut
Equipe
Institut
Analyse en ligne (OLAP) de documents
Décembre 2007
19
Modèle conceptuel (5/7)
 Dimension Di=(ADi, HDi, IDi, IStarDi)
 ADi = ensemble d’attributs
 HDi = ensemble de hiérarchies
 Hiérarchies Hi=(ParamHi, WeakHi)
 ParamHi = liste ordonnée de paramètres
 WeakHi = association des attributs faibles
Paramètre
Attribut Faible
= niveau
= complément
de granularité
sémantique
d’analyse
d’un paramètre
Nom
AUTEURS
HSt
Auteur
Statut
HA
IRIT, SIG/ED
Equipe
Institut
Analyse en ligne (OLAP) de documents
Décembre 2007
20
Modèle conceptuel (6/7)
 Dimension Di=(ADi, HDi, IDi, IStarDi)




ADi = ensemble d’attributs
HDi = ensemble de hiérarchies
IDi = ensemble d’instances
IStarDi = fonctions d’association des instances
Exemple d’instance d’auteur
Instance Auteur
Nom
Statut Equipe Institut
i1
Au1
Ronan Tournier ATER SIG/ED IRIT
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
21
Modèle conceptuel (7/7)
 Galaxie G=(DG, StarG, LkG)
 DG = ensemble de dimensions
 StarG = fonction associant les dimensions
 LkG = ensemble de fonctions représentant les liens
intra ou inter documents
DATES
ARTICLES
IRIT, SIG/ED
ARTICLES
AUTEURS
CONFERENCES
ARTICLES
Référence
Titre_Sec
Type_Par
Type_Sec
HS
Titre_Doc
CONFERENCES
AUTEURS Document
Paragraphe
Section
Analyse en ligne (OLAP) de documents
Décembre 2007
DATES
22
Exemple
 Analyse d’articles scientifiques et de projets
Tx_Acceptation
Editeur
Nom
HConf
Audience
Serie
Conf
Référence
Titre_Sec
Type_Par
Type_Sec
CONFERENCES
ARTICLES
Titre_Doc
HS
Paragraphe
Section
Document
Nom
Libelle_Mois
HTps
Annee
Mois
Date
AUTEURS
DATES
HSt
Auteur
HA
Statut
Equipe
Titre_R
Institut
Nom
Institut
HR
Type
IRIT, SIG/ED
Rapport
RAPPORTS
INSTITUTS
Analyse en ligne (OLAP) de documents
Décembre 2007
HI
Institut
Pays
23
Plan
Introduction
Modèle conceptuel
Manipulations multidimensionnelles
Intégration de documents
Validation
Conclusion & perspectives
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
24
Fonction d’agrégation (1/6)
ENTREPÔT
DE DONNEES
MAGASIN DE
DONNEES (BDM)
RESTITUTION
ET ANALYSE
DECIDEUR
Processus
ETL
Sources
Processus ETL
SOURCE ET
EXTRACTION
AGREGATION
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
25
Fonction d’agrégation (2/6)
 Principe d’agrégation
 Exemple de somme
1
1
3
1
2200
3100
4350
1900
2
0
0
4
4400
0
0
7600
2
0
7
6
4400
7
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
0 10150 11400
9
0
1
15400 27900
0
1900
26
Fonction d’agrégation (3/6)
 Problématique
 Agréger des données textuelles
 Reconstituer une règle d’agrégation
 Règle d’agrégation: ontologie
 Ontologie légère [Lassila-01]
 Ontologie de domaine
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
27
Fonction d’agrégation (4/6)
 Exemple d’ontologie (SI)
Racine
Information Systems
Database
OLAP
...
...
OLTP
Processing
Methodology
Arc
Noeud
Storage
Data warehouse ...
Design
Conceptual model
DFM YAM²
IRIT, SIG/ED
...
Logical
Star
Snowflake
Document warehouse
...
...
Architecture
MOLAP
...
... = noeuds non
représentés
...
... ROLAP
...
Feuilles
OOLAP
Analyse en ligne (OLAP) de documents
Décembre 2007
...
28
Fonction d’agrégation (5/6)
 Exemple d’agrégation
LCA (Design, Processing) = OLAP
Distance (Design, Processing) = 3
D=1
D=3
Entrée { (Design, d=0), (Processing, d=0) }
Sortie (OLAP, d=3)
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
29
Fonction d’agrégation (6/6)
 Deux opérations de manipulation
 LCA: plus petit ancêtre commun
 Distance structurelle entre deux nœuds
 AVG_KW : Processus d’agrégation
 Remplacement de mots-clef le LCA
 Problème: forte probabilité de retourner la racine
 Contrôle de la perte de sémantique
 Limiter l’agrégation (distance heuristique = 3)
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
30
Opérations de manipulation (1/6)
ENTREPÔT
DE DONNEES
MAGASIN DE
DONNEES (BDM)
RESTITUTION
ET ANALYSE
DECIDEUR
Processus
ETL
Sources
Processus ETL
SOURCE ET
EXTRACTION
MANIPULATION
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
31
Opérations de manipulation (2/6)
 But: « Manipuler une galaxie »
 Opérations OLAP
 Liens pour naviguer au sein des données
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
32
Opérations de manipulation (3/6)
 Opérations OLAP [Ravat-07e] revisitées
 Focalisation
 Restriction
 Forage
 Rotation
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
33
Opérations de manipulation (4/6)
Spécification d’une analyse: FOCUS
Sélectionner : principaux mot-clefs des section d’articles par auteur, par année
Tx_Acceptation
Editeur
Nom
ARTICLES
Serie
HS
Paragraphe
Section
CONFERENCES
Document
ARTICLES
Annee
HTps
Mois
Date
Paragraphe
Mois
AUTEURS
DATES
Section
AUTEURS
IRIT, SIG/ED
Titre_R
Document
Nom
DATES
Date
HSt
Auteur
HA
Statut
Equipe
Type
Titre_Doc
HS
Libelle_Mois
Equipe
HSt
Auteur
HA
Nom
Libelle_Mois
Annee
Conf
Référence
Titre_Sec
Type_Par
Type_Sec
Titre_Doc
HTps
Statut
Audience
Institut
HConf
Référence
Titre_Sec
Type_Par
Type_Sec
Institut
Nom
Institut
HR
Rapport
RAPPORTS
INSTITUTS
Analyse en ligne (OLAP) de documents
Décembre 2007
HI
Institut
Pays
34
Opérations de manipulation (4/6)
Spécification d’une analyse: FOCUS
Sélectionner : principaux mot-clefs des section d’articles par auteur, par année
Référence
Titre_Sec
Type_Par
Type_Sec
Institut
ARTICLES
HS
Paragraphe
Section
Document
Libelle_Mois
Annee
Mois
Date
DATES
AUTEURS
Equipe
Statut
HTps
HSt
Auteur
HA
Nom
Titre_Doc
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
35
Opérations de manipulation (5/6)
Changement du niveau de détail:
2006
fouille de données, pattern
XML, document
BD temporelle, règles
document, Xpath
BD temporelle, modèle
Paragraphe
2005
2006
BD temporelle, fouille de données
XML, document
D
ow
Ro
ll-
U
p
DATES | HTps
l-
Au1
Rotation
IRIT, SIG/ED
2005
D
ril
AUTEURS | HA
ARTICLES | HS
TOP_KEYWORDS
(Section), Document Annee
Auteur
Au1
DATES | HTps
n
AUTEURS
| HA
ARTICLES | HS
TOP_KEYWORDS
(Paragraphe), Document Annee
Auteur
Section
Référence
Titre_Sec
Type_Par
Type_Sec
ARTICLES
Titre_Doc
HS
Paragraphe
Section
Document
Analyse en ligne (OLAP) de documents
Décembre 2007
36
Opérations de manipulation (6/6)
 Exploitation des liens
R.Institut
R.Auteur
Inst1
A1
A2
Nombre de fois qu’un auteur est cité
A3
Conférence
ER
3
2
1
SSDBM
2
-
-
DaWaK
1
1
Référence
Titre_Sec
Type_Par
Type_Sec
ARTICLES
Titre_Doc
HS
Sectionconférence
Document
Auteur cité 3 fois dans une
2
Paragraphe
Portée des travaux : Comment analyser le contexte des citations ?
R.Institut
Inst1
Context of the citations
R.Auteur
A1
A2
A3
ER
XML,
Documents
XML, Entrepôt
de données
Fouille de données,
Clustering
SSDBM
XML, BD
Temporelle
-
-
DaWaK
Fouille de
données
Fouille de
données
Fouille de données,
Clustering
Conférence
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
37
Plan
Introduction
Modèle conceptuel
Manipulations multidimensionnelles
Intégration de documents
Validation
Conclusion & perspectives
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
38
Démarche d’intégration (1/5)
IRIT, SIG/ED
ENTREPÔT
DE DONNEES
MAGASIN DE
DONNEES (BDM)
RESTITUTION
ET ANALYSE
DECIDEUR
Processus
ETL
Sources
Processus ETL
SOURCE ET
EXTRACTION
Analyse en ligne (OLAP) de documents
Décembre 2007
39
Démarche d’intégration (2/5)
 Architecture: positionnement
Comment passer des documents à une galaxie?
<These>
<Contenu>
<Chapitre Titre="Titre du chapitre 1">
<Section Titre="Titre de la section 1.1">
<Paragraphe>Contenu…</Paragraphe>
<Paragraphe>Contenu …</Paragraphe>
</Section>
<Section Titre="Titre de la section 1.2">
…
</Section>
</Chapitre>
<Chapitre Titre="Titre du chapitre 2">
…
</Chapitre>
</Contenu>
</These>
Tx_Acceptation
Editeur
Nom
HConf
Audience
Serie
Conf
CONFERENCES
Type_Par
ARTICLES
Libelle_Mois
HTps
Annee
Mois
Date
Titre_Sec
Type_Sec
Titre_Doc
HS
Paragraphe
Section
Document
DATES
Table1 Col1 Col2 Col3 Col4
Table1 Col1 Col2 Col3 Col4
ENTREPÔT
IRIT, SIG/ED
Table1 Col1 Col2 Col3 Col4
Magasin
Analyse en ligne (OLAP) de documents
Décembre 2007
40
Démarche d’intégration (3/5)
 Conceptions de BDM
 Démarches ascendantes [Golfarelli-98]…
 Démarches descendantes [Kimball-96]…
 Démarches mixtes [Carneiro-02]…
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
41
Démarche d’intégration (4/5)
 Étapes
SOURCES
ANALYSE
CONFRONTATION & MODIFICATION
MAGASIN
Enrichissement des sources
Analyse des
Sources
Données
XML
Vision arborescente
INCOMPATIBILITE
Structure des sources: DTD
Sources
(éventuellement enrichies)
Sources auxilliaires
+
Chargement
des données
CONFRONTATION
Analyse
des besoins
utilisateurs
Schéma conceptuel en galaxie
INCOMPATIBILITE
Besoin
d'Analyse
Schéma conceptuel
compatible avec les sources
Adaptation du schéma conceptuel
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
42
Analyses concurrentes (1/3)
 Détails des étapes
SOURCES
ANALYSE
CONFRONTATION & MODIFICATION
MAGASIN
Enrichissement des sources
Analyse des
Sources
Données
XML
Vision arborescente
INCOMPATIBILITE
Structure des sources: DTD
Sources
(éventuellement enrichies)
Sources auxilliaires
+
Chargement
des données
CONFRONTATION
Analyse
des besoins
utilisateurs
Schéma conceptuel en galaxie
INCOMPATIBILITE
Besoin
d'Analyse
Schéma conceptuel
compatible avec les sources
Adaptation du schéma conceptuel
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
43
Analyses concurrentes (2/3)
 Spécification des besoins
COLLECTE DES
BESOINS
SPECIFICATION
DES BESOINS
EXPRESSION/FORMALISATION
DES BESOINS
Besoins utilisateur
Questionnaires
Requêtes type
VENT ES
SO M M E(Q uantités)
PR O D U ITS
Décideur
Produit
DELL PowerEdge
Serveur
IBM System X
Alienware Aurora
Station
Sun Ultra
D AT ES = novem bre 2005
Continent
Pays
M AG ASINS
Europe
Angleterre
Am érique N.
U SA
France
T ype
3
1
3
5
2
0
7
6
7
9
0
1
Analyse
des besoins
Schéma multidimensionnel
(Galaxie)
 Identification des attributs
 Spécification d’une matrice des besoins
 Identification des nœuds
 Regroupement des attributs en dimensions
 Hiérarchisation des attributs au sein des dimensions
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
44
Analyses concurrentes (3/3)
 Analyse des sources
 Identifier
 Contenu
 Structure du contenu
 Méta données
ARTICLE
Structure du contenu
Meta données
Contenu
AUTEUR
PUBLICATION
Annee
Mois
Editeur
Titre_Publication
IRIT, SIG/ED
+
CONTENU_ARTICLE
Titre_A
Nom
Institut
Titre_S
Pays
Titre_SSec
Analyse en ligne (OLAP) de documents
Décembre 2007
SECTION
+
SSec_Section
Paragraphe
+
+
45
Confrontation (1/2)
 Détails des étapes
SOURCES
ANALYSE
CONFRONTATION & MODIFICATION
MAGASIN
Enrichissement des sources
Analyse des
Sources
Données
XML
Vision arborescente
INCOMPATIBILITE
Structure des sources: DTD
Sources
(éventuellement enrichies)
Sources auxilliaires
+
Chargement
des données
CONFRONTATION
Analyse
des besoins
utilisateurs
Schéma conceptuel en galaxie
INCOMPATIBILITE
Besoin
d'Analyse
Schéma conceptuel
compatible avec les sources
Adaptation du schéma conceptuel
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
46
Confrontation (2/2)
 Phase d’association
ARTICLE
AUTEUR
PUBLICATION
Annee
HConf
Conf
SSec_Section
Titre_SSec
+
Paragraphe
CONFERENCES
Type_ Par
ARTICLES
Libelle_Mois
HTps
IRIT, SIG/ED
+
+
Incompatibilités
Tx_Acceptation
Editeur
Nom
Mois
SECTION
Titre_S
Pays
Titre_Publication
Annee
Titre_A
Institut
Editeur
Serie
CONTENU_ARTICLE
Nom
Mois
Audience
+
Date
Titre_Sec
Type_Sec
Titre_Doc
HS
Paragraphe
Section
Document
DATES
Analyse en ligne (OLAP) de documents
Décembre 2007
47
Enrichissement et chargement
 Détails des étapes
SOURCES
ANALYSE
CONFRONTATION & MODIFICATION
MAGASIN
Enrichissement des sources
Analyse des
Sources
Données
XML
Vision arborescente
INCOMPATIBILITE
Structure des sources: DTD
Sources
(éventuellement enrichies)
Sources auxilliaires
+
Chargement
des données
CONFRONTATION
Analyse
des besoins
utilisateurs
Schéma conceptuel en galaxie
INCOMPATIBILITE
Besoin
d'Analyse
Schéma conceptuel
compatible avec les sources
Adaptation du schéma conceptuel
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
48
Validation
Introduction
Modèle conceptuel
Manipulations multidimensionnelles
Intégration de documents
Validation
Conclusion & perspectives
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
49
Architecture (1/3)
4 niveaux
Fichiers XML
conformes à
un DTD commune
IRIT, SIG/ED
RESTITUTION
Java
fic3.xml
MAGASIN
Java
fic1.xml
fic2.xml
ENTREPÔT
Java
SOURCES
SQL +
XQuery
SQL +
XQuery
L)
SGBD ORACL
E(XML & RELATIONNE
Analyse en ligne (OLAP) de documents
Décembre 2007
50
Architecture (2/3)
Magasin de données
IRIT, SIG/ED
Structures
Base de données
Données
Java
Entrepôt
Magasin
Métabase
SQL +
XQuery
Analyse en ligne (OLAP) de documents
Décembre 2007
51
Architecture (3/3)
Restitution / analyse
MAGASIN
RESTITUTION
Requêtes
multidimensionnelles
Résultats
Résultats
Traitements
externes
Top_Keyword
(ARTICLES.Texte)
IdA
AUTEURS
Traitements
internes
Annee
TEMPS
2005
OLAP
Au1
Entrepot
Entrepôt
Au2
Document
STRUCTURE.Type_Sec = "introduction"
Agrégation de
données numériques
IRIT, SIG/ED
2006
OLAP
Requetes
XML
Document
Agrégation de
données textuelles
Analyse en ligne (OLAP) de documents
Décembre 2007
52
Outil et restitution d’analyses (1/2)
Spécification d’analyses
Tx_Acceptation
Editeur
Nom
HConf
Audience
Serie
Conf
Titre_Sec
Type_Sec
Type_Par
CONFERENCES
ARTICLES
Titre_Doc
HS
Paragraphe
Section
Document
Nom
Libelle_Mois
HTps
Annee
Mois
Date
AUTEURS
DATES
HSt
Auteur
HA
Statut
Equipe
(4)
(1)
Institut
(2)
(3)
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
53
Outil et restitution d’analyses (2/2)
Manipulation d’analyses
Tx_Acceptation
Editeur
Nom
HConf
Audience
Serie
Conf
Titre_Sec
Type_Sec
Type_Par
CONFERENCES
ARTICLES
Titre_Doc
HS
Paragraphe
Section
Document
Nom
Libelle_Mois
HTps
Annee
Mois
Date
DATES
AUTEURS
HSt
Auteur
HA
Statut
Equipe
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
Institut
54
Conclusion
Introduction
Modèle conceptuel
Manipulations multidimensionnelles
Intégration de documents
Validation
Conclusion & perspectives
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
55
Bilan général (1/3)
 Analyse en ligne de documents
 Modèle en galaxie
 Généralisation
 Concept unique
 Spécificité des documents
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
56
Bilan général (2/3)
 Analyse en ligne de documents
 Opérations de manipulation
 Agrégation de données textuelles
 Spécification d’analyses
 Manipulation d’analyses
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
57
Bilan général (3/3)
 Analyse en ligne de documents
 Démarche
 Processus mixte
 Conception d’une galaxie
 Intégration de documents XML
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
58
Perspectives
 Données semi-structurées
 Gestion de versions
 Evaluation de performances
 Visualisation adaptée
 Fonctions d’agrégation : environnement
d’intégration
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
59
-
MERCI
Soutenance de thèse en informatique
Décembre 2007, Ronan Tournier
SIG/ED : Systèmes d’Informations Généralisés / Entrepôts de Données
IRIT, Institut de Recherche en Informatique de Toulouse
Université Paul Sabatier, Toulouse III.
IRIT, SIG/ED
Analyse en ligne (OLAP) de documents
Décembre 2007
60
Téléchargement