Cours de base de données - Bienvenue au site Web de Tuan Loc

publicité
Cours Administration
de bases de données
Tuan-Loc NGUYEN
Université Paris 6 -Paris 12
Dictionnaire


Cours : proposper
Administration de bases de données
–
–
–


Administration
Bases
Données
Université
Tuan-Loc NGUYEN (dico viet-franco)
Tuan : beau, intelligent
– Loc: bonheur
– Nguyen: nom de la famille royale
-> Tuan-Loc NGUYEN:
un homme beau,intelligent,bonheur dans la famille royale
–
Contenu du cours 1



Définition de bases de données
Définition de SGBD
SGBD:
–
–



Modèles de modélisation des données
Objectif du SGBD
Architecture
–
–
–

Caractéristiques
Pourquoi
deux niveaux
trois niveaux
répartie
Gestion d’accès
–
–
–
–
Concepts de base
Organisations par hachage
Organisations indexées
Organisations multi-attributs
Résumé

Bases de données, définition:
–
–
Collection de fichiers reliés par des pointeurs
multiples, bien organisés, répondre efficacement
des demandes variées
Collection d’informations via la modélisation du
monde réel
SGBD - Qu’est-ce c’est ?

SGBD (DBMS): Databases Management System
Système de Gestion de Bases de Données

Définition de SGBD:
–
Logiciel:
données persistantes
 accès efficace
(Ullman)

–
Ensemble de logiciels systèmes permettant de stocker et
d’interroger un ensemble de fichiers indépendants. Il est
aussi un outil permettant de modéliser et de gérer des
données (G.Gardarin)
SGBD: Caractéristiques







Manager des données persistées
Accéder aux larges données avec
efficacité
Supporter modèles de données
Transaction
Permettre de définir des
données(structure, accès, manipuler)
Recouverte de données
Control d’accès
Objectif du SGBD



Assurer l’indépendance des programmes aux
données (architecture 2-tiers)
What non How
Indépendance:
–
–
–
–
Physique des programmes aux données
Logique des programmes aux données
Administration facile
Permettre de manipuler par langages query (SQL)
1. Objectifs des SGBD (1)



INDÉPENDANCE PROGRAMMES/DONNÉES
– Indépendance physique
– Indépendance logique
ACCÉS PAR DES LANGAGES ASSERTIONNELS
– Recherche (le quoi et non le comment)
– Insertion (en groupes, calculées)
– Mise à jour (basée sur la recherche)
EFFICACITÉ DES ACCÈS
– Temps de réponse
logique
physique
SGBD
données
Objectifs des SGBD (2)
SUPPORT DE TRANSACTIONS
– Atomique (tout ou rien)
– Cohérente (respect de l'intégrité)


PARTAGEABILITÉ ET SÉCURITE DES DONNÉES
–
–
–
–
Introduction
Simultanéité lecture/écriture maximum
Accès transactionnels & décisionnels
Confidentialité (authentification, droits d'accès, cryptage)
Restauration après pannes (journaux, sauvegardes)
Objectifs des SGBD (3)

CONCEPTION FACILITÉE DES APPLICATIONS
– Conception visuelle des BD (diagrammes E/R, objets)
– Conception des traitements (diagrammes de flux entre
modules)
– Dictionnaire de données (objets BD, graphiques, applicatifs)

ADMINISTRATION SYSTÈME FACILITÉE
– Visualisation des plans d ’accès
– Élaboration de statistiques
Introduction
Niveaux de schémas

Conceptuel
– description des entités et
associations du monde réel

Interne
– implémentation physique des entités
et associations dans les fichiers

Externe (vues)
– description des entités et
associations vues par un utilisateur
(ou un groupe d’utilisateurs)
Introduction
Architectures Client-Serveur


Définition
– modèle d'architecture applicative où les programmes sont
répartis entre processus clients et serveurs communiquant
par des requêtes avec réponses.
Une répartition hiérarchique des fonctions
– données sur le serveur partagées entre N clients
– interfaces graphiques sur la station de travail personnelle
– communication par des protocoles standardisés
– distribution des programmes applicatifs afin de minimiser
les coûts
Architecture Client-Serveur
Pourquoi le Client-serveur ?



Évolution des besoins de l'entreprise
– Augmentation de productivité, de réactivité
– Utilisation des micros assurant flexibilité et faibles coûts
– Besoin de décisionnel et transactionnel sur gros volumes
Évolution des technologies
– Systèmes ouverts permettant l'usage de standards
– Environnements de développement graphiques
– Explosion de la puissance des micros et des serveurs
Solutions techniques séduisantes
– Les données partagées enfin accessibles simplement
– Mise en commun des services (règles de gestion, procédures)
– Gestion de transactions et fiabilité au niveau du serveur
Architecture 1e génération
SGBD
SERVEUR
règles
NT, UNIX, NOVELL
Données
GCOS, VMS, MVS
REQUETE
RESULTAT
Windows
APPLICATION
NT
APPLICATIONS
UNIX
CLIENTS
APPLICATIONS
Le C/S de 2e génération
Application
Outil Applicatif



Procédure stockée
Outil de connectabilité
– Procédure accomplissant une
Protocole Réseau
fonction de service sur les données
Requêtes de services
– Exemple : Entrée ou sortie de stock
Architecture orientée services plutôt
Résultats
que requêtes
Protocole Réseau
– Distribution des traitements
Outil de connectabilité
– Peut être automatisée
Procédures
Évolution et passage à l'échelle
Serveur BD Stockées
– Possibilité de serveurs multiples,
avec redondances
base de
– Possibilité de données privées sur
données
les clients
Client
Serveur
Intérêt du C/S de 2e génération



Réduction des transferts réseaux
– non nécessité de monter les données dans le client pour les
modifier
– appel de services plus compact
Distribution automatique des applications
– développement sur le poste de travail
– partitionnement par tirer-déposer (drag & drop)
Simplification des outils de développement
– principe de la fenêtre unique
– modélisation uniforme des objets applicatifs
– invisibilité du modèle de données à l'extérieur du serveur
Vers le 3e génération



Intégration du Web et du client-serveur
– navigateur à présentation standard pour le client
– possibilité de petites applications (contrôles) sur le client
– très grande portabilité (Intranet, Internet)
Architecture à 3 strates (3-tiered)
– Base de données avec procédures stockées
– Services applicatifs partagés et objets métiers (EJB, ActiveX)
– Présentation hypertexte multimédia avec contrôles
Support de l'hypermédia
– types de données variées et extensibles (texte, image,vidéo)
– hypertexte et navigation entre documents et applications
Méthode d’Accès

1. Concepts de base

2. Organisations par hachage

3. Organisations indexées

4. Organisations multi-attributs
1. Concepts de Base

Le gestionnaire de fichiers est la couche
interne d'un SGBD, souvent intégrée au
système opératoire.
ANALYSEUR
M ETA-BASE
TRADUCTEUR
OPTIMISEUR
Gestionnaire
de fichiers
EXECUTEUR
BD
Analyse syntaxique
Analyse sémantique
Gestion des schémas
Modification de requêtes
Contrôle d'intégrité
Contrôle d'autorisation
Ordonnancement
Optimisation
Ellaboration d'un plan
Exécution du plan
Méthodes d'accès
Contrôle de concurrence
Atomicité des
transactions
Structures des Disques

Notion 1: Volume
(Disk Pack)
–
(a) Side view
Unité de mémoire
secondaire
amovible.
Innermost cylinder
Outermost cylinder
(b) Top view
Notion de fichier


Notion 2: Fichier (File)
– Récipient d'information caractérisé par un nom, constituant
une mémoire secondaire idéale, permettant d'écrire des
programmes d'application indépendants des mémoires
secondaires.
Un fichier se caractérise plus particulièrement par :
– UN NOM
– UN CREATEUR
– UNE DATE DE CREATION
– UN OU PLUSIEURS TYPES D'ARTICLE
– UN EMPLACEMENT EN MS
– UNE ORGANISATION
Quelques notions de base




Notion 3: Article (Record)
– Elément composant d'un fichier correspondant à l'unité de
traitement par les programmes d'application.
Notion 4: Organisation de fichier (File organization)
– Nature des liaisons entre les articles contenus dans un
fichier.
Notion 5: Méthode d'accès (Acces Method)
– Méthode d'exploitation du fichier utilisée par les
programmes d'application pour sélectionner des articles.
Notion 6: Clé d'article (Record Key)
– Identifiant d'un article permettant de sélectionner un article
unique dans un fichier.
Les fichiers sur les volumes



Notion 7: Label de volume (Label)
– Premier secteur d'un volume permettant d'identifier ce
volume et contenant en particulier son numéro.
Notion 8: Descripteur de fichier (Directory entry)
– Ensemble des informations permettant de retrouver les
caractéristiques d'un fichier, contenant en particulier le nom
du fichier, sa localisation sur disque, etc…
Notion 9: Catalogue (Directory)
– Table (ou fichier) située sur un volume et contenant les
descripteurs des fichiers du volume.
Organisation d'un volume
VOLUME n
CATALOGUE
LABEL n
F1
F2
F3
F1
F2
F3
F4
F4
…
Catalogue Hiérarchisé

Notion 10: Catalogue hiérarchisé
– Catalogue constitué d'une hiérarchie de fichiers, chaque
fichier contenant les descripteurs des fichiers
immédiatement inférieurs dans la hiérarchie.

> PIERRE
> PIERRE > BASES-DE-DONNEES
> PIERRE > BASES-DE-DONNES > MODELES


Exemple de catalogue hiéarchisé
RACINE
Catalogue des
usagers
PAUL
PIERRE
ERIC
…
…
…
…
ARCHIT ECT URE
Fichiers{
de
donnees
…
LIONEL
Catalogue des
applications
de Pierre
…
BASES DE
DONNEES
T ELEINFO.
Catalogue des
Pierre en
fichiers de
Bases de données
…
MODELES
…
LANGAGES
Allocation de l'espace disque

Notion 11: Région (Allocation area)
– Ensemble de zones de mémoires secondaires (pistes)
adjacentes allouées en une seule fois à un fichier.

Notion 12: Granule d'allocation (Allocation granule)
– Unité de mémoire secondaire allouable à un fichier.
Stratégie d'allocation

Objectifs d'une stratégie
–
(1) minimiser le nombre de régions à allouer à un
fichier de sorte à réduire d'une part les
déplacements des bras des disques lors des
lectures en séquentiel et d'autre part le nombre
de descripteurs de régions associés à un fichier;
–
(2) minimiser la distance qui sépare les régions
successives d'un fichier, de sorte à réduire les
déplacements de bras en amplitude.
Stratégie par granule à région fixe

Ces stratégies confondent les notions de région et de granule.
Elles sont simples et généralement implantées sur les petits
systèmes.

La stratégie du premier trouvé:
– le granule correspondant à la tête de liste de la liste des
granules libres, ou au premier bit à 0 dans la table des
granules libres, est choisi.
La stratégie du meilleur choix:
– le granule le plus proche (du point de vue déplacement de
bras) du dernier granule alloué au fichier est retenu.

Stratégie à région variable


La stratégie du plus proche choix:
– Lors d'une demande d'allocation, la liste des régions libres
est parcourue jusqu'à trouver une région de la taille
demandée; dans le cas où aucune région de la taille
demandée n'est libre, la première région de taille supérieure
est découpée.
La stratégie des frères siamois:
– Des listes séparées sont maintenues pour les régions libres
de dimensions 2**0, 2**1, … 2**K granules. Lors d'une
demande d'allocation, une région libre peut être extraite de
la liste des régions libres de taille 2**i+1 pour constituer
deux régions libres de taille 2**i.
Adressage Relatif

Notion 13: Adresse relative (Relative address)
– Numéro d'unité d'adressage dans un fichier (autrement dit:
déplacement par rapport au début du fichier).
|
|
|
|
offset = adresse relative
|
|
|
|
|
|
Architecture d'un SGF
Séquentiel
Haché
OUVRIR
LIRE
Indexé 1
ECRIRE
Indexé 2
FERMER
ADRESSAGE
ME 1
ME k
}
}
METHODES
D'ACCES
}
ANALYSEUR
}
MODULES
D'E/S
Disques
Magnétiques
2. Organisations par Hachage

Notion 14: Fichier haché statique (Static
hashed file)
–
Fichier de taille fixe dans lequel les articles sont
placés dans des paquets dont l'adresse est
calculée à l'aide d'une fonction de hachage fixe
appliquée à la clé.
Structure interne d'un paquet
Article a1
de longueur lga1
Iga1
-----------------a1
Adresse premier octet
libre dans le paquet
Iga2
----------------Article a2
de longueur lga2
Article a3
de longueur lga3
a2
L Octets
Iga3
----------------a3
Index optionnel
Vue d'un fichier haché statique
Fonction de
hachage
Clé
…………
0
1
2
………
i
n
} Paquets
Fonction de Hachage



DIFFÉRENTS TYPES DE FONCTIONS :
– PLIAGE DE LA CLE
– CONVERSION
– MODULO P
– FONCTION PSEUDO-ALEATOIRE MIXTE
BUT :
– Obtenir une distribution uniforme pour éviter de saturer un
paquet
– Mauvaise fonction de hachage ==> Saturation locale et
perte de place
SOLUTION : AUTORISER LES DEBORDEMENTS
Techniques de débordement



l'adressage ouvert
– place l'article qui devrait aller dans un paquet plein dans le
premier paquet suivant ayant de la place libre; il faut alors
mémoriser tous les paquets dans lequel un paquet plein a
débordé.
le chaînage
– constitue un paquet logique par chaînage d'un paquet de
débordement à un paquet plein.
le rehachage
– applique une deuxième fonction de hachage lorsqu'un
paquet est plein pour placer en débordement.
Problème du hachage statique

Nécessité de réorganisation
– Un fichier ayant débordé ne garantie plus de bons temps
d'accès (2 + accès disque en écriture, 1 en lecture)
– Le nombre de paquets primaires est fixe, ce qui peuT
entrainer un mauvais taux de remplissage

Solution idéale: réorganisation progressive
– Un fichier ayant débordé devrait rester analogue à un fichier
n'ayant pas débordé.
– Il serait souhaitable de changer la fonction d'adressage.
Techniques de hachage
dynamique


Techniques permettant de faire grandir progressivement un
fichier haché saturé en distribuant les articles dans de
nouvelles régions allouées au fichier.
LES QUESTIONS CLÉS :
– (Q1) Quel est le critère retenu pour décider qu'un fichier
haché est saturé ?
– (Q2) Quelle partie du fichier faut-il doubler quand un fichier
est saturé?
– (Q3) Comment retrouver les parties d'un fichier qui ont été
doublées et combien de fois ont elles été doublées?
– (Q4) Faut-il conserver une méthode de débordement et si
oui quelle méthode?
Hachage extensible




(Q1) Le fichier est étendu dès qu'un paquet est plein; dans ce cas un
nouveau paquet est ajouté au fichier.
(Q2) Seul le paquet saturé est doublé lors d'une extension
– Il éclate selon le bit suivant du résultat de la fonction de hachage
appliquée à la clé h(K). Les articles ayant ce bit à 0 restent dans
le paquet saturé, alors que ceux ayant ce bit à 1 partent dans le
nouveau paquet.
(Q3) Chaque entrée d’un répertoire donne l'adresse d'un paquet.
– Les 2**(P-Q) adresses correspondant à un paquet qui a éclaté Q
fois sont identiques et pointent sur ce paquet; ainsi, par
l'indirection du répertoire, le système retrouve les paquets.
(Q4) La gestion de débordement n'est pas nécessaire.
Fichier haché extensible
Paquets
H (KEY)
XXXX X X X
000
001
010
011
100
101
110
111
Répertoire
Eclatement d'un paquet

L'entrée jumelle est forcée à l'adresse du nouveau paquet créé
si elle pointe sur le paquet éclaté, sinon le répertoire est
doublé.
000
001
010
011
100
101
110
111
a ------->
b------->
c1- - - - - - - >
d------->
a
b
c2
d
Définition du hachage extensible

Notion 15: Hachage extensible (Extended
hashing)
–
Méthode de hachage dynamique consistant à
éclater un paquet plein et à mémoriser l'adresse
des paquets dans un répertoire accédé
directement par les (M+P) premiers bits de la
fonction de hachage où P est le nombre
d'éclatements maximum subi par les paquets.
Hachage linéaire




(Q1) Le fichier est étendu par paquet dès qu'un paquet est
plein.
(Q2) Le paquet doublé n'est pas celui qui est saturé, mais un
paquet pointé par un pointeur courant qui parcours le fichier
circulairement.
(Q3) Un niveau d'éclatement P du fichier est conservé dans le
descripteur du fichier afin de préciser la fonction de hachage.
– Pour un paquet situé avant le pointeur courant, (M+P+1)
bits de la fonction de hachage doivent être utilisés alors que
seulement (M+P) sont à utiliser pour adresser un paquet
situé après le pointeur courant.
(Q4) Une gestion de débordement est nécessaire puisqu'un
paquet plein n'est en général pas éclaté.
Paquets d'un fichier haché linéaire
H (KEY)
000
XXXXX X X
----------001
10
DEBORDEMENTS
11
100
101
Xo = H(k)
Xi = (xo+i) mod M
i= 1,2,…M-1
Définition du hachage linéaire

Notion 16: Hachage linéaire (Linear hashing)
–
–
–
Méthode de hachage dynamique nécessitant la
gestion de débordement et consistant à:
(1) éclater le paquet pointé par un pointeur
courant quand un paquet est plein,
(2) mémoriser le niveau d'éclatement du fichier
afin de déterminer le nombre de bits de la
fonction de hachage à appliquer avant et après le
pointeur courant.
Comparaison des hachages

Exercice: Comparer entre les hachages ?
3. Organisations Indexées

OBJECTIFS :
– 1) Accès rapide a partir d'une clé
– 2) Accès séquentiel trié ou non

MOYENS :
– Utilisation de tables permettant la recherche de l'adresse de
l'article a partir de la CLE

Notion 23: Index (Index)
– Table (ou plusieurs tables) permettant d'associer à une clé
d'article l'adresse relative de cet article.
Exemple de fichier indexé
index
Différents Types d'Indexes




Un index contenant toutes les cles est dense
Notion 24: Densité d'un index (Index key selectivity)
– Quotient du nombre de clés dans l'index sur le nombre
d'articles du fichier.
Un index non dense est possible si le fichier est trie
– Il contient alors la plus grande clé de chaque bloc avec
l'adresse relative du bloc.
Il est possible de construire des indexes hiérarchisés
– Chaque index possède alors un index qui permet
d'accélérer la recherche.
– Il est ainsi possible de gérer efficacement de gros fichiers.
Exemple d'index non dense
1-3-7
Paquet 1
723 31 -
9 - 11 - 23
25 - 30 - 31
Paquet 2
Paquet 3
Exemple d'index hiérarchisé

Notion 25: Index hiérarchisé (Multilevel index)
– Index à n niveaux, le niveau k étant un index trié divisé en paquets,
possédant lui-même un index de niveau k+1, la clé de chaque
entrée de ce dernier étant la plus grande du paquet.
21
Niveau 3
30
Niveau 2
12
30
21
Niveau 1
2
5
12
14
18
21
23
25
30
Variantes de méthodes indexées
FICHIER
Trié
Trié
I
Dense
N
Non trié
D
Trié
E
Non dense
X
Non trié
Possible
Non trié
IS3
Possible
VSAM ISAM
UFAS
Arbre-B

Les arbres-B fournissent des outils de base pour construire des
indexes équilibrés.

Notion 26: Arbre-B (B-tree)
– Un arbre-B d'ordre m est un arbre au sens de la théorie des
graphes tel que:
 1) Toutes les feuilles sont au même niveau;
 2) Tout nœud non feuille à un nombre NF de fils tel que
– m+1 <= NF < 2m+1 sauf la racine qui a un nombre
NFR de fils tel que 0 <= NFR < 2m+1.
Arbre-B d'ordre 2
i
cf
a, b
d,e
g,h j,k
r
lo
u
m,n p,q s,t
v,w
y,z
Structure d'un nœud d'un arbre-B
P0







x1
a1
P1
x2
a2
P2
……
xi
ai
Pi
……
xk
ak
Pk
Pi: Pointeur interne permettant de représenter l'arbre; les
feuilles ne contiennent pas de pointeurs Pi;
ai: Pointeur externe sur une page de données;
xi: valeur de clé.
(1) (x1, x2…xK) est une suite croissante de clés;
(2) Toute clé y de K(P0) est inférieure à x1;
(3) Toute clé y de K(P1) est comprise entre xi et xi+1;
(4) Toute clé y de K(PK) est supérieure à xk.
Exemple d'index en arbre-B
11
5
1 2
3 4
16
8
6
7
9
10
21
12 13 14 15 17 18 19 20 22 23 24 26
Insertion de la clé 25
(a)
11
16
12
13
14
15
21
17
18
19
20
22
23
18
19
20
22
23
24
25
26
(b)
11
16
12
13
14
15
21
24
17
25
26
Hauteur d'un Arbre-B




Le nombre de niveaux d'un arbre-B est déterminée par son
degré et le nombre de clés contenues.
Ainsi, dans le pire des cas, si l'arbre est rempli au minimum, il
existe:
– une clé à la racine,
– deux branches en partent avec m clés,
– (m+1) branches en partent avec m clés.
Pour un arbre de niveaux h, le nombre de clés est donc:
– N = 1 + 2 m (1+ (m+1) + (m+1)2 + … + (m+1)h-2)
– soit, par réduction du développement limité:
– N = 1 + 2 ((m+1)h-1-1)
D'où l'on déduit que pour stocker N clés, il faut:
– h = 1 + logm+1 ((N+1)/2) niveaux.
Arbre-B+


Notion 27: Arbre B+ (B+ tree)
– Arbre-B dans lequel on répète les clés des nœuds
– ascendants dans chaque nœud et on chaîne les nœuds
– feuilles pour permettre un accès rapide en séquentiel trié.
Les arbres-b+ sont utilises pour gérer des index hiérarchisés :
– 1) en mettant toutes les clés des articles dans un arbre B+
et en pointant sur ces articles par des adresses relatives
==> INDEX NON PLACANT
– 2) en rangeant les articles au plus bas niveau de l'arbre B+
==> INDEX PLACANT
Exemple d'index en arbre-B+
11
5 8 11
1 2 3 4 5
6 7 8
16 21 26
9 10 11
12 13 14 15 16
17 18 20 21
22 23 24 26
Avantages et Inconvénients


Avantages des organisations indexées par arbre-b (b+) :
– Régularité = pas de réorganisation du fichier nécessaires
après de multiples mises à jour.
– Lecture séquentielle rapide: possibilité de séquentiel
physique et logique (trié)
– Accès rapide en 3 E/S au plus pour des fichiers de 1 M
d'articles
Inconvénients :
– Les suppressions génèrent des trous difficiles à récupérer
– Dans le cas d'index non plaçant, la localité est mauvaise
pour des accès séquentiels ou sur clés secondaires, ce qui
conduit à de nombreux déplacement de bras.
– Taille de l'index pouvant être importante.
Exercice

Discuter de la possibilité de mettre plusieurs
indexes à un fichier
–
–

plaçant
non plaçant
Avantages et inconvénient
–
–
coût de mise à jour
coût d’interrogation
Téléchargement