L3-Informatique Paris 8
Base de données
Rim Chaabane – rchaaban[email protected]is8.fr - Séance 1 -
1
Introduction aux bases de données
1. Introduction
1.1. Qu’est-ce qu’une base de données
Définition : Un ensemble d’informations logiquement reliées entre elles.
Plus précisément, nous appellerons base de données un ensemble structuré et organisé
permettant le stockage de grandes quantités d’informations afin d’en faciliter
l’exploitation (ajout, mise-à-jour, recherche de données).
Le stockage de ces informations en base de données permet l’évolution indépendante
des programmes et des données.
La mise en œuvre de ce stockage se fait au moyen d’un outil logiciel spécialisé : Le
Système de Gestion des Bases de Données (ou SGBD
1
).
1.2. Problématique de la cohérence des données
La création d’une base de données répond au besoin de rassembler des données qui
possèdent un lien entre elles, dans le but de retrouver de l’information en utilisant des
critères de recherche basés sur le contenu de cette information.
Prenons l’exemple d’une base de données sur des albums musicaux qui mémorise, pour
chaque album, le genre, l’artiste et le titre de l’album. Ci-dessous un extrait de cette
base :
Genre Artiste Titre
Alternative Rock les Wampas Les Wampas vous aiment
Altern Rock Les Wampas Tutti frutti
Alternative Rock Wampas Les bottes rouges
Altern Rock LesShériff Les deux doigts dans la prise
Flok-Rock Joan Osborne Righteons Love
Flok/Rock Leonard Cohen Songs From A Room
Les données représentées dans cette base, souffrent de plusieurs problèmes qui
compromettent leur consultation. Par exemple, le groupe Les Wampas est représenté de
trois manières différentes dans la base : Les Wampas, les Wampas et Wampas. Ainsi une
recherche de la chaîne « Les Wampas » ne va retourner que le Titre Tutti frutti, alors que
1
DBMS en anglais pour Database Management System.
L3-Informatique Paris 8
Base de données
Rim Chaabane – rchaaban[email protected]is8.fr - Séance 1 -
2
le groupe possède trois titres dans la base. De même pour les genres, nous trouvons les
mêmes genres avec des syntaxes différentes.
La cohérence des données est la problématique fondamentale des bases de données.
Ainsi, les critères que doit satisfaire une base de données sont :
- Bonne représentation du monde réel
o Elle doit être une image fidèle de la réalité.
o Les informations de la base doivent être fiables et à jour.
- Non redondance de l’information
o Une information doit être située physiquement dans un seul endroit.
- Indépendance des programmes d’application par rapport aux données
o La base est l’image du modèle réel et les programmes sont construits
après la structure de la base de données.
- Sécurité et confidentialité des données
o La sécurité physique des données doit être assurée (sauvegardée).
o L’accès à une donnée ne doit être autorisé que pour les personnes
habilitées.
- Performances des applications et des requêtes
o Les réponses doivent être aussi rapides que possible.
o Une organisation spécifique peut être définie pour améliorer les temps de
traitement. Ce qui permet d’optimiser l’accès aux données.
Grandes classes d’utilisation des bases de données :
- BD personnelles
o 10Ko – 100Ko
- BD professionnelles typiques
o 100Ko – 100Go
- BD professionnelles trés grandes ou Very Large DataBase (VLDB)
o >100Go
1.3. Qu’est-ce qu’un SGBD
Le SGBD est un ensemble de programmes qui assure la gestion et l’accès à une base de
données. Un SGBD est multiutilisateurs, c’est à dire que plusieurs utilisateurs peuvent
accéder au SGBR et ainsi manipuler les données de la base en même temps.
Le SGBD permet à chaque utilisateur d’effectuer les tâches suivantes :
- Mettre en forme
- Sauvegarder
- Manipuler
- Interroger
- Mettre à jour la BD, tout en garantissant:
o L’intégrité
o La confidentialité des données dans un environnement multiutilisateurs
o La sécurité des données
L3-Informatique Paris 8
Base de données
Rim Chaabane – rchaaban[email protected]is8.fr - Séance 1 -
3
2. Histoire des SGBD
Le premier modèle de SGBD fût développé par IBM, dans le cadre du programme spacial
Appolo de la NASA, pendant les années 1960. Il s’agit du modèle hiérarchique. A la fin
des années 1960, Charles Williams Bacham proposa le modèle réseau, qui généralise le
modèle hiérarchique. Les premières spécifications de ce modèle furent publiées en 1969
par le groupe de travail DBTG (Data Base Task Group) de l’organisme américain
CODASYL (Conference On Data Systems Languages). Charles Williams Bacham reçu le
prix de Turing
2
en 1973 pour ses contributions sur les technologies des bases de
données.
Durant cette période, les ordinateurs évoluèrent rapidement en termes de puissance, de
diffusion et de coût. Cette évolution permit aux modèles informatiques et aux langages
de programmation d’atteindre un niveau d’abstraction suffisant pour les rendre
indépendants d’une architecture système spécifique. C’est dans ce contexte favorable
qu’Edgar Frank Codd, directeur de recherche du centre IBM, publia en 1970 un article
dans lequel il proposait de stocker des données hétérogènes dans des tables. Ce modèle
qualifié de relationnel (car il mettait en relation les tables entre elles), était à l’époque
qualifié comme une curiosité intellectuelle. En effet, il n’était pas évident que des tables
puissent un jour être gérées de manière efficace par un ordinateur. Ce scepticisme n’a
cependant pas empêché Codd de poursuivre ses recherches et son modèle s’imposa
rapidement.
Le paradigme orienté objet en programmation est avec le langage Simula (SIMple
Universal Language) en 1967. Il est donc antérieur au modèle rationnel. Mais il fallut
attendre les années 80 pour observer le plein essor de la programmation objet, et
seulement les années 90 pour son arrivée dans le monde industriel avec des langages
comme C++, Java ou encore Python. La notion de base de données objet s’est également
précisé en début des années 90. Le développement des SGBD objet s’est vite heurté à la
nécessité de compatibilité avec l’existant, c’est-à-dire avec le modèle relationnel. D’où
l’émergence du modèle relationnel-objet dont l’objectif est d’étendre le modèle
relationnel avec les concepts essentiels de l’objet. Cette extension objet du modèle
relationnel a fait l’objet d’une nouvelle norme en 1999 : la norme SQL-3.
2.1. Le modèle hiérarchique
Un SGBD hiérarchique lie des enregistrements dans une structure arborescente de façon
à ce que chaque enregistrement n’ait qu’un seul possesseur : lien père/fils. Les données
sont classées hiérarchiquement, selon une arborescence descendante. Ce modèle utilise
des pointeurs entre les différents enregistrements.
2
Equivalent du prix Nobel pour l’informatique.
L3-Informatique Paris 8
Base de données
Rim Chaabane – rchaaban[email protected]is8.fr - Séance 1 -
4
Ce modèle est encore utilisé de nos jours :
- IMS (Information Management System) d’IBM (crée pour le programme Apollo
de la NASA. utilisé par prés de 200 millions d’utilisateurs par jour. Plus de
95% des compagnies « Fortune 1000 » utilisent IMS.
- TOTAL de Cincom
2.2. Le modèle réseau
Comme le modèle hiérarchique, ce modèle utilise des pointeurs vers des
enregistrements. Toutefois la structure n’est plus forcément arborescente dans le sens
descendant.
Ce modèle est encore utilisé de nos jours :
- IDMS (Information Management System) de Computer Associates
- IDS2 de Bull
- EMDS de Xerox
Bien que simples, les modèles hiérarchiques et réseaux présentes quelques
inconvénients :
- Incohérence des données : redondance de l’information.
- Coûts élevés : nécessitent de la place mémoire avec la gestion de pointeurs.
- Maintenance difficile :
o modifier, ajouter et effacer sont complexes.
o Lorsqu’on détruit un nœud tous ses fils sont également détruits.
o Possibilité de perte d’information en supprimant des données.
- Difficultés de gestion :
o Pas de gestion de panne.
o Pas de partage des données.
o Pas de confidentialité.
A
B
C
D
E
E
A
B
C
D
E
E
L3-Informatique Paris 8
Base de données
Rim Chaabane – rchaaban[email protected]is8.fr - Séance 1 -
5
2.3. Le modèle relationnel (SGBD-R)
Dans ce modèle, les données sont enregistrées dans des tableaux à deux dimensions
(lignes et colonnes). Il existe des liens ou relations entre les tables.
La manipulation de ces données se fait selon la théorie mathématique des relations.
Rappelons que le créateur de ce modèle travaillait au sein d’IBM. Il était par ailleurs
mathématicien de formation. C’est pour cela qu’il était persuadé de pouvoir s’appuyer
sur la théorie des ensembles et la logique des prédicats. Il développa le langage SEQUEL
(Structured English QUEry Language), qui sera ensuite rebaptisé SQL (Structured Query
Language).
A partir de la fin des années 90, les bases de données relationnelles sont les bases de
données les plus répandues.
Avantages de ce modèle :
- Eliminer la redondance des données.
- Centraliser et organiser correctement les données.
- Plusieurs niveaux de modélisation.
- Outils de conception.
- Administration facilitée.
Id-p Nom Prenom
1 Dupond Pierre
2
Durand Paul
3 Masse Jean
Patients
Tuples, lignes ou
n-uplets
Table ou
Relation
Champs, attributs,
colonnes
Id-V Id-d Id-p Date
1 2 1 15/06
2
1 2 12/08
3 2 3 13/07
Visites
Id-d Nom Prenom
1 Postec François
2
Abitbol Marc
3 Martin Anne
Docteurs
1 / 8 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !