Architecture
PARTIE 3
4
le serveur de la base de données est peut-être la décision la plus délicate en matière de matériel.
Voici quelques facteurs à évaluer pour choisir vos serveurs :
•
Volumétrie
. Le volume de données à gérer est déterminé par les préoccupations métier que
vous avez pour objectif de résoudre. Si la stratégie de l’entreprise est de développer des
relations client one-to-one, le niveau de détail des transactions devra être le client. La
plupart des projets d’entrepôt de données et de data marts se contentent de 200 gigaoctets
au départ. Souvent, ils sont même encore plus modestes et se mettent à croître au fur et à
mesure de l’accumulation des historiques, de la création d’agrégats et de l’apparition de
nouvelles sources de données. Toute configuration en deçà de 200 gigaoctets est facile à
administrer. Pour vous aider à vous y retrouver, nous qualifierons de
petits
les entrepôts de
données dont la capacité est inférieure à 100 gigaoctets, de
moyens
ceux allant de 100 à
500 gigaoctets et de
grands
ceux dépassant 500 gigaoctets.
•
Volatilité
. Elle mesure le dynamisme de la base de données via la fréquence des mises à
jour, le volume des données modifiées ou remplacées à chaque mise à jour et la taille de la
fenêtre de chargement. Encore une fois, les besoins métier fournissent de bonnes indica-
tions sur la volatilité. Bien évidemment, les données quotidiennes sont plus volatiles que
les données hebdomadaires ou mensuelles. Les réponses à ces questions ont une incidence
directe sur la taille et sur les performances de votre plate-forme matérielle.
•
Nombre d’utilisateurs
. Bien évidemment, le nombre d’utilisateurs, la fréquence selon
laquelle ils utilisent le data warehouse, le nombre de connexions simultanées et les pics
d’activité (fin de mois, par exemple) sont autant de facteurs importants dans la sélection
d’une plate-forme. Pour une entreprise digne de figurer au palmarès des 1 000 premières
dans
Fortune
, l’effort initial de data mart/data warehouse devra commencer par 25 à 50 utili-
sateurs actifs. Durant les dix-huit premiers mois, ce nombre passera à 100 ou 200; trois ans
plus tard, on comptera des milliers d’utilisateurs, notamment si l’entrepôt est utilisé à la fois
pour des requêtes
ad hoc
et pour créer des états standard ou presse-bouton dans une grande
entreprise. La répartition géographique des utilisateurs est également importante. S’ils sont
disséminés sur toute la planète, le système devra bien évidemment être disponible 24 heures
sur 24, ce qui a des conséquences sur le matériel. Dans un tel cas de figure, si les systèmes
opérationnels sont centralisés l’entrepôt de données devra probablement l’être également,
mais le matériel devra autoriser les chargements en parallèle ou «au compte-gouttes» pour
permettre une disponibilité constante. Si les systèmes opérationnels sont décentralisés, il
semble logique de décentraliser également les data marts.
•
Nombre de processus métier
. Le nombre de processus métier pris en charge par l’entrepôt
influe énormément sur sa complexité. Vous pouvez envisager une plate-forme matérielle
par processus si les utilisateurs sont suffisamment nombreux ou si l’activité le justifie.
Cependant, vous aurez peut-être également besoin d’un gros serveur centralisé si les
données consolidées sont indispensables aux dirigeants de l’entreprise et si les méthodes
middleware de consolidation virtuelle sont inadaptées à votre situation.
•
Type d’utilisation
. Le type d’utilisation et les outils frontaux sélectionnés ont également
une incidence sur le choix des plates-formes. En effet, une poignée d’«utilisateurs
ad hoc
»
peut peser lourdement sur les performances de l’entrepôt de données. Il est difficile d’opti-
miser un data warehouse pour ce type d’utilisation, car les bons analystes compulsent sans
cesse les données à la recherche de niches. Au contraire, un système presse-bouton essen-
tiellement destiné à produire des états standards peut être optimisé pour ce type
d’utilisation; toutefois, si vous avez l’intention d’en rester aux états standard, vous ne